Sunteți pe pagina 1din 1195

Universidade de São Paulo

Instituto de Fı́sica
Departamento de Fı́sica Matemática
2005

Curso de Fı́sica-Matemática
Notas de Aula
João Carlos Alves Barata

Versão de 17 de junho de 2005

Estas notas ou sua versão mais recente podem ser encontradas no seguinte endereço WWW:
http://denebola.if.usp.br/∼jbarata/Notas de aula
Prefácio 14
Notação e Advertências 16

Índice

I Capı́tulos Introdutórios 19

1 Noções Básicas 20
1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . . 42
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um Grupo . . . . . . . 66
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.2 Sub-Grupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . . . 68
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . . 70
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . . . . . . . . . 72
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . . . 78
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . . 82
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

2
3/1195

1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

2 Espaços Vetoriais 93
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . . 94
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 100
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Vetoriais . . . . . . . 107
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . . 112
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . . . . . . . . . 126
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . . . . . . . . . 131

II Tópicos de Álgebra Linear 140

3 Tópicos de Álgebra Linear I 141


3.1 Rudimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . . . . . . . . 144
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . . . . . . . . 159
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 171
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . . . . . . . . . 175
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes . . . . . . . . 184
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . . 190
4/1195

3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . . . 193


3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . . . 202
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . . 205

4 Tópicos de Álgebra Linear II 210


4.1 Uma Topologia Métrica em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . . . . . . . . . 216
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) . . . . . . . . 224


4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . . . . . . . . . 227


4.4 Aplicações Lineares em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . 236
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . . . . . . . . . 242

III Equações Diferenciais 247

5 Equações Diferenciais Ordinárias. Uma Introdução 248


5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . . 251
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . . . 255
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . . . . . . . 257
5.3 Alguns Métodos de Solução de Equações Diferenciais Ordinárias . . . . . . . . . . . . . 262
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . . . 262
5.3.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . . 263
5.3.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . . 265
5.3.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . . . 266
5.3.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . . 268
5.3.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . . . 271
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . . . 276
5.4 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . . . . . . . . 280
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . . . 283
5/1195

5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . . . 286


5.4.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . . . 290

6 Sistemas de Equações Diferenciais Lineares 292


6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
6.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
6.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . . . . . . . . 311
6.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . . . . . . . . . 315
6.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . . . . . . . . . 318
6.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . . . 325
6.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . . . 326
6.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . . 337
6.7 Sistemas Provenientes de EDO’s de Ordem m . . . . . . . . . . . . . . . . . . . . . . . 341
6.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . . . 342
6.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
6.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348

7 Soluções de Equações Diferenciais Ordinárias Lineares no Plano Complexo 355


7.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . . . . . . . . . 356
7.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . . 357
7.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
7.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
7.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
7.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
7.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . . . 370
7.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . . . . . . . . . 372
7.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . . 376
6/1195

7.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . . 385


7.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
7.2.4 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
7.2.5 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
7.2.6 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . . . 406
7.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . . . 411
7.3.3 A Equação de Bessel Esférica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
7.A Prova da Proposição 7.1. Justificando os Polinômios de Legendre . . . . . . . . . . . . 414
7.B Provando (7.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
7.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
7.D Provando (7.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
7.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . . . . . . . . . . 421

8 Propriedades de Algumas Soluções de Equações Diferenciais Ordinárias e Aplicações424


8.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
8.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . . . 425
8.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
8.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
8.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
8.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . . . . . . . . 436
8.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . . . 436
8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos Esféricos . . 442
8.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . . 452
8.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . . . 456
8.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . . 460
8.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . 463
8.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . . . 478
8.3 Algumas Aplicações Selecionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.1 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções . . . . . . . . . . . . . . . . 485
8.3.3 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . . . 491
8.3.4 O Problema da Corda Pendurada . . . . . . . . . . . . . . . . . . . . . . . . . . 499
7/1195

8.3.5 O Problema da Membrana Circular . . . . . . . . . . . . . . . . . . . . . . . . . 503


8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite . . . . . 506
8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . . . . . 507
8.A Provando (8.44) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
8.B Alguns Teoremas de Unicidade de Soluções de Equações Diferenciais Parciais . . . . . . 512

9 Introdução ao Problema de Sturm-Liouville 521


9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
9.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
9.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . . 527
9.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
9.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 532
9.4 Propriedades Básicas dos Autovalores e das Autofunções de Problemas de Sturm-Liouville534
9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções . . . . . . . . . . . . 534
9.4.2 A Simplicidade dos Autovalores . . . . . . . . . . . . . . . . . . . . . . . . . . . 537
9.4.3 Condições Suficientes para a Positividade dos Autovalores . . . . . . . . . . . . 538
9.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
9.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . 545
9.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
9.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . . 549
9.A Prova do Teorema 9.1. Existência e Unicidade . . . . . . . . . . . . . . . . . . . . . . . 551
9.B Prova da Proposição 9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
9.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . . . . . . . . . 554
9.D Ausência de Autovalores em um Problema Singular . . . . . . . . . . . . . . . . . . . . 555
9.E Demonstração do Teorema 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
9.F Prova da Desigualdade (9.E.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 560

IV Grupos 563

10 Grupos. Alguns Exemplos 564


10.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565
10.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . . . 566
10.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
8/1195

10.2.2 O Grupo de Borel e Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . . 574


10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . . . 580
10.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582
10.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . 584
10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . . . 584
10.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
10.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
10.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.3.5 O Grupo SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602
10.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . . . . . . . . 603
10.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
10.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
10.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
10.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613
10.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . . . 618
10.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
10.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
10.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . 628
10.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . 632
10.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 636
10.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
10.8 SL( , 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643
10.A Prova do Teorema 10.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
10.B Um Isomorfismo entre SL( , 2)/{ , − } e L↑+ . . . . . . . . . . . . . . . . . . . . . . . 662

11 Grupos de Lie e Álgebras de Lie. Uma Breve Introdução 670


11.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 671
11.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . . . . . . . . 673
11.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.1 Uma Topologia Métrica em GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.2 O Grupo de Lie GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677
11.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . . . 680
9/1195

11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . . 683


11.3.5 Subgrupos Fechados de GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . 688
11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . . . . . . . . . . 692
11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . . 693
11.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . . . 697
11.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700

12 Uma Breve Introdução à Teoria das Representações de Grupos 706


12.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706
12.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713
12.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
12.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719
12.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720

V Topologia Geral, Teoria da Medida e Integração 726

13 Espaços Métricos 727


13.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729
13.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743
13.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746
13.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748
13.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 750
13.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 764
13.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
13.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773

14 O Teorema do Ponto Fixo de Banach e Algumas de Suas Conseqüências 779


14.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . 780
14.1.1 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . . . . 782
14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach . . . . . . . . . . . . 786
14.2 As Equações Integrais de Fredholm e de Volterra . . . . . . . . . . . . . . . . . . . . . 787
14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . . 795
14.3.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . . . 800
10/1195

14.3.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . . . 801


14.4 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . . . . . . . . . 805
14.4.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . . 805
14.4.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 810
14.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811

15 Espaços Topológicos e Espaços Mensuráveis. Definições e Propriedades Básicas 812


15.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . . . . . . . . 813
15.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
15.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . . . 828
15.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . 830
15.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . . . . . . . . 830
15.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . 834

16 Medidas 836
16.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836
16.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . . . . . . . . . . 839
16.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory . . . . . . . . 843

17 A Medida de Lebesgue 852


17.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852
17.1.1 A σ-álgebra de Borel em  e a Medida de Borel-Lebesgue . . . . . . . . . . . . 855
n
17.1.2 A Medida Produto e a Medida de Lebesgue em  . . . . . . . . . . . . . . . . 858
17.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859
17.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . 871

18 Convergência, Pontos Limite e Pontos de Acumulação em Espaços Topológicos 876


18.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876
18.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878
18.3 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . . . . . . . . 879
18.4 Redes e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . . . . . . . . . . . . 884
18.4.1 Redes em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886
11/1195

19 Continuidade de Funções em Espaços Topológicos 888


19.1 Funções Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888
19.2 Outras Caracterizações do Conceito de Continuidade em Espaços Topológicos . . . . . . 891
19.2.1 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892

20 Elementos da Teoria da Integração 895


20.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896
20.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . . . 898
20.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . . 907
20.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . . . 909
20.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914
20.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . . . 915
20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . . . 921
20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . . . 930
20.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . . . 933
20.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 936
20.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938
20.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . . 941
20.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . . . 945
20.A Demonstração da Proposição 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946
20.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . . . . . . . . . 947
20.C Prova do Lema 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953
20.D Demonstração de (20.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954
20.E A Equivalência das Definições (20.23) e (20.24) . . . . . . . . . . . . . . . . . . . . . . 955
20.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . . . . . . . . 957
20.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958
20.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . . . . . . . . 959
20.I Prova dos Teoremas 20.2 e 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 960
20.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . . . . . . . . . 963
20.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965

21 Alguns Tópicos Especiais em Topologia e Análise 968


21.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 968
21.2 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974
12/1195

21.3 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . 975


21.4 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 977
21.5 Aproximação de Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978
21.5.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . . . . 978

VI Análise Funcional 985

22 Noções Básicas Sobre Espaços de Hilbert 986


22.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . 986
22.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . . . . . . . . 988
22.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . . . 993
22.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . . . . . . . . . 1007
22.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . . 1008

23 Operadores Lineares Limitados em Espaços de Banach e de Hilbert 1011


23.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . . . . . . . . . 1013
23.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . . . 1017
23.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . . . 1021
23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . . . 1025
23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . . . 1031
23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . . 1032
23.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . . . . . . . . 1040
23.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . . . 1042
23.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . . 1053
23.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . . 1059
23.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . . 1069
23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . . . 1072
23.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . . . 1073
23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . . 1077
23.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . . . . . . . . . 1081
23.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . . . . . . . . . 1091
23.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . 1100
13/1195

23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . . 1112


23.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços de Hilbert 1120
23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . . 1121
23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . . 1123
23.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . . . 1133
23.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . . 1137
23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de Fı́sica,
finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1141
23.A Prova do Teorema 23.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1151

24 Noções de Estruturas Algébricas 1155


24.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156
24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) . . . . . . . . 1163

25 O Limite Indutivo de Álgebras 1168


14/1195

Prefácio

intenção básica destas Notas é fornecer a estudantes de Fı́sica noções matemáticas impor-
tantes para uma melhor compreensão de desenvolvimentos modernos da Fı́sica Teórica e da
Matemática.
De modo geral o texto é de leitura auto-suficiente, mas vez por outra algum estudo complementar
é sugerido. Estas Notas, porém, não são substituto à leitura dos bons livros sobre os assuntos aqui
tratados. Entretanto, procuramos apresentar (muitas vezes em exercı́cios!) o maior número possı́vel
de exemplos e contra-exemplos para as várias situações tratadas de modo a motivar melhor definições
e resultados, o que é menos comum em textos com tratamentos mais sistemáticos. Parte do material
pode ser encontrada em diversas fontes, citadas na bibliografia, mas a apresentação e sua ordem são
próprias. Há também nestas Notas demonstrações do próprio autor de resultados conhecidos que são,
por alguma razão, dificilmente encontradas na literatura.
Fazemos notar que estas notas estão ainda sendo trabalhadas e alguns capı́tulos e seções podem
vir a ser alterados, corrigidos ou acrescidos de material. Além disso, novos capı́tulos serão escritos. O
material já presente é, porém, útil a todos aqueles que queiram iniciar-se nos assuntos aqui expostos.
Versões atualizadas serão colocadas na “rede” (no endereço acima indicado) sempre que possı́vel.
O autor agradece a todos os que apresentarem sugestões. Fabulosas somas em dinheiro são ofere-
cidas a todos aqueles que encontrarem erros no texto. Entre os já aquinhoados encontram-se os Srs.
Matheus Grasselli, Alexandre T. Baraviera, Marcos V. Travaglia, Daniel Augusto Cortez, Djogo F. C.
Patrão, Cléber de Mico Muramoto, Katiúscia Nadyne Cassemiro, Urbano Lopes França Junior, Gus-
tavo Barbagallo de Oliveira, Priscila Vieira Franco Gondeck, Darielder Jesus Ribeiro, Henrique Scemes
Xavier, Daniel Augusto Turolla Vanzella, Leonardo Fernandes Dias da Motta, Krishnamurti José de
Andrade, Pedro Tavares Paes Lopes, Diego Cortegoso Assêncio, Fleury José de Oliveira Filho, Paulo
Henrique Reimberg, Fabı́ola Diacenco Xavier e Márcio André Prieto Aparı́cio Lopez aos quais somos
muito gratos por correções e sugestões.
As Seções 10.B, página 662, e 14.3.1, página 795, são de autoria de Daniel Augusto Cortez, a quem
especialmente agradecemos.

João Carlos Alves Barata São Paulo, 17 de junho de 2005.


Departamento de Fı́sica Matemática do IFUSP
15/1195

“O comportamento de um fı́sico em relação à Matemática é similar a de um ladrão inteligente em


relação ao código penal: ele estuda apenas o suficiente para evitar punições”.
I. M. Gelfand (1913-).

“A mente não é um vaso a ser repleto, mas uma tocha a ser acesa”.
Plutarco (46?-120).

“Talvez eu não tenha tido êxito em fazer as coisas difı́ceis tornarem-se fáceis, mas pelo menos eu nunca
fiz um assunto fácil tornar-se difı́cil”.
F. G. Tricomi (1897-1978).

“In science, self-satisfaction is death. Personal self-satisfaction is the death of the scientist. Collective
self-satisfaction is the death of the research. It is restlessness, anxiety, dissatisfaction, agony of mind
that nourish science”.
Jacques Lucien Monod (1910-1976), in New Scientist, 1976.

“Não existe nenhuma categoria da Ciência à qual se possa dar o nome de Ciência Aplicada. O que
existe são a Ciência e as aplicações da Ciência, intimamente ligadas, como frutos à árvore que os
gerou”.
Louis Pasteur (1822-1895), in “Pourquoi la France n’a pas trouvé d’hommes supérieurs au moment du
péril”, Revue Scientifique (Paris, 1871).
16/1195

Notação e Advertências

Para facilitar a consulta e a leitura, listamos aqui sem muitos comentários um pouco da notação
que empregaremos nestas Notas.

Se z é um número complexo denotaremos seu complexo conjugado por z. A notação z ∗ (mais


comum em textos de Fı́sica) pode ocorrer mais raramente.

O sı́mbolo A := B ou B =: A denota que A é definido pela expressão B. O sı́mbolo A ≡ B indica


que A e B são duas notações distintas para o mesmo objeto.

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores reais com n componentes (ou seja, elementos
de n ) então definimos


hx, yi := x1 y1 + · · · + xn yn .


n
Trata-se do produto escalar usual em  .

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,


elementos de n ) então definimos

hx, yi  := x1 y1 + · · · + xn yn .
n
Trata-se do produto escalar usual em .

Se x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ) são vetores complexos com n componentes (ou seja,


elementos de n ) então definimos

hx, yi 
:= x1 y1 + · · · + xn yn .
n
Trata-se de uma forma bilinear em .

Mat( , n) ou Mat(n, ) designa o conjunto de todas as matrizes reais n × n. Mat( , n) ou


 

Mat(n, ) designa o conjunto de todas as matrizes complexas n × n.


T
Se A é um elemento de Mat( , n) ou de Mat( , n), então


 A designa a matriz transposta de


T
A, ou seja, a matriz cujos elementos de matriz ij são A ij = Aji .

Se A é um operador linear em um espaço vetorial complexo (com um certo produto escalar),


seu adjunto é denotado por A∗ . Em textos de Fı́sica é mais comum denotá-lo por A† , mas não
usaremos isso aqui.
Assim, se A ∈ Mat( , n), então A∗ será a adjunta de A (em relação ao produto escalar usual,
acima). O elemento de matriz ij de A∗ será (A∗ )ij = Aji .

Denotaremos o operador identidade agindo em um espaço vetorial (a matriz identidade, agindo


em um espaço vetorial de dimensão finita) pelo sı́mbolo . Esse sı́mbolo também representará a
unidade de uma álgebra.
17/1195

Designaremos um produto escalar entre dois vetores u e v sempre por hu, vi e nunca por (u, v),
para não causar confusão com a notação para par ordenado. Outra notação possı́vel é aquela
empregada freqüentemente em textos de Mecânica Quântica: hu | vi, mas faremos raramente uso
dessa notação.

Ainda sobre produtos escalares, seguiremos sempre a convenção dos textos de Fı́sica: um produto
escalar em um espaço vetorial sobre os complexos é linear em relação ao segundo argumento e
antilinear em relação ao primeiro. Assim, se α e β são números complexos, teremos hαu, βvi =
αβhu, vi. Textos de Matemática adotam por vezes a convenção oposta (ou mesmo ambas!).

Sobre o emprego das palavras função, aplicação, mapeamento, mapa, funcional, operador, operação,
produto e forma, que por vezes causam perplexidade em estudantes, remetemos ao comentário à
página 22.

Dado um conjunto X 6= ∅, denota-se por (X) a coleção de todos os sub-conjuntos de X. (X)


é denominado o conjunto das partes de X.

A topologia usual da reta real  será denotada aqui por τ .




A σ-álgebra de Borel de  será (quase sempre) denotada aqui por M[τ ].




A σ-álgebra dos sub-conjuntos de  mensuráveis por Lebesgue será (quase sempre) denotada
aqui por MµL .

Para x ∈ , o sı́mbolo bxc designa o maior inteiro menor ou igual a x. O sı́mbolo dxe designa o


menor inteiro maior ou igual a x.

Há ainda nestas Notas um problema não totalmente sanado quando ao conjunto dos números
naturais . Em algumas seções adotou-se 0 ∈ , ou seja,
  = {0, 1, 2, 3, . . .} em outras,


adotou-se 0 6∈ , ou seja, = {1, 2, 3, . . .}. Esperamos que isso seja definitivamente corrigido
 

futuramente. Por ora, pedimos atenção ao leitor.

O sı́mbolo 2 indica o fim de um enunciado. O sı́mbolo indica o fim de uma demonstração. O


sı́mbolo 6 indica o fim do enunciado de um exercı́cio. O sı́mbolo ◊ indica o fim do enunciado de
um exemplo.

B(X) designa o conjunto de operadores limitados agindo em um espaço de Banach X. B(H)


designa o conjunto de operadores limitados agindo em um espaço de Hilbert H.

C(L) designa o conjunto de todas as funções contı́nuas (reais ou complexas, dependendo do caso),
definidas em L (na topologia que se estiver considerando em L).

B(L) designa a coleção de todos os conjuntos Borelianos de L (em relação à topologia que se
estiver considerando em L). Bl (L) designa a coleção de todas as funções Borelianas (reais ou
complexas, dependendo do caso), definidas em L.

O domı́nio de um operador T (agindo em um espaço de Banach ou de Hilbert) será denotado


por D(T ) ou por Dom(T ). A imagem (“range”) de T será denotada por R(T ) ou por Ran (T )
ou, mais raramente, por Im (T ), mas essa última notação pode causar confusão com a da parte
18/1195

imaginária de um número complexo ou mesmo com a da parte imaginária de um operador agindo


em um espaço de Hilbert: Im (T ) := 2i1 (T − T ∗ ).

As noções de propriedade válida quase em toda parte e de propriedade genérica são definidas nas
páginas 858 e 970, respectivamente.

• Intervalos

Ainda não introduzimos os números reais nem a relação de ordem entre eles mas, como essas noções
são conhecidas, vamos colocar aqui uma palavra sobre a nomenclatura usada para descrever intervalos
da reta real. Para a < b ∈ o conjunto


(a, b) = {x ∈  , com a < x < b}

é dito ser um intervalo aberto. Para a ≤ b ∈  o conjunto

[a, b] = {x ∈  , com a ≤ x ≤ b}

é dito ser um intervalo fechado. Para a < b ∈  os conjuntos

[a, b) = {x ∈  , com a ≤ x < b}

e
(a, b] = {x ∈  , com a < x ≤ b}
são ditos ser intervalos semi-abertos (ou semi-fechados).
É importante dizer que a nomenclatura “aberto” ou “fechado” acima é usada independentemente
da topologia usada em (a noção de topologia será introduzida adiante).

Parte I

Capı́tulos Introdutórios

19
Capı́tulo 1
Noções Básicas
Conteúdo

1.1 Conjuntos, Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . 21


1.1.1 Relações e Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.1.2 Relações de Ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.1.3 Cardinalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos . . . . . . . . . . . . . . . . . . 42
1.2 Estruturas Algébricas Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 44
1.2.1 Semi-grupos, Monóides e Grupos . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.2.2 Corpos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.2.3 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
1.2.4 Anéis, Álgebras e Módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2.5 Mais sobre Anéis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.2.6 Ações e Representações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Monomorfismos, En-
domorfismos e Automorfismos . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O Centro de um
Grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.1 Cosets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
1.3.2 Sub-Grupos Normais e o Grupo Quociente . . . . . . . . . . . . . . . . . . . 68
1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores . . . . . . . . . . . 70
1.4 O Produto Direto e o Produto Semi-Direto de Grupos . . . . . . . . . . . 72
1.5 Somas Diretas e Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . 75
1.5.1 Discussão Informal Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . 75
1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações . . . . . . . . 78
1.5.3 Somas Diretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
1.5.4 Produtos Tensoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
1.5.5 Produtos Diretos e Somas Diretas Arbitrários . . . . . . . . . . . . . . . . . . 82
1.5.6 Módulos e Derivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.6 Tópicos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.6.1 O Grupo de Grothendieck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
1.6.2 Grupóides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
1.6.3 Quatérnions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

20
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 21/1195

ste capı́tulo introdutório pretende (re)apresentar ao leitor uma série de noções matemáticas
básicas abrangendo rudimentos da teoria dos conjuntos e algumas estruturas algébricas. O
objetivo não é um tratamento extensivo dos diversos assuntos, já que vários deles serão desen-
volvidos em capı́tulos futuros. Trata-se quase de um guia de consulta onde são apresentadas,
junto com exemplos simples, várias noções e definições básicas que utilizaremos. O estudante deve
retornar a este capı́tulo sempre que necessário.

1.1 Conjuntos, Relações e Funções


Partiremos do pressuposto de serem familiares as noções básicas envolvendo conjuntos, como a noção
de pertinência x ∈ C, de união de dois conjuntos A ∪ B e de interseção de dois conjuntos A ∩ B.
Para A, B ⊂ X denotamos por A \ B a chamada diferença entre os conjuntos A e B, a saber
A \ B := {x ∈ X tal que x ∈ A mas x 6∈ B}. (1.1)

Por vezes usa-se a notação A − B para A \ B. Para A ⊂ X denota-se por A c o chamado complemento
de A em relação a X: Ac := X \ A. Note-se que ao usar-se o sı́mbolo Ac deve estar subentendido qual
o conjunto X ao qual o complemento se refere. É fácil ver que se A, B ⊂ X então A \ B = B c ∩ A.
Dizemos que um conjunto B ⊂ A é um subconjunto próprio de A se A \ B 6= ∅, ou seja, se houver
elementos em A que não estão em B.
Se A e B são conjuntos e A ∩ B = ∅ então A ∪ B é dita ser uma união disjunta de A e B.
Se X é um conjunto denota-se por (X) a coleção de todos os subconjuntos de X. (X) é por
vezes chamado de conjunto das partes de X. Por convenção adota-se sempre que ∅ ∈ (X). Assim,
dizer que A ⊂ X equivale a dizer A ∈ (X).
Por A4B denota-se a chamada diferença simétrica entre A e B:
A4B := (A ∪ B) \ (A ∩ B). (1.2)

E. 1.1 Exercı́cio. Mostre que A4B = B4A e que (A4B)4C = A4(B4C). 6

• Pares Ordenados

Um conceito básico importante em Matemática é o de par ordenado. O conceito de par ordenado


(a, b) formado por dois elementos genéricos a, b ∈ X é intuitivo. A intuição é que entende-se como par
ordenado uma lista de dois elementos sendo que um deles assume a posição de “primeiro” elemento
da lista (no caso, a) e o outro a de “segundo” (no caso, b). Formalmente define-se (a, b) como sendo
o conjunto {a, {b}}. Esta definição formal corresponde à intuição pois, no conjunto C = {a, {b}}, há
uma distinção entre o papel de a e de b, dado que a é um elemento do conjunto C, enquanto que b
é um elemento de um subconjunto de C, a saber do conjunto C \ {a}. Apesar de existir a definição
formal acima, recomenda-se ao estudante fiar-se inicialmente na intuição por trás do conceito.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 22/1195

Dados dois conjuntos A e B definimos por A × B o conjunto de todos os pares ordenados (a, b)
sendo a ∈ A e b ∈ B. O conjunto A × B é chamado de produto Cartesiano1 de A e B. Note que, em
geral, A × B 6= B × A. Por quê?
Mais adiante apresentaremos uma generalização da noção de produto Cartesiano de conjuntos.

1.1.1 Relações e Funções

• Relações

Sejam A e B conjuntos e seja o produto Cartesiano A × B. Um subconjunto de A × B é dito ser


uma relação binária, ou simplesmente relação entre A e B.
Exemplo. Seja A o conjunto de homens vivos e B o conjunto de mulheres vivas e seja R ⊂ A × B
o conjunto R := {(a, b), a é irmão de b}. R representa uma relação (de irmandade) entre homens e
mulheres.
Outros exemplos virão abaixo.
Dada uma relação G ⊂ A × B entre conjuntos A e B há duas noções importantes associadas: a de
domı́nio da relação e a de imagem da relação. Define-se por domı́nio de G o conjunto

Dom(G) := {a ∈ A tal que (a, b) ∈ G para algum b ∈ B}. (1.3)

Define-se por imagem de G o conjunto

Im(G) := {b ∈ B tal que (a, b) ∈ G para algum a ∈ A}. (1.4)

Note-se que Dom(G) ⊂ A e que Im(G) ⊂ B.

• Funções

Este é talvez o mais importante exemplo de relação. Sejam A e B conjuntos e F uma relação entre
A e B. Então, a relação F é dita ser uma função de A em B se Dom(F ) = A e se (a, b) ∈ F e
(a, b0 ) ∈ F só for possı́vel caso b = b0 . Em outras palavras, a cada elemento a de A a função associa um
e apenas um elemento b de B que faz o papel de segundo elemento do par ordenado (a, b). Este segundo
elemento associado pela função F ao elemento a, é mais conveniente denotá-lo por F (a). Assim, uma
função é o conjunto de pares {(a, F (a)) ∈ A × B, a ∈ A}. Freqüentemente denotamos uma função F
de A em B por F : A → B.

• Aplicações, Mapeamentos, Mapas, Funcionais, Operadores, Operações, Produtos etc.

Muito freqüentemente usam-se as palavras aplicação, mapeamento, mapa, funcional, operador,


operação, produto, transformação, forma, e talvez ainda outras, para designar certos tipos de funções
entre conjuntos. Essa abundância de palavras causa freqüentemente confusão e mesmo perplexidade
1
Assim chamado em honra a René Descartes (1596-1650). O adjetivo Cartesiano provem da latinização de seu nome
como Cartesius.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 23/1195

em estudantes recém-iniciados mas, em essência, todos esses objetos são funções, no sentido abstrato
que definimos acima.
O que difere seu uso é por vezes a tradição de certas áreas e os tipos de conjuntos que as funções
têm como domı́nio e imagem. A palavra “função”, propriamente, é mais freqüentemente empregada
quando se trata de funções numéricas, por exemplo de em ou de em . A palavra “funcional” 2
 

é freqüentemente empregada quando se trata de funções que levam vetores ou funções numéricas em
números. Um exemplo deR funcional é a função que leva funções reais contı́nuas f nas suas integrais
1
no intervalo [0, 1]: f 7→ 0 f (x)dx. A palavra “operador” tipicamente designa funções lineares entre
espaços vetoriais (como, por exemplo, as matrizes, que são funções lineares entre espaços vetoriais de
dimensão finita). “Produtos” ou “operações” freqüentemente designam funções de C × C em C, para
um conjunto C não-vazio qualquer, ou seja, funções de duas variáveis em um conjunto C, assumindo
valores no próprio conjunto C. A palavra “forma” por vezez designa certas funções bi-lineares de
V × V em ou , sendo V um espaço vetorial. As palavras “aplicação”, “mapa” e “mapeamento” são


freqüentemente empregadas para designar funções em áreas como Topologia, Geometria Diferencial ou
Sistemas Dinâmicos.
Certas palavras são empregadas para designar certas funções com propriedades especiais. Um
“homeomorfismo”, por exemplo, é uma função bijetora entre dois espaços topológicos que seja contı́nua
e cuja inversa seja também contı́nua. Um “difeomorfismo” é um homeomorfismo entre duas variedades
diferenciáveis que seja infinitamente diferenciável. Há ainda vários outros “morfismos”, como discutido
na Seção 1.2.7, à página 64.
Em verdade, é conveniente dispormos por vezes de uma certa variedade de palavras diferentes
simplesmente para evitarmos o emprego monótono e descolorido da palavra “função”. Com um pouco
de ironia, lembremos por fim a definição circular de Edward Teller: “An intelectual is someone who
thinks the same things and uses the same words as other intelectuals”.

• Imagens e pré-imagens de funções

Seja f : X → Y uma função. Se A ⊂ X, definimos


f (A) := {y ∈ Y | y = f (x) para algum x ∈ A}.
Se B ⊂ Y , definimos
f −1 (B) := {x ∈ X| f (x) ∈ B}.
f (A) é dita ser a imagem de A por f e f −1 (B) é dita ser a pré-imagem de B por f .
O uso do sı́mbolo f −1 para designar pré-imagem f −1 (B) de um conjunto B é uma escolha infeliz
(mas universalmente aceita), pois pode causar confusão com a noção de função inversa de f , que pode
não estar definida. O estudante deve estar atento.

• Funções Sobrejetoras, Injetoras e Bijetoras

Uma função F : A → B é dita ser sobrejetora se Im(F ) = B. Uma função F : A → B é dita


ser injetora ou injetiva se a cada b ∈ Im(F ) existir um e somente um elemento a ∈ Dom(F ) tal que
(a, b) ∈ F . Uma função que for sobrejetora e injetora é dita ser bijetora.
2
A palavra “funcional” foi empregada pela primeira vez na Matemática por Jacques Salomon Hadamard (1865-1963).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 24/1195

Seja uma função bijetora F ⊂ A × B. Então, a relação F −1 ⊂ B × A dada por

F −1 = {(b, a) tal que (a, b) ∈ F }

é, em verdade, uma função denominada função inversa de F . É claro que (F −1 )−1 = F .

• Famı́lias de Conjuntos

Seja X um conjunto não-vazio. Uma coleção F não-vazia de sub-conjuntos de X é por vezes dita
ser uma famı́lia de conjuntos (que são sub-conjuntos de algum X fica subentendito). Se F for uma
famı́lia de conjuntos e existirem um conjunto não-vazio I e uma função bijetora f : I → F, então
dizemos que a famı́lia F é indexada por I e os elementos de I são denominados ı́ndices. Se λ é um
ı́ndice, designaremos sua imagem pela função f simplesmente por Aλ ∈ F.
Uma indexação de uma coleção F não-vazia de sub-conjuntos de X sempre existe: podemos tomar
I = F e f a função identidade.

• Operações básicas com famı́lias de conjuntos

Sejam X e I conjuntos arbitrários não-vazios e seja associado a cada α ∈ I um sub-conjunto A α de


X. O conjunto I será freqüentemente denominado conjunto ou famı́lia de ı́ndices. Vamos introduzir
alguma notação a ser usada em todas estas Notas. Definimos
[
Aα := {x ∈ X tal que x ∈ Aα para algum α ∈ I} (1.5)
α∈I

e \
Aα := {x ∈ X tal que x ∈ Aα para todo α ∈ I}. (1.6)
α∈I

As definições acima implicam as importantes propriedades descritas na proposição que segue, cuja
demonstração deixamos como exercı́cio.
Proposição 1.1 Sejam B ⊂ X, X não-vazio, e {Aα ⊂ X, α ∈ I} uma coleção arbitrária de subcon-
juntos de X. Então valem as seguintes relações:
! !
[ \ \ [
B\ Aα = (B \ Aα ) , B\ Aα = (B \ Aα ) , (1.7)
α∈I α∈I α∈I α∈I

! !
\ \ [ [
Aα \B = (Aα \ B) , Aα \B = (Aα \ B) , (1.8)
α∈I α∈I α∈I α∈I
! !
\ \ [ [
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) , (1.9)
α∈I α∈I α∈I α∈I
! !
[ [ \ \
B∪ Aα = (B ∪ Aα ) , B∩ Aα = (B ∩ Aα ) . (1.10)
α∈I α∈I α∈I α∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 25/1195

As relações, (1.7) implicam


!c !c
[ \ \ [
Aα = (Aα )c , Aα = (Aα )c . (1.11)
α∈I α∈I α∈I α∈I

• Propriedades elementares de funções

As seguintes proposições são importantes e freqüentemente usadas:


Proposição 1.2 Seja f : X → Y uma função e seja Λ um conjunto de ı́ndices. Se A λ ⊂ X para todo
λ ∈ Λ, então !
[ [
f Aλ = f (Aλ ) , (1.12)
λ∈Λ λ∈Λ
mas !
\ \
f Aλ ⊂ f (Aλ ) . (1.13)
λ∈Λ λ∈Λ

Se Bλ ⊂ Y para todo λ ∈ Λ, então


!
[ [
f −1 Bλ = f −1 (Bλ ) , (1.14)
λ∈Λ λ∈Λ

e !
\ \
f −1 Bλ = f −1 (Bλ ) . (1.15)
λ∈Λ λ∈Λ
2

A demonstração é elementar e é deixada como exercı́cio.


T  T
EmT(1.13) não se pode provar a igualdade entre f λ∈Λ A λ e λ∈Λ f (Aλ ) e a razão é a seguinte:
se y ∈ λ∈Λ f (Aλ ) então y T ∈ f (Aλ ) para todo λ ∈ Λ. Assim, em cada Aλ existe um xλ com y = f (xλ ).
Mas pode ocorrer que em λ∈Λ Aλ não exista nenhum elemento x com y = f (x). O seguinte exemplo
ilustra isso. Seja f (x) = x2 definida em [−1, 1]. Tomemos A1 = [−1, 0], A2 = [0, 1]. Então,
f (A1 ) = [0, 1] e f (A2 ) = [0, 1]. Portanto, f (A1 ) ∩ f (A2 ) = [0, 1]. Porém, f (A1 ∩ A2 ) = f ({0}) = {0}.
apesar disso, vale o seguinte:
Proposição 1.3 Se f : X → Y é injetora então, se Aλ ⊂ X para todo λ ∈ Λ, vale
!
\ \
f Aλ = f (Aλ ) . (1.16)
λ∈Λ λ∈Λ

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 26/1195

A demonstração é elementar e é deixada como exercı́cio.


Em relação às operações de complemento e diferença de conjuntos temos o seguinte:
Proposição 1.4 Se f : X → Y é uma função e B, C ⊂ Y , então
c
f −1 (B c ) = f −1 (B) ,
f −1 (B \ C) = f −1 (B) \ f −1 (C) .
Aqui, B c = Y \ B. Fora isso, se f : X → Y é uma função injetora e sobrejetora e A, B ⊂ X, então
f (Ac ) = (f (A))c ,
f (A \ B) = f (A) \ f (B) .
Aqui, Ac = X \ A. 2

A demonstração é elementar e é deixada como exercı́cio.

• A União Disjunta de uma Famı́lia Arbitrária de Conjuntos

Sejam, como acima, um conjunto I (não necessariamente finito ou contável) e Ai , i ∈ I, conjuntos


indexados por elementos de I. Os conjuntos Ai podem eventualmente possuir elementos comuns, ou
seja, pode haver elementos x que comparecem
S em vários conjuntos Ai . Porém, quando formamos a
união usual dos conjuntos Ai , ou seja, i∈I Ai , cada elemento x comparece apenas uma vez, mesmo que
pertença a vários Ai ’s. Por vezes estamos interessados em formar um outro tipo de união de conjuntos
onde essa possı́vel multiplicidade de cada elemento x possa ser levada em conta. A definição abaixo é,
para tal, das mais adequadas.
G
Definimos a união disjunta da famı́lia de conjuntos Ai como sendo o conjunto, denotado por Ai ,
i∈I
dado pela união de todos os pares ordenados (a, i) com i ∈ I, a ∈ Ai , ou seja,
G [ [
Ai := (a, i) .
i∈I i∈I a∈Ai

Uniões disjuntas desempenham um papel em várias áreas da Matemática. Na Geometria Diferencial,


por exemplo, o chamado fibrado tangente de uma variedade diferenciável é definido como a união
disjunta dos espaços tangentes à variedade.

• Extensões de Funções

Seja F : A → B uma função e suponha que A seja subconjunto de um outro conjunto A0 . Uma
função G : A0 → B é dita ser uma extensão de F se F e G coincidirem na parte comum de seus
domı́nios, que vem a ser o conjunto A, ou seja, se G(a) = F (a) para todo a ∈ A.
Se lembrarmos que uma função F : A → B é um subconjunto de A×B e que uma função G : A0 → B
é um subconjunto de A0 × B e se notarmos que A × B ⊂ A0 × B caso A ⊂ A0 , então uma definição
alternativa de extensão seria seguinte: uma função G é uma extensão de uma função F se F ⊂ G,
ambas entendidas como subconjuntos de A0 × B.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 27/1195

E. 1.2 Exercı́cio. Verifique a equivalência dessas duas definições do conceito de extensão de funções.
6

Como veremos, o conceito de extensão de funções é freqüentemente empregado na teoria dos ope-
radores lineares em espaços de Hilbert.

• O Produto Cartesiano de uma Famı́lia Arbitrária de Conjuntos

Já discutimos o conceito de produto Cartesiano de dois conjuntos A e B: A × B e com ele introdu-
zimos a noção de função. De posse dessa noção podemos, com vistas a uma generalização, apresentar
uma outra visão do conceito de produto Cartesiano de dois conjuntos, a saber, podemos dizer que A×B
é o conjunto de todas as funções f : {1, 2} → A ∪ B tais que f (1) ∈ A e f (2) ∈ B. A idéia é dizer que
cada par ordenado (a, b) com a ∈ A e b ∈ B é uma função onde o primeiro membro do par é a imagem
de 1 (por ser o primeiro) e o segundo a imagem de 2 (por ser o segundo). Essa idéia permite definir pro-
dutos Cartesianos de um número finito n de conjuntos A1 , A2 , . . . , An denotado por A1 × A2 × . . . × An
n
[
como sendo o conjunto de todas as funções f : {1, 2, . . . , n} → Aj satisfazendo f (j) ∈ Aj para todo
j=1
n
[
j ∈ {1, . . . , n}. A função f tem, por assim dizer, o papel de ordenar os elementos de Aj tomando-se
j=1
sucessivamente um elemento de cada Ai por vez. O produto Cartesiano A1 × A2 × . . . × An é assim
entendido como o conjunto formado por todas as ênuplas ordenadas (a1 , . . . , an ) com ai ∈ Ai .
Essa idéia pode ser generalizada ainda mais. Sejam I um conjunto não-vazio (não necessariamente
finito ou contável) e Ai , i ∈ I, conjuntos não-vazios indexados por elementos de I. Definimos então o
produto Cartesiano da famı́lia de conjuntos {Ai , i ∈ I}, denotado por
Y
Ai
i∈I
[
como sendo o conjunto de todas as funções f : I → Aj tais que f (x) ∈ Ax para todo x ∈ I. O
j∈I
Axioma da Escolha (página
Q 27) consiste na afirmação (ou melhor dizendo, na suposição, já que se trata
de um axioma) que i∈I Ai é não-vazio.
Se por ventura todos os conjuntos Ai forem idênticos então denota-se o produto Cartesiano acima
por AI . Assim, AI denota o conjunto de todas as funções de I em A.
{1, 2}
Desta forma ×
 e
  são duas notações distintas para o mesmo objeto, que também é
denotado simplesmente por 
2
, como se sabe. Genericamente d designa {1,...,d} para d ∈ , d > 0.
  

• O Axioma da Escolha

O Axioma da Escolha consiste na seguinte afirmativa:


Seja As , s ∈ I, uma famı́lia de conjuntos não-vazios, onde I é um conjunto arbitrário (não-vazio)
de ı́ndices. Então, podemos construir um conjunto A tomando (“escolhendo”)[ um elemento a s de cada
conjunto As . Em termos mais técnicos, o axioma diz que há funções F : I → As tais que F (s) ∈ As
s∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 28/1195

Q
para todo s ∈ I, ou seja, o produto Cartesiano s∈I As é não vazio3 .
A primeira vista esse axioma parece constituir-se de uma obviedade. Sucede, porém, que, sobretudo
pelo fato de o conjunto I de ı́ndices ser arbitrário (podendo ser até um conjunto infinito e não-contável),
a afirmativa que o mesmo contém não pode ser derivada de princı́pios mais básicos. O axioma faz uma
afirmação de existência (de uma função como a F , ou de um conjunto como A formado por elementos
escolhidos de cada As ) que, geralmente, não pode ser demonstrada construtivamente, ou seja, por
exibição explı́cita de uma tal função F ou de um conjunto A.
Faremos uso explı́cito do Axioma da Escolha adiante quando exibirmos exemplos de conjuntos não-
mensuráveis. O Axioma da Escolha foi originalmente formulado por Zermelo4 em 1904 como parte da
sua demonstração do chamado Princı́po do Bom-Ordenamento, Teorema 1.1, página 34. Vide [50].
Uma tı́pica situação na qual se faz uso do Axioma da Escolha ocorre quando são dados um conjunto
X e uma uma relação de equivalência E em X e constrói-se um conjunto A ⊂ X tomando-se um
representante de cada classe de equivalência de X por E.
Nem sempre é possı́vel exibir explicitamente os elementos de A, mas assumimos (via Axioma da
Escolha) que um tal conjunto existe. Para ter-se em mente um caso onde uma tal situação ocorre,
tome-se o exemplo dado em (1.18), página 29.

• Relações de Equivalência

Outro tipo importante de relação é formado pelas chamadas relações de equivalência. Uma relação
E ⊂ A × A é dita ser uma relação de equivalência em um conjunto não-vazio A se os seguintes quesitos
forem satisfeitos:

1. (a, a) ∈ E para todo a ∈ A.


2. (a, b) ∈ E implica que (b, a) ∈ E.
3. (a, b) ∈ E e (b, c) ∈ E implicam que (a, c) ∈ E.

Se o par (a, b) pertence a uma relação de equivalência E então a e b são ditos serem equivalentes
E
segundo E. Quase sempre usa-se a notação a ∼ b, ou simplesmente a ∼ b, para indicar que dois
elementos são equivalentes segundo uma relação de equivalência dada.
Seja A um conjunto e E ⊂ A × A uma relação de equivalência em A. Para cada a ∈ A podemos
definir o conjunto
E(a) := {a0 ∈ A tal que (a, a0 ) ∈ E}. (1.17)
Esse conjunto é chamado de classe de equivalência de a (pela relação de equivalência E).

E. 1.3 Exercı́cio. Seja A um conjunto e E ⊂ A × A é uma relação de equivalência em A. Suponha que


a, b ∈ A e que a ∼ b segundo E. Prove que E(a) = E(b). 6

E. 1.4 Exercı́cio importante. Prove que se A é um conjunto e E ⊂ A × A é uma relação de equivalência


em A então A é a união disjunta de classes de equivalência de seus elementos. 6
3
Q
Para a definição do produto Cartesiano s∈I As , vide página 27.
4
Ernst Friedrich Ferdinand Zermelo (1871-1953).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 29/1195

E. 1.5 Exercı́cio. Seja o conjunto dos números reais  e seja a relação W ⊂  ×  definida por

W := {(x, y) ∈  ×  tal que x − y ∈ }, (1.18)

onde é o conjunto dos números racionais. Prove que W é uma relação de equivalência. 6

• Relações de Compatibilidade

Seja P um conjunto. Uma relação de compatibilidade em P é um conjunto C ⊂ P × P com as


seguintes propriedades:

1. Se γ e γ 0 são tais que (γ, γ 0 ) ∈ C, então (γ 0 , γ) ∈ C.

2. Para todo γ ∈ P vale (γ, γ) 6∈ C.

Para uma dada relação de compatibilidade C denotamos γ ∼C γ 0 caso (γ, γ 0 ) ∈ C e dizemos que
γ e γ 0 são C-compatı́veis. Caso contrário, denotamos γ 6∼C γ 0 se (γ, γ 0 ) 6∈ C e dizemos que γ e γ 0 são
C-incompatı́veis.
Se uma dada relação C é subentendida, denotamos simplesmente γ ∼ γ 0 caso (γ, γ 0 ) ∈ C e dizemos
simplesmente que γ e γ 0 são compatı́veis.
Relações de compatibilidade são importantes na Mecânica Estatı́stica, especialmente nas chamadas
expansões de polı́meros e de “clusters”.
Exemplo. Seja X um conjunto não-vazio e P = (X) \ {∅}, a coleção de todos os subconjuntos
não-vazios de X. Uma relação de compatibilidade em P é a seguinte: A ∼ B ⇐⇒ A ∩ B = ∅.
Verifique.

1.1.2 Relações de Ordem


Seja X um conjunto não-vazio. Uma relação R ⊂ X × X é dita ser uma relação de ordem parcial em
X, ou simplesmente uma relação de ordem em X, se as seguintes condições forem satisfeitas:

1. Para todo a ∈ X tem-se que (a, a) ∈ R.

2. Se (a, b) ∈ R e (b, a) ∈ R então forçosamente a = b.

3. Se (a, b) ∈ R e (b, c) ∈ R então (a, c) ∈ R.

Se X possui uma ordem parcial R, X é chamado de conjunto parcialmente ordenado por R. Em


textos matemáticos em lı́ngua inglesa, conjuntos parcialmente ordenados são freqüêntemente denomi-
nados posets (de “partially ordered sets”). A noção de conjunto parcialmente ordenado foi introduzida
por Hausdorff5
5
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 30/1195

Exemplo. Seja X um conjunto e (X) a coleção de todos os sub-conjuntos de X. Podemos estabe-


lecer em (X) uma relação R do seguinte tipo: para A, B ⊂ X tem-se (A, B) ∈ R se A ⊂ B. Como
exercı́cio deixamos ao estudante mostrar que esta é uma relação de ordem parcial de acordo com a
definição acima. Este exemplo ilustra também por que chamar tal relação de ordem de “parcial”. A
razão é que nem todo par (A, B) é elemento de R pois, para dois conjuntos A e B arbitrários, nem
sempre vale que A ⊂ B ou que B ⊂ A (por exemplo se A ∩ B = ∅).
Em função da analogia com essa relação de ordem usual dos números reais é costume, dada uma
relação de ordem R qualquer, indicar que (a, b) ∈ R através da notação a  b. Por vezes, o sı́mbolo
≤ é também usado, mas tentaremos empregá-lo apenas para denotar a relação de ordem usual entre
números reais.

• Relações de Ordem Total

Outro conceito importante é o de relação de ordem total. Uma ordem parcial R em um conjunto X
é dita ser uma relação de ordem total se para todo a, b ∈ X tem-se que (a, b) ∈ R ou que (b, a) ∈ R.
Se X possui uma relação de ordem total R então X é dito ser totalmente ordenado ou linearmente
ordenado. Assim, se X é um conjunto dotado de uma relação de ordem parcial, dizemos que um
sub-conjunto A ⊂ X é linearmente ordenado se a  b ou b  a para todo a, b ∈ A.

• Exemplos

Exemplo. Seja  o conjunto de números reais e a relação de ordem (x, y) ∈ R se x − y for um


número negativo ou nulo (ou seja, se x ≤ y). Mostre que essa é uma relação de ordem total em . 

Contra-exemplo. Seja C um conjunto não-vazio qualquer. Então, (C) é ordenado pela inclusão de
conjuntos: A  B se e somente se A ⊂ B. Porém (C) não é linearmente ordenado pois se A ∩ B = ∅
não podemos dizer que A  B nem que B  A.
2 3
E. 1.6 Exercı́cio. Você consegue construir uma relação de ordem em  ou em  ? E uma relação de
ordem total? 6

• Mais Exemplos

Seja o conjunto dos números naturais . Podemos estabelecer em a relação de ordem usual onde
 

dizemos que x ≤ y se x − y for um número negativo ou nulo. Esta relação é uma relação de ordem
total. O leitor não deve pensar que essa é a única relação de ordem total existente em . Um outro 

exemplo é o seguinte.
Vamos estabelecer uma relação de ordem em que denotaremos pelo sı́mbolo p−i . Sejam a,


b ∈ . Se a e b forem pares dizemos que a p−i b se a ≤ b. Se a e b forem ı́mpares dizemos que a p−i b


se a ≤ b. Se a é par e b é ı́mpar então dizemos sempre que a p−i b.

E. 1.7 Exercı́cio. Mostre que a relação p−i estabelece uma relação de ordem total em  . 6

Um exemplo análogo pode ser construı́do em . Vamos estabelecer uma relação de ordem em
 

que denotaremos pelo sı́mbolo r−i . Sejam x, y ∈ . Se x e y forem racionais dizemos que x r−i y se

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 31/1195

x ≤ y. Se x e y forem irracionais dizemos que x r−i y se x ≤ y. Se x é racional e y é irracional então


dizemos sempre que x r−i y.

E. 1.8 Exercı́cio. Mostre que a relação r−i estabelece uma relação de ordem total em  . 6

• Ordem Lexicográfica

É possı́vel estabelecer uma relação de ordem total em 2 da seguinte forma: dizemos que (x1 , x2 ) L


(y1 , y2 ) se x1 < y1 ou se x1 = y1 e x2 ≤ y2 . Essa relação de ordem é denominada relação de ordem


lexicográfica de 2 . 

Essa definição pode ser facilmente generalizada. Seja X um conjunto totalmente ordenado por uma
relação de ordem total X . Então, X n pode ser totalmente ordenado dizendo-se (x1 , . . . , xn ) L
(y1 , . . . , yn ) se houver um j ∈ {1, . . . , n}, tal que xi = yi para todo i < j e xj X yj .

S∞Seja nX um conjunto totalmente ordenado por uma relação de ordem total X e seja Seja X =
n=1 X . Podemos estabelecer em X uma ordem total X , também denominada lexicográfica, da
seguinte maneira. Sejam m, n ∈ e p = min{m, n}. Então, dizemos (x1 , . . . , xm ) X (y1 , . . . , yn ) se


(x1 , . . . , xp ) L (y1 , . . . , yp ) no sentido dado no parágrafo anterior, ou se (x1 , . . . , xp ) = (y1 , . . . , yp ),


mas m < n.

E. 1.9 Exercı́cio. Por que essas relações de ordem são denominadas “lexicográficas”? Pense na maneira
como palavras (de tamanho arbitrário!) são ordenadas em um dicionário. 6

Podemos ainda estender a definição de ordem lexicográfica. Seja X um conjunto totalmente orde-
nado por uma relação de ordem total X e seja Y um conjunto totalmente ordenado por uma relação
de ordem total Y . Então, X Y pode ser totalmente ordenado dizendo-se X Y 3 x L y ∈ X Y se houver
um j ∈ Y , tal que x(i) = y(i) para todo i Y j e x(j) X y(j).
Exemplo. Sejam f, g, duas funções de em . Dizemos que f L g se existir y ∈
  tal que 

f (x) = g(x) para todo x < y mas f (y) ≤ g(y). Lembrando que o conjunto de todas as funções de 

em é , vê-se que essa definição coincide com a dada acima.




 

• Conjuntos Dirigidos

Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a  c e b  c.
Exemplo.  é um conjunto dirigido com a relação de ordem usual.
Exemplo.  é um conjunto dirigido com a relação de ordem r−i definida acima.
Exemplo. Seja o conjunto n , n = 1, 2, . . ., e seja I o conjunto de todos os abertos limitados de n
 

(um conjunto é limitado se for subconjunto de alguma bola aberta de raio finito centrada na origem).
Mostre que I é um conjunto dirigido pela relação de ordem de inclusão: A  B se A ⊂ B. Note que
essa relação de ordem não é uma relação de ordem total.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 32/1195

Contra-Exemplo. Seja X um conjunto não-vazio e seja I = (X) \ {X}, ou seja, I é a coleção


de todos os subconjuntos de X, exceto o próprio X. Podemos ter em I uma relação de ordem (de
inclusão) dizendo que A  B se A ⊆ B. Notemos, porém, que I não é um conjunto dirigido pois
para A ∈ I, A 6= ∅ temos X \ A ∈ I mas não existe em I nenhum conjunto que contenha A e X \ A
simultaneamente como subconjuntos.
Exemplo. Causalidade de Einstein. Seja 4 o espaço-tempo quadri-dimensional de Minkowski e
sejam E0 = (t0 , x0 , y0 , z0 ) e E1 = (t1 , x1 , y1 , z1 ) dois eventos em 4 . Dizemos que o evento E0 precede
causalmente o evento E1 , (em notação simbólica E0 Einstein E1 ), se t0 ≤ t1 e se

c2 (t1 − t0 )2 − (x1 − x0 )2 − (y1 − y0 )2 − (z1 − z0 )2 ≥ 0 ,

onde c é a velocidade da luz.


4 4
E. 1.10 Exercı́cio. Mostre que Einstein é uma relação de ordem em e que é um conjunto dirigido
por essa relação. 6

• Redes e Seqüências

Seja I um conjunto dirigido com respeito à uma relação de ordem parcial . Se M é um conjunto
não-vazio, uma função f : I → M é denominada uma rede em M baseada no conjunto dirigido I com
respeito a  ou, simplesmente, uma rede6 em M .
Uma seqüência em M é uma rede baseada em , que é um conjunto dirigido com respeito à ordem


usual dos naturais, ou seja, é uma função f : → M .

A noção de rede é importante, por exemplo, no estudo de funções contı́nuas em espaços topológicos
gerais e na definição da noção de convergência (vide Capı́tulo 18, página 876).
Se f : → M é uma seqüência em M , os elementos f (n) de sua imagem são freqüentemente


denotados por uma notação com ı́ndices: fn . É também comum denotar-se a própria seqüência por
{fn , n ∈ } ou por {fn }n∈ , que, estritamente falando, representam a imagem de f em M .


• Máximos e Mı́nimos

Se X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ) diz-se que
um elemento z ∈ X é um máximo de X se x  z para todo x ∈ X. Se z e z 0 são máximos de X então,
por hipótese, valem ambas as relações z  z 0 e z 0  z, o que implica z = z 0 . Assim, se X possuir um
máximo ele é único, e é denotado por max(X).
Se A ⊂ X, a relação de ordem parcial em X induz uma relação de ordem parcial em A. Com essa
relação, podemos definir max(A), se existir, como o elemento de A tal que a  max(A) para todo
a ∈ A. Note que, por definição, max A ∈ A.
Analogamente, um elemento a é dito ser um mı́nimo de X se a  x para todo x ∈ X. Se a e a0
são mı́nimos de X então, por hipótese, valem ambas as relações a  a0 e a0  a, o que implica a = a0 .
Assim, se X possuir um mı́nimo ele é único, e é denotado por min(X).
6
Alguns autores em lı́ngua portuguesa preferem usar a palavra reticulado em lugar de rede.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 33/1195

• Elementos Maximais e Minimais

Seja X é um conjunto dotado de uma relação de ordem parcial (que denotamos por ).
Um elemento z ∈ X é dito ser maximal se não existir x ∈ X, x 6= z tal que z  x.
Um elemento a ∈ X é dito ser minimal se não existir x ∈ X, x 6= a tal que x  a.
Os elementos maximais e minimais de um conjunto parcialmente ordenado X, se exitirem, não são
necessariamente únicos, como mostra o seguinte exemplo.

E. 1.11 Exercı́cio-Exemplo. Considere no plano 2 o quadrado fechado Q = [0, 1] × [0, 1], ou seja, os


elementos de Q são pares ordenados (x, y) ∈ 2 com 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Estabelecemos em Q




uma relaçao de ordem (parcial!) da seguinte forma: (x, y)  (x 0 , y 0 ) se x = x0 e se y ≤ y 0 . Em palavras,


(x, y)  (x0 , y 0 ) se ambos os pontos estiverem em uma mesma linha vertical, mas (x, y) estiver mais baixo
que (x0 , y 0 ). Cheque que isso é, de fato, uma relação de ordem, mas que não é uma ordem total, pois não
se pode comparar pontos que estão em linhas verticais diferentes.
Com essa definição convença-se que todos os elementos da forma (x, 1) são maximais. Porém, se x
for diferente de x0 , não se pode nem dizer que (x, 1)  (x0 , 1) nem que (x0 , 1)  (x, 1). Igualmente,
convença-se que todos os elementos da forma (x, 0) são minimais.
Note também que para a existência de elementos maximais é importante que Q contenha pontos na aresta
de cima e (com coordenada y = 1), analogamente, para a existência de elementos minimais é importante
que Q contenha pontos aresta de baixo (com coordenada y = 0). Por exemplo, se você definir a mesma
relação de ordem no quadrado aberto (0, 1) × (0, 1) não há mais elementos maximais ou minimais. 6

Se um conjunto não-vazio e parcialmente ordenado X possuir um único elemento maximal, este


elemento é denominado o maior elemento de X. Reciprocamente, se um conjunto não-vazio e parcial-
mente ordenado X possuir um único elemento minimal, este elemento é denominado o menor elemento
de X.

• Conjuntos Bem-Ordenados

Um conjunto X dotado de uma relação parcial de ordem  é dito ser um conjunto bem-ordenado
se todo subconjunto A não vazio de X tem um elemento mı́nimo em A.

E. 1.12 Exercı́cio. Mostre que todo conjunto bem-ordenado segundo uma relação parcial de ordem é
também totalmente ordenado segundo a mesma relação. 6

E. 1.13 Exercı́cio. A recı́proca não é, entretanto, verdadeira. Mostre que é totalmente ordenado pela


relação usual de ordem entre números reais, mas não é um conjunto bem-ordenado. 6

E. 1.14 Exercı́cio. Mostre que o conjunto dos números naturais  é bem-ordenado. 6

A importância de conjuntos bem-ordenados é que a eles se aplica uma generalização do bem-


conhecido método de indução matemática, muito empregado em demonstrações de teoremas, deno-
minada princı́pio de indução transfinita. O estudante interessado encontrará em [50] uma excelente
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 34/1195

referência introdutória. Nesta mesma referência o estudante interessado encontrará uma demonstração
do seguinte e importante resultado, devido a Zermelo7 :
Teorema 1.1 (Teorema do Bom-Ordenamento) Se X é um conjunto não-vazio então é possı́vel
encontrar uma relação de ordem  em X tal que X é bem-ordenado por essa relação. 2

Incidentalmente, o Teorema 1.1 junto com a afirmação do Exercı́cio E. 1.12 informam que todo
conjunto não-vazio possui ao menos uma relação de ordem total.

• Majorantes e Minorantes

Seja X um conjunto dotado de uma ordem parcial denotada por  e seja A ⊂ X. Se existe t ∈ X
tal que a  t para todo a ∈ A dizemos que t é um majorante de A, ou um limitante superior 8 de A.
Analogamente, se existe h ∈ X tal que h  a para todo a ∈ A dizemos que h é um minorante de A
ou um limitante inferior9 de A.

• Conjuntos Limitados

Seja X um conjunto dotado de uma ordem parcial denotada por . Um conjunto A ⊂ X que tenha
pelo menos um majorante é dito ser um conjunto limitado superiormente. Um conjunto A ⊂ X que
tenha pelo menos um minorante é dito ser um conjunto limitado inferiormente.

• Ínfimo e Supremo

Seja X um conjunto dotado de uma ordem parcial denotada por  e seja A ⊂ X.


O mı́nimo do conjunto de majorantes de A, se existir, é dito ser o supremo de A e é indicado por
sup(A). Note que o supremo de A, se existir, é único, por ser o mı́nimo de um conjunto. Assim, s ∈ X
é dito ser o supremo de A se for um majorante de A e se s  t para todo t que seja majorante de A.
Note que o supremo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do
que ocorre com o máximo de A (caso exista).
O máximo do conjunto dos minorantes de A, se existir, é dito ser o ı́nfimo de A e é indicado por
inf(A). Note que o ı́nfimo de A, se existir, é único, por ser o máximo de um conjunto. Assim, i é o
ı́nfimo de A se for um minorante de A e se h  i para todo h que seja minorante de A. Note que o
ı́nfimo de um conjunto A ⊂ X não é necessariamente um elemento de A, ao contrário do que ocorre
com o mı́nimo de A (caso exista).
É interessante notar o seguinte. Dado um conjunto X dotado de uma ordem parcial poderı́amos nos
perguntar se todo subconjunto limitado superiormente de X possui um supremo ou, analogamente, se
todo subconjunto de X limitado inferiormente possui um ı́nfimo. A validade ou não dessas propriedades
depende de X e da relação de ordem em questão. Por exemplo, para X = , o conjunto dos racionais
7
Ernst Friedrich Ferdinand Zermelo (1871-1953).
8
A expressão “limite superior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
9
A expressão “limite inferior” é também usada na literatura, mas deve ser evitada para não causar confusão com a
noção de limite.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 35/1195

com a relação de ordem usual, verifica-se que a propriedade não é valida. Tomemos A = {x ∈ , x 2 <
2}. Claramente esse conjunto é limitado inferior e superiormente mas não possui nem supremo nem
ı́nfimo (por quê?). Para X = e X ∈ (com as relações de ordem usuais) a propriedade é, porém,
 

válida.

E. 1.15 Exercı́cio. Tome X = com a relação de ordem usual. Mostre que inf((−1, 1)) = −1 e que


sup((−1, 1)) = 1. Note que −1 e 1 não são elementos de (−1, 1). 6

E. 1.16 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que inf(A) e inf(B) existam. Mostre então que

inf(A ∪ B) = min{inf(A), inf(B)}.

E. 1.17 Exercı́cio. Suponha que A e B sejam dois sub-conjuntos de um conjunto X dotado de uma
ordem total e que sup(A) e sup(B) existam. Mostre então que

sup(A ∪ B) = max{sup(A), sup(B)}.

• O Lema de Zorn

Uma das afirmativas fundamentais de toda a Matemática usual é o seguinte resultado, conhecido
como lema de Zorn, em homenagem a um dos seus formuladores10 :
Lema 1.1 (Lema de Kuratowski-Zorn) Seja X um conjunto não-vazio e  uma relação de ordem
parcial em X. Suponha que todo sub-conjunto linearmente ordenado de X tenha pelo menos um majo-
rante em X. Então, todo sub-conjunto linearmente ordenado de X tem algum majorante em X que é
também um elemento maximal de X. Implicitamente isso está dizendo que, sob as hipóteses, X possui
ao menos um elemento maximal. 2

Para uma demonstração do Lema de Zorn, vide, por exemplo, [50].

E. 1.18 Exercı́cio. Verifique que se X = [0, 1] é ordenado pela relação de ordem usual todo sub-
conjunto de X tem um majorante em X e que 1 é um desses possı́veis majorantes. Verifique que 1 é um
elemento maximal de X. 6

E. 1.19 Exercı́cio. Verifique que se X = [0, 1) é linearmente ordenado pela relação de ordem usual e
nem todo sub-conjunto de X tem um majorante em X (tente, por exemplo, sub-conjuntos do tipo [a, 1)
com 0 ≤ a < 1). Verifique que X não tem um elemento maximal. 6
10
Max August Zorn (1906-1993). Em verdade, o Lema de Zorn foi primeiramente descoberto por Kazimierz Kuratowski
(1896-1980). O trabalho de Kuratowski data de 1922 e o de Zorn de 1935.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 36/1195

E. 1.20 Exercı́cio. Cheque se as hipóteses do Lema de Zorn são satisfeitas ou não nos quadrados abertor
e fechados do Exemplo E. 1.11, página 33. 6

O Lema de Zorn é “equivalente” ao chamado Axioma da Escolha (vide página 27), ou seja, admitir
um como verdadeiro leva a demonstrar a validade do segundo. Essa equivalência não será provada
aqui (vide, por exemplo, [50]). Toda a Matemática usual é fundada na aceitação de um ou de outro
como verdadeiro e, em princı́pio, uma nova Matemática pode ser construı́da (com resultados distintos
dos da Matemática usual) se esses dois axiomas forem substituı́dos por um terceiro inequivalente. A
relevância de tais Matemáticas em Fı́sica é uma questão em aberto.

1.1.3 Cardinalidade

• A Noção de Cardinalidade de Conjuntos

Seja K uma coleção de conjuntos. Dados dois conjuntos A e B da coleção K, dizemos que A e
B são equivalentes se houver uma função bijetora de A sobre B, ou seja, se houver uma função com
domı́nio igual a A e imagem igual a B tal que a cada elemento b ∈ B existe um único elemento a ∈ A
com f (a) = b.

E. 1.21 Exercı́cio. Mostre que essa é uma relação de equivalência entre os conjuntos da coleção K. 6

Para dois conjuntos que são equivalentes no sentido acima diz-se também que os mesmos têm a
mesma cardinalidade. Ou seja, dois conjuntos têm a mesma cardinalidade se e somente se houver uma
função bijetora entre eles.
Um conjunto A é dito ter n elementos (para um número natural n) se for equivalente ao conjunto
{1, . . . , n}.

Nota. Esta última definição pressupõe que o conceito de número natural já seja conhecido. Outra construção mais simples em termos de
pressupostos é feita de modo informal como segue: diz-se que um conjunto tem um elemento se for equivalente ao conjunto {∅}; que um
conjunto tem dois elementos se for equivalente ao conjunto {∅, {∅}}; que tem três elementos se for equivalente ao conjunto {∅, {∅, {∅}}} e assim
por diante. Em verdade essa construção permite produzir uma definição do conceito de número natural: o número “um” é, grosseiramente
falando, o nome dado à classe de equivalência formada pelos conjuntos equivalentes ao conjunto {∅}; o número “dois” é o nome dado à classe
de equivalência do conjunto {∅, {∅}}; o número “três” é nome dado à classe de equivalência do conjunto {∅, {∅, {∅}}} e assim por diante.
Aliás, o número “zero” é o nome dado à classe de equivalência de ∅. O números naturais seriam então o conjunto de todas as classes de
equivalência construı́das dessa forma. Esta definição11 do conceito de número natural, devida a von Neumann12 , pressupõe apenas conhecidos
conceitos primitivos como os de conjuntos, classes de equivalência e de conjunto vazio. O leitor poderá encontrar uma discussão extensa sobre
a definição de números naturais em [119, 89, 50].

Diz-se que um conjunto A é finito se tiver a cardinalidade de {1, . . . , n} para algum n ∈  . A é


dito ser infinito se não for finito.

E. 1.22 Exercı́cio. Seja A um conjunto finito com n elementos. Mostre que (A) tem 2 n elementos.
11
J. von Neumann “Zur Einführung transfiniten Zahlen”, Acta Szeged 1 (1923) 199-208.
12
János von Neumann (1903-1957). Von Neumann também adotou os nomes de Johann von Neumann e John von
Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 37/1195

• Conjuntos Contáveis

Um conjunto A é dito ser contável se for finito ou se tiver a cardinalidade do conjunto dos números
naturais, ou seja, se for finito ou se existir uma função bijetora f : → A cujo domı́nio é
 e cuja 

imagem é todo A.

Nota. Por vezes conjuntos contáveis que não são finitos são chamados de conjuntos enumeráveis. Não
há, infelizmente, unidade nessa nomenclatura mas empregá-la-emos aqui se vier a ser necessário.
Vamos agora provar alguns teoremas fundamentais sobre conjuntos contáveis (cuja importância,
apesar da aparente simplicidade dos enunciados, não pode ser subestimada pois seu alcance estende-se
por toda a Matemática, em particular, por muito do que veremos no restante do curso).
Precisamos da seguinte proposição:
Proposição 1.5 Um conjunto é contável se e somente se for equivalente a um subconjunto de  . 2

Prova. Por definição todo conjunto contável A (finito ou não) é equivalente a algum subconjunto de 

(no pior dos casos ao próprio ).

Provemos então a recı́proca. Seja A equivalente a um subconjunto Z de . Se Z for finito A 

também o será e portanto contável. Suponhamos então que Z não é finito. Vamos construir uma
função bijetora F :→ Z. A mesma é definida da seguinte forma

F (1) = min Z,

F (n) = min{Z \ {F (1), F (2), . . . , F (n − 1)}} para n = 2, 3, . . . .

É fácil ver que F é bijetora e que sua imagem é Z (faça isso). Assim, Z é enumerável e, portanto, A
também o é.

Esta proposição tem uma conseqüência simples:


Proposição 1.6 Se A é um conjunto contável e B ⊂ A então B é contável. 2

Prova. Se A é contável e B ⊂ A então B é equivalente a um subconjunto de  e, portanto, pela


proposição anterior, B é contável.

Chegamos um importante teorema:


Teorema 1.2 O produto Cartesiano  ×  é contável. 2

Prova. Seja a função G : ×


 →  dada por G(a, b) = 2a 3b . A imagem dessa função é um


subconjunto próprio de  mas essa função é bijetora: a cada elemento z de sua imagem há um e
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 38/1195

somente um par (a, b) de números naturais tais que 2a 3b = z (por quê?). Assim, fica provado pela
Proposição 1.5 que × é contável.
 

Note que, como  ×  não é finito (por quê?) é um conjunto enumerável.


Esse último teorema tem uma conseqüência de grande importância:
Teorema 1.3 O conjunto + dos números racionais positivos é um conjunto contável. 2

Prova. Todo racional positivo é da forma p/q onde p e q ∈ são irredutı́veis ou primos entre si (ou


seja, não há “cancelamentos” que permitam escrever p/q = a/b com a < p e b < q). Assim, há uma
correspondência um-a-um entre + e o subconjunto de × formado por todos os pares (p, q) onde p
 

e q são primos entre si. Como × é contável, a Proposição 1.6 diz então que + é também contável.
 

E. 1.23 Exercı́cio. Prove que o conjunto dos números inteiros e o conjunto dos números racionais
são conjuntos contáveis. 6

Um fato também importante é que há conjuntos de números que não são contáveis. O exemplo
mais importante é o dos números reais.
Teorema 1.4 O conjunto dos números reais não é contável. 2

Prova. Para provar isso basta mostrar que há um subconjunto de que não é contável. Considere o 

conjunto U de todos os números reais do intervalo [0, 1) tais que apenas os dı́gitos 0 ou 1 aparecem
em sua representação decimal. Por exemplo, números como 0, 001101 ou 0, 1 ou 0 ou 0, 1011 ou
1/9 = 0, 11111 . . . são elementos de U . De modo mais preciso, U é o subconjunto do intervalo [0, 1)
formado por todos os números u que podem pode ser escritos da forma
X∞
dn (u)
u = n
,
n=1
10

onde dn (u) ∈ {0, 1} para todo n ≥ 1. dn (u) é o n-ésimo dı́gito do número u na base decimal. Note
que dois elementos u e v de U são iguais se e somente se dn (u) = dn (v) para todo n (prove isso!).
Vamos provar que U não é um conjunto contável. Para isso vamos supor o oposto, ou seja, que U
é contável e veremos que essa hipótese leva a um absurdo. Vamos supor que haja uma função bijetora
f:  → U cuja imagem é U . Considere o número real a definido por
X∞
1 − dn (f (n))
a = n
.
n=1
10

Como 1 − dn (f (n)) é igual a 0 ou a 1 (por que?), segue obviamente que a é um elemento de U .


Entretanto, é fácil ver que a não faz parte da imagem da função f . Para ver isso note que se a fosse
um elemento da imagem de f haveria um inteiro m tal que f (m) = a. Mas isso significa então que o
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 39/1195

m-ésimo dı́gito de a seria dm (a) = dm (f (m)). Mas pela definição do próprio a, o seu m-ésimo dı́gito é
1 − dm (f (m)). Assim, terı́amos que dm (f (m)) = 1 − dm (f (m)) o que não é possı́vel.
Concluı́mos então que a é um elemento de U mas não pode ser um elemento da imagem da função f .
Isso é uma contradição, pois supomos justamente que a imagem da f era todo o conjunto U . Portanto,
U não é contável e, assim, também não o é.


Nota. É fácil ver que, em verdade, poderı́amos substituir a base decimal, usada na representação do
conjunto U acima, por qualquer base b ∈ com b > 2. Ou seja, se considerarmos o conjunto U b de


todos os reais u do intervalo [0, 1] representáveis na base b, b ∈ , b > 2, da forma 

X∞
dn (u)
u = n
.
n=1
b

onde dn (u) ∈ {0, 1}, então, repetindo o que fizemos acima, verı́amos que Ub não é contável. Claramente
U = U10 .

Nota. O caso da base binária b = 2 foi excluı́do da última nota pois nele não vale a unicidade da
representação dos elementos de U2 na forma
X∞
dn (u)
u = .
n=1
2n

onde dn (u) ∈ {0, 1}. Para ver isso, faça o exercı́cio seguinte.

E. 1.24 Exercı́cio. Mostre que na base binária 0, 1 e 0, 01111111 . . . representam o mesmo número, a
saber, o número 1/2. Sugestão: use a fórmula da progressão geométrica infinita para calcular quanto vale
0, 01111111 . . .. 6

Nota. Os conjuntos Ub , b > 2, são exemplos de uma classe de conjuntos chamados de conjuntos
de Cantor13 . Tornaremos a reencontrar tais conjuntos quando falarmos de Teoria da Medida (vide
Capı́tulo 17, especialmente Seção 17.2, página 859.).
Ainda sobre os números reais, tem-se também o seguinte fato, que para referência futura formulamos
como uma proposição.
2
Proposição 1.7  e  têm a mesma cardinalidade. 2

Prova. É suficiente mostrar que (0, 1) e (0, 1) × (0, 1) têm a mesma cardinalidade, pois a função
x → (1 + tanh(x))/2 é uma bijeção de em (0, 1). Fixemos para cada x ∈ (0, 1) uma representação


decimal x = 0, d1 d2 d3 . . . com dn ∈ {0, . . . , 9}. Seja F : (0, 1) → (0, 1) × (0, 1) definida por
F (0, d1 d2 d3 d4 . . .) := ( 0, d1 d3 d5 d7 . . . , 0, d2 d4 d6 d8 . . . ) .
F é bijetora e F −1 : (0, 1) × (0, 1) → (0, 1) é dada por
F −1 (( 0, a1 a2 a3 a4 . . . , 0, b1 b2 b3 b4 . . . )) = 0, a1 b1 a2 b2 a3 b3 a4 b4 . . . .
13
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 40/1195

Finalizamos com um outro teorema de grande importância:


[
Teorema 1.5 Se Ci , i ∈  , são conjuntos contáveis então C = Ci também o é. 2
i∈ 

Prova. Se cada Ci é contável então para cada i ∈ há uma função bijetora gi :
 → Ci cuja imagem 

é Ci . Defina-se então a função G : ( × ) → C dada por G(a, b) = ga (b). Esta função não é, em
 

geral, bijetora, pois podem existir elementos comuns entre conjuntos Ci e Cj com i 6= j e terı́amos
gi (m) = gj (n) para algum n e m. Entretanto, a imagem de G é C.
Considere então em × a seguinte relação de equivalência: o par (a, b) é equivalente ao par
 

(c, d) se e somente se ga (b) = gc (d). O conjunto × pode ser então, como já observamos, escrito
 

como a união disjunta de suas classes de equivalência pela relação acima. Construamos então um
subconjunto K de × tomando-se um e somente um elemento de cada classe de equivalência escolhido
 

arbitrariamente (usamos aqui o Axioma da Escolha para afirmar que tal construção é possı́vel).
Defina então agora a função H : K → C dada por H(a, b) = ga (b) para (a, b) ∈ K. Pela própria
construção do conjunto K essa função H é bijetora e sua imagem é C. Como K é um subconjunto de
 × que é contável, temos que K também o é e, portanto, C é contável.


• Números Reais Algébricos e Transcendentes

Na reta real diz-se que um número x é um número algébrico se x for raiz de um polinômio do tipo
P (t) = a0 + a1 t + a2 t2 + · · · + an tn ,
para algum n ∈ , onde os coeficientes a0 , . . . , an são números racionais. Um tal polinômio é dito ser


um polinômio racional.
racional p − qt. Há também
Todo número racional p/q é também algébrico pois é raiz do polinômio √
muitos números irracionais que são algébricos. Por exemplo, o número 2 é raiz do polinômio ra-
cional −2 + t2 e, portanto, é algébrico. Os números reais que não são algébricos são chamados de
transcendentes.

E. 1.25 Exercı́cio. Prove que o conjunto de todos os números algébricos da reta real é um conjunto
contável. Use para tal o fato de que os racionais formam um conjunto contável. 6

O exercı́cio anterior pode ser usado para concluir que existem números transcendentes (que não
são raiz de nenhum polinômio racional) pois os reais, como sabemos, não são contáveis enquanto,
segundo o exercı́cio, os algébricos o são. Deve, portanto, haver uma coleção não-contável de números
transcendentes na reta real.
Historicamente, a existência de números transcendentes foi estabelecida (por outros argumentos)
por Liouville14 em 1851. Em 1874, Cantor15 demonstrou a afirmação do exercı́cio acima, provando que
14
Joseph Liouville (1809-1882).
15
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 41/1195

o conjunto de todos os números algébricos da reta real é um conjunto contável.

E. 1.26 Exercı́cio. Seja 0 = e 1 o conjunto dos números algébricos, definidos como o conjunto de
todos os zeros reais de polinômios com coeficientes racionais. Definimos 2 como o conjunto de todos os
zeros reais de polinômios com coeficientes em 1 . Sucessivamente, definimos n , n ≥
S∞1 como o conjunto
de todos os zeros reais de polinômios com coeficientes em n−1 . Seja também = n=0 n . Mostre que
todos os n e são conjuntos contáveis e, portanto, subconjuntos próprios de .  6

• Os números e e π são irracionais e transcendentes

Sabe-se que os números e e π são irracionais e transcendentes.


As provas de que e e e2 são irracionais foram primeiramente obtidas por Euler16 em 1737. Uma
prova que e é irracional pode ser encontrada nestas Notas à página 734 ou, por exemplo, em [118] ou
[53].
A prova de que π é irracional não é tão simples quanto a de que e é irracional. A demonstração de
que π é irracional foi primeiramente obtida por Lambert17 em 1768 e consistiu em provar que se r é
um número racional não-nulo então nem er nem tan(r) podem ser racionais. Como tan(π/4) = 1, que
é racional, segue que π/4 deve ser irracional.
A demonstração de que e é transcendente foi obtida pela primeira vez por Hermite 18 em 1873.
A demonstração de que π é transcendente foi obtida pela primeira vez por Lindemann19 em 1882.
Um fato de grande interesse é que provar que π é algébrico seria equivalente 20 a resolver o célebre
problema da quadratura do cı́rculo, que consiste em achar um método através do qual, “apenas com
régua e compasso” constrói-se um quadrado cuja área é igual a de um cı́rculo de raio 1. √ Tal seria
possı́vel caso houvessem meios de se construir um segmento de reta cujo comprimento seja π. Esse
problema clássico da geometria Euclidiana ficou em aberto por cerca de dois mil anos (!), tendo sido
resolvido negativamente em 1882 por Lindemann quando este provou, justamente, que π não é um
número algébrico, concluindo assim a impossibilidade da construção proposta.
Para provas de que e é transcendente vide, por exemplo, [118] ou [53]. Para provas que π é irracional
e transcendente e para uma série de outros resultados congêneres, vide [53].

• Produtos Cartesianos e Contabilidade

É interessante notar que produtos Cartesianos contáveis de conjuntos contáveis não são, geralmente,
conjuntos contáveis. Considere como exemplo o produto Cartesiano
Y
K := {0, 1} = {0, 1} , 

i∈ 

16
Leonhard Euler (1707-1783).
17
Johann Heinrich Lambert (1728-1777).
18
Charles Hermite (1822-1901). A prova original da transcendência de e encontra-se em Comptes rendus, 77 18-24
(1873).
19
Carl Louis Ferdinand von Lindemann (1852-1939). A prova original da transcendência de π encontra-se em Math.
Ann. 20, 213-225 (1882).
20
Para uma bela discussão sobre isso, vide [27].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 42/1195

que é denominado espaço de Cantor21 . Podemos mostrar que K não é contável. Cada elemento de K
é uma função d : → {0, 1}. Podemos assim associar univocamente a cada d o número real



X d(n)
n=1
10n
que é um elemento do conjunto U ⊂ definido acima. Por outro lado, todo elemento de U pode ser


escrito assim para um único d ∈ K. Assim, K e U têm a mesma cardinalidade e, portanto, K não é
contável pois U , como já vimos, não o é.

E. 1.27 Exercı́cio. Mostre que todos os conjuntos Ub , definidos acima, com b > 2, tem a mesma
cardinalidade de K (e, portanto, a mesma cardinalidade entre si). 6

1.1.4 Ínfimos e Supremos de Famı́lias de Conjuntos


Seja I um conjunto arbitrário de ı́ndices e {Ai , i ∈ I}\ uma coleção de conjuntos indexados por
elementos de I. Chama-se por vezes o conjunto inf Ai := Ai de ı́nfimo da coleção {Ai , i ∈ I} e o
i∈I
[ i∈I
conjunto sup Ai := Ai de supremo da coleção {Ai , i ∈ I}.
i∈I
i∈I

Essas noções S
coincidem com as noções de ı́nfimo e supremo apresentadas à página 34 se conside-
rarmos em X = i∈I Ai a relação de ordem definida pela inclusão de conjuntos: se A, B ⊂ X dizemos
que A  B se A ⊂ B.

E. 1.28 Exercı́cio. Mostre isso. 6

• Limites do Ínfimo e Limites do Supremo de Famı́lias de Conjuntos

Seja {An , n ∈ } uma coleção contável de subconjuntos de um conjunto X. Define-se um conjunto




chamado de limite do ı́nfimo da coleção, denotado por limAn , como sendo o conjunto dado por
∞ \
[ ∞
limAn := Ak .
n=1 k=n

O chamado limite do supremo da coleção, denotado por limAn , é o conjunto definido por
∞ [
\ ∞
limAn := Ak .
n=1 k=n

Se considerarmos a relação de ordem entreTconjuntos definida pela inclusão de conjuntos, é de


se notar que a seqüência de conjuntos Bn := ∞ k=n Ak , n ∈ , está ordenada de forma crescente


S Bn  Bm se n ≤ m) e limAn é seu supremo. Analogamente, a seqüência de conjuntos


(ou seja,
Cn := ∞ k=n Ak , n ∈ , está ordenada de forma decrescente (ou seja, Cn  Cm se n ≥ m) e limAn é


seu ı́nfimo.
21
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 43/1195

E. 1.29 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem a todos os conjuntos An exceto a no máximo um número finito deles. Dizemos, nesse caso, que
x pertence a quase todos os An ’s). 6

E. 1.30 Exercı́cio. Justifique a seguinte afirmativa: limAn é o conjunto de todos os pontos x de X que
pertencem um número infinito de conjuntos An . Dizemos, nesse caso, que x pertence freqüentemente aos
An ’s). 6

• Convergência de seqüências de conjuntos

Chegamos a uma definição importante: dizemos que uma coleção contável de conjuntos {A n , n ∈  }
converge a um conjunto A se
limAn = limAn = A.
Se uma coleção contável de conjuntos {An , n ∈ } converge a um conjunto A, então A é dito ser o


n→∞
limite de An , e escrevemos, como usualmente, A = lim An , ou ainda An −→ A.
n→∞

E. 1.31 Exercı́cio. Justifique a seguinte afirmativa: lim An só existe se não há pontos x ∈ X que,
n→∞
simultaneamente, pertençam a infinitos conjuntos A n e não pertençam a infinitos conjuntos An . 6

E. 1.32 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por A n = [0, 10] se n for par e


An = [0, 5] se n for ı́mpar. Determine limAn e limAn e limn→∞ An se este existir. 6

E. 1.33 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por A n = [0, 1] se n for par e


An = [2, 3] se n for ı́mpar. Determine limAn e limAn e lim An , se este existir. 6


n→∞

E. 1.34 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por 

 
1 1
An = − , 1+
n+1 n+1

com n ∈  . Determine limAn , limAn e lim An , se este existir. 6


n→∞

E. 1.35 Exercı́cio. Seja a famı́lia contável de subconjuntos de dada por 

 
1 1
An = , 1−
n+2 n+2

com n ∈  . Determine limAn , limAn e lim An , se este existir. 6


n→∞

E. 1.36 Exercı́cio. Crie seus próprios exemplos de famı́lias contáveis A n de subconjuntos de  e estude
seus limAn , limAn e lim An , se este existir. 6
n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 44/1195

1.2 Estruturas Algébricas Básicas


Ainda atentos ao caráter introdutório apresentaremos aqui definições e exemplos das estruturas algébricas
mais comuns.

• Operações e Relações

Sejam C e I dois conjuntos não-vazios e consideremos o produto Cartesiano C I (o conceito de


produto Cartesiano de conjuntos foi definido à página 27). Uma função f : C I → C é por vezes dita
ser uma operação sobre C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I é dito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.

• Funções Finitárias

Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito


f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ . Se f é uma


função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C → C que a cada seqüência em C associa um elemento de


C.
Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre  seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou

2, respectivamente.

• Relações Finitárias

Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ . Se R é 

uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 22.

• Estruturas

Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estrutura
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 45/1195

acima poderia ser simplificada. É porém conveniente mantê-la como está, pois funções são de im-
portância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional.

• Tipos de Operações e de Relações

Ainda um comentário sobre a nomenclatura.


Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.

• Comentário Sobre a Notação

Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : 2 → de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : 2 → de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1 , ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ A c . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.

1.2.1 Semi-grupos, Monóides e Grupos

• Semi-grupos

Um semi-grupo é um conjunto não-vazio S dotado de uma operação binária S × S → S denotada


por “·” e denominada produto tal que a seguinte propriedade é satisfeita.

1. Associatividade. Para todos a, b e c ∈ S vale (a · b) · c = a · (b · c).

• Monóides
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 46/1195

Um monóide é um conjunto não-vazio M dotado de uma operação binária M × M → M denotada


por “·” e denominada produto tal que as seguintes propriedades são satisfeitas.

1. Associatividade. Para todos a, b e c ∈ M vale (a · b) · c = a · (b · c).

2. Elemento neutro. Existe um (único!) elemento e ∈ M , denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ M .

Observação A unicidade do elemento neutro é garantida pela observação que se houvesse e 0 ∈ M


tal que g · e0 = e0 · g = g para todo g ∈ M terı́amos e0 = e0 · e = e.

• Grupos

Uma das noções mais fundamentais de toda a Matemática é a de grupo. Um grupo é um conjunto
não-vazio G dotado de uma operação binária G × G → G denotada por “·” e denominada produto e de
uma operação unária G → G (bijetora) denominada inversa, denotada pelo expoente “ −1 ”, tais que as
seguintes propriedades são satisfeitas.

1. Associatividade. Para todos a, b e c ∈ G vale (a · b) · c = a · (b · c).

2. Elemento neutro. Existe um (único!) elemento e ∈ G, denominado elemento neutro, tal que
g · e = e · g = g para todo g ∈ G.

3. Inversa. Para cada g ∈ G existe um (único!) elemento h ∈ G tal que g · h = h · g = e. Esse


elemento é denominado a inversa de g e denotado por g −1 .

Observações.

1. A unicidade do elemento neutro é garantida pela observação que se houvesse e 0 tal que g · e0 =
e0 · g = g para todo g ∈ G terı́amos e0 = e0 · e = e.

2. Analogamente se estabelece a unicidade da inversa, pois se g, h ∈ G são tais que h · g = g · h = e,


teremos g −1 = g −1 · e = g −1 · (g · h) = (g −1 · g) · h = e · h = h.

3. A função G 3 g 7→ g −1 ∈ G, que associa cada elemento de G à sua inversa, é um exemplo de uma


função unária.

4. Como e · e = e segue que e−1 = e.

5. Para todo g ∈ G vale (g −1 )−1 = g pois, usando a associatividade,

(g −1 )−1 = ( g −1 )−1 · e = (g −1 )−1 · (g −1 · g) = ((g −1 )−1 · g −1 ) · g = e · g = g .

Um grupo é dito ser comutativo ou Abeliano22 se a · b = b · a para todos a, b ∈ G. Essa nomenclatura


se aplica também a semi-grupos e monóides.
É evidente que todo grupo é um monóide e que todo monóide é um semi-grupo.
22
Niels Henrik Abel (1802-1829).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 47/1195

Existe uma construção canônica devida a Grothendieck, que discutimos à página 84, que permite
construir um grupo Abeliano a partir de um semi-grupo Abeliano dado. Essa construção é importante
em várias áreas da Matemática. O leitor interessado poderá passar sem perda à discussão da página
84.

• Exemplos Simples

1. O conjunto S = {1, 2, 3, . . .} é um semi-grupo em relação à operação de soma usual. O conjunto


M = {0, 1, 2, 3, . . .} é um monóide em relação à operação de soma usual, sendo o elemento
neutro e = 0. O conjunto G = = {. . . , −2, −1, 0, 1, 2, . . .} é um grupo em relação à
operação de soma usual, sendo o elemento neutro e = 0 e a inversa n−1 = −n.

2.  dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o número


1. Não é um grupo, pois 0 não tem inversa multiplicativa.

3. O conjunto {x ∈  , x > 0} é um semi-grupo Abeliano em relação à operação de soma, mas não


é um monóide.

4. O conjunto + = {x ∈
  , x ≥ 0} é um monóide Abeliano em relação à operação de soma mas
não um grupo.

5. O conjunto dos números inteiros é um grupo Abeliano em relação à operação usual de soma
de números inteiros. Esse grupo é comummente denotado por ( , +), para lembrar o conjunto
considerado (no caso, ) e a operação considerada nesse conjunto (no caso, +) .

6. O conjunto dos números racionais é um grupo Abeliano em relação à operação usual de soma
de números racionais. Esse grupo é comummente denotado por ( , +).

7. O conjunto \ {0} = {r ∈ , r 6= 0} é um grupo Abeliano em relação à operação usual de


produto de números racionais. Esse grupo é comummente denotado por ( , ·).

8. O conjunto dos números reais é um grupo Abeliano em relação à operação usual de soma de


números reais. Esse grupo é comummente denotado por ( , +). 

9. O conjunto dos números complexos é um grupo Abeliano em relação à operação usual de soma
de números complexos. Esse grupo é comummente denotado por ( , +).

10. O conjunto \ {0} = {x ∈ , x 6= 0} é um grupo Abeliano em relação à operação usual de


 

produto de números reais. Esse grupo é comummente denotado por ( , ·). 

11. O conjunto \ {0} = {z ∈ , z 6= 0} é um grupo Abeliano em relação à operação usual de


produto de números complexos. Esse grupo é comummente denotado por ( , ·).

12. Mat( , n), o conjunto das matrizes complexas n × n com o produto usual de matrizes é apenas
um monóide.

13. Mat( , n), o conjunto das matrizes complexas n × n é um grupo em relação à operação de soma
de matrizes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 48/1195

14. O conjunto GL( , n) de todas as matrizes reais n × n com determinante não-nulo (e, portanto,


invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL( , n) é não- 

Abeliano.
15. O conjunto GL( , n) de todas as matrizes complexas n × n com determinante não-nulo (e,
portanto, invertı́veis) é um grupo em relação a operação de produto usual de matrizes. GL( , n)
é não-Abeliano.
16. Seja X um conjunto não-vazio. Então (X) é um grupo Abeliano em relação à operação de
diferença simétrica A4B, A, B ∈ X, definida em (1.2), página 21. De fato, o Exercı́cio E. 1.1,
página 21, garante associatividade e comutatividade, o elemento neutro é o conjunto vazio ∅ e
para todo A ∈ (X) tem-se A−1 = A. Verifique!
17. Outro exemplo importante é o seguinte. Seja C um conjunto não-vazio e tomemos S = C C , o
conjunto de todas as funções de C em C. Então, S é um monóide com o produto formado pela
composição de funções: f ◦ g, e onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
O sub-conjunto de C C formado pelas funções bijetoras é um grupo não-Abeliano, onde o produto
é a composição de funções, o elemento neutro é a função identidade e o elemento inverso de uma
função f : C → C é a função inversa f −1 . Esse grupo é denominado grupo de permutações do
conjunto C e denotado por P erm(C).

E. 1.37 Exercı́cio. Em caso de dúvida, prove todas as afirmações acima. 6

• Sub-grupos

Seja G um grupo em relação a uma operação “·” e cujo elemento neutro seja e. Um subconjunto
H de G é dito ser um sub-grupo de G se for também por si só um grupo em relação à mesma operação,
ou seja, se

1. e ∈ H,
2. h1 · h2 ∈ H para todos h1 ∈ H e h2 ∈ H,
3. h−1 ∈ H para todo h ∈ H.

Todo grupo G sempre possui pelo menos dois sub-grupos: o próprio G e o conjunto {e} formado
apenas pelo elemento neutro de G.
É fácil verificar que ( , +) e ( , +) são sub-grupos de ( , +). É fácil ver que SL( , n), o
 

conjunto de todas as matrizes reais n × n com determinante igual a 1, é um sub-grupo de GL( , n). 

Idem para SL( , n) em relação a GL( , n).

• Os Grupos n

O bem conhecido algoritmo de Euclides23 afirma que, dado n ∈ , n > 0, então todo número inteiro


z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ e r ∈ {0, 1, . . . , n − 1}.


23
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 49/1195

O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.


Seja n um inteiro positivo maior ou igual a 2 e seja o conjunto {0, 1, . . . , n − 1}. Vamos definir
uma operação binária em {0, 1, . . . , n − 1}, denominada soma e denotada pelo sı́mbolo “+”, da
seguinte forma:
α + β = [α + β] mod n
para todos α, β ∈ {0, 1, . . . , n − 1}. Acima [α + β] representa a soma usual de números inteiros em
.

E. 1.38 Exercı́cio. Prove que a operação de soma definida acima é uma operação binária de {0, 1, . . . , n−
1} e mostre que a mesma é associativa, comutativa e tem 0 como elemento neutro. 6

E. 1.39 Exercı́cio. Para cada a ∈ {0, 1, . . . , n − 1}, defina a−1 = (n − a) mod n. Mostre que
a−1 ∈ {0, 1, . . . , n − 1} e que a + a−1 = 0. 6

Os dois exercı́cios acima provam que {0, 1, . . . , n − 1} é um grupo Abeliano em relação à operação
de soma definida acima. Esse grupo é denominado grupo n .

• 

+ estendido

O conjunto + = {x ∈ , x ≥ 0} é um semi-grupo Abeliano em relação à operação de soma e


 

em relação à operação de produto e vale ainda a propriedade distributiva a(b + c) = ab + ac. + é 

também, sabidamente, um conjunto linearmente ordenado pela relação de ordem usual.


Vamos abaixo descrever um outro conjunto linearmente ordenado que contém + e é também um 

semi-grupo Abeliano em relação à operação de soma e em relação à operação de produto e vale ainda
a propriedade distributiva.
Definimos um conjunto, que denotaremos por R+ , juntando a + um conjunto formado por um 

elemento, elemento esse que denotaremos provisoriamente por ω, com ω 6∈ + , para o qual certas 

relações algébricas serão definidas. Seja R+ = + ∪ {ω} e definimos as operações de soma e produto


em R+ da seguinte forma: se a e b são elementos de + suas soma e produto são definidos como


usualmente. Fora isso, valem

1. a + ω = ω + a = ω, para todo a ∈ 

+.

2. ω + ω = ω.

3. aω = ωa = ω, para todo a ∈ 

+, a 6= 0.

4. 0ω = ω0 = 0.

5. ωω = ω.

E. 1.40 Exercı́cio. Verifique que R+ é um semi-grupo Abeliano em relação à operação de soma e em


relação à operação de produto definidas acima e que vale ainda a propriedade distributiva. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 50/1195

R+ é linearmente ordenado tomando-se em 

+ a relação de ordem usual e fixando-se a < ω para


todo a ∈ + .

É bastante claro que na definição abstrata acima o objeto representado pelo sı́mbolo ω desempenha o
papel formalmente desempenhado por um número infinito positivo. A construção das relações algébricas
acima prescinde, porém, dessa noção, pois ω pode ser qualquer objeto (fora de + ). 

Com um certo abuso de linguagem, é costume, substituir o sı́mbolo ω pelo sı́mbolo ∞, dando
a entender que ω representa algo como um número infinito positivo. É comum também denotar-se
R+ = [0, ∞].

E. 1.41 Exercı́cio. Que problemas surgem quando se tenta estender a construção acima para o conjunto
 de todos os reais? 6

1.2.2 Corpos
Um corpo24 é um conjunto não-vazio C dotado de duas operações binárias, denotadas por + e ·,
denominadas soma e produto, respectivamente, satisfazendo o seguinte: para α, β e γ ∈ C quaisquer,
valem

1. A operação de soma tem as seguintes propriedades:

(a) Comutatividade: α + β = β + α
(b) Associatividade: α + (β + γ) = (α + β) + γ
(c) Elemento neutro: existe um elemento 0 ∈ C, chamado de zero, tal que α + 0 = α para todo
α ∈ C.
(d) Para cada α ∈ C existe um único elemento denotado por β com a propriedade α + β = 0.
Esse elemento é mais comummente denotado por −α.

2. A operação de produto tem as seguintes propriedades:

(a) Comutatividade: α · β = β · α
(b) Associatividade: α · (β · γ) = (α · β) · γ
(c) Elemento neutro: existe um elemento 1 ∈ C, chamado de unidade, tal que α · 1 = α para
todo α ∈ C.
(d) Para cada α ∈ C, α 6= 0, existe um único elemento denotado por β com a propriedade
α · β = 1. Esse elemento é mais comummente denotado por α−1 .

3. O produto é distributivo em relação à adição: α · (β + γ) = α · β + α · γ.

Note-se que corpos são grupos comutativos em relação à operação de soma e monóides comutativos
em relação à operação de produto.
24
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 51/1195

Os elementos de um corpo são por vezes denominados escalares.


Exemplos. É fácil verificar que , e  são corpos em relação às operações usuais de soma e
produto. O conjunto das matrizes n × n para qualquer n ≥ 2 com o produto usual de matrizes não é
um corpo pois, entre outras razões, o produto não é comutativo.
Em um corpo C sempre vale que α · 0 = 0 para todo α ∈ C. De fato, como 0 = 0 + 0, segue que
α · 0 = α · (0 + 0) = α · 0 + α · 0.
Somando-se a ambos os lados o elemento inverso −α · 0 teremos
α · 0 + (−α · 0) = α · 0 + α · 0 + (−α · 0),
ou seja,
0 = α · 0 + 0 = α · 0,
como querı́amos provar. Pela comutatividade do produto vale também 0 · α = 0 para todo α ∈ C.
Vamos exibir outros exemplos menos triviais de corpos.

• Os Corpos ( p), com p Primo


E. 1.42 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2, com a e b
racionais, é um corpo. 6

O corpo do exemplo acima é denotado por ( 2).

E. 1.43 Exercı́cio. Seja p um número primo. Mostre que o conjunto de todos os números reais da forma

a + b p, com a e b racionais, é um corpo. 6

O corpo do exemplo acima é denotado por ( p).

E. 1.44 Exercı́cio. Mostre que o conjunto de todos os números reais da forma a + b 2 com a e b
inteiros não é um corpo. 6

• Os Corpos p, com p Primo

O bem conhecido algoritmo de Euclides25 afirma que, dado n ∈ , n > 0, então todo número inteiro


z pode ser escrito de maneira única na forma z = qn + r, onde q ∈ e r ∈ {0, 1, . . . , n − 1}.


O número r é denominado resto da divisão de z por n e é também denotado por r = z mod n.
Seja n um inteiro positivo maior ou igual a 2 e seja n o conjunto {0, 1, . . . , n − 1}. Vamos definir
operações de soma e produto em n da seguinte forma:
α + β = [α + β] mod n e α · β = [αβ] mod n.
Acima [α + β] e [αβ] são a soma e o produto usuais em .
Temos o seguinte teorema:
25
Euclides de Alexandria (≈ 325 A.C, ≈ 265 B.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 52/1195

Teorema 1.6 O conjunto n é um corpo com as operações acima definidas se e somente se n for um
número primo. 2

Prova. As operações de soma e produto definidas acima são automaticamente comutativas, associativas
e distributivas (por que?). Fora isso sempre vale que −α = n − α para todo α ∈ n . Resta-nos estudar
a existência de elementos inversos α−1 . Vamos supor que n seja um corpo. Então, a ∈ {2, . . . , n − 1}
tem uma inversa em n , ou seja, um número b ∈ {1, . . . , n − 1} tal que a · b = 1. Lembrando a
definição de produto em n , isso significa que existe um inteiro r tal que ab = rn + 1. Mas isso implica
1 n
b− =r .
a a
Como o lado esquerdo não é um número inteiro, o lado direito também não pode ser. Isso diz então que
n/a não pode ser inteiro para nenhum a ∈ {2, . . . , n − 1}, ou seja, n não tem divisores e é, portanto,
um primo. Resta-nos mostrar que p é efetivamente um corpo quando p é primo, o que agora se reduz
a mostrar que para todo a ∈ p existe um elemento inverso.
Para apresentar a demonstração, recordemos três conceitos da teoria de números. 1. Sejam dois
números inteiros f e g, dizemos que f divide g se g/f ∈ . Se f divide g, denotamos esse fato por
f |g. 2. Sejam dois números inteiros f e g. O máximo divisor comum de f e g, denotado mdc(f, g) é
o maior inteiro m tal que m|f e m|g. 3. Dois números inteiros f e g são ditos ser primos entre si se
mdc(f, g) = 1.
A demonstração da existência de inverso em p será apresentada em partes. Vamos primeiro
demonstrar a seguinte afirmativa.
Lema 1.2 Se f e g são dois números inteiros quaisquer então existem inteiros k 0 e l0 tais que

mdc(f, g) = k 0 f + l0 g.

Prova. Seja m = mdc(f, g). Seja M o conjunto de todos os números positivos que sejam da forma
kf + lg com k e l inteiros. Seja m0 o menor elemento de M . Note que como os elementos de M são
positivos, esse menor elemento existe. Claramente

m0 = k 0 f + l 0 g (1.19)

para algum k 0 e l0 . Como, por definição, m|f e m|g, segue que m|m0 , o que só é possı́vel se

m0 ≥ m. (1.20)

Vamos agora demonstrar por contradição que m0 |f . Se isso não fosse verdade, existiriam (pelo algoritmo
de Euclides) inteiros α e β com
0 < β < m0 (1.21)
tal que
f = αm0 + β.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 53/1195

Usando (1.19) isso diz que

β = f − α(k 0 f + l0 g) = (1 − αk 0 )f + (−αl0 )g.

Mas, como β > 0 isso diz que β ∈ M . Logo, β ≥ m0 , contradizendo (1.21). Logo m0 |f . De maneira
totalmente análoga prova-se que m0 |g. Portanto m0 ≤ mdc(f, g) = m. Lembrando que havı́amos
provado (1.20), segue que m = m0 e, portanto m = k 0 f + l0 g, demonstrando o Lema.

Corolário 1.1 Se f e g são dois números inteiros primos entre si então existem inteiros k 0 e l0 tais
que
1 = k 0 f + l0 g.
2

Prova. Pela definição, como f e g são dois números inteiros primos entre si segue que mdc(f, g) = 1.

Para finalmente demonstrarmos a existência de inverso em p , com p primo, seja a ∈ {1, . . . , p−1}.
É óbvio que a e p são primos entre si (por que?). Assim, pelo corolário, existem inteiros r e s com

1 = sa − rp.

Isso diz que sa = rp + 1. Logo, definindo b ∈ p como sendo b = s mod p teremos

ba = (s mod p)a = (rp + 1) mod p = 1,

ou seja, b = a−1 , completando a demonstração.

• Caracterı́stica de um Corpo

Seja C um corpo e 1 sua unidade. Para um número natural n definimos n · 1 = 1| + ·{z


· · + 1}.
n vezes
Define-se a caracterı́stica de C como sendo o menor número natural não-nulo n tal que n · 1 = 0.
Se um tal número não existir, diz-se que o corpo tem caracterı́stica zero.

Exemplos. , , , ( 2) têm caracterı́stica zero. p , p primo, tem caracterı́stica p. Mostre isso.


E. 1.45 Exercı́cio. Mostre que a caracterı́stica de um corpo é ou igual a zero ou é um número primo.
Sugestão: Mostre primeiro que (nm) · 1 = (n · 1)(m · 1) para quaisquer números naturais n e m. Use então
o fato que todo natural pode ser decomposto em um produto de fatores primos e use o fato que, em um
corpo, se a · b = 0 então ou a ou b ou ambos são zero (ou seja, todo corpo é um anel de integridade: não
tem divisores de zero). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 54/1195

1.2.3 Espaços Vetoriais


Um espaço vetorial V sobre um corpo K é um conjunto de elementos chamados vetores dotado de uma
operação “+”: V × V → V denominada soma e também de um produto por escalares “·”: K × V → V
com as seguintes propriedades:

1. A cada par u, v ∈ V de vetores é associado um elemento u + v ∈ V , denominado soma de u e v,


com as seguintes propriedades:

(a) A soma é comutativa:


u+v =v+u
para todos u, v ∈ V ,
(b) A soma é associativa:
u + (v + w) = (u + v) + w
para todos u, v, w ∈ V ,
(c) Existe um único vetor denotado por 0, denominado vetor nulo, tal que

u+0=u

para todo u ∈ V ,
(d) A cada u ∈ V existe associado um único vetor denotado por −u tal que

u + (−u) = 0.

2. A cada par α ∈ K, u ∈ V existe associado um vetor denotado por α · u ∈ V , denominado produto


de u por α, de forma que

(a) O produto por escalares é associativo:

α · (β · u) = (αβ) · u,

para todos α, β ∈ K e u ∈ V , onde αβ é o produto de α por β em K,


(b) 1 · u = u para todo u ∈ V , onde 1 é a unidade de K,
(c) O produto por escalares é distributivo em relação à soma de vetores:

α · (u + v) = α · u + α · v,

para todo α ∈ K e todos u, v ∈ V ,


(d) O produto por escalares é distributivo em relação à soma de escalares:

(α + β) · u = α · u + β · u,

para todos α, β ∈ K e todo u ∈ V .

Note-se que espaços vetoriais são grupos comutativos em relação à operação de soma.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 55/1195

E. 1.46 Exercı́cio. Mostre usando os postulados acima que 0·u = 0 para todo u ∈ V , onde, permitindo-
nos um certo abuso de linguagem, o 0 do lado esquerdo representa o zero do corpo K e o do lado direito o
vetor nulo de V . 6

Nomenclatura. Os elementos de um corpo sobre os quais um espaço vetorial se constitui são


freqüentemente denominados escalares.

Notação. É freqüente omitir-se o sı́mbolo “·” de produto por escalares quando nenhuma confusão é
possı́vel.
Anti-exemplo. Tomemos o conjunto dos reais com a operação de soma usual, um corpo p com p
primo e o produto p × → , α · x, α ∈ p e x ∈ dada pelo produto usual em . Essa estrutura
   

não forma um espaço vetorial. A regra distributiva

(α + β) · x = α · x + β · x

não é satisfeita para todo α, β ∈ p. Acima, α · x é o produto usual em  .

É quase desnecessário mencionar o quão importantes espaços vetoriais são no contexto da Fı́sica,
onde, porém, quase somente espaços vetoriais sobre o corpo dos reais ou dos complexos aparecem.
Discutiremos mais aspectos básicos da teoria dos espaços vetoriais na Seção 2.1, página 93.

1.2.4 Anéis, Álgebras e Módulos

• Anéis

Um anel é um conjunto A dotado de duas operações binárias denotadas por “+” e “·” e denominadas
soma e produto, respectivamente, tais que A é um grupo Abeliano em relação à operação de soma e
um semi-grupo em relação à operação de produto. Por fim, a operação de produto é distributiva em
relação à soma: para quaisquer a, b e c ∈ A valem a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.
Como usual, denotamos por −a a inversa aditiva do elemento a de um anel.
Se 0 é o elemento neutro de um anel A em relação à operação de soma, então a · 0 = 0 pois, como
0 = 0 + 0, tem-se pela propriedade distributiva a · 0 = a · 0 + a · 0, que implica 0 = a · 0 − (a · 0) =
a · 0 + a · 0 − (a · 0) = a · 0.

• Álgebras

Uma álgebra é um espaço vetorial V sobre um corpo K dotado de uma operação de produto binária
“·” dita produto da álgebra, de modo que as seguintes propriedades são satisfeitas
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 56/1195

1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ V valem

a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.

2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ K vale

α(a · b) = (αa) · b = a · (αb).

Uma álgebra V é dita ser uma álgebra comutativa ou Abeliana26 se para todos a, b ∈ V tivermos

a · b = b · a.

Uma álgebra V é dita ser uma álgebra associativa se para todos a, b e c ∈ V tivermos

a · (b · c) = (a · b) · c.

Álgebras associativas são anéis.

Notação. Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab. Pela mesma razão, em uma álgebra associativa produtos
triplos como a(bc) e (ab)c podem ser escritos sem ambigüidade como abc.
Devemos dizer que há muitas álgebras importantes encontradas na Fı́sica que não são nem comu-
tativas nem associativas. Por exemplo, a álgebras do produto vetorial em 3 não é nem comutativa


nem associativa.

• Álgebras de Lie

Uma classe especialmente importante de álgebras não-comutativas e não-associativas é formada


pelas chamadas álgebras de Lie.
Uma álgebra L (sobre um corpo K) é dita ser uma álgebra de Lie27 se seu produto, além das
propriedades 1 e 2 da página 55, satisfizer

1. Anti-comutatividade. Para todos a, b ∈ L vale a · b = −b · a.

2. Identidade de Jacobi28 . Para todos a, b e c ∈ L vale

a · (b · c) + c · (a · b) + b · (c · a) = 0. (1.22)

Por razões históricas o produto de dois elementos de uma álgebra de Lie é denotado pelo sı́mbolo
[a, b] em lugar de a · b.
26
Niels Henrik Abel (1802-1829).
27
Marius Sophus Lie (1842-1899).
28
Carl Gustav Jacob Jacobi (1804-1851).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 57/1195

Seja A uma álgebra associativa. Podemos associar a A uma álgebra de Lie definindo o produto
[a, b] = ab − ba para a, b ∈ A. A anti-comutatividade é óbvia e a identidade de Jacobi segue do fato
que
[a, [b, c]] + [c, [a, b]] + [b, [c, a]]

= a(bc − cb) − (bc − cb)a + c(ab − ba) − (ab − ba)c + b(ca − ac) − (ca − ac)b

= abc − acb − bca + cba + cab − cba − abc + bac + bca − bac − cab + acb

= 0,
como facilmente se constata.

• Exemplos Básicos de Álgebras de Lie

Todos os exemplos aqui exibidos são relevantes na teoria dos grupos de Lie.
3
E. 1.47 Exercı́cio. Mostre que  dotado do produto vetorial usual é uma álgebra de Lie. 6

E. 1.48 Exercı́cio. Mostre que Mat ( , n) (ou Mat ( , n)), o conjunto de todas as matrizes n × n


reais (complexas) é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6

E. 1.49 Exercı́cio. Mostre que o subconjunto de Mat ( , n) (ou de Mat ( , n)) formado pelas matrizes


com traço nulo é uma álgebra de Lie com relação ao produto [A, B] = AB − BA. 6

E. 1.50 Exercı́cio. Mostre que o subconjunto de Mat ( , n) (ou de Mat ( , n)) formado pelas matrizes


anti-simétricas, ou seja, tais que AT = −A, é uma álgebra de Lie com relação ao produto [A, B] =
AB − BA. 6

E. 1.51 Exercı́cio. Mostre que o subconjunto de Mat ( , n) formado pelas matrizes anti-autoadjuntas,
ou seja, tais que A∗ = −A, é uma álgebra de Lie (sobre o corpo dos reais!) com relação ao produto
[A, B] = AB − BA. 6

E. 1.52 Exercı́cio. Conclua igualmente que o subconjunto de Mat ( , n) formado pelas matrizes anti-
autoadjuntas, ou seja, tais que A∗ = −A, e de traço nulo (Tr (A) = 0) é uma álgebra de Lie (sobre o corpo
dos reais!) com relação ao produto [A, B] = AB − BA. 6

E. 1.53 Exercı́cio. Fixada uma matriz B ∈ Mat ( , n), mostre que o subconjunto de Mat ( , n)
 

formado pelas matrizes A com a propriedade AB = −BAT é uma álgebra de Lie real com relação ao
produto [A, B] = AB − BA. 6

E. 1.54 Exercı́cio. Fixada uma matriz B ∈ Mat ( , n), mostre que o subconjunto de Mat ( , n)
formado pelas matrizes A com a propriedade AB = −BA∗ é uma álgebra de Lie real com relação ao
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 58/1195

produto [A, B] = AB − BA. 6

Tratemos agora de exibir um exemplo básico de uma álgebra de Lie de dimensão infinita.

• Colchetes de Poisson

Sejam f (p, q) e g(p, q), com f : 2 →   e g : 2 → , duas funções reais, infinitamente


 

diferenciáveis, de duas variáveis reais p e q. Definimos os colchetes de Poisson 29 de f e g, denotados


por {f, g}, por
∂f ∂g ∂f ∂g
{f, g} := − .
∂p ∂q ∂q ∂p
É claro que {f, g} é igualmente uma função infinitamente diferenciável de p e q.
Os colchetes de Poisson satisfazem as seguintes propriedades: para quaisquer funções f, g e h como
acima, valem

1. Linearidade. {f, αg + βh} = α{f, g} + β{f, h} para quaisquer α, β ∈  . Analogamente


{αf + βg, h} = α{f, h} + β{g, h}.

2. Anti-simetria. {f, g} = −{g, f }.

3. Identidade de Jacobi30 . {f, {g, h}} + {h, {f, g}} + {g, {h, f }} = 0.

4. Identidade de Leibniz31 . {f, gh} = {f, g}h + g{f, h}.

E. 1.55 Exercı́cio importante. Verifique a validade das quatro propriedades acima. 6

As propriedades 1 e 2 e 3 indicam que o conjunto das funções 2 → infinitamente diferenciáveis


 

é uma álgebra de Lie com o produto definido pelos colchetes de Poisson. Trata-se de uma álgebra de
Lie de dimensão infinita.
A definição acima dos colchetes de Poisson pode ser facilmente generalizada para variedades dife-
renciáveis de dimensão par, mas não trataremos disso aqui por ora. Os colchetes de Poisson desempe-
nham um papel importante na Mecânica Clássica.

E. 1.56 Exercı́cio. Mostre que matrizes A, B, C de Mat ( , n) (ou de Mat ( , n)) também satisfazem


uma identidade de Leibniz: [A, BC] = [A, B]C + B[A, C]. Em verdade, essa identidade é válida em
qualquer álgebra associativa. Mostre isso também (a prova é idêntica ao caso de matrizes). 6

• Módulos

Seja A um anel. Um A-módulo à esquerda é um grupo Abeliano M (cujo produto, seguindo a


convenção, denotaremos por “+”) dotado de uma função A × M → M que a cada par a ∈ A, m ∈ M
29
Siméon Denis Poisson (1781-1840).
30
Carl Gustav Jacob Jacobi (1804-1851).
31
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 59/1195

associa um elemento de M denotado por a · m com as seguintes propriedades: para todos a, b ∈ A e


todos m, n ∈ M

1. a · (m + n) = a · m + a · n,

2. (a + b) · m = a · m + b · m,

3. a · (b · m) = (ab) · m,

4. Se A possuir uma identidade e, então e · m = m.

Seja A um anel. Um A-módulo à direita é um grupo Abeliano M dotado de uma função M ×A → M


que a cada par a ∈ A, m ∈ M associa um elemento de M denotado por m · a com as seguintes
propriedades: para todos a, b ∈ A e todos m, n ∈ M

1. (m + n) · a = m · a + n · a,

2. m · (a + b) = m · a + m · b,

3. (m · b) · a = m · (ba),

4. Se A possuir uma identidade e, então m · e = m.

Sejam A e B dois anéis. Um bimódulo em relação a A e B é um grupo Abeliano M dotado de


duas funções A × M → M e M × B → M que a cada a ∈ A, b ∈ B e m ∈ M associam elementos de
M denotados por a · m e m · b, respectivamente, de modo que M seja um A-módulo à esquerda e um
B-módulo à direita e de modo que valha

1. a · (m · b) = (a · m) · b para todos a ∈ A, b ∈ B, m ∈ M .

1.2.5 Mais sobre Anéis


Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevantes.

• Anéis com Unidade

Um anel com unidade é um anel R com a propriedade de existir em R um elemento 1, chamado de


unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.

• Anéis sem Divisores de Zero

Dado um anel R um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir pelo menos
um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
Se em um dado anel a relação a · b = 0 só for possı́vel se a = 0 ou b = 0 ou ambos, então esse anel
é dito ser um anel sem divisores de zero.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 60/1195

Exemplos. e são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis


Mat(n, ), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,
    
1 0 0 0 0 0
= .
0 0 0 1 0 0

E. 1.57 Exercı́cio. Mostre que em 4 tem-se 2 · 2 = 0, ou seja, 2 é um divisor de zero. Há outros
divisores de zero? 6

E. 1.58 Exercı́cio. Mostre que em n existem divisores de zero caso n não seja um número primo. 6

• Anéis de Integridade

Um anel comutativo (ou seja, cujo produto é comutativo), com unidade e sem divisores de zero é
dito ser um anel de integridade ou também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.

• Anéis de Divisão

Um anel R é dito ser um anel de divisão se possuir uma unidade multiplicativa 1, i.e., um elemento
tal que para todo a ∈ R vale a · 1 = 1 · a = a e se para todo a ∈ R, a 6= 0, existir uma inversa
multiplicativa em R, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.

E. 1.59 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6

Exemplos. Com as definições usuais , e são anéis de divisão mas não o é (falta a inversa).


Mat(n, ) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.
Outro exemplo de anel de divisão (não comutativo!) são os quatérnions, que serão discutidos à
página 87.

• Álgebras de Divisão

Uma álgebra A é dita ser uma álgebra de divisão se possuir uma unidade multiplicativa 1, i.e., um
elemento tal que para todo a ∈ A vale a · 1 = 1 · a = a e se para todo a ∈ A, a 6= 0, existir uma inversa
multiplicativa em A, ou seja, um elemento denotado por a−1 tal que a · a−1 = a−1 · a = 1.

• Corpos

Todo anel de divisão cujo produto “·” é comutativo é um corpo (verifique).

• Corpos Não-comutativos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 61/1195

Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.

• Corpos e Anéis de Integridade

É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 1.7 Todo anel de integridade finito é um corpo. 2

Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo de
A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por

α(y) = ay.

Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é, em verdade, uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.

Anéis de integridade infinitos não são necessariamente corpos:


Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de em com o produto e soma usuais. Em verdade, os únicos polinômios que têm
inverso multiplicativo são os polinômios constantes não-nulos.

1.2.6 Ações e Representações

• Ações

Seja M um conjunto não-vazio e G um grupo. Uma função α : G × M → M é dita ser uma ação à
esquerda de G sobre M se as seguintes condições forem satisfeitas:

1. Para todo g ∈ G a função α(g, ·) : M → M é bijetora32 .

2. Se e é a identidade de G então α(e, ·) : M → M é a função identidade: α(e, x) = x para todo


x ∈ M.
32
Para g ∈ G fixo, α(g, ·) : M → M denota a função M 3 m 7→ α(g, m) ∈ M , ou seja, a função que a cada m ∈ M
associa α(g, m) ∈ M .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 62/1195

3. Para todos g, h ∈ G e todo x ∈ M vale

α(g, α(h, x)) = α(gh, x). (1.23)

Uma função β : G × M → M é dita ser uma ação à direita de G sobre M se as seguintes condições
forem satisfeitas

1. Para todo g ∈ G a função β(g, ·) : M → M é bijetora.

2. Se e é a identidade de G então β(e, ·) : M → M é a função identidade: β(e, x) = x para todo


x ∈ M.

3. Para todos g, h ∈ G e todo x ∈ M vale

β(g, β(h, x)) = β(hg, x). (1.24)

Note-se que a distinção básica entre (1.23) e (1.24) é a ordem do produto no grupo. Se G é Abeliano
não há distinção entre uma ação à direita ou à esquerda.

E. 1.60 Exercı́cio. Seja α : G × M → M uma ação à esquerda de um grupo G em um conjunto M .


Mostre que β : G × M → M definida por β(g, x) = α(g −1 , x) é uma ação à direita de G em M . 6

É freqüente encontrar-se outras notações para designar ações de grupos em conjuntos. Uma ação à
esquerda α(g, x) é freqüentemente denotada por αg (x), de modo que a relação (1.23) fica αg (αh (x)) =
αgh (x). Para uma ação à direita, (1.24) fica βg (βh (x)) = βhg (x).
Talvez a notação mais conveniente seja denotar uma ação à esquerda α(g, x) simplesmente por g · x
ou apenas gx. A relação (1.23) fica g(hx) = (gh)x. Para uma ação à direita β(g, x) a notação fica x · g,
ou apenas xg, de modo que (1.24) fica (xh)g = x(hg). Essa notação justifica o uso da nomenclatura à
direita ou à esquerda para classificar as ações.
Seja F uma coleção de funções bijetoras de um conjunto M em si mesmo. Uma ação α : G×M → M
é dita ser uma ação de G em M pela famı́lia F se para todo g ∈ G as funções α(g, ·) : M → M forem
elementos do conjunto F.

E. 1.61 Exercı́cio. Seja G = SO(n) o grupo de todas as matrizes reais n × n ortogonais (ou seja, tais
que RT = R−1 , onde RT denota a transposta de R). Seja M o conjunto de todas as matrizes reais n × n
simétricas (ou seja, tais que AT = A). Mostre que αR (A) := RART , com R ∈ SO(n) e A ∈ M, é uma
ação à esquerda de G em M . Com as mesmas definições, mostre que β R (A) := RT AR é uma ação à direita
de G em M.
Sugestão. O único ponto que poderia ser difı́cil para alguns seria mostrar que, para cada R fixo, α R é
bijetora, ou seja, é sobrejetora e injetora. Para mostrar que α R é sobrejetora, note que se A é uma matriz
simétrica qualquer, podemos trivialmente escrever A = R(R T AR)RT , mostrando que A = αR (B), onde
B = RT AR é simétrica. Para provar que αR é injetora note que, se RA1 RT = RA2 RT , segue facilmente,
multiplicando-se por RT à esquerda e por R à direita, que A1 = A2 . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 63/1195

E. 1.62 Exercı́cio. Seja G = SU(n) o grupo de todas as matrizes complexas n × n unitárias (ou seja,
tais que U ∗ = U −1 , onde U ∗ denota a adjunta de U : U ∗ = U T ). Seja M o conjunto de todas as matrizes
complexas n × n Hermitianas (ou seja, tais que A∗ = A). Mostre que αU (A) := U AU ∗ , com U ∈ SU(n)
e A ∈ M, é uma ação à esquerda de G em M. Com as mesmas definições, mostre que β U (A) := U ∗ AU é
uma ação à direita de G em M. 6

• Órbita de uma ação

Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto


não-vazio M . Para m ∈ M , definimos a órbita de m pela ação α como sendo o conjunto Orb α (m) :=
{αg (m), g ∈ G} ⊂ M .
Claro está que para todo m ∈ M vale m ∈ Orbα (m).

E. 1.63 Exercı́cio. Mostre que para todo m ∈ M vale a afirmação que para todo m 0 ∈ Orbα (m) tem-se
Orbα (m0 ) = Orbα (m). 6

E. 1.64 Exercı́cio. Conclúa que se existe m ∈ M tal que Orbα (m) = M , então Orbα (m0 ) = M para
todo m0 ∈ M . 6

• Transitividade e Espaços Homogêneos

O fato descrito no Exercı́cio E. 1.64 conduz naturalmente às seguintes definições.


Seja G um grupo e α : G × M → M uma ação (à esquerda ou à direita) de G sobre um conjunto
não-vazio M . Dizemos que α age transitivamente em M se existir m ∈ M tal que {α g (m), g ∈ G} = M .
Em palavras, α age transitivamente em M se existir pelo menos um elemento de M cuja órbita é todo
M . Pelo Exercı́cio E. 1.63, se um elemento de M possui essa propriedade, então todos a possuem.
Se uma ação α age transitivamente em M dizemos que M é um espaço homogêneo do grupo G pela
a ação α, ou simplesmente um espaço homogêneo do grupo G.

• Representações de Grupos

Uma representação de um grupo é uma ação a esquerda do mesmo em um espaço vetorial pela
famı́lia das aplicações lineares invertı́veis agindo nesse espaço vetorial.
Sejam G um grupo e V um espaço vetorial sobre um corpo K. Uma representação de G em V é
uma função π : G × V → V tal que para todo g ∈ G as funções π(g, ·) : V → V sejam lineares e
bijetivas e satisfazem π(e, v) = v e π(g, π(h, v)) = π(gh, v) para todos g, h ∈ G e todo v ∈ V .
Devido à linearidade é conveniente denotar π(g, v) por π(g)v. Uma representação satisfaz assim:

1. Para todo g ∈ G, π(g) é uma aplicação linear bijetora de V em V :

π(g)(αu + βv) = απ(g)u + βπ(g)v

para todos α, β ∈ K e todos u, v ∈ V .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 64/1195

2. π(e) = , o operador identidade em V .


3. Para todos g, h ∈ G vale
π(g)π(h) = π(gh).

• Representações de Álgebras

Seja A uma álgebra sobre um corpo K e V um espaço vetorial sobre o mesmo corpo. Uma repre-
sentação de A em V é uma famı́lia de funções lineares de V em V , {π(a), a ∈ A}, satisfazendo

1. Para todo a ∈ A, π(a) : V → V é uma aplicação linear, ou seja

π(a)(αu + βv) = απ(a)u + βπ(a)v

para todos α, β ∈ K e todos u, v ∈ V .


2. Para todos α, β ∈ K e todos a, b ∈ A vale

π(αa + βb) = απ(a) + βπ(b).

3. Para todos a, b ∈ A
π(ab) = π(a)π(b).

Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação fiel
se π(a) = 0 só ocorrer para a = 0.
Uma representação π de uma álgebra A em um espaço vetorial V é dita ser uma representação
não-degenerada se π(a)v = 0 para todo a ∈ A só ocorrer para v = 0.

1.2.7 Morfismos, Homomorfismos, Epimorfismos, Isomorfismos, Mono-


morfismos, Endomorfismos e Automorfismos
Dos radicais gregos hómos: semelhante, igual; mónos: um, sozinho; epi: sobre; ı́sos: semelhante, igual; endon: para dentro, dentro; autós:
próprio, mesmo e morphé: forma.

Nesta seção nos limitaremos a listar algumas definições básicas que serão usadas e desenvolvidas no
restante do texto, onde também exemplos serão apresentados. A pretensão não é a de desenvolver os
assuntos, mas de apresentar as definições para referência futura.
Em termos informais um morfismo entre duas estruturas de um mesmo tipo (dois grupos, dois
espaços vetoriais, duas álgebras, dois anéis etc.) é uma função entre as mesmas que respeita as operações
de produto lá definidas.

• Morfismos em Grupos

Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita


ser um homomorfismo ou morfismo de grupos se φ(eG ) = eH e se φ(a · b) = φ(a) · φ(b) para todos
a, b ∈ G.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 65/1195

Dados dois grupos G e H, com unidades eG e eH , respectivamente, uma função φ : G → H é dita


ser um anti-homomorfismo se φ(eG ) = eH e se φ(a · b) = φ(b) · φ(a) para todos a, b ∈ G. Por exemplo,
a aplicação φ : G → G tal que φ(g) = g −1 é um anti-homomorfismo (verifique).
Um homomorfismo φ : G → H entre dois grupos é dito ser um monomorfismo se for injetivo.
Um homomorfismo φ : G → H entre dois grupos é dito ser um epimorfismo se for sobrejetor.
Um homomorfismo φ : G → H entre dois grupos é dito ser um isomorfismo se for bijetor, em cujo
caso a aplicação inversa φ−1 : H → G é também um homomorfismo.
Se dois grupos G e H forem tais que exista um isomorfismo φ entre ambos dizemos que G e H são
isomorfos (por φ) e denotamos esse fato por G 'φ H, ou simplesmente por G ' H.

E. 1.65 Exercı́cio importante. Mostre que a relação de isomorfia entre grupos é uma relação de
equivalência. 6

Um homomorfismo ρ de um grupo G em si mesmo ρ : G → G é dito ser um endomorfismo de G.


Um isomorfismo α de um grupo G em si mesmo α : G → G é dito ser um automorfismo de G.
Um exemplo básico de automorfismo é o seguinte: seja g ∈ G fixo. Definimos αg : G → G por
αg (a) = g −1 ag para todo a ∈ G.

E. 1.66 Exercı́cio. Mostre que para cada g ∈ G fixo, αg é um homomorfismo e que sua inversa é αg−1 .
6

Um automorfismo de um grupo G é dito ser um automorfismo interno se for da forma αg para


algum g ∈ G.
Muitas das definições apresentadas acima têm seus análogos em outras estruturas, como espaços
vetoriais, álgebras, anéis, módulos etc. Trataremos de alguns casos.

• Morfismos em Espaços Vetoriais

Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
homomorfismo ou morfismo de espaços vetoriais se φ(α1 u1 + α2 u2 ) = α1 φ(u1 ) + α2 φ(u2 ) para todos
α1 , α2 ∈ K e todos u1 , u2 ∈ U .
Sejam U e V dois espaços vetoriais sobre o mesmo corpo K. Uma função φ : U → V é dita ser um
isomorfismo de espaços vetoriais se for um morfismo de espaços vetoriais, e se for bijetora.
Se dois espaços vetoriais U e V sobre o mesmo corpo forem tais que exista um isomorfismo φ entre
ambos dizemos que U e V são isomorfos (por φ) e denotamos esse fato por U 'φ V , ou simplesmente
por U ' V .

E. 1.67 Exercı́cio importante. Mostre que a relação de isomorfia entre espaços vetoriais é uma relação
de equivalência. 6

Em espaços vetoriais os conceitos de mono-, endo- e e automorfismo não são muito empregados.
Em verdade, morfismos de espaços vetoriais são mais freqüentemente denominados operadores lineares
ou aplicações lineares, como matrizes, por exemplo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 66/1195

No caso de espaços vetoriais sobre o corpo dos complexos existem também os conceitos de anti-
homomorfismo, anti-isomorfismo etc. Sejam U e V dois espaços vetoriais sobre . Uma função φ :
U → V é dita ser um anti-homomorfismo ou anti-morfismo de espaços vetoriais se φ(α 1 u1 + α2 u2 ) =
α1 φ(u1 )+α2 φ(u2 ) para todos α1 , α2 ∈ e todos u1 , u2 ∈ U . O conceito de anti-isomorfismo é análogo.

• Morfismos em Álgebras

Sejam A e B duas álgebras (sobre o mesmo corpo K, como espaços vetoriais). Uma função φ :
A → B é dita ser um homomorfismo ou morfismo de álgebras se for um morfismo de espaços vetoriais
(ou seja φ(α1 a1 + α2 a2 ) = α1 φ(a1 ) + α2 φ(a2 ) para todos α1 , α2 ∈ K e todos a1 , a2 ∈ A) e se
φ(a1 · a2 ) = φ(a1 ) · φ(a2 ) para todos a1 , a2 ∈ A.
Sejam A e B duas álgebras sobre o mesmo corpo K. Uma função φ : A → B é dita ser um
isomorfismo de álgebras se for um morfismo de álgebras e se for bijetora.
Se duas álgebras A e B sobre o mesmo corpo forem tais que exista um isomorfismo φ entre ambos
dizemos que A e B são isomorfas (por φ) e denotamos esse fato por A 'φ B, ou simplesmente por
A ' B.

E. 1.68 Exercı́cio importante. Mostre que a relação de isomorfia entre álgebras é uma relação de
equivalência. 6

Um morfismo de álgebra ρ de uma álgebra A em si mesma ρ : A → A é dito ser um endomorfismo


de A.

1.3 Cosets, Sub-Grupos Normais e o Grupo Quociente. O


Centro de um Grupo

1.3.1 Cosets

• Cosets à esquerda, ou “left cosets”

Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que


denotaremos por ∼H l (o sub-ı́ndice “l” denotando “left”) dizendo que dois elementos x e y de G são
−1
equivalentes se x y ∈ H. Representaremos por x ∼H l y o fato de x e y serem equivalentes no sentido
acima.

E. 1.69 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6

Denotemos por (G/H)l a coleção das classes de equivalência de G pela relação ∼H


l . O conjunto
(G/H)l é denominado coset à esquerda de G por H, ou left coset de G por H.
Seja [·]l a aplicação G → (G/H)l que associa a cada elemento de G a classe de equivalência a qual
o elemento pertence. A aplicação [·]l é denominada aplicação quociente à esquerda associada a H.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 67/1195

Note-se que [·]l é sobrejetora mas, em geral, não é injetora, pois se g 0 ∼H 0


l g então [g ]l = [g]l . Com isso,
os elementos de (G/H)l poderão ser denotados por [g]l com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]l com o conjunto gH = {gh, h ∈ H} ⊂ G. De fato, g 0 ∈ gH se e somente se
existe h ∈ H tal que g 0 = gh e, portanto, se e somente se g −1 g 0 ∈ H, ou seja, se e somente se g ∼H 0
l g.

• Cosets à direita, ou “right cosets”

Seja G um grupo e H um sub-grupo de G. Podemos definir em G uma relação de equivalência, que


denotaremos por ∼H r (o sub-ı́ndice “r” denotando “right”) dizendo que dois elementos x e y de G são
equivalentes se xy −1 ∈ H. Representaremos por x ∼H r y o fato de x e y serem equivalentes no sentido
acima.

E. 1.70 Exercı́cio importante. Verifique que a definição acima corresponde de fato a uma relação de
equivalência. 6

Denotemos por (G/H)r a coleção das classes de equivalência de G pela relação ∼H


r . O conjunto
(G/H)r é denominado coset à direita de G por H, ou right coset de G por H.
Seja [·]r a aplicação G → (G/H)r que associa a cada elemento de G a classe de equivalência a qual o
elemento pertence. A aplicação [·]r é denominada aplicação quociente à direita associada a H. Note-se
que [·]r é sobrejetora mas, em geral, não é injetora, pois se g 0 ∼H 0
r g então [g ]r = [g]r . Com isso, os
elementos de (G/H)r poderão ser denotados por [g]r com g ∈ G, o que freqüentemente faremos.
Podemos identificar [g]r com o conjunto Hg = {hg, h ∈ H} ⊂ G. De fato, g 0 ∈ Hg se e somente se
existe h ∈ H tal que g 0 = hg e, portanto, se e somente se g 0 g −1 ∈ H, ou seja, se e somente se g 0 ∼H
r g.

Doravante, denotaremos ∼H H
l simplesmente por ∼l e ∼r por ∼r , ficando o subgrupo H subentendido.

• Ação à esquerda de G sobre (G/H)l

É sempre possı́vel definir uma ação à esquerda de G sobre o coset à esquerda (G/H) l , a qual age
transitivamente em (G/H)l (vide definição à página 63). Isso faz de (G/H)l um espaço homogêneo de
G (vide definição à página 63).
Seja G um grupo, H um sub-grupo de G e seja o coset à esquerda (G/H)l , definido acima. Defina

α : G × (G/H)l → (G/H)l tal que G × (G/H)l 3 (g, [f ]l ) 7→ αg ([f ]l ) := [gf ]l ∈ (G/H)l .

Então, α define uma ação à esquerda de G sobre (G/H)l . De fato, tem-se que

1. Para cada g ∈ G, αg : (G/H)l → (G/H)l é bijetora, pois se existem f1 , f2 ∈ G tais que


[gf1 ]l = [gf2 ]l , então gf1 ∼l gf2 , ou seja, (gf1 )−1 (gf2 ) ∈ H, ou seja, (f1 )−1 f2 ∈ H. Isso estabelece
que f1 ∼l f2 , ou seja, que [f1 ]l = [f2 ]l , provando que αg : (G/H)l → (G/H)l é injetora. Note-se
que αg : (G/H)l → (G/H)l é sobrejetora, pois αg ([g −1 f ]l ) = [f ]l e variando f em G, [f ]l varre
todo (G/H)l .

2. Para a identidade e ∈ G, αe ([f ]l ) = [ef ]l = [f ]l para todo f ∈ G, provando que αe : (G/H)l →


(G/H)l é a aplicação identidade.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 68/1195

3. Para todos g, h ∈ G vale αg (αh ([f ]l )) = αg ([hf ]l ) = [ghf ]l = αgh ([f ]l ) para qualquer f ∈ G.

Isso provou que α : G × (G/H)l → (G/H)l é uma ação à esquerda de G em (G/H)l .


Não é difı́cil ver que a ação α age transitivamente em (G/H)l . De fato, se e é a unidade de G, então
αg ([e]l ) = [g]l e variando g por todo G a imagem [g]l varre todo (G/H)l .

• Ação à direita de G sobre (G/H)r

É sempre possı́vel definir uma ação à direita de G sobre o coset à direita (G/H) r , a qual age
transitivamente em (G/H)r (vide definição à página 63). Isso faz de (G/H)r um espaço homogêneo de
G (vide definição à página 63).
Seja G um grupo, H um sub-grupo de G e seja o coset à direita (G/H)r , definido acima. Defina

β : G × (G/H)r → (G/H)r tal que G × (G/H)r 3 (g, [f ]r ) 7→ βg ([f ]r ) := [f g]r ∈ (G/H)r .

Então, β define uma ação à direita de G sobre (G/H)r . De fato, tem-se que

1. Para cada g ∈ G, βg : (G/H)r → (G/H)r é bijetora, pois se existem f1 , f2 ∈ G tais que


[f1 g]r = [f2 g]r , então f1 g ∼r f2 g, ou seja, (f1 g)(f2 g)−1 ∈ H, ou seja, f1 (f2 )−1 ∈ H. Isso
estabelece que f1 ∼r f2 , ou seja, que [f1 ]r = [f2 ]r , provando que βg : (G/H)r → (G/H)r é
injetora. Note-se que βg : (G/H)r → (G/H)r é sobrejetora, pois βg (f [g −1 ]r ) = [f ]r e variando f
em G, [f ]r varre todo (G/H)r .
2. Para a identidade e ∈ G, βe ([f ]r ) = [f e]r = [f ]r para todo f ∈ G, provando que βe : (G/H)r →
(G/H)r é a aplicação identidade.
3. Para todos g, h ∈ G vale βg (βh ([f ]r )) = βg ([f h]r ) = [f hg]r = βhg ([f ]r ) para qualquer f ∈ G.

Isso provou que β : G × (G/H)r → (G/H)r é uma ação à direita de G em (G/H)r .


Não é difı́cil ver que a ação β age transitivamente em (G/H)r . De fato, se e é a unidade de G,
então αg ([e]r ) = [g]r e variando g por todo G a imagem [g]r varre todo (G/H)r .

Os cosets (G/H)l e (G/H)r podem ser identificados e transformados em grupos se uma certa
hipótese for feita sobre o sub-grupo H e sua relação com G. Esse é nosso assunto na Seção 1.3.2.

1.3.2 Sub-Grupos Normais e o Grupo Quociente

• Sub-Grupos Normais

Seja G um grupo. Um sub-grupo N de G é dito ser normal se gng −1 ∈ N para todo g ∈ G e todo
n ∈ N . Se N é um sub-grupo normal de G denotamos esse fato escrevendo N  G. Observe que todo
sub-grupo de um grupo Abeliano G é normal.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 69/1195

E. 1.71 Exercı́cio. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Mostre que Ran (ϕ) :=
{ϕ(g)| g ∈ G} é um sub-grupo de H. 6

E. 1.72 Exercı́cio importante. Sejam G e H dois grupos e ϕ : G → H um homomorfismo. Seja e H a


unidade de H. Mostre que Ker (ϕ) := {g ∈ G| ϕ(g) = eH } é um sub-grupo normal de G. 6

Nota sobre a nomenclatura dos dois exercı́cios acima. O sı́mbolo Ran provém da palavra inglesa “range” (“alcance”, em português) e é
freqüentemente empregado como sinônimo da imagem de uma função ou aplicação. O sı́mbolo Ker provem do inglês “kernel” (“núcleo” ou
“caroço”, em português).

• Cosets por subgrupos normais

Nesse contexto, a seguinte proposição é fundamental.


Proposição 1.8 Seja G um grupo e seja N um sub-grupo de G. Então, uma condição necessária e
suficiente para que possamos identificar (G/N )l com (G/N )r , ou seja, para que tenhamos [g]l = [g]r
para todo g ∈ G, é que N  G, ou seja, que N seja um sub-grupo normal de G. 2

Prova. Por definição, g 0 ∈ [g]l se e somente existe n ∈ N tal que g −1 g 0 = n, o que é verdade se e
somente se g 0 g −1 = gng −1 . Mas g 0 ∈ [g]r se e somente se g 0 g −1 ∈ N . Assim [g]l = [g]r para todo g ∈ G
se e somente se gng −1 ∈ N para todo g ∈ G e n ∈ N , o que é verdade se somente se N é um subgrupo
normal de G.

Com isso, caso N  G, definimos [g] := [g]l = [g]r para todo g ∈ G e definimos o coset de G por N
por G/N := (G/N )l = (G/N )r , ou seja, G/N = {[g], g ∈ G}.

Advertência. O leitor deve ser advertido aqui que, infelizmente, é comum na literatura denotar o
coset à esquerda (G/H)l por G/H, mesmo quando H não é normal (vide, por exemplo, [114] ou [55],
entre outros). Evitaremos fazer isso, pois isso pode levar a uma confusão de conceitos.

• Ações à direita e à esquerda sobre o coset por um subgrupo normal

Se H é um subgrupo qualquer de G, definimos páginas acima uma ação transitiva à esquerda


α : G × (G/H)l → (G/H)l e uma ação transitiva à direita β : G × (G/H)r → (G/H)r . Fica claro
pela Proposição 1.8 que se N  G, podemos definir tanto
α : G × (G/N ) → G/N tal que G × (G/N ) 3 (g, [f ]) 7→ αg ([f ]) := [gf ] ∈ G/N
como uma ação à esquerda de G sobre G/N quanto
β : G × (G/N ) → G/N tal que G × (G/N ) 3 (g, [f ]) 7→ βg ([f ]) := [f g] ∈ G/N
como uma ação à direita de G sobre G/N . Ambas as ações agem transitivamente.

• O Grupo Quociente de G por N


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 70/1195

Sub-grupos normais são importantes, pois com eles podemos fazer da coleção de classes de equi-
valência G/N um grupo, denominado grupo quociente de G por N . A construção é a seguinte.
Seja N  G. Podemos fazer de G/N um grupo definindo o produto como [g]N [h]N = [gh]N . É
muito fácil ver que, se esta expressão está bem definida, ela de fato representa um produto associativo
na coleção de classes de equivalência G/N . O elemento neutro seria a classe [e] N , onde e é a identidade
de g. Por fim, [g]−1 −1
N = [g ]N . O ponto não trivial é mostrar que a definição de produto como
[g]N [h]N = [gh]N faz sentido, ou seja, é independente dos elementos tomados nas classes de g e h. Para
isso precisaremos que N seja normal.
O que temos de fazer é mostrar que se g 0 ∼N g e h0 ∼N h então g 0 h0 ∼N gh, ou seja, precisamos
mostrar que se g 0 g −1 ∈ N e h0 h−1 ∈ N então g 0 h0 (gh)−1 ∈ N . Mas, de fato, tem-se que

g 0 h0 (gh)−1 = g 0 h0 h−1 g −1 = (g 0 g −1 )[g(h0 h−1 )g −1 ].

Agora, por hipótese, h0 h−1 ∈ N . Daı́, como N é normal (é aqui que essa hipótese entra pela primeira
vez), g(h0 h−1 )g −1 ∈ N . Como, também pela hipótese, g 0 g −1 ∈ N e N é um sub-grupo, concluı́mos que
g 0 h0 (gh)−1 ∈ N , ou seja, g 0 h0 ∼N gh. Assim [g]N [h]N = [gh]N está bem definido e faz das classes G/N
um grupo. Esse grupo é denominado de grupo quociente de G por N .
A noção de grupo quociente é muito importante na teoria de grupos e iremos explorar algumas das
aplicações nessas notas. Adiante usarêmo-la para construir a noção de produto tensorial e soma direta
de vários objetos, tais como grupos, álgebras etc. A noção de grupo quociente é importante por permitir
estudar a relação de certos grupos entre si. Mais adiante, por exemplo, mostraremos que o grupo SO(3)
é isomorfo ao grupo SU (2)/{ , − }, um resultado de direto interesse fı́sico na Mecânica Quântica. A
noção de grupo quociente é também muito importante em problemas combinatórios envolvendo grupos,
mas não falaremos disso aqui. Para uma discussão mais ampla, vide [113], [114] ou [93].

1.3.3 O Centro de um Grupo. Centralizadores e Normalizadores

• O Centro de um Grupo

Seja G um grupo. O conjunto dos elementos de G que têm a propriedade de comutarem com todos
os elementos de G é denominado o centro do grupo G e é freqüentemente denotado por 33 Z(G). Em
sı́mbolos:
Z(G) := {h ∈ G| hg = gh para todo g ∈ G} .

Note que Z(G) nunca é um conjunto vazio, pois o elemento neutro de G sempre pertence e Z(G).
Em alguns grupos, porém, esse pode ser o único elemento de Z(G). Esse é o caso, por exemplo, do
grupo de permutações de n elementos (por que?).

E. 1.73 Exercı́cio. Mostre que Z(G) é sempre um subgrupo Abeliano de G. 6

É elementar constatar que para qualquer grupo G, seu centro Z(G) é um subgrupo normal de G.
É igualmente elementar constatar que se G é Abeliano então Z(G) = G.
33
O emprego da letra Z provavelmente provem da palavra alemã “Zentrum”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 71/1195

• Centralizadores e Normalizadores

Seja G um grupo e F um sub-conjunto não vazio de G.


Dado um elemento h ∈ G, denotamos por hF h−1 o conjunto de todos os elementos de G que sejam
da forma hf h−1 para algum f ∈ F , ou seja, hF h−1 := {hf h−1 , f ∈ F }.
O chamado normalizador de F (em G), denotado por N (F, G) (ou simplesmente por N (F ), quando
G é subentendido), é o conjunto de todos os elementos g ∈ G tais que gF g −1 = F .
O chamado centralizador de F (em G), denotado por C(F, G) (ou simplesmente por C(F ), quando
G é subentendido), é o conjunto de todos os elementos de G que comutam com todos os elementos de
F:
C(F, G) := {g ∈ G| gf = f g para todo f ∈ F }.

E. 1.74 Exercı́cio. Mostre que o centralizador de F ⊂ G é um sub-grupo de G. 6

E. 1.75 Exercı́cio. Se F ⊂ G, mostre que o normalizador N (F ) ≡ N (F, G) de F em G é um sub-grupo


de G. Mostre que se F é um subgrupo de G então F é normal em relação a N (F ) (ou seja, F  N (F )) e
que se H é um subgrupo de G tal que F é normal em relação a H (ou seja, F  H), então H ⊂ N (F ) e,
portanto, N (F ) é o maior subgrupo de G em relação ao qual F é normal. 6

• O Centro de GL( , n)

Como exercı́cio vamos determinar o centro de GL( , n). Se A ∈ Z(GL( , n)) então AB = BA
para toda B ∈ GL( , n). Tomemos, em particular, uma matriz B da forma B = + E a, b , onde E a, b ,
com a, b ∈ {1, . . . , n}, é a matriz cujo elemento ij é nulo a menos que i = a e que j = b, em cujo
caso (E a, b )ij = 1. Em sı́mbolos, (E a, b )ij = δia δjb . (Antes de prosseguir, convença-se que + E a, b ∈
GL( , n), notando que det( + E a, b ) 6= 0). Agora, como AB = BA, segue que AE a, b = E a, b A. Pela
regra de produto de matrizes, isso significa
n
X n
X
(AE a, b )ij = Aik (E a, b )kj = Aik δka δjb = Aia δjb
k=1 k=1

q
n
X n
X
a, b a, b
(E A)ij = (E )ik Akj = δia δkb Akj = Abj δia .
k=1 k=1

Assim, Aia δjb = Abj δia . Tomando-se j = b, concluı́mos Aia = Abb δia . Como a e b são arbitrários,
concluı́mos dessa igualdade que Abb = λ, constante independente de b. Daı́, Aia = λδia , o que significa
que A = λ . Como det(A) 6= 0, devemos ter λ 6= 0.
Para futura referência expressamos nossas conclusões na forma de uma proposição:
Proposição 1.9 O centro do grupo GL( , n), ou seja, Z(GL( , n)), coincide com o conjunto de
todas as matrizes da forma λ , com λ 6= 0, ou seja, é o conjunto das matrizes não-nulas que são
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 72/1195

múltiplos da unidade. Em sı́mbolos,

Z(GL( , n)) = {λ , λ ∈ , λ 6= 0} .

Como conseqüência podemos afirmar que se uma matriz A ∈ Mat ( , n) comuta com todas as demais
matrizes de Mat ( , n) então A = λ para algum λ ∈ . 2

E. 1.76 Exercı́cio. Mostre que o centro de SL( , n) é o conjunto de todas as matrizes da forma λ ,
com λ ∈ satisfazendo λn = 1. Mostre que esse grupo é isomorfo ao grupo n . 6

E. 1.77 Exercı́cio. Mostre que o centro de SL( , n) é o conjunto de todas as matrizes da forma λ ,


com λ ∈ satisfazendo λn = 1. Esse grupo é { } quando n é ı́mpar e { , − } quando n é par. (Lembre-se




que SL( , n) é formado apenas por matrizes reais).


 6

1.4 O Produto Direto e o Produto Semi-Direto de Grupos


Vamos aqui descrever dois procedimentos importantes que permitem construir um grupo a partir de
dois outros grupos dados.
Sejam G e H dois grupos, cujas identidades são eG e eH , respectivamente. É por vezes muito
importante fazer do produto Cartesiano G × H um grupo.

• O Produto Direto de Grupos

A maneira mais fácil é definir o produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 h2 ).
O leitor pode facilmente se convencer que esse produto é associativo, que (e G , eH ) é o elemento neutro
e que (g, h)−1 = (g −1 , h−1 ).
Isso faz de G × H um grupo, denominado produto direto de G e H. Esse grupo é por vezes denotado
por G ⊗ H.

E. 1.78 Exercı́cio. Mostre que G ⊗ H e H ⊗ G são isomorfos. 6

A definição acima pode ser amplamente generalizada. Seja Gs ,Qs ∈ Λ, uma coleção de grupos
indexados por s ∈ Λ. ConsideremosSo produto Cartesiano G := s∈Λ Gs , definido como sendo a
Λ → s∈Λ Gs , com f (s) ∈ Gs . Então, podemos fazer de G um grupo
coleção de todasQas funções f :Q
definindo para s∈Λ f1 (s) , s∈Λ f2 (s) ∈ G o produto
! ! !
Y Y Y
f1 (s) · f2 (s) = f1 (s)f2 (s) .
s∈Λ s∈Λ s∈Λ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 73/1195

Como facilmente se vê, esse produto faz de G um grupo, denominado produto direto da coleção de
grupos Gs , s ∈ Λ.

• O Produto Semi-Direto de Grupos

Dados dois grupos G e H há uma outra maneira de fazer de G × H um grupo além do produto
direto. Para tal é necessário que exista uma ação de G em H por automorfismos de H. Expliquemos
melhor isso.
Lembremos que um automorfismo α de um grupo H é um isomorfismo de H em si mesmo α : H →
H. Uma ação (à esquerda) de G sobre H por automorfismos é um função α : G × H → H tal que a
cada par (g, h) ∈ G × H associa um elemento denotado por αg (h) de H de tal forma que as seguintes
condições sejam satisfeitas:

1. Para todo g ∈ G, a função αg (·) : H → H é um automorfismo de H, ou seja, αg (h)αg (h0 ) =


αg (hh0 ), sendo que αg (·) : H → H é bijetora com (αg )−1 = αg−1 .

2. Para todo h ∈ H vale αeG (h) = h.

3. Para todo h ∈ H vale αg (αg0 (h)) = αgg0 (h) para quaisquer g, g 0 ∈ G.

Acima eG e eH são as unidades de G e H, respectivamente.

E. 1.79 Exercı́cio-exemplo. Um exemplo importante é o seguinte. Seja N  G. Então, com n ∈ N ,


αg (n) := gng −1 define uma ação (à esquerda) de G sobre N por automorfismos. Verifique! 6

Pela definição geral, tem-se pelas propriedades 1, 2 e 3 acima que para quaisquer g ∈ G e h ∈ H

αg (eH )h = αg (eH )αg (αg−1 (h)) = αg (eH αg−1 (h)) = αg (αg−1 (h)) = h,

o que implica αg (eH ) = eH para todo g ∈ G.


Se G e H são grupos e α : G × H → H é uma ação à esquerda de G sobre H por automorfismos,
então podemos definir em G×H um produto de dois pares ordenados (g1 , h1 ), (g2 , h2 ), com g1 , g2 ∈ G
e h1 , h2 ∈ H, por
(g1 , h1 ) · (g2 , h2 ) := (g1 g2 , h1 αg1 (h2 )).

E. 1.80 Exercı́cio importante. Mostre que esse produto é associativo, que (e G , eH ) é a unidade e que
para quaisquer g ∈ G, h ∈ H tem-se (g, h)−1 = (g −1 , αg−1 (h−1 )). 6

Com isso G × H adquire a estrutura de um grupo, denominado produto semi-direto de G por H


pelo automorfismo α : G × H → H, ou simplesmente produto semi-direto de G por H quando um
automorfismo α : G × H → H especı́fico é subentendido. Na literatura o produto semi-direto de G por
H é denotado de várias formas: por G ×α H, por G ⊗α H, por Gsα H, ou por por GsH quando um
automorfismo α : G × H → H especı́fico é subentendido. Nestas notas adotaremos as duas últimas
formas.

• Exemplos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 74/1195

I. Seja G um grupo e N  G. Então, para g1 , g2 ∈ G e n1 , n2 ∈ N o produto

(g1 , n1 ) · (g2 , n2 ) := (g1 g2 , n1 g1 n2 g1−1 )

define o grupo GsN , produto semi-direto de um grupo G por um sub-grupo normal N através do
automorfismo natural.
II. Considere o grupo G, formado por todos os números reais não-nulos com o produto dado pela
multiplicação usual e o grupo H, formado por todos os reais com o produto dado pela soma: G =
( \ {0}, ·) e H = ( , +).
 

Para todo a ∈ \ {0} e x ∈ definimos α : G × H → H por αa (x) := ax. Para cada a ∈ G, tem-se
 

que αa é bijetora, com inversa dada por α1/a . Fora isso, αa (x) + αa (y) = ax + ay = a(x + y) = αa (x + y).
Assim, αa é um automorfismo (condição 1. da definição acima). Fora isso, para todo x ∈ H, α 1 (x) = x
(condição 2.). Por fim, para todo x ∈ H, αa (αb (x)) = abx = αab (x), para quaisquer a, b ∈ G (condição
3.). Concluı́mos que α é uma ação à esquerda de G sobre H por automorfismos.
Assim, fazemos de G × H um grupo Gsα H com o produto

(a, x) · (b, y) := (ab, x + ay) .

O elemento neutro é o par (1, 0) e (a, x)−1 = (1/a, −x/a).


Para interpretar o que esse grupo Gsα H significa, vamos definir uma ação34 Γ de Gsα H sobre o
conjunto da seguinte forma. Para (a, x) ∈ Gsα H e z ∈ , definimos
 

Γ((a, x), z) := az + x.

Para verificar que isso é uma ação notemos as seguintes propriedades: i. para cada (a, x) fixo
Γ((a, x), z) é uma função bijetora de em (lembre-se que a 6= 0). ii. Para todo z ∈ ,
  

Γ((1, 0), z) = z.

iii. Γ((a, x), Γ((b, y), z)) = Γ((a, x), bz + y) = a(bz + y) + x = abz + (x + ay)

= Γ((ab, x + ay), z) = Γ((a, x) · (b, y), z).

Isso mostrou que Γ é uma ação de Gsα H sobre o conjunto . Como vemos, a ação de um elemento


(a, x) consiste em uma combinação de uma multiplicação por a 6= 0 seguida por uma translação por
x ∈ . Isso exibe o significado geométrico do grupo Gsα H. Vamos a um outro exemplo semelhante.


III. Considere o conjunto de todas as operações do espaço tridimensional que envolvem rotações e
translações. Por exemplo, considere-se a operação na qual cada vetor ~x é primeiramente rodado por
uma matriz de rotação R ∈ SO(3) e em seguida é transladado por um vetor ~x0 :

~x 7→ R~x + ~x0 . (1.25)

A composição de duas de tais operações conduz à transformação ~x 7→ R 0 (R~x + ~x0 ) + ~x00 , ou seja,

~x 7→ (R0 R)~x + ~x00 + R0 ~x0 . (1.26)


34
O conceito de ação de um grupo em um conjunto foi definido à página 61.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 75/1195

O espaço vetorial 3 é naturalmente um grupo Abeliano em relação à adição de vetores. Se R ∈




SO(3), αR (~x0 ) := R~x0 define uma ação por automorfismos de SO(3) sobre 3 . A expressão (1.26) 

inspira a definição do produto semi-direto SO(3)sα 3 por 

(R0 , ~x00 ) · (R, ~x0 ) = (R0 R, ~x00 + R0~x0 ).

E. 1.81 Exercı́cio. Verifique que a transformação (1.25) define uma ação à esquerda do grupo SO(3)s α 3 

sobre o conjunto 3 .  6

n
Definição. Os grupos En := SO(n)sα  são denominados grupos Euclidianos3536 .
IV. Seja V um espaço vetorial (e, como tal, um grupo Abeliano em relação à soma de vetores) e seja
Aut(V ) a coleção de todas as aplicações lineares bijetoras de V em V .
n n
Por exemplo V =  e Aut(  ) é o conjunto de todas as matrizes reais n × n invertı́veis.
Então, fazemos de Aut(V ) × V um grupo, definindo

(A, v) · (B, u) := (AB, v + Au).

Esse grupo é por vezes denominado grupo afim do espaço vetorial V .


Observação. O caso V =  corresponde exatamente ao exemplo II, acima.
Mencionamos, por fim, que o grupo de Poincaré, introduzido à página 628, é também um exemplo
de um grupo definido como um produto semi-direto de dois grupos, a saber, o produto semi-direto do
grupo das transformações de Lorentz com grupo das translações no espaço-tempo.

1.5 Somas Diretas e Produtos Tensoriais

1.5.1 Discussão Informal Preliminar


Nesta seção apresentaremos duas maneiras distintas de construir grupos Abelianos a partir de dois
grupos Abelianos dados, que são o chamado produto tensorial de dois grupos e a chamada soma direta
de dois grupos. As construções precisas (especialmente a do produto tensorial) são um tanto elaboradas,
mas as idéias por trás delas são simples, de modo que tentaremos primeiramente apresentá-las de modo
elementar para depois (a partir da Seção 1.5.2) nos dedicarmos à sua definição precisa.
Essas construções prestam-se também a definir o produto tensorial e a soma direta de espaços
vetoriais (sobre um mesmo corpo), o que também discutiremos.
Na Seção 1.5.5 serão apresentadas mais generalizações envolvendo (uma coleção arbitrária) de grupos
não necessariamente Abelianos.
Um comentário pertinente (destinado aos estudantes mais avançados) é que as construções de
produto tensorial e soma direta de espaços vetoriais que apresentaremos adiante correspondem às noções
35
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
36 n
Para alguns autores, os grupos Euclidianos são os grupos O(n)sα .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 76/1195

de produto tensorial e soma direta algébricos. Isso significa que outras estruturas, como uma topologia,
ou propriedades, como completeza, não são necessariamente herdadas pela construção. Assim, por
exemplo, o produto tensorial algébrico de dois espaços de Banach não é necessariamente um espaço de
Banach. Para tal é necessário introduzir um completamento extra, que pode não ser único.

• A Noção de Soma Direta de Dois Grupos

Sejam A e B dois grupos Abelianos, com identidades eA e eB (e cujas operações de produto de-
notaremos ambas pelo mesmo sı́mbolo “+”). Desejamos encontrar uma maneira de fazer do produto
Cartesiano A × B um grupo também. Uma maneira de fazer isso é definir a “soma” de dois pares
ordenados (a, b), (a0 , b0 ) ∈ A × B por

(a, b) + (a0 , b0 ) := (a + a0 , b + b0 ). (1.27)

O leitor pode facilmente constatar que essa operação é uma operação binária de A × B em si mesmo,
que ela é associativa, que tem por elemento neutro o par (eA , eB ) e que para cada (a, b) ∈ A × B
a inversa é (a, b)−1 = (−a, −b), onde −a é o elemento inverso de a em A, e analogamente para −b.
Portanto, com esse produto, A × B é um grupo.
Com essa estrutura, facilmente se verifica que A × B torna-se um grupo Abeliano, denominado
soma direta de A e B ou produto direto37 de A e B e denotado pelo sı́mbolo A ⊕ B. Com essa estrutura
de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados pelo sı́mbolo a ⊕ b.

• A Noção de Soma Direta de Dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊕ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊕ V por um escalar α ∈ . Isso é feito da
seguinte forma, para u ∈ U , v ∈ V , define-se α(u ⊕ v) por

α(u ⊕ v) := (αu) ⊕ (αv). (1.28)

E. 1.82 Exercı́cio. Constate que, com essa definição, U ⊕ V torna-se um espaço vetorial, ou seja,
verifique que são válidos os postulados da definição formal de espaço vetorial dados à página 54. 6

Esse espaço vetorial que denotaremos por U ⊕ V , é denominado soma direta dos espaços U e V


ou produto direto38 de U e V .

• A Noção de Produto Tensorial de Dois Grupos

37
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de grupos é envolvida. Vide
Seção 1.5.5.
38
A distinção entre produto direto e soma direta só se faz quando uma coleção não-finita de espaços vetoriais é
envolvida. Vide Seção 1.5.5.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 77/1195

A definição de produto tensorial de dois grupos Abelianos A e B, que denotaremos por A ⊗ B,


é distinta da de soma direta. A idéia básica, porém, é a mesma, ou seja, tentar fazer do produto
Cartesiano A × B um grupo, mas a regra de produto é muito diferente daquela dada em (1.27). Em
primeiro lugar, os elementos de A ⊗ B são somas formais finitas de pares ordenados de A × B como
(a, b) + (a0 , b0 ),
mas não impomos a relação (1.27). O que realmente entendemos por “soma formal” será explicado
adiante, quando definirmos o conceito de grupo Abeliano livremente gerado por um conjunto, uma
noção muito simples. Por ora fiquemos apenas com a noção intuitiva. Para dar a A ⊗ B uma estrutura
de grupo, desejamos impor algumas condições às somas formais acima. Primeiramente impomos que
(a, b) + (a0 , b0 ) = (a0 , b0 ) + (a, b),
para todos a, a0 ∈ A, b, b0 ∈ B. Em segundo lugar, impomos que
(a + a0 , b) = (a, b) + (a0 , b)
e que
(a, b + b0 ) = (a, b) + (a, b0 )
para todos a, a0 ∈ A, b, b0 ∈ B. O estudante deve notar que essas imposições são mais limitadas que
aquelas de (1.27). Note também que as imposições acima são inspiradas na bem-conhecida propriedade
de transitividade de produtos e somas de números reais ou complexos: (x+x0 )y = xy +x0 y e x(y +y 0) =
xy + xy 0 .

E. 1.83 Exercı́cio. Mostre que com as regras de soma dadas acima todos os pares (e A , b) e (a, eB )
são identificados entre si e com o elemento neutro da operação de soma de pares ordenados. Fora isso, o
elemento inverso de um par (a, b) é (−a, b) = (a, −b). Mostre que, com isso, A ⊗ B é um grupo Abeliano,
denominado Produto Tensorial dos Grupos Abelianos A e B. 6

Com essa estrutura de grupo em mente, os pares ordenados (a, b) são freqüentemente denotados
pelo sı́mbolo a ⊗ b.

• A Noção de Produto Tensorial de Dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais em relação a um mesmo corpo que, sem perda de generalidade,
consideraremos doravante como sendo o corpo dos complexos. U e V são dois grupos Abelianos em
relação às respectivas operações de soma de vetores. Assim, pela construção acima, podemos definir o
grupo U ⊗ V . Esse objeto ainda não tem uma estrutura de espaço vetorial (sobre os complexos), pois
não dissemos como definir o produto de um elemento de U ⊗ V por um escalar α ∈ . Isso é feito da
seguinte forma, para u ∈ U , v ∈ V , define-se α(u ⊗ v) impondo
α(u ⊗ v) := (αu) ⊗ (v) = (u) ⊗ (αv). (1.29)
O estudante deve comparar essa regra de produto por escalares com a regra 1.28.
Para elementos de U ⊗ V que sejam somas finitas, como por exemplo u ⊗ v + u0 ⊗ v 0 , impomos
α (u ⊗ v + u0 ⊗ v 0 ) := α (u ⊗ v) + α (u0 ⊗ v 0 )

= (αu) ⊗ v + (αu0 ) ⊗ v 0 = u ⊗ (αv) + u0 ⊗ (αv 0 ).


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 78/1195

E. 1.84 Exercı́cio. Constate que, com essa definição, U ⊗ V torna-se um espaço vetorial, ou seja,
verifique que são válidos os postulados da definição formal de espaço vetorial dados à página 54. 6

Esse espaço vetorial que denotaremos por U ⊗ V , é denominado produto tensorial dos espaços U


e V.

Vamos agora tentar formalizar as noções que apresentamos acima, apresentando suas definições
matemáticas precisas. O leitor que acredita ter entendido o que apresentamos acima pode dispensar-se
de ler o restante da presente seção.

1.5.2 Grupos Gerados por Conjuntos. Grupos Gerados por Relações

• Suporte de uma função

Seja f : X → G uma função de um conjunto não-vazio X em um grupo G. O suporte de f , denotado


por supp (f ), é o conjunto de todos os pontos x ∈ X tais que f (x) 6= e, onde e é a unidade de G:
supp (f ) := {x ∈ X| f (x) 6= e}. Uma função f : X → G é dita ser de suporte finito se seu suporte for
um conjunto finito.

• Grupo Abeliano Livremente Gerado por um Conjunto

Uma noção importante que usaremos adiante é a de grupo Abeliano livremente gerado por um
conjunto X. Seja X um conjunto. Seja F (X) a coleção de todas as funções de suporte finito de X
em . É fácil ver que F (X) tem naturalmente uma estrutura de grupo Abeliano, definindo, para f ,
f 0 ∈ F (X) o produto de f e f 0 como sendo o elemento f f 0 = (f + f 0 ) de F (X) dado por

(f + f 0 )(x) = f (x) + f 0 (x). (1.30)

para todo x ∈ X. É claro que esse (f + f 0 ) tem suporte finito. O elemento neutro e de F (X) é
claramente a função identicamente nula. Pelo fato de F (X) ter essa estrutura natural de grupo F (X)
é denominado grupo Abeliano livremente gerado pelo conjunto X.
Para x ∈ X vamos denotar por δx a função caracterı́stica de x:

1, se y = x
δx (y) := . (1.31)
0, se y 6= x

Claramente δx ∈ F (X). Dado que cada f ∈ F (X) tem suporte finito, pode-se escrevê-lo da forma
N
X
f = a n δ xn , (1.32)
n=1

para valores de N e dos an ’s dependentes de f , com {x1 , . . . , xN } = supp f e com ai ∈ para


i = 1, . . . , N .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 79/1195

Com um flagrante abuso de linguagem é costume escrever (1.32) da forma


N
X
f = a n xn , (1.33)
n=1

onde fica, por assim dizer, subentendido que aqui os xn ’s representam não os elementos de X mas sim
suas funções caracterı́sticas (X pode ser um conjunto qualquer, de modo que operações como soma de
elementos de X ou multiplicação de elementos de X por um inteiro podem não serem sequer definidas).
É fácil verificar que F (X) é um grupo Abeliano livre (daı́ seu nome), o que quer dizer que não há em
F (X) nenhuma relação não trivial entre seus elementos, a não ser aquela que lhe confere Abelianidade:
f f 0 f −1 f 0 −1 = e.

• Relações e Grupos Gerados Módulo Relações

Vamos passar agora a uma construção muito importante, a de grupo Abeliano livremente gerado
por um conjunto módulo relações. Vamos apresentar essa construção de forma bem geral.
Seja J um conjunto (em princı́pio arbitrário) de ı́ndices e sejam então, para cada j ∈ J, elementos
de F (X) dados por
n(j)
X
rj = αj, i xj, i (1.34)
i=1
onde, para cada j ∈ J, n(j) ∈ e, para todo j ∈ J e i ∈ {1, . . . , n(j)}, tem-se αj, i ∈ e xj, i ∈ X com


xj, i 6= xj, i0 se i 6= i0 . Denotamos R := {rj , j ∈ J}. Os elementos de R serão chamados “relações”.


Seja então R o subgrupo de F (X) formado por todos os elementos de F (X) que são combinações
lineares finitas de rj ’s com coeficientes em :

s ∈ R ⇐⇒ s = s1 rj1 + · · · + sm rjm , (1.35)


para certos si ∈ em∈  , que dependem de s. R é dito ser o subgrupo de F (X) gerado pelos rj ’s.
Por ser um subgrupo de um grupo Abeliano, R é normal. Assim, podemos definir o “grupo Abeliano
livremente gerado por X, módulo as relações R” como sendo o grupo F (X)/R. Note-se que [R] R = e,
o que equivale a dizer que os elementos de R são identificados como zero (daı́ serem chamados de
“relações”, pois refletem identidades que não existiam em F (X) e que estão sendo agora impostas em
F (X)/R).

Vamos ilustrar as definições e construções acima apresentando as definições de soma direta e produto
tensorial de dois grupos Abelianos e, em seguida, de dois espaços vetoriais. As definições de acima são
particularmente relevantes para o conceito de produto tensorial.

1.5.3 Somas Diretas

• A Soma Direta de dois Grupos Abelianos


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 80/1195

Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por

R := {r ∈ F (X)| r = (a + a0 , b + b0 ) − (a, b) − (a0 , b0 ), com a, a0 ∈ A e b, b0 ∈ B}. (1.36)

Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo


Abeliano A ⊕ B, a soma direta de A e B, que é definido como A ⊕ B := F (A × B)/R(A × B).

Notação. Para a ∈ A e b ∈ B denotaremos por a ⊕ b o elemento de A ⊕ B que corresponde (na notação


discutida acima) à função δ(a, b) .

• A Soma Direta de dois Espaços Vetoriais

Sejam U e V dois espaços vetoriais (sobre ). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊕ V está definido pelo procedimento acima. Isso, entretanto, ainda não faz de U ⊕ V um
espaço vetorial.
Para isso é preciso definir o produto de um escalar por um elemento de U ⊕ V . Definimos então o
produto de um escalar α ∈ por um elemento u ⊕ v ∈ U ⊗ V como sendo o elemento (αu) ⊕ (αv), ou
seja,
α(u ⊕ v) := (αu) ⊕ (αv).
É fácil constatar que, com essa definição, U ⊕ V torna-se um espaço vetorial (vide a definição formal


de espaço vetorial à página 54), que denotaremos por U ⊕ V . O assim definido espaço vetorial U ⊕ V
 

é denominado a soma direta dos espaços vetoriais U e V sobre o corpo .

1.5.4 Produtos Tensoriais


A definição de produtos tensoriais é mais delicada e faz uso mais forte do conceito de grupo livremente
gerado por um conjunto.

• O Produto Tensorial de dois Grupos Abelianos

Sejam A e B dois grupos Abelianos cujo produto de grupo denotaremos aditivamente: com o
sı́mbolo +. Seja X = A × B. Seja em F (X) = F (A × B) o conjunto R de relações dado por

R := {r ∈ F (X)| r = (a + a0 , b) − (a, b) − (a0 , b)

ou r = (a, b + b0 ) − (a, b) − (a, b0 ), com a, a0 ∈ A e b, b0 ∈ B}. (1.37)

Seja R = R(A × B) o subgrupo de F (A × B) gerado por R. Chegamos assim à definição do grupo


Abeliano A ⊗ B, o produto tensorial de A e B, que é definido como A ⊗ B := F (A × B)/R(A × B).

Notação. Para a ∈ A e b ∈ B denotaremos por a ⊗ b o elemento de A ⊗ B que corresponde (na notação


discutida acima) à função δ(a, b) .

• O Produto Tensorial de dois Espaços Vetoriais


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 81/1195

Sejam U e V dois espaços vetoriais (sobre ). Como U e V são dois grupos Abelianos, o grupo
Abeliano U ⊗ V está definido pelo procedimento da última sub-seção. Isso, entretanto, ainda não faz
de U ⊗ V um espaço vetorial. Para isso tomemos X = U ⊗ V e consideremos o sub-espaço de F (X)
definido por

R := {r ∈ F (U ⊗ V )| r = (αu) ⊗ v − u ⊗ (αv), com α ∈ , u ∈ U, v ∈ V }. (1.38)

Como antes, seja R = R(U ⊗ V ) o subgrupo gerado por R. Definimos agora um novo grupo Abeliano
U ⊗ V como U ⊗ V := F (U ⊗ V )/R(U ⊗ V ).
 

U ⊗ V é por ora apenas mais um grupo Abeliano, mas podemos adicionar-lhe uma estrutura de


espaço vetorial da seguinte forma.


Primeiramente é preciso definir o produto de um escalar por um elemento de U ⊗ V . Para elementos 

da forma u ⊗ v com u ∈ U e v ∈ V , definimos então o produto α(u ⊗ v), para α ∈ por


 

α(u ⊗ v) := (αu) ⊗ v = u ⊗ (αv).


  

A última igualdade segue da definição de U ⊗ V . 

Os demais elementos de U ⊗ V são da forma de combinações lineares finitas com coeficientes




inteiros de elementos como u ⊗ v, ou seja, são da forma




n
X
ck (uk ⊗ vk ) 

k=1

para algum n > 0 e ck ∈ . Para os mesmos definimos


n
! n
X X
α ck (uk ⊗ vk ) 

:= ck α (uk ⊗ vk ) 

k=1 k=1

n
X n
X
= ck (αuk ) ⊗ vk = 

ck uk ⊗ (αvk ).


k=1 k=1

É fácil constatar que, com essa definição, U ⊗ V torna-se um espaço vetorial (vide a definição


formal de espaço vetorial à página 54), que também denotaremos por U ⊗ V . O assim definido espaço 

vetorial U ⊗ V é denominado produto tensorial dos espaços vetoriais U e V sobre o corpo .




• O Produto Tensorial de dois Módulos sobre uma Álgebra Associativa

Vamos aqui a uma definição que nos será importante. Sejam M e N dois bimódulos sobre uma
álgebra associativa A, ambos supostos serem espaços vetoriais sobre o corpo dos complexos. Conforme a
sub-seção anterior podemos definir o espaço vetorial M ⊗ N . Entretanto, em muitos casos é necessário


definir um outro tipo de produto tensorial entre M e N .


Para tal seja X = M ⊗ N e definamos em F (X) o conjunto de relações


R := {r ∈ F (X)| r = (ma) ⊗ n − m ⊗ (an), com a ∈ A, m ∈ M, n ∈ N }.


 

(1.39)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 82/1195

Definamos então R = R(M ⊗ N ) como o subgrupo gerado por R e o produto tensorial




M ⊗A N := F (M ⊗ N )/R(M ⊗ N ).
 

(1.40)

Podemos fazer de M ⊗A N um módulo, digamos à direita, sobre A tomando o produto

a · (m ⊗A n) := (ma) ⊗A n = m ⊗A (an). (1.41)

Faremos uso freqüente desse produto tensorial adiante. O mais importante para nós será a identi-
dade (ma) ⊗A n = m ⊗A (an) válida em todo M ⊗A N para todo a ∈ A.

1.5.5 Produtos Diretos e Somas Diretas Arbitrários


Aqui apresentaremos as definições de produtos diretos e somas diretas de coleções arbitrárias de grupos
(não necessariamente Abelianos) e de espaços vetoriais.

• Produto Direto e Soma Direta de Coleções Arbitrárias de Grupos

Seja J um conjunto arbitrário de ı́ndices e G := {Gi , i ∈ J} uma coleção de grupos. Seja


o produto Cartesiano := ×i∈J Gi . Podemos fazer de um grupo definindo o produto de dois
elementos 3 g = ×a∈J ga , 3 h = ×b∈J hb como g · h = ×a∈J (ga ha ). Com essa estrutura é dito
Y
ser o produto direto dos grupos Gi , i ∈ J e será denotado por p = Gi .
i∈J

ppossui um subgrupo importante, aquele formado por elementos ×a∈J ga ∈ p onde apenas um
número finito de ga ’s é distinto da identidade ea doM
respectivo grupo Ga . Esse subgrupo é dito ser a
soma direta dos Gi ’s , i ∈ J e é denotado por s = Gi .
i∈J

• Soma Direta de Coleções Arbitrárias de Espaços Vetoriais

Se {Vi , i ∈ J} é uma coleção de espaços vetoriais que, em particular,


L são grupos Abelianos, cai
definida, pelo apresentado na sub-seção anterior, a soma direta s := i∈J Vi , definida primeiramente


como grupo Abeliano. s pode ser feito um espaço vetorial definindo-se, para um escalar genérico α ∈ ,


α · (×a∈J va ) := ×a∈J (αva ), (1.42)

para todo ×a∈J va ∈ 

s.

Um caso especial que irá nos interessar é o seguinte: seja M um bimódulo sobre uma álgebra
associativa A e tomemos J = e Vn = M ⊗A n ≡ M ⊗A · · · ⊗A M . O exposto acima permite definir a
| {z }


M n vezes
soma direta M ⊗A n .
n∈ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 83/1195

1.5.6 Módulos e Derivações


Seja A uma álgebra sobre com identidade e e seja M um bimódulo sobre A. Uma aplicação linear
δ : A → M é dita ser uma derivação de A em M se satisfaz a regra de Leibniz39 :

δ(ab) = aδ(b) + δ(a)b, (1.43)


para todos a, b ∈ A.
Vamos a alguns exemplos.
Exemplo 1. Seja A uma álgebra sobre com unidade e e M = A ⊗ A com os seguintes produtos


de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.44)

(b ⊗ c) · a := b ⊗ (ca). (1.45)
Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := a ⊗ e − e ⊗ a. (1.46)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = 0.
Exemplo 2. Seja A uma álgebra sobre com unidade e e M = A ⊗ A com os seguintes produtos


de bimódulo:
a · (b ⊗ c) := (ab) ⊗ c, (1.47)

(b ⊗ c) · a := b ⊗ (ca) − (bc) ⊗ a. (1.48)


Deixa-se ao leitor verificar a associatividade dos produtos de bimódulo nesse caso. Defina-se
δ(a) := e ⊗ a. (1.49)
Deixa-se ao leitor verificar a validade da regra de Leibniz nesse exemplo. Note-se também que, por
essa definição, δ(e) = e ⊗ e 6= 0.
Exemplo 3. Exemplo importante de derivações pode ser visto em álgebras de Lie. Seja A uma
álgebra de Lie vista como um bimódulo sobre si mesma. Seja z um elemento fixo da álgebra e seja a
aplicação dz : A → A dada por dz (a) = [z, a]. É fácil verificar (faça!) usando a identidade de Jacobi
(1.22) que
dz ([a, b]) = [dz (a), b] + [a, dz (b)]
para todo a, b ∈ A. Assim, tem-se que a cada z ∈ A é associada uma derivação d z .

1.6 Tópicos Especiais


Esta seção é formada por alguns assuntos independentes que, embora relevantes, não se enquadram na
exposição introdutória que pretendı́amos ter nas seções anteriores.
39
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 84/1195

1.6.1 O Grupo de Grothendieck


Vamos agora descrever uma construção que permite obter um grupo Abeliano a partir de um semi-grupo
Abeliano dado. Um grupo construı́do por esse procedimento é chamado de grupo de Grothendieck 40
associado ao semi-grupo Abeliano em questão. Grupos de Grothendieck desempenham um papel im-
portante em várias áreas da Matemática, como por exemplo na chamada K-teoria.
Seja um semi-grupo Abeliano S (não necessariamente dotado de um elemento neutro) cujo produto
denotamos pelo sı́mbolo +.
Consideremos em primeiro lugar o produto Cartesiano S × S e vamos introduzir lá uma relação de
equivalência da seguinte forma: dois pares (a, b) e (a0 , b0 ) ∈ S × S são equivalentes, (a, b) ∼ (a0 , b0 ),
se existir pelo menos um elemento p ∈ S tal que

a + b0 + p = a0 + b + p. (1.50)
Vamos mostrar que isso define de fato uma relação de equivalência. Em primeiro lugar é claro que
(a, b) ∼ (a, b) para qualquer par (a, b) ∈ S 2 = S × S, dado que aqui, para verificar (1.50), basta tomar
qualquer elemento p ∈ S. Em segundo lugar é evidente que se (a, b) ∼ (a0 , b0 ) então (a0 , b0 ) ∼ (a, b).
Finalmente, vamos mostrar que se (a, b) ∼ (c, d) e (c, d) ∼ (e, f ) então (a, b) ∼ (e, f ). Por hipótese
existem p e p0 ∈ S tais que

a+d+p=b+c+p e c + f + p 0 = d + e + p0 .

Daqui extraı́mos que

(a + d + p) + (c + f + p0 ) = (b + c + p) + (d + e + p0 ),

ou seja, que
a + f + p00 = b + e + p00 ,
onde p00 = d + c + p + p0 . Essa relação diz precisamente que (a, b) ∼ (e, f ), completando a prova de
que temos assim uma relação de equivalência em S 2 .
Vamos então considerar agora o conjunto K(S) := S 2 / ∼ de todas as classes de equivalência defi-
nidas acima. Vamos construir em K(S) uma estrutura de grupo Abeliano, cujo produto denotaremos
por +. Dadas duas classes [(a, b)] e [(c, d)] definimos

[(a, b)] + [(c, d)] := [(a + c, b + d)].

Note-se que por essa definição tem-se (verifique!)

[(a, b)] + [(c, d)] = [(c, d)] + [(a, b)]

para todo a, b, c, d ∈ S.
A primeira coisa a fazer é mostrar que essa definição independe dos elementos tomados nas classes.
Para isto basta provar que se (a0 , b0 ) ∼ (a, b) então (a + c, b + d) ∼ (a0 + c, b0 + d). Se (a0 , b0 ) ∼ (a, b)
então existe p ∈ S tal que
a + b0 + p = a0 + b + p.
40
Alexander Grothendieck (1928-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 85/1195

Somando-se c + d a ambos os lados tiramos

(a + c) + (b0 + d) + p = (a0 + c) + (b + d) + p

que é precisamente a afirmativa que (a + c, b + d) ∼ (a0 + c, b0 + d).


É igualmente fácil verificar que para quaisquer x, y ∈ S tem-se que (x, x) ∼ (y, y) e que, portanto,
[(x, x)] = [(y, y)]. Vamos provar que há em K(S) um elemento neutro. Este é precisamente a classe
e := [(x, x)] com x ∈ S arbitrário. Note-se que, para qualquer par (a, b) ∈ S 2 teremos

[(a, b)] + [(x, x)] = [(a + x, b + x)] = [(a, b)] ,

pois (a + x + b) + p = (b + x + a) + p para qualquer p ∈ S.


Falta-nos provar a associatividade do produto e a existência de uma inversa para cada elemento de
K(S). Para a associatividade, notemos que
 
[(a, b)] + [(c, d)] + [(e, f )] := [(a, b)] + [(c + e, d + f )] = [(a + c + e, b + d + f )] ,
 
[(a, b)] + [(c, d)] + [(e, f )] := [(a + c, b + d)] + [(e, f )] = [(a + c + e, b + d + f )] .

Para provar a existência de inversa notemos que para cada par (a, b) ∈ S 2 podemos tomar [(a, b)]−1 :=
[(b, a)] pois
[(a, b)] + [(a, b)]−1 = [(a, b)] + [(b, a)] = [(a + b, a + b)] = e .

Isso mostrou que K(S) tem uma estrutura de grupo Abeliano. Este é o chamado grupo de Grothen-
dieck associado ao semi-grupo Abeliano S.
Como de costume, denotaremos [(a, b)]−1 por −[(a, b)]. Assim, −[(a, b)] = [(b, a)].

E. 1.85 Exercı́cio. Seja o monóide Abeliano  dos números naturais contendo o 0 com a soma usual.
Mostre que K( ) ' .
 6

O exercı́cio acima indica a possibilidade de se definir os números inteiros a partir dos naturais.
Os inteiros seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais com a
operação de soma usual.

E. 1.86 Exercı́cio. Seja o monóide Abeliano 1 dos números naturais maiores ou iguais a 1 com o


produto dado pela multiplicação usual. Mostre que K( 1 ) ' + , o grupo dos racionais positivos (sem o


zero) com o produto dado pela multiplicação usual. 6

O exercı́cio acima indica a possibilidade de se definir os números racionais positivos a partir dos
naturais. Os racionais seriam, por definição, o grupo de Grothendieck do monóide Abeliano dos naturais
com a operação de produto usual.
Para cada elemento a de um monóide Abeliano M podemos associar um elemento de K(M ) por
M 3 a 7→ [a] := [(a, 0)] ∈ K(M ). É fácil ver que todo elemento [(a, b)] de K(M ) pode ser escrito da
forma [(a, b)] = [a]−[b] e que [a]−[b] = [a0 ]−[b0 ] se e somente se existir p ∈ M com a+b0 +p = a0 +b+p.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 86/1195

1.6.2 Grupóides
Um grupóide é definido da seguinte forma. É dado um conjunto C e um subconjunto C0 ⊂ C, o qual
é a imagem de duas funções unárias p e c (chamadas de “partida” e “chegada”), ou seja, p : C → C 0 ,
c : C → C0 . Os elementos de C0 são pontos fixos de p e de c, ou seja,
c(α) = α e p(α) = α
para todo α ∈ C0 (aqui denotaremos os elementos de C por letras gregas).
Define-se em C × C um subconjunto (ou seja, uma relação em C), que denotaremos por RC , da
seguinte forma:
RC := {(α, β) ∈ C 2 | p(α) = c(β)}.

É também dada uma função binária RC → C, que denotaremos por “·” e que denominaremos
“produto”, a qual satisfaz as seguintes hipóteses:

1. Associatividade: α · (β · γ) = (α · β) · γ sempre que os produtos estejam definidos, ou seja, se


(β, γ), (α, β · γ), (α, β) e (α · β, γ) forem todos elementos de RC
2. Para todo (α, β) ∈ RC temos p(α · β) = p(β).
3. Para todo (α, β) ∈ RC temos c(α · β) = c(α).
4. Para todo α ∈ C temos α · p(α) = α.
5. Para todo α ∈ C temos c(α) · α = α.

Fora isso, existe para cada α ∈ C uma assim chamada inversa bilateral α −1 ∈ C a qual satisfaz
α · α−1 = c(α) e α−1 · α = p(α). Note que, por essa definição, tem-se que, para todo α0 ∈ C0 ,
α0 · α0−1 = α0−1 · α0 = α0 .
Estes ingredientes definem um grupóide. Note-se que um grupóide não necessariamente contem um
“elemento neutro” (vide exemplos).
Exemplo. Caminhos. Este exemplo é um protótipo da definição de grupóide acima, ou seja, aquela
possivelmente foi criada tendo o mesmo como exemplo-guia.
Seja I o intervalo fechado [0, 1] e vamos considerar o conjunto C de todas as funções contı́nuas de
I em um espaço topológico Hausdorff qualquer (por exemplo 2 ). Um elemento γ de C é uma curva


orientada contı́nua em 2 que tem um ponto de partida γ(0) e um ponto de chegada γ(1).


Podemos introduzir uma relação de equivalência em C da seguinte forma: duas curvas α e β ∈ C


são equivalentes (α ∼ β) se existir uma bijeção contı́nua b : I → I com b(0) = 0, b(1) = 1, tal que
α = β ◦ b. Vamos denominar por C as classes de equivalência de C pela relação de equivalência acima:
C := C/ ∼.
O conjunto C0 é o subconjunto de C formado pelas classes de equivalência de curvas constantes:
[α] ∈ C0 ⇐⇒ α(t) = α(t0 ), ∀t, t0 ∈ I.
Definimos as funções unárias p e c da seguinte forma: p([γ]) é a classe de equivalência da curva
constante que a todo t ∈ I associa o ponto γ(0) de 2 , o ponto de partida de γ; c([γ]) é a classe de


equivalência da curva constante que a todo t ∈ I associa o ponto γ(1) de 2 , o ponto de chegada de γ.

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 87/1195

Dados dois elementos em C queremos agora definir o seu produto. A idéia a ser seguida é que o
produto de duas curvas é definido apenas quando o ponto de chegada da primeira coincide com o ponto
de partida da segunda e resulta em uma curva única unindo o ponto de partida da primeira com o
ponto de chegada da última. Matematicamente isso é feito definindo-se o produto [β] · [α] como sendo
a classe de equivalência da curva β ∗ α definida pela composição

α(2t), para 0 ≤ t ≤ 1/2
β ∗ α(t) := .
β(2t − 1), para 1/2 < t ≤ 1

Claramente β ∗ α só é um elemento de C (ou seja, uma curva contı́nua) se α(1) = β(0).
Por fim a inversa bilateral de [α] é definida como sendo a classe [α −1 ], onde α−1 (t) = α(1 − t).
Deixamos para o leitor como exercı́cio mostrar que a estrutura definida acima é a de um grupóide.
Notemos que para a composição ∗ acima não vale a associatividade: (α ∗ β) ∗ γ 6= α ∗ (β ∗ γ), se
ambos os lados estiverem definidos (por que?). No entanto, as curvas (α ∗ β) ∗ γ e α ∗ (β ∗ γ) são
equivalentes no sentido da definição acima e de tal forma que para o produto “·” definido nas classes
C vale a associatividade [α] · ([β] · [γ]) = ([α] · [β]) · [γ], se ambos os lados estiverem definidos (por
que?). Essa é a razão de termos feito a construção nas classes C e não diretamente em C. Esse fato
já deve ser familiar ao leitor que conheça o conceito de grupo de homotopia de espaços topológicos.
O grupóide apresentado acima e o grupo de homotopia são, aliás, fortemente aparentados e ao leitor
sugere-se pensar sobre qual a conexão entre ambos.
Exemplo. Relações de equivalência. Seja K um conjunto no qual haja uma relação de equivalência
R ⊂ K × K. Tomamos C = R e C0 = {(x, x), x ∈ K} ⊂ R. Definimos

1. p((x, y)) := (x, x), ∀x, y ∈ K com x ∼ y.

2. c((x, y)) := (y, y), ∀x, y ∈ K com x ∼ y.

3. Produto: (x, y) · (y, z) := (x, z), ∀x, y, z ∈ K com x ∼ y ∼ z.

4. Inversa bilateral: (x, y)−1 := (y, x).

É fácil de se verificar (faça-o) que a estrutura assim definida é a de um grupóide.

1.6.3 Quatérnions
Vamos nesta seção tratar brevemente de um tipo de álgebra que possui algumas aplicações interessantes
na teoria de grupos e outros lugares, a chamada álgebra dos quatérnions.
Dado um espaço vetorial como 2 há várias maneiras de definir no mesmo um produto de modo a


fazer do mesmo uma álgebra. Por exemplo, podemos definir em 2 o produto 

(x1 , x2 ) · (y1 , y2 ) = (x1 y1 , x2 y2 ), (1.51)

que é associativo e comutativo, como também o produto

(x1 , x2 ) · (y1 , y2 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y2 ), (1.52)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 88/1195

que é igualmente associativo e comutativo (Exercı́cio. Verifique).


O produto (1.51) faz de 2 uma álgebra isomorfa a ⊗ , ou seja, a duas cópias da álgebra usual
  

dos números reais. O produto (1.52) faz de 2 uma álgebra isomorfa à dos números complexos . (Em


verdade, os números complexos são definidos como sendo a álgebra 2 com o produto (1.52)!). 

3
Em  podemos definir igualmente vários tipos de produtos, tais como o produto

(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 , x3 y3 ), (1.53)

que é igualmente associativo e comutativo; o produto

(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x1 y1 , x2 y2 − x3 y3 , x2 y3 + x3 y2 ), (1.54)

também associativo e comutativo ou ainda um produto como

(x1 , x2 , x3 ) · (y1 , y2 , y3 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 ), (1.55)

que não é nem associativo nem comutativo. O produto (1.53) faz de 3 uma álgebra isomorfa a 

 ⊗ ⊗ (três cópias da álgebra dos reais). O produto (1.54) faz de 3 uma álgebra isomorfa a ⊗
   

e o produto (1.55) é o bem conhecido produto vetorial.


O que se pode então fazer em 4 ? Naturalmente poder-se-ia definir em
 
4
várias álgebras imitando
o que fizemos acima. Por exemplo, com o produto

(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 , x2 y2 , x3 y3 , x4 y4 ), (1.56)


4
 torna-se uma álgebra associativa e comutativa isomorfa a  ⊗  ⊗  ⊗  . Com o produto

(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x1 y1 − x2 y2 , x1 y2 + x2 y1 , x3 y3 − x4 y4 , x3 y4 + x4 y3 ), (1.57)


4
 torna-se uma álgebra associativa e comutativa isomorfa a ⊗ . Com o produto

(x1 , x2 , x3 , x4 ) · (y1 , y2 , y3 , y4 ) = (x2 y3 − x3 y2 , x3 y1 − x1 y3 , x1 y2 − x2 y1 , x4 y4 ) (1.58)


4 3
 torna-se uma álgebra não-associativa e não-comutativa isomorfa a  ⊗ , com o produto vetorial


na componente 3 . 

Há também outros produtos que são meras variantes das listadas acima (ache algumas). Existe,
porém, um outro produto não trivial, denominado produto quaterniônico, que faz de 4 uma álgebra 

associativa mas não-comutativa e com unidade. Esse produto foi descoberto por W. R. Hamilton 41 .
A história da descoberta desse produto em 4 , feita em 1843, é muito interessante e representou um


marco na história da Álgebra. Esse produto é o seguinte

(x0 , x1 , x2 , x3 ) · (y0 , y1 , y2 , y3 ) =

(x0 y0 −x1 y1 −x2 y2 −x3 y3 , x0 y1 +y0 x1 +x2 y3 −x3 y2 , x0 y2 +y0 x2 +x3 y1 −x1 y3 , x0 y3 +y0 x3 +x1 y2 −x2 y1 ).
(1.59)

41
William Rowan Hamilton (1805-1865). W. R. Hamilton foi também o inventor do chamado formalismo Hamiltoniano
da Mecânica Clássica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 89/1195

E. 1.87 Exercı́cio. Mostre que o produto acima é associativo. 6

O espaço vetorial 4 dotado do produto acima é denominado álgebra dos quatérnions ou álgebra


quaterniônica e é denotada freqüentemente por . A álgebra é associativa mas não é comutativa.


tem uma unidade, a saber, o vetor (1, 0, 0, 0) ∈ 4 . 

E. 1.88 Exercı́cio. Mostre que não é uma álgebra comutativa. 6

E. 1.89 Exercı́cio. Mostre que (1, 0, 0, 0) é a unidade de . 6

Há uma maneira melhor de representar o produto quaterniônico que a expressão (1.59). Vamos
escrever os vetores da base canônica de 4 como


e0 = (1, 0, 0, 0), e1 = (0, 1, 0, 0), e2 = (0, 0, 1, 0), e3 = (0, 0, 0, 1),

de modo que todo x ∈ 4 pode ser escrito na forma x = x0 e0 + x1 e1 + x2 e2 + x3 e3 . O produto




quaterniônico pode então ser definido pelo produto dos elementos da base canônica, que segue as
seguintes regras:

4
1. e0 é a unidade da álgebra: x · e0 = e0 · x = x para todo x ∈  .

2. (e1 )2 = (e2 )2 = (e3 )2 = −e0 .

3. ei ej = −ej ei para todo i 6= j com i, j = 1, 2, 3.

4. e1 e2 = e3 , e2 e3 = e1 e e3 e1 = e2 .

E. 1.90 Exercı́cio. Verifique que essas regras reproduzem perfeitamente (1.59). 6

Além de ser de manipulação mais simples, essas regras permitem representar a álgebra quaterniônica
de um modo talvez mais familiar, a saber, em termos de certas matrizes complexas 2 × 2.

• Quatérnions e Álgebras de Matrizes 2 × 2

Sejam a e b dois números complexos e seja M (a, b) a matriz


 
a b
M (a, b) = ,
−b a

onde z é o complexo conjugado de z ∈ . É fácil de se ver que o conjunto de todas as matrizes dessa
forma é uma álgebra:
M (a, b)M (c, d) = M (ac − bd, ad + bc).

E. 1.91 Exercı́cio. Verifique! 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 90/1195

Existe um isomorfismo entre a álgebra dos quatérnions e essa álgebra de matrizes 2 × 2. Basta
associar (bijetivamente!) a cada quádrupla (x0 , x1 , x2 , x3 ) a matriz M (x0 + ix3 , x2 + ix1 ):
 
x0 + ix3 x2 + ix1
x = (x0 , x1 , x2 , x3 ) ←→ =: M (x). (1.60)
−x2 + ix1 x0 − ix3

É fácil verificar então (faça!) que o produto quaterniônico é respeitado por essa associação:

M (x)M (y) = M (x · y),


4
onde, acima, x · y é o produto quaterniônico de x e y ∈  .
Note-se que por essa associação tem-se

M (x) = M (x0 e0 + x1 e1 + x2 e2 + x3 e3 ) = x0 M (e0 ) + x1 M (e1 ) + x2 M (e2 ) + x3 M (e3 ),

com
M (e0 ) = , M (e1 ) = iσ1 , M (e2 ) = iσ2 , M (e3 ) = iσ3 ,
onde  
1 0
=
0 1
e      
0 1 0 −i 1 0
σ1 = , σ2 = e σ3 =
1 0 i 0 0 −1
são as chamadas matrizes de Pauli42 , que satisfazem

1. (σ1 )2 = (σ2 )2 = (σ3 )2 = ,

2. σi σj = −σj σi para todo i 6= j e

3. σ1 σ2 = iσ3 , σ2 σ3 = iσ1 , σ3 σ1 = iσ2 .

E. 1.92 Exercı́cio. Verifique essas propriedades. 6

• Sub-álgebras Abelianas

possui algumas sub-álgebras Abelianas.

E. 1.93 Exercı́cio. Mostre que 1 := {x ∈ 4 , x = x0 e0 + x1 e1 = (x0 , x1 , 0, 0)} é uma sub-álgebra




Abeliana de que é isomorfa à álgebra dos complexos. 6

4
E. 1.94 Exercı́cio. Mostre o mesmo para 2 := {x ∈  , x = x0 e0 + x2 e2 = (x0 , 0, x2 , 0)} e
4
3 := {x ∈ , x = x0 e0 + x3 e3 = (x0 , 0, 0, x3 )}.
 6

42
Wolfgang Pauli (1900-1958).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 91/1195

E. 1.95 Exercı́cio. Será possı́vel fazer de 4 um espaço vetorial complexo? Seja α ∈


 e considere para
x ∈ 4 o produto do escalar α pelo vetor x definido por


α · x = (Re(α)e0 + Im(α)e1 ) · x,

onde o produto do lado direito é o o produto quaterniônico. Mostre que isso faz de 4 um espaço vetorial 

sobre o corpo dos complexos. Para isto verifique as propriedades definidoras de um espaço vetorial listadas
à página 54. 6

E. 1.96 Exercı́cio. No exercı́cio anterior há outros produtos do escalar α pelo vetor x que podem ser
considerados:
α · x = (Re(α)e0 + Im(α)e2 ) · x,
ou
α · x = (Re(α)e0 + Im(α)e3 ) · x,
ou mesmo
α · x = x · (Re(α)e0 + Im(α)e1 )
4 4
etc. Mostre que todos esses seis produtos de escalares α ∈ por vetores x ∈  fazem de  um espaço
vetorial sobre o corpo dos complexos. 6

• é um anel de divisão

É fácil ver que a álgebra dos quatérnions é um anel de divisão (vide página 60), ou seja, todo
x ∈ 4 , x 6= 0, tem uma inversa em relação ao produto quaterniônico. Do isomorfismo M definido em


(1.60) acima vê-se que

det(M (x)) = det (M (x0 + ix1 , x2 + ix3 )) = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2

e, portanto, M (x) tem uma matriz inversa sempre que x 6= 0.


4
De fato, definindo-se para x = x0 e0 + x1 e1 + x2 e2 + x3 e3 ∈  o conjugado quaterniônico

x = x 0 e0 − x 1 e1 − x 2 e2 − x 3 e3

e do fato facilmente constatável que43

x · x = (x0 )2 + (x1 )2 + (x2 )2 + (x3 )2 ∈ 

é fácil ver que para x 6= 0 tem-se  


−1 1 4
x = x ∈ ,
x·x


ou seja x−1 · x = x · x−1 = e0 .

E. 1.97 Exercı́cio. Verifique. 6


43
Com um abuso de linguagem identificamos aqui ((x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 )e0 ∈ 4
com (x0 )2 +(x1 )2 +(x2 )2 +(x3 )2 ∈
.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 1 92/1195

Note que por ser um anel de divisão, não tem divisores de zero: x · y = 0 se e somente se x = 0
ou y = 0.

• Norma Quaterniônica

Em uma álgebra A uma função N : A → 

+ que satisfaça

N (a · b) = N (a)N (b)

para todo a, b ∈ A e N (a) = 0 ⇐⇒ a = 0 é dita ser uma norma algébrica.


Em e tem-se a norma algébrica N (z) = |z|, o módulo ou valor absoluto de z.
 também possui
uma norma algébrica. Para x ∈ 4 a expressão


N (x) = x · x

define44 uma norma algébrica em .

E. 1.98 Exercı́cio. Verifique que a mesma satisfaz N (x · y) = N (x)N (y). 6

Há um teorema devido a Hurwitz45 que afirma que há apenas quatro álgebras que são álgebras de
divisão46 e possuem uma norma algébrica: , , e a chamada álgebra dos octônions, da qual não


falaremos aqui. Esta última, por sinal, não é associativa.


A álgebra possui várias outras propriedades interessantes, mas vamos encerrar aqui nossa ex-
posição introdutória. O leitor interessado poderá encontrar mais sobre nos bons livros de álgebra,
especialmente nos mais antigos.

44
Vide nota de rodapé 43, página 91.
45
Adolf Hurwitz (1859-1919).
46
Vide definição à página 60
Capı́tulo 2
Espaços Vetoriais
Conteúdo
2.1 Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.1 Sub-Espaços e Espaços Quocientes . . . . . . . . . . . . . . . . . . . . . . . . 93
2.1.2 Bases Algébricas de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . . 94
2.1.3 O Dual Algébrico de um Espaço Vetorial . . . . . . . . . . . . . . . . . . . . 100
2.2 Formas Lineares, Sesquilineares e Produtos Escalares em Espaços Veto-
riais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.1 Formas Multilineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Minkowski . . 112
2.2.3 Produtos Escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.2.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
2.3 Normas em Espaços Vetoriais . . . . . . . . . . . . . . . . . . . . . . . . . . 120
2.4 Formas Bilineares e Sesquilineares em Espaços de Dimensão Finita . . . 126
2.5 Estruturas Complexas sobre Espaços Vetoriais Reais . . . . . . . . . . . . 131

noção de espaço vetorial que introduzimos na Seção 1.2.3, página 54, é da maior importância
na Fı́sica e na Matemática. Neste capı́tulo vamos desenvolvê-la com mais detalhe. Particular
atenção será dada às noções de forma multilinear, forma sesquilinear, produto escalar e norma
em espaços vetoriais.

2.1 Espaços Vetoriais

2.1.1 Sub-Espaços e Espaços Quocientes

• Sub-espaços

Seja V um espaço vetorial sobre um corpo K. Um subconjunto W de V é dito ser um sub-espaço


de V (sobre o mesmo corpo K) se para todo α, β ∈ K e todo u, v ∈ W valer que αu + βv ∈ W . É
evidente que um sub-espaço de um espaço vetorial é por si só um espaço vetorial.

• Quocientes

Se W é um sub-espaço de um espaço vetorial V sobre um corpo K, então é possı́vel definir em V


uma relação de equivalência EW ⊂ V × V da seguinte forma: dizemos que (u, v) ∈ V × V pertence a
EW se u − v ∈ W .

93
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 94/1195

E. 2.1 Exercı́cio. Mostre que isso de fato define uma relação de equivalência em V . 6

Seguindo a notação usual denotaremos também essa relação de equivalência pelo sı́mbolo ∼ W :
u ∼W v se u − v ∈ W .
Denotemos por V /W o conjunto das classes de equivalência de V pela relação E W . Denotaremos
por [u] ∈ V /W a classe de equivalência que contem o vetor u ∈ V .
Com esses ingredientes podemos transformar V /W em um espaço vetorial sobre K. Isso se dá
definindo em V /W uma soma e um produto por escalares. O vetor nulo será a classe de equivalência
[0] que contém o vetor 0. Como subconjunto de V , a classe [0], aliás, vem a ser o conjunto W (por
que?).
Se [u] e [v] são as classes de equivalência que contêm os elementos u e v, respectivamente, de V ,
então definimos
[u] + [v] = [u + v].

E. 2.2 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe dos representantes (u
e v) escolhidos nas classes. 6

E. 2.3 Exercı́cio. Mostre que essa operação de soma é comutativa e associativa. 6

E. 2.4 Exercı́cio. Mostre que [u] + [0] = [u] para todo u ∈ V . 6

Analogamente, a operação de multiplicação por escalares é definida por

α[u] = [αu],

para todo u ∈ V .

E. 2.5 Exercı́cio. Mostre que essa definição é coerente, no sentido que independe do representante u
escolhido na classe. 6

E. 2.6 Exercı́cio. Mostre que o conjunto V /W é, portanto, um espaço vetorial sobre o corpo K com as
operações definidas acima. 6

O espaço vetorial V /W assim obtido é denominado espaço quociente de V por W .

2.1.2 Bases Algébricas de um Espaço Vetorial

• Dependência Linear

Um conjunto finito u1 , . . . , un ∈ V de vetores é dito ser linearmente dependente se existir um


conjunto de escalares α1 , . . . , αn ∈ V , nem todos nulos, tais que

α1 u1 + · · · + αn un = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 95/1195

Um conjunto arbitrário de vetores é dito ser linearmente independente se não possuir nenhum sub-
conjunto finito que seja linearmente dependente.

• Combinações Lineares

Para um conjunto finito de vetores {u1 , . . . , un } ⊂ V e de escalares {α1 , . . . , αn } ⊂ K, uma


expressão como
α 1 u1 + · · · + α n un
é dita ser uma combinação linear dos vetores u1 , . . . , un .

• Varredura Linear

Seja C ⊂ V um conjunto de vetores. A varredura linear (“linear span”) de C, denotado por


span (C) é o conjunto de todos os vetores de V que podem ser escritos como uma combinação linear
finita de elementos de C.

• Bases Algébricas em Espaços Vetoriais

Aqui I designa um conjunto arbitrário não-vazio de ı́ndices.


Uma base algébrica1 em um espaço vetorial V é um conjunto B = {bi , i ∈ I} de vetores linearmente
independentes tais que span (B) = V e tais que qualquer vetor u de V pode ser escrito de modo único
como uma combinação linear finita de elementos de B.
Se B é uma base algébrica, então para cada u ∈ V existem univocamente definidos α1 , . . . , αn ∈ K
e i1 , . . . , in ∈ I tais que:
u = α 1 b i1 + · · · + α n b in .

Os seguintes teoremas podem ser demonstrados com uso do Lema de Zorn (omitiremos as demons-
trações aqui. Vide, por exemplo, [59]).
Teorema 2.1 Todo espaço vetorial V possui uma base algébrica, exceto o espaço vetorial trivial V =
{0}. 2

Teorema 2.2 Dado um espaço vetorial V (não trivial), todas as bases algébricas em V têm a mesma
cardinalidade. 2

• Dimensão Algébrica

Um espaço vetorial é dito ser de dimensão algébrica finita se possuir uma base algébrica finita. Se
um espaço vetorial V tem dimensão algébrica finita, sua dimensão algébrica, ou simplesmente dimensão
é definida como sendo o número de elementos de sua base.
Nem todo espaço vetorial tem uma base algébrica finita (vide exemplos abaixo). De modo geral,
se um espaço vetorial possui uma base algébrica, sua dimensão algébrica é definida como sendo a
1
Também denominada “base de Hamel”. Georg Hamel (1877-1954)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 96/1195

cardinalidade de suas bases algébricas (pelo Teorema 2.2 acima são todas iguais).
Exemplo 1. V = n sobre o corpo dos complexos ou V = n sobre o corpo dos reais. Tais são bem


conhecidos exemplos-protótipo de espaços vetoriais de dimensão finita (= n).


Seja P = conjunto de todos os polinômios de uma variável real com coeficientes complexos: P n (t) ∈
P,
Pn (t) = an tn + · · · + a1 t + a0
com t ∈  , ai ∈ , é dito ser um polinômio de grau n se an 6= 0.
Exemplo 2. V = P sobre o corpo dos complexos. Este é claramente um espaço vetorial de dimensão
infinita. V possui uma base algébrica, a saber, o conjunto de todos os polinômios da forma b n = tn ,
n = 0, 1, 2, . . ..
Exemplo 3. V = sobre o corpo dos reais. O conjunto dos reais sobre o corpo dos reais é também


um espaço vetorial de dimensão 1, a saber, uma possı́vel base é formada pelo elemento 1: B = {1}, já
que, obviamente, qualquer elemento x ∈ pode ser escrito como x = x · 1, com x no corpo dos reais.


Esse exemplo pode parecer banal, e de fato o é, mas leva a um anti-exemplo curioso que mostra
que a dimensão algébrica de um espaço vetorial é também fortemente dependente do corpo de escalares
utilizado.
Exemplo 4. V =  sobre o corpo dos racionais.
A surpresa aqui é que este não é um espaço vetorial de dimensão algébrica finita: não existe um
conjunto finito {x1 , . . . , xm } de números reais tais que todo x ∈ possa ser escrito como 

x = r 1 x1 + · · · + r m xm ,

onde os números ri são racionais. A razão é que, como é um conjunto contável, a coleção de números
que se deixam escrever como o lado direito é uma coleção contável (tem a mesma cardinalidade de
m
). O conjunto , porém, não é contável.


Um resultado um tanto surpreendente diz, porém, que esse espaço vetorial possui uma base algébrica,
ou seja, existe um conjunto H ⊂ tal que para cada x ∈
 existe um conjunto finito h1 , . . . , hn


de elementos de H e um conjunto finito de racionais r1 , . . . , rn tais que x = r1 h1 + · · · + rn hn . A


demonstração da existência de uma tal base faz uso do Lema de Zorn e pode ser encontrada em [16]
ou [17]. Essa base é denominada base de Hamel de . 

Uma conseqüência curiosa da existência de bases de Hamel em  será discutida no tópico que se
inicia à página 97.
Outros exemplos menos dramáticos que mostram a dependência da dimensão com o corpo utilizado
são os seguintes: sejam V1 = sobre o corpo dos complexos e V2 = sobre o corpo dos reais. V1 tem
dimensão 1, mas V2 tem dimensão 2.
Mais adiante faremos uso do seguinte resultado:
Teorema 2.3 Se em um espaço vetorial V existir um conjunto {v1 , . . . , vn } de n vetores linearmente
independentes, então a dimensão algébrica de V é maior ou igual a n. 2

Prova. A demonstração é feita por absurdo. Suponhamos que haja uma base B = {b 1 , . . . , bk } em V
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 97/1195

com k < n. Então podemos escrever

v 1 = α 1 b1 + · · · + α k bk .

pois B é uma base. Nem todos os αi podem ser nulos. Supondo que αk seja um elemento não-nulo,
podemos escrever
bk = (αk )−1 (v1 − α1 b1 − · · · − αk−1 bk−1 ) (2.1)
Analogamente, temos que
v 2 = β 1 b1 + · · · + β k bk
e, usando (2.1), podemos escrever

v2 = γ1 b1 + · · · + γk−1 bk−1 + λ1 v1 .

Os γi não podem ser todos nulos, pois de outra forma terı́amos v2 = λ1 v1 , contrariando a hipótese
de os vi ’s serem linearmente independentes. Suponhamos que γk−1 seja o elemento não-nulo, podemos
escrever bk−1 como uma combinação linear envolvendo {b1 , . . . , bk−2 } e os vetores v1 e v2 . Prosseguindo,
concluiremos após k passos que
vk+1 = λ01 v1 + · · · + λ0k vk
contrariando a hipótese de que os vi ’s são linearmente independentes.

• Automorfismos descontı́nuos do grupo ( , +) 

Nota para os estudantes mais avançados.


Neste tópico usaremos as bases de Hamel da reta real para ilustrar uma patologia cuja existência
é por vezes mencionada na teoria de grupos, a saber, a existência de automorfismos descontı́nuos do
grupo ( , +).


Considere-se a equação f (x + y) = f (x) + f (y) para todo x, y ∈ . Podemos nos perguntar: 

que funções f :  →  podem satisfazê-la? É bastante claro que funções do tipo f (x) = cx, com
c constante real, satisfazem f (x + y) = f (x) + f (y) para todo x, y ∈ . Fora isso, f (x) = cx são 

contı́nuas e são bijeções de em (a menos que c = 0).


 

Serão essas as únicas funções com a propriedade f (x + y) = f (x) + f (y) para todo x, y ∈ ? Será 

que há outras funções com essa propriedade e que não sejam contı́nuas? Será que há outras funções com
essa propriedade, não-contı́nuas, e que também sejam bijeções de em ? A resposta a essa última  

pergunta é muito curiosa e conduz a uma classe de funções cuja existência ilustra algumas dificuldades
encontradas na teoria de grupos.
Provemos em primeiro lugar a seguinte afirmação:
Proposição 2.1 Se f : → satisfizer f (x + y) = f (x) + f (y) para todo x, y ∈
   e f for contı́nua
em toda reta real , então f é da forma f (x) = cx para algum c, constante real.
 2

Historicamente esse pequeno resultado é devido a Cauchy2 .


2
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 98/1195

Prova. Seja f contı́nua satisfazendo f (x + y) = f (x) + f (y) para todo x, y ∈ e f : → . É claro   

que, tomando x = y = 0 tem-se f (0) = f (0 + 0) = 2f (0) e, portanto f (0) = 0. Segue facilmente daı́
que 0 = f (0) = f (x + (−x)) = f (x) + f (−x) e, portanto f (−x) = −f (x) para todo x ∈ . 

Seja agora p inteiro positivo e x real, ambos arbitrários. Teremos que f (px) = f ((p − 1)x + x) =
f ((p − 1)x) + f (x) = f ((p − 2)x) + 2f (x) etc. Repetindo p vezes esse proceder, concluı́mos que
f (px) = pf (x). Como f (−x) = −f (x), essa relação vale para p negativo também. Seja agora q
inteiro, não-nulo. Então, pelo que acabamos de provar, f (1) = f (q/q) = qf (1/q) e concluı́mos que
f (1/q) = f (1)/q. Se então tivermos um número racional r da forma r = p/q, com p inteiro e q inteiro
não-nulo, teremos que f (r) = f (p/q) = pf (1/q) = (p/q)f (1) = rf (1). Finalizamos a prova evocando
a continuidade de f e o fato que todo x real pode ser aproximado por um número racional: seja
x ∈ e rn , n ∈ , uma seqüência de números racionais que coverge a x, i.e., x = lim n→∞ rn . Então
 

f (x) = f (limn→∞ rn ) = limn→∞ f (rn ) = (limn→∞ rn ) f (1) = xf (1). Na segunda igualdade usamos a
hipótese (crucial!) que f é contı́nua em toda parte. Denotando f (1) = c a afirmação está provada.

Com esse resultado em mãos podemos nos perguntar: haverá funções não-contı́nuas que satisfazem
f (x + y) = f (x) + f (y)? Talvez surpreendentemente, a resposta é positiva. Não só há funções não
contı́nuas com essa propriedade, mas há dentre elas funções bijetoras de em . Funções com tais  

caracterı́sticas um tanto patológicas podem ser construı́das com o uso das assim chamadas bases de
Hamel da reta real. Detalhemos.
Seja o espaço vetorial V dos números reais sob o corpo dos racionais. Como consideramos páginas
acima, esse espaço vetorial tem dimensão algébrica infinita, mas existe uma base H ⊂ de V , não- 

contável, denominada base de Hamel, tal que todo elemento x de pode ser escrito como combinação


linear finita (única!) por racionais de elementos de H, ou seja, para todo x ∈ existe um n (que 

depende de x), racionais r1 , . . . , rn (que dependem de x) e elementos h1 , . . . , hn de H (que também


dependem de x) tais que x pode ser escrita (de forma única!) como x = r1 h1 + · · · + rn hn . Denomina-
remos essa expressão a decomposição de x em H.
Notemos que se x e y são números reais e x = r1 h1 + · · · + rn hn e y = r10 h01 + · · · + rm 0
h0m são suas
decomposições em H, então a decomposição de x + y é r1 h1 + · · · + rn hn + r10 h01 + · · · + rm0
h0m .
Vamos definir uma função f :  → , da seguinte forma. Primeiramente fixamos seus valores


nos elementos de H tomando, para cada h ∈ H, f (h) := fh ∈ , onde os números fh são escolhidos


arbitrariamente. Em segundo lugar, para qualquer x ∈ , e cuja decomposição em H seja x =




r1 h1 + · · · + rn hn , definimos f (x) := r1 f (h1 ) + · · · + rn f (hn ) = r1 fh1 + · · · + rn fhn . Assim, se x e y são


números reais e x = r1 h1 + · · · + rn hn e y = r10 h01 + · · · + rm 0
h0m são suas decomposições em H, teremos
f (x + y) = r1 fh1 + · · · + rn fhn + r10 fh01 + · · · + rm
0
fh0m = f (x) + f (y).
O leitor pode convencer-se que há, para cada base de Hamel H, infinitas funções desse tipo (devido
à arbitrariedade da escolha dos fh ’s) e que todas são descontı́nuas, exceto se escolhermos fh = ch para
todo h ∈ H, com uma constante c fixa.
Espertamente, podemos tomar f como uma bijeção de H em H, ou seja, podemos escolher3 fh ∈ H
para todo h ∈ H e de modo que para todo h ∈ H exista um g ∈ H único tal que fg = h. Uma situação
trivial dessas é aquela na qual f é a identidade quando restrita a H: fh = h para todo h ∈ H, mas
outras escolhas são também possı́veis. Se f for uma bijeção de H em H, é fácil de se ver que imagem
3
Que tal é possı́vel é garantido pelo axioma da escolha −→ Exercı́cio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 99/1195

de f no domı́nio  é toda a reta real  (mostre isso)!


Além disso, uma tal f , bijetora enquanto função de H em H, é igualmente bijetora como função
de  em . Mostremos isso. Sejam x e y ∈
 com decomposições x = r1 h1 + · · · + rn hn e y =


s1 g1 + · · · + sm gm com rj , sk ∈ e hj , gk ∈ H e suponhamos que f (x) = f (y). Isso significa que


r1 fh1 + · · · + rn fhn = s1 fg1 + · · · + sm fgm . Como cada fhj e cada fgk é elemento de H, essa igualdade
só é possı́vel se m = n, se fhj = fgπ(j) e se rj = sπ(j) para todo j = 1, . . . , n, onde π é um elemento do
grupo de permutações de n elementos (ou seja, é uma bijeção de {1, . . . , n} em si mesmo). Como f é
uma bijeção de H em si mesmo, segue que hj = gπ(j) para todo j = 1, . . . , n. Assim,
n
X n
X n
X
x = r j hj = sπ(j) gπ(j) = sj gj = y,
j=1 j=1 j=1

e, portanto, f :  →  é bijetora.
Uma função que satisfaça f (x + y) = f (x) + f (y) para todo x, y ∈ e f : → representa um   

endomorfismo do grupo ( , +). O que aprendemos no último parágrafo pode ser expresso na linguagem


da teoria de grupos como a afirmação que existem automorfismos de ( , +) que não são contı́nuos. 

Esse fato ilustra algumas situações patológicas que são por vezes encontradas ou mencionadas no
estudo de grupos contı́nuos. Com o uso de funções f desse tipo é possı́vel, por exemplo, construir
sub-grupos uniparamétricos não-contı́nuos de um grupo de Lie dado ou representações não-contı́nuas
de tais sub-grupos.
Assim, por exemplo, se A é uma matriz real n × n antisimétrica, então O(t) = exp(tA), t ∈ é um 

subgrupo uniparamétrico contı́nuo de SO(n), pois O(0) = e O(t)O(t0 ) = O(t+t0 ) para todos t, t0 ∈ , 

sendo os elementos de matriz de O(t) funções contı́nuas de t. Se agora definirmos P (t) = exp(f (t)A),
t ∈ , para uma função f : → , patológica como acima (ou seja, satisfazendo f (x+y) = f (x)+f (y)
  

para todo x, y ∈ , bijetora mas descontı́nua), ainda teremos P (0) = e P (t)P (t0 ) = P (t + t0 ) para


todos t, t0 ∈ , mas os elementos de matriz de P (t) não são funções contı́nuas de t.




• Bases Topológicas em Espaços Vetoriais

Nota para os estudantes mais avançados.


O conceito de base algébrica não deve ser confundido com o de base topológica, conceito esse per-
tencente ao contexto dos espaços vetoriais topológicos:
Uma base topológica em um espaço vetorial topológico V é um conjunto B = {b i , i ∈ I} de vetores
linearmente independentes tais que span (B) é um conjunto denso em V , ou seja, o fecho de span (B)
é V .
Uma base topológica é dita ser base topológica completa se não possuir nenhum subconjunto próprio
que também seja uma base topológica.
A dimensão topológica de um espaço vetorial é então definida como sendo a cardinalidade das bases
topológicas completas de V .
Para ilustrar como os conceitos de base algébrica e base topológica são diferentes, consideremos
novamente o seguinte Exemplo 4 acima:
Exemplo 5. V =  sobre o corpo dos racionais, com a topologia usual sobre  , tem uma base
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 100/1195

topológica completa de dimensão finita: B = {1}. De fato, o conjunto {r · 1, r ∈ } é denso em  .


Esse espaço vetorial possui então uma dimensão topológica igual a um.

Definição. Um espaço vetorial topológico sobre o corpo dos reais ou dos complexos é dito ser separável
se possuir uma base topológica contável.

2.1.3 O Dual Algébrico de um Espaço Vetorial


Seja V um espaço vetorial sobre um corpo K (por exemplo, o corpo ). Uma aplicação l : V → K,
definida sobre todo V , é dita ser um funcional linear se

l(αx + βy) = αl(x) + βl(y)

para todo x, y ∈ V e todo α, β ∈ K.

E. 2.7 Exercı́cio. Mostre que, de acordo com a definição acima, vale para qualquer funcional linear l
que l(0) = 0. 6

O conjunto de todos os funcionais lineares de V em K é denominado espaço dual algébrico de V e


denotado V 0 . O conjunto V 0 é feito um espaço vetorial (sobre K), através da seguinte relação:

(αl + βm)(x) := l(αx) + m(βx),

para todo l e m ∈ V 0 ; α, β ∈ K e todo x ∈ V . O vetor nulo de V 0 é o funcional linear que associa


trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
O seguinte teorema é verdadeiro e será implicitamente usado várias vezes no que segue. Sua de-
monstração é, como veremos, elementar mas instrutiva.
Teorema 2.4 Seja um espaço vetorial V sobre um corpo K. Se um vetor v tem a propriedade que
l(v) = 0 para todo l ∈ V 0 então v = 0. 2

Prova. Seja B uma base algébrica em V . Para cada elemento b ∈ B podemos associar um funcional
linear lb , definido da seguinte forma. Como todo w ∈ V pode ser escrito como uma combinação linear
finita de elementos de B, podemos sempre escrever

w = wb b + w 0 ,

onde w 0 é uma combinação linear finita de elementos de B \ {b} e wb ∈ K. (É claro que wb = 0 caso b
não compareça na decomposição de w em uma soma finita de elementos de B).
Definimos então
lb (w) = wb ,
para todo vetor w ∈ V . É um exercı́cio simples mostrar que, para cada b ∈ B, a aplicação lb : V → K
dada acima é um funcional linear.

E. 2.8 Exercı́cio. Mostre isso. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 101/1195

Seja então v um vetor como no enunciado do teorema. Se l(v) = 0 para todo l ∈ V 0 , vale obvi-
amente que lb (v) = 0 para todo b ∈ B. Isso, porém, trivialmente implica que v = 0, completando a
demonstração.

Notação. Para x ∈ V e l ∈ V 0 é muito freqüente, e graficamente conveniente, usar-se a notação hl, xi


em lugar de l(x).
Se A e B são espaços vetoriais e A ⊂ B então B 0 ⊂ A0 .

E. 2.9 Exercı́cio. Justifique essa última afirmativa. 6

• O Dual Topológico de um Espaço Vetorial

Seja V um espaço vetorial topológico. O conjunto de todos os funcionais lineares contı́nuos sobre
V é dito ser o dual topológico de V . O dual topológico será denotado nestas notas por V † . Note-se que
V † ⊂ V 0.

• Exemplos de Funcionais Lineares

Exemplo 1. Seja V = n , sobre o corpo dos complexos. Seja a1 , . . . , an um conjunto fixo de


números complexos. Para qualquer vetor z = (z1 , . . . , zn ) ∈ n defina-se

l(z) = a1 z1 + · · · + an zn .
n
Então l é um funcional linear em .

E. 2.10 Exercı́cio. Verifique. 6

Em verdade, é possı́vel demonstrar a recı́proca: em n todo funcional linear é da forma acima


para algum conjunto {a1 , . . . , an }. Essa afirmativa é um caso particular de um teorema importante
conhecido como “Lema de Riesz”, que será demonstrado no contexto mais geral dos chamados espaços
de Hilbert, dos quais n é um exemplo.
Seja P o conjunto de todos os polinômios de uma variável real com coeficientes complexos: P n (t) ∈ P,

Pn (t) = an tn + · · · + a1 t + a0

com t ∈ , ai ∈ , é dito ser um polinômio de grau n se an 6= 0. O conjunto P é claramente um espaço




vetorial sobre os complexos.


Exemplo 2. Para cada t0 ∈  e p ∈ P,

l(p) = p(t0 )

é um funcional linear em P.

E. 2.11 Exercı́cio. Verifique. 6

Esse exemplo pode ser generalizado:


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 102/1195

Exemplo 3. Sejam t1 , . . . , tn ∈  , distintos, e a1 , . . . , an números complexos. Para todo p ∈ P,


definamos
l(p) = a1 p(t1 ) + · · · + an p(tn ).
Então l é um funcional linear em P.

E. 2.12 Exercı́cio. Verifique. 6

O último exemplo pode ser fortemente generalizado nos dois exemplos que seguem.
Exemplo 3. Seja (a, b) um intervalo finito de e h uma função complexa integrável nesse intervalo
Rb


(ou seja, a |h(t)|dt ≤ ∞). Então,


Z b
l(p) = h(t) p(t) dt
a
está definida para todo p ∈ P e define um funcional linear em P.

E. 2.13 Exercı́cio. Justifique as duas últimas afirmativas. 6


2
Exemplo 4. Seja a função g(x) = e−x . Então
Z ∞
l(p) = g(t) p(t) dt.
−∞

está definida para todo p ∈ P e define um funcional linear em P.

E. 2.14 Exercı́cio. Justifique as duas últimas afirmativas. 6

• A Relação entre V e V 0

Vamos aqui discutir o fato que sempre existe uma maneira (não-canônica, vide abaixo) de associar
vetores de um espaço vetorial V com elementos de seu dual algébrico V 0 .
Seja V um espaço vetorial sobre um corpo K e B ⊂ V uma base algébrica em V . Seja FB a coleção
de todas as funções de B em K. Afirmamos que existe uma bijeção de FB sobre V 0 , ou seja, esses dois
conjuntos podem ser identificados nesse sentido.
Para tal, seja f ∈ FB . Definimos uma aplicação I : FB → V 0 da seguinte forma. Como todo x ∈ V
pode ser escrito como uma combinação linear finita de elementos de B, digamos, x = α1 bi1 +· · ·+αn bin ,
escrevemos
I(f )(x) = α1 f (bi1 ) + · · · + αn f (bin ).
I(f ) é um funcional linear pois, se escrevemos y = αn+1 bin+1 + · · · + αn+m bin+m , teremos

I(f )(x + y) = α1 f (bi1 ) + · · · + αn+m f (bin+m )

= α1 f (bi1 ) + · · · + αn f (bin ) + αn+1 f (bin+1 ) + · · · + αn+m f (bin+m )

= I(f )(x) + I(f )(y). (2.2)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 103/1195

Isso então mostrou que I(f ) é de fato um elemento de V 0 para cada f ∈ FB . Vamos mostrar o reverso:
que a cada elemento l de V 0 há um elemento gl de FB associado e que I(gl ) = l. Seja novamente
x = α1 bi1 + · · · + αn bin ∈ V e seja l um elemento de V 0 . Tem-se

l(x) = α1 l(bi1 ) + · · · + αn l(bin ).

Definimos então gl : B → K por


gl (b) = l(b)
para todo b ∈ K. Pela definição

I(gl )(x) = α1 gl (bi1 ) + · · · + αn gl (bin ) = α1 l(bi1 ) + · · · + αn l(bin ) = l(x) (2.3)

para todo x ∈ V . Logo I(gl ) = l como querı́amos.


A aplicação I : FB → V 0 é, portanto, uma bijeção entre esses dois conjuntos. Notemos, porém, que
essa bijeção não é canônica no sentido que a mesma depende da base adotada. Se trocarmos B por
outra base a bijeção altera-se.
De posse desses fatos podemos entender a relação entre V e V 0 da seguinte forma. Seja o subconjunto
GB de FB formado por todas as funções que assumem valores não-nulos (no corpo K) apenas para um
conjunto finito de B, ou seja, para g ∈ GB existe um conjunto finito Bg = {b1 , . . . , bn } ⊂ B tal que g
é não-nula nos elementos de Bg , mas é nula em B \ Bg .
Os conjuntos GB e V podem ser identificados no seguinte sentido. Afirmamos que existe uma bijeção
J : GB → V . Tal é fácil de ver se lembrarmos que os elementos de V podem ser escritos como uma
combinação linear finita de elementos de B. De fato, para g ∈ GB definimos

J(g) = g(b1 )b1 + · · · + g(bn )bn ∈ V

onde {b1 , . . . , bn } = Bg . Reciprocamente, se x ∈ V e x = α1 bi1 + · · · + αn bin , definimos gx ∈ GB por

gx (bia ) = αa , a = 1, . . . , n

e
gx (b) = 0,
se b 6∈ {bi1 , . . . , bin }. É fácil ver então que

J(gx ) = g(bi1 )bi1 + · · · + g(bin )bin = α1 bi1 + · · · + αn bin = x , (2.4)

o que mostra que J é bijetora. Notemos novamente que essa bijeção também não é canônica, no sentido
que a mesma depende da base adotada. Se trocarmos B por outra base a bijeção altera-se.

E. 2.15 Exercı́cio importante. Mostre agora que J −1 : V → Gb é linear, ou seja, J −1 (αx + βy) =
αJ −1 (x) + βJ −1 (y) para todos x, y ∈ V e todos α, β ∈ K. 6

Juntando o discutido acima, concluı́mos que φ1 = I ◦ J −1 é uma aplicação linear injetora de V em


0
V . A mesma, porém, não é “natural”, pois depende da base algébrica B escolhida.
Assim, fixada uma base B em V há uma maneira de associar todos os elementos de V com elementos
do seu dual algébrico. Notemos porém que pode haver elementos de V 0 aos quais não correspondem tais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 104/1195

identificações, ou seja, a imagem de φ1 = I ◦ J −1 é tipicamente (especialmente em dimensão infinita)


um subconjunto próprio de V 0 .
Exemplo. Seja P o espaço vetorial dos polinômios em definido acima. Seja T = {ti ∈ , i ∈ },
  

um conjunto contável de pontos distintos da reta real e seja q(t) = q0 + q1 t + · · · + qn tn , polinômio.


Definamos lq ∈ V 0 por
lq (p) = q0 p(t0 ) + q1 p(t1 ) + · · · + qn p(tn ).

E. 2.16 Exercı́cio. Mostre que a aplicação P 3 q → lq ∈ V 0 é linear e injetora. 6

E. 2.17 Exercı́cio. Será que com o conjunto T fixado todo elemento de V 0 seria da forma lq para algum
q?. Pense. Inspire-se nos exemplos 3 e 4 da página 102. O que acontece para conjuntos T diferentes? 6

Comentário. Mais interessante que a relação entre V e V 0 , é a relação de V com o dual algébrico de
V 0 , o chamado bi-dual algébrico de V e denotado por (V 0 )0 , assunto que discutiremos agora. A razão
é que, ao contrário do que tipicamente ocorre entre V e V 0 , há sempre uma aplicação linear injetora
entre V e (V 0 )0 que é natural, ou seja, independente de escolhas de bases.
Outro interesse na relação entre V e (V 0 )0 reside no fato que a mesma revela-nos, como veremos,
uma profunda distinção entre espaços vetoriais de dimensão finita e infinita.

• O Bi-dual Algébrico de um Espaço Vetorial

Se V é um espaço vetorial sobre um corpo K já observamos que V 0 é também um espaço vetorial
sobre o mesmo corpo. Assim, V 0 tem também seu dual algébrico que é denominado bi-dual algébrico
de V .
O bi-dual algébrico de um espaço vetorial V é o espaço (V 0 )0 . Como vimos nas páginas anteriores,
existe pelo menos uma aplicação linear injetiva de V em V 0 . Chamemos esta aplicação de φ1 . Ana-
logamente, existe pelo menos uma aplicação linear injetiva φ2 de V 0 em (V 0 )0 . A composição φ2 ◦ φ1
fornece uma aplicação linear injetiva de V em (V 0 )0 . Como φ1 e φ2 dependem de escolhas de base, a
composição φ2 ◦ φ1 também depende, não sendo, assim, natural.
Ao contrário do que ocorre na relação entre V e V 0 , podemos sempre encontrar uma aplicação
linear injetiva de V em (V 0 )0 que é natural: independente de base. Vamos denotá-la por λ. Definimos
λ : V → (V 0 )0 da seguinte forma: para x ∈ V , λ(x) é o elemento de (V 0 )0 que associa a cada l ∈ V 0 o
valor l(x):
λ(x)(l) = l(x).

E. 2.18 Exercı́cio. Mostre que λ : V → (V 0 )0 é linear. 6

E. 2.19 Exercı́cio. Mostre que λ : V → (V 0 )0 é injetora. Sugestão: use o Teorema 2.4, enunciado e
demonstrado na página 100. 6

É transparente pela definição de λ que a mesma é independente de bases e, portanto, “natural”. A


relação entre x ∈ V e um elemento de (V 0 )0 mostrada acima é tão direta que quase poderı́amos dizer que
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 105/1195

V é um subconjunto de (V 0 )0 : V ⊂ (V 0 )0 . Alguns autores, abusando um pouco da linguagem, chegam


mesmo a escrever uma tal relação de inclusão. Mais correta, no entanto é a relação λ(V ) ⊂ (V 0 )0 .
Poderı́amos nesse momento nos perguntar: quando podemos eventualmente ter λ(V ) = (V 0 )0 ? Para
o caso de espaços vetoriais sobre o corpo dos reais ou dos complexos resposta é simples e um tanto
surpreendente e se expressa no seguinte teorema.
Teorema 2.5 Seja V um espaço vetorial sobre o corpo dos reais ou dos complexos. Então λ(V ) = (V 0 )0
se e somente se V é um espaço vetorial de dimensão finita. 2

Este teorema revela uma importante distinção entre espaços de dimensão finita e infinita. Em
dimensão finita todos os funcionais lineares do dual algébrico de V 0 são da forma λ(x) para algum
vetor x. Em dimensão infinita, porém, há certamente elementos em (V 0 )0 que não são dessa forma.
Assim, ao tomarmos duais duplos em dimensão infinita sempre obtemos espaços vetoriais “maiores”, o
que não ocorre em dimensão finita.

Prova. Seja V um espaço vetorial sobre um corpo K = ou  .


Caso de dimensão finita. Vamos em primeiro lugar supor que V é de dimensão finita e denotemos
por dim V sua dimensão. Seja também B = {b1 , . . . , bn } uma base de V . É claro que o número de
elementos de B é n = dim V .
É fácil mostrar que o conjunto {λ(b1 ), . . . , λ(bn )} é linearmente independente em (V 0 )0 . De fato, se
existirem escalares αi tais que
α1 λ(b1 ) + · · · + αn λ(bn ) = 0
ou seja,
λ(α1 b1 + · · · + αn bn ) = 0
terı́amos para todo l ∈ V 0
λ(w)(l) = l(w) = 0
onde w = α1 b1 + · · · + α1 bn . Isso, porém, implica w = 0 (pelo Teorema 2.4, página 100), o que implica
α1 = · · · = αn = 0.
Isso claramente diz que dim (V 0 )0 ≥ dim V . Afirmamos que a igualdade só se dá se λ(V ) = (V 0 )0 .
De fato, se λ(V ) = (V 0 )0 então todo elemento de (V 0 )0 é da forma
λ(α1 b1 + · · · + αn bn ) = α1 λ(b1 ) + · · · + αn λ(bn )
e, portanto {λ(b1 ), . . . , λ(bn )} é uma base em (V 0 )0 e dim (V 0 )0 = dim V . Se, por outro lado, λ(V ) é um
subconjunto próprio de (V 0 )0 , existem elementos v 00 ∈ (V 0 )0 tais que v 00 − α1 λ(b1 ) − · · · − αn λ(bn ) 6= 0
para todos αi ∈ K. Portanto, {v 00 , λ(b1 ), . . . , λ(bn )} é um conjunto de n + 1 vetores linearmente
independentes. Logo dim (V 0 )0 > n = dim V , pelo Teorema 2.3, página 96.
Vamos então mostrar que obrigatoriamente tem-se que dim (V 0 )0 = dim V , provando o teorema.
Como vimos quando discutimos a relação entre V e V 0 à página 102, V 0 é equivalente ao conjunto
FB de todas as funções de B em K, enquanto que V é equivalente ao conjunto GB formado por todas
as funções que assumem valores não-nulos (no corpo K) apenas para um conjunto finito de B. Como
B tem um número finito de elementos, sucede GB = FB (por que?). Logo V e V 0 são equivalentes:
existe uma bijeção linear ϕ1 entre ambos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 106/1195

A aplicação ϕ1 leva a base B em uma base ϕ1 (B) em V 0 . Para ver isso, notemos que todo elemento
l ∈ V 0 é da forma l = ϕ1 (v), para algum v ∈ V . Como todo v ∈ V é da forma v = α1 b1 +· · ·+αn bn , segue
que todo elemento l ∈ V 0 é da forma α1 ϕ1 (b1 )+· · ·+αn ϕ1 (bn ). Como ϕ1 é bijetora, {ϕ1 (b1 ), . . . , ϕ1 (bn )}
é um conjunto de vetores linearmente independentes pois se existirem escalares β1 , . . . , βn tais que
β1 ϕ1 (b1 ) + · · · + βn ϕ1 (bn ) = 0
terı́amos ϕ1 (β1 b1 + · · · + βn bn ) = 0 o que implica β1 b1 + · · · + βn bn = 0, pois ϕ1 é bijetora. Isso porém
implica β1 = · · · = βn = 0, pois {b1 , . . . , bn } é uma base. Assim, ϕ1 (B) = {ϕ1 (b1 ), . . . , ϕ1 (bn )} é uma
base em V 0 e, portanto, dim V 0 = n = dim V .
Analogamente, tem-se que V 0 e (V 0 )0 são equivalentes e, portanto, existe uma bijeção linear ϕ2 entre
ambos que leva a base ϕ1 (B) em uma base ϕ2 ◦ ϕ1 (B) em (V 0 )0 . Portanto, dim V 0 = dim (V 0 )0 .
Logo dim V = dim V 0 = dim (V 0 )0 , como querı́amos provar.
Caso de dimensão infinita. No caso de dimensão infinita desejamos mostrar que sempre há elementos
em (V 0 )0 que não são da forma λ(x) para algum x ∈ V .
Abaixo K é o corpo dos reais ou dos complexos.
Vamos primeiro delinear a estratégia a ser seguida. Seja B uma base em V (fixa daqui por diante).
Como sabemos, existe uma aplicação linear bijetora φ : FB → V 0 . Uma função s : B → K, s ∈ FB
é dita ser limitada se existir um M > 0 tal que |s(b)| < M para todo b ∈ B. Seja LB o conjunto de
todas as funções limitadas de B em K. É claro que LB ⊂ FB . Vamos mostrar o seguinte: não existe
nenhum vetor não-nulo v ∈ V com a propriedade que
λ(v)(β) = 0
para todo β ∈ φ(LB ). Seja v = α1 b1 + · · · + αm bm um tal vetor para o qual λ(v)(β) = 0. Isso significa
que para todo β ∈ φ(LB )
0 = λ(v)(β) = β(v) = α1 β(b1 ) + · · · + αm β(bm ).
Tomemos funcionais βi ’s da forma

1, se b = bi
βi (b) =
0, de outra forma
para i = 1, . . . , m. Como todo βi é um elemento de φ(LB ) (por que?), terı́amos 0 = βi (v) = αi para
todo i, o que implica v = 0.
A conclusão é que nenhum elemento de (V 0 )0 que seja da forma λ(v) para algum v ∈ V não-nulo
pode anular todos os elementos de φ(LB ) ⊂ V 0 . A estratégia que seguiremos será a de exibir um
elemento de (V 0 )0 que tem precisamente a propriedade de anular todos os elementos de φ(LB ). Um tal
elemento não pode pertencer, portanto, a λ(V ), o que mostra que λ(V ) é um subconjunto próprio de
(V 0 )0 no caso de dimensão infinita.
Seja u ∈ V 0 \ φ(LB ) e U o sub-espaço de V 0 gerado por u. Todo elemento l ∈ V 0 pode ser escrito
de modo único na forma
l = au + y
onde a ∈ K e y pertence ao sub-espaço complementar de U . Definamos α(l) = a. É claro que α ∈ (V 0 )0
e que α aniquila todo elemento de φ(LB ), pois estes pertencem ao sub-espaço complementar de U (por
que?). Assim, α ∈ (V 0 )0 mas α 6∈ λ(V ).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 107/1195

2.2 Formas Lineares, Sesquilineares e Produtos Escalares em


Espaços Vetoriais

2.2.1 Formas Multilineares


Seja V um espaço vetorial sobre um corpo K (por exemplo, os reais ou os complexos) e n um número
inteiro positivo. Uma n-forma multilinear4 em V é uma função ω : V n → K que seja linear em cada um
dos seus argumentos, ou seja, para todo α, β ∈ K, todos v1 , . . . , vn ∈ V , vi0 ∈ V e todo i = 1, . . . , n
vale

ω (v1 , . . . , vi−1 , (αvi + βvi0 ), vi+1 , . . . , vn ) =

αω (v1 , . . . , vi−1 , vi , vi+1 , . . . , vn ) + βω (v1 , . . . , vi−1 , vi0 , vi+1 , . . . , vn ) (2.5)

O seguinte fato importante é conseqüência imediata da definição acima: se ω é uma n-forma mul-
tilinear então
ω (v1 , . . . , vi−1 , 0, vi+1 , . . . , vn ) = 0
para todo i, ou seja, se um dos argumentos é o vetor nulo a forma se anula.

E. 2.20 Exercı́cio. Prove isso. Sugestão: o que acontece se escolhermos α = β = 0? 6

Um fato importante é o seguinte: o conjunto de todas as n-formas lineares em um espaço vetorial


V sobre um corpo K é igualmente um espaço vetorial sobre K. Para tal procede-se da seguinte forma:
para duas n-formas lineares ω1 e ω2 e dois escalares α1 , α2 ∈ K define-se a combinação linear α1 ω1 +α2 ω2
como sendo a n-forma linear que a toda n-upla de vetores v1 , . . . , vn ∈ V associa

(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ).

E. 2.21 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares em um
espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6

• Formas Bilineares

De particular interesse é o caso n = 2, em cujo caso as formas são denominadas bilineares: uma
forma bilinear é uma função ω : V 2 → K que seja linear em cada um dos seus dois argumentos, ou
seja, para todo α, β ∈ K, todos u, v, w ∈ V , valem

ω(u, (αv + βw)) = αω(u, v) + βω(u, w),

ω((αu + βv), w) = αω(u, w) + βω(v, w).


4
Também chamada n-forma linear ou simplesmente n-forma.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 108/1195

Um exemplo básico importante é o seguinte. Seja V = n o espaço vetorial (sobre o corpo dos


reais) formado por n-uplas de números reais: V = {x = (x1 , . . . , xn ), xi ∈ }. Uma forma bilinear 

em V é dada por
Xn
hx, yi = xk y k .
 (2.6)
k=1

Outro exemplo é
ωA (x, y) = hx, Ayi , 

onde A é uma matriz n × n real qualquer.

• Formas Bilineares Não-Degeneradas

Uma forma bilinear ω é dita ser uma forma bilinear não-degenerada se satisfizer a seguinte condição:
se para todo vetor v valer ω(v, u) = 0, então u = 0.

• Formas Bilineares Não-Singulares

Seja V um espaço vetorial e ω uma forma bilinear em V . Para u ∈ V fixo a aplicação lu (v) = ω(u, v)
é um funcional linear em V , ou seja, um elemento do espaço dual V 0 . Se a aplicação l : V → V 0 que
associa cada u ∈ V ao funcional linear lu acima for um isomorfismo de espaços vetoriais a forma bilinear
ω é dita ser uma forma bilinear não-singular.
Há vários outros tipos de formas multilineares que são importantes, como por exemplo as chamadas
formas multilineares alternantes e, dentre estas as formas simpléticas.

• Formas Alternantes

Uma n-forma linear ω em um espaço vetorial V sobre um corpo K é dita ser alternante (ou anti-
simétrica) se satisfizer

ω (v1 , . . . , vi−1 , vi , vi+1 , vi+2 , . . . , vn ) = −ω (v1 , . . . , vi−1 , vi+1 , vi , vi+2 , . . . , vn ) (2.7)

para todos os vetores v1 , . . . , vn ∈ V e todo i = 1, . . . , n − 1. Em palavras, quando trocamos de


lugar dois argumentos vizinhos quaisquer a forma troca de sinal.
Deve ser bem claro que essa definição equivale à seguinte afirmação: se ω é uma n-forma linear
alternante, então para todo π ∈ Sn , o grupo de permutações de n elementos, vale

ω vπ(1) , . . . , vπ(n) = (sinalπ) ω (v1 , . . . , vn ) , (2.8)

para todos os vetores v1 , . . . , vn ∈ V , onde sinalπ é o sinal da permutação π (definido à página 569).

E. 2.22 Exercı́cio. Está claro? 6

Nomenclatura. Se ω é n-forma linear alternante, n é dito ser o grau de ω.


O conjunto de todas as n-formas lineares alternantes em um espaço vetorial V sobre um corpo K é
igualmente um espaço vetorial sobre K: para duas n-formas lineares alternantes ω1 e ω2 e dois escalares
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 109/1195

α1 , α2 ∈ K define-se a combinação linear α1 ω1 + α2 ω2 como sendo a n-forma linear que a toda n-upla
de vetores v1 , . . . , vn ∈ V associa

(α1 ω1 + α2 ω2 )(v1 , . . . , vn ) = α1 ω1 (v1 , . . . , vn ) + α2 ω2 (v1 , . . . , vn ).

É fácil constatar que a n-forma linear assim definida é também alternante.

E. 2.23 Exercı́cio. Complete os detalhes da prova que o conjunto de todas as n-formas lineares alter-
nantes em um espaço vetorial V sobre um corpo K forma um espaço vetorial sobre K. 6

• Formas Simpléticas

Formas bilineares alternantes não-degeneradas são denominadas formas simpléticas 5. Formas sim-
pléticas são importantes em algumas áreas da Fı́sica, como por exemplo na mecânica clássica e no
estudo de métodos de quantização.
Assim, uma forma simplética em um espaço vetorial V sobre um corpo K é uma forma bilinear
para a qual
ω(u, v) = −ω(v, u)
para todos os vetores u, v ∈ V e tal que se ω(u, v) = 0 para todo v, então u = 0.
n
Um exemplo básico importante no caso do espaço vetorial V =  e que, como veremos na Seção
2.4, é o caso geral é o seguinte:
ωA (x, y) = hx, Ayi , 

onde A é uma matriz n × n real anti-simétrica, ou seja, que satisfaz AT = −A, o que equivale a dizer
que seus elementos de matriz satisfazem Aij = −Aji . Fora isso, pela condição de não-degenerescência
A tem que ser invertı́vel, pois se hx, Ayi = 0 para todo y, então hAT x, yi = 0 para todo y, o
 

que só é possı́vel se AT x = 0. Isso implicaria que det(A) = det(AT ) = 0. Uma conseqüência do
fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição A T = −A diz que
det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar terı́amos det(A) = 0.

• Algumas Propriedades Básicas de Formas Lineares Alternantes

É evidente pela definição que se ω é uma n-forma alternante então ω (v1 , . . . , vn ) = 0 caso haja
vi = vj para algum par i 6= j. Em particular, para formas simpléticas ω(u, u) = 0 para todo u ∈ V .

E. 2.24 Exercı́cio. A propriedade mencionada no último parágrafo é equivalente à definição de forma


linear alternante: se ω é uma n-forma linear e ω (v1 , . . . , vn ) = 0 sempre que vi = vj para algum par i 6= j,
então ω é alternante. Prove isso. Sugestão: para i 6= j defina a forma bilinear ω ij (vi , vj ) := ω (v1 , . . . , vn )
onde todos os vetores v1 , . . . , vn estão fixos exceto vi e vj . Usando agora que ωij (x + y, x + y) = 0,
mostre que ωij (vi , vj ) = −ωij (vj , vi ) para todo vi e vj . A afirmação principal segue disso (por que?). 6

A seguinte proposição sobre formas lineares alternantes é importante:


5
Do grego symplektikós: que serve para ligar, trançado, enlaçado.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 110/1195

Proposição 2.2 Se ω é uma n-forma linear alternante e v1 , . . . , vn são vetores linearmente dependentes,
então
ω (v1 , . . . , vn ) = 0.
2

E. 2.25 Exercı́cio. Prove isso. 6

• Formas Alternantes Maximais

A Proposição 2.2 tem uma conseqüência imediata: se V é um espaço vetorial de dimensão n e ω é


uma forma linear alternante de ordem m > n, então ω = 0.

E. 2.26 Exercı́cio. Por quê? 6

Assim, em um espaço de dimensão n o grau máximo de uma forma alternante é n. Formas alternan-
tes de grau máximo são ditas formas alternantes maximais. Vamos mais adiante estudar como são essas
formas maximais, mas antes, precisamos discutir alguns fatos importantes sobre formas alternantes em
espaços de dimensão finita.
Em um espaço vetorial V de dimensão n o espaço vetorial das formas alternantes maximais é
unidimensional. Para ver isso notemos o seguinte. Seja {b1 , . . . , bn } uma base em V . Sejam agora ω1
e ω2 duas formas alternantes maximais em V e seja x1 , . . . , xn uma n-upla de vetores de V . Como
{b1 , . . . , bn } é uma base, podemos sempre escrever
n
X
xi = αij bj ,
j=1

para todo i = 1, . . . , n. Assim,


n
X n
X
ω1 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω1 (bj1 , . . . , bjn )
j1 =1 jn =1

e, analogamente,
n
X n
X
ω2 (x1 , . . . , xn ) = ··· α1j1 · · · αnjn ω2 (bj1 , . . . , bjn ).
j1 =1 jn =1

Ocorre que ω1 (bj1 , . . . , bjn ) é zero caso ocorram dois ı́ndices jk iguais. Por isso, podemos reescrever
as expressões acima da seguinte forma:
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω1 (bj(1) , . . . , bj(n) )
j∈Sn

e, analogamente, X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) ω2 (bj(1) , . . . , bj(n) ) ,
j∈Sn
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 111/1195

onde, acima, Sn é o conjunto de todas as bijeções de {1, . . . , n} em si mesmo (o chamado grupo de


permutações de n elementos).

E. 2.27 Exercı́cio. Justifique. 6

Como ω1 é uma forma alternante maximal, tem-se que

ω1 (bj(1) , . . . , bj(n) ) = sinal(j) ω1 (b1 , . . . , bn ).

Assim, !
X
ω1 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω1 (b1 , . . . , bn )
j∈Sn

e, analogamente,
!
X
ω2 (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j) ω2 (b1 , . . . , bn ).
j∈Sn

Como se vê nessas últimas expressões, ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn ) diferem apenas pelos fatores
ω1 (b1 , . . . , bn ) e ω2 (b1 , . . . , bn ), respectivamente. Como esses fatores são apenas números (elementos
do corpo K), são proporcionais um ao outro. Isso prova então que ω1 (x1 , . . . , xn ) e ω2 (x1 , . . . , xn )
são proporcionais um ao outro para toda n-upla x1 , . . . , xn e isso era o que querı́amos provar.
Com as observações acima chegamos ao importante conceito de forma determinante.

• A Forma Determinante

Como observamos acima, todas as n-formas lineares alternantes maximais de um espaço vetorial
V de dimensão n são proporcionais umas às outras. Assim, o conhecimento de uma forma alternante
maximal determina todas as outras.
A forma determinante6 ωdet em um espaço vetorial V de dimensão n é a n-forma linear alternante
maximal tal que ωdet (b1 , . . . , bn ) = 1 no caso em que {b1 , . . . , bn } é a base canônica de V :
     
1 0 0
0  1  0
     
0  0   
b1 =   , b2 =   , . . . , bn =  ...  .
 ..   ..   
. . 0
0 0 1

Assim, X
ωdet (x1 , . . . , xn ) = α1j(1) · · · αnj(n) sinal(j),
j∈Sn

onde αij é a j-ésima componente do vetor xi na base canônica.


6 3
Também chamada de forma volume, pois em , ωdet (x1 , x2 , x3 ) é igual ao volume do paralelepı́pedo descrito pelos
vetores x1 , x2 , x3 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 112/1195

Como observamos, todas as outras n-formas lineares alternantes maximais de V são proporcionais
a ωdet .

• Determinante de Matrizes

Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna


 
αi1
 .. 
xi =  .  .
αin

Denotamos por [[x1 , . . . , xn ]] a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
α11 · · · αn1
 ..  .
[[x1 , . . . , xn ]] =  ... ..
. . 
α1n · · · αnn

É evidente que toda matriz M (n × n) pode ser escrita na forma M = [[x1 , . . . , xn ]] para algum
conjunto de vetores x1 , . . . , xn que representam suas colunas.
Define-se então o determinante da matriz M como sendo

det(M ) := ωdet (x1 , . . . , xn ).

Cremos que o conceito de determinante de matrizes e suas propriedades básicas sejam bem conhe-
cidos do estudante.

2.2.2 Formas Sesquilineares e as Desigualdades de Cauchy-Schwarz e Min-


kowski

• Formas Sesquilineares. Definições

Seja V um espaço vetorial complexo. Uma forma sesquilinear7 é uma função ω : V × V → que
satisfaz as seguintes propriedades:
1. Linearidade em relação à segunda variável:

ω(u, αv + βw) = αω(u, v) + βω(u, w),

para todos os vetores u, v e w e para todos os números complexos α e β.


2. Anti-linearidade em relação à primeira variável:

ω(αu + βv, w) = αω(u, w) + βω(v, w),


7
Do radical grego sesqui: um e meio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 113/1195

para todos os vetores u, v e w e para todos os números complexos α e β.


É imediato pela definição que toda forma sesquilinear ω se anula no vetor nulo, ou seja,

ω(u, 0) = ω(0, u) = 0,

para todo vetor u.

E. 2.28 Exercı́cio. Prove isso. 6

Uma forma sesquilinear é dita ser uma forma sesquilinear Hermitiana se satisfizer:
3. Simetria por conjugação complexa:

ω(u, v) = ω(v, u),

para todos os vetores u e v.


Uma forma sesquilinear é dita ser uma forma sesquilinear positiva se satisfizer
4. Positividade. Para todo u ∈ V ,
ω(u, u) ≥ 0.
Abaixo (Teorema 2.6, página 113) provaremos que toda forma sesquilinear positiva é automatica-
mente Hermitiana. Lá provaremos também que se ω é uma forma sesquilinear positiva então vale
que |ω(u, v)|2 ≤ ω(u, u) ω(v, v) para todos os vetores u e v. Essa desigualdade é conhecida como
Desigualdade de Cauchy-Schwarz.
Uma forma sesquilinear é dita ser uma forma sesquilinear não-degenerada se satisfizer:
5. Não-degenerescência. Se um vetor u é tal que vale ω(u, v) = 0 para todo vetor v, então u = 0.
Nomenclatura. Uma forma sesquilinear que não é não-degenerada é dita ser degenerada.

• Formas sesquilineares não-singulares

Seja V um espaço vetorial e ω uma forma sesquilinear em V . Para u ∈ V fixo a aplicação l u (v) =
ω(u, v) é um funcional linear em V , ou seja, um elemento do espaço dual V 0 . Se a aplicação anti-linear
l : V → V 0 que associa cada u ∈ V ao funcional linear lu acima for um anti-isomorfismo8 de espaços
vetoriais a forma sesquilinear ω é dita ser uma forma sesquilinear não-singular.

• A Desigualdade de Cauchy-Schwarz

De importância fundamental na teoria das formas sesquilineares é o seguinte teorema, que apresenta-
nos a importante desigualdade de Cauchy9 -Schwarz10 .
Teorema 2.6 Se ω é uma forma sesquilinear positiva, então é também Hermitiana, ou seja,

ω(u, v) = ω(v, u) ,
8
Definido à página 66.
9
Augustin Louis Cauchy (1789-1857).
10
Karl Herman Amandus Schwarz (1843-1921).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 114/1195

para todos os vetores u e v. Fora isso vale a desigualdade de Cauchy-Schwarz: para todos os vetores u
e v,
|ω(u, v)|2 ≤ ω(u, u) ω(v, v). (2.9)
Por fim, se ω é uma forma sesquilinear positiva e não-degenerada então ω(u, u) = 0 se e somente se
u = 0. 2

Prova. Faremos uso do fato que, para qualquer número complexo λ e quaisquer vetores u e v vale, pela
hipótese de positividade,
ω(u + λv, u + λv) ≥ 0.
Escrevendo-se explicitamente o lado esquerdo temos a desigualdade

|λ|2 ω(v, v) + λ ω(u, v) + λ ω(v, u) + ω(u, u) ≥ 0.

E. 2.29 Exercı́cio. Verifique isso. 6

Vamos agora escrever λ na forma λ = x + iy, onde x é a parte real de λ e y sua parte imaginária.
A última expressão fica

f (x, y) := (x2 + y 2 )ω(v, v) + (x + iy)ω(u, v) + (x − iy)ω(v, u) + ω(u, u) ≥ 0.

E. 2.30 Exercı́cio. Verifique isso. 6

Vamos decompor ω(u, v) e ω(v, u) nas suas partes reais e imaginárias, escrevendo

ω(u, v) = α + iβ e ω(v, u) = γ + iδ, (2.10)

onde α, β, γ e δ ∈  . Ficamos com

f (x, y) = (x2 + y 2 )ω(v, v) + (xα − yβ) + i(xβ + yα) + (xγ + yδ) + i(xδ − yγ) + ω(u, u) ≥ 0. (2.11)

Como f (x, y) tem que ser real (e ≥ 0) segue que a parte imaginária da expressão acima deve ser nula
e, como ω(v, v) e ω(u, u) são reais, devemos ter

0 = (xβ + yα) + (xδ − yγ) = x(β + δ) + y(α − γ).

Como isso deve valer para todos x, y ∈  , segue que β = −δ e α = γ. Comparando com (2.10), isso
diz que
ω(u, v) = ω(v, u),
provando que ω é Hermitiano.
Com as relações β = −δ e α = γ a expressão (2.11) fica

f (x, y) = (x2 + y 2 )ω(v, v) + 2(xα − yβ) + ω(u, u). (2.12)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 115/1195

Vamos agora considerar dois casos: um onde ω(v, v) = 0 e outro onde ω(v, v) 6= 0. No primeiro

f (x, y) = 2(xα − yβ) + ω(u, u).

Assim, como ω(u, u) ≥ 0 pela positividade, a condição f (x, y) ≥ 0 é possı́vel para todos x e y ∈ 

se e somente se α = β = 0, ou seja, se e somente se ω(u, v) = 0 para todo u. Aqui a desigualdade de


Cauchy-Schwarz (2.9) é trivialmente satisfeita, pois ambos os lados são iguais a zero.
Passemos ao caso ω(v, v) 6= 0. Resta-nos provar a desigualdade de Cauchy-Schwarz (2.9) para esse
caso. Podemos reescrever o lado direito de (2.12) como
" 2  2 #  2 
α β α + β2
f (x, y) = ω(v, v) x + + y− + ω(u, u) − .
ω(v, v) ω(v, v) ω(v, v)

E. 2.31 Exercı́cio. Verifique. 6

Daı́, constatamos que f (x, y) ≥ 0 para todos x e y ∈ se e somente se




 2 
α + β2
ω(u, u) − ≥ 0,
ω(v, v)

ou seja, se e somente se
ω(u, u)ω(v, v) ≥ α2 + β 2 .
O lado direito é, porém, |ω(u, v)|2 , e a última desigualdade significa

|ω(u, v)|2 ≤ ω(u, u)ω(v, v),

que é a desigualdade de Cauchy-Schwarz que querı́amos demonstrar.


Finalmente, se ω é uma forma sesquilinear positiva e não-degenerada e um certo vetor u é tal que
ω(u, u) = 0, segue pela desigualdade de Cauchy-Schwarz que ω(u, v) = 0 para todo v, o que implica
u = 0, pois ω é não-degenerada.

• A Desigualdade de Minkowski

A desigualdade de Cauchy-Schwarz tem uma conseqüência de certa importância, a chamada De-


sigualdade de Minkowski: Se ω é uma forma sesquilinear positiva (em particular, se ω é um produto
escalar) então, para todos os vetores u e v, vale

ω(u − v, u − v)1/2 ≤ ω(u, u)1/2 + ω(v, v)1/2 . (2.13)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 116/1195

A demonstração é simples:

ω(u − v, u − v) = ω(u, u) − ω(u, v) − ω(v, u) + ω(v, v)

= ω(u, u) − 2Re (ω(u, v)) + ω(v, v)

≤ ω(u, u) + 2 |ω(u, v)| + ω(v, v)

≤ ω(u, u) + 2ω(u, u)1/2 ω(v, v)1/2 + ω(v, v)


 2
= ω(u, u)1/2 + ω(v, v)1/2 ,

que é o que se queria demonstrar. Acima, na passagem da terceira para a quarta linha, usamos a
desigualdade de Cauchy-Schwarz.

2.2.3 Produtos Escalares

• Produtos Internos ou Produtos Escalares

Uma forma sesquilinear positiva ω é dita ser um produto escalar ou produto interno se satisfizer:
6. ω(u, u) = 0 se e somente se u = 0.
A proposição seguinte apresenta uma definição alternativa de produto escalar.
Proposição 2.3 Uma forma sesquilinear positiva é um produto escalar se e somente se for não-
degenerada. 2

Prova. Se ω é um produto escalar, então se u é tal que ω(u, v) = 0 para todo v, vale em particular
(tomando v = u) que ω(u, u) = 0 e, portanto, u = 0. Assim, todo o produto escalar é não-degenerado.
Reciprocamente, pelo Teorema 2.6, página 113, se ω é uma forma sesquilinear positiva e não-degenerada,
então vale automaticamente que ω(u, u) = 0 se e somente se u = 0

• Notações para produtos escalares

Seguindo a convenção, denotaremos freqüentemente produtos escalares de dois vetores u e v não


por ω(u, v) mas por hu, vi. É freqüente também denotar um produto escalar de dois vetores u e v por
(u, v). Essa notação pode causar confusão com a de par ordenado e por isso a evitamos. Em textos
de Fı́sica é comum encontrar também a chamada notação de Dirac para produtos escalares: hu|vi. Por
diversas razões não compartilhamos do entusiasmo de alguns com essa notação e também a evitamos.

• Detalhando a definição de produto escalar

Como o conceito de produto escalar é muito importante, vamos detalhá-lo um pouco mais antes de
passarmos a exemplos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 117/1195

Um produto escalar ou produto interno em um espaço vetorial V sobre o corpo dos complexos é
uma função V × V → , denotada por hu, vi, para u, v ∈ V , com as seguintes propriedades:

1. O produto escalar é linear na segunda variável:


hu, αv + βwi = αhu, vi + βhu, wi
para todos u, v e w ∈ V e todos α, β ∈ .
2. O produto escalar é anti-linear na primeira variável:
hαu + βv, wi = αhu, wi + βhv, wi
para todos u, v e w ∈ V e todos α, β ∈ , onde α é o complexo conjugado de α ∈ .
3. Conjugação complexa:
hu, vi = hv, ui
para todos u, v ∈ V .
4. Para todo u ∈ V
h0, ui = hu, 0i = 0.

5. Positividade. Para todo vetor u não-nulo


hu, ui > 0.

Nota. Alguns postulados da definição de produto escalar acima são redundantes, pois nem todos são
independentes. Nós os listamos apenas para ressaltar sua relevância individual. Por exemplo, o item
2 segue de 1 e 3 (por que?). O item 4 segue de 1 e 2 (por que?). Os itens 1, 2 e 5 implicam o item 3
(como veremos no Teorema 2.6). Independentes são apenas 1, 2 e 5 ou 1, 3 e 5.
Para um produto escalar de dois vetores vale a seguinte e importantı́ssima desigualdade, conhecida
como Desigualdade de Cauchy-Schwarz:
|hu, vi|2 ≤ |hu, ui||hv, vi|.
A demonstração (mais geral) é apresentada no Teorema 2.6, página 113.
Advertência. Em livros de Matemática definição de produto escalar é por vezes apresentada de forma
que se tenha linearidade na segunda variável e anti-linearidade na primeira variável acima. A convenção
que adotamos é oposta e é seguida, felizmente, por 100% dos textos de Fı́sica.

• Formas Sesquilineares Positivas e Produtos Escalares

Se V é um espaço vetorial dotado de uma forma sesquilinear positiva ω, existe uma maneira canônica
de construir a partir de V e ω um outro espaço vetorial dotado de um produto escalar.
Seja ω uma forma sesquilinear positiva em um espaço vetorial V . Então, existe um espaço vetorial
Ṽ , um produto escalar ω̃ e uma aplicação linear sobrejetora E : V → Ṽ tais que
ω̃(E(u), E(v)) = ω(u, v)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 118/1195

e que E(u) = 0 em Ṽ caso ω(u, u) = 0.


Para a mencionada construção, notemos em primeiro lugar que o conjunto de todos os vetores u
com a propriedade que ω(u, u) = 0 formam um sub-espaço de V . De fato, se u e v são dois vetores
desse tipo, teremos que

ω(αu + βv, αu + βv) = |α|2 ω(u, u) + αβω(u, v) + αβω(v, u) + |β|2 ω(v, v) = 0,

pois ω(u, u) = ω(v, v) = 0, por hipótese, e pois ω(v, u) = ω(u, v) = 0 em função da condição de
ω ser positivo (pela desigualdade de Cauchy-Schwarz). Vamos denominar esse sub-espaço por Z. O
espaço vetorial quociente Ṽ = V /Z (vide a construção da página 93) tem as propriedades desejadas.
A aplicação E : V → Ṽ é a aplicação que associa cada elemento de v de V à sua classe de equivalência
[v]: E : V 3 v 7→ [v] ∈ Ṽ . Definimos então ω̃ por

ω̃([u], [v]) = ω(u, v).

É um exercı́cio simples (faça) mostrar que essa definição de fato independe dos representantes, no caso
u e v, tomados nas classes [u] e [v].

E. 2.32 Exercı́cio. Mostre que ω̃ é de fato um produto escalar em Ṽ . 6

• Produtos escalares e formas simpléticas reais

Seja V um espaço vetorial complexo dotado de um produto escalar h·, ·i. Então, a expressão

ω(u, v) := Im(hu, vi)

u, v ∈ V , define uma forma simplética real em V . As condições de antisimetria (ω(u, v) = −ω(v, u))
e de linearidade por combinações lineares com escalares reais são elementares de se constatar. Que
ω é não-degenerada, segue do fato que se ω(u, v) = 0 para todo u valeria, tomando u = −iv, 0 =
Im(h − iv, vi) = hv, vi, o que implica v = 0.
Na Seção 2.5, página 131, veremos que, sob hipóteses adequadas, toda forma simplética real é a
parte imaginária de um produto escalar em um espaço complexo.

2.2.4 Exemplos
Para ilustrar os conceitos apresentados acima, passemos a alguns exemplos.

• Exemplos de Formas Sesquilineares e Produtos Escalares


n
Exemplo 2.1 Seja V = . Um exemplo de produto escalar é dado pelo produto escalar usual:
n
X
ω(u, v) = hu, vi 
:= uk v k , (2.14)
k=1

onde u = (u1 , . . . , un ) e v = (v1 , . . . , vn ). ◊


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 119/1195

n
Exemplo 2.2 Seja V = . Um exemplo de produto escalar é dado por

ω(u, v) = hAu, Avi , 

onde u = (u1 , . . . , un ), v = (v1 , . . . , vn ) e onde A é uma matriz n × n invertı́vel. ◊


n
Exemplo 2.3 Exemplo de uma forma sesquilinear Hermitiana que não é positiva. Seja V = e seja
ω dado por
Xn
ω(u, v) = hu, Avi = uk Akl vl ,


k, l=1

onde A é uma matriz n × n auto-adjunta, ou seja, seus elementos de matriz satisfazem A kl = Alk .
A assim definida ω é uma forma sesquilinear Hermitiana,  mas em  geral pode não ser positiva. Um
0 −i
caso concreto é o seguinte. Tomemos V = 2 e A = . Então, é fácil ver que ω(u, u) =
i 0
hu, Aui = i(u1 u2 − u1 u2 ) = −2Im(u1 u2 ), que pode ser negativo ou mesmo nulo. Assim, essa ω não é


positiva. É fácil ver, porém, que essa ω é não-degenerada (mostre isso!). ◊


n
Exemplo 2.4 Exemplo de uma forma sesquilinear que não é Hermitiana. Seja V = e seja dado
por
Xn
ω(u, v) = hu, Avi = uk Akl vl ,


k, l=1

onde A é uma matriz n × n que não é auto-adjunta, ou seja, Akl 6= Alk para pelo menos um elemento
de matriz Akl . A assim definida ω é uma forma sesquilinear,
 mas em geral pode não ser Hermitiana.
0 1
Um caso concreto é o seguinte. Tomemos V = 2 e A = . Então, é fácil ver que
0 0

ω(u, v) = hu, Avi  = u1 v2 ,

enquanto que ω(v, u) = v1 u2 . Logo, ω(u, v) e ω(v, u) podem ser distintos e ω não é Hermitiana. Fora
isso, essa ω também não é positiva e é degenerada (mostre isso!). ◊
Exemplo 2.5 Exemplo de uma forma sesquilinear positiva mas que não é um produto escalar. Seja
V = n e seja ω dado por
ω(u, v) = hAu, Avi 

onde A é uma matriz n × n não-invertı́vel. Então, existe u0 não-nulo tal que Au0 = 0. Daı́, segue que
ω(u0 , v) = hAu0 , Avi = 0 para todo v e, portanto, ω é degenerada e ω(u0 , u0 ) = 0.


 
2 1 0
Um caso concreto é o seguinte. Tomemos V = eA= . Note que A não é invertı́vel
0 0  
b 0
(por que?). Aqui temos que ω(u, v) = u1 v1 . Note que todo vetor da forma u = é tal que
u2
Aub = 0 e, portanto ω(ub , v) = 0 para todo v. ◊

Na Seção 2.4, página 126, mostraremos como é a forma geral de formas bilineares, sesquilineares
e produtos escalares nos espaços de dimensão finita n e n . Tratemos agora de dois exemplos em


espaços vetoriais de dimensão infinita.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 120/1195

Exemplo 2.6 Seja V = C([a, b]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [a, b] da reta real (a < b). Seja p uma função contı́nua estritamente positiva definida em [a, b],
ou seja, p(x) > 0 para todo x ∈ [a, b]. Então, a expressão
Z b
ω(f, g) = f (x)g(x) p(x)dx ,
a
para funções f e g de V define um produto escalar em V (justifique!). ◊
Exemplo 2.7 Seja V = C([0, 1]) o espaço vetorial das funções contı́nuas complexas de um intervalo
fechado [0, 1] da reta real. Seja p uma função tal que p é contı́nua e estritamente positiva no intervalo
[0, 1/2) e identicamente nula no intervalo [1/2, 1]. Então, a expressão
Z 1
ω(f, g) = f (x)g(x) p(x)dx ,
0

para funções f e g de V define uma forma sesquilinear positiva em V , que não é um produto escalar
(justifique!). ◊
Exemplo
Pn 2.8 Considere o espaço vetorial n e o produto escalar usual: ω(u, v) = hu, vi = 

i=1 ui vi . A desigualdade de Cauchy-Schwarz implica


2 ! n !
Xn Xn X

ui v i ≤ |uj |2 |vk |2 . (2.15)

i=1 j=1 k=1

E. 2.33 Exercı́cio. R Considere o espaço vetorial das funções contı́nuas no intervalo [0, 1] e o produto
1
escalar ω(f, g) = 0 f (x)g(x) dx. Tomando as funções f (x) = x e g(x) = ex , use a desigualdade de

Cauchy-Schwarz para mostrar que e ≥ 7. 6

E. 2.34 Exercı́cio. Tente livremente obter outras desigualdades interessantes do mesmo estilo usando
esse método. 6

2.3 Normas em Espaços Vetoriais


Aqui trataremos exclusivamente de espaços vetoriais sobre o corpo dos complexos.

• Normas

Uma norma é uma função V →  usualmente denotada por k · k, com as seguintes propriedades.

1. Para todo v ∈ V tem-se kvk ≥ 0.

2. kvk = 0 se e somente se v for o vetor nulo: v = 0.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 121/1195

3. Para qualquer α ∈ e qualquer v ∈ V tem-se kαvk = |α|kvk.

4. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.

Por 3 e 4, vale que


kαu + βvk ≤ |α|kuk + |β|kvk
para quaisquer α, β ∈ e quaisquer vetores u e v ∈ V .

Nota. As quatro condições acima, em verdade, não são logicamente independentes e listamo-as devido
à sua importância individual. Assim, por exemplo, a condição de positividade 1 segue das condições 4
e 3. Isso será mostrado logo abaixo (página 121) quando falarmos de semi-normas. Note também que,
pelo item 3 acima, tem-se k0k = 0 (tome α = 0).

Nota. A condição 4, acima, é de particular importância e é denominada desigualdade triangular.


Um espaço vetorial pode ter várias normas. Vide exemplos abaixo.

• Equivalência entre Normas

Definição. Duas normas k · k1 e k · k2 em um espaço vetorial V são ditas equivalentes se existirem duas
constantes positivas c1 e c2 , com 0 < c1 ≤ c2 , tais que

c1 kvk1 ≤ kvk2 ≤ c2 kvk1

para todo vetor v ∈ V .

E. 2.35 Exercı́cio. Mostre que a relação de equivalência entre normas é uma relação de equivalência.
6

Tem-se o seguinte teorema, cuja demonstração pode ser encontrada, por exemplo, em [133]:
Teorema 2.7 Em um espaço vetorial de dimensão finita sobre ou  todas as normas são equiva-
lentes. 2

A afirmação desse teorema é freqüentemente falsa em espaços de dimensão infinita. A importância


da noção de equivalência de normas se manifesta no fato que duas normas equivalentes geram a mesma
topologia métrica.

• Semi-Normas

Uma semi-norma é uma função V →  usualmente denotada por k·k, com as seguintes propriedades.

1. Para todo v ∈ V tem-se kvk ≥ 0.

2. Para qualquer α ∈ e qualquer v ∈ V tem-se kαvk = |α|kvk.

3. Para quaisquer vetores u e v ∈ V tem-se ku + vk ≤ kuk + kvk.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 122/1195

Note-se que, pelo item 2, vale para uma semi-norma que k0k = 0. É evidente pelas definições que
toda norma é uma semi-norma. A diferença entre norma e semi-norma é que para uma semi-norma a
relação kvk = 0 não necessariamente implica v = 0.
Para uma semi-norma (ou norma) vale a desigualdade


kak ≥ ka − bk − kbk , (2.16)

para quaisquer a, b ∈ V . Como faremos uso da mesma no futuro, vamos apresentar sua demonstração
aqui, que é uma conseqüência direta da desigualdade triangular.
A desigualdade triangular diz-nos que

ka − bk ≤ kak + kbk (2.17)

e que
kbk = ka − (a − b)k ≤ kak + ka − bk. (2.18)
De (2.17) segue que
kak ≥ ka − bk − kbk
e de (2.18) que
kak ≥ −(ka − bk − kbk).
Quando dois números reais x e y são tais que x ≥ y e x ≥ −y então x ≥ |y|. Assim, as duas últimas
desigualdades dizem que

kak ≥ ka − bk − kbk ,
que é o que querı́amos provar.
Essa desigualdade diz, incidentalmente, que kak ≥ 0 para todo vetor de V . Isso mostra que o item
1 da definição de semi-norma e de norma é supérfluo.
Note-se também que se fizermos em (2.16) as substituições a → a − b, b → −b, obtemos


kak − kbk ≤ ka − bk, (2.19)

para quaisquer a, b ∈ V . Essa forma da desigualdade será empregada algumas vezes nestas notas.

• Equivalência entre Semi-Normas

Há uma noção de equivalência entre semi-normas que é idêntica à de equivalência entre normas.

• A Norma Associada a um Produto Escalar

Se ω é um produto escalar em um espaço vetorial V existe associada a ω uma norma k · k ω dada


por
kvkω = ω(v, v)1/2 ,
v ∈V.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 123/1195

E. 2.36 Exercı́cio. Mostre que os postulados da definição de norma são de fato satisfeitos. 6

• Invariância de Normas Associadas a Produtos Escalares

Se uma norma em um espaço vetorial V é produzida por um produto escalar, como acima, existe
naturalmente um grupo de transformações lineares de V em V que mantem essa norma invariante.
Esse grupo é discutido
pna Seção 10.2.3, página 580. Por exemplo, a chamada norma Euclidiana de n , 

n
definida por kxk = hx, xi para x ∈
, é invariante pelo grupo O(n) das matrizes ortogonais, ou


seja, das matrizes R, reais n × n, que satisfazem RT R = . Isso significa que kRxk = kxk para toda
R ∈ O(n). O grupo O(n) e seus amigos são discutidos na Seção 10.2.4, página 582 e seguintes.

• A Desigualdade Triangular

Talvez a principal importância da desigualdade de Minkowski (2.13) seja a seguinte. Vamos supor
que ω seja um produto escalar. Então podemos definir11 uma métrica ou distância entre dois vetores
a e b por
dω (a, b) := ka − bkω = ω(a − b, a − b)1/2 .
Como ω é um produto escalar, segue que dω (a, b) = 0 se e somente se a = b (por que?). É também
claro que dω (a, b) = dω (b, a) (por que?). Fora isso, segue da desigualdade de Minkowski que para
quaisquer vetores a, b e c vale
dω (a, b) ≤ dω (a, c) + dω (c, b).
Para ver isso, note que

dω (a, b) = ω(a − b, a − b)1/2

= ω((a − c) − (b − c), (a − c) − (b − c))1/2

≤ ω(a − c, a − c)1/2 + ω(b − c, b − c)1/2

= dω (a, c) + dω (c, b).

Acima, na passagem da segunda à terceira linha, usamos a desigualdade de Minkowski com u = a − b


e v = b − c.
A desigualdade dω (a, b) ≤ dω (a, c) + dω (c, b) é importante no estudo de propriedades topológicas
de espaços vetoriais e é denominada desigualdade triangular (pergunta ao estudante: de onde vem esse
nome?).
Note que a desigualdade triangular vale também se ω não for um produto escalar, mas apenas uma
forma sesquilinear positiva (por que?). Nesse caso é também verdade que d ω (a, b) = dω (b, a), porém,
não é mais verdade que dω (a, b) = 0 se e somente se a = b e, por isso, dω é dita ser uma pseudo-métrica.

• Norma e Produto Escalar


11
As noções de métrica e de espaços métricos serão discutidas no Capı́tulo 13.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 124/1195

Se um espaço vetorial V possuir um produto


p escalar então, como observamos, é possı́vel definir nele
uma norma da seguinte forma: kuk = hu, ui, u ∈ V .
A norma assim definida possui duas propriedades importantes que mencionamos aqui: a identidade
do paralelogramo e a identidade de polarização.
Identidade do paralelogramo: Para todos os vetores u, v ∈ V vale

ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 . (2.20)

Prova. Tem-se simplesmente pelas definições que

ku + vk2 = kuk2 + hu, vi + hv, ui + kvk2

e
ku − vk2 = kuk2 − hu, vi − hv, ui + kvk2 .
Somando-se ambas tem-se o resultado.

E. 2.37 Exercı́cio. Por que essa relação é chamada “identidade do paralelogramo”? 6

Identidade de polarização: Para todos os vetores u, v de um espaço vetorial complexo V vale


3
1 X −n
hu, vi = i ku + in vk2 ,
4 n=0

ou seja,
4hu, vi = ku + vk2 − ku − vk2 − iku + ivk2 + iku − ivk2 .

Prova. Exercı́cio. Expanda o lado direito e verifique a igualdade.

E. 2.38 Exercı́cio. Por que essa relação é chamada “identidade de polarização”? 6

Notemos que, com a definição dada acima de norma associada a um produto escalar, a desigualdade
de Cauchy-Schwarz fica
|hu, vi| ≤ kukkvk.

• A Identidade de Polarização

A identidade de polarização mencionada acima é um caso especial de uma outra ligeiramente mais
geral, também denominada identidade de polarização. Seja A um operador linear em um espaço vetorial
V sobre os complexos e sejam u e v elementos de seu domı́nio. Então vale que
3
1 X −n
hu, Avi = i h(u + in v), A(u + in v)i. (2.21)
4 n=0

E. 2.39 Exercı́cio. Mostre isso. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 125/1195

Tomando-se A como o operador identidade reobtem-se a identidade anterior.


A relação (2.21) mostra que se para um operador linear A conhecermos todas as quantidades
hψ, Aψi para todos os vetores ψ ∈ V , então conhecemos também todas as quantidades hu, Avi para
todos u, v ∈ V .
Para a fı́sica quântica a identidade de polarização (2.21) diz que se A for um observável (operador
auto-adjunto), então o conhecimento de todos os valores esperados de A, ou seja, das quantidades
hψ, Aψi com kψk = 1 e dos produtos escalares hu, vi para vetores com kuk = kvk = 1, fixa todas as
probabilidades de transição |hu, Avi|2 , pois
3
1 X −n
hu, Avi = i hψn , Aψn i (2 + in hu, vi + i−n hv, ui), (2.22)
4 n=0

onde
1 1
ψn = n
(u + in v) = p (u + in v).
ku + i vk n −n
2 + i hu, vi + i hv, ui

• Uma conseqüência da identidade de polarização

A relação (2.21) permite-nos facilmente provar a seguinte afirmação, freqüentemente empregada:


Proposição 2.4 Se um operador linear A agindo em um espaço vetorial complexo V satisfaz hu, Aui =
0 para todo vetor u ∈ V então A = 0. 2

Para matrizes reais em espaços vetoriais reais não vale uma afirmativa tão forte. Por exemplo,
se V = n P e A for uma matriz anti-simétrica, ou seja AT = −A, então vale automaticamente que


hx, Axi = na, b=1 xa Aab xb = 0, pois Aab = −Aba para todo x ∈ n . Porém, A pode ser não-nula.



Todavia, para matrizes simétricas vale o seguinte:


Proposição 2.5 Seja M ∈ Mat ( , n) uma matriz simétrica (ou seja, tal que M T = M ) para a qual


valha que hx, M xi = 0 para todo x ∈ n . Então M = 0.



 2

n
Prova. Se M é uma matriz simétrica, é fácil verificar que para quaisquer vetores u e v ∈  tem-se
1
hu, M vi = [h(u + v), M (u + v)i − h(u − v), M (u − v)i ] .
4
  

(Para provar isso expanda o lado direito e use que hu, M vi = hv, M ui , pois M é simétrica). Logo,
 

da hipótese sobre M , segue que hu, M vi = 0 para todos u e v ∈ n e, portanto, M = 0


 

• Obtendo Produtos Escalares a Partir de Normas

Nas últimas páginas vimos que podemos obter uma norma a partir de um produto escalar. Podemos
nos perguntar: se uma norma for dada em um espaço vetorial, seria possı́vel obter um produto escalar
a partir dessa norma?
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 126/1195

A chave para responder isso é sugerida pelas identidades do paralelogramo e de polarização, ambas
válidas para normas definidas a partir de produtos escalares: Se uma norma satisfaz a identidade do
paralelogramo, ou seja, se
ku + vk2 + ku − vk2 = 2kuk2 + 2kvk2 .
para todos os vetores u, v ∈ V , então um produto escalar pode ser definido por
3
1 X −n
hu, vi = i ku + in vk2 .
4 n=0

A demonstração que o lado direito define de fato um produto escalar é engenhosa, a principal dificuldade
consiste em demonstrar a linearidade do produto escalar (item 1 da definição de produto escalar).
Omitiremos a demonstração aqui, que pode ser encontrada, por exemplo na seção 16.8 e seguintes da
referência [72]. Vide também [132].
Mencionemos por fim que nem toda norma satisfaz a identidade do paralelogramo e, portanto, nem
sempre é possı́vel definir um produto escalar a partir de uma norma.

E. 2.40 Exercı́cio. Seja o espaço vetorial V = C([0, 1], ) das funções contı́nuas do intervalo [0, 1]
assumindo valores complexos e seja a norma kf k∞ = supx∈[0, 1] |f (x)|. Mostre que a identidade do pa-
ralelogramo não é satisfeita para as funções f (x) = x e g(x) = 1, x ∈ [0, 1], que são elementos de V .
6

E. 2.41 Exercı́cio. Seja o espaço vetorial V = n , com n ≥ 2. Para a = (a1 , . . . , an ) ∈ n a expressão


kakp := [|a1 |p + · · · + |an |p ]1/p , define uma norma em V = n , caso p ≥ 1. Mostre que essa norma viola
a identidade do paralelogramo para todo p 6= 2. Para tal considere os vetores u = (1, 0, 0, . . . , 0) e
v = (0, 1, 0, . . . , 0). A norma k · kp será discutida com mais detalhe no Capı́tulo 13. 6

2.4 Formas Bilineares e Sesquilineares em Espaços de Di-


mensão Finita
É possı́vel estabelecer a forma geral de uma forma bilinear ou sesquilinear em certos espaços vetoriais,
como os espaços de dimensão finita n ou n . É o que discutiremos nesta seção.


Faremos uso do chamado Teorema da Representação de Riesz, que afirma o seguinte.


Teorema 2.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em um
espaço de Hilbert H (com um produto escalar h·, ·iH ). Então existe φ ∈ H, único, tal que

l(x) = hφ, xiH , ∀x ∈ H.

A demonstração desse importante teorema pode ser encontrada na Seção 22.3.1, página 1008. No-
temos que esse teorema se aplica aos espaços vetoriais n ou n , pois os mesmos são espaços de Hilbert

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 127/1195

em relação aos produtos escalares h·, ·i e h·, ·i , respectivamente, definidos em (2.6) e (2.14) (páginas



108 e 118).

• Continuidade

Vamos provar a seguinte afirmação: toda forma bilinear em n é contı́nua (em ambas as variáveis),


o mesmo valendo para formas bilineares ou sesquilineares em n .


Vamos provar a afirmação para as formas sesquilineares em n . Os outros casos são idênticos. Seja
ω uma forma sesquilinear em n . Para vetores x, y ∈ n , y 6= 0, escrevemos

ω(x, y) = kyk ω(x, y/kyk), (2.23)


p
onde kyk = hy, yi . Notemos então que se v é um vetor de norma igual a 1 e {b1 , . . . , bn } é uma


base ortonormal em n então v = v1 b1 + · · · + vn bn com |vj | ≤ 1. Assim,

ω(x, v) = v1 ω(x, b1 ) + · · · + vn ω(x, bn )

e, portanto,
|ω(x, v)| ≤ |ω(x, b1 )| + · · · + |ω(x, bn )|
Para cada x fixo o lado direito é uma constante Kx e não depende de v. Aplicando isso a (2.23),
teremos
|ω(x, y)| ≤ kykKx .
Isso mostra que
lim |ω(x, y)| = 0
y→0

para todo x fixo. Como ω(x, y) é linear na segunda variável, segue que

lim ω(x, y) = ω(x, y0 )


y→y0

para todo y0 ∈ n , provando a continuidade de ω na segunda variável. A prova para a primeira variável
é idêntica. Os casos em que ω é bilinear em n ou em n é análogo.


n
• Formas Sesquilineares em
n n
Seja ω uma forma sesquilinear em . Então, pelo que acabamos de ver, para cada x ∈
n
lx : → , lx (y) = ω(x, y)

é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ n tal que lx (y) = hηx , yi para todo y ∈ n , ou seja,


ω(x, y) = hηx , yi . 

n
Seja A a função que a cada x ∈ associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .
Tem-se,
ω(x, y) = hA(x), yi .  (2.24)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 128/1195

Afirmamos que A é um operador linear, ou seja, A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ) para todos
os números complexos α1 e α2 e todos os vetores x1 e x2 . De fato, por (2.24),
hA(α1 x1 + α2 x2 ), yi  = ω(α1 x1 + α2 x2 , y)

= α1 ω(x1 , y) + α2 ω(x2 , y)

= α1 hA(x1 ), yi + α2 hA(x2 ), yi  

= hα1 A(x1 ) + α2 A(x2 ), yi . 

n
Assim, para todo y ∈ tem-se
h [A(α1 x1 + α2 x2 ) − α1 A(x1 ) − α2 A(x2 )] , yi  = 0,
o que implica
A(α1 x1 + α2 x2 ) = α1 A(x1 ) + α2 A(x2 ),
que é o que querı́amos provar. Assim, A é em verdade um operador linear. Resumimos esses fatos no
seguinte teorema:
n
Teorema 2.9 Para toda forma sesquilinear ω em existe uma matriz n × n complexa Aω tal que
ω(x, y) = hAω x, yi 

n
para todos x, y ∈ . 2

n
Esse teorema estabelece assim a forma geral das formas sesquilineares em .

n
• Formas Bilineares em 

n n
Seja ω uma forma bilinear em  . Então, para cada x ∈ 

n
lx :  →  : lx (y) = ω(x, y)
é um funcional linear e contı́nuo. Pelo Teorema da Representação de Riesz existe um único vetor
ηx ∈ n tal que lx (y) = hηx , yi , ou seja,



ω(x, y) = hηx , yi . 

Seja A a função que a cada x ∈ n associa o (único!) vetor ηx com a propriedade acima: A(x) = ηx .


De maneira análoga ao que fizemos acima podemos provar que A é um operador linear, ou seja, uma
matriz n × n real e ω(x, y) = hAx, yi . 

Resumimos esses fatos no seguinte teorema:


n
Teorema 2.10 Para toda forma bilinear ω em  existe uma matriz n × n real Aω tal que
ω(x, y) = hAω x, yi 

n
para todos x, y ∈  . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 129/1195

n
Esse teorema estabelece assim a forma geral das formas bilineares em  .

n
• Formas Bilineares em
n
Seja ω uma forma bilinear em . Então

ωs (x, y) = ω(x, y)

define uma forma sesquilinear em n , onde x = (x1 , . . . , xn ) para x = (x1 , . . . , xn ) ∈ n


. Pelo que
provamos acima, portanto, existe uma matriz complexa Aω tal que

ωs (x, y) = hAω x, yi . 

n
para todos x, y ∈ , ou seja,
ω(x, y) = hAω x, yi , 

n
para todos x, y ∈ .
Note que isso também diz que
ω(x, y) = hAω x, yi , 

onde Aω é o complexo conjugado da matriz Aω .


Resumimos esses fatos no seguinte teorema:
n
Teorema 2.11 Para toda forma bilinear ω em existe uma matriz n × n complexa Aω tal que

ω(x, y) = hAω x, yi 

n
para todos x, y ∈ . 2

n
Esse teorema estabelece assim a forma geral das formas bilineares em .

• Formas Simpléticas

Se ω é uma forma bilinear alternante em n ou n , ou seja, ω é bilinear e ω(x, y) = −ω(y, x),




então ω é da forma ω(x, y) = hA x, yi onde A é uma matriz anti-simétrica, ou seja, AT = −A. De




fato, como hx, yi = hy, xi e como ω(x, y) = −ω(y, x), segue que
 

hA x, yi 
= −hA y, xi 
= −h y, AT xi 
= −hAT x, yi . 

n n
Como isso vale para todo x, y ∈  (ou ), tem-se AT = −A.
n n
Isso determina a forma geral de uma forma bilinear alternante em  ou .
Se ω é uma forma simplética, ou seja, ω é uma forma bilinear alternante não-degenerada, então A
tem que ser também invertı́vel. De fato, se hAx, yi = 0 para todo y, então Ax = 0. Se A é invertı́vel


isso só é possı́vel se x = 0.


Uma conseqüência do fato de A ter de ser invertı́vel é que n tem que ser par. De fato, a condição
AT = −A diz que det(A) = det(−AT ) = (−1)n det(AT ) = (−1)n det(A). Portanto, se n é ı́mpar
terı́amos det(A) = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 130/1195

A conclusão é que formas simpléticas só ocorrem nos espaços de dimensão finita n ou n se a 

dimensão n for par, e nesse caso, têm a forma ω(x, y) = hAx, yi , onde A é invertı́vel e satisfaz 

AT = −A.

n
• Formas Sesquilineares Hermitianas em
n
Se ω é uma forma sesquilinear Hermitiana em , tem-se ω(x, y) = ω(y, x). Se A é a matriz tal
que hAx, yi = ω(x, y), então


hAx, yi  = hAy, xi  = hx, Ayi  = hA∗ x, yi , 

onde A∗ := AT é a adjunta de A. Como a última relação vale para todo x, y ∈ n


, tem-se A = A∗ , ou
seja, A é uma matriz auto-adjunta.
n
Portanto, a forma geral de uma forma sesquilinear Hermitiana em é hAx, yi , onde A é uma


matriz auto-adjunta.

n
• Produtos Escalares em

Se ω é um produto escalar em n , ω é sesquilinear Hermitiana e ω(x, x) > 0 se x 6= 0. Se A é a


matriz tal que hAx, yi = ω(x, y), então


hAx, xi > 0  (2.25)


se x 6= 0. Uma conseqüência disso é o seguinte: se vi é um dos autovetores de A com autovalor λi ,
então λi > 0. De fato, tomando x = vi em (2.25), teremos12 0 < hAvi , vi i = λi hvi , vi i , o que implica  

λi > 0. Esse fato, em particular, nos diz que A é invertı́vel (pois o determinante de A é o produto de
seus autovalores).
Outra conseqüência dessas observações é a seguinte. É bem sabido que os autovetores vi de uma
matriz auto-adjunta A podem ser escolhidos de modo a formar uma √ base ortonormal (vide Teorema
3.12, página 179). Vamos definir uma matriz B de modo que Bvi = λi vi para todos os autovetores
vi de A. Isso define a ação de B nos vetores de uma base e, portanto, B fica definida em toda parte 13 .
É fácil provar que B assim definida é também auto-adjunta, B ∗ = B, e que B 2 = A. Claramente
B é também invertı́vel e tem autovalores > 0.

E. 2.42 Exercı́cio. Mostre esses fatos. 6

Disso concluı́mos que


ω(x, y) = hAx, yi 
= hBx, Byi . 

n
Em resumo, se ω é um produto escalar em então existe uma (única) matriz auto-adjunta Bω ,
invertı́vel e com autovalores > 0 tal que
ω(x, y) = hBω x, Bω yi 

n
para todo x, y ∈ .
12
Lembre-se que os autovalores de uma matriz auto-adjunta são sempre números reais.
13
Para o estudante mais avançado: aqui poderı́amos usar também o teorema espectral, Teorema 3.4.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 131/1195

2.5 Estruturas Complexas sobre Espaços Vetoriais Reais


Seja V um espaço vetorial real. Em V está, portanto, definido um produto por escalares reais: x v ∈ V ,
onde x ∈ e v ∈ V . Sob certas circunstâncias é possı́vel transformar V em um espaço vetorial complexo


definindo um produto por escalares complexos: z · v ∈ V para z ∈ e v ∈ V . Também sob hipóteses,


um produto escalar complexo pode ser definido em V .
Suponha que exista um operador linear J : V → V , agindo em V , com a propriedade J 2 = − ,
onde denota o operador identidade. Se z ∈ é da forma z = x + iy com x, y ∈ , defina-se em V o 

produto por escalares complexos por

(x + iy) · v := xv + yJv . (2.26)

As seguintes propriedades poder ser facilmente verificadas como exercı́cio:

1. O produto por escalares complexos (2.26) é associativo:

α · (β · u) = (αβ) · u ,

para todos α, β ∈ e u ∈ V , onde αβ é o produto de α por β em ,

2. 1 · u = u para todo u ∈ V .

3. O produto por escalares complexos (2.26) é distributivo em relação à soma de vetores:

α · (u + v) = α · u + α · v ,

para todo α ∈ e todos u, v ∈ V .

4. O produto por escalares complexos (2.26) é distributivo em relação à soma de escalares:

(α + β) · u = α · u + β · u ,

para todos α, β ∈ e todo u ∈ V .

Portanto, pela definição da Seção 1.2.3, página 54, V é um espaço vetorial complexo com o produto
definido acima. Vamos denotar por VJ esse espaço vetorial complexo, para não confundı́-lo com V , que
é um espaço vetorial real. Note que os vetores de V e de VJ são os mesmos, mas V e VJ representam
estruturas diferentes. VJ é dito ser uma estrutura complexa sobre o espaço vetorial real V .
Uma questão de grande interesse, especialmente no contexto das chamadas álgebras CAR e CCR
(vide [15]) que descrevem as álgebras de comutação e anticomutação canônicas da Mecânica Quântica
e das Teorias Quânticas de Campos (que descrevem modelos fermiônicos14 e bosônicos15 ), é saber se
é possivel introduzir um produto escalar complexo no espaço complexo VJ . Como veremos no que
segue, tal é possivel se houver em V uma forma simplética real ou um produto escalar real satisfazendo
certas hipóteses. Desenvolveremos primeiro as idéias gerais e apresentaremos exemplos posteriormente,
à página 135.
14
Enrico Fermi (1901-1954).
15
Satyendra Nath Bose (1894-1974).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 132/1195

• Formas simpléticas reais e produtos escalares reais

Para mostrar como construir produtos escalares complexos no espaço complexo V J precisamos do
seguinte resultado preparatório, que tem interesse por si só, por estabelecer uma relação entre formas
simpléticas16 reais e produtos escalares reais.
Lema 2.1 Seja V um espaço vetorial real e suponha que exista um operador linear J : V → V
satisfazendo J 2 = − . Valem as seguintes afirmações

I. Se ε : V × V →  é um produto escalar real em V satisfazendo

ε(Ju, v) = −ε(u, Jv)

para todos u , v ∈ V , então σ : V × V →  definida para todos u, v ∈ V por

σ(u, v) := ε(Ju, v) = −ε(u, Jv) (2.27)

é uma forma simplética real e satisfaz


(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,
(b) σ(u, Ju) ≥ 0 para todo u ∈ V .
II. Se σ : V × V →  é uma forma simplética real em V satisfazendo
(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,
(b) σ(u, Ju) ≥ 0 para todo u ∈ V ,
então ε : V × V →  definida para todos u, v ∈ V por

ε(u, v) := σ(u, Jv) = −σ(Ju, v) (2.28)

é um produto escalar real e satisfaz


(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V .
2

Prova da parte I. Pelas hipóteses, ε é um produto escalar real e, portanto, é uma forma bilinear real,
positiva, simétrica e não-degenerada. Que σ definida em (2.27) é uma forma bilinear é evidente. Para
todos u, v ∈ V tem-se
simetria
σ(u, v) = ε(Ju, v) = −ε(u, Jv) = −ε(Jv, u) = −σ(v, u) ,

provando que σ é uma forma alternante. Se σ(u, v) = 0 para todo v ∈ V , então ε(Ju, v) = 0 para
todo v ∈ V . Mas como ε é não-degenerada, segue que Ju = 0, o que implica u = 0, pois J 2 = − . Isso
provou que σ é não degenerada e, portanto, é uma forma simplética. Note-se agora que

σ(u, Jv) = ε(Ju, Jv) = −ε(u, J 2 v) = ε(u, v) = −σ(Ju, v) .


16
Para a definição, vide página 109.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 133/1195

Por fim, σ(u, Ju) = ε(Ju, Ju) ≥ 0, pois ε é um produto escalar. Pelo mesmo motivo, ε(Ju, Ju) = 0
se e somente se Ju = 0. Como J 2 = − , isso implica u = 0. Isso provou as afirmações da parte I.

Prova da parte II. Pelas hipóteses, σ é uma forma simplética real e, portanto, é uma forma bilinear real,
alternante e não-degenerada. Que ε definida em (2.28) é uma forma bilinear é evidente. Para todos
u, v ∈ V tem-se
alternância
ε(u, v) = σ(u, Jv) = −σ(Ju, v) = σ(v, Ju) = ε(u, v) ,

provando que ε é uma forma simétrica. Se ε(u, v) = 0 para todo v ∈ V , então σ(u, Jv) = 0 para todo
v ∈ V . Mas como σ é não-degenerada, segue que u = 0, provando que ε é uma forma não-degenerada.
Para todo u tem-se também ε(u, u) = σ(u, Ju) ≥ 0, por hipótese, provando que ε é uma forma
positiva. Assim, pela Proposição 2.3, página 116, ε é um produto escalar. Note-se agora que, por
definição, ε(u, v) = −σ(Ju, v) para todos u , v ∈ V . Disso segue que σ(u, v) = ε(Ju, v) e que

ε(u, Jv) = −σ(Ju, Jv) = σ(u, J 2 v) = −σ(u, v) = −ε(Ju, v) .

Isso provou as afirmações da parte II.

• Produtos escalares complexos sobre estruturas complexas

A proposição que segue mostra como se pode construir em VJ um produto escalar complexo se for
fornecida uma forma simplética real ou um produto escalar real em V satisfazendo certas hipóteses.
Proposição 2.6 Suponhamos que V seja um espaço vetorial real e que exista J : V → V , um operador
linear em V , satisfazendo J 2 = − . Então valem as seguintes afirmações:

A. Se existir uma forma simplética real σ : V × V →  satisfazendo

(a) σ(Ju, v) = −σ(u, Jv) para todos u , v ∈ V ,


(b) σ(u, Ju) ≥ 0 para todo u ∈ V 17 ,

então, V × V 3 (u, v) 7→ hu, viJ, σ ∈ definida por

hu, viJ, σ := σ(u, Jv) + iσ(u, v)

para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa V J .

B. Se existir um produto escalar real ε : V × V →  satisfazendo

(a) ε(Ju, v) = −ε(u, Jv) para todos u , v ∈ V ,

então, V × V 3 (u, v) 7→ hu, viJ, ε ∈ definida por

hu, viJ, ε := ε(u, v) + iε(Ju, v)

para todos u, v ∈ V , é um produto escalar complexo sobre a estrutura complexa V J .


17
Em [15] essa última condição não é mencionada, mas ela é necessária.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 134/1195

Prova. Mostremos em primeiro lugar que as hipóteses das partes A e B são equivalentes. Pelo Lema 2.1,
página 132, a existência de uma forma simplética real σ satisfazendo as hipóteses da parte A implica
a existência de um produto escalar real ε dado por ε(u, v) := σ(u, Jv) = −σ(Ju, v) satisfazendo as
hipóteses da parte B, sendo que, por essa definição de ε,
σ(u, Jv) + iσ(u, v) = ε(u, v) + iε(Ju, v) . (2.29)
Reciprocamente, também pelo Lema 2.1, página 132, a existência de um produto escalar real ε sa-
tisfazendo as hipóteses da parte B implica a existência de uma forma simplética real σ dada por
σ(u, v) := ε(Ju, v) = −ε(u, Jv) satisfazendo as hipóteses da parte A, sendo que, por essa definição
de σ, a igualdade (2.29) é também válida. Assim, é suficiente provarmos, digamos, a parte A.
Prova da parte A. É evidente que para quaisquer u, v, w ∈ V valem
h(u + v), wiJ, σ = hu, wiJ, σ + hv, wiJ, σ , hu, (v + w)iJ, σ = hu, viJ, σ + hu, wiJ, σ .
Além disso,
hv, uiJ, σ = σ(v, Ju) + iσ(v, u) = −σ(Ju, v) − iσ(u, v) = σ(u, Jv) − iσ(u, v) = hu, viJ, σ .
(2.30)
Para x, y ∈ tem-se também


hu, (x + iy) · viJ, σ = hu, xv + yJviJ, σ

= hu, xviJ, σ + hu, yJviJ, σ

= σ(u, xJv) + iσ(u, xv) + σ(u, yJ 2 v) + iσ(u, yJv)

J 2 =−
= σ(u, xJv) + iσ(u, xv) + σ(u, −yv) + iσ(u, yJv)
   
= x σ(u, Jv) + iσ(u, v) + iy σ(u, Jv) + iσ(u, v)

= (x + iy)hu, viJ, σ .
Pela propriedade (2.30), isso implica também h(x + iy) · u, viJ, σ = (x − iy)hu, viJ, σ , mostrando que
h·, ·iJ, σ é uma forma sesquilinear.
Pelas hipóteses, tem-se hu, uiJ, σ = σ(u, Ju) ≥ 0, mostrando que h·, ·iJ, σ é positiva. Se 0 =
hu, viJ, σ = σ(u, Jv) + iσ(u, v) para todo u, segue que σ(u, v) = 0 para todo u, o que implica que
v = 0, pois σ é não-degenerada (pela nossa definição de forma simplética). Isso mostrou que h·, ·i J, σ
é não-degenerada. Assim, h·, ·iJ, σ é uma forma sesquilinear positiva e não-degenerada e pelo Teorema
2.6, página 113, segue que hu, uiJ, σ = 0 se e somente se u = 0. Isso mostrou que h·, ·iJ, σ é um produto
escalar complexo em VJ .

• Exemplos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 135/1195

Vamos primeiramente estudar o caso de espaços de dimensão finita. Vale a seguinte proposição:
Proposição 2.7 Um espaço vetorial real V de dimensão finita admite uma estrutura complexa (não
necessariamente única) se e somente se tiver dimensão par. 2

Prova. Se J é um operador linear agindo no espaço vetorial real de dimensão finita V , podemos
representá-lo como uma matriz. Se J 2 = − então, tomando-se o determinante de ambos os lados,
temos (det(J))2 = (−1)n , onde n é a dimensão de V . Como o lado esquerdo é positivo, n tem que
ser par. Reciprocamente, vamos supor que V tenha dimensão par, digamos 2m. Desejamos mostrar
que existe um operador linear agindo em V satisfazendo J 2 = − . Uma possı́vel escolha é a seguinte.
Como V tem dimensão par podemos encontrar dois subespaços V1 e V2 , ambos de dimensão m, com
V = V1 ⊕ V2 . Como V1 e V2 têm a mesma dimensão, são isomorfos, e existe um operador linear
A : V1 → V2 que é bijetivo (o Exemplo 2.9, abaixo, deixará isso mais claro. Um tal operador não é
necessariamente único, mas isso não representa um problema). Todo elemento v ∈ V pode ser escrito
da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 . Podemos definir Jv = J(v1 ⊕ v2 ) := (−Av2 ) ⊕ (Av1 ). É
trivial, então, verificar que J 2 = − , como desejado.

Exemplo 2.9 Seja V um espaço vetorial real de dimensão 2m. Em alguma base, podemos representar
v ∈ V na forma de um vetor-coluna:
   
v1 −vm+1
 ..   .. 
 .   . 
   
 vm   −v2m 
v =   . Defina-se, então, Jv :=   , (2.31)
vm+1   v1 
 .   . 
 ..   .. 
v2m vm

ou seja, em forma matricial, na mesma base,


 
m − m
J =
m m

sendo m e m matrizes m × m. É elementar verificar que J 2 = − 2m , como desejado.


A escolha de J indicada acima dependeu de uma particular decomposição de V em dois sub-
espaços de dimensão m. Há várias outras decomposições possı́veis, que fornecem outros operadores J
e, portanto, outras estruturas complexas. Permanecendo no exemplo acima, é fácil ver que, se x, y ∈ , 

então o produto por escalares complexos fica


     
v1 v1 xv1 − yvm+1
 ..   ..   .. 
 .   .   . 
     
 vm   vm   xvm − yv2m 
(x + iy) ·   := (x + yJ)   =   . (2.32)
vm+1  vm+1  xvm+1 + yv1 
 .   .   .. 
 ..   ..   . 
v2m v2m xv2m + yvm
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 136/1195

Seguindo ainda o exemplo de (2.31) e (2.32) para V = 2m , vamos ilustrar a Proposição 2.6 e


produto escalar complexo para ( 2m )J . Adotemos para ε o produto escalar usual:




2m
X
ε(u, v) := uk vk = u1 v1 + · · · + u2m v2m .
k=1

Temos que
ε(Ju, v) = −um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m
e que
ε(u, Jv) = −u1 vm+1 − · · · − um v2m + um v1 + · · · + u2m vm
2m
Logo ε(Ju, v) = −ε(u, Jv) e podemos aplicar a Proposição 2.6, obtendo em (  )J o produto escalar

hu, viJ, ε = ε(u, v) + iε(Ju, v)


   
= u1 v1 + · · · + u2m v2m + i − um+1 v1 − · · · − u2m vm + u1 vm+1 + · · · + um v2m

= u1 (v1 + ivm+1 ) + · · · + um (vm + iv2m ) + um+1 (vm+1 − iv1 ) + · · · u2m (v2m − ivm )

= (u1 + ium+1 )(v1 + ivm+1 ) + · · · + (um + iu2m )(vm + iv2m ) .

E. 2.43 Exercı́cio. Verifique que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ . 6

Entendemos, assim, que a estrutura complexa que estudamos consiste nesse caso em identificar
bijetivamente 2m e m por


 
v1  
 . . v 1 + iv m+1
 .   
   
2m  vm   . 
3   ←→  .
.  ∈ m
v
 m+1   


 .   
 .. 
vm + iv2m
v2m
m
e adotar em o produto escalar complexo h·, ·i usual (definido à página 16).
 ◊

Vejamos como as idéias de acima podem ser generalizadas e de modo a incluir espaços de dimensão
infinita.
Exemplo 2.10 Se V é um espaço vetorial real de (dimensão finita ou não) é sempre possı́vel encontrar
um operador linear J satisfazendo J 2 = − se V possuir dois subespaços V1 e V2 com V = V1 ⊕ V2
e tais que existe A : V1 → V2 , linear e bijetora (em dimensão finita isso requer que V1 e V2 tenham a
mesma dimensão e, portanto, que V tenha dimensão par, como mencionado na Proposição 2.7). De
fato, para v ∈ V da forma v = v1 ⊕ v2 com v1 ∈ V1 e v2 ∈ V2 , definindo Jv := (−A−1 v2 ) ⊕ (Av1 ) é fácil
constatar que J 2 = − .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 137/1195

Para um tal J o produto por um escalar complexo λ = x + iy, com x, y ∈ , fica definido por 


λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1 v2 )⊕(xv2 +yAv1 ) .

Se V é um espaço de Hilbert real separável com uma base {φk , k ∈ }, podemos tomar V1 e V2 

como os espaço gerados por {φk , k ∈ , k par} e {φk , k ∈ , k ı́mpar}, respectivamente. Uma
 

possı́vel escolha para a bijeção linear A : V1 → V2 seria



! ∞
X X
A a2m φ2m = a2m φ2m+1 ,
m=0 m=0

para a qual !

X ∞
X
−1
A a2m+1 φ2m+1 = a2m+1 φ2m ,
m=0 m=0

ou seja, em termos de elementos da base, Aφ2m = φ2m+1 e A−1 φ2m+1 = φ2m para todo m ≥ 0. Com
essa definição, terı́amos
" ∞ ! ∞
!# " ∞
! ∞
!#
X X X X
J a2m φ2m ⊕ a2m+1 φ2m+1 = − a2m+1 φ2m ⊕ a2m φ2m+1 .
m=0 m=0 m=0 m=0

O produto com escalares complexos λ = x + iy, com x, y ∈ , fica definido por 

∞ ∞
! ∞
!
X X X
(x + iy) · a m φm = (xa2m − ya2m+1 )φ2m ⊕ (xa2m+1 + ya2m )φ2m+1 .
m=0 m=0 m=0

Para um tal J o produto por um escalar complexo λ = x + iy com x, y ∈ fica definido por 


λ·(v1 ⊕v2 ) := (x+yJ)(v1 ⊕v2 ) = x(v1 ⊕v2 )+y (−A−1 v2 ) ⊕ (Av1 ) = (xv1 −yA−1 v2 )⊕(xv2 +yAv1 ) .


X ∞
X ∞
X
Para α, β ∈ V da forma α = α m φm , β = βm φm e ε(α, β) := αm βm , o produto escalar
m=0 m=0 m=0
real usual, constatamos que

X ∞
X ∞
X ∞
X
ε(α, Jβ) = − α2m β2m+1 + α2m+1 β2m e que ε(Jα, β) = − α2m+1 β2m + α2m β2m+1 .
m=0 m=0 m=0 m=0

Assim, ε(α, Jβ) = −ε(Jα, β) e pela parte B da Proposição 2.6, página 133, hα, βiJ, ε := ε(α, β) +
iε(Jα, β) é um produto escalar complexo. Explicitamente, tem-se

X
hα, βiJ, ε = (α2m + iα2m+1 )(β2m + iβ2m+1 ) .
m=0

E. 2.44 Exercı́cio. Verifique! Verifique também que hα, λ · βiJ, ε = λhα, βiJ, ε para todo λ ∈ . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 138/1195

A forma simplética real associada a ε pela parte I do Lema 2.1, página 132, é

X ∞
X
σ(α, β) = −ε(α, Jβ) = α2m β2m+1 − α2m+1 β2m .
m=0 m=0


Exemplo 2.11 Uma situação que não se deve deixar de comentar é a seguinte. Se V é um espaço
vetorial complexo com um produto escalar complexo h·, ·i, V é naturalmente também um espaço
vetorial real, sendo que, como comentamos à página 118, σ(u, v) := Im(hu, vi) u, v ∈ V , define
uma forma simplética real em V . Definindo em V o operador linear Ju = iu, tem-se J 2 = − . A
multiplicação por escalares complexos não apresenta novidades: para x, y ∈ e u ∈ V vale, pela 

definição, (x + iy) · u = xu + yJu = (x + iy)u.


É fácil constatar que σ(u, Jv) = Im(hu, ivi) = −Im(hiu, vi) = −σ(Ju, v) e que σ(u, Ju) =
Im(hu, iui) = hu, ui ≥ 0. Assim, pela parte A da Proposição 2.6, página 133, hu, viJ, σ := σ(u, Jv) +
iσ(u, v) é um produto escalar complexo em V . No entanto, é facil ver que nesse caso hu, vi J, σ =
Im(hu, ivi) + iIm(hu, vi) = Re(hu, vi) + iIm(hu, vi) = hu, vi.
O produto escalar real ε associado a σ pela parte II do Lema 2.1, página 132, é

ε(u, v) = σ(u, Jv) = Im(hu, ivi) = Re(hu, vi) .

É interessante notar também que se tivéssemos adotado Ju = −iu, u ∈ V , terı́amos ainda para
σ(u, v) = Im(hu, vi) que σ(u, Jv) = −σ(Ju, v). Porém, σ(u, Ju) = −hu, ui ≤ 0, violando a
condição de positividade. ◊
Exemplo 2.12 Uma situação um pouco diferente é a seguinte. Seja V um espaço vetorial complexo
dotado de um produto escalar complexo h·, ·i. Sejam V1 e V2 dois sub-espaços ortogonais de V
(ortogonais segundo o produto escalar h·, ·i). Encarando V como um espaço real, definamos o operador
linear J : V → V por J(v1 ⊕ v2 ) = i(v1 ⊕ (−v2 )), onde v1 ∈ V1 e v2 ∈ V2 . É claro que J 2 = − . A
multiplicação por escalares complexos x + iy, com x, y ∈ , fica 

(x + iy) · (v1 ⊕ v2 ) = x(v1 ⊕ v2 ) + yJ(v1 ⊕ v2 ) = ((x + iy)v1 ) ⊕ ((x − iy)v2 ) ,

ou seja, λ · (v1 ⊕ v2 ) = (λv1 ) ⊕ (λv2 ), para todos λ ∈ , v1 ∈ V1 e v2 ∈ V2 .


É também fácil constatar que para o produto escalar real ε(u, v) = Re(hu, vi) vale a relação
ε(u, Jv) = −ε(Ju, v) (para isso é essencial que V1 e V2 sejam ortogonais segundo h·, ·i).
O forma simplética real σ associada a ε pela parte I do Lema 2.1, página 132, é, tomando u = u 1 ⊕u2 ,
v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,

σ(u, v) := ε(Ju, v) = Im (hu1 , v1 i) − Im (hu2 , v2 i) ,

como facilmente se verifica.


Pela parte B da Proposição 2.6, página 133, hu, viJ, ε := ε(u, v) + iε(Ju, v) é um produto escalar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 2 139/1195

complexo. Por essa definição, tem-se, tomando u = u1 ⊕ u2 , v = v1 ⊕ v2 , com u1 , v1 ∈ V1 e u2 , v2 ∈ V2 ,

hu, viJ, ε = h(u1 ⊕ u2 ), (v1 ⊕ v2 )iJ, ε

= Re(hu1 , v1 i) + Re(hu2 , v2 i) + i (Re(hiu1 , v1 i) + Re(h − iu2 , v2 i))

= Re(hu1 , v1 i) + Re(hu2 , v2 i) + iIm(hu1 , v1 i) − iIm(hu2 , v2 i)

= hu1 , v1 i + hu2 , v2 i .

E. 2.45 Exercı́cio. Verifique também que hu, λ · viJ, ε = λhu, viJ, ε para todo λ ∈ . 6


Parte II

Tópicos de Álgebra Linear

140
Capı́tulo 3
Tópicos de Álgebra Linear I
Conteúdo

3.1 Rudimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141


3.2 Noções Básicas sobre o Espectro de uma Matriz . . . . . . . . . . . . . . . 144
3.2.1 O Traço de uma Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.3 Polinômios de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 O Teorema de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . 154
3.4 Matrizes Diagonalizáveis e o Teorema Espectral . . . . . . . . . . . . . . . 159
3.4.1 Diagonalização Simultânea de Matrizes . . . . . . . . . . . . . . . . . . . . . 171
3.5 Matrizes Auto-adjuntas, Normais e Unitárias . . . . . . . . . . . . . . . . 175
3.6 Matrizes Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
3.7 O Teorema de Decomposição de Jordan e a Forma Canônica de Matrizes 184
3.7.1 Resultados Preparatórios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
3.7.2 O Teorema da Decomposição de Jordan . . . . . . . . . . . . . . . . . . . . . 190
3.7.3 Matrizes Nilpotentes e sua Representação Canônica . . . . . . . . . . . . . . 193
3.7.4 A Forma Canônica de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . . . 197
3.8 Algumas Representações Especiais de Matrizes . . . . . . . . . . . . . . . 200
3.8.1 A Decomposição Polar de Matrizes . . . . . . . . . . . . . . . . . . . . . . . . 200
3.8.2 O Teorema da Triangularização de Schur . . . . . . . . . . . . . . . . . . . . 202
3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”) . . . . . . . . . 205

principal objetivo deste capı́tulo é apresentar a demonstração do Teorema Espectral para


matrizes diagonalizáveis, em particular, para matrizes auto-adjuntas (resultado de grande
relevância para a Mecânica Quântica) e a demonstração do Teorema de Decomposição de
Jordan para matrizes gerais. Sempre trabalharemos no contexto de espaços vetoriais de
dimensão finita n sobre o corpo dos complexos. A leitura deste capı́tulo pressupõe serem conhecidos
do leitor alguns conceitos básicos de Álgebra Linear, tais como o conceito de determinante de matrizes,
suas propriedades e métodos de cálculo. Este capı́tulo será continuado no Capı́tulo 4, página 210, onde
outros aspectos de álgebras de matrizes serão explorados.

3.1 Rudimentos

• Alguma Notação

141
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 142/1195

O conjunto de todas as matrizes m×n com entradas complexas será denotado aqui por Mat ( , m, n).
O conjunto de todas as matrizes quadradas n × n com entradas complexas será denotado simplesmente
por Mat ( , n).
Dado um conjunto de n números complexos α1 , . . . , αn , denotaremos por diag (α1 , . . . , αn ) a
matriz A ∈ Mat ( , n) cujos elementos Aij são definidos da seguinte forma:

αi , se i = j
Aij = .
0, se i 6= j

Uma tal matriz é dita ser diagonal pois apenas os elementos de sua diagonal principal são eventualmente
não-nulos. Na representação usual  
α1 · · · 0
 
A =  ... . . . ...  .
0 · · · αn
A mais popular dentre as matrizes diagonais é a matriz identidade, que denotaremos por nestas notas:
 
1 ··· 0
 
= diag (1, . . . , 1) =  ... . . . ...  .
0 ··· 1

Denotaremos por a, b a matriz a × b cujos elementos de matriz são todos nulos. Denotaremos por
l a matriz identidade l × l. Por vezes, quando não houver perigo de confusão, poderemos omitir os
sub-ı́ndices e escrever a, b simplesmente como e l simplesmente como .
Sejam x1 , . . . , xn vetores, representados na base canônica por vetores-coluna
 
xa1
 
xa =  ...  .
xan

Denotaremos por [[x1 , . . . , xn ]] a matriz n × n construı́da de forma que sua a-ésima coluna seja o
vetor-coluna xa , ou seja  
x11 · · · xn1
 
[[x1 , . . . , xn ]] =  ... . . . ...  . (3.1)
1 n
xn · · · x n

Essa notação é útil por permitir a seguinte observação. Seja B uma matriz qualquer. Então,

B[[x1 , . . . , xn ]] = [[Bx1 , . . . , Bxn ]]. (3.2)

Essa relação é provada observando-se a regra de multiplicação de matrizes: a a-ésima coluna de


B[[x1 , . . . , xn ]] é
B11 xa1 + · · · + B1n xan
.. , (3.3)
.
a a
Bn1 x1 + · · · + Bnn xn
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 143/1195

que vem a ser as componentes de Bxa , representado como vetor-coluna na base canônica.
Ainda sobre essa notação, vale a seguinte identidade útil, cuja demonstração (elementar) deixamos
como exercı́cio: se D = diag (d1 , . . . , dn ) é uma matriz diagonal, então

[[x1 , . . . , xn ]] D = [[d1 x1 , . . . , dn xn ]] . (3.4)

Seja V um espaço vetorial dotado de um produto escalar h·, ·i. Dizemos que dois vetores u e v são
perpendiculares (em relação ao produto escalar h·, ·i) se hu, vi = 0.
Se v1 , . . . , vk são vetores em um espaço vetorial V , denotamos por [v1 , . . . , vk ] o sub-espaço gerado
pelos vetores v1 , . . . , vk , ou seja, a coleção de todos os vetores que são combinações lineares dos vetores
v1 , . . . , vk :
[v1 , . . . , vk ] = {α1 v1 + · · · + αk vk , α1 , . . . , αk ∈ }.

Denotamos por [v1 , . . . , vk ]⊥ o subespaço de todos os vetores perpendiculares a todos os vetores


de [v1 , . . . , vk ]:

[v1 , . . . , vk ]⊥ = { w ∈ V | hw, (α1 v1 + · · · + αk vk )i = 0 para todos α1 , . . . , αk ∈ }.

• Um resultado útil

Mais abaixo usaremos o seguinte fato:


Proposição 3.1 Seja M ∈ Mat ( , n) uma matriz da seguinte forma
 
A k, n−k
M =  ,
B C

onde A é uma matriz k × k, B é uma matriz (n − k) × k e C é uma matriz (n − k) × (n − k). Então

det(M ) = det(A) det(C) .

Prova. O primeiro ingrediente da prova é a constatação que


    
A k, n−k A k, n−k k k, n−k
M =   =   
B C B n−k n−k, k C
   
A k, n−k k k, n−k k k, n−k
=     .
n−k, k n−k B n−k n−k, k C

E. 3.1 Exercı́cio. Verifique! 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 144/1195

Com isso, temos pela regra do determinante de um produto de matrizes que


     
A k, n−k k k, n−k k k, n−k
det(M ) = det   det   det   .
n−k, k n−k B n−k n−k, k C

Agora, pela regra de Laplace de cálculo de determinantes, é fácil constatar (faça-o!) que
   
A k, n−k k k, n−k
det   = det(A), det   = det(C) .
n−k, k n−k n−k, k C
e  
k k, n−k
det   = 1.
B n−k

Isso completa a prova.

3.2 Noções Básicas sobre o Espectro de uma Matriz

• O Espectro de uma Matriz

Seja A ∈ Mat ( , n) uma matriz n × n com entradas complexas. No estudo das propriedades de
A é de grande importância saber para quais números complexos λ a matriz λ − A é invertı́vel e para
quais não é.
Chegamos às seguintes importantes definições.

Definição. Um número complexo λ é dito ser um elemento do espectro de A ∈ Mat ( , n) se a matriz


λ − A não possuir uma inversa.

Definição. Um número complexo λ é dito ser um elemento do conjunto resolvente de A ∈ Mat ( , n)


se a matriz λ − A possuir uma inversa.
Em outras palavras, o espectro de A ∈ Mat ( , n), denotado por σ(A), é o conjunto de todos os
λ ∈ para os quais a matriz λ − A não tem inversa.
O conjunto resolvente de A ∈ Mat ( , n), denotado por ρ(A), é o conjunto de todos os λ ∈ para
os quais a matriz λ − A tem inversa.
É evidente que σ(A) e ρ(A) são conjuntos complementares, ou seja, σ(A) ∩ ρ(A) = ∅ mas σ(A) ∪
ρ(A) = .
Um fato importante é que λ −A é não-invertı́vel se e somente se det(λ −A) = 0. Assim, um número
complexo λ é um elemento do espectro de uma matriz A se e somente se for tal que det(λ − A) = 0.
Chegamos ao importante conceito de polinômio caracterı́stico de uma matriz.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 145/1195

• O Polinômio Caracterı́stico de uma Matriz

Seja A ∈ Mat ( , n) uma matriz cujos elementos de matriz são Aij . Para λ ∈ a expressão
 
λ − A11 −A12 ··· −A1n
 −A21 λ − A22 ··· −A2n 
 
det(λ − A) = det  .. .. .. .. 
 . . . . 
−An1 ··· · · · λ − Ann

define, como facilmente se constata pelos métodos usuais e bem conhecidos de cálculo de determinantes,
um polinômio de grau n na variável λ, com coeficientes complexos, os quais dependem dos elementos
de matriz Aij de A. Esse polinômio é denominado polinômio caracterı́stico de A e desempenha um
papel muito importante no estudo de propriedades de matrizes.
Denotaremos por vezes por pA o polinômio caracterı́stico de uma matriz A ∈ Mat ( , n). Como
todo polinômio complexo de grau n, pA possui n raı́zes, não necessariamente distintas no plano com-
plexo (teorema fundamental da álgebra). As raı́zes do polinômio caracterı́stico p A são denominadas
autovalores da matriz A. Assim, o espectro de uma matriz A coincide com o conjunto de seus auto-
valores. O estudo de autovalores de matrizes é de grande importância na Álgebra Linear e em suas
aplicações à Teoria das Equações Diferenciais, à Geometria, à Teoria dos Sistemas Dinâmicos e à Fı́sica,
especialmente à Fı́sica Quântica.
Seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada
qual com multiplicidade a1 , . . . , ar , respectivamente, ou seja, cada αi é uma raiz de ordem ai ∈ do 

polinômio caracterı́stico de A:
r
Y
q(λ) = det(λ − A) = (λ − αi )ai .
i=1

A quantidade ai é um número inteiro positivo e é denominado multiplicidade algébrica do autovalor α i .


Note-se que como o número de raı́zes de pA (contando as multiplicidades) é exatamente igual a seu
grau, segue facilmente que a seguinte relação é válida:
r
X
ai = n, (3.5)
i=1

ou seja, a soma das multiplicidades algébricas dos autovalores de uma matriz A ∈ Mat ( , n) é n.
Uma conseqüência elementar disso é a seguinte proposição útil:
Proposição 3.2 Seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente. Então
r
Y
det(A) = (αk )ak . (3.6)
k=1

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 146/1195

Qr ak
q(λ) = det(λ −A) =
Prova. Por definição, o polinômio caracterı́stico de A éQ k=1 (λ−αk ) . Tomando
n r ak n
λ = 0 e usando (3.5), teremos que det(−A) = (−1) k=1 (αk ) . Porém, det(−A) = (−1) det(A) e a
proposição está demonstrada.

Essa proposição diz que o determinante de uma matriz é o produto de seus autovalores, incluindo
a multiplicidade algébrica.

• Matrizes Similares. Transformações de Similaridade

Duas matrizes A ∈ Mat ( , n) e B ∈ Mat ( , n) são ditas similares se existir uma matriz invertı́vel
P ∈ Mat ( , n) tal que P −1 AP = B.
Para uma matriz invertı́vel P ∈ Mat ( , n) fixa, a transformação que leva cada matriz A ∈
Mat ( , n) à matriz P −1 AP é denominada transformação de similaridade.
Sabemos que o determinante é invariante por transformações de similaridade, pois para toda matriz
A vale det(A) = det(P −1 AP ).
O determinante não é o único objeto associado a uma matriz que é invariante por transformações
de similaridade. O polinômio caracterı́stico e, portanto, o conjunto de seus autovalores (incluindo as
multiplicidades), também o é. Isso pode ser visto da seguinte forma.
Sejam A e B duas matrizes similares com B = P −1 AP para algum P . O polinômio caracterı́stico
de A é pA (λ) = det(λ − A) e o de B é pB (λ) = det(λ − B). Pela invariância do determinante vale

pA (λ) = det(λ − A) = det(P −1 (λ − A)P ) = det(λ − P −1 AP ) = det(λ − B) = pB (λ). (3.7)

Assim, A e B têm o mesmo polinômio caracterı́stico e, portanto, seus autovalores são iguais, incluindo
suas multiplicidades.

• Comentário sobre Matrizes Bijetoras

Em parte do que segue estaremos implicitamente usando a seguinte proposição:


Proposição 3.3 Uma matriz A ∈ Mat ( , n) é bijetora se e somente se Av = 0 valer apenas para
v = 0. 2

Prova. Se A é bijetora, então existe A−1 . Logo, aplicando-se A−1 à esquerda na igualdade Av = 0,
obtem-se v = 0. Vamos agora provar a recı́proca: vamos supor que Av = 0 vale apenas para v = 0 e
provar que A é injetora e sobrejetora e, portanto, bijetora.
Prova-se que A é injetora por absurdo. Se A não é injetora, então, existem vetores x e y com x 6= y
mas com Ax = Ay. Como A é linear, isso implica A(x − y) = 0. Pela hipótese que Av = 0 vale apenas
para v = 0, segue que x = y, uma contradição.
Para provarmos que A é sobrejetora procedemos da seguinte forma. Seja {e 1 , . . . , en } uma base
em n . Vamos primeiramente mostrar que {Ae1 , . . . , Aen } é um conjunto linearmente independente
de vetores em n (e, portanto, uma base em n ). Suponhamos que assim não o seja e que existam
números complexos α1 , . . . , αn , não todos nulos, tais que α1 Ae1 + · · · + αn Aen = 0. Pela linearidade
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 147/1195

de A, segue que A (α1 e1 + · · · + αn en ) = 0. Novamente, pela hipótese que Av = 0 vale apenas para
v = 0, segue que α1 e1 + · · · + αn en = 0. Isso, porém, diz que os vetores {e1 , . . . , en } são linearmente
dependentes, o que é absurdo.
Logo, {Ae1 , . . . , Aen } é um conjunto de n vetores linearmente independente em n e, portanto, é
uma base nesse espaço. Assim, qualquer x ∈ n pode ser escrito como uma combinação linear tal como
x = β1 Ae1 + · · · + βn Aen = A (β1 e1 + · · · + βn en ). Isso mostra que x está na imagem de A. Como x é
arbitrário, segue que A é sobrejetora.

Um corolário evidente é o seguinte:


Corolário 3.1 Se uma matriz A ∈ Mat ( , n) não é bijetora (ou seja, se não possui inversa), então
existe um vetor não-nulo v tal que Av = 0. 2

• Autovetores

Seja λ0 um autovalor de uma matriz A. Então λ0 − A não tem inversa. Logo, como V = n é um
espaço vetorial de dimensão finita, existe pelo Corolário 3.1 acima pelo menos um vetor não-nulo v tal
que (λ0 − A)v = 0, ou seja, Av = λ0 v. Chegamos a mais uma importante definição:

Definição. Um vetor não-nulo v é dito ser um autovetor de uma matriz A se houver λ 0 ∈ tal que

Av = λ0 v.

6 0 então λ0 − A não tem inversa.


Note-se que se um tal λ0 satisfaz a relação acima para algum v =
λ0 é então um elemento do espectro de A, ou seja, um autovalor. λ0 é dito ser o autovalor associado
ao autovetor v.
Uma observação importante é a seguinte. Sejam v1 e v2 dois autovetores aos quais está associado o
mesmo autovalor, ou seja, Av1 = λ0 v1 e Av2 = λ0 v2 . Então, para quaisquer números complexos c1 e
c2 o vetor v = c1 v1 + c2 v2 também satisfaz Av = λ0 v. De fato,

Av = A(c1 v1 + c2 v2 ) = c1 Av1 + c2 Av2 = c1 λ0 v1 + c2 λ0 v2 = λ0 (c1 v1 + c2 v2 ) = λ0 v.

A conclusão a que se chega é que, para cada autovalor αi de uma matriz A, a coleção formada pelo
vetor nulo e todos os autovetores de A com autovalor αi é um subespaço vetorial. Vamos denotar esse
subespaço por E(αi ) ou simplesmente Ei .
Se αi e αj são autovalores distintos de A então os sub-espaços de autovetores E(α i ) e E(αj ) têm
em comum apenas o vetor nulo, ou seja, E(αi ) ∩ E(αj ) = {0}. Isso é fácil de provar, pois se w é tal
que Aw = αi w e Aw = αj w então, subtraindo-se uma relação da outra terı́amos 0 = (αi − αj )w, que
implica w = 0, já que αi 6= αj .
Essas considerações nos levam a mais um conceito importante: o de multiplicidade geométrica de
um autovalor.

• A Multiplicidade Geométrica de um Autovalor


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 148/1195

Além do conceito de multiplicidade algébrica de um autovalor, há também o conceito de multipli-


cidade geométrica de um autovalor, do qual trataremos agora.
Como antes seja A ∈ Mat ( , n) uma matriz e sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores
distintos, cada qual com multiplicidade algébrica a1 , . . . , ar , respectivamente.
Acima introduzimos os sub-espaços Ei = E(αi ), definidos como sendo os sub-espaços gerados por
todos os autovetores que têm αi como autovalor. A multiplicidade geométrica de um autovalor αi é
definida como sendo a dimensão do subespaço Ei , ou seja, como sendo o número máximo de autovetores
linearmente independentes com autovalor αi .
É importante advertir de imediato o leitor do fato que a multiplicidade algébrica e multiplicidade
geométrica de autovalores nem sempre coincidem. Isso é bem ilustrado no seguinte exemplo simples.
Seja  
0 1
A = .
0 0
Seu polinômio caracterı́stico é
 
λ −1
pa (λ) = det(λ − A) = det = λ2 .
0 λ
Assim, seu (único) autovalor é 0 com multiplicidade algébrica 2. Quais os seus autovetores? São aqueles
vetores que satisfazem Av = 0. Denotando v como um vetor coluna
 
a
v = ,
b
a relação Av = 0 significa     
0 1 a b
= = 0.
0 0 b 0
Logo b = 0 e todos os autovetores são da forma
 
a
v = ,
0

a ∈ . É evidente que o subespaço gerado pelos autovetores com autovalor zero tem dimensão 1.
Assim, a multiplicidade algébrica do autovalor zero é 2 mas a sua multiplicidade geométrica é 1.

• A Multiplicidade Algébrica e a Multiplicidade Geométrica

Apesar de a multiplicidade algébrica e a multiplicidade geométrica de um autovalor nem sempre


coincidirem, há uma relação de ordem entre eles. A saber, é possı́vel mostrar que a multiplicidade
geométrica de um autovalor é sempre menor ou igual à sua multiplicidade algébrica.
Isso segue das seguintes considerações. Seja λ0 um autovalor de A ∈ Mat ( , n) e E(λ0 ) o subespaço
gerado pelos autovetores com autovalor λ0 , e cuja dimensão denotaremos por d. Vamos escolher uma
base v1 , . . . , vd , vd+1 , . . . , vn onde os primeiros d vetores são elementos de E(λ0 ). Nessa base a matriz
A tem a forma  
D d, n−d
,
A3 A4
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 149/1195

 

onde D é uma matriz d × d diagonal D = diag λ0 , . . . , λ0 , A4 é uma matriz (n − d) × (n − d) e


| {z }
d vezes
A3 é uma matriz (n − d) × d. Alguns segundos (minutos?) de meditação, usando pela Proposição 3.1
da página 143, nos levam a concluir que o polinômio caracterı́stico de A é dado por
det(λ − A) = (λ − λ0 )d det(λ − A4 ).
Isso mostra que a multiplicidade algébrica de λ0 é pelo menos igual a d, sua multiplicidade geométrica.

E. 3.2 Exercı́cio. Realize a meditação sugerida acima. 6

• Matrizes Simples

O que foi exposto acima leva-nos naturalmente ao conceito de matriz simples que, como veremos
mais adiante, está intimamente ligado ao problema da diagonalizabilidade de matrizes.

Definição. Uma matriz A ∈ Mat ( , n) é dita ser simples se cada autovalor de A tiver uma multipli-
cidade algébrica igual à sua multiplicidade geométrica.
Deixamos para o leitor provar o seguinte fato: toda matriz diagonal é simples.

E. 3.3 Exercı́cio. Prove isso. 6

Adiante faremos uso da seguinte proposição.


Proposição 3.4 Se A ∈ Mat ( , n) é uma matriz simples e P ∈ Mat ( , n) é invertı́vel então P −1 AP
é também simples. 2

Prova. Já vimos (página 146) que A e P −1 AP têm o mesmo polinômio caracterı́stico e, portanto,
os mesmos autovalores, incluindo suas multiplicidades algébricas. Seja λ0 um desses autovalores com
multiplicidade algébrica d e sejam v1 , . . . , vd um conjunto de d autovetores linearmente indepen-
dentes de A. Os vetores P −1 v1 , . . . , P −1 vd são autovetores de P −1 AP com autovalor λ0 . De fato,
(P −1 AP ) P −1 vi = P −1 Avi = λ0 P −1 vi . Fora isso os d vetores P −1 v1 , . . . , P −1 vd são também linear-
mente independentes. Para ver isso, suponha houvesse constantes c1 , . . . , cd tais que
c1 P −1 v1 + · · · + cd P −1 vd = 0.
Multiplicando-se à esquerda por P terı́amos c1 v1 + · · · + cd vd = 0. Como v1 , . . . , vd são linearmente
independentes as constantes ci têm que ser todas nulas, provando que os vetores P −1 v1 , . . . , P −1 vd
são também linearmente independentes.
Isso prova que a multiplicidade geométrica do autovalor λ0 é pelo menos igual a d. Como ela não
pode ser maior que d (página 148), conclui-se que é igual a d provando a proposição.

A seguinte proposição elementar é por vezes útil para verificar se uma matriz é simples.
Proposição 3.5 Se todos os n autovalores de uma matriz A ∈ Mat ( , n) forem distintos então A é
simples. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 150/1195

Prova. Se os autovalores de A são α1 , . . . , αn , todos distintos, então cada um tem multiplicidade


algébrica igual a 1. Forçosamente, sua multiplicidade geométrica é também igual a 1, já que a multi-
plicidade geométrica não pode ser maior que a algébrica.

Ressaltemos que a recı́proca da proposição acima não é verdadeira: uma matriz pode ser simples e
possuir autovalores com multiplicidade algébrica maior que 1.

3.2.1 O Traço de uma Matriz

• O Traço de uma Matriz

Seja A ∈ Mat ( , n), cujos elementos de matriz são Aij , i, j = 1, . . . n. Sejam λ1 , . . . , λn seus n
autovalores (não necessariamente distintos e repetidos conforme sua multiplicidade).
Definimos o traço de A como sendo a soma de seus n autovalores:
n
X
Tr (A) := λa .
a=1

Uma conclusão que se tira dessa definição é que se duas matrizes são similares, então ambas têm o
mesmo traço, ou seja, para qualquer matriz invertı́vel P e qualquer matriz A vale

Tr P −1 AP = Tr (A). (3.8)

A razão reside na observação feita acima que duas matrizes similares têm o mesmo conjunto de auto-
valores e, portanto, o mesmo traço.
Temos a seguinte e importante proposição:
Proposição 3.6 O traço de uma matriz A ∈ Mat ( , n) é igual a soma dos elementos de sua diagonal
principal, ou seja,
Xn X n
Tr (A) := λa = Aaa . (3.9)
a=1 a=1
2

Prova. A demonstração consistirá em se calcular o coeficiente de λn−1 no polinômio caracterı́stico p(λ)


de A de dois modos diferentes. O polinômio caracterı́stico de A é
 
λ − A11 −A12 · · · −A1n
 −A21 λ − A22 · · · −A2n 
 
p(λ) = det(λ − A) = det  .. .. . .. .
.. .
 . . 
−An1 ··· · · · λ − Ann
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 151/1195

P
As técnicas de cálculo de determinantes nos dizem que o coeficiente de λn−1 é − ni=1 Aii . Por exemplo,
para o caso n = 2
 
λ − A11 −A12
p(λ) = det = λ2 − λ(A11 + A22 ) + A11 A22 − A12 A21 .
−A21 λ − A22

E. 3.4 Exercı́cio. Convença-se da veracidade da afirmativa acima para o caso de n arbitrário. 6

Por outro lado, os autovalores de A, λ1 , . . . , λn , são por definição as raı́zes do polinômio carac-
terı́stico. Logo,
p(λ) = (λ − λ1 )(λ − λ2 ) · · · (λ − λn ).
Expandindo-se essa expressão, conclui-se que o coeficiente de λn−1 é

−(λ1 + · · · + λn ) = −Tr (A).

E. 3.5 Exercı́cio. Certo? 6

Do exposto acima, conclui-se que o coeficiente de λn−1 no polinômio caracterı́stico de A é


n
X
− Aii = −(λ1 + · · · + λn ) = −Tr (A),
i=1

o que termina a prova.

Essa proposição leva a duas outras propriedades igualmente importantes: a linearidade do traço e
a chamada propriedade cı́clica do traço.
Proposição 3.7 (A Linearidade do Traço) Sejam A, B ∈ Mat ( , n) e α, β ∈ . Então

Tr (αA + βB) = αTr (A) + βTr (B) .

Prova. A prova é imediata por (3.9).

É curioso notar que a linearidade do traço vista acima é evidente por (3.9), mas não é nem um
pouco evidente pela definição do traço de uma matriz como soma de seus autovalores, pois os auto-
valores individuais de αA + βB não são em geral combinações lineares dos autovalores de A e de B,
especialmente no caso em que A e B não comutam.
Proposição 3.8 (A Propriedade Cı́clica do Traço) Sejam A, B ∈ Mat ( , n). Então

Tr (AB) = Tr (BA).

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 152/1195

Prova. Pelo que vimos acima, tem-se


n n n
! n n
! n
X X X X X X
Tr (AB) = (AB)ii = Aij Bji = Bji Aij = (BA)jj = Tr (BA).
i=1 i=1 j=1 j=1 i=1 j=1

Na segunda e quarta igualdades usamos a regra de produto de matrizes. Na terceira igualdade apenas
trocamos a ordem das somas.

Novamente vale aqui o comentário que a propriedade cı́clica expressa na Proposição 3.8 não é
nada evidente pela definição do traço de uma matriz como soma de seus autovalores. Os autovalores
individuais de produto de matrizes AB não são em geral iguais aos do produto BA.
Mais adiante, demonstraremos uma outra propriedade importante do traço que o relaciona com
o determinante,
 a saber, provaremos que para qualquer matriz A, real ou complexa, n × n, tem-se
A Tr (A)
det e = e . Vide Proposição 4.7, página 222.

3.3 Polinômios de Matrizes

• Polinômios de Matrizes

Seja p um polinômio de grau m:


p(x) = am xm + · · · + a1 x + a0
com x ∈ , aj ∈ e am 6= 0. Para uma matriz A ∈ Mat ( , n) definimos o polinômio matricial p(A)
por
p(A) = am Am + · · · + a1 A + a0 .
Obviamente p(A) é também uma matriz n × n com entradas complexas.
Se as raı́zes do polinômio p forem α1 , . . . , αr , com multiplicidades m1 , . . . , mr , respectivamente,
então r
Y
p(x) = am (x − αj )mj ,
j=1

para todo x ∈ . É fácil provar, então, que


r
Y
p(A) = am (A − αj )mj .
j=1

E. 3.6 Exercı́cio. Justifique isso. 6

E. 3.7 Exercı́cio. Mostre que se D = diag (d1 , . . . , dn ) e q é um polinômio então


q(D) = diag (q(d1 ), . . . , q(dn )) .
6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 153/1195

E. 3.8 Exercı́cio. Suponha que A = P −1 DP , onde D = diag (d1 , . . . , dn ). Se q é um polinômio


mostre que
q(A) = P −1 q(D)P = P −1 diag (q(d1 ), . . . , q(dn )) P.
6

• O Polinômio Mı́nimo

Vamos mostrar que para cada matriz A ∈ Mat ( , n) sempre existe pelo menos um polinômio p
com a propriedade que p(A) = .
Para tal notemos primeiramente que Mat ( , n) é um espaço vetorial complexo de dimensão n 2 .
De fato toda a matriz A ∈ Mat ( , n), cujos elementos de matriz são Aij ∈ pode ser trivialmente
escrita na forma n Xn
X
A = Aab E ab
a=1 b=1

onde E ab ∈ Mat ( , n) são matrizes cujos elementos de matriz são (E ab )ij = δi,a δj,b , ou seja, todos os
elementos de matriz de E ab são nulos, exceto o elemento a, b, que vale 1.

E. 3.9 Exercı́cio. Certo? 6

Assim, vemos que as matrizes {E ab , a = 1, . . . , n, b = 1, . . . , n} formam uma base em Mat ( , n),


mostrando que Mat ( , n) é um espaço vetorial de dimensão n2 . Isto posto, temos que concluir que
qualquer conjunto de mais de n2 matrizes não-nulas em Mat ( , n) é linearmente dependente.
Se uma das matrizes Ak , k = 1, . . . , n2 , for nula, digamos Aq = , então p(x) = xq , tem
a propriedade que p(A) = 0, que é o que desejamos provar. Se, por outro lado, as matrizes A k ,
2
k = 1, . . . , n2 , são todas não-nulas, então conjunto { , A, A2 , . . . , An } é linearmente dependente,
pois possui n2 + 1 elementos. Portanto, existem constantes c0 , . . . , cn2 , nem todas nulas, tais que
2
c 0 + c 1 A + c 2 A 2 + · · · + c n2 A n = .

Como o lado esquerdo é um polinômio em A, fica provada nossa afirmação que toda matriz possui um
polinômio que a anula. Chegamos às seguintes definições:

Definição. Polinômio Mônico. Um polinômio p : → de grau n é dito ser mônico se for da




forma
p(x) = xn + an−1 xn−1 + · · · + a1 x + a0 ,
ou seja, se o coeficiente do monômio de maior grau (no caso, xn ) for igual a 1. Note-se que polinômios
mônicos nunca são identicamente nulos.

Definição. Polinômio Mı́nimo de uma Matriz. Dada uma matriz A ∈ Mat ( , n), o polinômio
mı́nimo de A é o polinômio mônico de menor grau que é anulado em A, ou seja, é o polinômio não-nulo
de menor grau da forma
M (x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M (A) = .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 154/1195

As considerações acima mostram que um tal polinômio sempre existe e que tem grau no máximo
igual a n2 . Essa é, no entanto, uma estimativa exagerada para o grau do polinômio mı́nimo de uma
matriz A ∈ Mat ( , n) pois, como veremos abaixo, o polinômio mı́nimo de uma matriz A ∈ Mat ( , n)
tem, na verdade, grau menor ou igual a n. Isso é um corolário de um teorema conhecido como Teorema
de Hamilton-Cayley, que demonstraremos abaixo.
Finalizamos com um teorema básico que garante a unicidade do polinômio mı́nimo e estabelece sua
relação com outros polinômios que anulam A.
Teorema 3.1 O polinômio mı́nimo M de uma matriz A ∈ Mat ( , n) é único. Fora isso se P é um
polinômio não identicamente nulo que também se anula em A, ou seja, P (A) = , então P é divisı́vel
por M , ou seja, existe um polinômio F tal que P (x) = F (x)M (x) para todo x ∈ . 2

Demonstração. Dada uma matriz A ∈ Mat ( , n), o polinômio mı́nimo de A é o polinômio de menor
grau da forma
M (x) = xm + am−1 xm−1 + · · · + a1 x + a0
para o qual M (A) = . Vamos supor que haja outro polinômio N da forma
N (x) = xm + bm−1 xm−1 + · · · + b1 x + b0
para o qual N (A) = . Subtraindo um do outro terı́amos o polinômio
(M − N )(x) = (am−1 − bm−1 )xm−1 + · · · + (a1 − b1 )x + (a0 − b0 ),
que tem grau menor ou igual a m − 1 e para o qual vale (M − N )(A) = M (A) − N (A) = − = .
Como, por hipótese, não há polinômios não-nulos com grau menor que o de M que anulam A, isso é
uma contradição, a menos que M = N . Isso prova a unicidade.
Seja P um polinômio não identicamente nulo para o qual valha P (A) = . Se p é o grau de P ,
deve-se ter p ≥ m, onde m é o grau do polinômio mı́nimo de A. Logo, pelos bem conhecidos fatos sobre
divisão de polinômios, podemos encontrar dois polinômios F e R, cujos graus são, respectivamente
p − m e r com 0 ≤ r < m, tais que
P (x) = F (x)M (x) + R(x),
para todo x ∈ . Ora, isso diz que
P (A) = F (A)M (A) + R(A).
Como P (A) = e M (A) = , isso implica R(A) = . Como, porém, o grau de R é menor que m,
tem-se que R deve ser identicamente nulo. Isso completa a prova.

3.3.1 O Teorema de Hamilton-Cayley


Vamos aqui demonstrar um teorema sobre matrizes que será usado mais adiante de várias formas, em
particular no Teorema Espectral, o chamado Teorema de Hamilton1 -Cayley2 . Esse teorema fornece
1
Sir William Rowan Hamilton (1805-1865).
2
Arthur Cayley (1821-1895).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 155/1195

também, como veremos, um método eficiente para o cálculo da inversa de matrizes. Cayley e Hamilton
demonstraram casos particulares do teorema para matrizes 2 × 2, 3 × 3 (Cayley) e 4 × 4 (Hamilton).
A primeira demonstração geral é devida a Frobenius3 . Cayley, Hamilton e Sylvester4 estão entre os
fundadores modernos da teoria das matrizes5 .
Teorema 3.2 (Teorema de Hamilton-Cayley) Seja A ∈ Mat ( , n) e seja q(x) = det(x − A) o
polinômio caracterı́stico de A (e que tem grau n). Então q(A) = . 2

Prova. Desejamos mostrar que para todo vetor y ∈ n vale q(A)y = 0. Se y = 0 isso é trivial. Se
y 6= 0 mas com Ay = 0 então
q(A)y = (−1)n λ1 · · · λn y,
onde λ1 , · · · , λn são os autovalores de A. Mas a própria relação Ay = 0 indica que um dos autovalores
é igual a zero. Logo q(A)y = 0. Mais genericamente, se y 6= 0 e {y, Ay} não for um conjunto de vetores
linearmente independentes, então Ay e y são proporcionais, ou seja, existe um autovalor, digamos, λ n
tal que Ay = λn y. Nesse caso também tem-se
n−1
!
Y
q(A)y = (A − λi ) (A − λn )y = 0,
i=1

pois (A − λn )y = Ay − λn y = 0.
Seja então y daqui por diante um vetor fixado, não-nulo e tal que {y, Ay} é um conjunto de dois
vetores não-nulos e linearmente independentes.
n
Como o espaço tem dimensão n, nem todos os conjuntos de vetores da forma

{y, Ay, A2 y, . . . , Aj y}

são formados por vetores não-nulos linearmente independentes. Por exemplo, se j ≥ n, o conjunto
{y, Ay, A2 y, . . . , Aj y} não pode ser formado por vetores não-nulos linearmente independentes pois
seu número excede a dimensão do espaço.
Seja k o maior número tal que {y, Ay, A2 y, . . . Ak−1 y} é um conjunto de vetores não-nulos e
linearmente independentes. É claro que 1 < k ≤ n.
É claro também, pela definição de k, que

Ak y = hk y + hk−1 Ay + · · · + h1 Ak−1 y, (3.10)

para constantes h1 , . . . , hk .
Vamos denominar z1 = Ak−1 y, z2 = Ak−2 y, . . . , zk = y, ou seja, zj = Ak−j y, j = 1, . . . , k, todos
não-nulos por hipótese. Caso k < n, escolhamos ainda vetores zk+1 , . . . , zn de modo que o conjunto
{z1 , . . . , zn } forme uma base em n .
Coloquemo-nos agora a seguinte questão: qual é a forma da matriz A nessa base? No sub-espaço
gerado pelos vetores {z1 , . . . , zk } tem-se o seguinte: para i = 2, . . . , k vale Azi = zi−1 . Além disso, por
3
Ferdinand Georg Frobenius (1849-1917)
4
James Joseph Sylvester (1814-1897).
5
Muitos certamente se surpreenderão em saber que Cayley e Sylvester eram originalmente advogados.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 156/1195

(3.10), Az1 = h1 z1 + h2 z2 + · · · + hk zk . Isso mostra que o subespaço gerado pelos vetores {z1 , . . . , zk }
é invariante pela ação de A e o operador linear A, no mesmo subespaço, tem a forma
 
h1 1 0 . . . 0 0
 .. 
 h2 0 1 . 0 0
 . .. . . . . . . .. 
 .. . . . . .
 . (3.11)
 . 
hk−2 0 0 . . 1 0
 
hk−1 0 0 . . . 0 1
hk 0 0 . . . 0 0

E. 3.10 Exercı́cio. Justifique isso. 6

Se designarmos por P o operador que realiza essa mudança de base, o operador linear A na base
{z1 , . . . , zn } tem, portanto, a forma A0 = P −1 AP , onde
 
0 A1 k, n−k
A = ,
A2 A3
onde A1 é a matriz k×k definida em (3.11), A2 é uma matriz (n−k)×k e A3 é uma matriz (n−k)×(n−k).
Não nos será necessário especificar os elementos das matrizes A2 e A3 .
Outros segundos (minutos?) de meditação, usando a Proposição 3.1 da página 143, nos levam a
concluir que o polinômio caracterı́stico q pode ser escrito como
q(x) = det(x − A0 ) = det(x − A1 ) det(x − A3 ) .
(O estudante deve recordar-se que as matrizes A e A0 , por serem similares, têm o mesmo polinômio
caracterı́stico).
Vamos denominar qk (x) = det(x − A1 ) e rk (x) = det(x − A3 ). Claramente, q(x) = qk (x)rk (x).
Não será necessário, no que segue, calcular rk , mas precisaremos calcular qk . Como esse pequeno
resultado tem interesse independente, vamos formulá-lo como um lema, para futura referência.
Lema 3.1 Para h1 , . . . , hk ∈ , tem-se
 
x − h1 −1 0 . . . 0 0
 . 
 −h2 x −1 . . 0 0
 . .. .. .. .. 
 .. . . . . 

qk (x) := det   = xk − (h1 xk−1 + · · · + hk−1 x + hk ) . (3.12)
. 
 −hk−2 0 0 . . −1 0 
 
 −hk−1 0 0 . . . x −1
−hk 0 0 ... 0 x
2

Prova. A prova é feita por indução. Para k = 2 vale


 
x − h1 −1
q2 (x) = det = x2 − h1 x − h2 .
−h2 x
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 157/1195

Para k > 2, tem-se, pelas bem conhecidas regras de cálculo de determinantes,


   
x − h1 −1 0 0 x − h1 −1 0 0
 ..   .. 
 −h2 x . 0 0  −h2 x 0. 0
   . 
qk (x) = x det  ... .. ..
. .  + 1 det  .. .. ..
. . 
   
 −hk−2 0 x −1  −hk−2 0 x −1
−hk−1 0 ... 0 x (k−1)×(k−1) −hk 0 ... 0 0 (k−1)×(k−1)
 
−1 0 ... 0 0
 . 
x −1 . . 0 0
 .. .. .. . 
= xqk−1 (x) + (−1) k−1+1
(−hk ) det 
 . . . .. 

 .. 
0 0 . −1 0 
0 0 . . . x −1 (k−2)×(k−2)

= xqk−1 (x) + (−1)k+1 hk (−1)k−2

= xqk−1 (x) − hk (3.13)

E. 3.11 Exercı́cio. Complete os detalhes. 6

Assim, se pela hipótese indutiva qk−1 é da forma

qk−1 (x) = xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 ),

segue de (3.13) que

qk (x) = x(xk−1 − (h1 xk−2 + · · · + hk−2 x + hk−1 )) − hk

= xk − (h1 xk−1 + · · · + hk−2 x2 + hk−1 x + hk ) (3.14)

como querı́amos provar.

Retomando, temos que q(A)y = qk (A)rk (A)y = rk (A)qk (A)y. Sucede, porém, que qk (A)y = 0. De
fato, pelo cômputo acima,

qk (A)y = Ak y − h1 Ak−1 y − · · · − hk−2 A2 y − hk−1 Ay − hk y

que é igual a zero por (3.10). Logo q(A)y = 0. Como y foi escolhido arbitrário, segue que q(A) = ,
demonstrando o Teorema de Hamilton-Cayley, Teorema 3.2.

• O Teorema de Hamilton-Cayley e a Inversa de Matrizes


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 158/1195

O Teorema de Hamilton-Cayley fornece-nos um método de calcular a inversa de matrizes não-


singulares. De fato, se q(x) = xn + an−1 xn−1 + · · · + a1 x + a0 é o polinômio caracterı́stico de uma matriz
não-singular A, então o Teorema de Hamilton-Cayley afirma que
An + an−1 An−1 + · · · + a1 A + a0 = ,
ou seja, 
A An−1 + an−1 An−2 + · · · + a2 A + a1 = −a0 .
Isso tem por implicação
1 
A−1 = − An−1 + an−1 An−2 + · · · + a2 A + a1 .
a0

Nota. Usando a definição de polinômio caracterı́stico q(x) = det(x − A), é evidente (tomando-se
x = 0) que a0 = (−1)n det(A). Assim, a0 =6 0 se e somente se A for não-singular.
Em muitos casos é bastante eficiente calcular A−1 usando essa fórmula, pois a mesma envolve poucas
operações algébricas em comparação com outros métodos, o que é uma vantagem para valores grandes
de n. Compare, por exemplo, com a regra de Laplace6 para o cálculo de A−1 , que envolve o cômputo
de n2 + 1 determinantes de sub-matrizes de A.

E. 3.12 Exercı́cio. Use esse método para calcular a inversa das suas matrizes não-singulares favoritas.
6

• De volta ao polinômio mı́nimo

O Teorema 3.1, página 154, e o Teorema de Hamilton-Cayley, juntos, permitem-nos precisar algo a
respeito da forma geral do polinômio mı́nimo de uma matriz.
Se A ∈ Mat ( , n) tem r autovalores distintos α1 , . . . , αr , cada qual com multiplicidade algébrica
a1 , . . . , ar , respectivamente, então seu polinômio caracterı́stico q é da forma
r
Y
q(x) = (x − αk )ak .
k=1

Pelo Teorema de Hamilton-Cayley, q(A) = 0 e, portanto, pelo Teorema 3.1, M , o polinômio mı́nimo
de A, divide q. Logo, M deve ser da forma
s
Y
M (x) = (x − αkl )bl , (3.15)
l=1

onde s ≤ r, {αk1 , . . . , αks } ⊂ {α1 , . . . , αr } e onde 0 < bl ≤ akl para todo 1 ≤ l ≤ s. Seja agora,
porém, vm 6= 0 um autovetor de A com autovalor αm Segue do fato que M (A) = 0 que
s
Y s
Y
0 = M (A)vm = (A − αkl )bl vm = (αm − αkl )bl vm .
l=1 l=1

6
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 159/1195

Q
Logo, sl=1 (αm − αkl )bl = 0 e isso implica que αm ∈ {αk1 , . . . , αks }. Como isso vale para todo
1 ≤ m ≤ r, segue que {α1 , . . . , αr } ⊂ {αk1 , . . . , αks } e, portanto, {α1 , . . . , αr } = {αk1 , . . . , αks }.
Nossa conclusão é resumida no seguinte:
Proposição 3.9 Seja A ∈ Mat ( , n) com r autovalores distintos α1 , . . . , αr ∈ , cada qual com
multiplicidade algébrica a1 , , . . . , ar , sendo 1 ≤ r ≤ n. Então M , o polinômio mı́nimo de A, é da
forma
Yr
M (x) = (x − αk )bk , (3.16)
k=1

∀x ∈ , onde 0 < bl ≤ al para todo 1 ≤ l ≤ r. Em particular, se A ∈ Mat ( , n) tiver exatamente n


autovalores distintos, teremos que bl = al = 1 para todo 1 ≤ l ≤ n, e
n
Y
M (x) = q(x) = (x − αk ),
k=1

∀x ∈ . 2

3.4 Matrizes Diagonalizáveis e o Teorema Espectral

• Matrizes Diagonalizáveis

Vamos agora apresentar uma noção intimamente ligada à de matriz simples introduzida acima
(página 149), mas de importância maior.

Definição. Uma matriz A ∈ Mat ( , n) é dita ser diagonalizável se existir uma matriz invertı́vel
P ∈ Mat ( , n) tal que P −1 AP é uma matriz diagonal, ou seja,
 
d1 · · · 0
 
P −1 AP = D = diag (d1 , . . . , dn ) =  ... . . . ...  .
0 · · · dn

É fácil de se ver que os elementos da diagonal de D são os autovalores de A. De fato, se A é


diagonalizável por P , vale para seu polinômio caracterı́stico

p(λ) = det(λ − A) = det(P −1 (λ − A)P ) = det(λ − P −1 AP ) = det(λ − D)


 
λ − d1 · · · 0
 ..  = (λ − d ) · · · (λ − d ),
= det  ... ..
. .  1 n
0 · · · λ − dn

o que mostra que os di são as raı́zes do polinômio caracterı́stico de A e, portanto, seus autovalores.

E. 3.13 Exercı́cio. Justifique todas as passagens acima. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 160/1195

• Diagonalização de Matrizes

O próximo teorema é fundamental no estudo de matrizes diagonalizáveis.


Teorema 3.3 Uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se possuir um conjunto de
n autovetores linearmente independentes, ou seja, se e somente se o sub-espaço gerado pela coleção de
todos os autovetores de A possuir dimensão n. 2

Prova. Vamos primeiro provar que se A ∈ Mat ( , n) possui um conjunto de n autovetores linearmente
independentes então A é diagonalizável. Para tal vamos construir a matriz P que diagonaliza A.
Seja {v 1 , . . . , v n } um conjunto de n autovetores linearmente independentes de A, cujos autovalores
são {d1 , . . . , dn }, respectivamente. Vamos denotar as componentes de v i na base canônica por vji ,
j = 1, . . . , n. Seja a matriz P definida por P = [[v 1 , . . . , v n ]], ou seja,
 
v11 · · · v1n
 
P =  ... . . . ...  .
vn1 · · · vnn
Como se vê pela construção, a a-ésima coluna de P é formada pelas componentes do vetor v a . Por
(3.2), segue que
AP = [[Av 1 , . . . , Av n ]] = [[d1 v 1 , . . . , dn v n ]].
Por (3.4) vale, porém, que
  
v11 · · · v1n d1 · · · 0
  
[[d1 v 1 , . . . , dn v n ]] =  ... . . . ...   ... . . . ...  = P D.
vn1 · · · vnn 0 · · · dn

E. 3.14 Exercı́cio. Verifique. 6

Portanto, AP = P D. Como, por hipótese, as colunas de P são formadas por vetores linearmente
independentes, tem-se que det(P ) 6= 0 (por que?). Logo, P é invertı́vel e, portanto, P −1 AP = D, como
querı́amos demonstrar.
Vamos provar agora a afirmação recı́proca que se A é diagonalizável, então possui n autovetores
linearmente independentes. Suponha que exista P tal que
 
d1 · · · 0
 
P −1 AP = D =  ... . . . ...  .
0 · · · dn

É evidente que os vetores da base canônica


     
1 0 0
0  1  0 
     
     
e 1 = 0  , e 2 = 0  , ..., en =  ... 
 ..   ..   
. . 0 
0 0 1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 161/1195

são autovetores de D com Dea = da ea . Logo, v a = P ea são autovetores de A, pois

Av a = AP ea = P Dea = P (da ea ) = da P ea = da v a .

Provar que os vetores v a são linearmente independentes é fácil. Suponha que existam números com-
plexos α1 , . . . , αn tais que
α1 v 1 + · · · + αn v n = 0.
Multiplicando-se à esquerda por P −1 terı́amos

α1 e1 + · · · + αn en = 0.

Como os ea são obviamente linearmente independentes, segue que α1 = · · · = αn = 0, provando que os


v a são linearmente independentes.

• Matrizes Diagonalizáveis e Matrizes Simples

Vamos agora discutir a relação entre os conceitos de matriz diagonalizável e o de matriz simples,
conceito esse introduzido à página 149. Tem-se a saber o seguinte fato:
Proposição 3.10 Uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se for simples, ou
seja, se e somente se a multiplicidade algébrica de cada um dos seus autovalores coincidir com sua
multiplicidade geométrica. 2

Prova. Se A é diagonalizável existe P tal que P −1 AP = D, diagonal. Como toda matriz diagonal, D
é simples. Escrevamos D na forma
 

D = diag α1 , . . . , α1 , . . . , αr , . . . , αr ,  .
| {z } | {z }
a1 vezes ar vezes

Um conjunto de n-autovetores de D linearmente independentes é fornecido pelos vetores da base


canônica:      
1 0 0
0  1  0 
     
     .. 
e 1 = 0  , e 2 = 0  , . . . , e n = . .
 ..   ..   
. . 0 
0 0 1
Os vetores e1 , . . . , ea1 geram o subespaço de autovetores com autovalor α1 de D etc.
Para a matriz A, os vetores P e1 , . . . , P ea1 geram o subespaço de autovetores com autovalor α1 etc.
É claro que a dimensão desse subespaço é a1 , pois P e1 , . . . , P ea1 são linearmente independentes, já
que os vetores da base canônica e1 , . . . , ea1 o são. Como isso também vale para os demais autovalores
concluı́mos que A é simples.
Resta-nos agora mostrar que se A ∈ Mat ( , n) é simples então A é diagonalizável. Como antes,
sejam α1 , . . . , αr , 1 ≤ r ≤ n, seus autovalores distintos, cada qual com multiplicidade algébrica
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 162/1195

a1 , . . . , ar , respectivamente, e seja E(αi ) o subespaço gerado pelos autovetores com autovalor αi .


Como A é simples, tem-se que a dimensão de E(αi ) é ai . Já observamos (página 147) que sub-espaços
E(αi ) associados a autovalores distintos têm em comum apenas o vetor nulo.Pr Assim, se em cada E(α i )
escolhermos ai vetores independentes, teremos ao todo um conjunto de i=1 ai = n autovetores (vide
(3.5)) linearmente independentes de A. Pelo Teorema 3.3, A é diagonalizável, completando a prova.

• Projetores

Uma matriz E ∈ Mat ( , n) é dita ser um projetor se satisfizer

E 2 = E.

Discutiremos várias propriedades importantes de projetores adiante, especialmente de uma classe


especial de projetores denominados projetores ortogonais. Por ora, vamos mostrar duas propriedades
que usaremos logo abaixo quando discutirmos o teorema espectral.
A primeira propriedade é a afirmação que se λ é um autovalor de um projetor E então ou λ é igual
a zero ou a um. De fato se v é um autovetor associado a um autovalor λ de E, tem-se que Ev = λv e
E 2 v = λ2 v. Como E 2 = E, segue que λ2 v = λv. Logo λ(λ − 1) = 0 e, portanto, λ = 0 ou λ = 1.
A segunda propriedade é uma conseqüência da primeira: o traço de um projetor E ∈ Mat ( , n) é
um número inteiro positivo ou nulo, mas menor ou igual a n. De fato, pela definição, o traço de um
projetor E é a soma de seus autovalores. Como os mesmos valem zero ou um a soma é um inteiro
positivo ou nulo. Como há no máximo n autovalores a soma não pode exceder n. Na verdade, o único
projetor cujo traço vale exatamente n é a identidade e o único projetor cujo traço vale exatamente 0
é a matriz nula (por que?).
Essas observações têm a seguinte conseqüência que usaremos adiante. Se E 1 , . . . , Er são r projetores
não-nulos com a propriedade que
Xr
= Ea
a=1

então r ≤ n. Para ver isso, basta tomar o traço de ambos os lados dessa expressão:
r
X
Tr ( ) = Tr (Ea ). (3.17)
a=1

O lado esquerdo vale n enquanto que o lado direito é uma soma de r inteiros positivos. Obviamente
isso só é possı́vel se r ≤ n.

• O Teorema Espectral

O chamado Teorema Espectral é um dos mais importantes teoremas de toda a Álgebra Linear e, em
verdade, de toda Análise Funcional, já que o mesmo possui generalizações para operadores limitados
e não-limitados (auto-adjuntos) agindo em espaços de Hilbert. Dessas generalizações trataremos na
Seção 23.6.1, página 1112, para o caso dos chamados operadores compactos e na Seção 23.7, página
1120, para o caso geral de operadores limitados auto-adjuntos. Nessa versão mais geral o teorema
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 163/1195

espectral é de importância fundamental para a interpretação da Fı́sica Quântica. Vide discussão da


Seção 23.7.5, página 1141.
Teorema 3.4 (O Teorema Espectral para Matrizes) Uma matriz A ∈ Mat ( , n) é diagona-
lizável se e somente se existirem r ∈ , escalares α1 , . . . , αr e projetores E1 , . . . , Er ∈ Mat ( , n)


tais que
X r
A = αa E a , (3.18)
a=1
r
X
= Ea (3.19)
a=1
e
Ei Ej = δi, j Ej .

Os escalares α1 , . . . , αr vêm a ser os autovalores de A. 2

Adiante demonstraremos uma versão um pouco mais detalhada desse importante teorema (Teorema
3.5, abaixo).
Os projetores Ea que surgem em (3.18) são denominados projetores espectrais de A. A decomposição
(3.18) é freqüentemente denominada decomposição espectral de A.
Prova do Teorema 3.4. Se A ∈ Mat ( , n) é diagonalizável existe P ∈ Mat ( , n) tal que P −1 AP =
D = diag (λ1 , . . . , λn ), onde λ1 , . . . , λn são os autovalores de A. Como pode haver autovalores
repetidos, vamos denotar por {α1 , . . . , αr }, 1 ≤ r ≤ n, o conjunto de autovalores distintos de A.
É bem claro que podemos escrever
r
X
D = α a Ka
a=1

onde as matrizes Ka são todas matrizes diagonais, cujos elementos diagonais são ou 0 ou 1 e tais que
r
X
Ka = . (3.20)
a=1

As matrizes Ka são simplesmente definidas de modo a terem elementos de matriz iguais a 1 nas posições
da diagonal ocupadas pelo autovalor αa em D e zero nos demais. Formalmente,

 1, se i = j e (D)ii = αa
(Ka )ij = 0, se i = j e (D)ii 6= αa .

0, se i 6= j

Por exemplo, se  
2 0 0 0
0 3 0 0
D = 
0

0 2 0
0 0 0 4
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 164/1195

teremos      
1 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0
D = 2
0
+3 +4 .
0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1
É fácil constatar que as matrizes Ka têm a seguinte propriedade:

Ka Kb = δa, b Ka . (3.21)

De fato, é evidente que (Ka )2 = Ka para todo a, pois Ka é diagonal com zeros ou uns na diagonal.
Analogamente, se a 6= b Ka Kb = 0, pois os zeros ou uns aparecem em lugares distintos das diagonais
das duas matrizes.
Como A = P DP −1 , tem-se que
r
X
A = αa E a ,
a=1

onde Ea := P Ka P −1 . É fácil agora provar que


r
X
= Ea
a=1

e que
Ei Ej = δi, j Ej .
De fato, por (3.20),
r r r
!
X X X
Ea = P Ka P −1 = P Ka P −1 = P P −1 = .
a=1 a=1 a=1

Analogamente, tem-se por (3.21),

Ea Eb = P Ka P −1 P Kb P −1 = P Ka Kb P −1 = δa, b P Ka P −1 = δa, b Ea .

Vamos agora provar a recı́proca. Vamos supor que A possua a representação (3.18), onde os E a ’s
satisfazem as propriedades enunciadas.
Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores de
A. De fato, por (3.18)
Xr
AEk x = αj Ej Ek x = αk Ek x.
j=1

Logo ou Ek x = 0 ou Ek x é autovetor de A.
Como há no máximo n autovetores, o espaço por eles gerado tem dimensão menor ou igual a n.
Por (3.19), porém, vale para todo vetor x que
r
X
x = x = Ek x .
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 165/1195

Para x não-nulo, alguns dos Ek x, acima, devem ser não-nulos e, portanto, autovetores de A. Assim,
todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que significa que
o espaço gerado por esses autovetores tem dimensão exatamente igual a n. Pelo teorema 3.3, A é
diagonalizável. Isso completa a demonstração.

O Teorema Espectral, Teorema 3.4, pode ser formulado de um modo mais detalhado (Teorema
3.5). A principal utilidade dessa outra formulação é a de fornecer mais informações sobre os projetores
espectrais Ea (vide expressão (3.24), abaixo). Obtem-se também nessa nova formulação mais condições
necessárias e suficientes à diagonalizabilidade e que podem ser úteis, como veremos, por exemplo, no
Teorema 3.12 provado adiante (página 170).
Teorema 3.5 (Teorema Espectral para Matrizes. Versão Detalhada) Seja A ∈ Mat ( , n).
São equivalentes as seguintes afirmações:

1. A possui n autovetores linearmente independentes, ou seja, o sub-espaço gerado pelos autovetores


de A tem dimensão n.
2. A é diagonalizável, ou seja, existe uma matriz P ∈ Mat ( , n) invertı́vel tal que P −1 AP é uma
matriz diagonal diag (d1 , . . . , dn ), onde os di ’s são autovalores de A.
n
3. Para todo vetor x ∈ e todo escalar λ ∈ tais que (A − λ )2 x = 0, vale que (A − λ )x = 0.
4. Se x é um vetor não-nulo tal que (A − λ )x = 0 para algum λ ∈ então não existe nenhum
vetor y com a propriedade que (A − λ )y = x.
5. Todas as raı́zes do polinômio mı́nimo de A têm multiplicidade 1.
6. Existem r ∈ , escalares α1 , . . . , αr e projetores E1 , . . . , Er ∈ Mat ( , n), denominados


projetores espectrais de A, tais que


Xr
A = αa E a .
a=1
Além disso, as matrizes Ea satisfazem
r
X
= Ea (3.22)
a=1

e
Ei Ej = δi, j Ej . (3.23)

Os projetores espectrais Ek do item 6, acima, podem ser expressos em termos de polinômios da matriz
A:
1
Ek = mk (A) , (3.24)
mk (αk )
para todo k, 1 ≤ k ≤ r, onde os polinômios mk são definidos por
M (x) = (x − αk )mk (x) ,
M sendo o polinômio mı́nimo de A. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 166/1195

Demonstração. A prova da equivalência será feita demonstrando-se sucessivamente as seguintes im-


plicações: 1 → 2, 2 → 3, 3 → 4, 4 → 5, 5 → 6, 6 → 1. Que 1 implica 2 já foi demonstrado no Teorema
3.3, página 160.

2 → 3. Seja D = P −1 AP diagonal. D = diag (d1 , . . . , dn ). Seja (A − λ )2 x = 0. Segue que

P −1 (A − λ )2 P y = 0

onde y = P −1 x. Logo,
(D − λ )2 y = 0,
ou seja,

(d1 − λ)2 y1 = 0

..
.

(dn − λ)2 yn = 0,

onde yj são as componentes de y:  


y1
 .. 
y =  . .
yn
Agora, é evidente que se (da − λ)2 ya = 0 então (da − λ)ya = 0. Logo

(D − λ )y = 0.

Usando-se y = P −1 x e multiplicando-se à direita por P , concluı́mos que

0 = P (D − λ )P −1 x = (P DP −1 − λ )x = (A − λ )x,

que é o que querı́amos provar.

3 → 4. A prova é feita por contradição. Vamos supor que para algum vetor x 6= 0 exista λ ∈ tal que
(A − λ )x = 0. Suponhamos também que exista vetor y tal que (A − λ )y = x. Terı́amos

(A − λ )2 y = (A − λ )x = 0.

Pelo item 3 isso implica (A − λ )y = 0. Mas isso diz que x = 0, uma contradição.

4 → 5. Seja M o polinômio mı́nimo de A, ou seja, o polinômio mônico7 de menor grau tal que M (A) = 0.
Vamos mostrar que todas as raı́zes de M têm multiplicidade 1. Vamos, por contradição, supor
que haja uma raiz, λ0 , com multiplicidade maior ou igual a 2. Terı́amos, para x ∈ ,

M (x) = p(x)(x − λ0 )2 .
7
A definição de polinômio mônico está à página 153.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 167/1195

Assim, M (A) = p(A)(A − λ0 )2 = 0. Como M é, por definição, o polinômio de menor grau que
zera em A, segue que
p(A)(A − λ0 ) 6= 0.
Assim, existe pelo menos um vetor z tal que p(A)(A − λ0 )z 6= 0. Vamos definir um vetor x por
x := p(A)(A − λ0 )z. Então

(A − λ0 )x = (A − λ0 )p(A)(A − λ0 )z = p(A)(A − λ0 )2 z = M (A)z = 0,

pois M (A) = 0. Agora, pela definição,

x = (A − λ0 )y

onde y = p(A)z. Pelo item 4, porém, isso é impossı́vel.

5 → 6. Pela hipótese que as raı́zes de M são simples segue da expressão (3.16) da Proposição 3.9, página
159, que para x ∈ ,
Yr
M (x) = (x − αj ) ,
j=1

onde αj são as raı́zes de M e que coincidem com os r autovalores distintos de A. Para k = 1, . . . , r


defina-se os polinômios mk por

M (x) =: (x − αk )mk (x),

ou seja,
r
Y
mk (x) := (x − αj ).
j=1
j6=k

É claro que mk (αj ) = 0 ⇐⇒ j 6= k (por que?).


Vamos agora definir mais um polinômio, g, da seguinte forma:
r
X 1
g(x) = 1 − mk (x).
mk (αk )
k=1

Como os polinômios mk têm grau r − 1, o polinômio g tem grau menor ou igual a r − 1. Porém,
observe-se que, para todos os αj , j = 1, . . . , r, vale
r
X 1 mj (αj )
g(αj ) = 1 − mk (αj ) = 1 − = 0
k=1
mk (αk ) mj (αj )

Assim, g tem pelo menos r raı́zes distintas! O único polinômio de grau menor ou igual a r − 1
que tem r raı́zes distintas é o polinômio nulo. Logo, concluı́mos que
r
X 1
g(x) = 1 − mk (x) ≡ 0
k=1
mk (αk )
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 168/1195

para todo x ∈ . Isso significa que todos os coeficientes de g são nulos. Assim, para qualquer
matriz B tem-se g(B) = 0. Para a matriz A isso diz que
r
X 1
= mk (A).
k=1
mk (αk )
Definindo-se
1
Ek := mk (A), (3.25)
mk (αk )
concluı́mos que
r
X
= Ek . (3.26)
k=1

Para todo k vale 0 = M (A) = (A − αk )mk (A), ou seja, Amk (A) = αk mk (A). Pela definição de
Ek isso significa
AEk = αk Ek .
Assim, multiplicando-se ambos os lados de (3.26) por A, segue que
r
X
A = αk E k .
k=1

Para completar a demonstração de 6, resta-nos provar que Ei Ej = δi, j Ej .


Para i 6= j tem-se pela definição dos Ek ’s que
1
Ei Ej = mi (A)mj (A)
mi (αi )mj (αj )
  
r r
1 Y  Y 
=  (A − αk )  (A − αl )
mi (αi )mj (αj ) k=1 l=1
k6=i l6=j

 
r
" r #
1  Y  Y
=  (A − αk ) (A − αl )
mi (αi )mj (αj ) k=1 l=1
k6=i, k6=j

 
r
Y
1  
=  (A − αk ) M (A)
mi (αi )mj (αj ) k=1
k6=i, k6=j

= 0,
pois M (A) = 0. Resta-nos provar que Ej2 = Ej para todo j. Multiplicando-se ambos os lados de
(3.26) por Ej teremos
Xr
Ej = Ej Ek = E j Ej ,
k=1
já que Ej Ek = 0 quando j 6= k. Isso completa a demonstração do item 6.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 169/1195

6 → 1. Notemos primeiramente que para todo vetor x, os vetores Ek x ou são nulos ou são autovetores
de A. De fato, por 6,
Xr
AEk x = αj Ej Ek x = αk Ek x.
j=1

Logo, ou Ek x = 0 ou Ek x é autovetor de A. O espaço gerado pelos autovetores de A obviamente


tem dimensão menor ou igual a n. Por (3.26), porém, vale para todo vetor x que
r
X
x = x = Ek x.
k=1

Assim, todo vetor x pode ser escrito como uma combinação linear de autovetores de A, o que
significa que o espaço gerado pelos autovetores tem dimensão exatamente igual a n.

Isso completa a demonstração do Teorema 3.5.

Destacamos ao leitor o fato de que a expressão (3.24) permite representar os projetores espectrais
diretamente em termos da matriz diagonalizável A.

• Diagonalizabilidade de Projetores

A proposição abaixo é uma aplicação simples do Teorema 3.5 a projetores. A mesma será usada
abaixo quando falarmos de diagonalização simultânea de matrizes.
Proposição 3.11 Seja E ∈ Mat ( , n) um projetor, ou seja, tal que E 2 = E. Então E é diagona-
lizável. 2

Prova. Seja E ∈ Mat ( , n) um projetor. Definamos E1 = E e E2 = − E. Então E2 é também um


projetor, pois

(E2 )2 = ( − E)2 = − 2E + E 2 = − 2E + E = − E = E2 .

Tem-se também que E1 E2 = 0, pois

E1 E2 = E( − E) = E − E 2 = E − E = 0.

Fora isso, é óbvio que = E1 + E2 e que E = α1 E1 + α2 E2 , com α1 = 1 e α2 = 0. Ora, isso tudo


diz que E satisfaz precisamente todas as condições do item 6 do Teorema 3.5. Portanto, pelo mesmo
teorema, E é diagonalizável.

• O Cálculo Funcional para Matrizes Diagonalizáveis

O Teorema Espectral tem o seguinte corolário, muitas vezes conhecido como cálculo funcional.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 170/1195

Teorema 3.6 (Cálculo Funcional) Seja A ∈ Mat ( , n) uma matriz diagonalizável e seja
r
X
A = αa E a .
a=1

sua decomposição espectral, de acordo com o Teorema Espectral, o Teorema 3.4. Então para qualquer
polinômio p vale
X r
p(A) = p(αa )Ea . (3.27)
a=1
2

Prova. Tem-se, pelas propriedades dos Ea ’s,


r
X r
X r
X
2
A = αa αb E a E b = αa αb δa, b Ea = (αa )2 Ea .
a, b=1 a, b=1 a=1

Analogamente, mostra-se que


r
X
m
A = (αa )m Ea ,
a=1

para qualquer m ∈  . O resto da prova é trivial.

E. 3.15 Exercı́cio. Usando (3.27) demonstre novamente o teorema de Hamilton-Cayley, agora apenas
para matrizes diagonalizáveis. 6

• Uma Condição Suficiente para Diagonalizabilidade

Até agora estudamos condições necessárias e suficientes para que uma matriz seja diagonalizável.
Vimos que uma matriz A ∈ Mat ( , n) é diagonalizável se e somente se for simples ou se e somente
se tiver n autovetores linearmente independentes ou se e somente se puder ser representada na forma
espectral, como em (3.18). Nem sempre, porém, é imediato verificar essas hipóteses, de modo que é
útil saber de condições mais facilmente verificáveis e que sejam pelo menos suficientes para garantir
diagonalizabilidade. Veremos abaixo que é, por exemplo, suficiente que uma matriz seja auto-adjunta
ou normal para garantir que ela seja diagonalizável.
Uma outra condição útil é aquela contida na seguinte proposição.
Proposição 3.12 Se A ∈ Mat ( , n) tem n autovalores distintos então A é diagonalizável. 2

Prova. Isso é imediato pelas Proposições 3.5 e 3.10, das páginas 149 e 161, respectivamente.

Observação. A condição mencionada na última proposição é apenas suficiente, pois há obviamente
matrizes diagonalizáveis que não têm autovalores todos distintos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 171/1195

Outra forma de provar a Proposição 3.12 é a seguinte. Seja {λ1 , . . . , λn } o conjunto dos n
autovalores de A, todos distintos. O polinômio caracterı́stico de A é q(x) = (x − λ 1 ) · · · (x − λn ). Como
as raı́zes de q têm, nesse caso, multiplicidade 1, segue pela Proposição 3.9, página 159, que o polinômio
mı́nimo de A, M , coincide com o polinômio caracterı́stico de A: q(x) = M (x), ∀x ∈ . Logo, o
polinômio mı́nimo M de A tem também raı́zes com multiplicidade 1. Assim, pelo item 5 do Teorema
3.5, página 165, A é diagonalizável.

E. 3.16 Exercı́cio. Demonstre a seguinte afirmação: se os autovalores de uma matriz A são todos iguais
então A é diagonalizável se e somente se for um múltiplo de . Sugestão: use o Teorema Espectral ou a
forma geral do polinômio mı́nimo (3.16). 6

Segue da afirmativa desse exercı́cio que matrizes triangulares superiores com diagonal principal
constante, ou seja, da forma
 
α A12 . . . A1(n−1) A1n
 0 α . . . A2(n−1) A2n 
 
 .. . . .
. 
A = . . .  ,
 
0 0 . . . α A(n−1)n 
0 0 ... 0 α

só são diagonalizáveis se todos os elementos acima da diagonal principal forem nulos, ou seja, se A ij = 0,
∀j > i. Naturalmente, a mesma afirmativa é válida para matrizes da forma AT , triangulares inferiores
com diagonal principal constante.

3.4.1 Diagonalização Simultânea de Matrizes


Uma matriz A ∈ Mat ( , n) é dita ser diagonalizada por uma matriz P ∈ Mat ( , n) se P −1 AP for
uma matriz diagonal.
Uma questão muito importante é saber quando duas matrizes diagonalizáveis podem ser diagona-
lizadas por uma mesma matriz P . A resposta é fornecida no próximo teorema.
Teorema 3.7 (Diagonalização Simultânea de Matrizes) Duas matrizes diagonalizáveis A e B ∈
Mat ( , n) podem ser diagonalizadas pela mesma matriz P ∈ Mat ( , n) se e somente se AB = BA,
ou seja, se e somente se comutarem entre si. 2

Prova. A parte fácil da demonstração é provar que se A e B podem ser diagonalizadas pela mesma
matriz P então A e B comutam entre si. De fato

P −1 (AB − BA)P = (P −1 AP )(P −1 BP ) − (P −1 BP )(P −1 AP ) = 0,

pois P −1 AP e P −1 BP são ambas diagonais e matrizes diagonais sempre comutam entre si (por que?).
Assim, P −1 (AB − BA)P = 0 e, portanto, AB = BA.
Vamos agora passar a mostrar que se AB = BA então ambas são diagonalizáveis por uma mesma
matriz P .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 172/1195

Sejam α1 , . . . , αr os r autovalores distintos de A e β1 , . . . , βs os s autovalores distintos de B.


Evocando o teorema espectral, A e B podem ser escritos de acordo com suas decomposições espec-
trais como r
X
A = αi EiA
i=1
e s
X
B = βj EjB ,
j=1

onde, de acordo com (3.24),


 −1  

Yr 
 r
Y 
EiA = (αi − αk )  (A − αk ) , i = 1, . . . , r (3.28)

 k=1 
 k=1
k6=i k6=i

e  −1  

Ys 
 s
Y 
EjB = (βj − βk )  (B − βk ) , j = 1, . . . , s. (3.29)

 k=1 
 k=1
k6=j k6=j

Como A e B comutam entre si e como EiA e EjB , dados em (3.28)-(3.29), são polinômios em A e B,
respectivamente, segue que EiA e EjB também comutam entre si para todo i e todo j.
Com isso, vamos definir
Qi, j = EiA EjB = EjB EiA
para i = 1, . . . , r e j = 1, . . . , s.
Note-se que os Qi, j ’s são projetores pois
Q2i, j = (EiA EjB )(EiA EjB ) = (EiA )2 (EjB )2 = EiA EjB = Qi, j .
Fora isso, é fácil ver que,
Qi, j Qk, l = δi, k δj, l Qi, j . (3.30)

E. 3.17 Exercı́cio. Mostre isso. 6

Note-se também que


r X
X s
= Qi, j , (3.31)
i=1 j=1

pois ! !
r X
X s r X
X s r
X s
X
Qi, j = EiA EjB = EiA EjB = = .
i=1 j=1 i=1 j=1 i=1 j=1

Afirmamos que podemos escrever


r X
X s
A = γi,A j Qi, j (3.32)
i=1 j=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 173/1195

e s
r X
X
B = γi,B j Qi, j , (3.33)
i=1 j=1

onde γi,A j = αi e γi,B j = βj . De fato, com essas definições,


r X
s r X
s r
! s
!
X X X X
γi,A j Qi, j = αi EiA EjB = αi EiA EjB = A = A.
i=1 j=1 i=1 j=1 i=1 j=1

Para B a demonstração é análoga.


Nas relações (3.32) e (3.33) é possı́vel fazer simplificações em função do fato de que nem todos os
projetores Qi, j são não-nulos. Seja Q1 . . . , Qt a lista dos projetores Qi, j não-nulos, ou seja,

{Q1 . . . , Qt } = {Qi, j | Qi, j 6= 0, i = 1, . . . , r e j = 1, . . . , s}.

É evidente por (3.30) que os Qk ’s são projetores e que

Qk Ql = δk, l Qk .

Por (3.31), tem-se


t
X
= Qk (3.34)
k=1

e por (3.32) e (3.33)


t
X
A = χA
k Qk (3.35)
k=1
t
X
B = χB
k Qk (3.36)
k=1

onde as constantes χA
k e χB
k estão relacionadas de modo óbvio com γi,A j e γi,B j , respectivamente.
Em (3.35) e (3.36) vemos que A e B, por serem diagonalizáveis e por comutarem entre si, têm
decomposições espectrais com os mesmos projetores espectrais. Note-se também que, pela observação
feita no tópico Projetores, à página 162 (vide equação (3.17)), tem-se 1 ≤ t ≤ n.
Vamos agora completar a demonstração que A e B podem ser diagonalizados por uma mesma matriz
invertı́vel P .
Seja Ek o subespaço dos autovetores de Qk com autovalor 1. Sub-espaços Ek ’s diferentes têm em
comum apenas o vetor nulo. De fato, se k 6= l e w é um vetor tal que Qk w = w e Ql w = w então, como
Qk Ql = 0 segue que
0 = (Qk Ql )w = Qk (Ql w) = Qk w = w.

Seja dk a dimensão do subespaço Ek e seja

u1k , . . . , udkk
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 174/1195

um conjunto de dk vetores linearmente independentes em Ek . Notemos que dk coincide com a multiplici-


dade algébrica do autovalor 1 de Qk , pois, conforme diz a Proposição 3.11, o projetor Qk é diagonalizável
e, portanto, é uma matriz simples (Proposição 3.10).
P P
Como = tk=1 Qk , tem-se, tomando-se o traço, que n = tk=1 dk .
Pelas definições, temos que
Ql uak = δk, l uak , (3.37)
pois Qk uak = uak e, portanto, Ql uak = Ql (Qk uak ) = (Ql Qk )uak = 0 para k 6= l.
Afirmamos que o conjunto de vetores

u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t (3.38)

é um conjunto de n vetores linearmente independentes. De fato, suponha que existam constantes c k, j


tais que
X t Xdk
ck, j ujk = 0.
k=i j=1

Aplicando-se à direita Ql terı́amos


dl
X
cl, j ujl = 0,
j=1

o que só é possı́vel se cl, j = 0 para todo j pois u1l , . . . , udl l , foram escolhidos linearmente independentes.
Como l é arbitrário, concluı́mos que cl, j = 0 para todo l e todo j, o que mostra que o conjunto de
vetores em (3.38) é linearmente independente.
Seja então a matriz P ∈ Mat ( , n) definida por

P = [[u11 , . . . , ud11 , u12 , . . . , ud22 , . . . u1t , . . . , udt t ]].

P é invertı́vel pois o conjunto (3.38) é linearmente independente (e, portanto, det(P ) 6= 0).
Tem-se,
AP = [[Au11 , . . . , Aud11 , Au12 , . . . , Aud22 , . . . , Au1t , . . . , Audt t ]]
Pt
Escrevendo A = l=1 χA
l Ql (3.35) e usando (3.37), temos

t
X
Auak = χA a A a
l Q l uk = χ k uk .
l=1

Assim,
A d1 A d1
AP = [[χA 1 A 1 A 1 A dt
1 u1 , . . . , χ1 u1 , χ2 u1 , . . . , χ2 u1 , . . . , χt ut , . . . , χt ut ]] = P DA ,

onde  

DA = diag χA , . . . , χA A A A A
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes

Portanto,
P −1 AP = DA .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 175/1195

Analogamente,
BP = [[Bu11 , . . . , Bud11 , Bu12 , . . . , Bud22 , . . . Bu1t , . . . , Budt t ]].
Pt
Escrevendo B = l=1 χB
l Ql (3.36) temos,

B d1 B d2
BP = [[χB 1 B 1 B 1 B dt
1 u1 , . . . , χ1 u1 , χ2 u2 , . . . , χ2 u2 , . . . , χt ut , . . . , χt ut ]] = P DB ,

onde  

DB = diag χB , . . . , χB B B B B
1 , χ2 , . . . , χ2 , . . . , χt , . . . , χt .
| 1 {z } | {z } | {z }
d1 vezes d2 vezes dt vezes

Portanto,
P −1 BP = DB .

Isso provou que A e B são diagonalizáveis pela mesma matriz invertı́vel P . A demonstração do
Teorema 3.7 está completa.

3.5 Matrizes Auto-adjuntas, Normais e Unitárias

• A Adjunta de uma Matriz

Seja V um espaço vetorial dotado de um produto escalar h·, ·i e seja A : V → V um operador


linear. Um operador linear A∗ que para todos u, v ∈ V satisfaça

hu, Avi = hA∗ u, vi

é dito ser o operador adjunto de A. Em espaços vetoriais gerais não é óbvio (e nem sempre verdadeiro!)
que sempre exista o adjunto de um operador linear A dado. Há muitos casos, porém, nos quais isso
pode ser garantido8 . Aqui trataremos do caso dos espaços V = n com o produto escalar usual.
n
Sejam u = (u1 , . . . , un ) e v = (v1 , . . . , vn ) dois vetores de para os quais define-se o produto
escalar usual n
X
hu, vi = uk v k .
k=1

Um operador linear A é representado (na base canônica) por uma matriz cujos elementos de matriz
são Aij , com i, j ∈ {1, . . . , n}.
É um exercı́cio simples (faça!) verificar que o operador adjunto A∗ de A é representado (na base
canônica) por uma matriz cujos elementos de matriz são (A∗ )ij = Aji , com i, j ∈ {1, . . . , n}. Ou
seja, a matriz adjunta de A é obtida (na base canônica!) transpondo-se A e tomando-se o complexo
conjugado de seus elementos.
Os seguintes fatos são importantes:
8
Tal é o caso dos chamados operadores lineares limitados agindo em espaços de Hilbert, para os quais sempre é possı́vel
garantir a existência do adjunto.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 176/1195

n
Proposição 3.13 Se A e B são dois operadores lineares agindo em então
(αA + βB)∗ = αA∗ + βB ∗
para todos α, β ∈ . Fora isso,
(AB)∗ = B ∗ A∗ .
Por fim, vale para todo A que (A∗ )∗ = A. 2

Deixamos a demonstração como exercı́cio para o leitor.


A operação Mat ( , n) 3 A 7→ A∗ ∈ Mat ( , n) é demoninada operação de adjunção de matrizes.
Como vimos na Proposição 3.13, a operação de adjunção é anti-linear e é um anti-homomorfismo
algébrico.

• Os espectro e a operação de adjunção

Seja A ∈ Mat ( , n). Como já vimos, o espectro de A, σ(A), é o conjunto de raı́zes de seu
polinômio caracterı́stico, definido por pA (z) = det(z − A), z ∈ . Como para toda B ∈ Mat ( , n)
vale det(B ∗ ) = det(B) (por quê?), segue que pA (z) = det(z − A) = det(z − A∗ ) = pA∗ (z), ou seja,
pA∗ (z) = pA (z). Com isso, provamos a seguinte afirmação:
Proposição 3.14 Seja A ∈ Mat ( , n). Então, λ ∈ σ(A) se e somente se λ ∈ σ(A∗ ), ou seja, λ é um
autovalor de A se e somente se λ é um um autovalor de A∗ .

Em sı́mbolos, as afirmações acima são expressas pela igualdade σ(A) = σ(A∗ ).

• Matrizes Hermitianas, Normais e Unitárias

Vamos agora a algumas definições muito importantes.

Definição. Um operador linear em n é dito ser simétrico, Hermitiano ou auto-adjunto se A = A∗ , ou


seja, se para todos u, v ∈ V satisfizer
hu, Avi = hAu, vi.

Advertência. Em espaços vetoriais de dimensão finita as noções de operador simétrico, Hermitiano


ou auto-adjunto são sinônimas. Em espaços vetoriais de dimensão infinita, porém, há uma distinção
entre essas noções relativa a problemas com o domı́nio de definição de operadores.

Definição. Um operador linear em n


é dito ser normal se AA∗ = A∗ A. Ou seja, A é normal se comuta
com seu adjunto.

Definição. Um operador linear em n é dito ser unitário se A∗ A = AA∗ = . É claro que todo
operador unitário é normal e que um operador é unitário em n se e somente se A∗ = A−1 . Note que
se A é unitário então, para todos u, v ∈ V , tem-se
hAu, Avi = hu, vi.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 177/1195

n
Definição. Se A é um operador linear em define-se a parte real de A por
1
Re (A) = (A + A∗ )
2
e a parte imaginária de A por
1
Im (A) = (A − A∗ ).
2i
É claro que essas definições foram inspiradas nas relações análogas para números complexos. Note
também que
A = Re (A) + iIm (A).

E. 3.18 Exercı́cio. Por quê? 6

É importante notar que para qualquer operador linear A em n sua parte real e imaginária são
ambas operadores Hermitianos: (Re (A))∗ = Re (A) e (Im (A))∗ = Im (A).

E. 3.19 Exercı́cio. Mostre isso. 6

Para operadores normais tem-se a seguinte proposição, que será útil adiante e serve como caracte-
rização alternativa do conceito de operador normal.
n
Proposição 3.15 Um operador linear agindo em é normal se e somente se sua parte real comuta
com sua parte imaginária. 2

Deixamos a demonstração (elementar) como exercı́cio para o leitor.


A importância das definições acima reside no seguinte fato, que demonstraremos adiante: matrizes
Hermitianas e matrizes normais são diagonalizáveis. Antes de tratarmos disso, vamos discutir algumas
propriedades do espectro de matrizes Hermitianas e de matrizes unitárias.

• Os Autovalores de Matrizes Hermitianas e de Matrizes Unitárias

Os seguintes teoremas têm importância fundamental para o estudo de propriedades de matrizes


Hermitianas e de matrizes unitárias.
Teorema 3.8 Os autovalores de uma matriz Hermitiana são sempre números reais. 2

Prova. Seja A Hermitiana, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como


A é Hermitiana tem-se
hv, Avi = hAv, vi.
Como v é um autovetor, o lado esquerdo vale λhv, vi e o lado direito vale λhv, vi. Logo, (λ−λ)hv, vi =
0. Como v 6= 0 isso implica λ = λ, ou seja, λ é real.
 
2 1
Note-se que a recı́proca desse teorema é falsa. A matriz tem autovalores reais (2 e 3) mas
0 3
não é Hermitiana.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 178/1195

Para matrizes unitárias temos


Teorema 3.9 Os autovalores de uma matriz unitária são sempre números complexos de módulo 1. 2

Prova. Seja A unitária, λ um autovalor de A e v 6= 0 um autovetor de A com autovalor λ. Como A é


unitária tem-se
hAv, Avi = hv, vi.
Como v é um autovetor, o lado esquerdo vale λλhv, vi. Assim, (|λ|2 − 1)hv, vi = 0. Como v 6= 0 isso
implica |λ| = 1.

• Operadores Simétricos e Unitários. Ortogonalidade de Autovetores

Teorema 3.10 Os autovetores associados a autovalores distintos de uma matriz simétrica são ortogo-
nais entre si. 2

Prova. Seja A simétrica e λ1 , λ2 dois de seus autovalores, que suporemos distintos. Seja v1 autovetor
de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser simétrico,

hv1 , Av2 i = hAv1 , v2 i.

O lado esquerdo vale λ2 hv1 , v2 i e o lado direito λ1 hv1 , v2 i (lembre-se que λ1 é real). Assim

(λ2 − λ1 )hv1 , v2 i = 0.

Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.

Teorema 3.11 Os autovetores associados a autovalores distintos de uma matriz unitária são ortogo-
nais entre si. 2

Prova. Seja U unitária e sejam λ1 , λ2 dois de seus autovalores, sendo que suporemos λ1 6= λ2 . Seja v1
autovetor de U com autovalor λ1 e v2 autovetor de U com autovalor λ2 . Temos, por U ser unitário,

hU v1 , U v2 i = hv1 , U ∗ U v2 i = hv1 , v2 i.

O lado esquerdo vale λ2 λ1 hv1 , v2 i = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e,
portanto λ1 = λ−1
1 ). Assim  
λ2
− 1 hv1 , v2 i = 0.
λ1
Como λ2 6= λ1 , segue que hv1 , v2 i = 0, que é o que se queria provar.

• Projetores Ortogonais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 179/1195

Um operador linear E agindo em n


é dito ser um projetor ortogonal se E 2 = E e se E ∗ = E.
Projetores ortogonais são importantes na decomposição espectral de matrizes auto-adjuntas, como
veremos.
Note-se que nem todo projetor é ortogonal. Por exemplo
 
1 0
E =
1 0

é um projetor (E 2 = E) mas não é ortogonal (E ∗ =


6 E). O mesmo vale para
 
1 0
E = .
2 0

Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais
p gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por

Pv u := hv, ui v,

para todo vetor u. Provemos que Pv é um projetor ortogonal. Por um lado, tem-se

Pv2 u = hv, ui Pv v = hv, ui hv, vi v = hv, ui v = Pv u,

o que mostra que Pv2 = Pv . Por outro lado, para quaisquer vetores a e b, usando as propriedades de
linearidade, anti-linearidade e conjugação complexa do produto escalar, tem-se

ha, Pv bi = ha, hv, bi vi = hv, bi ha, vi = hha, vi v, bi = hhv, ai v, bi = hPv a, bi,

provando que Pv∗ = Pv . Isso mostra que Pv é um projetor ortogonal.


Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores ortogonais, ou seja,
se hu, vi = 0 então Pu Pv = Pv Pu = 0. Para provar isso notemos que para qualquer vetor a vale

Pu (Pv a) = Pu (hv, ai v) = hv, ai Pu v = hv, ai hu, vi u = 0.

O mesmo se passa para Pv (Pu a).

• Matrizes Auto-adjuntas e Diagonalizabilidade

Vamos aqui demonstrar a seguinte afirmação importante: toda matriz auto-adjunta é diagonalizável.
Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na Seção
3.8.2, página 202. Vide Teorema 3.23, página 204.
Teorema 3.12 Se A ∈ Mat ( , n) é auto-adjunta então A é diagonalizável. Fora isso, A possui n
autovetores mutuamente ortogonais. A matriz P que diagonaliza A (ou seja, tal que P −1 AP é diagonal)
pode ser escolhida unitária, ou seja, tal que P −1 = P ∗ . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 180/1195

Prova. A demonstração que A é diagonalizável será feita construindo-se uma representação espectral
para A. Seja λ1 um autovalor de A e v1 um autovetor de A com autovalor λ1 normalizado de tal forma
que kv1 k = 1. Vamos definir um operador A1 por
A 1 = A − λ 1 Pv 1 .
Como A e Pv1 são auto-adjuntos e λ1 é real, segue que A1 é igualmente auto-adjunto.
Afirmamos que A1 v1 = 0 e que [v1 ]⊥ é um sub-espaço invariante por A1 . De fato,
A1 v1 = Av1 − λ1 Pv1 v1 = λ1 v1 − λ1 v1 = 0.
Fora isso, se w ∈ [v1 ]⊥ tem-se
hA1 w, v1 i = hw, A1 v1 i = 0,
mostrando que A1 w é também elemento de [v1 ]⊥ .
O operador A1 restrito a [v1 ]⊥ é também auto-adjunto (por que?). Seja λ2 um de seus autovalores
com autovetor v2 ∈ [v1 ]⊥ , que escolhemos com norma 1. Seja
A 2 = A 1 − λ 2 Pv 2 = A − λ 1 Pv 1 − λ 2 Pv 2 .
Como λ2 também é real A2 é igualmente auto-adjunto. Fora isso afirmamos que A2 anula os vetores
do sub-espaço [v1 , v2 ] e mantem [v1 , v2 ]⊥ invariante. De fato,
A2 v1 = Av1 − λ1 Pv1 v1 − λ2 Pv2 v1 = λ1 v1 − λ1 v1 − λ2 hv2 , v1 iv2 = 0
pois hv2 , v1 i = 0. Analogamente,
A2 v2 = A1 v2 − λ2 Pv2 v2 = λ2 v2 − λ2 v2 = 0.
Por fim, para quaisquer α, β ∈ e w ∈ [v1 , v2 ]⊥ tem-se
hA2 w, (αv1 + βv2 )i = hw, A2 (αv1 + βv2 )i = 0
que é o que querı́amos provar.
Prosseguindo indutivamente, construiremos um conjunto de vetores v1 , . . . , vn , todos com norma
1 e com va ∈ [v1 , . . . , va−1 ]⊥ e um conjunto de números reais λ1 , . . . , λn tais que
A n = A − λ 1 Pv 1 − · · · − λ n Pv n
anula-se no sub-espaço [v1 , . . . , vn ]. Ora, como estamos em um espaço de dimensão n e os vetores vk
são mutuamente ortogonais, segue que [v1 , . . . , vn ] deve ser o espaço todo, ou seja, An = 0. Provamos
então que
A = λ 1 Pv 1 + · · · + λ n Pv n . (3.39)

Vamos provar agora que essa é a representação espectral de A. Como os v k ’s são mutuamente
ortogonais, é evidente que Pvk Pvl = δk, l Pvk . Resta-nos provar que Pv1 + · · · + Pvn = . Como
v1 , . . . , vn formam uma base, todo vetor x pode ser escrito como uma combinação linear
x = α 1 v1 + · · · + α n vn . (3.40)
Tomando-se o produto escalar com va , e usando o fato que os vk ’s são mutuamente ortogonais, tem-se
αa = hva , xi.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 181/1195

E. 3.20 Exercı́cio. Verifique. 6

Assim, (3.40) pode ser escrita como

x = hv1 , xiv1 + · · · + hvn , xivn = Pv1 x + · · · + Pvn x = (Pv1 + · · · + Pvn ) x.

Como isso vale para todo vetor x, segue que

Pv 1 + · · · + P v n = .

Assim, A possui uma representação espectral como (3.18). Pelo Teorema Espectral 3.4, A é diagona-
lizável.
Por (3.39), vemos que Ava = λa va (verifique!). Logo os λa ’s são autovalores de A e os va ’s
seus autovetores. Assim, se A é auto-adjunto, podemos escontrar n autovetores de A mutuamente
ortogonais, mesmo que sejam autovetores com o mesmo autovalor. Isso generaliza o Teorema 3.10.
Pelo que já vimos A é diagonalizada por P −1 AP , onde podemos escolher P = [[v 1 , . . . , v n ]]. É fácil
verificar, porém, que P é unitária. De fato, é um exercı́cio simples (faça!) mostrar que
 
hv1 , v1 i · · · hv1 , vn i
 .. .. .. 
P ∗P =  . . . .
hvn , v1 i · · · hvn , vn i

Como hva , vb i = δa, b , a matriz do lado direito é igual a , mostrando que P ∗ P = P P ∗ = e que,
portanto, P é unitária.

Para concluir essa discussão, temos:


Proposição 3.16 Uma matriz A ∈ Mat ( , n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2

Prova. Se A ∈ Mat ( , n) é diagonalizável por uma transformação de similaridade unitária e seus


autovalores são reais, ou seja, existe P unitária e D diagonal real com P ∗ AP = D, então A = P DP ∗
e A∗ = P D ∗ P ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = P DP ∗ = A, provando que
A é auto-adjunta. A recı́proca já foi provada acima.

• Matrizes Normais e Diagonalizabilidade

O teorema que afirma que toda matriz simétrica é diagonalizável tem a seguinte conseqüência:
Teorema 3.13 Se A ∈ Mat ( , n) é normal então A é diagonalizável. 2

Prova. Já vimos que toda matriz A pode ser escrita na forma A = Re (A) + iIm (A) onde Re (A)
e Im (A) são auto-adjuntas. Vimos também que se A é normal Re (A) e Im (A) comutam entre si
(Proposição 3.15). Pelo Teorema 3.7, Re (A) e Im (A) podem ser simultaneamente diagonalizados.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 182/1195

Observação. Como no caso auto-adjunto, o operador que faz a diagonalização pode ser escolhido
unitário. De fato, vale uma afirmativa ainda mais forte.
Teorema 3.14 Uma matriz A ∈ Mat ( , n) é normal se e somente se for diagonalizável por um
operador unitário. 2

Prova. Resta provar apenas que se A é diagonalizável por um operador unitário P então A é normal.
Seja D = P ∗ AP . Tem-se D ∗ = P ∗ A∗ P (por que?). Assim,

A∗ A − AA∗ = P D ∗ P ∗ P DP ∗ − P DP ∗ P D ∗ P ∗ = P (D ∗ D − DD ∗ )P ∗ = 0

já que D ∗ e D comutam por serem diagonais (duas matrizes diagonais quaisquer sempre comutam. Por
quê?). Isso completa a prova que A é normal.

Uma outra demonstração (eventualmente mais simples) dessa afirmação pode ser encontrada na
Seção 3.8.2, página 202. Vide Teorema 3.24, página 205.

3.6 Matrizes Triangulares


Uma matriz S ∈ Mat ( , n) é dita ser triangular superior se forem nulos os elementos abaixo da diagonal
principal, ou seja, se Sij = 0 sempre que i > j. Note que esses não precisam ser necessariamente os
únicos elementos nulos de S.
Uma matriz I ∈ Mat ( , n) é dita ser triangular inferior se forem nulos os elementos acima da
diagonal principal, ou seja, se Iij = 0 sempre que i < j. Note que esses não precisam ser necessariamente
os únicos elementos nulos de I.
Proposição 3.17 Matrizes triangulares superiores possuem as seguintes propriedades:

1. A matriz identidade é uma matriz triangular superior.

2. O produto de duas matrizes triangulares superiores é novamente uma matriz triangular superior.

3. O determinante de uma matriz triangular superior é o produto dos elementos da sua diagonal.
Assim, uma matriz triangular superior é invertı́vel se e somente se não tiver zeros na diagonal.

4. Se uma matriz triangular superior é invertı́vel, sua inversa é novamente uma matriz triangular
superior. 2

As afirmações acima permanecem verdadeiras trocando “matriz triangular superior” por “matriz tri-
angular inferior”.

Prova. Os três primeiros itens são elementares. Para provar o item 4 usa-se o fato bem conhecido (a
chamada “regra de Laplace9 ”) que para qualquer matriz A ∈ Mat ( , n) o elemento ij da sua matriz
9
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 183/1195

inversa (se houver) é dado por


 ∆(A)ji
A−1 ij
= (−1)i+j , (3.41)
det(A)
onde ∆(A)ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a
j-ésima coluna da matriz A. (A matriz ∆(A) é por vezes denominada matriz dos co-fatores de A). É
fácil de constatar que se S é uma matriz triangular superior, tem-se ∆(S)ji = 0 se i > j. Logo, S −1 é
triangular superior, se existir.

As propriedades acima atestam que o conjunto das matrizes n × n triangulares superiores invertı́veis
forma um grupo, denominado por alguns autores Grupo de Borel10 de ordem n e denotado por GBn ( ).
O seguinte resultado sobre matrizes triangulares superiores será usado diversas vezes adiante.
Lema 3.2 Uma matriz triangular superior S ∈ Mat ( , n) é normal (ou seja, satisfaz SS ∗ = S ∗ S) se
e somente se for diagonal. 2

Prova. Se S é diagonal, S é obviamente normal pois S ∗ é também diagonal e matrizes diagonais sempre
comutam entre si. Provaremos a recı́proca, o que será feito por indução. Para n = 1 não há o que
provar. Se n = 2, S é da forma S = ( a0 cb ), com a, b, c ∈ . A condição SS ∗ = S ∗ S significa
 2   2 
|a| + |b|2 bc |a| ba
= ,
cb |c|2 ab |b|2 + |c|2

o que implica b = 0, provando que S é diagonal. Procedemos agora por indução, supondo n > 2 e que
o lema seja válido para matrizes (n − 1) × (n − 1) triangulares superiores normais. Se S ∈ Mat ( , n)
é triangular superior, S é da forma
   
  b 1 0
a bT  ..   .. 
S= , sendo a ∈ , b =  .  , = . ,
C
bn−1 0

ambas b e com n − 1 linhas, sendo C uma matriz (n − 1) × (n − 1) triangular superior. A condição


SS ∗ = S ∗ S significa  2   2 
|a| + bT b bT C ∗ |a| abT
= ,
Cb CC ∗ ab B + C ∗ C
sendo B a matriz cujos elementos são Bij = bi bj . Disso extraı́mos que bT b = 0, ou seja, |b1 |2 + · · · +
|bn−1 |2 = 0 e, portanto, b = . Com isso, ficamos com CC ∗ = C ∗ C, ou seja, C é normal. Como C é
triangular superior então, pela hipótese indutiva, C é diagonal. Isso, mais o fato provado que b é nulo,
implica que S é diagonal, provando o lema.

10
Armand Borel (1923-2003).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 184/1195

3.7 O Teorema de Decomposição de Jordan e a Forma Canônica


de Matrizes
Nas seções anteriores demonstramos condições que permitem diagonalizar certas matrizes. Nem todas
as matrizes, porém, podem ser diagonalizadas. Podemos nos perguntar, no entanto, quão próximo
podemos chegar de uma matriz diagonal.
Mostraremos nesta seção que toda matriz A pode ser levada (por uma transformação de simila-
ridade) à uma forma próxima à diagonal, denominada forma canônica de Jordan 11 . Resumidamente
(a afirmação precisa será apresentada mais adiante), mostraremos que existe uma matriz P tal que
P −1 AP tem a seguinte forma:
 
λ1 γ 1 0 0 · · · 0 0
 0 λ2 γ2 0 · · · 0 0 
 
 0 0 λ 3 γ3 · · · 0 0 
 
 .. 
 0 0 0 λ4 . 0 0 , (3.42)
. .. .. .. . . .. .. 
 .. . . . . . 
. 

 0 0 0 0 · · · λn−1 γn−1 
0 0 0 0 ··· 0 λn

onde λ1 , . . . , λn são os autovalores de A e onde os γi valem 1 ou 0, mas que forma que a matriz
diagonal  
λ1 0 0 0 ··· 0 0
 0 λ2 0 0 ··· 0 0
 
 0 0 λ3 0 ··· 0 0
 
 .. 
 0 0 0 λ4 . 0 0 , (3.43)
. .. .. .. .. .. .. 
 .. . . . . . .
 
0 0 0 0 · · · λn−1 0 
0 0 0 0 ··· 0 λn
e a matriz supra-diagonal  
0 γ1 0 0 ··· 0 0
0 0 γ 2 0 ··· 0  0
 
0 0 0 γ 3 ··· 0  0
 
 .. 
0 0 0 0 . 0 0 , (3.44)
. . . . .. .. .. 
 .. .. .. .. . . . 
 
0 0 0 0 ··· 0 γn−1 
0 0 0 0 ··· 0 0
comutam entre si.
O resultado central que provaremos, e do qual as afirmativas feitas acima seguirão, diz que toda
matriz A pode ser levada por uma transformação do tipo P −1 AP a uma matriz da forma D + N , onde
11
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes foi originalmente descoberta por
Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan em 1870.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 185/1195

D é diagonal e N é nilpotente (ou seja, tal que N q = 0 para algum q) e tais que D e N comutam:
DN = N D. Essa é a afirmativa principal do célebre “Teorema da Decomposição de Jordan”, que
demonstraremos nas páginas que seguem.
Esse Teorema da Decomposição de Jordan generaliza os teoremas sobre diagonalizabilidade de
matrizes: para matrizes diagonalizáveis tem-se simplesmente N = 0 para um P conveniente.
Antes de nos dedicarmos à demonstração desses fatos precisaremos de alguma preparação.

3.7.1 Resultados Preparatórios

• Somas Diretas de Sub-Espaços

Seja V um espaço vetorial e V1 e V2 dois de seus sub-espaços. Dizemos que V é a soma direta de V1
e V2 se todo vetor v de V puder ser escrito de modo único da forma v = v1 + v2 com v1 ∈ V1 e v2 ∈ V2 .
Se V é a soma direta de V1 e V2 escrevemos V = V1 ⊕ V2 .

• Sub-espaços Invariantes
n
Um subespaço E de é dito ser invariante pela ação de uma matriz A, se Av ∈ E para todo v ∈ E.
Se V = V1 ⊕ V2 e tanto V1 quanto V2 são invariantes pela ação de A, escrevemos A = A1 ⊕ A2 onde
Ai é A restrita a Vi . Se escolhermos uma base em V da forma {v1 , . . . , vm , vm+1 , . . . , vn }, onde
{v1 , . . . , vm } é uma base em V1 e {vm+1 , . . . , vn } é uma base em V2 , então nessa base A terá a forma
 
A1 m, n−m
A = . (3.45)
n−m, m A2

onde A1 ∈ Mat ( , m) e A2 ∈ Mat ( , n − m).

E. 3.21 Exercı́cio. Justifique a forma (3.45). 6

A representação (3.45) é dita ser uma representação em blocos diagonais de A, os blocos sendo as
sub-matrizes A1 e A2 .
Um fato relevante que decorre imediatamente de (3.45) e da Proposição 3.1, página 143, e que
usaremos freqüentemente adiante, é que se A = A1 ⊕ A2 então

det(A) = det(A1 ) det(A2 ).

• Operadores Nilpotentes

Seja V um espaço vetorial e N : V → V um operador linear agindo em V . O operador N é dito ser


nilpotente se existir um inteiro positivo q tal que N q = 0. O menor q para o qual N q = 0 é dito ser o
ı́ndice de N .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 186/1195

Vamos a alguns exemplos.  


0 1 0
N = 0 0 1
0 0 0
é uma matriz nilpotente de ı́ndice 3.

E. 3.22 Exercı́cio. Verifique. 6

 
0 a c
N = 0 0 b 
0 0 0
com a 6= 0 e b 6= 0 é uma matriz nilpotente de ı́ndice 3.

E. 3.23 Exercı́cio. Verifique. 6

  

0 0 0 0 1 0
N =  0 0 1 e N =  0 0 0
0 0 0 0 0 0
são matrizes nilpotentes de ı́ndice 2.

E. 3.24 Exercı́cio. Verifique. 6

O seguinte fato sobre os autovalores de operadores nilpotentes será usado adiante.


Proposição 3.18 Se N ∈ Mat ( , n) é nilpotente então seus autovalores são todos nulos. Isso implica
que seu polinômio caracterı́stico é qN (x) = xn , x ∈ . Se o ı́ndice de N é q então o polinômio mı́nimo
de N é mN (x) = xq , x ∈ . 2

No Corolário 3.2, página 193, demonstraremos que uma matriz é nilpotente se e somente se seus
autovalores forem todos nulos.

Prova da Proposição 3.18. Se N = 0 o ı́ndice é q = 1 e tudo é trivial. Seja N 6= 0 com ı́ndice q > 1.
Seja v 6= 0 um autovetor de N com autovalor λ: N v = λv. Isso diz que 0 = N q v = λq v. Logo λq = 0
e, obviamente, λ = 0. É claro então que qN (x) = xn . Que o polinômio mı́nimo é mN (x) = xq segue
do fato que mN (x) deve ser um divisor de qn (x) (isso segue do Teorema 3.1 junto com o Teorema de
Hamilton-Cayley, Teorema 3.2). Logo mN (x) é da forma xk para algum k ≤ n. Mas o menor k tal que
mN (N ) = N k = 0 é, por definição, igual a q. Isso completa a prova.

Mais sobre matrizes nilpotentes será estudado na Seção 3.7.3 onde, em particular, discutiremos a
chamada forma canônica de matrizes nilpotentes.

• O Núcleo e a Imagem de um Operador Linear


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 187/1195

Seja V um espaço vetorial e A : V → V um operador linear agindo em V .


O núcleo de A é definido como o conjunto de todos os vetores que são anulados por A:

N(A) = {x ∈ V | Ax = 0}.

A imagem de A é definida por

R(A) = {x ∈ V | ∃ y ∈ V tal que x = Ay}.

Afirmamos que N(A) e R(A) são dois sub-espaços de V . Note-se primeiramente que 0 ∈ N(A) e
0 ∈ R(A) (por que?). Fora isso, se x e y ∈ N(A) então, para quaisquer escalares α e β,

A(αx + βy) = αAx + βAy = 0,

provando que combinações lineares αx+βx0 também pertencem a N(A). Analogamente se x e x0 ∈ R(A)
então existem y e y 0 ∈ V com x = Ay, x0 = Ay 0 . Logo

αx + βx0 = A(αy + βy 0 ),

provando que combinações lineares αx + βy também pertencem a R(A).


Para um operador A fixado, e k ∈  , vamos definir

Nk = N(Ak )

e
Rk = R(Ak ).
Esses sub-espaços Nk e Rk são invariantes por A. De fato, se x ∈ Nk , então Ak (Ax) = A(Ak x) = A0 = 0,
mostrando que Ax ∈ Nk . Analogamente, se x ∈ Rk então x = Ak y para algum vetor y. Logo,
Ax = A(Ak y) = Ak (Ay), mostrando que Ax ∈ Rk .
Afirmamos que
Nk ⊂ Nk+1 (3.46)
e que
Rk ⊃ Rk+1 .
As demonstrações dessas afirmativas são quase banais. Se x ∈ Nk então Ak x = 0. Isso obviamente
implica Ak+1 x = 0. Logo x ∈ Nk+1 e, portanto, Nk ⊂ Nk+1 . Analogamente, se x ∈ Rk+1 então existe y
tal que x = Ak+1 y. Logo x = Ak (Ay), o que diz que x ∈ Rk . Portanto Rk+1 ⊂ Rk .
Isso diz que os conjuntos Nk formam uma cadeia crescente de conjuntos:

{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Nk ⊂ · · · ⊂ V, (3.47)

e os Rk formam uma cadeia decrescente de conjuntos:

V ⊃ R1 ⊃ R2 ⊃ · · · ⊃ Rk ⊃ · · · ⊃ {0}. (3.48)

Consideremos a cadeia crescente (3.47). Como os conjuntos Nk são sub-espaços de V , é claro que a
cadeia não pode ser estritamente crescente se V for um espaço de dimensão finita, ou seja, deve haver
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 188/1195

um inteiro positivo p tal que Np = Np+1 . Seja p o menor número inteiro para o qual isso acontece.
Afirmamos que para todo k ≥ 1 vale Np = Np+k .
Vamos provar isso. Se x ∈ Np+k então Ap+k x = 0, ou seja, Ap+1 (Ak−1 x) = 0. Logo, Ak−1 x ∈ Np+1 .
Dado que Np = Np+1 , isso diz que Ak−1 x ∈ Np , ou seja, Ap (Ak−1 x) = 0. Isso, por sua vez, afirma que
x ∈ Np+k−1 . O que fizemos então foi partir de x ∈ Np+k e concluir que x ∈ Np+k−1 . Se repetirmos
a argumentação k vezes concluiremos que x ∈ Np . Logo, Np+k ⊂ Np . Por (3.46) tem-se, porém, que
Np ⊂ Np+k e, assim, Np+k = Np .
Assim, a cadeia (3.47) tem, no caso de V ter dimensão finita, a forma

{0} ⊂ N1 ⊂ N2 ⊂ · · · ⊂ Np = Np+1 = · · · = Np+k = · · · ⊂ V. (3.49)

Como dissemos, p será daqui por diante o menor inteiro para o qual Np = Np+1 . O lema e o teorema
que seguem têm grande importância na demonstração do Teorema de Decomposição de Jordan.
Lema 3.3 Com as definições acima, Np ∩ Rp = {0}, ou seja, os sub-espaços Np e Rp têm em comum
apenas o vetor nulo. 2

Demonstração. Seja x tal que x ∈ Np e x ∈ Rp . Isso significa que Ap x = 0 e que existe y tal que
x = Ap y. Logo, A2p y = Ap x = 0, ou seja, y ∈ N2p . Pela definição de p tem-se que N2p = Np . Assim,
y ∈ Np . Logo Ap y = 0. Mas, pela própria definição de y valia que Ap y = x. Logo x = 0.

Esse lema tem a seguinte conseqüência importante.


Teorema 3.15 Com as definições acima vale que V = Np ⊕ Rp , ou seja, cada x ∈ V pode ser escrito
de modo único na forma x = xn + xr , onde xn ∈ Np e xr ∈ Rp . 2

Demonstração. Seja m a dimensão de Np e seja {u1 , . . . , um } uma base em Np . Vamos estender essa
base, incluindo vetores {vm+1 , . . . , vn } de modo que {u1 , . . . , um , vm+1 , . . . , vn } seja uma base
em V . Afirmamos que {Ap vm+1 , . . . , Ap vn } é uma base em Rp . Seja x ∈ Rp e seja y ∈ V tal que
x = Ap y. Como todo vetor de V , y pode ser escrito como combinação linear de elementos da base
{u1 , . . . , um , vm+1 , . . . , vn }:
Xm Xn
y = α i ui + αi v i .
i=1 i=m+1

Logo,
m
X n
X n
X
p p
x = α i A ui + αi A v i = αi A p v i . (3.50)
i=1 i=m+1 i=m+1

Os vetores {Ap vm+1 , . . . , Ap vn } são linearmente independentes. Isso se mostra com o seguinte argu-
mento. Se existirem escalares βm+1 , . . . , βn tais que
n
X
βi Ap vi = 0,
i=m+1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 189/1195

então terı́amos !
n
X
Ap βi v i = 0,
i=m+1

ou seja,
n
X
βi v i ∈ N p .
i=m+1

Isso implica que existem constantes γ1 , . . . , γm tais que


n
X m
X
βi v i = γ i ui ,
i=m+1 i=1

pois os vetores {u1 , . . . , um } são uma base em Np . Ora, como {u1 , . . . , um , vm+1 , . . . , vn } são linear-
mente independentes, segue que os βi ’s e os γj ’s são todos nulos. Isso prova que {Ap vm+1 , . . . , Ap vn }
são linearmente independentes e, portanto, por (3.50), formam uma base em Rp .
Isso incidentalmente provou que a dimensão de Rp é n − m. Temos, portanto, que

dim (Np ) + dim (Rp ) = dim (V ) .

Para i = m + 1, . . . , n defina-se ui = Ap vi . Afirmamos que o conjunto de vetores

{u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn }

é também linearmente independente e, portanto, forma uma base em V . Suponhamos que haja cons-
tantes escalares α1 , . . . , αn tais que
n m n
!
X X X
0 = α i ui = α i ui + A p αi v i .
i=1 i=1 i=m+1

Isso implica, obviamente, !


m
X n
X
αi ui = −Ap αi v i .
i=1 i=m+1

O lado esquerdo dessa igualdade é um elemento de Np (pois u1 , . . . , um são uma base em Np ), enquanto
que o lado esquerdo é obviamente um elemento da imagem de Ap , ou seja, de Rp . Contudo, já vimos
(Lema 3.3) que o único vetor que Np e Rp têm em comum é o vetor nulo. Logo,
m
X
α i ui = 0 (3.51)
i=1

e n
X
αi Ap vi = 0. (3.52)
i=m+1

A relação (3.51) implica α1 = · · · = αm = 0, pois {u1 , . . . , um } é uma base em Np . A relação (3.52)


implica αm+1 = · · · = αn = 0, pois {Ap v1 , . . . , Ap vm } é uma base em Rp . Assim, todos os αi ’s são
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 190/1195

nulos, provando que {u1 , . . . , um , um+1 , . . . , un } = {u1 , . . . , um , Ap vm+1 , . . . , Ap vn } é um


conjunto de n vetores linearmente independentes.
Conseqüentemente, todo x ∈ V pode ser escrito na forma
n m n
!
X X X
x = α i ui = α i ui + A p αi v i .
i=1 i=1 i=m+1
| {z } | {z }
xn ∈Np xr ∈Rp

Provar a unicidade dessa decomposição fica como exercı́cio. Isso completa a demonstração.

Uma das coisas que o teorema que acabamos de demonstrar diz é que, dado um operador A, o
espaço V pode ser decomposto em uma soma direta de dois sub-espaços, invariantes por A: um onde
A é nilpotente, Np , e outro onde A é invertı́vel, Rp . A é nilpotente em Np pois Ap x = 0 para todo
elemento x de Np . A é invertı́vel em Rp pois se x ∈ Rp é tal que Ax = 0 isso implica x ∈ N1 ⊂ Np .
Mas x só pode pertencer a Np e a Rp se for nulo. Logo, em Rp , Ax = 0 se e somente se x = 0, provando
que A é invertı́vel12 . Para referência futura formulemos essa afirmativa na forma de um teorema:
Teorema 3.16 Se A é um operador linear não-nulo agindo em um espaço vetorial V = n então é
possı́vel decompor V em dois sub-espaços invariantes por A, V = S ⊕ T, de forma que A restrito a S é
nilpotente, enquanto que A restrito a T é invertı́vel. 2

Esse será o teorema básico do qual extrairemos a demonstração do Teorema de Decomposição de


Jordan.

3.7.2 O Teorema da Decomposição de Jordan


Chegamos agora ao resultado mais importante desta seção, o Teorema da Decomposição de Jordan 13 ,
um importante teorema estrutural sobre matrizes de importância em vários campos, por exemplo na
teoria das equações diferenciais ordinárias. Para tais aplicações, vide Capı́tulo 6, página 292.
O Teorema da Decomposição de Jordan também tem certa relevância na Teoria de Grupos, e o
usaremos para provar que toda matriz n × n complexa invertı́vel (ou seja, todo elemento do grupo
GL( , n)) pode ser escrita como exponencial de outra matriz (Proposição 4.11, página 224). No
Capı́tulo 4 usaremos o Teorema da Decomposição de Jordan para provar a identidade útil det(e A ) =
eTr (A) , válida para qualquer matrix n × n real ou complexa. (Proposição 4.7, página 222).

• Enunciado e Demonstração do Teorema da Decomposição de Jordan

Teorema 3.17 (Teorema da Decomposição de Jordan) Seja A um operador linear agindo no


espaço V = n e seja {α1 , . . . , αr } o conjunto de seus autovalores distintos. Então existem r
12
Lembre-se que esse argumento só funciona em espaços vetoriais V que tenham dimensão finita, o que estamos supondo
aqui.
13
Marie Ennemond Camille Jordan (1838-1922). A forma canônica de matrizes (que será discutida mais adiante) foi
originalmente descoberta por Weierstrass (Karl Theodor Wilhelm Weierstrass (1815-1897)) e redescoberta por Jordan
em 1870.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 191/1195

sub-espaços S1 , . . . , Sr tais que V = S1 ⊕ . . . ⊕ Sr e tais que cada Si é invariante por A. Ou seja,


A = A1 ⊕ . . . ⊕ Ar , onde Ai é A restrita a Si . Fora isso, cada Ai , é da forma Ai = αi i + Ni , onde i é
a matriz identidade em Si e onde Ni é nilpotente. Por fim, a dimensão si de cada subespaço Si é igual
à multiplicidade algébrica do autovalor αi . 2

Demonstração. Seja {α1 , . . . , αr } o conjunto dos autovalores distintos de A e seja ni a multiplicidade


algébrica do autovalor αi . Seja A1 = A − α1 . Pelo Teorema 3.16, página 190, V pode ser escrito como
V = S1 ⊕ T1 , onde S1 e T1 são invariantes por A1 , sendo A1 nilpotente em S1 e invertı́vel em T1 . Assim,
A1 é da forma A1 = N1 ⊕ M1 com N1 nilpotente e M1 invertı́vel. Logo

A = α1 + A1 = (α1 S1 + N1 ) ⊕ (α1 T1 + M1 ), (3.53)

onde S1 é a matriz identidade em S1 etc. Vamos mostrar que a dimensão de S1 é igual à multiplicidade
algébrica de α1 . Por (3.53) o polinômio caracterı́stico de A é

qA (λ) = det(λ − A) = det((λ − α1 ) S1 − N1 ) det((λ − α1 ) T1 − M1 ).

Se qN1 denota o polinômio caracterı́stico de N1 , tem-se

det((λ − α1 ) S1 − N1 ) = qN1 (λ − α1 ) = (λ − α1 )s1 ,

onde, na última igualdade, usamos a Proposição 3.18, página 186, sobre a forma do polinômio carac-
terı́stico de uma matriz nilpotente. Daı́, segue que

qA (λ) = (λ − α1 )s1 qM1 (λ − α1 ),

sendo qM1 o polinômio caracterı́stico de M1 . Como M1 é invertı́vel, M1 não tem o zero como autovalor.
Logo, qM1 (0) 6= 0. Portanto s1 é igual à multiplicidade de α1 como raiz de qA , ou seja, é igual a n1 , a
multiplicidade algébrica de α1 .
A idéia agora é prosseguir decompondo agora o operador α1 T1 + M1 que aparece em (3.53) da
mesma maneira como fizermos acima com A.
Seja A0 = α1 T1 + M1 e que age em T1 , que é um espaço de dimensão n − n1 . Definimos A2 =
A 0 − α 2 T1 .
Evocando novamente o Teorema 3.16, página 190, T1 pode ser escrito como T1 = S2 ⊕ T2 , onde S2
e T2 são invariantes por A2 , sendo A2 nilpotente em S2 e invertı́vel em T2 . Assim, V = S1 ⊕ S2 ⊕ T2 .
Agindo em T1 = S2 ⊕ T2 , A2 é da forma A2 = N2 ⊕ M2 com N2 nilpotente e M2 invertı́vel. Logo

A0 = α 2 T1 + A2 = (α2 S2 + N2 ) ⊕ (α2 T2 + M2 ). (3.54)

Vamos, como acima, mostrar que a dimensão de S2 é igual à multiplicidade algébrica de α2 .


Pela definição,

A = (α1 S1 + N1 ) ⊕ A0 = (α1 S1 + N1 ) ⊕ (α2 S2 + N2 ) ⊕ (α2 T2 + M2 ).

Logo,
qA (λ) = det ((λ − α1 ) S1 − N1 ) det ((λ − α2 ) S2 − N2 ) det ((λ − α2 ) T2 − M2 ).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 192/1195

Portanto, pelos mesmos argumentos usados acima,


qA (λ) = (λ − α1 )n1 (λ − α2 )s2 qM2 (λ − α2 ).
Como M2 é invertı́vel, M2 não tem autovalor zero e, assim, qM2 (0) 6= 0. Logo, s2 = n2 . T2 é assim um
sub-espaço de dimensão n − n1 − n2 .
Prosseguindo nas mesmas linhas, após r passos chegaremos a um sub-espaço Tr de dimensão n −
n1 − · · · − nr = 0 (por (3.5), página 145). Aı́, teremos V = S1 ⊕ · · · ⊕ Sr , onde cada Si tem dimensão
ni e
A = (α1 S1 + N1 ) ⊕ · · · ⊕ (αr Sr + Nr )
onde os Ni ’s são todos nilpotentes. Isso completa a demonstração.

Um corolário importante do Teorema de Decomposição de Jordan é o seguinte:


Teorema 3.18 Para toda matriz A ∈ Mat ( , n) existe uma matriz invertı́vel P ∈ Mat ( , n) tal que
P −1 AP = D + N , onde D é uma matriz diagonal formada pelos autovalores de A e N é uma matriz
nilpotente e de tal forma que D e N comutam: DN = N D.
Conseqüentemente, toda matriz A ∈ Mat ( , n) pode ser escrita na forma A = A d + An com
Ad An = An Ad , sendo Ad diagonalizável e An nilpotente, a saber, Ad = P DP −1 e An = P N P −1 , com
D e N dados acima. 2

Demonstração do Teorema 3.18. O Teorema 3.17 está dizendo que, numa base conveniente, A tem a
forma de blocos diagonais
 
α1 s 1 + N 1 0 ··· 0
   
A1 0 · · · 0  
 0 α 2 s2 + N 2 · · · 0 
 0 A2 · · · 0   
   
A =  .. .. . . ..  =  , (3.55)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · α r sr + N r
ou seja,
A = D + N,
onde  
α1 s 1 0 ··· 0  
 0 α · · · 0 
 2 s2 
D =  .. .. . . . . , α1 , . . . , αr , . . . , αr 
..  = diag |α1 , .{z } | {z }
 . . . . 
s1 vezes sr vezes
0 0 · · · α r sr
e  
N1 0 · · · 0
 0 N2 · · · 0 
 
N =  .. .. . . ..  . (3.56)
 . . . . 
0 0 · · · Nr
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 193/1195

Acima si é a dimensão do sub-espaço Si .


É fácil de se ver que N é uma matriz nilpotente, pois se o ki é o ı́ndice de Ni (ou seja, ki é o menor
inteiro positivo para o qual Niki = 0), então para k := max (k1 , . . . , kr ) tem-se
 
(N1 )k 0 ··· 0
 0 (N2 )k · · · 0 
 
N k =  .. .. .. ..  = 0.
 . . . . 
0 0 · · · (Nr )k

Em verdade, k = max (k1 , . . . , kr ) é o ı́ndice de N (por que?).


Por fim, como cada Ni comuta com αi si , fica claro que D e N comutam. Isso completa a demons-
tração.

Corolário 3.2 Uma matriz M ∈ Mat ( , n) é nilpotente se e somente se todos os seus autovalores
forem nulos. 2

Prova. A Proposição 3.18, página 186, afirma que se M é nilpotente todos os seus autovalores são
nulos. O Teorema 3.18, página 192, afirma que se os autovalores de M são nulos, então existe P tal
que P −1 M P = N , nilpotente. Isso implica que M é nilpotente.

3.7.3 Matrizes Nilpotentes e sua Representação Canônica


Os teoremas que estudamos acima nesta seção revelam a importância de matrizes nilpotentes. Um fato
relevante é que elas podem ser representadas de uma forma especial, denominada forma canônica, da
qual traremos logo abaixo. Antes, alguma preparação se faz necessária.
Seja N ∈ Mat ( , n) uma matriz nilpotente de ı́ndice q, ou seja, N q = 0, mas N q−1 6= 0. Para uso
futuro, provemos o seguinte lema:
Lema 3.4 Seja N uma matriz nilpotente de ı́ndice q. Estão existe um vetor v 6= 0 tal que os q vetores

v, N v, N 2 v, ..., N q−1 v , (3.57)

são linearmente independentes. Fora isso, o subespaço q-dimensional J v, q := hv, N v, N 2 v, . . . , N q−1 vi


de V gerado por esses q vetores é invariante por N . 2

Prova. Se q = 1, então N = 0 e não há nada a provar, pois a afirmação é trivialmente verdadeira para
qualquer v 6= 0. Seja então q > 1 (em cujo caso N 6= 0, trivialmente). Sabemos, por hipótese, que
a matriz N q−1 é não-nula. Isso significa que existe pelo menos um vetor v 6= 0 tal que N q−1 v 6= 0.
Fixemos um tal vetor. É imediato que os vetores N v, N 2 v, . . . , N q−1 v são todos não-nulos pois,
se tivéssemos N j v = 0 para algum 1 ≤ j < q − 1, então, aplicando-se N q−1−j à esquerda, terı́amos
N q−1 v = 0, uma contradição.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 194/1195

Sejam agora α1 , . . . , αq escalares tais que

α1 v + α2 N v + α3 N 2 v + · · · + αq N q−1 v = 0. (3.58)

Aplicando-se N q−1 nessa igualdade e lembrando que N q = 0, concluı́mos que α1 N q−1 v = 0. Como
N q−1 v 6= 0, segue que α1 = 0 e, com isso, (3.58) fica

α2 N v + α3 N 2 v + · · · + αq N q−1 v = 0. (3.59)

Aplicando agora N q−2 nessa igualdade concluı́mos que α2 = 0. Prosseguindo, concluı́mos depois de
q passos que todos os escalares αj são nulos. Isso prova que os q vetores de (3.57) são linearmente
independentes.
Que o subespaço Jv, q definido acima é invariante por N é evidente pois, para quaisquer escalares
β1 , . . . , βq , tem-se

N β1 v + β2 N v + · · · + βq N q−1 v = β1 N v + β2 N 2 v + · · · + βq−1 N q−1 v ∈ Jv, q .

O seguinte teorema é central para o que segue.


Teorema 3.19 Se N é uma matriz nilpotente de ı́ndice q agindo em V e v um vetor com a propriedade
que N q−1 v 6= 0, então existe um subespaço K de V tal que Jv, q ∩ K = {0}, tal que V = Jv, q ⊕ K e tal
que K é também invariante por N . 2

Prova.14 A prova é feita por indução em q. Note-se que se q = 1, então N = 0 e a afirmativa é trivial,
pois podemos tomar como v qualquer vetor não-nulo, Jv, q seria o subespaço gerado por esse v e K o
subespaço complementar a v, que é trivialmente invariante por N , pois N = 0.
Vamos supor então que a afirmação seja válida para matrizes nilpotentes de ı́ndice q − 1 e provar
que a mesma é válida para matrizes nilpotentes de ı́ndice q. O que desejamos é construir um subespaço
K com as propriedades desejadas, ou seja, tal que V = Jv, q ⊕ K, sendo K invariante por N .
Seja V0 = R(N ) o conjunto imagem de N . Sabemos que V0 é um subespaço de V e que é invariante
por N . Fora isso, N é nilpotente de ı́ndice q − 1 agindo em V0 (por que?)
Seja v0 = N v ∈ V0 . É claro que N q−2 v0 = N q−1 v 6= 0. Assim, pelo Lema 3.57, o subespaço
(q − 1)-dimensional

Jv0 , q−1 = hv0 , N v0 , . . . , N q−2 v0 i = hN v, N 2 v, . . . , N q−1 vi = JN v, q−1 ,

que é um sub-espaço de V0 , é invariante por N e, da hipótese indutiva, concluı́mos que existe um


subespaço K0 de V0 que é invariante por N tal que JN v, q−1 ∩ K0 = {0} e tal que V0 = JN v, q−1 ⊕ K0 .
Seja agora K1 := {x ∈ V | N x ∈ K0 }. Vamos provar a seguinte afirmação:
14
Extraı́da, com modificações, de [52].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 195/1195

I. Todo vetor x de V pode ser escrito na forma x = y + z onde y ∈ Jv, q e z ∈ K1 .


Para provar isso, notemos que para qualquer x ∈ V vale certamente que N x ∈ V0 . Portanto,
como pela hipótese indutiva V0 = JN v, q−1 ⊕ K0 , podemos escrever N x = y 0 + z 0 , com y 0 ∈ JN v, q−1
e z 0 ∈ K0 . Como y 0 ∈ JN v, q−1 , y 0 é da forma de uma combinação linear y 0 = α1 N v + · · · +
αq−1 N q−1 v = N y, onde y := α1 v + α2 N v + · · · + αq−1 N q−2 v é um elemento de Jv, q . Logo,
z 0 = N (x − y). Como z 0 ∈ K0 , segue que z := x − y ∈ K1 . Assim, x = y + z, com y ∈ Jv, q e
z ∈ K1 . Isso provou I.

Note que a afirmação feita em I não significa que V = Jv, q ⊕ K1 , pois os sub-espaços Jv, q e K1
podem ter uma intersecção não-trivial. Tem-se, porém, o seguinte:

II. Jv, q ∩ K0 = {0}.


Provemos essa afirmação. Seja x ∈ Jv, q ∩ K0 . Como x ∈ Jv, q , x é da forma x = α1 v + α2 N v +
· · · + αq N q−1 v. Logo N x = α1 N v + α2 N 2 v + · · · + αq−1 N q−1 v ∈ JN v, q−1 . Agora, como x ∈ K0 e,
por hipótese, K0 é invariante por N , segue que N x ∈ K0 . Logo, N x ∈ JN v, q−1 ∩ K0 . Todavia,
mencionamos acima que JN v, q−1 ∩ K0 = {0}. Logo, N x = 0, ou seja, 0 = N x = α1 N v + α2 N 2 v +
· · · + αq−1 N q−1 v. Como os vetores N v, . . . , N q−1 v são linearmente independentes, concluı́mos
que α1 = · · · αq−1 = 0. Logo, x = αq N q−1 v. Isso significa que x ∈ JN v, q−1 . Demonstramos,
então, que se x ∈ Jv, q ∩ K0 então x ∈ JN v, q−1 ∩ K0 mas, como JN v, q−1 ∩ K0 = {0}, segue que
x = 0. Isso conclui a prova de II.

III. K0 e Jv, q ∩ K1 , são dois sub-espaços disjuntos de K1 .


A demonstração é muito simples. É evidente que Jv, q ∩ K1 é subespaço de K1 . Como K0 é
invariante pela ação de N , segue que se x ∈ K0 então N x ∈ K0 . Pela definição, isso diz que
x ∈ K1 e concluı́mos que K0 é um subespaço e K1 .
Que K0 e Jv, q ∩ K1 são sub-espaços disjuntos, segue do fato que
II
K0 ∩ (Jv, q ∩ K1 ) = K1 ∩ (Jv, q ∩ K0 ) = K1 ∩ {0} = {0} .

A afirmação III implica que K1 = (Jv, q ∩ K1 ) ⊕ K0 ⊕ K00 para algum subespaço K00 de K1 (não
necessariamente único). Seja agora K := K0 ⊕ K00 . Note que K1 = (Jv, q ∩ K1 ) ⊕ K e, portanto,

(Jv, q ∩ K1 ) ∩ K = {0} . (3.60)

Provaremos que esse K possui as propriedades desejadas, ou seja, que V = Jv, q ⊕K, sendo K invariante
por N . Isso é feito em três passos.

1. Jv, q e K são sub-espaços disjuntos, ou seja, Jv, q ∩ K = {0}, pois, como K ⊂ K1 , segue que
K = K ∩ K1 e, portanto,
(3.60)
Jv, q ∩ K = Jv, q ∩ (K ∩ K1 ) = (Jv, q ∩ K1 ) ∩ K = {0} .

2. Jv, q ⊕K contem os vetores de Jv, q e de (Jv, q ∩K1 )⊕K = K1 . Por I, isso implica que Jv, q ⊕K = V .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 196/1195

3. K é invariante por N , pois o fato que K ⊂ K1 , implica, pela definição de K1 , que N K ⊂ N K1 ⊂


K0 ⊂ K.

A prova do Teorema 3.19 está completa

A principal conseqüência do Teorema 3.19 é a seguinte.


Proposição 3.19 Seja N ∈ Mat ( , n) uma matriz nilpotente de ı́ndice q. Então existem

1. um inteiro positivo r, com 1 ≤ r ≤ n,

2. r números inteiros positivos n ≥ q1 ≥ q2 ≥ · · · ≥ qr ≥ 1, com q1 + · · · + qr = n,

3. r vetores v1 , . . . , vr satisfazendo N qj vj = 0 mas N qj −1 vj 6= 0, j = 1, . . . , r,

tais que
V = J v1 , q1 ⊕ · · · ⊕ J vr , qr .
2

Prova. Se q = 1 então N = 0. Basta tomar r = n e escolher v1 , . . . , vn uma base qualquer em V . Os


qj ’s são todos iguais a 1.
Consideremos então q > 1 com N 6= 0. Tomemos q1 = q. Pelo Teorema 3.19, existem um vetor
v1 6= 0 e um subespaço K 1 , invariante por N tais que

V = J v1 , q1 ⊕ K 1 .

Como K 1 é invariante por N , podemos também dizer que a matriz N é nilpotente quando restrita
a K 1 (já que é nilpotente em todo V ). Denotemos por q2 o ı́ndice de N quando restrita a K 1 . É claro
que q2 ≤ q = q1 .
Assim, podemos aplicar o Teorema 3.19 para a matriz N restrita a K 1 e concluir que existe v2 6= 0
em K 1 e um subespaço K 2 de K 1 , invariante por N , tais que K 1 = Jv2 , q2 ⊕ K 2 . Note que N q2 v2 = 0,
pois v2 ∈ K 1 .
Com isso, temos
V = J v1 , q1 ⊕ J v2 , q2 ⊕ K 2 .
Novamente K 2 é invariante por N e, como K 2 é um sub-espaço de K 1 . O ı́ndice de N em K 2 será
q3 ≤ q 2 ≤ q 1 .
O espaço V tem dimensão finita. Assim, a prova se concluı́ repetindo o procedimento acima um
número finito r de vezes. Note que N qj vj = 0, pois N q1 v1 = 0, e vj ∈ K j−1 para todo j = 2, . . . , r.

Pela construção acima, é claro que q1 + · · · + qr = n, a dimensão de V , e que os n vetores

v1 , N v1 , . . . , N q1 −1 v1 , v2 , N v2 , . . . , N q2 −1 v2 , . . . , vr , N vr , . . . , N qr −1 vr
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 197/1195

são linearmente independentes e formam uma base em V . Vamos denotá-los (na ordem em que aparecem
acima) por b1 , . . . , bn .
Note agora que, pela construção, N bj = bj+1 , para j em cada um dos conjuntos

{1, . . . , q1 − 1}, {1 + q1 , . . . , q1 + q2 − 1}, {1 + q1 + q2 , . . . , q1 + q2 + q3 − 1},

... {1 + q1 + · · · + qr−1 , . . . , q1 + · · · + qr − 1} , (3.61)

com l = 0, . . . , r − 1, sendo que N bj = 0 para todo j na forma q1 + · · · + ql , l = 1, . . . , r.

E. 3.25 Exercı́cio impotante para compreender o que segue. Justifique as últimas afirmações. 6

Isso significa que na base b1 , . . . , bn os elementos de matriz de N são todos nulos exceto aqueles na
forma Nj, j+1 com j em algum dos conjuntos listados em (3.61), em cujo caso Nj, j+1 = 1. Pictoriamente,
isso diz-nos que na base b1 , . . . , bn a matriz N assume uma forma genericamente ilustrada na Figura
3.1. Essa é a denominada forma canônica da matriz nilpotente N ou representação canônica da matriz
nilpotente N , que descrevemos mais detalhadamente no que segue.
Os elementos da diagonal principal são todos nulos. Os únicos elementos não-nulos da matriz
podem estar localizados apenas na diagonal imediatamente acima da principal, ou seja, aquela diagonal
formada por elementos de matriz do tipo Nj, j+1 com j = 1, . . . , n − 1. Chamaremos essa diagonal de
primeira supra-diagonal. Os elementos da primeira supra-diagonal podem ser 0 ou 1, da forma seguinte:
a primeira supra-diagonal possuirá r fileiras. As primeiras r − 1 fileiras são formadas por q j elementos,
j = 1, . . . , n − 1, sendo os primeiros qj − 1 elementos iguais a 1 e o último igual a 0. A última fileira
terá qr − 1 elementos iguais a 1. Assim, se qr = 1, o último elemento da primeira supra-diagonal será
nulo, proveniente da (r − 1)-ésima fileira (essa é a única forma de aparecer um zero no último elemento
da primeira supra-diagonal).
Note que zeros consecutivos podem ocorrer, se tivermos alguns qj ’s iguais a 1. Note também que
os elementos da primeira supra-diagonal podem ser todos nulos (o que valerá se r = n, em cujo caso
q1 = · · · = rn = 1. Isso só pode ocorrer se N = 0 e, nesse caso, q = 1) ou todos iguais a 1 (o que valerá
se r = 1, em cujo caso q1 = n).

3.7.4 A Forma Canônica de Matrizes


Finalizamos esta seção e nossa discussão sobre o Teorema da Decomposição de Jordan e suas con-
seqüências reunindo o que descobrimos até aqui.
Se A ∈ Mat ( , n) o Teorema 3.17, página 191 ensinou-nos que numa base conveniente (ou seja,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 198/1195

0 1 (q − 1) vezes
1

} 1
0
1
(q − 1) vezes
2
0
N =
} 1
0

0
1

1
0

0 (q − 1) vezes
r
1

0 } 1
0

Figura 3.1: Forma canônica tı́pica de uma matriz nilpotente N . Os elementos da primeira supra-
diagonal podem valer 0 ou 1. Todos os demais elementos de matriz são nulos.

por uma transformação de similaridade P0−1 AP0 ), toda matriz A tem a forma de blocos diagonais:
 
α1 n1 + N 1 0 ··· 0
   
A1 0 · · · 0  
 0 α 2 n2 + N 2 · · · 0 
 0 A2 · · · 0   
−1    
P0 AP0 =  .. .. . . ..  =  , (3.62)
 . . . .   .. .. . . .. 
 . . . . 
0 0 · · · Ar  
 
0 0 · · · α r nr + N r

sendo α1 , . . . , αr os autovalores distintos de A. O j-ésimo bloco é de tamanho nj × nj , sendo que nj


é a multiplicidade algébrica do autovalor αj . As matrizes Nj são nilpotentes.
Cada matriz Nj pode ser levada à sua forma canônica Njc (tal como explicado em (3.1) e no que se
lhe segue) em uma base conveniente, ou seja, por uma transformação de similaridade Pj−1 Nj Pj . Assim,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 199/1195

definindo  
P1 0 · · · 0
 0 P2 · · · 0 
 
P =  .. .. . . ..  (3.63)
. . . .
0 0 · · · Pr
vemos que P −1 (P0−1 AP0 )P = (P0 P )−1 A(P0 P ), sendo que, por (3.62),
 −1 
P1 (α1 n1 + N1 ) P1 0 ··· 0
 
 
 0 P2−1 (α2 n2 + N2 ) P1 ··· 0 
 
 
P −1 (P0−1 AP0 )P =  
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · Pr−1 (αr nr + N r ) Pr
 
α1 n1 + N1c 0 ··· 0
 
 
 0 α2 + N2c · · · 0 
 n2 
 
=  . (3.64)
 .. .. .. .. 
 . . . . 
 
 
0 0 · · · αr nr + Nrc

E. 3.26 Exercı́cio. Complete os detalhes. 6

A matriz final de (3.64) é denominada forma canônica da matriz A, ou forma canônica de Jordan
da matriz A. Como dissemos, toda matriz A assume essa forma numa certa base. Devido ao fato de
todos as sub-matrizes nilpotentes Njc terem a forma canônica, os únicos elementos não-nulos da forma
canônica da matriz A podem estar ou na diagonal principal (sendo estes os autovalores de A, cada
um aparecendo em uma fileira de nj elementos), ou na primeira supra-diagonal, sendo que estes valem
apenas 0 ou 1 e seguem as regras descritas acima. Isso é ilustrado na Figura 3.2,
A Figura 3.2, mostra a forma canônica de uma matriz que possui 4 autovalores distintos α 1 , α2 , α3
e α4 . A primeira supra-diagonal é formada pela seqüência de números
γ11 , . . . , γ1a , 0, γ11 , . . . , γ1b , 0, γ11 , . . . , γ1c , 0, γ11 , . . . , γ1d , (3.65)
sendo que os γij assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima quando
discutimos a forma canônica de matrizes nilpotentes. Todos os elementos fora da diagonal principal e
da primeira supradiagonal são nulos. O primeiro bloco é de dimensão (a + 1) × (a + 1), o segundo bloco
é de dimensão (b + 1) × (b + 1) etc., sendo a + 1 a multiplicidade algébrica de α1 , b + 1 a multiplicidade
algébrica de α2 etc.
É interessante notar que na primeira supra-diagonal, sempre ocorrem zeros nos pontos localizados
fora dos blocos, ou seja, nos pontos onde ocorrem transições entre dois autovalores distintos (indicados
por setas na Figura 3.2). Esses são os zeros que ocorrem explicitamente na lista (3.65).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 200/1195

Por fim, comentamos que a forma canônica não é exatamente única, pois é possı́vel ainda fazer
transformações de similaridade que permutem os blocos de Jordan da matriz. Além disso, dentro de
cada sub-espaço invariante (onde cada bloco age) é possı́vel fazer certas permutações dos elementos da
base, de modo a preservar a diagonal e permutar os γi ’s da primeira supradiagonal.

3.8 Algumas Representações Especiais de Matrizes


Nas seções anteriores apresentamos algumas formas especiais de representar matrizes com determinadas
caracterı́sticas, como aquelas expressas no Teorema Espectral e no Teorema de Jordan. Nesta seção
apresentaremos outras representações, relevantes em certos contextos, como a decomposição polar.

3.8.1 A Decomposição Polar de Matrizes


É bem conhecido o fato de que todo√número complexo z pode ser escrito na forma polar z = |z|e iθ , onde
|z| ≥ 0 e θ ∈ . Tem-se que |z| = zz e eiθ = z|z|−1 . Há uma afirmação análoga válida para matrizes


A ∈ Mat ( , n), a qual é muito útil, e da qual trataremos nesta seção. Antes de enunciarmos esse
resultado de forma mais precisa (o Teorema da Decomposição Polar, Teorema 3.20, abaixo), façamos
algumas observações preliminares.
Seja A ∈ Mat ( , n) e seja a matriz A∗ A. Notemos primeiramente que (A∗ A)∗ = A∗ A∗∗ = A∗ A, ou
seja, A∗ A e auto-adjunta. Pelo Teorema 3.12, página 179, é possı́vel encontrar um conjunto ortonormal
{vk , k = 1, . . . , n} de autovetores de A∗ A, com autovalores dk , k = 1, . . . , n, respectivamente, sendo
que a matriz
P := [[v1 , . . . , vn ]] (3.66)
(para a notação, vide (3.1)) é unitária e diagonaliza A∗ A, ou seja, P ∗ (A∗ A)P = D, sendo D a matriz
diagonal D := diag (d1 , . . . , dn ), cujos elementos da diagonal são os autovalores de A∗ A. Os autovalores
dk são todos maiores ou iguais a zero. De fato, se vk 6= 0 é um autovetor de A∗ A com autovalor dk ,
teremos dk kvk k2 = dk hvk , vk i = hvk , Bvk i = hvk , A∗ Avk i = hAvk , Avk i = kAvk k2 . Logo,
   

dk = kAvk k2 /kvk k2 ≥ 0.
Com esses fatos à mão, vamos definir uma matriz diagonal, que denotaremos sugestivamente por
√ √ 2
D , por D 1/2 := diag ( d1 , . . . , dn ). Tem-se que D 1/2 = D, uma propriedade óbvia15 . Note-se
1/2
∗ √
também que D 1/2 = D 1/2 , pois cada dk é real.

Definamos agora a matriz A∗ A, por

A∗ A := P D 1/2 P ∗ . (3.67)
√ √ ∗ ∗ √
Essa matriz A∗ A é auto-adjunta, pois A∗ A = P D 1/2 P ∗ = P D 1/2 P ∗ = A∗ A. Observemos que
√ 2
A∗ A = P (D 1/2 )2 P ∗ = P DP ∗ = A∗ A. Disso segue que
 √ 2  2 

det A∗ A = det A∗ A = det(A∗ A) = det(A∗ ) det(A) = det(A) det(A) = | det(A)|2 .

15
√ √
Essa não é a única matriz com essa propriedades, pois qualquer matriz do tipo diag (± d1 , . . . , ± dn ), com os
sinais ± escolhidos independentemente uns dos outros, também tem como quadrado a matriz D.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 201/1195

 √ √
Provamos assim que det A∗ A = | det(A)| e, portanto, A∗ A é invertı́vel se e somente se A o for.

Alguns autores denotam a matriz A∗ A por |A|, por analogia com o módulo de um número com-
plexo. Podemos agora formular e demonstrar o resultado que procuramos:
Teorema 3.20 (Teorema da Decomposição Polar) Seja A ∈ Mat ( , n). Então existe uma ma-
triz unitária U ∈ Mat ( , n) tal que √
A = U A∗ A . (3.68)
Se A é invertı́vel, então U é univocamente determinada. A representação (3.68) é denominada repre-
sentação polar de A. 2

Prova. Sejam, como acima, dk , k = 1, . . . , n os autovalores de A∗ A com autovetores respectivos vk ,


k = 1, . . . , n. Sabemos pelo Teorema 3.12, página 179 que podemos escolher os vk ’s de forma que
hvk , vl i = δk l .


Como vimos acima, os autovalores dk satisfazem dk ≥ 0. Sem perda de generalidade, vamos supô-los
ordenados de forma que dk > 0 para todo k = 1, . . . , r e dk = 0 para todo k = r + 1, . . . , n. Com essa
escolha, tem-se que
Avk = 0 para todo k = r + 1, . . . , n , (3.69)
pois de A∗ Avk = 0, seque que 0 = hvk , A∗ Avk i = hAvk , Avk i = kAvk k2 .
 

Para k = 1, . . . , r, sejam wk os vetores definidos da seguinte forma:


1
wk := √ Avk , k = 1, . . . , r . (3.70)
dk

É fácil ver que


1 1 dk dk
hwk , wl i  = √ hAvk , Avl i = √ hA∗ Avk , vl i = √ hvk , vl i = √ δk l = δ k l
dk dl


dk dl


dk dl


dk dl

para todos k, l = 1, . . . , r. Assim, o conjunto de vetores {wk , k = 1, . . . , r} forma um conjunto


ortonormal. A eles podemos acrescentar um novo conjunto {wk , k = r + 1, . . . , n}, escolhido ar-
bitráriamente, de vetores ortonormais pertenentes ao complemento ortogonal do sub-espaço gerado por
{wk , k = 1, . . . , r} e construir assim, um conjunto ortonormal {wk , k = 1, . . . , n}.
Sejam agora a matriz P , definida em (3.66) e as seguintes matrizes de Mat ( , n):

Q := [[w1 , . . . , wn ]] , U := QP ∗

(para a notação, vide (3.1)). Como {vk , k = 1, . . . , n} e {wk , k = 1, . . . , n} são dois conjuntos
ortonormais, segue que P e Q são matrizes unitárias (por quê?) e, portanto, U também é unitária.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 202/1195

√ √ 
É fácil ver que AP = QD 1/2 , onde D 1/2 = diag d1 , . . . , dn , De fato,
(3.66) (3.2)
AP = A[[v1 , . . . , vn ]] = [[Av1 , . . . , Avn ]]

(3.69)
= [[Av1 , . . . , Avr 0, . . . , 0]]

(3.70) p p
= [[ d1 w1 , . . . , dr wr 0, . . . , 0]]

(3.4)
[[w1 , . . . , wn ]]D 1/2 = QD 1/2 .
=
(3.67) √
Agora, de AP = QD 1/2 , segue que A = QD 1/2 P ∗ = U P D 1/2 P ∗ = U A∗ A, que é o que querı́amos
provar.
Para mostrar√ que U é univocamente
√ determinado se A for √invertı́vel, suponhamos que exista U 0
∗ 0 ∗
tal que A = U A A = U A A. Como comentamos √ acima,
√ A∗ A é invertı́vel se e somente se A
o for. Logo, se A é invertı́vel, a igualdade U A∗ A = U 0 A∗ A implica U = U 0 , estabelecendo a
unicidade. Caso A não seja invertı́vel a arbitrariedade de U reside na escolha dos vetores ortogonais
{wk , k = r + 1, . . . , n}.

O seguinte corolário é elementar:


Teorema 3.21 Seja A ∈ Mat ( , n). Então existe uma matriz unitária V ∈ Mat ( , n) tal que

A = AA∗ V . (3.71)
Se A é invertı́vel, então V é univocamente determinada. 2

∗ ∗
p √
Prova. Para a matriz A , (3.68) diz-nos que A = U (A ∗ )∗ A ∗ = U AA∗ para alguma matriz
√ 0 √ 0
unitária U0 . Como AA∗ é auto-adjunta, segue que A = AA∗ U0 . Identificando V = U0∗ , obtemos o

que desejamos.

O Teorema da Decomposição Polar pode ser generalizado para abranger operadores limitados agindo
em espaços de Hilbert (vide Teorema 23.22, página 1080) e mesmo para abranger operadores não-
limitados agindo em espaços de Hilbert (vide [99]).

3.8.2 O Teorema da Triangularização de Schur


O teorema que apresentamos abaixo, devido a Schur16 , é semelhante, mas não idêntico, ao Teorema de
Jordan: toda matriz de Mat ( , n) pode ser levada por uma transformação de similaridade induzida
por uma matriz unitária a uma matriz triangular superior (para a definição, vide Seção 3.6, página
182). Esse teorema é alternativamente denominado Teorema da Triangularização de Schur ou Teorema
da Decomposição de Schur. Como veremos, esse teorema pode ser usado para fornecer uma outra
demonstração (eventualmente mais simples) da diagonalizabilidade de matrizes auto-adjuntas e de
matrizes normais por matrizes unitárias.
16
Issai Schur (1875-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 203/1195

Teorema 3.22 (Teorema da Decomposição de Schur) Seja A ∈ Mat ( , n). Então existe U ∈
Mat ( , n), unitária, e S ∈ Mat ( , n), triangular superior, tais que A = U ∗ SU . Os elementos da
diagonal de S são os autovalores de A. 2

Antes de provarmos esse teorema, mencionemos um corolário evidente:


Corolário 3.3 Seja A ∈ Mat ( , n). Então existe V ∈ Mat ( , n), unitária, e I ∈ Mat ( , n),
triangular inferior, tais que A = V ∗ IV . Os elementos da diagonal de I são os autovalores de A. 2

Prova do Corolário 3.3. Pelo Teorema 3.22, a matriz A∗ pode ser escrita da forma A∗ = V ∗ SV , com V
unitária e S triangular superior. Logo, A = V ∗ S ∗ V . Porém, S ∗ ≡ I é triangular inferior.
Também pelo Teorema 3.22, os autovalores de A∗ são os elementos diagonais de S, que são o
complexo conjugado dos elementos diagonais de S ∗ ≡ I. Mas os autovalores de A são o complexo
conjugado dos autovalores de A∗ (pela Proposição 3.14, página 176) e, portanto, são os elementos
diagonais de I.

Prova do Teorema 3.22. Comecemos observando que se A = U ∗ SU com U unitário, então A e S têm o
mesmo polinômio caracterı́stico e, portanto, os mesmos autovalores, incluindo a multiplicidade (vide a
discussão
Qn em torno de (3.7), página 146). Mas o polinômio caracterı́stico de S é p S (x) = det(x − S) =
k=1 (x − Skk ), pois S é triangular superior e, portanto, os autovalores de S são os elementos de sua
diagonal. Passemos à demonstração da afirmativa principal, ou seja, que A = U ∗ SU com U unitário e
S triangular superior.
Seja n ≥ 2 e v1 um autovetor de A com autovalor λ1 e kv1 k = 1. Seja U (1) uma matriz unitária da
(1) (1) (1)
forma U (1) = [[u1 , . . . , un ]] com u1 = v1 , ou seja, cuja primeira coluna é o vetor v1 . Então,
 (1) (1)

λ1 b1 ··· bn−1
 (1) (1) 
(1) (3.2)
0
(1) 
a11 ··· a1(n−1) 
AU
(1) (1) (1) (1) (1)
= [[Au1 , . . . , Aun ]] = [[λ1 u1 , Au2 , . . . , Aun ]] = U  . .. .. 
.. 
 .. . . . 
(1) (1)
0 a(n−1)1 · · · a(n−1)(n−1)

(1) (1)
para certos bk e akl , k, l = 1, . . . , n − 1, onde
n−1
X
(1) (1) (1) (1) (1)
Auk = b k u1 + alk ul+1 , k = 2, . . . , n . (3.72)
l=1

Para simplificar a notação, definimos


 (1)
    (1) (1) 
b1 0 a11 ··· a1(n−1)
   ..   
b(1) =  ...  , n−1 = . , A(1) =  ... ..
.
..
.  ,
(1) (1) (1)
bn−1 0 a(n−1)1 · · · a(n−1)(n−1)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 204/1195

( n−1 tendo n − 1 linhas) e escrevemos a identidade (3.72) como


 T
(1) ∗ (1) λ1 b(1)
U AU = (1)
. (3.73)
n−1 A

Para n = 2 isso demonstra o teorema, pois afirma que


!
(1)
(1) ∗ λ1 b 1
U AU (1) = (1) ,
0 a11

sendo o lado direito uma matriz triangular superior. Para n > 2 procedemos por indução. Supondo a
afirmação válida para matrizes (n − 1) × (n − 1), então existe uma matriz unitária V ∈ Mat ( , n − 1)
tal que V ∗ A(1) V = S (1) ,sendo S (1) triangular superior. Assim, definindo a matriz unitária U (2) ∈
1 T
Mat ( , n) por U (2) := n−1
n−1
V
, teremos por (3.73),
∗ ∗ ∗
U (1) U (2) AU (1) U (2) = U (2) U (1) AU (1) U (2)
 T
 T T

1 n−1 λ1 b(1) 1 n−1
= ∗
n−1 V n−1 A(1) n−1 V
 T 
λ1 V T b(1)
=
n−1 V ∗ A(1) V
 T 
λ1 V T b(1)
= ,
n−1 S (1)

que é triangular superior, pois S (1) o é. Como U (1) U (2) é unitária (pois U (1) e U (2) o são), o teorema
está provado.

Comentário. Toda matriz triangular superior S pode ser escrita na forma D + N , sendo D a matriz
diagonal formada pela diagonal de S (ou seja, Dii = Sii para todo i = 1, . . . , n) e N é nilpotente (pois
é triangular superior, mas com diagonal nula). Assim, o Teorema 3.22 afirma que toda matriz A pode
ser levada à forma D + N por uma transformação de similaridade unitária. Porém, o Teorema 3.22 não
garante (nem é verdade, em geral) que D e N comutem. Assim, o Teorema 3.22 é distinto do Teorema
de Jordan, Teorema 3.18, página 192.
O Teorema 3.22 tem por corolário o seguinte teorema, já provado anteriormente por outros meios
(Teorema 3.12, página 179, e Proposição 3.16, página 181).
Teorema 3.23 Uma matriz A ∈ Mat ( , n) é auto-adjunta, se e somente se for diagonalizável por
uma transformação de similaridade unitária e se seus autovalores forem reais. 2

Prova. Pelo Teorema 3.22, existe uma matriz unitária U tal que U ∗ AU = S, sendo S triangular superior
cujos elementos diagonais são os autovalores de A. Assim, se A = A∗ , seque que S ∗ = (U ∗ AU )∗ =
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 205/1195

U ∗ A∗ U = U ∗ AU = S. Mas para uma matriz triangular superior S, a igualdade S = S ∗ implica que S


é diagonal e os elementos da diagonal são reais.
Reciprocamente, se A ∈ Mat ( , n) é diagonalizável por uma transformação de similaridade unitária
e seus autovalores são reais, ou seja, existe U unitária e D diagonal real com U ∗ AU = D, então
A = U DU ∗ e A∗ = U D ∗ U ∗ . Como D é diagonal e real, vale D ∗ = D e, portanto, A∗ = U DU ∗ = A,
provando que A é auto-adjunta.

Pelo Teorema 3.22, se A ∈ Mat ( , n) é uma matriz normal e U ∗ AU = S, com U unitária e S


triangular superior, então S é normal (justifique!). Assim, junto com o Lema 3.2, página 183, provamos
o seguinte:
Teorema 3.24 Uma matriz A ∈ Mat ( , n) é normal se e somente se for diagonalizável por uma
transformação de similaridade unitária. 2

Essas afirmações foram demonstradas por outros meios no Teorema 3.14, página 182.

3.8.3 A Decomposição QR e a Decomposição de Iwasawa (“KAN”)


O propósito desta seção é apresentar a chamada decomposição de Iwasawa 17 , ou decomposição KAN 18 ,
de matrizes invertı́veis, Teorema 3.26. Esse teorema tem relação com a teoria dos grupos de Lie, como
discutiremos brevemente ao final. Os dois primeiros resultados preparatórios abaixo, Proposição 3.20
e Teorema 3.25 (Decomposição QR), têm interesse por si só.
Proposição 3.20 Seja R ∈ Mat ( , n) uma matriz triangular superior cujos elementos diagonais são
não-nulos (i.e., R é invertı́vel). Então, podemos escrever R = AN , onde A ∈ Mat ( , n) é a matriz
diagonal formada com a diagonal de R: A = diag (R11 , . . . , Rnn ), e N ∈ Mat ( , n) é uma matriz
triangular superior cujos elementos diagonais são iguais a 1. 2

17
Kenkichi Iwasawa (1917-1998).
18
Infelizmente não há uniformidade na literatura quanto à denominação dessa decomposição. Vamos chamá-la de
“decomposição de Iwasawa” pois a mesma é um caso particular (para o grupo GL( , n) das matrizes complexas n × n
invertı́veis) de um teorema mais geral da teoria dos grupos de Lie, denominado Teorema da Decomposição de Iwasawa,
que afirma que todo elemento g de um grupo de Lie semi-simples pode ser escrito como produto de um elemento k de
um sub-grupo compacto maximal, por um elemento a de um subgrupo Abeliano (real) e por um elemento n de um
sub-grupo nilpotente (ou seja, cuja álgebra de Lie é nilpotente): g = kan. Em Alemão, as palavras compacto, Abeliano e
nilpotente são “Kompakt”, “Abelsch” e “Nilpotent”, daı́ a denominação “decomposição KAN ” para essa decomposição,
denominação essa encontrada em alguns textos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 206/1195

Prova. É fácil constatar que (abaixo m ≡ n − 1)


     R12 R1n 
R11 R12 · · · · · · R1n R11 0 · · · · · · 0 1 R11 · · · ··· R11
 .   .  .. 
 0 R22 . . R2n   0 R22 . . 0  0 1 . R2n

 . .   . .   .. 
R22
R =  .. .. .. ..   .. .. .. ..  . ... ... .. 
 .. . . .  =  .. . . .   .. . .  .
 ..   ..  .. 
 0 . Rmm Rmn   0 . Rmm 0  0 . 1 Rmn 
Rmm
0 ··· ··· 0 Rnn 0 ··· ··· 0 Rnn 0 ··· ··· 0 1
| {z }| {z }
A N

O estudante deve comparar as afirmações do teorema a seguir com o Teorema da Decomposição


Polar, Teorema 3.20, página 201, e com o Teorema da Decomposição de Schur, Teorema 3.22, página
203.
Teorema 3.25 (Teorema da Decomposição QR) Seja M ∈ Mat ( , n) uma matriz invertı́vel.
Então M pode ser escrita na forma M = QR, onde Q ∈ Mat ( , n) é unitária e R ∈ Mat ( , n) é
triangular superior, sendo que os elementos diagonais de R são estritamente positivos.

Prova do Teorema 3.25. Seja M = [[m1 , . . . , mn ]]. Como M é invertı́vel, os vetores mk , k = 1, . . . , n,


são linearmente independentes, ou seja, formam uma base em n . Podemos, portanto, usar o procedi-
mento de ortogonalização de Gram19 -Schmidt20 e construir uma nova base ortonormal de vetores qj ,
j = 1, . . . , n, a partir dos vetores ml , l = 1, . . . , n. Tais vetores são definidos por
j−1
X
mj − hql , mj i ql 

m1 l=1
q1 = , qj = , j = 2, . . . , n .
km1 k j−1
X

m
j − hq l , m j i q l



l=1

Como é fácil verificar, tem-se hqi , qj i = δi j para todos i, j = 1, . . . , n. As relações acima implicam


trivialmente
j−1
j−1
X X

m1 = q1 km1 k , m j = q j m j − hql , mj i ql + ql hql , mj i , j = 2, . . . , n ,

 

l=1 l=1

19
Jørgen Pedersen Gram (1850-1916).
20
Erhard Schmidt (1876-1959).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 207/1195

relações estas que podem ser escritas em forma matricial como


 
R11 hq1 , m2 i  ··· ··· hq1 , mn i 

 
 
 .. 
 0 R22 . ··· hq2 , mn i 
 


 
 . .. .. .. .. 
[[m1 , . . . , mn ]] = [[q1 , . . . , qn ]] R, onde R := 
 .. . . . .  ,

 
 
 .. 
 0 . R(n−1)(n−1) hqn−1 , mn i 
  

 
0 ··· ··· 0 Rnn
(3.74)
com
j−1
X

R11 = km1 k , Rjj = m j − hql , mj i ql , j = 2, . . . , n .



l=1

E. 3.27 Exercı́cio. Convença-se da validade da relação (3.74). 6

Definindo Q := [[q1 , . . . , qn ]], a relação (3.74) diz-nos que M = QR, sendo R triangular superior
(como se vê) e Q unitária (pois os vetores ql , l = 1, . . . , n, são ortonormais). Isso completa a prova do
Teorema 3.25.

Chegamos assim ao importante Teorema da Decomposição de Iwasawa para matrizes invertı́veis:


Teorema 3.26 (Teorema da Decomposição de Iwasawa, ou Decomposição KAN ) Seja M ∈
Mat ( , n) uma matriz invertı́vel. Então M pode ser escrita de modo único na forma M = KAN ,
onde K ∈ Mat ( , n) é uma matriz unitária, A ∈ Mat ( , n) é a uma matriz diagonal, tendo elementos
diagonais estritamente positivos, e N ∈ Mat ( , n) é uma matriz triangular superior cujos elementos
diagonais são iguais a 1. 2

Prova. A afirmação que M pode ser escrita na forma M = KAN , com K, A e N com as propriedades
acima segue imediatamente da Proposição 3.20 e do Teorema 3.25, dispensando demonstração. O único
ponto a se demonstrar é a unicidade dessa decomposição.
Vamos então supor que para algum M ∈ Mat ( , n) existam K, K0 ∈ Mat ( , n), matrizes
unitárias, A, A0 ∈ Mat ( , n), matrizes diagonais, tendo elementos diagonais estritamente positivos, e
N, N0 ∈ Mat ( , n) matrizes triangulares superiores cujos elementos diagonais são iguais a 1, tais que
M = KAN = K0 A0 N0 .
Segue imediatamente disso que K0−1 K = A0 N0 N −1 A−1 . O lado esquerdo dessa igualdade é uma
matriz unitária e, portanto, normal. O lado direito é uma matriz triangular superior (pela Proposição
3.17, página 182). Pelo Lema 3.2, página 183, A0 N0 N −1 A−1 deve ser uma matriz diagonal D. Assim,
temos que K0−1 K = D e A0 N0 N −1 A−1 = D. A primeira dessas relações diz-nos que D é unitária.
A segunda diz-nos que N0 N −1 = A−1 −1
0 DA, ou seja, N0 = D0 N , onde D0 := A0 DA é diagonal (por
ser o produto de três matrizes diagonais). Agora, N e N0 são matrizes triangulares superiores cujos
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 208/1195

elementos diagonais são iguais a 1. Portanto, a relação N0 = D0 N com D0 diagonal só é possı́vel se
D0 = (de outra forma haveria elementos na diagonal de N ou de N0 diferentes de 1), estabelecendo
que N = N0 .
Provamos, assim, que A−1 −1
0 DA = , ou seja, D = A0 A . Agora, A e A0 são diagonais, tendo na
diagonal números reais positivos. Logo, D também é diagonal e tem na diagonal números reais positivos
e, portanto, D = D ∗ . Como D é unitária (como observado linhas acima), segue que D 2 = . Logo,
os elementos Dkk da diagonal de D satisfazem Dkk = ±1, para todo k = 1, . . . , n (os sinais podendo
ser distintos para k’s distintos). Agora, como A0 = DA e como A e A0 têm na diagonal números reais
positivos, não podemos ter Dkk = −1 para algum k e, portanto, D = . Conseqüentemente, K = K0
e A = A0 , estabelecendo a unicidade desejada.

Note o leitor que o conjunto das matrizes unitárias de Mat ( , n) forma um sub-grupo de GL( , n)
(o grupo das matrizes complexas n × n invertı́veis). O conjunto das matrizes diagonais de Mat ( , n)
tendo elementos diagonais estritamente positivos é igualmente um sub-grupo de GL( , n). Por fim,
o conjunto das matrizes triangulares superiores de Mat ( , n) cujos elementos diagonais são iguais
a 1 é também um sub-grupo de GL( , n). Assim, o Teorema 3.26 afirma que cada elemento de
GL( , n) pode ser escrito de modo único como produto de elementos de cada um desses três sub-
grupos. Esse é um caso particular de um teorema da teoria dos grupos de Lie conhecido como Teorema
da Decomposição de Iwasawa.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 3 209/1195

1
α γ1
1
0
a
γ1
0 α1 0
α
2
γ
1
2
0
0

b
0 γ
2
α2 0
1
α γ
3 3
0
c
γ
3
0 α

0 3 0
α
4
γ1
4
0
d
γ
4
0 α
4

Figura 3.2: Forma canônica de uma matriz com 4 autovalores distintos α1 , α2 , α3 e α4 . Os γ’s
assumem apenas os valores 0 ou 1, de acordo com as regras explicadas acima. Todos os elementos fora
da diagonal principal e da primeira supradiagonal são nulos. As setas indicam zeros que ocorrem na
primera supradiagonal nos pontos onde ocorre transição entre os blocos, conseqüência do fato de esses
elementos estarem fora dos blocos.
Capı́tulo 4
Tópicos de Álgebra Linear II
Conteúdo
4.1 Uma Topologia Métrica em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . 211
4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matrizes . . . . . . . . 216
4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) . . . . . . . 224


4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador . . . . . . . . . . . 227


4.4 Aplicações Lineares em Mat ( , n) . . . . . . . . . . . . . . . . . . . . . . . . 230
4.5 A Fórmula de Baker, Campbell e Hausdorff . . . . . . . . . . . . . . . . . 236
4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências . . . . . . . . 242

presente capı́tulo diferencia-se do anterior por explorar aspectos mais topológicos de álgebras
de matrizes. Portanto, uma certa familiaridade com as noções básicas de espaços métricos
(vide Capı́tulo 13) é útil. Discutiremos a definição de funções analı́ticas de matrizes, em
particular, a exponencial e o logaritmo. Nosso principal objetivo, porém, é provar as seguintes
relações: para matrizes A, B ∈ Mat ( , n), valem:
Fórmula de Lie1 -Trotter2 .     m
1 1
exp (A + B) = lim exp A exp B . (4.1)
m→∞ m m
Fórmula do comutador:
        m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.2)
m→∞ m m m m
Série de Lie: X∞
1
exp(B)A exp(−B) = A + [B, [B, . . . , [B , A] . (4.3)
m! | {z }
m=1 m vezes
Fórmula de Baker-Campbell-Hausdorff3 (sobre a convergência, vide comentário adiante):
 
1 1 1
exp(A) exp(B) = exp A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · . (4.4)
2 12 12
Fórmula de Duhamel4 : Z 1  
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.5)
0
da qual se obtem a série de Duhamel:
" Z t ∞ Z t Z t1 Z m
#
X tm−1 Y 
−t1 A
e t(A+B)
= e tA
+ e t1 A
Be dt1 + ··· e−tk A Betk A
dtm · · · dt1 . (4.6)
0 m=2 0 0 0 k=1
1
Marius Sophus Lie (1842-1899).
2
Hale Freeman Trotter (1931-)
3
Henry Frederick Baker (1866-1956). John Edward Campbell (1862-1924). Felix Hausdorff (1868-1942).
4
Jean Marie Constant Duhamel (1797-1872).

210
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 211/1195

A série dentro da exponencial no lado direito de (4.4) é um tanto complexa, mas envolve apenas
comutadores múltiplos de A e B. A expressão completa encontra-se em (4.46), página 237. Ao
contrário das fórmulas que lhe precedem e sucedem, a fórmula de Baker-Campbell-Hausdorff não é
válida para quaisquer matrizes A e B pois, no caso geral, a convergência da série do lado direito só
pode ser estabelecida para matrizes suficientemente “pequenas”, a saber, tais que kAk e kBk sejam
√ 
 

ambas menores que 12 ln 2 − 22 ≈ 0, 12844 . . .. A definição de norma operatorial de matrizes será


apresentada adiante. Claro é que, nos casos felizes em que os comutatores múltiplos das matrizes A e
B se anulam a partir de uma certa ordem, a série do lado direito será finita e, portanto, convergente.
Comentamos ao leitor mais avançado que as expressões acima (e suas demonstrações abaixo) valem
não apenas para álgebras de matrizes, mas também no contexto mais geral de álgebras-∗ de Banach.
As fórmulas acima são empregadas em várias áreas da Fı́sica (como na Mecânica Quântica, na
Mecânica Estatı́stica e na Teoria Quântica de Campos) e da Matemática (como na Teoria de Grupos).
Faremos uso delas, por exemplo, nos Capı́tulos 10 e 11. Suas provas serão apresentadas, pela ordem,
na Proposição 4.12, página 227, na Proposição 4.13, página 232, no Teorema 4.1 da Seção 4.5, página
236 e na Seção 4.6, página 242. A única demonstração que se pode classificar como complexa é a da
fórmula de Baker-Campbell-Hausdorff, as demais são simples. No correr das páginas seguintes outras
identidades úteis, não listadas acima, serão obtivas.

4.1 Uma Topologia Métrica em Mat ( , n)


Discutiremos nesta seção uma topologia métrica natural em Mat ( , n) a qual usaremos na Seção 4.2
para definir certas funções analı́ticas de matrizes, tais como a exponencial e o logaritmo.
Recordando, Mat ( , n) é o conjunto de todas as matrizes complexas n×n e GL( , n) ⊂ Mat ( , n)
é o conjunto de todas as matrizes complexas n × n invertı́veis. Como já observamos, GL( , n) é um
grupo.

• Normas de Matrizes. A Norma Operatorial

Seja V um espaço vetorial de dimensão finita, como n ou np , dotado de uma norma k · kV . Para


n
3 u = (u1 , . . . , un ), por exemplo, podemos adotar kuk n := |u1 |2 + · · · + |un |2 . Vamos denotar


por L(V ) o conjunto de todas as aplicações lineares de V em V . É bem sabido que L(V ) é igualmente
um espaço vetorial. Por exemplo, L( n ) = Mat ( , n) e L( n ) = Mat ( , n).
 

Com uso da norma de V é possı́vel definir uma norma também em L(V ). Para A ∈ L(V ) define-se

kAukV
kAkL(V ) := sup .
u∈V kukV
u6=0

E. 4.1 Exercı́cio. Mostre que k · kL(V ) assim definida é, de fato, uma norma no espaço vetorial L(V ).
6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 212/1195

Observação. Note que


kAkL(V ) = sup kAukV .
u∈V
kukV =1

Para A ∈ L(V ), a norma kAkL(V ) definida acima é denominada norma operatorial. Como co-
mentaremos abaixo, há outras normas em L( n ) e L( n ) que não a norma operatorial, mas que são


equivalentes àquela.
Observação. É uma conseqüência imediata da definição de norma operatorial que

kAukV ≤ kAkL(V ) kukV (4.7)

para todo vetor u ∈ V .


A norma operatorial tem a seguinte propriedade importante: para A, B ∈ L(V ) quaisquer, tem-se

kABkL(V ) ≤ kAkL(V ) kBkL(V ) .

E. 4.2 Exercı́cio importante. Mostre isso. Sugestão: use (4.7). 6

Observação. Em Mat ( , n) é possı́vel provar que kA∗ kMat ( 

, n) = kAkMat ( 

, n) . Vide Teorema
23.11, página 1042.
É importante comentar que o procedimento de construção de normas em L(V ) pode ser repetido.
Como L(V ) é igualmente um espaço vetorial normado e de dimensão finita, podemos definir uma norma
em L(L(V )) (o conjunto de todas as aplicações lineares de L(V ) em L(V )) definindo para A ∈ L(L(V ))

kAAkL(V )
kAkL(L(V )) := sup .
A∈L(V ) kAkL(V )
A6=0

E assim por diante para todos os espaços de aplicações L(L(· · · L(V )) · · · ).


Vamos a um exemplo. Tomemos V = n , L(V ) = Mat ( , n). Seja uma matriz X ∈ Mat ( , n)
fixa. Com ela poderemos definir um elemento denotado por ad[X] de L(Mat ( , n)) por

ad[X]A := [X, A] = XA − AX, A ∈ Mat ( , n).

É evidente que ad[X] é uma aplicação linear de Mat ( , n) em Mat ( , n), ou seja, um elemento de
L(Mat ( , n)). Note-se que

kXA − AXkMat ( 

, n)
kad[X]kL(Mat ( 

, n)) = sup
A∈L(V ) kAkMat ( , n) 

A6=0

kXAkMat ( , n) + kAXkMat (
 

, n)
≤ sup
A∈L(V ) kAkMat ( , n) 

A6=0

≤ 2kXkMat ( 

, n) . (4.8)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 213/1195

Daqui para a frente denotaremos a norma operatorial de matrizes em n por k · k ou simplesmente 

por k · k. Além da norma operatorial, há outras normas que podem ser definidas em L( n ). Para
A ∈ Mat ( , n) podemos, por exemplo, definir as seguintes normas:
kAk∞ := max |Aab |, (4.9)
a, b = 1, ..., n

n X
X n
kAk1 := |Aab |, (4.10)
a=i b=1

n X
n
!1/2
X
kAk2 := |Aab |2 , (4.11)
a=i b=1

n X
n
!1/p
X
kAkp := |Aab |p , com p ≥ 1. (4.12)
a=i b=1

A expressão (4.12) generaliza (4.10) e (4.11).

E. 4.3 Exercı́cio. Mostre que (4.9)-(4.12) de fato definem normas em Mat ( , n). (Note que (4.10)-
(4.11) são casos particulares de (4.12)). Use a desigualdade de Minkowski (página 758) para (4.12). 6

E. 4.4 Exercı́cio. A norma (4.11) tem uma interpretação interessante. Mostre que,
hA, Bi = Tr (A∗ B), A, B ∈ Mat ( , n),
define um produto
pescalar em p
Mat ( , n). Mostre que (4.11) é a norma associada a esse produto escalar,
ou seja, kAk2 = hA, Ai = Tr (A∗ A). 6

Observação. É importante lembrar o Teorema 2.7, mencionado à página 121, que afirma que em
espaços vetoriais de dimensão finita todas as normas são equivalentes. Assim, em Mat ( , n) a norma
operatorial kAk e as normas kAk∞ e kAkp com p ≥ 1 são todas equivalentes. Note-se, porém, que


a propriedade da norma operatorial kABk ≤ kAk kBk não é necessariamente compartilhada por
  

outras normas. Em geral, tem-se kABk ≤ ckAk kBk para alguma constante c > 0.

E. 4.5 Exercı́cio. Seja D ∈ Mat ( , n) uma matriz diagonal: D = diag (d1 , . . . , dn ) com dk ∈ .
Mostre que kDk = max{|d1 |, . . . , |dn |}, ou seja, para matrizes diagonais kDk = kDk∞ .


6 

• Equivalência entre normas matriciais

Aqui denotaremos a norma operatorial de uma matriz A por kAk.


Sejam ei , i = 1, . . . , n os vetores da base canônica de n , ou seja, os vetores cuja j-ésima
componente é (ei )j = δij . Se A ∈ Mat ( , n), é claro que a i-ésima componente do vetor Aej é
(Aej )i = Aij . Daı́,
X n
kAej k2
= |Aij |2 .


2
kej k 

i=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 214/1195

Logo, para todo j,


( n
)
kAvk2 kAej k2 X
kAk2 := sup ≥ max = max |Aij |2 . (4.13)
 

v∈ n kvk2 
j=1, ..., n kej k2 
j=1, ..., n
i=1
v6=0

Pn
Tem-se também o seguinte. Para qualquer vetor v ∈ n , vale (Av)i = j=1 Aij vj . Assim, pela
desigualdade de Cauchy-Schwarz (2.15), página 120,
n
! n ! n
!
X X X
2 2 2 2
|(Av)i | ≤ |Aij | |vk | = |Aij | kvk2 . 

j=1 k=1 j=1

Daı́, !
n
X n X
X n
kAvk2 = 

|(Av)i |2 ≤ |Aij |2 kvk2 .




i=1 i=1 j=1

Logo,
Xn X n
2 kAvk2
kAk := sup ≤ |Aij |2 . (4.14)


v∈ n kvk2 i=1 j=1




v6=0

n
X 
Como |Aij |2 ≥ max |Aij |2 , segue de (4.13) que
i=1, ..., n
i=1

kAk2 ≥ max max |Aij |2 .


j=1, ..., n i=1, ..., n

Logo, para todo i, j vale |Aij | ≤ kAk, ou seja,

kAk∞ ≤ kAk.

De (4.14) vemos também que


n X
X n n X
X n
kAk2 ≤ |Aij |2 ≤ kAk2∞ = n2 kAk2∞ .
i=1 j=1 i=1 j=1

Concluı́mos assim que em Mat ( , n)

kAk∞ ≤ kAk ≤ nkAk∞ . (4.15)

A expressão (4.15) mostra-nos que caso tenhamos uma seqüência de matrizes A m com kAm k → 0
quando m → ∞, então cada elemento de matriz (Am )ij também converge a zero quando m → ∞. E
vice-versa: Se (Am )ij → 0 para todos ij quando m → ∞, então kAm k → 0 quando m → ∞.

Nota. Antes de prosseguirmos, comentemos também que as duas desigualdades (4.15) são optimais,
ou seja, não podem ser melhoradas para matrizes genéricas. Por exemplo, é evidente que k k ∞ = 1
e que k k = 1. Assim, pelo menos nesse caso tem-se a igualdade na primeira desigualdade de (4.15).
Há também um caso em que se tem a igualdade na segunda desigualdade de (4.15). Considere-se a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 215/1195

matriz M cujos elementos de matriz são todos iguais a 1, ou seja, Mij = 1 para todos i, j. Seja o
vetor u de n cujas componentes são todas iguais a 1, ou seja, ui = 1 para todo i. É elementar ver
kM uk 

que M u = nu. Logo = n. Portanto, kM k ≥ n e kM k∞ = 1. Assim, kM k ≥ nkM k∞ e, da


kuk 

segunda desigualdade de (4.15), concluı́mos que, nesse caso, kM k = nkM k∞ .

A desigualdade (4.14) significa que kAk ≤ kAk2 . Ao mesmo tempo, a desigualdade (4.13) mostra
que
X n X n Xn
2 2
nkAk = kAk ≥ |Aij |2 = kAk22 .
j=1 j=1 i=1

Logo, concluı́mos que em Mat ( , n)


1
√ kAk2 ≤ kAk ≤ kAk2 . (4.16)
n

E. 4.6 Exercı́cio. Mostre que em Mat ( , n)


1
kAk1 ≤ kAk ≤ nkAk1 . (4.17)
n2
n
X
Sugestão: Mostre primeiro que kAk∞ ≤ |Aij | ≤ n2 kAk∞ ou seja
i, j=1

kAk∞ ≤ kAk1 ≤ n2 kAk∞ . (4.18)

e, então, use (4.15). 6

E. 4.7 Exercı́cio. Mostre que as desigualdades (4.18) também não podem ser melhoradas. 6

Nota. As expressões (4.15), (4.16), (4.17) e (4.18) mostram-nos de modo explı́cito que em Mat ( , n)
as normas k·k, k·k∞, k·k1 e k·k2 são equivalentes (vide definição à página 121). Como já mencionamos,
em espaços de dimensão finita todas as normas matriciais são equivalentes.

A importância de se introduzir uma norma em L(V ) é que podemos dessa forma introduzir uma
noção de distância entre elementos desse conjunto, ou seja, podemos definir uma métrica em L(V )
por d(A, B) = kA − Bk. Deixamos para o leitor a tarefa de demonstrar que isso de fato define uma
métrica em L(V ). Com isso, fazemos de L(V ) um espaço dotado de uma topologia métrica. Fora
isso, o importante Teorema 23.2 demonstrado à página 1020 afirma que L(V ) será um espaço métrico
completo se V o for. Logo, como n e n são sabidamente espaços vetoriais completos, assim o serão


Mat ( , n), Mat ( , n), assim como L(Mat ( , n)) etc. É possı́vel dessa forma falar de convergência de


seqüências e séries de matrizes de Mat ( , n), Mat ( , n), assim como de elementos de L(Mat ( , n))


etc. Abaixo faremos uso repetido desse fato fundamental.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 216/1195

4.2 Exponenciais, Logaritmos e Funções Analı́ticas de Matri-


zes
No estudo da teoria de grupos e em outras áreas é muito conveniente definir certas funções de operadores
lineares, tais como exponenciais, logaritmos etc. Já abordamos a definição da exponenciação de matrizes
nos capı́tulos 3 e 6. Vamos aqui tentar uma abordagem mais geral.

• Séries de Potências de Matrizes

Seja A ∈ Mat ( , n) uma matriz n × n complexa e seja {am m ∈  } uma seqüência de números
complexos. A expressão

X N
X
am Am = lim am Am = a 0 + a 1 A + a 2 A2 + a 3 A3 + · · ·
N →∞
m=0 m=0

é dita ser uma série de potências convergente, caso o limite acima exista em Mat ( , n).

Nota. Adotaremos sempre a convenção que A0 = .


A seguinte proposição é fundamental:

X ∞
X
m
Proposição 4.1 A séria de potências am A é convergente se |am | kAkm < ∞.


2
m=0 m=0

P∞
A importância dessa proposição reside no fato que m=0 |am |kAkm é uma série numérica e, portanto,


mais simples de lidar.


N
X
Prova. Sejam as somas parciais SN := am Am . Teremos para M < N ,
m=0

X
N N
X
m
kSN − SM k 

= am A ≤ |am | kAkm .



m=M +1 

m=M +1

P PN
Agora, como a série numérica ∞m=0 |a m | kAk m
converge, s N := m=0 |am | kAk
m
é uma seqüência de
PN
 

m
Cauchy. Logo m=M +1 |am | kAk pode ser feito menor que qualquer  > 0 dado, desde que escolhamos


M e N grandes o suficiente. Logo SN é também uma seqüência de Cauchy no espaço métrico completo
Mat ( , n). Portanto, SN converge em Mat ( , n) quando N → ∞.

• Funções Analı́ticas de Matrizes

A Proposição 4.1 conduz à seguinte definição. Seja r > 0 e Dr = {z ∈ | |z| < r} o disco aberto
de raio r centrado em 0 no plano complexo. Seja f : Dr → uma função analı́tica em Dr . Como bem
sabemos, f pode ser expressa em termos de uma série de potências (série de Taylor centrada em z 0 = 0):
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 217/1195

P
f (z) = ∞ m
onde fm = f (m) (0)/m!. É bem sabido também que essa série é absolutamente
m=0 fm z ,P
convergente em Dr : ∞ m
m=0 |fm | |z| < ∞, se |z| < r. Podemos então definir


X
f (A) := fm Am
m=0

para toda a matriz A com kAk < r, pois a proposição acima garante que a série de matrizes do lado


direito converge a alguma matriz de Mat ( , n), que denotamos por f (A), fazendo uma analogia óbvia
com a função numérica f .
A seguinte proposição sobre essas funções de matrizes será freqüentemente usada no que seguirá.
Proposição 4.2 I. Sejam f e g duas funções analı́ticas no mesmo domı́nio D r . Definamos (f +
g)(z) := f (z) + g(z) e (f g)(z) := f (z)g(z), z ∈ Dr . Então, para A ∈ Mat ( , n) com kAk < r 

teremos f (A) + g(A) = (f + g)(A) e f (A)g(A) = g(A)f (A) = (f g)(A).


II. Sejam f e g duas funções analı́ticas, com domı́nios Drf e Drg , respectivamente, e tais que a
imagem de g esteja contida no domı́nio de f . Podemos então definir f ◦ g(z) := f (g(z)). Então, para
A ∈ Mat ( , n) com kAk < rg teremos f (g(A)) = f ◦ g(A).


Prova. ←→ Exercı́cio.
Note-se que a parte I da proposição acima afirma que existe um homomorfismo da álgebra das
funções analı́ticas em um domı́nio Dr ⊂ e Mat ( , n).
Vamos mais adiante usar o seguinte resultado, que essencialmente afirma que as matrizes f (A)
definidas acima, com f analı́tica em um domı́nio Dr ⊂ , dependem continuamente de A.

P∞ em kum domı́nio Dr ⊂ , com f tendo a série


Proposição 4.3 Seja f função complexa analı́tica
de Taylor absolutamente convergente f (z) = k=0 fk z , |z| < r. Seja também Bm , m ∈ , uma 

seqüência de matrizes de Mat ( , n) tais que limm→∞ kBm k = 0. Então, para todo A ∈ Mat ( , n)


com kAk < r tem-se




lim f (A + Bm ) = f (A).
m→∞
2

Prova. Comecemos com um comentário sobre o enunciado do teorema. Para que f (A + B m ) esteja
definido é necessário que kA + Bm kC < r. Como kA + Bm kC ≤ kAk + kBm k e kAk < r, a condição
  

é satisfeita para m grande o suficiente, pois limm→∞ kBm k = 0. Assim, estaremos supondo que m é


grande o suficiente de modo que kBm k <  para algum  tal que kAk +  < r. Feita essa ressalva,
 

passemos à demonstração.
A prova da proposição segue como conseqüência das duas observações seguintes. A primeira é que
para quaisquer matrizes X, Y ∈ Mat ( , n) e qualquer k inteiro positivo tem-se a seguinte identidade
algébrica:
Xk−1
k k
X −Y = X p (X − Y ) Y k−1−p . (4.19)
p=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 218/1195

Para provar isso, basta expandir a soma do lado direito e mostrar, após alguns cancelamentos, que
obtem-se o lado esquerdo (faça!).

P∞A segunda observação é que se f é analı́tica em Dr , sua


P derivada também o é. Assim, f 0 (z) =
k=0 kfk z
k−1
converge absolutamente para |z| < r, ou seja, ∞ k=0 k|fk | |z|
k−1
< ∞ sempre que |z| < r.
Assim,

X  
f (A + Bm ) − f (A) = fk (A + Bm )k − Ak .
k=0

Usando (4.19) com X = A + Bm e Y = A, teremos



X k−1
X
f (A + Bm ) − f (A) = fk (A + Bm )p Bm Ak−1−p .
k=0 p=0

Logo,

X k−1
X
kf (A + Bm ) − f (A)k 

≤ kBm k 

|fk | kA + Bm kp kAkk−1−p .
 

k=0 p=0

Agora, como dissemos, kA + Bm k < kAk +  < r e, obviamente, kAk < kAk +  < r. Portanto,
   


X k−1
X ∞
X
kf (A + Bm ) − f (A)k 

≤ kBm k 

|fk | (kAk + )k−1 = kBm k




k|fk | (kAk + )k−1 .


 

k=0 p=0 k=0

Como comentamos acima, a soma do lado direito é finita. Como, porém, kBm k → 0 para m → ∞, 

teremos limm→∞ kf (A + Bm ) − f (A)k = 0, que é o que querı́amos provar.




• Exponenciais e Logaritmos de Matrizes

Com as definições apresentadas acima, podemos definir exponenciais e logaritmos de matrizes.


Temos,

X
A 1 m
exp(A) ≡ e := A (4.20)
m=0
m!
para toda matriz A ∈ Mat ( , n), pois a série de Taylor da função exponencial converge absolutamente
em todo o plano complexo.
Analogamente, podemos definir
X∞
(−1)m−1 m
ln( + A) = A (4.21)
m=1
m

para toda matriz A ∈ Mat ( , n) com kAk < 1, pois a série de Taylor da função ln(1 + z) converge


absolutamente em D1 .

Nota. Para kA − k < 1 podemos definir ln(A) por ln(A) := ln( + (A − )).

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 219/1195

E. 4.8 Exercı́cio. Usando a Proposição 4.2, mostre que (exp(A)) m = exp(mA) para toda matriz
A ∈ Mat ( , n) e todo m ∈ . Mostre também que

exp(ln( + A)) = +A

para toda matriz A ∈ Mat ( , n) com kAk < 1 e que




ln (exp(B)) = B

para toda matriz B ∈ Mat ( , n) com k exp(B) − k < 1. 

Note que
X∞
1 m X∞
1

k exp(B) − k 

= B ≤ kBkm = ekBk − 1.
m=1 m! m!


m=1

Assim, a condição k exp(B) − k < 1 é satisfeita se kBk < ln 2.


 

Sobre a exponencial de matrizes temos o seguinte:


Proposição 4.4 Existe uma bola aberta Br (0) de raio r > 0 centrada em 0 em Mat ( , n) tal que
a aplicação exp : Mat ( , n) → Mat ( , n) definida acima é um homeomorfismo (em verdade, um
difeomorfismo) entre Br (0) e sua imagem, exp(Br (0)), a qual é uma vizinhança aberta da matriz
identidade . 2

X∞
1 m
Prova. Temos que, para todo A ∈ Mat ( , n), exp(A) − = A + ϕ(A), onde ϕ(A) := A . É
m=2
m!
fácil ver que kϕ(A)k
kAk
→ 0 para kAk → 0. exp(A) − é contı́nua e diferenciável em uma vizinhança de 0
(em verdade, em toda parte) e sua derivada em 0 é a identidade. A afirmação da Proposição 4.4 segue
então do bem conhecido Teorema da Aplicação Inversa (vide, por exemplo, [84]).

Junto com o último exercı́cio, isso prova a seguinte proposição:


Proposição 4.5 Para toda matriz A ∈ Mat ( , n) com kA − k < 1 tem-se 

exp(ln(A)) = A.

Para toda matriz B ∈ Mat ( , n) com kBk < ln 2 tem-se




ln (exp(B)) = B. (4.22)

• Exponenciais de Matrizes. Comutatividade

Para dois números complexos z e w é bem conhecida a validade da propriedade exp(z) exp(w) =
exp(z + w) da função exponencial. Podemos nos perguntar: será essa propriedade válida também
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 220/1195

para matrizes? A resposta é que em geral tal relação não é válida, apenas em certos casos especiais.
A questão de determinar o produto de exponenciais de matrizes tem grande importância em várias
manipulações algébricas e muito do que seguirá abordará esse problema.
Lembremos a primeiramente a seguinte proposição.
Proposição 4.6 Se A, B ∈ Mat ( , n) são duas matrizes que comutam, ou seja, AB = BA, então

eA+B = eA eB = eB eA . (4.23)

A propriedade (4.23) é familiar quando A e B são números, mas não é óbvia quando A e B são
matrizes. De fato a relação acima é geralmente falsa caso A e B sejam matrizes que não comutam.
No caso em que A e B não comutam o produto eA eB pode ser computado com uso da fórmula de
Baker-Campbell-Hausdorff, discutida na Seção 4.5, página 236.
Prova de (4.23). Pela definição
X∞ X∞
A+B 1 m 1
e = + (A + B) = (A + B)m ,
m=1
m! m=0
m!

onde convencionamos que (A + B)0 = . Como A e B comutam, vale a regra do binômio de Newton5
X m  
m m p m−p
(A + B) = AB .
p=0
p

E. 4.9 Exercı́cio. Por quê? Vale a regra do binômio de Newton no caso de A e B não comutarem?
Teste alguns exemplos. 6

Assim,
X∞ X m   X∞ X m
A+B 1 m p m−p 1
e = A B = Ap B m−p .
m=0 p=0
m! p m=0 p=0
(m − p)!p!
Agora, vale a seguinte regra de mudança de ordem de somas:
∞ X
X m ∞ X
X ∞
(· · · ) = (· · · ).
m=0 p=0 p=0 m=p

E. 4.10 Exercı́cio. Por quê? 6

Logo, !
∞ X
X ∞ X∞ ∞
X
1 1 p 1
eA+B = p m−p
AB = A B m−p .
p=0 m=p
(m − p)!p! p=0
p! m=p
(m − p)!
5
Isaac Newton (1643-1727).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 221/1195

Agora, com a mudança de variável l = m − p,



X ∞
X
1 m−p 1 l
B = B = eB .
m=p
(m − p)! l!
l=0

Assim,
X∞
A+B 1 p B
e = A e = e A eB .
p=0
p!

Analogamente se prova que eA+B = eB eA .

Podemos nos perguntar: o que ocorre se A e B não comutarem? Há alguma maneira de calcular
exp(A + B) em termos de produtos de exp(A) e exp(B) nesse caso? A resposta a essas questões é dada
por três fórmulas muito importantes, a fórmula de Lie-Trotter, a fórmula do comutador e a fórmula de
Baker-Campbell-Hausdorff, das quais trataremos mais adiante.

• Algumas Propriedades de Funções Analı́ticas de Matrizes

Os exercı́cios seguintes, os quais são muito simples de provar, apresentam afirmativas freqüentemente
usadas sobre funções analı́ticas de matrizes.

E. 4.11 Exercı́cio. Usando a definição (4.20), mostre que



P −1 exp(A)P = exp P −1 AP (4.24)

para matrizes n × n reais ou complexas A e P , sendo P invertı́vel. 6

E. 4.12 Exercı́cio. Usando a definição (4.20), mostre que



exp(A)T = exp AT e que exp(A)∗ = exp (A∗ )

para A ∈ Mat ( , n) ou A ∈ Mat ( , n).  6

Os exercı́cios acima podem ser facilmente generalizados:



X
E. 4.13 Exercı́cio. Seja f (z) := fm z m uma série de potências convergente para |z| < r0 para algum
m=0
r0 > 0. Então para A ∈ Mat ( , n) com kAk < r0 tem-se


!T ∞ ∞
!∗ ∞
X X  X X
T m
fm A m
= fm A e fm A m
= fm (A∗ )m ,
m=0 m=0 m=0 m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 222/1195


X

T
ou seja, f (A) = f A T ∗ ∗
e f (A) = f (A ), onde f (z) := fm z m = f (z). Prove essas afirmativas.
m=0
Prove também que !

X ∞
X
−1
m
P fm A m
P = fm P −1 AP ,
m=0 m=0

ou seja, P −1 f (A)P = f (P −1 AP ). 6

Também muito útil é a afirmação contida no seguinte exercı́cio:



X ∞
X
E. 4.14 Exercı́cio. Sejam f (z) = fm z m e g(z) = gm z m duas séries de potências convergentes
m=0 m=0
em |z| < r1 e |z| < r2 , respectivamente. Sejam A e B ∈ Mat ( , n) duas matrizes com kAk < r 1 e
kBk < r2 tais que AB = BA. Então f (A)g(B) = g(B)f (A). Prove isso. 6

• O Determinante de Exponenciais de Matrizes

O Teorema de Decomposição de Jordan (Teorema 3.18, página 192) permite-nos demonstrar o


seguinte resultado muito útil sobre o determinante de exponenciais de matrizes.
Proposição 4.7 Seja A ∈ Mat ( , n) ou A ∈ Mat ( , n). Então vale que 


det eA = eTr (A) . (4.25)

É suficiente que provemos (4.25) para matrizes complexas primeiro, pois matrizes reais podem ser
obtidas de matrizes complexas do limite quando a parte imaginária dos elementos de matriz vai a zero
e a continuidade, tanto do lado direito quanto do lado esquerdo de (4.25) em relação aos elementos de
matriz de A, garante a validade daquela expressão para matrizes reais também.
Para a prova precisamos de um lema preparatório simples.
Lema 4.1 Se D ∈ Mat ( , n) é uma matriz diagonal complexa n × n, então

det eD = eTr (D) .

Igualmente, se N ∈ Mat ( , n) é uma matriz nilpotente complexa n × n, então



det eN = eTr (N ) = 1.

Prova. A parte referente à matriz diagonal é a mais fácil. Suponhamos que D é a matriz diagonal
D = diag (d1 , . . . , dn ), sendo que os elementos da diagonal são os autovalores de D. Segue que eD
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 223/1195

 
é a matriz diagonal D = diag ed1 , . . . , edn . Assim, pela Proposição 3.2, página 145, det eD =
ed1 +···+dn = eTr (D) .
Tratemos agora da parte referente à matriz nilpotente N . Iremos provar provar que se N é nilpotente
todos os autovalores de eN são iguais a 1. Pela Proposição 3.18, página 186, os autovalores de N são
todos nulos, Assim, se φ é um autovetor de N teremos eN φ = φ, ou seja, φ é autovetor de eN com
autovalor 1. Infelizmente isso não nos permite concluir diretamente que todos os demais autovetores
de eN tem a mesma propriedade, mas, como veremos, isso é verdade.
Vamos supor que o ı́ndice de N seja k, ou seja, N k+1 = 0. Assim,
Xk
N 1 m
e = + N .
m=1
m!
Seja ψ 6= 0 um autovetor de eN com autovalor λ e suponhamos que λ 6= 1. De eN ψ = λψ tem-se
Xk
1 m
(λ − 1)ψ = N ψ (4.26)
m=1
m!
e, assim, aplicando N k a ambos os lados, concluı́mos que
(λ − 1)N k ψ = 0,
já que no lado direito aparecem potências como N k+1 ψ, N k+2 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k ψ = 0. Retornando a (4.26), podemos reescrevê-la como
k−1
X 1 m
(λ − 1)ψ = N ψ
m=1
m!
eliminando o termo com N k ψ. Aplicando N k−1 a ambos os lados, concluı́mos que
(λ − 1)N k−1 ψ = 0,
já que no lado direito aparecem potências como N k ψ, N k+1 ψ etc., todas nulas. Como λ 6= 1, devemos
ter N k−1 ψ = 0. Prosseguindo dessa forma concluiremos por fim que N ψ = 0. Assim, eN ψ = ψ = ψ,
provando que λ = 1, uma contradição.
A conclusão
 é que todos os autovalores de eN são iguais a 1, e pela Proposição 3.2, página 145,
det eN = 1. Notemos que, pelaProposição 3.18, página 186, os autovalores de N são todos nulos e,
assim, Tr (N ) = 0. Logo, det eN = 1 = eTr (N ) . Isso completa a prova do lema.

Prova da Proposição 4.7. Pelo Teorema de Decomposição de Jordan, existe uma matriz invertı́vel
T tal que A = T −1 (D + N )T , onde D é diagonal, N é nilpotente e DN = N D. Logo,

eA = exp T −1 (D + N )T = T −1 exp(D + N )T = T −1 exp(D) exp(N )T.
Portanto,
      
det eA = det T −1 eD eN T = det T −1 det eD det eN det (T ) = det eD det eN ,
pois det (T −1 ) = 1/ det (T ). Assim, pelo Lema 4.1, pela Proposição 3.7 e pela propriedade (3.8),

det eA = eTr (D) eTr (N ) = eTr (D+N ) = eTr (T (D+N )T ) = eTr (A) ,
−1

completando a prova.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 224/1195

4.2.1 A Exponenciação de Matrizes e os Grupos GL( , n) e GL( , n) 

Recordemos que GL( , n) (respectivamente, GL( , n)) designa o grupo das matrizes invertı́veis


complexas (reais) n × n. Aqui discutiremos a relação entre a exponenciação de matrizes e esses grupos.
Essa discussão terá um papel mais relevante quando tratarmos da teoria dos grupos de Lie e álgebras
de Lie nos Capı́tulos 10 e 11.
Em primeiro lugar, tem-se a seguinte proposição elementar:
Proposição 4.8 A aplicação exp definida em (4.20) é uma aplicação de Mat ( , n) em GL( , n)
(ou, correspondentemente, de Mat ( , n) em GL( , n)).
  2

Prova. É evidente pela definição (4.20) que exp(0) = . Tudo o que se deseja provar é que para
qualquer A ∈ Mat ( , n) então exp(A) é invertı́vel. Ora, por (4.23), é elementar constatar que
exp(A)−1 = exp(−A).

Tem-se também o seguinte:


Proposição 4.9 Para n ≥ 2 as aplicações exp : Mat ( , n) → GL( , n) e exp : Mat ( , n) → 

GL( , n) não são injetoras.


 2

Prova. Para matrizes complexas, basta constatar que, no exemplo das matrizes diagonais na forma
D = diag (2πk1 i, . . . , 2πkn i, ) com kl ∈ , tem-se exp(D) = .
 
0 1
Para matrizes reais, considere-se a matriz real A(α) := αJ onde J := , α ∈ . Como
−1 0


facilmente se vê, tem-se para m ∈ , A(α)2m = (−1)m (α)2m e A(α)2m+1 = (−1)m (α)2m+1 J. Daı́,


como facilmente se verifica por (4.20),


 
cos α sen α
exp(A(α)) = cos(α) + sen (α)J = .
− sen α cos α

Logo, exp(A(2πk)) = para todo k ∈ . Assim a exponenciação de matrizes reais 2 × 2 não pode ser
injetora. É fácil, a partir desse exemplo, construir outros para matrizes reais n × n com n ≥ 2.

Agora veremos duas proposições nas quais as matrizes reais e complexas se diferenciam.
Proposição 4.10 As aplicações exp : Mat ( , n) → GL( , n), n ≥ 1, não são sobrejetoras.
  2

Proposição 4.11 As aplicações exp : Mat ( , n) → GL( , n), n ≥ 1, são sobrejetoras. 2

Prova da Prop. 4.10. Pela Proposição 4.25, o determinante da exponencial de qualquer matriz real é
positivo. Ora, existem em GL( , n) matrizes com determinante negativo. Logo, a exponenciação de


matrizes reais não pode ser sobrejetora.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 225/1195

Comentário. Sobre matrizes reais é possı́vel dizer mais que o enunciado da Proposição 4.10 e sua
prova. Em verdade, não são apenas as matrizes com determinante negativo que estão fora da imagem
da exponenciação de matrizes reais. Há algumas com determinante positivo que também estão fora.
Se M é uma matriz real invertı́vel então seus autovalores são as raı́zes do polinômio caracterı́stico
p(x) = det(x − M ). Como M é real, esse polinômio tem coeficientes reais e, como é bem sabido, as
raı́zes de polinômios com coeficientes reais ou são números reais ou são pares de números complexos
complexo-conjugados
  uns dos outros. Por exemplo, as raı́zes do polinômio caracterı́stico da matriz
0 1
são ±i. De qualquer forma, uma matriz com determinante positivo pode, digamos, ter duas
−1 0
raı́zes negativas distintas simples, como é, por exemplo, o caso da matriz
 
1 0 0
0 −1 0  . (4.27)
0 0 −2

Isso posto, estudemos os autovalores das matrizes da forma eA com A real. Esses são as raı́zes do
polinômio caracterı́stico p(x) = det(x − eA ). Como toda matriz real é também membro de Mat ( , n)
podemos aplicar o Teorema da Decomposição de Jordan (Teorema 3.18, página 192) e afirmar que
existe uma matriz invertı́vel complexa P tal que P −1 AP = D + N com D diagonal, N nilpotente,
DN = N D, sendo que D tem na diagonal os autovalores da matriz real A. Assim, pela propriedade
do determinante,

p(x) = det(x − eA ) = det P −1 (x − eA )P = det(x − eD eN ).

É fácil de ver daı́6 que os autovalores de eA são os elementos da diagonal da matriz diagonal eD , que
são, como comentamos acima, exponenciais dos autovalores da matriz real A. Podemos nos perguntar:
podem os elementos da diagonal de eD serem números negativos? A resposta é sim, mas para isso é
necessário que A tenha um autovalor complexo cuja parte imaginária seja da forma (2k + 1)π, com k
inteiro. Ora, como A é real, existe pelo que comentamos acima, um outro autovalor complexo de A cuja
parte imaginária é da forma −(2k + 1)π, pois os autovalores complexos aparecem em pares complexo-
conjugados. Isso diz-nos que os autovalores negativos de eA tem multiplicidade par! Ora, isso nem
sempre é o caso para matrizes invertı́veis, como mostra o exemplo do último parágrafo. Assim, matrizes
reais com determinante positivo e com pelo menos um autovalor negativo com multiplicidade ı́mpar
não estão na imagem da exponencial de nenhuma matriz real. Tal é o caso da matriz de (4.27). Em
verdade, mesmo matrizes com determinante positivo e com autovalores negativos com multiplicidade
par podem não estar na imagem da exponencial. Tal é o caso das matrizes −1 a
0 −1 com a 6= 0 (mostre
isso).

Prova da Prop. 4.11. A Proposição 4.11 afirma que toda matriz complexa invertı́vel n × n pode ser
escrita como exponencial de outra matriz complexa n × n. Provemos isso. Seja A ∈ GL( , n). Pelo
Teorema da Decomposição de Jordan (Teorema 3.18, página 192) existe uma matriz invertı́vel P tal que
P −1 AP = D + N com D diagonal, N nilpotente, DN = N D, sendo que D tem na diagonal principal
os autovalores da matriz A. Esse último fato diz-nos que D não tem autovalores nulos e, portanto, é
também invertı́vel.
6
Pois numa base conveniente a matriz eD eN é uma matriz triangular superior, tendo na diagonal principal os elementos
da diagonal de eD .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 226/1195

Podemos assim escrever D + N = D( + D −1 N ). O que faremos agora é provar os seguintes fatos:


1. D pode ser escrita como D = eF para alguma matriz F conveniente. 2. + D −1 N pode ser escrita
como + D −1 N = eG para alguma matriz G conveniente. 3. Podemos escolher F e G de modo que
F G = GF . Desses três fatos concluı́mos que P −1 AP = exp(F + G) e, portanto, A = exp (M ), onde
M = P (F + G)P −1 . Isso prova o que desejamos.
Prova de 1. Sejam α1 , . . . , αl os autovalores distintos de D. Pelo Teorema Espectral (vide Teorema
X l
3.4, página 163, ou Teorema 3.5, página 165) podemos escrever D = αj Ej , onde as matrizes Ej
j=1
satisfazem (3.22) e (3.23) e, de acordo com (3.24), podem ser expressas como polinômios em D (um fato
1
que será usado mais abaixo): Ej = mj (α j)
mj (D). (Os polinômios mj foram definidos na demonstração
do Teorema 3.5). Seja, para cada j, um número complexo fj escolhido de forma que exp(fj ) = αj .
Encontrar tais fj ’s sempre é possı́vel pois os αj ’s são não-nulos, já que D é invertı́vel. Se definirmos
l
X
F := fj Ej
j=1

é fácil constatar por (3.22) e (3.23) que exp(F ) = D (faça!). Isso prova 1. Note que, pelo que
comentamos acima, vale
Xl
fj
F = mj (D) , (4.28)
j=1
mj (αj )
ou seja, F pode ser expressa como um polinômio em D.
Prova de 2. Como D −1 e N comutam (por que?), segue que D −1 N é nilpotente de ordem, digamos,
k+1
k, ou seja (D −1 N ) = 0. Assim, para z ∈ escolhido de modo que kzD −1 N k < 1, o logaritmo de
−1
+ zD N está bem definido e vale (vide (4.21))
Xk
(−z)m m
G(z) = − D −1 N . (4.29)
m=1
m

Sabemos pela Proposição 4.5 que nesse caso em que kzD −1 N k < 1, ou seja, |z| < 1/kD −1 N k, temos
exp(G(z)) = + zD −1 N . (4.30)
Queremos agora provar que essa igualdade vale para todo z. Usando novamente o fato que as matrizes
k+1
D −1 e N comutam entre si, o fato que (D −1 N ) = 0 e o fato que a soma em (4.29) é finita, teremos
k
!
X (−z)m  m
exp(G(z)) = exp − D −1 N
m=1
m

k
Y  
(−z)m m
= exp − D −1 N
m=1
m

k
" k
#
Y X (−1)l (−z)ml ml
= + D −1 N .
m=1 l=1
l! ml
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 227/1195

Como as somas a produtos acima são finitos (conseqüência da nilpotência de D −1 N ), constatamos que
exp(G(z)) é um polinômio em z para todo z ∈ . Ora, já verificamos acima que, quando |z| é pequeno,
exp(G(z)) é igual ao polinômio em z dado por + zD −1 N . Como polinômios são funções analı́ticas
em toda parte isso implica que exp(G(z)) = + zD −1 N para todo z ∈ . Em particular, para z = 1,
o que significa que + D −1 N = exp(G), onde

Xk
(−1)m+1 m
G ≡ G(1) = D −1 N . (4.31)
m=1
m

E. 4.15 Exercı́cio. Usando a definição (4.31), prove explicitamente que exp(G) = + D −1 N . 6

Prova de 3. Por (4.28), F é um polinômio em D. Assim, F comuta com D −1 e com N . Logo,


por (4.31), F comuta com G. Isso é o que querı́amos provar e, assim, a prova da Proposição 4.11 está
completa.

4.3 A Fórmula de Lie-Trotter e a Fórmula do Comutador


Há duas expressões envolvendo produtos de exponenciais de matrizes que são bastante úteis. São as
fórmulas conhecidas como fórmula de Lie-Trotter7 e fórmula do comutador. A fórmula de Lie-Trotter
é importante não apenas no estudo de grupos de Lie matriciais mas também na Mecânica Estatı́stica
e na Mecânica Quântica, onde é freqüentemente empregada. A fórmula de Lie-Trotter, por exemplo, é
usada na Mecânica Estatı́stica para relacionar sistemas quânticos de spin a sistemas clássicos de spin.
Proposição 4.12 Para quaisquer matrizes A, B ∈ Mat ( , n) valem:
Fórmula de Lie-Trotter:
    m
1 1
exp (A + B) = lim exp A exp B . (4.32)
m→∞ m m

Fórmula do Comutador:
        m2
1 1 1 1
exp ([A, B]) = lim exp A exp B exp − A exp − B . (4.33)
m→∞ m m m m
2

7
A fórmula de Lie-Trotter foi originalmente demonstrada por Lie (Marius Sophus Lie (1842-1899)) e posteriormente
generalizada por vários autores, entre eles Trotter (Hale Freeman Trotter (1931-)) em “On the Product of Semi-Groups
of Operators”. Proc. Amer. Math. Soc. 10, 545-551 (1959). O leitor poderá encontrar várias dessas generalizações (por
exemplo para operadores auto-adjuntos não-limitados agindo em espaços de Hilbert) em [99]. O assunto é ainda hoje
objeto de pesquisa.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 228/1195

Prova. Vamos primeiramente provar a fórmula de Lie-Trotter8 e posteriormente passar à fórmula do


comutador. Começamos definindo, para m ∈ , 

   
1 1
Sm := exp A exp B ,
m m
 
1
Tm := exp (A + B) .
m
Note-se que (Tm )m = exp (A + B) e que tudo o que desejamos é provar que (Sm )m converge a
exp (A + B), ou seja,
lim k(Sm )m − (Tm )m k = 0. 

m→∞

Precisamos, portanto, estudar (Sm )m − (Tm )m . Para isso, é útil empregarmos a identidade algébrica
(4.19). Daquela relação e das propriedades da norma operatorial, segue que
m−1
X
m
k(Sm ) − (Tm ) k m 

≤ kSm kp kSm − Tm k kTm km−1−p .





(4.34)
p=0

Pela definição, temos para qualquer matriz M ∈ Mat ( , n)



X ∞
1 k X∞
1

k exp (M ) k = 

M ≤ kM kk = ekM k .
k! k!


k=0 k=0 

Assim,    
1 1
kSm k 


exp m A
exp
B
≤ e(kAk +kBk )/m

m 

e kTm k ≤ e(kAk

+kBk )/m
. Retornando a (4.34), teremos
m−1
X
m m (kAk +kBk )(m−1)/m
k(Sm ) − (Tm ) k 

≤ e kSm − Tm k 

≤ mkSm − Tm k e(kAk 
+kBk )
.
p=0

Na última desigualdade usamos que (m − 1)/m < 1 e que kSm − Tm k não depende de p. 

Como se vê da última expressão, tudo que que temos que fazer para provar k(S m )m − (Tm )m k vai 

a zero quando m → ∞ é provar que kSm − Tm k vai a zero com 1/m2 quando m cresce. Isso é feito


escrevendo as expressões explı́citas para Sm e Tm em termos da série de Taylor da função exponencial:

     
1 1 1
Sm − Tm = exp A exp B − exp (A + B)
m m m
" ∞
#" ∞
# " ∞
#
1 X m−k k 1 X m−k k 1 X m−k
= + A+ A + B+ B − + (A + B) + (A + B)k .
m k=2
k! m k=2
k! m k=2
k!
8
Para a fórmula de Lie-Trotter seguiremos aqui a demonstração de [99].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 229/1195

Expandindo-se a última linha, e identificando os termos em 1/m, é fácil constatar que


1 1 1 1 1
Sm − T m = + A + B − − (A + B) + 2 Sm = Sm ,
m m m m m2
onde Sm é uma série, um tanto complicada, mas convergente em norma e tal que lim m→∞ kSm k = 

finito. Assim,
1
mkSm − Tm k ≤ 

kSm k 

m
e, portanto,
lim k(Sm )m − (Tm )m k = 0. 

m→∞

Isso demonstrou a fórmula de Lie-Trotter. O estudante mais avançado pode facilmente convencer-se
que precisamente a mesma demonstração se aplica ao contexto de operadores limitados agindo em
espaços de Banach.
Para a fórmula do comutador usaremos outro procedimento. Definimos
       
1 1 1 1
Um := exp A exp B exp − A exp − B
m m m m
e teremos

" ∞
#" ∞
#
1 1 2 X m−k k 1 1 2
X m−k k
Um = + A+ A + A + B+ B + B
m 2m2 k=3
k! m 2m2 k=3
k!
" ∞
#" ∞
#
1 1 2 X (−m)−k k 1 1 X (−m) −k
× − A+ A + A − B+ B2 + Bk .
m 2m2 k=3
k! m 2m2 k=3
k!

Com um pouco de paciência podemos expandir o produto dos quatro fatores do lado direito e constatar
(faça!) que os termos envolvendo 1/m se cancelam e o termo proporcional a 1/m 2 é AB − BA (outros
termos como (1/m2 )A2 e (1/m2 )B 2 também se cancelam. Verifique!). Ou seja, ficamos com
1 1
Um = + (AB − BA) + Rm , (4.35)
m2 m3
onde m13 Rm são os termos restantes da expansão. Rm é uma expressão complicada, mas envolvendo
séries convergentes e de tal forma que limm→∞ kRm k é finito.


Isso diz que para m grande o suficiente a norma de Um − é pequena e, assim, podemos tomar o
logaritmo de Um , definido por ln(Um ) = ln( + (Um − )). Por (4.35) e pela expansão do logaritmo
teremos

ln(Um ) = ln( + (Um − ))


 
1 1
= ln + 2 (AB − BA) + 3 Rm
m m

1 1 0
= (AB − BA) + R ,
m2 m3 m
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 230/1195

ou seja,
1 0
m2 ln(Um ) = [A, B] +
R , (4.36)
m m
onde R0m é novamente uma expressão complicada, mas envolvendo séries convergentes e de tal forma
que limm→∞ kR0m k é finito. Como limm→∞ m1 R0m = 0 podemos escrever, pela Proposição 4.3,


 
1 0
exp([A, B]) = lim exp [A, B] + Rm .
m→∞ m

Agora, por (4.36),


 
1 0  2 2
exp [A, B] + Rm = exp m2 ln(Um ) = (exp (ln(Um )))m = (Um )m .
m

Logo,
2
exp([A, B]) = lim (Um )m .
m→∞

Isso é o que desejávamos provar9 .

E. 4.16 Exercı́cio. Demonstre a fórmula de Lie-Trotter usando as idéias da prova da fórmula do


comutador. 6

4.4 Aplicações Lineares em Mat ( , n)


O conjunto de matrizes Mat ( , n) é naturalmente um espaço vetorial complexo de dimensão finita n 2 ,
pois combinações lineares de matrizes complexas n × n são novamente matrizes complexas n × n e a
matriz nula faz o papel de vetor nulo. Como tal, há várias aplicações lineares agindo em Mat ( , n).
Vamos nesta seção exibir e estudar algumas dessas aplicações e discutir suas relações. Os resultados aos
quais chegaremos são de interesse por si só, mas nossa intenção é também a de preparar a demonstração
da fórmula de Baker-Campbell-Hausdorff.

• As Aplicações ad

Dada uma matriz X ∈ Mat ( , n) fixa podemos definir uma aplicação linear ad[X] em Mat ( , n),
ad[X] : Mat ( , n) → Mat ( , n) por

ad[X](A) := [X, A] = XA − AX.

para toda matriz A ∈ Mat ( , n).


9
O estudante pode estar curioso (ou perplexo) sobre o por quê de não finalizamos a demonstração partindo de (4.36),
2
escrevendo m2 ln(Um ) = ln((Um )m ) e tomando diretamente daı́ o limite m → ∞. A razão é que o fato de Um ser próximo
2 2
de em norma não garante que (Um )m também o seja. Assim, o logaritmo de (Um )m pode não fazer sentido. Para
evitar esse transtorno lógico é mais conveniente finalizar a demonstração com uso da função exponencial de matrizes,
para a qual tais problemas de definição não ocorrem.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 231/1195

• As Aplicações Ad

Analogamente, seja G ∈ GL( , n) uma matriz invertı́vel fixa. Podemos definir uma aplicação linear
Ad[G] em Mat ( , n), Ad[G] : Mat ( , n) → Mat ( , n) por
Ad[G](A) := GAG−1 .

• Definindo a Exponenciação de ad

Denotaremos por (ad[X])p ou ad[X]p a p-ésima potência de ad[X]:


ad[X]p (A) = [X, [X, . . . , [X , A].
| {z }
p vezes

Aqui, p = 1, 2, . . .. Para facilitar a notação em aplicações futuras, convencionaremos que ad[X] 0 (A) =
A para toda matriz A ∈ Mat ( , n).
Dado que ad[X] é uma aplicação linear em um espaço vetorial de dimensão finita, sua exponencial
é bem definida. Definimos Exp[ad[X]] como sendo a aplicação linear no espaço das matrizes complexas
n × n, Exp[ad[X]] : Mat ( , n) → Mat ( , n) dada por
X∞ X∞
1 1
Exp[ad[X]](A) := (ad[X])m (A) := A + (ad[X])m (A),
m=0
m! m=1
m!

X∞
1
= A+ [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes

para toda A ∈ Mat ( , n). A convergência da série é automaticamente garantida pelas observações da
Seção 4.2.

• A Relação entre ad e Ad

Há uma relação elegante entre as aplicações ad e Ad, a qual se expressa na seguinte proposição:
Proposição 4.13 Seja X ∈ Mat ( , n) qualquer. Então
Ad[exp(X)] = Exp[ad[X]] , (4.37)
ou seja, para toda matriz A ∈ Mat ( , n) vale
X∞
1
exp(X)A exp(−X) = A + (ad[X])m (A), (4.38)
m=1
m!
ou seja,
X∞
1
exp(X)A exp(−X) = A + [X, [X, . . . , [X , A]
m! | {z }
m=1 m vezes

1 1
= A + [X, A] + [X, [X, A]] + [X, [X, [X, A]]] + · · · . (4.39)
2! 3!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 232/1195

Comentário 1. A expressão (4.38) ou (4.39) é comummente denominada série de Lie, mas alguns
autores também a denominam fórmula de Baker-Campbell-Hausdorff. Reservaremos esse nome apenas
para a expressão (4.46), adiante.

Comentário 2. As expressões (4.38) e (4.39) são empregadas de várias formas na Mecânica Quântica,
na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos, especialmente na Teoria de Per-
turbações e nas Teorias de Calibre.

Prova. Seja t ∈  e sejam A e X matrizes complexas n × n fixas quaisquer. Definamos


X∞
tm
Γ1 (t) := Exp[ad[tX]](A) = A + (ad[X])m (A)
m=1
m!

e
Γ2 (t) := Ad[exp(tX)](A) = exp(tX)A exp(−tX).
Vamos mostrar que Γ1 (t) = Γ2 (t) para todo t provando para isso que ambas satisfazem a mesma
equação diferencial linear com a mesma condição inicial.
É trivial constatar que Γ1 (0) = Γ2 (0) = A. Pela definição tem-se

X∞
d tm−1
Γ1 (t) = (ad[X])m (A)
dt m=1
(m − 1)!


!
X tm−1
= ad[X] (ad[X])m−1 (A)
m=1
(m − 1)!


!
X tm
= ad[X] (ad[X])m (A)
m=0
m!

= ad[X] (Exp[ad[tX]](A))

= ad[X](Γ1 (t)).

Em resumo, Γ1 (t) satisfaz


d
Γ1 (t) = ad[X](Γ1 (t)).
dt
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 233/1195

d
Analogamente, calculemos Γ (t).
dt 2
Aplicando a regra de Leibniz10 ,

d d
Γ2 (t) = (exp(tX)A exp(−tX))
dt dt
= X exp(tX)A exp(−tX) − exp(tX)A exp(−tX)X

= ad[X](exp(tX)A exp(−tX))

= ad[X](Γ2 (t)).

Em resumo, Γ2 (t) satisfaz


d
Γ2 (t) = ad[X](Γ2 (t)).
dt
Constatamos assim que Γ1 (t) e Γ2 (t) satisfazem a mesma equação diferencial com a mesma condição
inicial. Pelo Teorema de existência e unicidade de soluções de sistemas de equações diferenciais lineares
com coeficientes constantes discutido na Seção 6.2, isso implica que Γ1 (t) = Γ2 (t) para todo t ∈ e, 

em particular para t = 1, que é a afirmação do teorema.

Comentário. O teorema acima e sua demonstração exemplificam uma situação não muito incomum,
onde apresenta-se um resultado que é muito difı́cil de ser provado por um procedimento mas muito
fácil de ser demonstrado por outro. Tente o leitor demonstrar a identidade (4.38) expandindo as
exponenciais do lado direito em suas séries de Taylor, ou seja, escrevendo
∞ X
X ∞
(−1)l
exp(X)A exp(−X) = X k AX l
k=0 l=0
k!l!

e reordenando as somas de modo a obter o lado esquerdo de (4.38)! Ainda que seja possı́vel provar
(4.38) dessa forma, um tal procedimento é muitı́ssimo mais complexo que aquele que empregamos, e
que faz apenas uso de um fato básico bem conhecido da teoria das equações diferenciais.

E. 4.17 Exercı́cio. Tenha a idéia certa antes de tentar resolver qualquer problema. 6

• A Aplicação Diferencial Exponencial dexp

Seja F (t) uma matriz complexa n × n cujos elementos de matriz (F (t))ij são funções diferenciáveis
em relação a t. Seja também F 0 (t) a matriz cujo elemento ij é dtd (F (t))ij . Em palavras, F 0 (t) é obtida
diferenciando cada elemento de matriz de F (t).
Vamos nos colocar o seguinte problema: como calcular dtd exp(F (t))? O estudante apressado poderia
imaginar que dtd exp(F (t)) = exp(F (t))F 0 (t). Isso é, todavia, em geral falso, pois essa regra de derivação
não vale para matrizes! Isso é assim, pois a matriz F 0 (t) não necessariamente comuta com a matriz
10
Gottfried Wilhelm von Leibniz (1646-1716).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 234/1195

F (t). Tem-se, em verdade, que para todo m = 1, 2, 3, . . .,


 
m−1
X
d d  
m
(F (t)) = F (t) · · · F (t) = F (t)k F 0 (t)F (t)m−k−1 .
dt dt | {z }
k=0
m vezes

Conseqüentemente,
X∞ Xn−1
d 1
exp(F (t)) = F (t)k F 0 (t)F (t)n−k−1 . (4.40)
dt n=1
n!
k=0

Isso motiva a seguinte definição. Para X ∈ Mat ( , n) fixo, definimos uma aplicação linear
dexp[X] : Mat ( , n) → Mat ( , n), denominada aplicação diferencial exponencial, por
X∞ Xn−1
1 k
dexp[X](A) := X AX n−k−1 , (4.41)
n=1 k=0
n!

para todo A ∈ Mat ( , n).

E. 4.18 Exercı́cio. Mostre que a série do lado direito está bem definida, ou seja, que é convergente para
todos X e A. 6

Com essa definição podemos, por (4.40), escrever


d
exp(F (t)) = dexp[F (t)](F 0 (t)). (4.42)
dt
Para uma expressão alternativa para a derivada da exponencial de uma matriz dependente de um
parâmetro, vide equação (4.61), página 243.
Por razões que ficarão claras adiante quando provarmos a fórmula de Baker, Campbell e Hausdorff,
é conveniente expressar dexp[X] em termos de ad[X]. Como veremos, é possı́vel fazer isso e o resultado
está expresso na Proposição 4.14 que apresentaremos e demonstraremos a seguir.
Antes, porém, duas definições. Para z ∈ definimos a função complexa φ(z) por
X∞
1 − e−z (−1)m m
φ(z) := = z . (4.43)
z m=0
(m + 1)!

Como a série de Taylor do lado direito converge para todo z ∈ , φ(z) é uma função inteira, ou seja, é
analı́tica em toda parte.
Pelos nossos comentários da Seção 4.2, podemos definir para todo X ∈ Mat ( , n) uma aplicação
linear Φ[X] : Mat ( , n) → Mat ( , n) dada por
Φ[X] := φ(ad[X]), (4.44)
ou seja, Φ[X] é a aplicação que a todo A ∈ Mat ( , n) associa a matriz Φ[X](A) dada por
X∞
(−1)m
Φ[X](A) = ad[X]m (A). (4.45)
m=0
(m + 1)!

Pelos comentários da Seção 4.2 a série do lado direito converge para todos X, A ∈ Mat ( , n).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 235/1195

Proposição 4.14 Com as definições apresentadas acima, vale para todos A, X ∈ Mat ( , n) a
expressão
dexp[X](A) = exp(X) Φ[ad[X]](A) ,
ou seja, !
X∞
(−1)m
dexp[X](A) = exp(X) ad[X]m (A) .
m=0
(m + 1)!
2

Também como comentado acima, é inútil tentar provar a proposição partindo de (4.41) e aplicando
força-bruta. A demonstração usará uma série de truques elegantes.

Prova. Vamos definir, para A, X ∈ Mat ( , n) fixas e t ∈  ,

H(t) := t dexp[tX](A).

A idéia é descobrir uma equação diferencial que H(t) satisfaz e, em seguida, resolvê-la. Note-se que,
pela definição, H(0) = 0. Como veremos, resolver a equação diferencial é tarefa relativamente fácil.
Um pouco mais trabalhoso é encontrar a equação diferencial. Para isso temos que calcular a derivada
de H(t) em relação a t.
Pela definição de H(t) e de dexp[tX](A) em (4.41), tem-se
∞ X
n−1 n
!
d d d X t
H(t) = (t dexp[tX](A)) = X k AX n−k−1
dt dt dt n=1 k=0
n!

∞ X
X n−1 X∞ X n
tn−1 k n−k−1 tn k
= X AX = X AX n−k
n=1 k=0
(n − 1)! n=0 k=0
n!

∞ X
X n ∞
X ∞ X
X n
tn k n−k tn n tn
= A+ X AX = A+ AX + X k AX n−k
n=1 k=0
n! n=1
n! n=1 k=1
n!

∞ n
! ∞ X
n ∞ X
n
X t X tn X tn
n k n−k
= A + X + X AX = A exp(tX) + X k AX n−k
n=1
n! n=1 k=1
n! n=1 k=1
n!

∞ X
n
!
X tn−1
= A exp(tX) + tX X k−1 AX n−k
n=1 k=1
n!

∞ X
n−1 n−1
!
X t
= A exp(tX) + tX X k AX n−k−1
n=1 k=0
n!

= A exp(tX) + X (t dexp[tX](A)) = A exp(tX) + XH(t) .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 236/1195

Em resumo, H(t) satisfaz a equação diferencial


d
H(t) = XH(t) + A exp(tX),
dt
com a condição inicial H(0) = 0.
Como estudamos à página 301 da Seção 6.2.2, a solução geral da equação matricial
d
M(t) = XM(t) + G(t)
dt
é Z t
M(t) = exp(tX)M(0) + exp((t − s)X)G(s)ds.
0

Assim, como H(0) = 0 e G(t) = A exp(tX), teremos


Z t
H(t) = exp((t − s)X)A exp(sX) ds
0
Z t Z t
= exp(tX) exp(−sX)A exp(sX) ds = exp(tX) Ad[exp(−sX)](A) ds
0 0

Z t Z tX∞
(4.37) (−s)m
= exp(tX) Exp[−ad[sX]](A) ds = exp(tX) ad[X]m (A) ds
0 0 m=0 m!

X∞ Z t X∞
(−1)m m m (−1)m tm+1
= exp(tX) ad[X] (A) s ds = exp(tX) ad[X]m (A)
m=0
m! 0 m=0
(m + 1)!

X∞
(−1)m tm
= t exp(tX) ad[X]m (A)
m=0
(m + 1)!

(4.45)
= t exp(tX) Φ[tX](A) .

Essa expressão vale para todo t ∈  . Tomando t = 1, teremos H(1) = exp(X)Φ[X](A), ou seja,

dexp[X](A) = exp(X) Φ[X](A),

que é o que querı́amos provar.

Reunindo todos esses resultados, estamos agora preparados para provar a fórmula de Baker, Camp-
bell e Hausdorff.

4.5 A Fórmula de Baker, Campbell e Hausdorff


A presente seção é dedicada á demonstração do seguinte teorema.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 237/1195

Teorema 4.1 (Fórmula de Baker-Campbell-Hausdorff


 ) Para A, B ∈ Mat ( , n) tais que kAk
√ 


1 2
e kBk sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ., vale


exp(A) exp(B) = exp(A ∗ B),


com

k
!
X X X (−1)k Y 1
A∗B = A+B+ ···
k, l≥0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
k+l>0 a1 +b1 >0 ak +bk >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.46)


Os primeiros termos de (4.46) são
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · (4.47)
2 12 12
2

Comentário. A expressão (4.46) é a célebre fórmula de Baker11 , Campbell12 e Hausdorff13 , que desem-
penha um papel importante no estudo de grupos de Lie e outras áreas. Advertimos que, devido à sua
complexidade e devido à restrição quanto à norma das matrizes A e B, a fórmula de Baker-Campbell-
Hausdorff tem um escopo de aplicações relativamente limitado no que concerne a cômputos de produtos
de exponenciais. A mesma fórmula, porém, presta-se à demonstração de vários teoremas, especialmente
na teoria dos grupos de Lie. Uma situação interessante na qual a fórmula de Baker-Campbell-Hausdorff
pode ser empregada é aquela na qual comutadores de ordem suficientemente grande das matrizes A e
B se anulam, pois aı́ o lado direito de (4.46) ou (4.47) tem um número finito de termos. Tal ocorre nas
chamadas álgebras de Lie nilpotentes. O leitor que procura um exemplo simples do uso de (4.47) pode
interessar-se em ler sobre o chamado grupo de Heisenberg na Seção 10.2.2, página 574.
Prova do Teorema 4.1. A estratégia que empregaremos para provar a fórmula de Baker, Campbell
e Hausdorff é muito semelhante àquela empregada na demonstração da Proposição 4.14. Seja, para
A, B ∈ Mat ( , n) fixas tais que kAk < ln(2)/2 e kBk < ln(2)/2, a matriz14
 

G(t) := ln (exp(A) exp(tB)) , (4.48)


para t ∈ [−1, 1]. Vamos identificar uma equação diferencial satisfeita por G(t), e em seguida resolvê-la.
Comecemos procurando calcular a derivada de G(t) em relação a t. Isso é uma tarefa mais difı́cil do
que parece e procederemos de modo indireto. É conveniente calcular primeiro a derivada de exp(G(t)).
Por um lado temos que
exp(G(t)) = exp(A) exp(tB)
11
Henry Frederick Baker (1866-1956).
12
John Edward Campbell (1862-1924).
13
Felix Hausdorff (1868-1942).
14
A condição kAk < ln(2)/2 e kBk < ln(2)/2 garante que k exp(A) exp(tB) − k < 1 para todo t ∈ [−1, 1]. Assim,
o logaritmo de exp(A) exp(tB) em (4.48) está definido.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 238/1195

e, portanto,
d d
exp(G(t)) = exp(A) exp(tB) = exp(A) exp(tB)B.
dt dt
Por outro tem-se, pela definição da aplicação dexp, que
d
exp(G(t)) = dexp[G(t)](G0 (t)).
dt
Portanto,
dexp[G(t)](G0 (t)) = exp(A) exp(tB)B.
Usando a Proposição 4.14 essa última igualdade pode ser escrita como
exp(G(t)) Φ[G(t)](G0 (t)) = exp(A) exp(tB)B,
o que implica que
Φ[G(t)](G0 (t)) = exp(−G(t)) exp(A) exp(tB)B = exp(−tB) exp(−A) exp(A) exp(tB)B = B.
Resumindo, tem-se
Φ[G(t)](G0 (t)) = B. (4.49)
0
A idéia que agora perseguiremos é tentar inverter essa expressão de modo a obter G (t) (que aparece
no argumento de Φ no lado esquerdo).
Para isso faremos uso do seguinte lema:
Lema 4.2 Sejam as funções complexas
1 − e−z
φ(z) := , z∈ ,
z
já definida em (4.43) e
z ln(z)
ψ(z) := , |z − 1| < 1.
z−1
Então vale
ψ(ez )φ(z) = 1
para todo z tal que |z| < ln 2. 2

Prova. Usando a expansão em série de Taylor da função ln, podemos escrever


X (−1)k−1 ∞
ln(z) ln(1 + (z − 1))
ψ(z) := z = z = z (z − 1)k−1 . (4.50)
z−1 z−1 k=1
k

Isso mostra que ψ(z) é analı́tica na região |z − 1| < 1.


X∞
z z 1 m
Agora, se |z| < ln 2, tem-se que |e − 1| < 1, pois e − 1 = z e
m=1
m!

X∞ X∞
z 1 m 1
|e − 1| ≤ |z| < (ln 2)m = eln 2 − 1 = 1.
m=1
m! m=1
m!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 239/1195

Assim, ez está dentro da região onde ψ é analı́tica, onde vale que


 z  
z e z 1 − e−z
ψ(e )φ(z) = = 1,
ez − 1 z
que é o que querı́amos provar.

O uso que faremos desse lema é o seguinte. Seja X ∈ Mat ( , n) qualquer. Por analogia com a
definição de Φ[X] em (4.44), definimos

Ψ[X] := ψ(Exp[ad[X]]) = ψ(Ad[exp(X)])

Assim,
Ψ[X]Φ[X] := ψ(Exp[ad[X]])φ(ad[X]) = id,
onde id é a aplicação identidade: id(A) := A, para toda A ∈ Mat ( , n). Portanto, aplicando Ψ[G(t)]
a (4.49), teremos
G0 (t) = Ψ[G(t)](B).

Essa é a equação diferencial procurada e que é satisfeita por G(t), com a condição inicial G(0) = A.
Para prosseguir devemos escrevê-la de forma mais conveniente.
Pela definição da aplicação Ad, é bem fácil ver que

Ad[eX eY ] = Ad[eX ]Ad[eY ].

E. 4.19 Exercı́cio. Verifique. 6

Assim,

Ψ[G(t)] = ψ (Ad[exp(G(t)))]) = ψ (Ad[exp(A) exp(tB))])

= ψ (Ad[exp(A)] Ad[exp(tB))]) = ψ (Exp[ad[A]] Exp[ad[tB]]) .

A equação diferencial para G(t) assume, portanto, a forma

G0 (t) = ψ (Exp[ad[A]] Exp[ad[tB]]) (B), (4.51)

com G(0) = A.
Antes de passarmos à resolução dessa equação, comentemos brevemente que o lado direito de (4.51)
está bem definido desde que a norma de Exp[ad[A]] Exp[ad[tB]] seja menor que ln(2), devido à definição
de ψ. Uma conta simples, mas que omitiremos aqui, garante que isso se dá desde que kAk e kBk
√ 
 

1 2
sejam ambas menores que 2 ln 2 − 2 ≈ 0, 12844 . . ..
Isto posto, nossa tarefa agora é resolver (4.51), o que pode ser feito por uma simples integração.
Teremos, portanto,
Z t Z t
0
G(t) − G(0) = G (s) ds = ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds.
0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 240/1195

Tomando-se t = 1 teremos
Z 1
A B

ln e e = A+ ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds. (4.52)
0

Estando já na reta final, resta-nos calcular a integral do lado direito, o que pode ser feito com o uso
da expansão em série de ψ dada em (4.50) e um pouco de paciência. É o que faremos.
Por (4.50), teremos

ψ (Exp[ad[A]] Exp[ad[sB]]) (B)



X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]]) (Exp[ad[A]] Exp[ad[sB]] − id)k−1 (B)
k=1
k
" ∞
#
X (−1)k−1
= (Exp[ad[A]] Exp[ad[sB]] − id)k−1 Exp[ad[A]] Exp[ad[sB]](B)
k=1
k
" ∞
#
X (−1)k−1 k−1
= (Exp[ad[A]] Exp[ad[sB]] − id) Exp[ad[A]](B), (4.53)
k=1
k

onde, na última passagem usamos o fato óbvio que

Exp[ad[sB]](B) = Ad[exp(sB)](B) = exp(sB)B[exp(−sB) = B.

Desejamos escrever esta última expressão diretamente em termos das aplicações ad[A]] e ad[sB].
O último fator, Exp[ad[A]], é simplesmente

X∞
1
Exp[ad[A]] = ad[A]l . (4.54)
l=0
l!

Fora isso,
X∞ X ∞ X
1 1
Exp[ad[A]] Exp[ad[sB]] − id = ad[A]a ad[sB]b − id = sb ad[A]a ad[B]b .
a=0 b=0
a!b! a, b≥0
a!b!
a+b>0

Com isso,

(Exp[ad[A]] Exp[ad[sB]] − id)k−1

X X sb1 +···+sk−1
= ··· ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 . (4.55)
a1 , b1 ≥0 ak−1 , bk−1 ≥0
a1 !b1 ! · · · ak−1 !bk−1 !
a1 +b1 >0 ak−1 +bk−1 >0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 241/1195

Inserindo-se (4.54) e (4.55) em (4.53) tem-se

Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0

Z ∞ X
∞ k−1
!
1X X X k−1 b1 +···+bk−1 Y
(−1) s 1
= ···
0 k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B) ds. (4.56)


Trocando-se a integral pelas somas

Z 1
ψ (Exp[ad[A]] Exp[ad[sB]]) (B) ds
0

∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0

Z 1
a1 b1 ak−1 bk−1 l
× ad[A] ad[B] · · · ad[A] ad[B] ad[A] (B) sb1 +···+bk−1 ds
0

∞ X
∞ k−1
!
X X X (−1)k−1 Y 1
= ···
k=1 l=0 a1 , b1 ≥0 ak−1 , bk−1 ≥0
l!k(b1 + · · · + bk−1 + 1) i=1
ai !bi !
a1 +b1 >0 ak−1 +bk−1 >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak−1 ad[B]bk−1 ad[A]l (B)

∞ X
∞ k
!
X X X (−1)k Y 1
= ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B). (4.57)


Na última igualdade fizemos apenas a mudança de variáveis k → k + 1.

Retornando a (4.52), temos então ln eA eB = A ∗ B, onde

∞ X
∞ k
!
X X X (−1)k Y 1
A∗B = A+ ···
k=0 l=0 a1 , b1 ≥0 ak , bk ≥0
l!(k + 1)(b1 + · · · + bk + 1) i=1
ai !bi !
a1 +b1 >0 ak +bk >0

× ad[A]a1 ad[B]b1 · · · ad[A]ak ad[B]bk ad[A]l (B) (4.58)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 242/1195

É fácil ver que o termo com k = l = 0 nas somas do lado direito é igual a B. Com essa identificação,
finalmente chega-se a (4.46).
 Como já comentamos a convergência é garantida se kAk e kBk forem
√ 
 

ambas menores que 12 ln 2 − 22 ≈ 0, 12844 . . ..

E. 4.20 Exercı́cio importante. Colecionando os termos com a1 + b1 + · · · + ak + bk + l ≤ 2 em (4.46),


mostre que os primeiros termos de A ∗ B são aqueles dados em (4.47), página 237. 6

Comentário. Um comentário que adiantamos é que, como discutiremos melhor no Capı́tulo 11, o
produto “∗” expresso em (4.46), define uma estrutura de grupo em sub-álgebras de Lie nilpotentes de
Mat ( , n). De fato, é possı́vel provar que “∗” é um produto associativo (pois o produto de exponenciais
de matrizes é associativo) e é fácil ver que A ∗ 0 = A e que A ∗ (−A) = 0 para toda matriz A. Com
isso, a matriz nula é o elemento neutro do grupo e −A é a inversa de A. Isso também mostra que é por
vezes possı́vel construir um produto associativo a partir de outro não-associativo, como o comutador
de matrizes.

4.6 A Fórmula de Duhamel e Algumas de suas Conseqüências


Nesta seção demonstraremos a Fórmula de Duhamel15 :
Z 1
 
exp(A + B) = exp(A) + exp (1 − s)(A + B) B exp sA ds , (4.59)
0

válida para quaisquer matrizes A, B ∈ Mat ( . n), e estudaremos algumas de suas conseqüências. A
demonstração é simples. Diferenciando-se es(A+B) e−sA em relação a s, tem-se
     
d s(A+B) −sA d s(A+B) −sA s(A+B) d −sA
e e = e e +e e
ds ds ds
   
s(A+B) −sA s(A+B) −sA
= e (A + B) e +e (−A) e

= es(A+B) B e−sA .
Integrando-se ambos os lados entre 0 e t, obtem-se
Z t
t(A+B) −tA
e e − = es(A+B) B e−sA ds ,
0

de onde segue que Z t


e t(A+B)
= e tA
+ es(A+B) B e−(s−t)A ds ,
0
15
Jean Marie Constant Duhamel (1797-1872).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 243/1195

A mudança de variável de integração s → t − s conduz a


Z t
t(A+B) tA
e = e + e(t−s)(A+B) B esA ds . (4.60)
0

Para t = 1, isso reduz-se a (4.59), que é o que querı́amos provar. De (4.60) podem ser extraı́das várias
relações úteis, que trataremos agora.

• Derivada de uma exponencial em relação a um parâmetro

Uma das conseqüências mais úteis da fórmula de Duhamel é uma relação para a derivada da ex-
ponencial de uma matriz que depende de um parâmetro. Seja A(λ) ∈ Mat ( . n) uma matriz que
depende contı́nua e diferenciavelmente de um parâmetro λ. Então vale
Z 1  
d A(λ)  (1−s)A(λ) d
e = e A(λ) esA(λ) ds . (4.61)
dλ 0 dλ
Essa relação tem aplicações em equações diferenciais e na Mecânica Estatı́stica, dentro e fora do
equilı́brio. Alguns autores também denominam-na fórmula de Duhamel. O leitor deve compará-la
à expressão alternativa (4.42). Passemos à demonstração.
Sendo A(λ) diferenciável, vale, para todo  suficientemente pequeno,
d
A(λ + ) = A(λ) +  A(λ) + R(λ, ), (4.62)

onde
1
lim R(λ, ) = 0 . (4.63)
→0 
Tem-se, então,
 
d def. 1
exp(A(λ)) = lim exp(A(λ + )) − exp(A(λ))
dλ →0 

   
(4.62) 1 d
= lim exp A(λ) +  A(λ) + R(λ, ) − exp (A(λ))
→0  dλ
 Z 1   
(4.59) 1 A(λ) (1−s)(A(λ)+ dA (λ)+R(λ, )) dA sA(λ) A(λ)
= lim e + e dλ  (λ) + R(λ, ) e ds − e
→0  0 dλ
Z 1   
(1−s)(A(λ)+ dA (λ)+R(λ, )) dA sA(λ)
= lim e dλ (λ) e ds
→0 0 dλ
Z 1   
(1−s)(A(λ)+ dA (λ)+R(λ, )) 1 sA(λ)
+ lim e dλ R(λ, ) e ds
→0 0 
Z 1   Z 1   
(1−s)A(λ) dA sA(λ) (1−s)A(λ) 1 sA(λ)
= e (λ) e ds + e lim R(λ, ) e ds
0 dλ 0 →0 

Z 1  
(4.63) (1−s)A(λ) dA
= e (λ) esA(λ) ds ,
0 dλ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 244/1195

como querı́amos demonstrar.

• Iterando a fórmula de Duhamel

Na expressão (4.60) exponenciais do tipo eλ(A+B) aparecem em ambos os lados. Isso sugere que
podemos inserir iterativamente (4.60) dentro de si mesma de modo a obter outras expressões recorrentes,
como apresentado nas passagens auto-explicativas abaixo. Partindo de (4.60) e repetindo a iteração
duas vezes, tem-se
Z t
t(A+B) tA
e = e + e(t−s1 )(A+B) B es1 A ds1
0
Z t Z t−s1 
tA (t−s1 )A (t−s1 −s2 )(A+B) s2 A
= e + e + e Be ds2 B es1 A ds1
0 0

Z t Z tZ t−s1
= e tA
+ e (t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )(A+B) B es2 A B es1 A ds2 ds1
0 0 0
Z t
tA
= e + e(t−s1 )A B es1 A ds1 +
0
Z tZ t−s1  Z t−s1 −s2 
(t−s1 −s2 )A (t−s1 −s2 −s3 )(A+B) s3 A
e + e Be ds3 B es2 A B es1 A ds2 ds1
0 0 0

Z t Z tZ t−s1
= e tA
+ e (t−s1 )A
Be s1 A
ds1 + e(t−s1 −s2 )A B es2 A B es1 A ds2 ds1
0 0 0
Z tZ t−s1 Z t−s1 −s2
+ e(t−s1 −s2 −s3 )(A+B) B es3 A B es2 A B es1 A ds3 ds2 ds1 .
0 0 0

Repetindo-se N vezes o procedimento, teremos


" Z t
e t(A+B)
= e tA
+ e−s1 A B es1 A ds1
0

N Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y 
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1
m=2 0 0 0 k=0

Z tZ t−s1 Z t−s1 −···−sm m


Y 
+ ··· e(t−s1 −···−sm+1 )(A+B) B esm+1−k A dsm+1 · · · ds1 ,(4.64)
0 0 0 k=0

para todo N ∈  , N ≥ 2, sendo que convencionamos definir a produtória de matrizes da esquerda


L
Y
para a direita, ou seja, na forma Mk = M1 · · · ML (é necessário fixar uma convenção devido à
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 245/1195

não-comutatividade do produto de matrizes). Com as mudanças de variáveis

t1 = t − s1 s1 = t − t1
t2 = t − (s1 + s2 ) s2 = t1 − t2
.. , .. ,
. .
tm = t − (s1 + · · · + sm ) sm = tm−1 − tm
podemos reescrever as integrais entre colchetes acima na forma
" Z t N Z t Z t1 Z tm−1 m−1 #
X Y 
et(A+B) = + et1 A B e−t1 A dt1 + ··· etm−k A B e−tm−k A dtm · · · dt1 etA
0 m=2 0 0 0 k=0

Z tZ t−s1 Z t−s1 −···−sm m


Y
(t−s1 −···−sm+1 )(A+B)

+ ··· e B esm+1−k A dsm+1 · · · ds1 . (4.65)
0 0 0 k=0

E. 4.21 Exercı́cio. Verifique! 6

Substituindo A → A∗ e B → B ∗ na expressão acima, tomando a adjunta da expressão resultante e


usando o fato que, para qualquer matriz M ∈ Mat ( , n), vale (exp (M ∗ ))∗ = exp(M ), obtem-se
" Z t N Z t Z t1 Z tm−1 Y
m
#
X 
et(A+B) = etA + e−t1 A B et1 A dt1 + ··· e−tk A B etk A dtm · · · dt1
0 m=2 0 0 0 k=1

Z tZ Z "m+1 #
t−s1 t−s1 −···−sm Y 
+ ··· esk A B e(t−s1 −···−sm+1 )(A+B) dsm+1 · · · ds1 . (4.66)
0 0 0 k=1

E. 4.22 Exercı́cio. Verifique! 6

Para matrizes ou elementos de uma álgebra-∗ de Banach é possı́vel tomar o limite N → ∞ nas
expressões (4.64)-(4.66), como na proposição que segue.
Proposição 4.15 Sejam matrizes A, B ∈ Mat ( , n). Então,

" Z t
e t(A+B)
= e tA
+ e−s1 A B es1 A ds1
0

∞ Z tZ Z m−1
#
X t−s1 t−s1 −···−sm−1 Y 
+ ··· e−(s1 +···+sm )A B esm−k A
dsm · · · ds1 , (4.67)
m=2 0 0 0 k=0

ou, equivalentemente,
" Z t ∞ Z tZ Z m
#
X t1 tm−1 Y 
−t1 A
e t(A+B)
= e tA
+ e t1 A
B e dt1 + ··· e−tk A B etk A
dtm · · · dt1 , (4.68)
0 m=2 0 0 0 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 4 246/1195

para todo t ∈ , a convergência sendo uniforme para t em compactos. As expansões em série acima


são denominadas séries de Duhamel. 2

Prova. A prova consiste em mostrar que o limite N → ∞ de (4.64) ou (4.66) existe. Tomemos
provisoriamente t ∈ [−T, T ] para
 algum T > 0. Para τ ∈ [−T, T ], tem-se keτ A k ≤ e|τ |kAk ≤ eT kAk .
Seja M := max eT kAk , eT kA+Bk . Tem-se

Z Z Z tm−1 Y
t t1 m

−tk A tk A
··· e Be dtm · · · dt1
0 0 0
k=1

Z tZ t1 Z tm−1 m
2m m (M 2 kBk|t|)
≤ M kBk ··· dtm · · · dt1 =
0 0 0 m!
e, analogamente,

Z Z Z t−s1 −···−sm
t t−s1 m
Y  (M kBk|t|)m+1
t−(s1 +···+sm+1 )(A+B) sm+1−k A
··· e Be dsm+1 · · · ds1 ≤ M .
0 0 0 (m + 1)!
k=0

As duas desigualdades provam a convergência uniforme para t ∈ [−T, T ]. Como T é arbitrário, a


convergência se dá para todo t ∈ . 

Na Seção 6.4, página 311, apresentamos uma generalização da expressão (4.68), a chamada série de
Dyson para da teoria de perturbações (vide, em particular, a expressão (6.26)).

• Outros resultados análogos

O método de demonstração da fórmula de Duhamel apresentado acima pode ser empregado na


obtenção de outros resultados. Sejam novamente matrizes A, B ∈ Mat ( , n). Então, vale
Z t
tB
[A, e ] = e(t−s)B [A, B]esB ds . (4.69)
0

d

Para a prova, observamos que ds
e−sB Ae sB
= e−sB [A, B]esB (justifique!). Integrando-se ambos os
lados de 0 a t, obtem-se Z t
−tB
e Ae tB
−A = e−sB [A, B]esB ds . (4.70)
0

Multiplicando-se à esquerda por etB chega-se à expressão (4.69). Expressões como (4.69) são emprega-
das na teoria de perturbações na Mecânica Quântica.
Parte III

Equações Diferenciais

247
Capı́tulo 5
Equações Diferenciais Ordinárias. Uma Introdução
Conteúdo

5.1 Definição e Alguns Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . 249


5.1.1 Equações Diferenciais Ordinárias Lineares . . . . . . . . . . . . . . . . . . . . 251
5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse . . . . . . . 255
5.2 Sistemas de Equações Diferenciais Ordinárias . . . . . . . . . . . . . . . . 257
5.3 Alguns Métodos de Solução de Equações Diferenciais Ordinárias . . . . . 262
5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem . . . . . . . . . 262
5.3.2 As Equações de Bernoulli e de Riccati . . . . . . . . . . . . . . . . . . . . . . 263
5.3.3 Integração de Equações Separáveis . . . . . . . . . . . . . . . . . . . . . . . . 265
5.3.4 O Método de Variação de Constantes . . . . . . . . . . . . . . . . . . . . . . 266
5.3.5 O Método de Substituição de Prüfer . . . . . . . . . . . . . . . . . . . . . . . 268
5.3.6 O Método de Inversão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes . . . . . . . 271
5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut . . . . . . . . . . 276
5.4 Discussão sobre Problemas de Valor Inicial . . . . . . . . . . . . . . . . . . 280
5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em Mente . . . . 283
5.4.2 Teoremas de Existência e Unicidade de Soluções . . . . . . . . . . . . . . . . 286
5.4.3 Soluções Globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros . . . . . . . . . 290

este capı́tulo apresentaremos uma breve introdução à teoria das equações diferenciais or-
dinárias, abordando vários assuntos que serão aprofundados em outros capı́tulos. Na Fı́sica,
equações diferenciais são representações matemáticas diretas ou indiretas de leis naturais e
não é de surpreender, portanto, o papel central que as mesmas nela desempenham. Pode-se,
sem medo de exagero, afirmar que o desenvolvimento da Fı́sica moderna pós-Newtoniana só se tornou
possı́vel quando se compreendeu a importância de se expressar as leis básicas da natureza em termos
de equações diferenciais e quando se desenvolveram métodos de resolução das mesmas. Desde o século
XVIII as equações diferenciais tornaram-se não apenas um dos principais instrumentos teóricos de
trabalho dos fı́sicos, mas a linguagem mesma pela qual as leis da Fı́sica se expressam.
Um exemplo básico é segunda lei de Newton da Mecânica Clássica, que popularmente consiste na
afirmação que para uma partı́cula de massa m (movendo-se em, digamos, em uma dimensão, do ponto
de vista de um referencial inercial) o produto de sua massa por sua aceleração é igual à força que age
sobre ela. Se y(t) é a posição da partı́cula (em um sistema de referência inercial) e a força F que age
sobre ela em um instante de tempo t depender apenas do tempo t, da posição y(t) no instante t e

248
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 249/1195

da velocidade ẏ(t) no mesmo instante t, então a segunda lei de Newton assume a forma da equação
diferencial ordinária de segunda ordem
mÿ(t) = F (t, y(t), ẏ(t)) .
A Fı́sica apresenta outros exemplos de leis que se expressam em termos de equações diferenciais (parci-
ais), tais como as leis do Eletromagnetismo (equações de Maxwell), da Mecânica dos Fluidos (equações
de Euler e de Navier-Stokes), da Mecânica Quântica (equações de Schrödinger, de Klein-Gordon e de
Dirac), na Teoria da Relatividade Geral (equação de Einstein) etc.
Atualmente, o estudo das equações diferenciais e suas aplicações estende-se a outras sub-áreas da
Fı́sica, tais como a quı́mica, a biologia, a economia, finanças etc. , Para excelentes introduções, legı́veis
profundas e abrangentes, à teoria das equações diferenciais ordinárias, recomendamos [5] e [63].

5.1 Definição e Alguns Exemplos


Vamos iniciar nossa discussão tentando, de um modo geral e abstrato, definir o que se entende por uma
equação diferencial ordinária (que, seguindo a praxe, abreviaremos por EDO).

• Definição geral de EDOs

Seja n ≥ 1 um número natural e seja G(x1 , . . . xn+2 ) uma função (real ou complexa) de n + 2
variáveis (reais ou complexas). Entende-se por uma equação diferencial ordinária de ordem n de uma
função (incógnita) y de uma variável t associada à função G a equação
G(t, y(t), y 0 (t), . . . , y (n) (t)) = 0 . (5.1)
Assim sendo, o número n é dito ser a ordem da equação.
Um exemplo (escolhido arbitrariamente, sem aplicação prática conhecida) seria o caso da função de
três variáveis
G(x1 , x2 , x3 ) = x21 + sen (x2 ) − 3x1 cos(x3 ) . (5.2)
A equação diferencial ordinária de primeira ordem associada a essa função seria
t2 + sen (y(t)) − 3t cos(y 0 (t)) = 0 . (5.3)

É evidente que só faz sentido associar uma equação diferencial a uma função G de n + 2 variáveis,
como acima, se a mesma possuir zeros, ou seja, se a equação algébrica G(x 1 , . . . , xn+2 ) = 0 possuir
soluções (reais ou complexas, dependendo do interesse). Por exemplo, se G(x1 , x2 , x3 ) é uma função
de três variáveis reais ou complexas da forma G(x1 , x2 , x3 ) = |x1 |2 + |x2 |2 + |x3 |2 + 1 então não há
nenhuma equação diferencial associada à mesma, já que não há números reais ou complexos tais que
G(x1 , x2 , x3 ) = 0 e, portanto, a equação |t|2 + |y(t)|2 + |y 0 (t)|2 + 1 = 0, ainda que possa ser escrita,
trivialmente não possui qualquer solução.
Em muitos casos a equação algébrica G(x1 , . . . xn+2 ) = 0 permite escrever de modo único (ao menos
em uma região finita) a variável xn+2 em termos das demais:
xn+2 = F (x1 , . . . xn+1 ) , (5.4)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 250/1195

onde F é alguma função de n+1 variáveis. Condições para isso são garantidas pelo importante Teorema
da Função Implı́cita (vide Seção 14.4, página 805, ou qualquer bom livro-texto sobre funções de várias
variáveis). Nesses casos felizes, a equação diferencial para G equivale (ao menos localmente) à equação

y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.5)

Nos casos em que G é tal que não permite a separação global da dependência de x n+2 como em (5.4) a
equação diferencial é dita ser implı́cita. Equações implı́citas são por vezes difı́ceis de lidar. Trataremos
da solução de algumas delas na Seção 5.3, página 262. Um exemplo de uma equação implı́cita foi
apresentado em (5.2)-(5.3). Outro exemplo é a equação diferencial (associada à conservação de energia
mecânica de uma partı́cula de massa m se movendo em uma dimensão sob a ação de um potencial U ):
m
(ẏ(t))2 + U (y(t)) = E ,
2
onde E é uma constante.
Daqui por diante estaremos mais freqüentemente interessados em equações diferenciais de ordem
n da forma (5.5) para alguma função de n + 1 variáveis F . Para ilustrar equações do tipo (5.5),
apresentemos mais alguns exemplos.
Exemplo 5.1 Sejam m, ρ e k constantes positivas e f uma função de uma variável. Seja G a função
de quatro variáveis
G(x1 , x2 , x3 , x4 ) = mx4 + kx2 + ρx3 − f (x1 ) .
É evidente que para a equação algébrica G(x1 , x2 , x3 , x4 ) = 0 podemos escrever

x4 = F (x1 , x2 , x3 ) ,

onde
1
F (x1 , x2 , x3 ) = − (kx2 + ρx3 − f (x1 )) .
m
A equação diferencial (de segunda ordem) associada a essa função F é ÿ(t) = F (t, y(t) ẏ(t)), ou
seja
mÿ(t) + ρẏ(t) + ky(t) = f (t) .
O estudante pode imediatamente reconhecer que se trata da equação do oscilador harmônico amortecido
submetido a uma força dependente do tempo f (t). ◊

Vamos a outros exemplos escritos diretamente em termos da função F .


Exemplo 5.2 Sejam g e l duas constantes positivas e seja F a função
g
F (x1 , x2 , x3 ) = − sen (x2 ) .
l
A equação diferencial (de segunda ordem) associada a essa função F é
g
ÿ(t) = − sen (y(t)) .
l
O estudante pode imediatamente reconhecer que se trata da equação do pêndulo simples. ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 251/1195

Exemplo 5.3 (Equação de van der Pol) Sejam µ e k constantes e

F (x1 , x2 , x3 ) = −µx3 (x22 − 1) − kx2 .

A equação diferencial (de segunda ordem) associada a essa função F é

y 00 (t) + µy 0 (t)(y(t)2 − 1) + ky(t) = 0 .

Esta equação é conhecida como equação de van der Pol, em honra ao engenheiro que a propôs como a
equação básica para o triodo (uma espécie de “avô” do transistor). ◊
Exemplo 5.4 Sejam α e β constantes e

F (x1 , x2 ) = −αx2 + βx22 .

A equação diferencial (de primeira ordem) associada a essa função F é

y 0 (t) = −αy(t) + βy(t)2 .

Essa equação aparece em vários problemas, por exemplo no estudo da evolução de populações. ◊

Vários outros exemplos serão apresentados adiante.

5.1.1 Equações Diferenciais Ordinárias Lineares


No estudo das equações diferenciais é muito útil classificar equações que possuam certas propriedades
comuns. Uma classificação muito importante é aquela que separa as equações diferenciais em lineares
e não-lineares e as primeiras em homogêneas e não-homogêneas.

• Equações diferenciais ordinárias lineares

Seja a equação diferencial ordinária de ordem n

y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.6)

Se a função F (x1 , . . . xn+1 ) for uma função linear das variáveis x2 , . . . xn+1 , então (5.6) é dita ser
linear. Em um tal caso, F (x1 , . . . xn+1 ) é da forma

F (x1 , . . . xn+1 ) = f1 (x1 ) + f2 (x1 )x2 + · · · + fn+1 (x1 )xn+1 ,

para certas funções de uma variável f1 , . . . , fn+1 .


É fácil constatar que toda equação diferencial ordinária e linear de ordem n é da forma

y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) , (5.7)

para funções reais ou complexas a0 , . . . , an−1 e f . Veremos inúmeros exemplos adiante (vide Seção
5.1.2).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 252/1195

Equações que não são lineares são (obviamente) ditas ser não-lineares. Exemplos são a equação do
pêndulo simples
ẍ(t) + sen (x(t)) = 0
e a de van der Pol
ÿ(t) + µẏ(t)(y(t)2 − 1) + ky(t) = 0 .
Equações não-lineares são em muitos sentidos mais “complexas” que equações lineares e têm sido
objeto de intenso estudo nas últimas décadas. Neste texto não trataremos de métodos de resolução de
equações não-lineares, com exceção das equações de Bernoulli e Riccati, discutidas mais adiante, e dos
métodos recursivos desenvolvidos no Capı́tulo 14 para as equações integrais de Fredholm e de Volterra.

• Equações diferenciais ordinárias lineares a coeficientes constantes

Caso as funções a0 , . . . , an−1 em (5.7) sejam constantes, a equação (5.7) é dita ser a coeficientes
constantes. Como discutiremos, há um método geral para obter soluções de equações diferenciais
ordinárias lineares a coeficientes constantes (para qualquer ordem n).

• Equações lineares homogêneas e não-homogêneas

Caso a função f seja identicamente nula, a equação (5.7) é dita ser homogênea. De outra forma, se
f não for identicamente nula, equação (5.7) é dita ser não-homogênea.
Equações lineares e homogêneas têm uma propriedade de grande importância, o chamado princı́pio
de sobreposição, do qual trataremos agora.

• O princı́pio de sobreposição para equações lineares homogêneas

Seja uma equação diferencial ordinária linear e homogênea de ordem n


y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = 0 . (5.8)
O chamado princı́pio de sobreposição é a afirmativa que se y a e yb são duas soluções de (5.8) então
combinações lineares arbitrárias αya + βyb são também soluções de (5.8). Aqui α e β são números reais
(k) (k)
ou complexos arbitrários. A prova é simples. A k-ésima derivada de αya + βyb é αya + βyb . Assim,
substituindo-se y por αya + βyb no lado esquerdo de (5.8), teremos

(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )0 + a0 (t)(αya + βyb ) =

(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya0 + βyb0 ) + a0 (t)(αya + βyb ) =
 

α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya0 + a0 (t)ya 


| {z }
=0
 
(n) (n−1)
+ β yb + an−1 (t)yb + · · · + a1 (t)yb0 + a0 (t)yb  = 0 .
| {z }
=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 253/1195

Uma conclusão importante que se extrai do princı́pio de sobreposição é que o conjunto de todas
as soluções de uma equação diferencial ordinária linear e homogênea é um espaço vetorial, real ou
complexo, dependendo do caso.
Como o estudante facilmente percebe, o princı́pio de sobreposição vale também para sistemas de
equações diferenciais ordinárias lineares e homogêneas, assim como para equações diferenciais parciais
lineares e homogêneas, tais como as equações de difusão, de onda, de Laplace, as equações de Maxwell no
vácuo, a equação de Schrödinger e muitas outras equações da Fı́sica. Nelas o princı́pio de sobreposição
é amplamente empregado.
Historicamente, o princı́pio de sobreposição era conhecido desde os primeiros estudos sobre equações
diferenciais no século XVIII, mas foi através dos trabalhos de Helmholtz1 sobre acústica que sua im-
portância foi inteiramente percebida na resolução de equações diferenciais (ordinárias e parciais) lineares
de interesse fı́sico. A influência de Helmholtz não pode ser subestimada, mesmo no que concerne a
aplicações práticas: a leitura de Helmholtz, que também inventara um dispositivo eletromecânico para
a produção artificial do som de vogais, inspirou Bell2 a realizar experiências de transmissão simultânea
de múltiplos sinais de código Morse3 em uma única linha telegráfica, empregando freqüências distintas
para cada mensagem. Tais experiências conduziram Bell em 1876 à invenção do telefone.

• O caso de equações lineares não-homogêneas

Vamos colocar a seguinte questão. Vale o princı́pio de sobreposição para equações diferenciais
ordinárias lineares não-homogêneas? Para tentar responder isso, considere-se a equação não-homogênea
y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) (5.9)
e sejam ya e yb duas soluções. Como acima, consideremos uma combinação linear αya + βyb e tentemos
repetir o que fizemos no caso homogêneo. Assim, substituindo-se y por αya + βyb no lado esquerdo de
(5.9), teremos

(αya + βyb )(n) + an−1 (t)(αya + βyb )(n−1) + · · · + a1 (t)(αya + βyb )0 + a0 (t)(αya + βyb ) =

(n) (n−1)
(αya(n) + βyb ) + an−1 (t)(αya(n−1) + βyb ) + · · · + a1 (t)(αya0 + βyb0 ) + a0 (t)(αya + βyb ) =
 
 
α ya(n) + an−1 (t)ya(n−1) + · · · + a1 (t)ya0 + a0 (t)ya 
| {z }
= f (t)

 
 (n) (n−1) 
+ β yb + an−1 (t)yb + · · · + a1 (t)yb0 + a0 (t)yb  = (α + β)f (t) .
| {z }
= f (t)

O que concluı́mos é que αya + βyb somente é uma nova solução de (5.9) se α + β = 1. Portanto, se ya
e yb são soluções de (5.9) então αya + (1 − α)yb é também solução de (5.9) para qualquer α.
1
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
2
Alexander Graham Bell (1847-1922).
3
Samuel Finley Breese Morse (1791-1872).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 254/1195

Vimos que o princı́pio de sobreposição para equações não-homogêneas não se dá para α e β ar-
bitrários. Não se pode mais, portanto, dizer que o conjunto de soluções de uma equação não-homogênea
como (5.9) é um espaço vetorial, mas sim um espaço convexo.
Há ainda uma outra propriedade importante satisfeita pelas soluções de equações não-homogêneas.
Seja ynh uma solução particular da equação não-homogênea (5.9) e yh solução particular da equação
homogênea (5.8), a qual difere de (5.9) apenas pelo fato de ter-se f (t) = 0. Então tem-se que

y = αyh + ynh (5.10)

é também solução da equação não-homogênea (5.9) para qualquer constante α. Para ver isso, inserimos
y = αyh + ynh no lado esquerdo de (5.9) e teremos

(αya + ynh )(n) + an−1 (t)(αyh + ynh )(n−1) + · · · + a1 (t)(αyh + ynh )0 + a0 (t)(αyh + ynh ) =

(n) (n) (n−1) (n−1)


(αyh + ynh ) + an−1 (t)(αyh + ynh ) + · · · + a1 (t)(αyh0 + ynh
0
) + a0 (t)(αyh + ynh ) =
 
(n) (n−1)
α yh + an−1 (t)yh + · · · + a1 (t)yh0 + a0 (t)yh 
| {z }
=0
 
 (n) (n−1) 0 
+ ynh + an−1 (t)ynh + · · · + a1 (t)ynh + a0 (t)ynh  = f (t) .
| {z }
= f (t)

O que aprendemos com isso é que se tivermos uma solução particular de uma equação linear não-
homogênea obtemos uma outra solução mais geral adicionando a esta uma solução da equação linear
homogênea associada. Essa propriedade é muito útil na solução de equações não-homogêneas.

• Equações diferenciais ordinárias com retardo

Apenas por curiosidade informamos que não apenas equações diferenciais do tipo (5.1) ou (5.5)
são objeto de interesse e de pesquisa. Um outro tipo são as chamadas equações com retardo, as quais
existem em diversas formas. Uma dessas forma é a seguinte. Sejam T0 , . . . , Tn1 constantes positivas.
Uma equação com retardo (fixo) é uma equação da forma

y (n) (t) = F (t, y(t − T0 ), . . . , y (n−1) (t − Tn−1 )). (5.11)

A diferença com relação a (5.5) é que aqui y (n) no instante t não depende de y, . . . , y n−1 no mesmo
instante t, mas em instantes anteriores.
Um exemplo interessante é o seguinte. Suponha que y(t) designe a população de uma espécie de
seres vivos vivendo em um certo habitat. O número de falecimentos por causas naturais (como doenças)
no intervalo t e t+dt é tipicamente proporcional a y(t) (justifique!). Assim, se a espécie não se reproduz,
a variação dy da população no intervalo t e t + dt será dy = −αy(t)dt para uma certa constante α,
ou seja, y satisfará a equação diferencial y 0 (t) = −αy(t), que é uma equação de primeira ordem sem
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 255/1195

retardo. Agora, admitamos que a espécie se reproduz. O número de cruzamentos entre elementos da
espécie no intervalo t e t + dt é tipicamente proporcional a y(t)2 (justifique!). Se admitirmos que o
número de nascimentos no intervalo entre t e t + dt é proporcional ao de cruzamentos ocorridos em
t − T0 (descontando assim o tempo de gestação T0 ) a equação diferencial para y terá que ser modificada
para
y 0 (t) = −αy(t) + β(y(t − T0 ))2
para uma certa constante β. Esta é uma equação de primeira ordem com retardo.
Há vários outros tipos de equações com retardo, por exemplo, aquelas onde os tempos de retardo
Ti não são fixos, mas dependem de t ou mesmo de y. Tais equações aparecem no Eletromagnetismo,
onde o retardo é devido à finitude da velocidade da luz.
O estudo de equações com retardo requer outros métodos que não aqueles que discutiremos aqui e
é atualmente assunto ativo de pesquisa, encontrando aplicações mesmo fora da Fı́sica, em áreas tais
como a Epidemiologia - como o exemplo acima ilustra - onde os retardos são tipicamente conseqüência
quer de tempos de gestação quer de tempos de latência (de doenças).

5.1.2 Equações Ordinárias de Segunda Ordem. Exemplos de Interesse


Para futura referência vamos aqui listar uma série de equações diferenciais lineares de segunda ordem
de particular interesse.

1. A equação linear de segunda ordem e homogênea (forma geral):

a(t)ÿ + b(t)ẏ + c(t)y = 0 ,

com a(t) não-identicamente nula.

2. Equação linear de segunda ordem não-homogênea (forma geral) :

a(t)ÿ(t) + b(t)ẏ(t) + c(t)y(t) = f (t) ,

com a(t) e f (t) não-identicamente nulas.

3. A equação de Euler4 :
t2 ÿ(t) + at ẏ(t) + by(t) = 0 ,
onde a e b são constantes.

4. A equação de Hill5 :
ÿ(t) + (λ + P (t))y(t) = 0 ,
onde P (t) é uma função periódica e λ constante. Um caso particular importante é o da equação
de Mathieu:
4
Leonhard Euler (1707-1783).
5
George William Hill (1838-1914).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 256/1195

5. A equação de Mathieu6 :
ÿ(t) + (a + b cos(ωt))y(t) = 0 ,
com a, b e ω constantes.
6. A equação de Bessel7 :
x2 y 00 (x) + xy 0 (x) + (x2 − ν 2 )y(x) = 0 ,
ν∈  .
7. A equação de Legendre8 :
(1 − x2 )y 00 (x) − 2xy 0 (x) + λ(λ + 1)y(x) = 0 ,
λ∈  .
8. A equação de Hermite9 :
y 00 (x) − 2xy 0 (x) + λy(x) = 0 ,
λ∈  .
9. A equação de Airy10 :
y 00 (x) − xy(x) = 0 .
10. A equação de Laguerre11 :
xy 00 (x) + (1 − x)y 0 (x) + λy(x) = 0 ,
λ∈  .
11. A equação de Chebyshev12 :
(1 − x2 )y 00 (x) − xy 0 (x) + λ2 y(x) = 0 ,
λ∈  .
12. A equação Hipergeométrica13 :
z(1 − z)y 00 (z) + [c − (1 + a + b)z]y 0 (z) − aby(z) = 0 ,
a, b, c constantes.
13. A equação Hipergeométrica Confluente:
zy 00 (z) + [c − z]y 0 (z) − ay(z) = 0 ,
a, c constantes.

O leitor interessado poderá encontrar na Seção 8.3, página 482, problemas fı́sicos dos quais emergem
algumas das equações listadas acima.
6
Emile-Léonard Mathieu (1835-1890).
7
Friedrich Wilhelm Bessel (1784-1846).
8
Adrien-Marie Legendre (1752-1833).
9
Charles Hermite (1822-1901).
10
George Biddell Airy (1801-1892).
11
Edmond Nicolas Laguerre (1834-1886).
12
Pafnuty Lvovich Chebyshev (1821-1894).
13
Assim denominada pois sua solução envolve uma generalização da série geométrica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 257/1195

5.2 Sistemas de Equações Diferenciais Ordinárias


Um sistema de equações diferenciais ordinárias envolvendo m funções desconhecidas y 1 , . . . , ym de
uma variável é um conjunto de equações do tipo
(n ) (n −1) (n −1)
y1 1 (t) = F1 (t; y1 , y10 , . . . , y1 1 ; . . . ; ym , ym
0
, . . . , ym m ) ,
(n ) (n −1) (n −1)
y2 2 (t) = F2 (t; y1 , y10 , . . . , y1 1 ; . . . ; ym , ym
0
, . . . , ym m ) ,
.. (5.12)
.
(n ) (n1 −1) (n −1)
ym m (t) = Fm (t; y1 , y10 , . . . , y1 0
; . . . ; ym , ym , . . . , ym m ),
onde cada Fi é uma função de um certo número de variáveis e nk são números inteiros maiores ou
iguais a 1. Para cada yj tem-se, portanto, uma equação de ordem nj , na qual comparecem também as
demais funções yk e suas derivadas de ordem até nk − 1.
Sistemas de equações diferenciais ordinárias são muito freqüentes em Fı́sica. Considere-se, por
exemplo, um sistema isolado de m partı́culas de massas Mi e coordenadas x~i , i = 1, . . . , m, interagindo
de forma que a partı́cula j exerce sobre a partı́cula i uma força F~ij (x~i − x~j ). A segunda lei de Newton
fica X
Mi x~¨i (t) = F~ij (x~i (t) − x~j (t)) ,
j6=i

i = 1, . . . , m, que é um sistema de equações diferenciais ordinárias.

• O sistema de Lotka-Volterra

Um outro exemplo de sistema de equações diferenciais é o chamado sistema de caça-presa de Lotka 14


e Volterra15 , empregado no estudo de evolução de populações16 . Esse sistema é da forma
ṗ1 (t) = −α1 p1 (t) + β1 p1 (t)p2 (t)
, (5.13)
ṗ2 (t) = +α2 p2 (t) − β2 p1 (t)p2 (t)
onde αi e βi , i = 1, 2 são constantes positivas. O sistema de Lotka-Volterra descreve a evolução de duas
populações de acordo com um modelo de interação entre caça (a população p 1 ) e presa (a população
p2 ).
A idéia do modelo é a seguinte: p1 representa uma população que se alimenta da população p2 . Esta,
alimenta-se de recursos do habitat. Tenha-se em mente, por exemplo, a situação onde p 1 representa
uma população de raposas que se alimentam de coelhos, representados por p2 . Estes, sendo herbı́voros,
alimentam-se de plantas de seu habitat. Se as duas populações estão isoladas, p1 tende a desaparecer
(por falta de alimento) exponencialmente com uma taxa α1 . Já p2 cresce exponencialmente com uma
taxa α2 , por não ter inimigos naturais. Assim, quando as duas populações estão isoladas, suas evoluções
são descritas pelo sistema
ṗ1 (t) = −α1 p1 (t)
. (5.14)
ṗ2 (t) = +α2 p2 (t)
14
Alfred James Lotka (1880-1949).
15
Vito Volterra (1860-1940).
16
O modelo foi proposto em 1920 por Lotka para o estudo de certas reações quı́micas e em 1926 por Volterra, em uma
tentativa de modelar a evolução de populações de peixes e tubarões do mar Adriático. Para uma referência histórica,
vide V. Volterra “Leçons sur la Théorie Mathématique de la Lutte pour la Vie”. Gauthier-Villars et Cie., Paris, 1931.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 258/1195

Postas em contato, as populações começam a interagir, e de modo que p1 tem uma chance de sobre-
vivência por se alimentar de p2 , que ganha agora um predador. As chances de sobrevivência de p1 são
proporcionais ao número de encontros entre elementos de p1 e de p2 no habitat, pois em um encontros
um elemento de p1 pode eventualmente matar um elemento de p2 e, assim, alimentar-se. Esse número
de encontros é grosseiramente proporcional ao produto das duas populações p 1 p2 (por que?). Assim, a
taxa de sobrevivência de p1 deve ser acrescida de um termo como β1 p1 (t)p2 (t), enquanto que a taxa de
sobrevivência de p2 deve ser subtraı́da de um termo como β2 p1 (t)p2 (t). Esses termos levam ao sistema
de Lotka-Volterra acima. O resultado da evolução de um tal sistema é ilustrado na Figura 5.1.

Figura 5.1: A evolução do sistema de Lotka-Volterra para três condições iniciais distintas. O eixo
horizontal é a população p1 e o vertical p2 . Note que a evolução se dá em ciclos periódicos fechados,
uma caracterı́stica especial do sistema de Lotka-Volterra.

Também estudado em modelos de ecologia é o modelo de competição de Lotka-Volterra, descrito


pelo sistema
ṗ1 (t) = α1 p1 (t) − β1 p1 (t)2 − γ1 p1 (t)p2 (t)
. (5.15)
ṗ2 (t) = α2 p2 (t) − β2 p2 (t)2 − γ2 p1 (t)p2 (t)
Acima βi e γi são positivos, mas αi podem ser positivos ou negativos. Na primeira equação, o termo
+α1 p1 (t) descreve o crescimento (ou decrescimento) da população p1 por consumir recursos de seu
habitat (supostamente ilimitados), se reproduzir e morrer. O termo −β1 p1 (t)2 descreve, por exemplo,
a taxa de propagação de doenças fatais entre elementos da população p 1 , que é proporcional ao número
de encontros de elementos da espécie p1 com elementos da espécie p1 . Esse número é grosseiramente
proporcional a p21 (por que?). O termo −γ1 p1 (t)p2 (t) descreve a competição entre as duas espécies cujas
populações são p1 e p2 .
Também muito estudados17 são os modelos do tipo Lotka-Volterra com n espécies, caracterizados
17
Para um trabalho recente, vide P. Duarte R. L. Fernandez e W. M. Oliva “Dynamics on the attractor of the Lotka-
Volterra equations”. J. Diff. Equations 149, 143-189 (1998) e referências lá citadas.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 259/1195

pelo sistema de equações


n
X
ṗj (t) = αj pj (t) + βjk pj (t) pk (t) , j = 1, . . . , n .
k=1

Mais generalidades sobre o modelo de Lotka-Volterra e sobre outras aplicações de equações diferen-
ciais em modelos ecológicos e epidemiológicos podem ser encontradas, por exemplo, em [9] e [2]. Para
outra referência sobre o modelo de Lotka-Volterra e assuntos correlatos, vide [66].
Comparados à realidade dos sistemas biológicos os modelos apresentados acima são bastante sim-
plificados, deixando de lado vários efeitos possivelmente relevantes, tais como reprodução sexuada
(machos só se reproduzem com fêmeas, não com outros machos, fêmeas idem), imunidade ou não a
doenças por parte das populações, tempos de gestação, ausência de reprodução durante a gestação,
tempos de latência de doenças, limitação dos recursos do habitat, surgimento aleatório de mutações e
vários outros fatores. Há toda uma área de pesquisa voltada à modelagem realista de sistemas biológicos
e eco-sistemas. Alguns modelos estudados chegam a ser extremamente complexos, envolvendo dezenas
de equações e de incógnitas. Para uma referência atualizada sobre modelagem de sistemas biológicos,
vide [9] ou [66].

• Sistemas de primeira ordem

O sistema de equações diferenciais ordinárias mais básico é o de primeira ordem:


y˙1 (t) = F1 (t, y1 , . . . , ym ) ,
y˙2 (t) = F2 (t, y1 , . . . , ym ) ,
.. (5.16)
.
y˙m (t) = Fm (t, y1 , . . . , ym ) ,

onde cada Fi é uma função de m + 1 variáveis. É conveniente simplificarmos um pouco a expressão


(5.16). Introduzindo os vetores de m componentes
 
y1
 .. 
Y =  .  ∈ m 

ym
m+1 m
e as funções F :  → 

   
F1 (t, y1 , . . . , ym ) F1 (t, Y )
 ..   .. 
F (t, Y ) =  .  =  . 
Fm (t, y1 , . . . , ym ) Fm (t, Y )

a expressão (5.16) fica


Ẏ (t) = F (t, Y (t)) . (5.17)

Como veremos logo adiante, todo sistema de equações diferenciais ordinárias pode ser escrito como
um sistema equações diferenciais ordinárias de primeira ordem, escrito quer na forma (5.16), quer na
forma (5.17), para algum m e para alguma função F : m+1 → m .  
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 260/1195

• Sistemas lineares de primeira ordem

Muito importantes são os sistemas de m equações diferenciais ordinárias lineares de primeira ordem,
os quais têm a forma
ẏ1 (t) = a11 (t)y1 (t) + · · · + a1m (t)ym (t) + b1 (t) ,
ẏ2 (t) = a21 (t)y1 (t) + · · · + a2m (t)ym (t) + b2 (t) ,
.. (5.18)
.
ẏm (t) = am1 (t)y1 (t) + · · · + amm (t)ym (t) + bm (t) ,
para certas funções aij e bj de t.
No casos em que as funções bj acima são identicamente nulas o sistema é dito ser homogêneo. Caso
contrário, é dito ser não-homogêneo.

• Representação matricial de sistemas lineares

Como veremos, é muito conveniente escrever o sistema linear (5.18) acima em notação matricial.
De fato, definindo,
     
y1 (t) a11 (t) · · · a1m (t) b1 (t)
   ..  ,  
Y (t) =  ...  , A(t) :=  ... ..
. .  B(t) =  ...  ,
ym (t) am1 (t) · · · amm (t) bm (t)

podemos escrever o sistema (5.18) como

Ẏ (t) = A(t)Y (t) + B(t) ,

como facilmente se vê. Sistemas lineares de primeira ordem serão estudados em detalhe no Capı́tulo 6
onde, em particular, faremos uso abundante da notação matricial acima.

• Equivalência entre equações de ordem n e sistemas de EDOs

Provaremos agora um fato simples, mas de grande relevância, tanto teórica quanto em aplicações
(analı́ticas ou numéricas), a saber, que toda equação diferencial ordinária de ordem n é equivalente a
um sistema de n equações de primeira ordem.
Seja a equação diferencial ordinária de ordem n

y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) . (5.19)

Definindo yk (t) := y (k−1) (t), para todo k = 1, . . . , n, teremos y1 (t) = y(t) e


ẏ1 (t) = y2 (t) ,
ẏ2 (t) = y3 (t) ,
.. (5.20)
.
ẏn−1 (t) = yn (t) ,
ẏn (t) = F (t, y1 (t), . . . , yn (t)) .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 261/1195

E. 5.1 Exercı́cio. Verifique! 6

Este é um sistema como (5.16), onde, aqui,


F1 (t, y1 , . . . , yn ) = y2 ,
F2 (t, y1 , . . . , yn ) = y3 ,
..
.
Fn−1 (t, y1 , . . . , yn ) = yn ,
Fn (t, y1 , . . . , yn ) = F (t, y1 (t), . . . , yn (t)) .
Isso mostra que toda equação diferencial ordinária de ordem n, como (5.19), equivale a um sistema de
n equações de primeira ordem, como (5.20).

E. 5.2 Exercı́cio importante. Seja a equação diferencial ordinária linear de ordem n

y (n) (t) + an−1 (t)y (n−1) (t) + · · · + a1 (t)y 0 (t) + a0 (t)y(t) = f (t) .
Determine o sistema linear de n equações de primeira ordem equivalente e mostre que o mesmo pode ser
escrito na forma matricial
Ẏ (t) = A(t)Y (t) + B(t) ,
onde    
y(t) 0
 
y 0 (t)   0
   
 
..   ..
Y (t) :=   ,
. B(t) :=   .
 (n−2)   
y (t)  0 
(n−1)
y (t) f (t)
e A(t) é a matriz n × n
 
0 1 0 0 ··· 0
 
 
 0 0 1 0 ··· 0 
 
 
 .. .. .. 
 .. .. .. 
 . . . . . . 
 
A(t) :=   .
 .. 
 0 0 0 . 1 0 
 
 
 
 0 0 0 ··· 0 1 
 
 
−a0 (t) −a1 (t) −a2 (t) ··· −an−2 (t) −an−1 (t)
Equação matriciais como a de acima serão estudadas com mais detalhe no Capı́tulo 6. 6

E. 5.3 Exercı́cio. Mostre que todo sistema de equações diferenciais ordinárias como (5.12) equivale
a um sistema de equações de primeira ordem. Sugestão: use a mesma idéia de acima, dando nomes às
(nj )
derivadas yi que aparecem no lado direito de (5.12). 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 262/1195

5.3 Alguns Métodos de Solução de Equações Diferenciais Or-


dinárias
Nesta seção apresentaremos alguns métodos de solução de equações diferenciais ordinárias. Todos
os métodos apresentados têm sua validade e sua eficácia limitadas a certas classes de equações. No
Capı́tulo 7, página 355, desenvolveremos com bastante detalhe métodos de solução de equações lineares
baseados em expansões, a saber, o método de expansão em séries de potências e o método de Frobenius,
válidos para equações diferenciais lineares gozando de certas propriedades de analiticidade. Com o
propósito de centrar a discussão nos métodos de solução, não trataremos aqui de questões relativas
à continuidade de soluções em relação a parâmetros e condições iniciais e ao domı́nio de validade de
soluções. Essas questões serão discutidas na Seção 5.4, página 280. Métodos iterativos, perturbativos
ou numéricos também não serão discutidos aqui. Dada a profusão de métodos de solução de equações
diferenciais (uma ciência que se desenvolve já há mais de trezentos anos!), nossa apresentação será,
reconhecidamente, limitada. Para um texto introdutório sobre equações diferenciais ordinárias centrado
em métodos de solução, vide [13].

5.3.1 Solução de Equações Ordinárias Lineares de Primeira Ordem

• Solução de equações lineares de primeira ordem

Equações diferenciais ordinárias lineares de primeira ordem são particularmente interessantes pois,
sob hipóteses simples, é possı́vel apresentar soluções gerais para as mesmas e de modo relativamente
fácil. Este tópico é dedicado a isso. Infelizmente a mesma facilidade não é encontrada para o caso das
equações diferenciais lineares de ordem dois ou maior.
Considere-se a equação diferencial ordinária linear de primeira ordem

ẏ(t) + a(t)y(t) = b(t) , (5.21)

para funções a e b :  → , contı́nuas. Vamos mostrar como resolver uma tal equação. Para tal,
defina-se Z t 
p(t) := exp a(τ )dτ .
0

Multiplicando-se (5.21) por p(t) e usando o fato que ṗ(t) = a(t)p(t), teremos

d
[p(t)y(t)] = p(t)b(t) ,
dt
donde conclui-se que
 Z t  Z t
1 −1

y(t) = y(0) + p(s)b(s) ds = p(t) y(0) + p(t)−1 p(s) b(s) ds . (5.22)
p(t) 0 0

E. 5.4 Exercı́cio. Complete os detalhes. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 263/1195

Essa expressão representa a solução geral de (5.21), a qual depende do valor de y(0), a ser especifi-
cado (condição inicial).

E. 5.5 Exercı́cio. A solução (5.22) é da


R forma (5.10), pois p(t) −1 é solução da equação homogênea
t
ẏ(t) + a(t)y(t) = 0 enquanto que p(t)−1 0 b(τ )p(τ ) dτ é solução particular da equação não-homogênea
(5.21). Verifique essas afirmações. 6
Rt
Naturalmente, para o cálculo explı́cito de y é necessário calcular a integral 0 a(τ )dτ que aparece
Rt
na definição de p, assim como, numa segunda etapa, a integral 0 b(τ )p(τ )dτ . Como essas funções são
conhecidas, isso pode ser possı́vel, em princı́pio, mas nem sempre obtem-se fórmulas explı́citas para as
mencionadas integrais. Ainda assim, (5.22) representa a solução completa do problema. Na pior das
hipóteses as integrais mencionadas podem ser calculadas numericamente de modo aproximado.
A solução (5.22) de (5.21) pode ser reobtida com o método dos fatores integrantes, tal como descrito
no Exemplo 5.7, página 273.

5.3.2 As Equações de Bernoulli e de Riccati

• A equação de Bernoulli

Para a e b :  → , ambas contı́nuas, a equação diferencial ordinária não-linear homogênea de


primeira ordem
ẏ(t) + a(t)y(t) + b(t)y(t)2 = 0 (5.23)
é denominada equação de Bernoulli18 . Apesar desta equação ser um dos representantes mais simples
da classe das equações diferenciais não-lineares, a não-linearidade da mesma não acrescenta nenhuma
barreira à sua solubilidade, pois a simples substituição y(t) = 1/v(t) conduz à equação

v̇(t) − a(t)v(t) − b(t) = 0

que é linear e tem por solução (vide acima)


 Z t 
1
v(t) = v(0) + b(τ )p(τ ) dτ ,
p(t) 0

onde  Z t 
p(t) := exp − a(τ ) dτ .
0

Portanto, a solução geral de (5.23) é

p(t)
y(t) =  Z t .
v(0) + b(τ )p(τ ) dτ
0

18
Jacob Bernoulli (1654-1705). Vide nota histórica à página 265.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 264/1195

E. 5.6 Exercı́cio. Complete os detalhes. 6

E. 5.7 Exercı́cio. Determine a solução geral da equação de Bernoulli generalizada

ẏ(t) + a(t)y(t) + b(t)y(t)n = 0 ,


1
n 6= 1. Sugestão: Defina v por y(t) = v(t) 1−n e proceda como acima. 6

As equações de Bernoulli são um caso particular de uma classe maior de equações diferenciais
ordinárias não-lineares, as chamadas equações de Riccati generalizadas.

• A equação de Riccati generalizada

Para a, b e c :  → , contı́nuas, a equação diferencial ordinária não-linear não-homogênea de


primeira ordem
ẏ(t) + a(t)y(t) + b(t)y(t)2 + c(t) = 0 (5.24)
é denominada equação de Riccati19 .
Ao contrário da equação de Bernoulli, a equação de Riccati generalizada não é, em geral, solúvel.
Apenas em casos particulares há soluções mais ou menos explı́citas para as mesmas, normalmente em
termos de expansões em série, como expansões em série de potências.
Apesar de sua não-solubilidade genérica (em contraposição com a equação de Bernoulli, que é
também não-linear mas solúvel), é possı́vel obter a solução geral de (5.24) se uma solução particular
sua for conhecida. De fato, se u é uma solução particular conhecida de (5.24) então a solução geral é
da forma
y(t) = u(t) + v(t) ,
onde v obedece à equação de Bernoulli

v̇(t) + [a(t) + 2b(t)u(t)]v(t) + b(t)v(t)2 = 0 .

E. 5.8 Exercı́cio. Verifique, substituindo y = u + v em (5.24) e usando a hipótese que u é solução de


(5.24). 6

Assim, conhecida a função u, a solução geral da equação de Riccati generalizada é


p1 (t)
y(t) = u(t) + Z t ,
w0 − b(τ )p1 (τ ) dτ
0

onde w0 = 1/(y(0) − u(0)), para y(0) 6= u(0), é uma constante e onde


Z t 
p1 (t) := exp [a(τ ) + 2b(τ )u(τ )] dτ .
0

19
Jacopo Francesco Riccati (1676-1754).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 265/1195

E. 5.9 Exercı́cio. Complete os detalhes. 6

Observemos que qualquer equação diferencial ordinária linear homogênea de segunda ordem associa-
se naturalmente a uma equação de Riccati generalizada. De fato, dada a equação
ẅ(t) + a(t)ẇ(t) + b(t)w(t) = 0 ,
Z t 
com a e b :  → contı́nuas, o Ansatz w(t) = exp y(τ )dτ conduz a
0

ẏ(t) + a(t)y(t) + y 2 (t) + b(t) = 0 ,


que é uma equação de Riccati generalizada.

E. 5.10 Exercı́cio. Complete os detalhes. 6

• Nota Histórica
A equação de Riccati generalizada deve seu nome ao matemático e conde veneziano Iacopo Francesco Riccati (1676-1754), que estudou
a equação diferencial
y 0 (x) = α y 2 (x) + xn ,
` ´
(5.25)
com α constante e n ∈  , em monografia publicada em 1724 sem, no entanto, resolvê-la. A equação
y 0 (x) = y 2 (x) + x2 (5.26)
fora previamente estudada por Johann Bernoulli (1667-1748) em trabalho de 1694, sem que este apresentasse solução para a mesma. Jacob
Bernoulli (1654-1705), que honrou com seu nome a equação (5.23), resolvida por ele em 1696, também estudara (5.26) e encontrara em 1703
uma solução para a mesma em termos de uma razão de série de potências, que então expressou como uma série de potências simples. Somente
em 1841 Joseph Liouville (1809-1882) demonstrou que a solução de (5.26) não pode ser expressa em termos de funções elementares. Em
notação moderna a solução geral de (5.26) é
„ 2« „ 2 «1
x x
0
AJ−3/4 + J3/4
B 2 2 C
y(x) = x B „ 2« „ 2 «C A ,
@ x x
J−1/4 − AJ1/4
2 2
onde A é uma constante e Jν são funções de Bessel de primeiro tipo e ordem ν.
Equações do tipo (5.25) são hoje denominadas simplesmente equações de Riccati. A associação do nome de Riccati a tais equações (e
não dos nomes de Johann Bernoulli ou Jacob Bernoulli) é parcialmente devida ao fato de (5.25) ser ligeiramente mais geral que (5.26) e
às referências ao trabalho de Riccati feitas por outro Bernoulli, Daniel Bernoulli (1700-1782), que estudou as equações (5.25) em trabalho
datado de 1725. Daniel Bernoulli menciona que soluções de equações como (5.25) foram obtidas anteriormente por Johann Bernoulli, Nicolaus
Bernoulli e Nicolaus Bernoulli II. A desconsideração de Daniel Bernoulli pela contribuição prévia de seu tio Jacob Bernoulli deve-se talvez à
rivalidade deste com seu irmão Johann Bernoulli, pai de Daniel Bernoulli, mas talvez seja meramente conseqüência do fato de sua época não
estar ainda preparada para aceitar soluções de equações diferenciais em termos de séries infinitas. De fato, em seu trabalho, Daniel Bernoulli
preocupou-se em apontar casos em que (5.25) pode ser resolvida por séries finitas, a saber, quando n é a forma −4m/(2m ± 1), com m inteiro.
O método acima descrito de obter a solução geral da equação de Riccati generalizada a partir de uma solução particular é devido a
Leonhard Euler (1707-1783) e publicado em 1764.
Para mais notas históricas sobre as equações (5.25) e (5.26) e sua relação com as funções de Bessel, vide por exemplo [125], Capı́tulo I.

5.3.3 Integração de Equações Separáveis


Entre as equações diferenciais de resolução mais simples encontram-se as chamadas equações separáveis.
Uma equação diferencial ordinária de primeira ordem é dita ser uma equação separável 20 se for da forma
y 0 (x) = f (x)g(y(x)) , (5.27)
20
Há também uma noção de equação separável na teoria das equações diferenciais parciais (vide Seção 8.3.1, página
482), mas trata-se de outra coisa.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 266/1195

para funções f e g convenientes. Consideremos a condição inicial y(x0 ) = y0 para algum x0 . Definindo,
Z x Z x
1
A(x) := ds e B(x) := f (s)ds ,
x0 g(s) x0

caso as integrais existam, teremos,


d 1
A(y(x)) = A0 (y(x))y 0 (x) = y 0 (x) e B 0 (x) = f (x) .
dx g(y(x))
d
Logo, dx A(y(x)) = B 0 (x) e A(y(x)) = B(x) + c, c sendo uma constante. Como B(x0 ) = 0, segue que
c = A(y0 ). Se a função A possuir uma inversa em algum aberto em torno de y0 , teremos

y(x) = A−1 (B(x) + A(y0 ))

como solução de (5.27) em um aberto em torno de x0 .


É interessante notar que, pelo Teorema da Função Inversa21 , A é invertı́vel em um aberto torno de
y0 se A for contı́nua e A0 (y0 ) 6= 0. Assim, a condição g(y10 ) 6= 0 garante a existência da solução y dada
acima em uma vizinhança de x0 .

E. 5.11 Exercı́cio. Determine a solução de

3x7 − 5x2 − 1
y 0 (x) = ,
1 + y2

com y(0) = 0. 6

E. 5.12 Exercı́cio. Determine a solução de

(1 + x2 )
y 0 (x) = ,
cos(y(x))

com y(0) = y0 . Estude os vários casos. 6

5.3.4 O Método de Variação de Constantes


Seja a equação linear não-homogênea

y 00 (x) + a(x)y 0 (x) + b(x)y(x) = f (x) , (5.28)

definida em um certo intervalo aberto I ⊂ , com f contı́nua por partes, e vamos supor que sejam


conhecidas duas soluções independentes y1 e y2 da equação homogênea y 00 (x)+a(x)y 0 (x)+b(x)y(x) = 0.


O método de variação de constantes consiste em determinar funções v 1 e v2 tais que a combinação

yv (x) = v1 (x)y1 + v2 (x)y2 (x) , (5.29)


21
Vide Seção 14.4, página 805, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [24, 83, 84]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 267/1195

seja solução da equação não-homogênea (5.28). A denominação do método como de “variação de


constantes”, uma contradição em termos, provem do fato de que, como é bem sabido, a solução geral
da equação homogênea é v1 y1 (x) + v2 y2 (x) para v1 e v2 constantes.
Substituindo (5.29) em (5.28), e usando as hipóteses que y100 + ay10 + by1 = 0 e y200 + ay20 + by2 = 0,
obtem-se
[v10 y1 + v20 y2 ]0 + a[v10 y1 + v20 y2 ] + [v10 y10 + v20 y20 ] = f . (5.30)

E. 5.13 Exercı́cio. Complete os detalhes que levam à última expressão. 6

Para determinar as duas funções v1 e v2 é preciso acrescentar mais uma equação diferencial envol-
vendo ambas as funções. A escolha dessa equação extra é essencialmente arbitrária, mas uma análise
de (5.30) mostra ser muito conveniente impor a relação v10 y1 + v20 y2 = 0 pois a expressão v10 y1 + v20 y2
aparece nos dois primeiros termos. Com isso, chegamos ao sistema de equações

v10 y1 + v20 y2 = 0 ,

v10 y10 + v20 y20 = f ,

que são equações algébricas para v10 e v20 , fornecendo

y1 f y2 f
v10 = − , v20 = + ,
y1 y20− y10 y2 y1 y20 − y10 y2

cujas soluções são


Z x Z x
y2 (s)f (s) y1 (s)f (s)
v1 (x) = − 0 0
ds + c1 , v2 (x) = + ds + c2 ,
x0 y1 (s)y2 (s) − y1 (s)y2 (s) x0 y1 (s)y2 (s) − y10 (s)y2 (s)
0

sendo x0 ∈ I e c1 , c2 duas constantes de integração. A expressão Wy1 , y2 (x) := y1 (x)y20 (x) − y10 (x)y2 (x)
é denominada determinante Wronskiano22 e não se anula pois, por hipótese, y1 e y2 são independentes.
Assim, a solução procurada yv (x) = v1 (x)y1 (x) + v2 (x)y2 (x) tem a forma
Z x 
y1 (s)y2 (x) − y1 (x)y2 (s)
yv (x) = [c1 y1 (x) + c2 y2 (x)] + f (s) ds
x0 y1 (s)y20 (s) − y10 (s)y2 (s)
Z x  
y1 (s)y2 (x) − y1 (x)y2 (s)
= [c1 y1 (x) + c2 y2 (x)] + f (s) ds ,
x0 Wy1 , y2 (s)

para um ponto x0 ∈ I arbitrário e constantes arbitrárias c1 e c2 a serem fixadas por condições iniciais
em x0 . O estudante deve observar que o termo [· · · ] da última expressão acima é uma solução da
equação homogênea e o último é uma solução particular da equação não-homogênea.
Uma observação simples permite reescrever a última expressão de uma forma por vezes mais con-
22
Conde Josef Hoëné de Wronski (1778-1853).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 268/1195

veniente. Se a é contı́nua por partes, é fácil constatar que

 Z s 
d
Wy1 , y2 (s) exp a(τ ) dτ
ds x0
" # Z 
h i h i s
= y200 (s) + a(s)y20 (s) + b(s)y2 (s) y1 (s) − y100 (s) + a(s)y10 (s) + b(s)y1 (s) y2 (s) exp a(τ ) dτ
x0

= 0,

pois y1 e y2 são soluções da equação homogênea. Com isso, concluı́mos que


 Z s 
Wy1 , y2 (s) = Wy1 , y2 (x0 ) exp − a(τ ) dτ .
x0

Sempre podemos escolher as funções y1 e y2 de forma que satisfaçam y1 (x0 ) = 1, y10 (x0 ) = 0, y2 (x0 ) = 0,
y20 (x0 ) = 1. Nesse caso Wy1 , y2 (x0 ) = 1 e concluı́mos que
Z x Z s  
yv (x) = [c1 y1 (x) + c2 y2 (x)] + exp a(τ ) dτ y1 (s)y2 (x) − y1 (x)y2 (s) f (s) ds .
x0 x0

Com essas escolhas, é fácil ver que yv (x0 ) = c1 e yv0 (x0 ) = c2 .


No Capı́tulo 6, página 292, o método de variação de constantes será reencontrado por outros ca-
minhos e será tratado com mais generalidade, de modo a também incluir equações de ordem n e não
apenas de segunda ordem, como fizemos acima.

5.3.5 O Método de Substituição de Prüfer


Esse elegante método aplica-se à solução de certas equações diferenciais ordinárias e lineares e ho-
mogêneas de segunda ordem da forma
 0
p(x)y 0 (x) + q(x)y(x) = 0 , (5.31)

para x ∈ (a, b) ⊂ , sendo p contı́nua e diferenciável, p(x) > 0 e q contı́nua. O chamado método de


substituição de Prüfer23 consiste em definir duas novas funções ρ e θ por

y(x) = ρ(x) sen (θ(x)) , p(x)y 0 (x) = ρ(x) cos(θ(x)) (5.32)

e transformar o problema de resolver a equação diferencial de segunda ordem para y no problema de


resolver um sistema de duas equações diferenciais de primeira ordem para ρ e θ. Como o leitor pode
perceber, a mudança acima pode ser interpretada como a passagem a coordenadas polares no espaço de
23
Ernst Paul Heinz Prüfer (1896-1934). A referência para trabalho de Prüfer é H. Prüfer, “Neue Herleitung der
Sturm-Liouvilleschen Reihenentwicklung stetiger Funktionen”. Math. Ann., 95, 499-518 (1926).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 269/1195

fase bidimensional definido por (y(x), p(x)y 0 (x)). Obtemos o sistema equações para ρ e θ da seguinte
forma. Em primeiro lugar, observamos que diferenciando a equação do lado esquerdo de (5.32), tem-se

y 0 (x) = ρ0 (x) sen (θ(x)) + ρ(x) cos(θ(x))θ 0 (x) .

Multiplicando-se por p e usando a equação do lado direito de (5.32), obtemos

ρ0 (x)p(x) sen (θ(x)) + ρ(x)p(x) cos(θ(x))θ 0 (x) = ρ(x) cos(θ(x)) .

Em segundo lugar, inserindo-se a equação do lado direito de (5.32) em (5.31), tem-se

ρ0 (x) cos(θ(x)) − ρ(x) sen (θ(x))θ 0 (x) = −q(x)ρ(x) sen (θ(x)) .

Dessas duas últimas igualdades podemos facilmente obter ρ0 e θ 0 :


 2 1  2
θ 0 (x) = q(x) sen (θ(x)) + cos(θ(x)) ,
p(x)
 
0 ρ(x) 1
ρ (x) = − q(x) sen (2θ(x)) ,
2 p(x)

E. 5.14 Exercı́cio. Verifique! 6

Esse é o sistema de equações procurado. Um aspecto notável do mesmo é que a primeira equação
envolve apenas θ. Se for possı́vel resolver essa equação, obtendo a função θ(x), a solução da segunda
equação seria  Z x  
1 1
ρ(x) = ρ(a) exp − q(y) sen (2θ(y)) dy ,
2 a p(y)
e, pela pela primeira equação de (5.32), terı́amos a solução
 Z x  
1 1
y(x) = ρ(a) exp − q(y) sen (2θ(y)) dy sen (θ(x)) .
2 a p(y)

Outro aspecto interessante do método de substituição de Prüfer reside no fato de que, como y(x) =
ρ(x) sen (θ(x)), os zeros de y coincidem com os pontos onde θ(x) = nπ, n ∈ . Vários fatos sobre esses
zeros podem ser obtidos a partir dessa observação.
Uma feliz situação particular na qual a equação para θ pode ser resolvida facilmente é aquela na
1
qual p(x) = q(x), em cujo caso ficamos com θ 0 (x) = q(x), ρ0 (x) = 0, ou seja,
Z x
θ(x) = θ(a) + q(y) dy ρ(x) = ρ(a) .
a

Assim, terı́amos pela primeira equação de (5.32) a solução geral


Z x 
y(x) = c1 sen q(y) dy + c2 ,
a

para duas constantes c1 e c2 (aqui, c1 ≡ ρ(a) e c2 ≡ θ(a)).


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 270/1195

E. 5.15 Exercı́cio. Resolva a equação do oscilador harmônico simples ẍ + ω 02 x = 0 usando o método


acima. Sugestão: reescreva a equação tomando p(x) = ω 0−1 e q(x) = ω0 . 6

E. 5.16 Exercı́cio. Obtenha a solução da equação


 0
−α 0
x y (x) + xα y(x) = 0 ,

α∈  , em um intervalo (a, b). 6

5.3.6 O Método de Inversão


Esse método pode ser aplicado quando a solução y de uma equação diferencial ordinária for uma função
invertı́vel em algum aberto do seu domı́nio de definição. A idéia é transformar a equação para y em
uma equação para a inversa de y, que pode eventualmente ser de resolução mais simples.
Se f é invertı́vel em um aberto A e f −1 é sua inversa, então f (f −1 (z)) = z. Supondo ambas dife-
renciáveis, a regra da cadeia diz-nos que f 0 (f −1 (z))(f −1 )0 (z) = 1 e, portanto, f 0 (f −1 (z)) = 1/(f −1 )0 (z).
diferenciando-se mais uma vez tem-se f 00 (f −1 (z)) = −(f −1 )00 (z)/[(f −1 )0 (z)]3 . Prosseguindo assim, é
possı́vel sucessivamente expressar todas as derivadas de f em função de derivadas de f −1 .
Com essas relações, vemos que uma equação diferencial de primeira ordem F (x, y(x), y 0 (x)) = 0
transforma-se na equação  
−1 1
F y (z), z, −1 0 = 0.
(y ) (z)
e uma equação diferencial de segunda ordem F (x, y(x), y 0 (x), y 00 (x)) = 0 transforma-se na equação
 
−1 1 (y −1 )00 (z)
F y (z), z, −1 0 , − −1 0 = 0,
(y ) (z) [(y ) (z)]3

e assim analogamente para equações de ordem superior. Em alguns casos tais equações transformadas
podem ser mais fáceis de resolver que a original e a solução y pode ser obtida – ao menos localmente
– invertendo a solução y −1 . Ilustraremos o método em dois exemplos.
Exemplo 5.5 Seja a equação diferencial de primeira ordem
1
y 0 (x) = ,
a(y(x)) x + b(y(x)) xα

onde a e b são duas funções contı́nuas e α ∈  . Pela transformação acima, essa equação equivale a
1 1
= , ou seja, (y −1 )0 (z) = a(z) y −1 (z) + b(z) (y −1 (z))α ,
(y −1 )0 (z) a(z) y −1 (z) + b(z) (y −1 (z))α

que se trata de uma equação de Bernoulli generalizada para y −1 . A solução de equações de Bernoulli
foi apresentada na Seção 5.3.2, página 263. ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 271/1195

Exemplo 5.6 Considere a equação de segunda ordem y 00 (x) + xy(x)(y 0 (x))3 = 0. Pela transformação
de acima, essa equação equivale a
 3
(y −1 )00 (z) −1 1
− −1 0 + y (z) z = 0 ou seja, (y −1 )00 (z) − zy −1 (z) = 0 ,
[(y ) (z)]3 (y −1 )0 (z)
que se trata da equação de Airy para y −1 . A solução da equação de Airy pode ser obtida pelo método
de expansão em série de potências. Vide Seção 7.1.4, página 365. ◊

5.3.7 Solução de Equações Exatas e o Método dos Fatores Integrantes

• Equações exatas de primeira ordem

Seja D ⊂ 2 é um domı́nio aberto e simplesmente conexo e sejam definidas em D duas funções




diferenciáveis A1 (x1 , x2 ) e A2 (x1 , x2 ). A equação diferencial


A1 (x, y(y)) + A2 (x, y(x))y 0 (x) = 0 (5.33)
é dita ser uma equação exata se
∂A1 ∂A2
(x1 , x2 ) − (x1 , x2 ) = 0 (5.34)
∂x2 ∂x1
para todo (x1 , x2 ) ∈ D. Uma equação exata pode ser resolvida em termos de uma equação implı́cita
pelo método que segue.
A condição (5.34) diz-nos que o campo bidimensional A ~ = (A1 , A2 ) é irrotacional. Como D é
simplesmente conexo, A ~ pode ser escrito como o gradiente de uma função U . Essa situação é análoga
ao que ocorre na Mecânica Clássica quando se lida com forças conservativas, as quais podem ser
expressas como o gradiente de um potencial.
De fato, sejam (a, b), (x1 , x2 ) ∈ D e seja C uma curva diferenciável orientada de (a, b) a (x1 , x2 )
inteiramente contida em D: C = {(w1 (s), w2 (s)) ∈ D, s ∈ [0, 1]}, onde as funções w1 (s) e w2 (s) são
contı́nuas e diferenciáveis e satisfazem (w1 (0), w2 (0)) = (a, b), (w1 (1), w2 (1)) = (x1 , x2 ). Defina-se a
função U : D → como sendo a integral de linha do campo A

~ ao longo de C do ponto (a, b) ao ponto
(x1 , x2 ):
Z (x1 , x2 ) Z (x1 , x2 )  
U (x1 , x2 ) := ~ ~ · dw
A(w) ~ = A1 (w1 , w2 )dw1 + A2 (w1 , w2 )dw2
(a, b) C (a, b) C

Z 
1
dw1 dw2 
= A1 (w1 (s), w2 (s)) + A2 (w1 (s), w2 (s)) ds . (5.35)
0 ds ds
Como D é simplesmente conexa, o Teorema de Green e a condição (5.34) implicam que essa integral
não depende da particular curva C adotada, mas apenas dos pontos extremos (a, b) e (x 1 , x2 ). Pela
definição de U é imediato que
∂U ∂U
(x1 , x2 ) = A1 (x1 , x2 ) e (x1 , x2 ) = A2 (x1 , x2 ) (5.36)
∂x1 ∂x2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 272/1195

em todo D. Assim, a equação (5.33) pode ser escrita como

∂U ∂U d
(x, y(x)) + (x, y(x))y 0 (x) = 0, ou seja, U (x, y(x)) = 0 .
∂x1 ∂x2 dx
Dessa forma, concluı́mos que a solução da equação (5.33) é a solução da equação implı́cita

U (x, y(x)) = U0 ,

caso essa exista. Aqui U0 é uma constante. Se estivermos interessados na condição inicial y(x0 ) =
y0 , para (x0 , y0 ) ∈ D, teremos U0 = U (x0 , y0 ). Pelo Teorema da Função Implı́cita24 , a equação
U (x, y(x)) = U (x0 , y0 ) terá uma solução y(x) em uma vizinhança de x0 satisfazendo y(x0 ) = y0 se U
∂U
for contı́nua e diferenciável em torno de (x0 , y0 ) e se ∂x 2
(x0 , y0 ) 6= 0, ou seja, se A2 (x0 , y0 ) 6= 0.

E. 5.17 Exercı́cio. Mostre que a equação diferencial

(3x2 − y(x)2 − 7) − (ey(x) + 2xy(x) + 1)y 0 (x) = 0

é exata e mostre que suas soluções são soluções da equação implı́cita

y(x) − y(x)2 + ey(x) + 7x − x3 = constante.

• Método dos Fatores Integrantes

Dada uma equação diferencial como

B1 (x, y(x)) + B2 (x, y(x))y 0 (x) = 0 , (5.37)

com B1 (x1 , x2 ) e B2 (x1 , x2 ) definidas em um domı́nio D ⊂ 2 , aberto e simplesmente conexo, nem




sempre ocorre de a condição de exatidão ∂B 1


∂x2
(x1 , x2 ) − ∂B
∂x1
2
(x1 , x2 ) = 0 ser satisfeita. Em alguns casos,
porém, ao multiplicarmos a equação (5.37) por uma fator ω(x, y(x)) convenientemente escolhido, a
equação pode transformar-se em uma equação exata, a qual pode, então, ser resolvida pelo método
descrito acima. Um tal ω, se existir, será denominado fator integrante da equação (5.37).
Definindo A1 (x1 , x2 ) := ω(x1 , x2 )B1 (x1 , x2 ) A2 (x1 , x2 ) := ω(x1 , x2 )B2 (x1 , x2 ), desejamos
determinar quais funções ω tornam válida a condição (5.34), ou seja, desejamos determinar a solução
ω da equação diferencial parcial linear de primeira ordem
 
∂ω ∂ω ∂B1 ∂B2
B1 (x1 , x2 ) (x1 , x2 ) − B2 (x1 , x2 ) (x1 , x2 ) + ω(x1 , x2 ) (x1 , x2 ) − (x1 , x2 ) = 0 .
∂x2 ∂x1 ∂x2 ∂x1
(5.38)
Resolver essa equação pode não ser possı́vel, ou pode ser uma tarefa ainda mais difı́cil que resolver
a equação original (5.37) por outros meios. Em certos casos ela pode ser resolvida pelo método das
caracterı́sticas, do qual falaremos adiante, mas há duas situações especiais que tornam a solução simples:
24
Vide Seção 14.4, página 805, ou qualquer bom livro de Cálculo de funções de várias variáveis, por exemplo, [24, 83, 84]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 273/1195

 
1 ∂B1 ∂B2
I. (x1 , x2 ) − (x1 , x2 ) = α(x1 ), uma função apenas da variável x1 .
B2 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (5.38) fica
B1 (x1 , x2 ) ∂ω ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )α(x1 ) = 0 .
B2 (x1 , x2 ) ∂x2 ∂x1
Escolhendo ω(x1 , x2 ) = ω(x1 ), uma função apenas da variável x1 , essa equação simplifica-se para

ω 0 (x1 ) − ω(x1 )α(x1 ) = 0 ,

cuja solução é  Z 
x1
ω(x1 ) = c exp + α(ξ)dξ
a

sendo a e c arbitrários (sem perda, podemos escolher c = 1).


 
1 ∂B1 ∂B2
II. (x1 , x2 ) − (x1 , x2 ) = β(x2 ), uma função apenas da variável x2 .
B1 (x1 , x2 ) ∂x2 ∂x1
Nesse caso, (5.38) fica
∂ω B2 (x1 , x2 ) ∂ω
(x1 , x2 ) − (x1 , x2 ) + ω(x1 , x2 )β(x2 ) = 0 .
∂x2 B1 (x1 , x2 ) ∂x1
Escolhendo ω(x1 , x2 ) = ω(x2 ), uma função apenas da variável x2 , essa equação simplifica-se para

ω 0 (x2 ) + ω(x2 )β(x2 ) = 0 ,

cuja solução é  Z 
x2
ω(x2 ) = d exp − β(ξ)dξ
b

sendo b e d arbitrários (sem perda, podemos escolher d = 1).

Exemplo 5.7 Revisitando a equação (5.21) e reencontrando sua solução (5.22).


A equação y 0 (x)+a(x)y(x) = b(x) pode serescrita na forma (5.37) comB1 (x1 , x2 ) = a(x1 )x2 −b(x1 )
e B2 (x1 , x2 ) = 1. Tem-se aqui que B2 (x11 , x2 ) ∂B
∂x2
1
(x1 , x2 ) − ∂B
∂x1
2
(x1 , x2 ) = a(x1 ) e vale, portanto, a
condição do item I, acima, sendo o fator integrante dado por
 Z x1 
ω(x1 ) = exp a(ξ)dξ
x0

com x0 arbitrário. Assim,


 Z x1  Z x1 

A1 (x1 , x2 ) = exp a(ξ)dξ a(x1 )x2 − b(x1 ) e A2 (x1 , x2 ) = exp a(ξ)dξ .
x0 x0

Com Z x1  Z x1  Z χ 
U (x1 , x2 ) = x2 exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ
x0 x0 x0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 274/1195

constata-se que
∂U ∂U
A1 (x1 , x2 ) = (x1 , x2 ) e A2 (x1 , x2 ) = (x1 , x2 ) .
∂x1 ∂x2

E. 5.18 Exercı́cio. Obtenha U calculando a integral em (5.35) para alguma curva C conveniente. 6

Pelo que vimos, a solução da equação diferencial satisfaz a equação implı́cita U (x, y(x)) = U 0 ,
sendo U0 uma constante. Para uma condição inicial y(x0 ) = y0 , tem-se U0 = U (x0 , y0 ) = y0 e a
equação implı́cita U (x, y(x)) = y0 fica
Z x  Z x  Z χ 
y(x) exp a(ξ)dξ − b(χ) exp a(ξ)dξ dχ = y0 ,
x0 x0 x0

cuja solução é
 Z x  Z x Z χ  
y(x) = exp − a(ξ)dξ y0 + b(χ) exp a(ξ)dξ dχ ,
x0 x0 x0

que é precisamente a solução dada em (5.22), como facilmente se constata. ◊

• Equações exatas de ordem n

Veremos agora como as idéias de acima podem ser generalizadas para equações de ordem n.
Seja F (x, x0 , x1 , . . . , xn ) uma função de n + 2 variáveis que define uma equação diferencial
ordinária de ordem n:  
F x, y(x), y 0 (x), . . . , y (n) (x) = 0 . (5.39)

Essa equação é dita ser exata se existir uma função diferenciável U (x, x 0 , x1 , . . . , xn−1 ) de n + 1
variáveis tal que

F (x, x0 , x1 , . . . , xn ) =

∂U ∂U ∂U
(x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) + · · · + xn (x, x0 , x1 , . . . , xn−1 ) ,
∂x ∂x0 ∂xn−1
(5.40)

então a equação (5.39) torna-se

∂U  0 (n−1)

0 ∂U  0 (n−1)

x, y(x), y (x), . . . , y (x) + y (x) x, y(x), y (x), . . . , y (x)
∂x ∂x0

(n) ∂U  0 (n−1)

+···+y (x) x, y(x), y (x), . . . , y (x) = 0 ,
∂xn−1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 275/1195

d  
ou seja, U x, y(x), y 0 (x), . . . , y (n−1) (x) = 0 e, portanto, vale
dx
 
U x, y(x), y 0 (x), . . . , y (n−1) (x) = U0 , (5.41)

onde U0 é uma constante,


 fixada pelos n “valores iniciais”  y(x0 ), y 0 (x0 ), . . . , y (n−1) (x0 ), para algum
ponto x0 : U0 = U x0 , y(x0 ), y 0 (x0 ), . . . , y (n−1) (x0 ) .
A expressão (5.41) é uma nova equação diferencial para y, mas de ordem no máximo igual a n − 1.
Assim, toda equação exata de ordem n pode ser transformada em uma equação de ordem menor, a
qual poderá eventualmente ser resolvida por algum dos métodos disponı́veis.
Caro é por (5.40) que a equação (5.39) é da forma
   
A1 x, y(x), y 0 (x), . . . , y (n−1) (x) + A2 x, y(x), y 0 (x), . . . , y (n−1) (x) y (n) (x) = 0 , (5.42)

onde
∂U ∂U
A1 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) + x1 (x, x0 , x1 , . . . , xn−1 ) (5.43)
∂x ∂x0

∂U
+ · · · + xn−1 (x, x0 , x1 , . . . , xn−1 ) ,
∂xn−2

∂U
A2 (x, x0 , x1 , . . . , xn−1 ) = (x, x0 , x1 , . . . , xn−1 ) . (5.44)
∂xn−1

As expressões (5.42)-(5.44) generalizam (5.33)-(5.36), do caso de equações exatas de ordem n = 1.


Naquele caso sabı́amos que a relação (5.34) é necessária e suficiente (caso D seja simplesmente conexo)
para garantir exatidão, ou seja, a existência de uma função U com as propriedades desejadas. No caso
n > 1, infelizmente não há modo simples de expressar as condições necessárias e suficientes para que
A1 e A2 tenham a forma dada em (5.43) e (5.44), respectivamente.
Exemplo 5.8 Seja V diferenciável e f = −V 0 . A equação diferencial de segunda ordem my 00 (x) −
f (y(x)) = 0 não é exata, mas multiplicando-a por y 0 (x), ficamos com y 0 (x)(my 00 (x) − f (y(x))) = 0, que
pode ser escrita como F (x, y(x), y 0 (x), y 00 (x)) = 0 para F (x, x0 , x1 , x2 ) = x1 (mx2 − f (x0 )) e para
essa F , podemos encontrar uma função U (x, x0 , x1 ) tal que a condição de exatidão (5.40) é satisfeita.
De fato, essa função é U (x, x0 , x1 ) = m2 x21 + V (x0 ) (verifique!). A nova equação (5.41) fica nesse caso
m 0
(y (x))2 + V (y(x)) = U0 = constante.
2
O estudante pode reconhecer nisso a equação
q da conservação da energia em uma dimensão. Pode-
mos então, localmente, escrever y 0 (x) = ± m2 (U0 − V (y(x))), cuja solução, após integração, é obtida
invertendo localmente Z
dy
x = ± q + constante.
2
m
(U0 − V (y))

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 276/1195

E. 5.19 Exercı́cio. Use o procedimento descrito acima para resolver a equação do oscilador harmônico
simples my 00 (x) + ky(x) = 0, m > 0, k > 0 6

5.3.8 Soluções das Equações de D’Alembert-Lagrange e Clairaut


Uma equação diferencial de primeira ordem da forma

xA(y 0 (x)) + B(y 0 (x)) − y(x) = 0 , (5.45)

com A e B contı́nuas e diferenciáveis, é denominada equação de D’Alembert 25 ou equação de Lagrange26 .


No caso em que A(z) ≡ z, a equação é conhecida como equação de Clairaut 27 :
 
xy 0 (x) − y(x) + B(y 0 (x)) = 0 . (5.46)

Diferenciando a equação (5.45) em relação a x, obtem-se


 
A(y 0 (x)) + xA0 (y 0 (x)) + B 0 (y 0 (x)) y 00 (x) − y 0 (x) = 0 .

Definindo v(x) = y 0 (x), isso diz que


 
A(v(x)) − v(x) + xA (v(x)) + B (v(x)) v 0 (x) = 0 .
0 0
(5.47)

No que segue apresentaremos soluções das equações de acima, começando com a equação de Clairaut
(5.46) e depois tratando da equação de D’Alembert-Lagrange (5.45).

• Soluções da equação de Clairaut. A solução singular

No caso em que A(z) ≡ z (equação de Clairaut) a equação (5.47) reduz-se a



x + B 0 (v(x)) v 0 (x) = 0 . (5.48)

Há duas formas de satisfazer essa equação: a. impondo v 0 (x) = 0 ou, b. impondo x + B 0 (v(x)) = 0.

a. Impondo-se v 0 (x) = 0, tem-se y(x) = c0 x + c1 , com c0 e c1 constantes. Essas constantes, porém,


não são independentes, pois (5.46) tem que ser satisfeita. Inserindo y(x) = c0 x + c1 em (5.46)
obtem-se c1 = B(c0 ). Assim, uma solução de (5.46) é

y1 (x) ≡ y1 (x, c0 ) = c0 x + B(c0 ) ,

que depende de um parâmetro livre c0 .


25
Jean Le Rond d’Alembert (1717-1783).
26
Joseph-Louis Lagrange (1736-1813).
27
Alexis Claude Clairaut (1713-1765).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 277/1195

b. Aqui impomos x + B 0 (v(x)) = 0, obtendo localmente v(x) = (B 0 )−1 (−x). Lembramos, porém,
que (5.46) impõe uma relação entre y e v: y(x) = xv(x) + B(v(x)). Assim, uma segunda solução
de (5.46) é dada (localmente) por

y2 (x) = x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) .

O fato notável sobre a solução y2 é que a mesma não depende de nenhum parâmetro livre (que pode-
ria ser fixado, eventualmente, por uma condição inicial). Soluções desse tipo são denominadas soluções
singulares28 de equações diferenciais. Tecnicamente, a definição de solução singular é a seguinte. Uma
solução ys de uma equação diferencial ordinária de primeira ordem é dita ser uma solução singular se
for tangente a cada solução geral yg dessa equação, ou seja, se para todo x no domı́nio de definição da
equação houver uma solução geral yg tal que ys (x) = yg (x) e ys0 (x) = yg0 (x).

E. 5.20 Exercı́cio. Mostre que a solução y2 (x) = x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) é tangente às soluções
y1 (x) = c0 x + B(c0 ). Sugestão: use o fato (e prove-o!) que x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) é uma primitiva
de (B 0 )−1 (−x). 6

Geometricamente, uma solução singular pode ser visualizada da seguinte forma. Desenha-se no
plano (x, y) a famı́lia de todas as curvas (x, yg (x)), x ∈ , para todas as soluções gerais yg . A solução


singular corresponde à curva envoltória dessa famı́lia de curvas.


A equação de Clairaut, com sua solução singular, foi resolvida pelo mesmo em 1734.
Uma terceira solução de (5.47) poderia ser obtida procedendo de modo ligeiramente distinto do
que foi feito na segunda solução. Resolvendo localmente em v a equação x + B 0 (v(x)) = 0, obtem-se
v(x) = (B 0 )−1 (−x). Como v(x) = y 0 (x), obtem-se aparentemente uma terceira solução por integração:
y3 (x) = C(x) + c2 , c2 sendo uma constante e C(x) sendo uma primitiva de (B 0 )−1 (−x), ou seja, tal que
C 0 (x) = (B 0 )−1 (−x). Essa solução aparenta ter um parâmetro livre e aparenta ser distinta da solução
y2 , mas isso não é verdade. É preciso ainda impor que y3 satisfaça (5.46), ou seja, devemos impor que

x(B 0 )−1 (−x) − C(x) − c2 + B((B 0 )−1 (−x)) = 0 .


0 −1 0 −1 0 −1
(O leitor
 deve observar que x(B ) (−x)  + B((B ) (−x)) é também uma primitiva de (B ) (−x),
d
pois dx x(B 0 )−1 (−x) + B((B 0 )−1 (−x)) = (B 0 )−1 (−x) como facilmente se verifica). Daı́, devemos ter
c2 = C(x) − (x(B 0 )−1 (−x) + B((B 0 )−1 (−x))) e, portanto, y3 (x) = x(B 0 )−1 (−x) + B((B 0 )−1 (−x)), que
coincide com a solução y2 .
Exemplo 5.9 Considere a equação de Clairaut

xy 0 (x) − y(x) + (y 0 (x))2 = 0 . (5.49)

Nesse caso, B(z) = z 2 , B 0 (z) = 2z e (B 0 )−1 (w) = w/2. Assim, as duas soluções encontradas acima são
y1 (x) ≡ y1 (x, c0 ) = c0 x + (c0 )2 e y2 (x) = −x2 /4, como facilmente se constata. ◊

28
Trata-se de uma nomenclatura infeliz, pois o a expressão “singular” é usada com vários outros significados na
literatura das equações diferenciais.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 278/1195

E. 5.21 Exercı́cio. Verifique que as soluções y1 (x, c0 ) e y2 (x) dadas no exemplo acima são de fato
soluções de (5.49). Mostre explicitamente que y2 (x) = −x2 /4 é uma solução singular no sentido da
definição dada acima, ou seja, para todo x existe c0 tal que y2 (x) = y1 (x, c0 ) e y20 (x) = y10 (x, c0 ). Desenhe
várias das curvas (x, y1 (x, c0 )), x ∈ , para vários valores de c0 ∈ e visualize a curva envoltória dessa
 

famı́lia de curvas, a qual corresponderá à curva (x, y 2 (x)), x ∈ , da solução singular.


 6

E. 5.22 Exercı́cio. Determine as soluções y1 e y2 da equação de Clairaut


xy 0 (x) − y(x) + (y 0 (x))4 = 0 ,
e resolva as mesmas questões propostas no Exercı́cio E. 5.21. 6

• Soluções da equação de D’Alembert-Lagrange

Daqui por diante suporemos que A(z) 6≡ z. Como veremos, a equação (5.47) pode ser resolvida
com o uso do método dos fatores integrantes para obter uma equação exata e depois resolvê-la como
tal. Assim como (5.45), a equação (5.47) é uma equação de primeira ordem, mas a dependência em v 0
é muito mais simples. Em verdade, identificando
B1 (x, v(x)) = A(v(x)) − v(x) e B2 (x, v(x)) = xA0 (v(x)) + B 0 (v(x)) ,
ou seja, para,
B1 (x1 , x2 ) = A(x2 ) − x2 e B2 (x1 , x2 ) = x1 A0 (x2 ) + B 0 (x2 ) ,
a equação (5.47) tem a forma (5.37). A condição de exatidão (5.34) não é satisfeita (verifique!) e
desejamos saber se um fator integrante pode ser encontrado. É fácil ver que nesse caso
 
1 ∂B1 ∂B2 1
(x1 , x2 ) − (x1 , x2 ) = =: β(x2 ) ,
B1 (x1 , x2 ) ∂x2 ∂x1 A(x2 ) − x2
uma função apenas da variável x2 . Vale, assim, o caso II da página 273, e o fator integrante é
 Z x2 
1
ω(x2 ) = exp dξ .
b (A(ξ) − ξ)
Assim, definindo
Z  x2
1
A1 (x1 , x2 ) := ω(x2 )B1 (x1 , x2 ) = (A(x2 ) − x2 ) exp dξ
b (A(ξ) − ξ)
 Z x2 
0 0 1
A2 (x1 , x2 ) := ω(x2 )B2 (x1 , x2 ) = (x1 A (x2 ) + B (x2 )) exp dξ
b (A(ξ) − ξ)
a equação A1 (x, v(x)) + A1 (x, v(x))v 0 (x) = 0, obtida multiplicando (5.47) por ω(v(x)), é exata. É
fácil verificar que nesse caso
 Z x2  Z x2 Z χ 
1 0 1
U (x1 , x2 ) = x1 (A(x2 ) − x2 ) exp dξ + B (χ) exp dξ dχ .
b (A(ξ) − ξ) b b (A(ξ) − ξ)
(5.50)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 279/1195

E. 5.23 Exercı́cio. Prove isso! 6

Assim, a solução para (5.47) é dada por U (x, v(x)) = c0 , c0 sendo uma constante. Agora, para a
obtenção das soluções desejadas de (5.45) há dois procedimentos:

a. Observa-se que a equação (5.45) pode ser lida como xA(v(x)) + B(v(x)) = y(x), que relaciona v
e y. Ao menos em princı́pio, podemos resolver essa equação para v e obter v(x) = I(x, y(x)).
Inserindo isso em U (x, v(x)) = c0 , obtemos U (x, I(x, y(x))) = c0 . Essa equação pode ser, ao
menos em princı́pio, resolvida em y para fornecer uma solução y1 (x), dependente de um parâmetro
livre c0 .

b. Resolve-se localmente a equação U (x, v(x)) = c0 para v, obtendo-se v(x) = H(x, c0 ) para alguma
função H. Observa-se que a equação (5.45) pode ser lida como y(x) = xA(v(x)) + B(v(x)), que
fornece y se v é dado. Assim, y2 (x) = xA(H(x, c0 )) + B(H(x, c0 )) é uma segunda solução de
(5.45). É de se notar que a solução y2 depende de um parâmetro livre c0 .

Um terceiro procedimento seria resolver localmente a equação R U (x, v(x)) = c 0 para v, obtendo
v(x) = H(x, c0 ) para alguma função H, donde se extrai y3 (x) = H(x, c0 )dx + c1 , c1 sendo uma nova
constante. Para que se tenha uma solução de (5.45) é preciso inserir essa solução naquela equação, o
que implica y3 (x) = xA(H(x, c0 )) + B(H(x, c0 )), mostrando que essa terceira solução é idêntica à y2 .
Exemplo 5.10 A equação diferencial (2x√ + 1)y 0 (x) − y(x) = 0 pode ser facilmente resolvida por in-
tegração, fornecendo a solução y0 (x) = k 2x + 1, k sendo uma constante. Para ilustrar o método
de solução desenvolvido acima, escrevemos essa equação diferencial na forma de uma equação de
D’Alembert-Lagrange:
2xy 0 (x) − y(x) + y 0 (x) = 0 . (5.51)
Aqui temos A(z) = 2z, B(z) = z, B 0 (z) = 1. Para a função U tem-se por (5.50) (tomamos aqui b = 1,
sem perda de generalidade)
 Z x2  Z x2 Z χ 
1 1
U (x1 , x2 ) = x1 x2 exp dξ + exp dξ dχ
1 ξ 1 1 ξ
Z x2  
2 1 1
= x 1 x2 + χ dχ = x1 + x22 − .
1 2 2
q 0
c0
A equação U (x, v(x)) = c0 fica, então, (2x + 1)v(x)2 = c00 (com c00 = 2c0 + 1). Assim, v(x) = ± 2x+1 .
q 0 p
c0
Assim, H(x, c00 ) = ± 2x+1 e a solução y2 fica y2 (x) = ± c00 (2x + 1), que coincide em forma com a
solução y0 .
Para a solução y1 começamos por notar que (5.51) diz-nos que y(x) = (2x + 1)v(x) e, portanto,
v(x) = I(x, y(x)) = p y(x)/(2x + 1). A equação U (x, I(x, y(x))) = c0 fica y(x)2 /(2x + 1) − 1 = c0 , cuja
solução é y1 (x) = ± c00 (2x + 1), também idêntica em forma à solução y0 . O fato de as soluções y1 e y2
coincidirem decorre de (5.51) ser uma equação linear, apresentando apenas uma solução, dependente
de um parâmetro (vide Seção 5.3.1, página 262). ◊
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 280/1195

Exemplo 5.11 Considere a equação diferencial


α 0
2xy 0 (x) − y(x) − (y (x))3 = 0 , (5.52)
3
α 6= 0 sendo uma constante. Essa é uma equação de D’Alembert-Lagrange com A(z) = 2z, B(z) =
− α3 z 3 , B 0 (z) = −αz 2 . Para a função U tem-se, por (5.50) (tomamos aqui b = 1, sem perda de
generalidade),
 Z x2  Z x2 Z χ 
1 2 1
U (x1 , x2 ) = x1 x2 exp dξ − α χ exp dξ dχ
1 ξ 1 1 ξ
Z x2
2 α
= x 1 x2 − α χ3 dχ = x1 x22 − (x42 − 1) .
1 4

A equação U (x, v(x)) = c0 fica v(x)4 − 4x


α
v(x)2 − c00 = 0 (com c00 = − 4cα0 − 1) cujas quatro soluções são
s r
2x x2
v(x) = ± ± + (c00 )2 .
α α2

Por (5.52), y(x) = v(x) 2x − α3 v(x)2 e, assim, obtem-se quatro soluções
r !s r
4x (−α) 4x2 0 2 2x 4x2
y2 (x) = ± ± + (c 0 ) ± + (c00 )2 , (5.53)
3 3 α2 α α2

sendo que os dois últimos sinais ± devem ser escolhidos iguais.


Para obter as soluções y1 é preciso primeiro resolver em v a equação de terceiro grau y(x) =
2xv(x) − α3 v(x)3 . Para soluções de equações de terceiro grau, vide, por exemplo, [118]. ◊

E. 5.24 Exercı́cio. Verifique que (5.53) é, de fato, uma solução de (5.52). 6

5.4 Discussão sobre Problemas de Valor Inicial

• Problemas de valor inicial

Aprendemos na Seção 5.3.1, página 262, que a solução de equações diferenciais ordinárias lineares
de primeira ordem (eq. (5.21)) é dada pela expressão (5.22). É de se notar que esta última expressão
depende da fixação de um valor para a função y em t = 0: y(0). Há outros exemplos simples em
que essa necessidade pode ser vista de modo explı́cito. Considere-se a equação do oscilador harmônico
simples ẍ + ω02 x = 0. A solução geral dessa equação é x(t) = A cos(ω0 t) + B sen (ω0 t), onde A e B
são duas constantes arbitrárias. Para determiná-las é preciso fornecer duas informações extras sobre
a função, por exemplo, sua posição e sua velocidade em um instante de tempo. Se x0 e v0 forem a
posição e velocidade no instante t = 0, então é fácil constatar que A = x 0 e B = v0 /ω0 . Outro par de
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 281/1195

informações é também eventualmente possı́vel. Por exemplo, podemos fornecer posição e velocidade
em outro instante de tempo que não t = 0, ou em dois instantes de tempo distintos, um para a posição,
outro para a velocidade. Em muitos casos é possı́vel fixar a solução desejada informando apenas a
posição em dois instantes de tempo distintos ou as velocidades em dois instantes de tempo distintos.
De modo geral, para a determinação completa da solução de uma equação diferencial ordinária
de ordem n é preciso fornecer n informações sobre o valor da função e/ou suas derivadas em certos
instantes29 .
O tipo de situação mais comum para a determinação completa da solução de uma equação diferencial
ordinária de ordem n, especialmente em problemas da Mecânica, é aquele na qual são fornecidas
informações sobre a função e suas n − 1 primeiras derivadas em um único instante de tempo, digamos
t = 0. Tais problemas são conhecidos como problemas de valor inicial, ou problemas de Cauchy 30 .
O exemplo do oscilador harmônico acima é um tı́pico problema de valor inicial: qual é a função que
satisfaz a equação diferencial ẍ + ω02 x = 0 e satisfaz x(0) = x0 e v(0) = v0 , para certos números x0 e v0
dados? Resposta: x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen (ω0 t).
Assim, o problema de valor inicial associado à equação de ordem n

y (n) (t) = F (t, y(t), . . . , y (n−1) (t)) .

consiste em determinar a solução dessa equação que satisfaça

y(0) = y1 , ẏ(0) = y2 , ÿ(0) = y3 , . . . , y (n−1) (0) = yn ,

para certos números dados y1 , . . . , yn , os quais são denominados condições iniciais ou dados iniciais.
Após definirmos o que se entende por problema de valor inicial, uma série de questões se coloca.
1. Todo problema de valor inicial tem solução? 2. Se tiver, é única? 3. Há condições suficientes para
garantir que uma solução exista? 4. E para que seja única? 5. E se existir solução, será ela válida
para todo t? 6. Há condições suficientes para garantir que uma solução exista para todo t? 7. Há
condições suficientes para garantir continuidade da solução em relação às condições iniciais? 8. Há
condições suficientes para garantir continuidade da solução em relação aos parâmetros que ocorrem na
equação?
Por várias razões as questões acima são muito importantes. Naturalmente, a melhor maneira de
mostrar que um problema de valor inicial tem solução é exibindo a solução. Isso, porém, nem sempre
é factı́vel, pois muitas equações são difı́ceis, ou mesmo impossı́veis, de se resolver de modo explı́cito.
Por exemplo, a equação do pêndulo simples θ̈ + gl sen (θ) = 0 tem solução para quaisquer condições
iniciais, mas essa solução não pode ser apresentada de forma fechada em termos de funções elementares
conhecidas, apenas em termos de expansões ou das chamadas funções elı́pticas. Vide, por exemplo,
[76]. (Para um tratamento da equação do pêndulo em termos de equações integrais, vide Seção 14.2,
página 787, destas Notas). Daı́ a importância da questão 3: é muitas vezes necessário saber a priori
se uma solução existe antes de tentar encontrá-la.
Saber a priori se um problema de valor inicial tem solução e se essa solução é única pode ser
importante para justificar métodos de solução. Muitas vezes, ao encontrarmos a solução de um problema
29
Uma exceção notável é a equação de Clairaut, discutida na Seção 5.3.8, página 276, que possui uma solução, dita
solução singular, não depende de nenhum parâmetro livre.
30
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 282/1195

de valor inicial perguntamo-nos se a solução encontrada é única. Por exemplo, pode-se facilmente
constatar que as funções x(t) = x0 cos(ω0 t) + (v0 /ω0 ) sen (ω0 t) são soluções da equação do oscilador
harmônico simples ẍ + ω02 x = 0 com as condições iniciais x(0) = x0 e v(0) = v0 . O que, porém, garante
que não há outras funções que também sejam solução dessa equação para essas condições iniciais? Nisso
reside a importância da questão 4: em se sabendo a priori que a solução é única (esse é o caso para a
equação do oscilador harmônico simples) não é necessário procurar outras soluções.
Equações diferenciais de interesse em Fı́sica tipicamente dependem de certos parâmetros. Por
exemplo, a equação do oscilador harmônico simples, acima, depende do parâmetro ω 0 , a equação do
pêndulo simples depende de g/l. Saber se a dependência de uma solução depende continuamente
de condições iniciais ou de parâmetros é importante em aplicações, por exemplo em Fı́sica, pois em
problemas reais tais dados são freqüentemente fornecidos com imprecisões e é, portanto, importante
poder garantir que erros pequenos no conhecimento dessas grandezas têm efeitos igualmente pequenos
nas soluções (ao menos para tempos não muito afastados do instante inicial).
Comecemos por dizer que a resposta às questões 1 e 2 é negativa. Veremos exemplos logo adiante.
Uma resposta às questões 3 e 4 será apresentada na forma de dois teoremas importantes, o de Peano
(Teorema 5.1, página 286), que fornece condições suficientes para garantir existência de soluções, e o
de Picard-Lindelöf (Teorema 5.2, página 287. Vide também sua generalização para espaços de Banach,
Teorema 14.3, página 796), que fornece condições suficientes para garantir existência e unicidade de
soluções. Mostraremos em exemplos que a resposta à questão 5 é também negativa. Uma resposta
parcial à questão 6 (que é chamado de problema da existência de soluções globais) será discutida na
Seção 5.4.3, página 288, e as demonstrações dos resultados lá apresentados encontram-se na Seção
14.3.2, página 800. As questões 7 e 8 são discutidas à página 290 e, com mais detalhe, na Seção 14.3.3,
página 801. Vide Teorema 14.6, página 802, sua demonstração e os comentários que se lhe seguem.
Referências para várias dessas questões são [1], [37], [21], [10] e [60].

• Problemas bem-postos

Um comentário sobre nomenclatura. Na literatura sobre a teoria das equações diferenciais (or-
dinárias ou parciais), um problema no qual se possa garantir existência, unicidade e continuidade de
soluções em relação a condições iniciais e de contorno (estabilidade) é dito ser um problema bem-posto.

• Outros problemas que não de valor inicial

Como já mencionamos acima, há outros problemas que não o de valor inicial. Pode-se querer fixar
a função em dois pontos, por exemplo. Problemas desse tipo são muito comuns em equações ordinárias
obtidas pelo método de separação de variáveis em problemas de equações diferenciais parciais com
certas condições de contorno. Trataremos abundantemente desse tipo de problema quando discutirmos
o Problema de Sturm-Liouville no Capı́tulo 9, página 521.
Outros problemas envolvem outros tipos de exigência sobre a solução. Por exemplo, que ela seja
finita em certos pontos, ou de quadrado integrável. Esse último caso é comummente encontrado na
Mecânica Quântica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 283/1195

5.4.1 Problemas de Valor Inicial. Patologias e Exemplos a se Ter em


Mente
Nesta seção listaremos alguns exemplos instrutivos de problemas de valor inicial que exibem compor-
tamento patológico, como inexistência ou não unicidade de solução ou inexistência de solução global,
ou seja, inexistência de solução válida em toda a reta real. É instrutivo ter alguns desses exemplos em
mente. Na Seção 5.4.2, página 286, e na Seção 5.4.3, página 288, apresentaremos condições suficientes
para evitar essas patologias.

• Inexistência de solução

Exemplo 5.12 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se
a solução da equação
1
ẏ(t) =
t
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. ◊

E. 5.25 Exercı́cio. Mostre isso. 6

Exemplo 5.13 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se
a solução da equação
1
ẏ(t) = −
y(t)
que satisfaça a condição inicial y(0) = 0. Esse problema não possui nenhuma solução que seja real para
t > 0. ◊

E. 5.26 Exercı́cio. Mostre isso. 6

Exemplo 5.14 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se
a solução da equação p
ẏ(t) = 1 − y(t)2
que satisfaça a condição inicial y(0) = 2. Esse problema não possui nenhuma solução real. ◊

E. 5.27 Exercı́cio. Mostre isso. 6

Exemplo 5.15 (Inexistência de solução) (De [63]) Considere-se o problema de valor inicial no qual
procura-se a solução da equação
ẏ(t) = H(y(t)) ,
onde 
1, y < 0
H(y) := ,
−1, y ≥ 0
com a condição inicial y(0) = 0. Esse problema não possui nenhuma solução. Para entender por que,
observe que se y(0) = 0 então, pela equação diferencial, y 0 (0) = −1, o que implica y(t) é decrescente
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 284/1195

para t próximo de 0, tornando-se negativa para t positivo próximo de 0. Mas para y negativo ẏ(t) vale
1 e y é crescente, uma contradição. ◊

E. 5.28 Exercı́cio. Certo? 6

Exemplo 5.16 (Inexistência de solução) Considere-se o problema de valor inicial no qual procura-se
a solução da equação
ẏ(t) = 2(y(t))3/2
que satisfaça a condição inicial y(0) = 1. Esse problema não possui nenhuma solução real. ◊

E. 5.29 Exercı́cio. Mostre isso. 6

• Não-unicidade de soluções

Exemplo 5.17 (Não-unicidade de soluções) Considere-se o problema de valor inicial no qual procura-
se a solução da equação
ẏ(t) = 3(y(t))2/3
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única. Por exemplo, as
funções
y1 (t) ≡ 0 e y2 (t) = t3
ambas satisfazem a equação diferencial e y1 (0) = y2 (0) = 0. ◊

E. 5.30 Exercı́cio. Verifique! 6

O Exemplo 5.17, acima, foi encontrado por Peano em 1890. Há várias outras soluções, como vemos
na seguinte generalização.
Exemplo 5.18 (Não-unicidade de soluções) Seja 0 < β < 1. Considere-se o problema de valor inicial
no qual procura-se a solução da equação
1
ẏ(t) = |y(t)|β
1−β
que satisfaça a condição inicial y(0) = 0. Esse problema não tem solução única: a função y(t) ≡ 0,
∀t ∈ , assim como, para todos c1 ≤ 0, c2 ≥ 0, as funções


 1

 −(c1 − t) 1−β , t ≤ c1




yc1 , c2 (t) = 0, c1 < t < c 2 , (5.54)





 (t − c ) 1−β
1
2 , t ≥ c2
 1 
 −(c1 − t) 1−β , t ≤ c1  0, t < c2
yc1 (t) = , yc2 (t) = (5.55)
  1
0, t > c1 (t − c2 ) 1−β , t ≥ c2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 285/1195

satisfazem a equação diferencial e anulam-se em t = 0. ◊

E. 5.31 Exercı́cio. Verifique! Desenhe gráficos de várias funções y c1 , c2 (t), yc1 (t) e yc2 (t) para vários
valores de c1 ≤ 0, c2 ≥ 0. 6

• Inexistência de soluções globais

Exemplo 5.19 (Solução que só existe em um intervalo finito) A equação diferencial é aquela apre-
sentada no Exemplo 5.15, acima, com condição inicial y(0) = y0 > 0. Para −∞ < t < y0 a solução é
y(t) = y0 − t mas para t ≥ y0 surge a contradição discutida no Exemplo 5.15 e a equação diferencial
não mais possui solução. ◊
Exemplo 5.20 (Solução que diverge em tempo finito) Considere-se o problema de valor inicial no qual
procura-se a solução real da equação
ẏ(t) = y(t)2 ,
t∈  , que satisfaça a condição inicial y(0) = y0 ∈  , y0 6= 0. A solução é
1
y(t) = 1 (5.56)
y0
−t
a qual diverge para t = 1/y0 . ◊
Exemplo 5.21 (Solução que diverge em tempo finito) Considere-se a equação diferencial
ẏ(t) = 1 + y(t)2 ,
t ∈ . Sua solução é y(t) = tan(t + k), onde k é fixada por uma condição inicial. Se, por exemplo,


tomarmos y(0) = y0 , então k = arctan(y0 ). Essa solução, porém, existe apenas no intervalo aberto
(−k − π2 , −k + π2 ), pois tan(t + k) diverge nos extremos. ◊
Exemplo 5.22 (Solução que diverge em tempo finito) Considere-se uma partı́cula de massa m que se
move em uma dimensão sob a ação de um potencial repulsivo U (x) = − k4 x4 , com k > 0, com condição
inicial x(0) = 0, ẋ(0) = v0 > 0. Sua equação de movimento (a segunda lei de Newton) é
ẍ(t) − k 0 x(t)3 = 0 ,
onde k 0 = k/m. Qual o tempo que essa partı́cula leva para, partindo de x(0) = 0, chegar ao infinito?
A resposta é Z ∞
dx
T0→∞ = q ,
2 k 4
0
m
E + 4x
mv02
onde E = 2
> 0 é a energia mecânica da partı́cula. ◊

E. 5.32 Exercı́cio. Justifique a expressão dada acima para T 0→∞ . 6

Para E > 0 a integral acima é finita (Justifique!). Logo, a partı́cula leva um tempo finito para chegar
ao infinito, ou seja, x(t) diverge em tempo finito. Isso mostra que a solução da equação diferencial
ẍ(t) − k 0 x(t)3 = 0, com k 0 > 0 e v0 > 0, existe apenas em um intervalo finito de valores de t.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 286/1195

E. 5.33 Exercı́cio. Mostre que o mesmo se passa com as equações diferenciais ẍ(t) − k 0 x(t)d = 0, para
todo d > 1, desde que k 0 > 0. O que acontece se k 0 < 0? O que acontece se k 0 > 0 mas d ≥ 1? 6

5.4.2 Teoremas de Existência e Unicidade de Soluções


Os vários exemplos dados acima não devem causar uma impressão negativa sobre problemas de valor
inicial pois, em verdade, os mesmos refletem patologias nem sempre encontradas na “prática” (entenda-
se, na Fı́sica). No caso da Mecânica, por exemplo, assim como em outras áreas da Fı́sica, pode-se
garantir existência e unicidade de solução da “maioria” dos problemas de valor inicial. Os exemplos
de acima advertem-nos, porém, da necessidade de alguns teoremas gerais que forneçam pelo menos
condições suficientes para garantir existência e/ou unicidade de problemas de valor inicial. Na teoria
das equações diferenciais ordinárias os mais importantes desses teoremas são os de Peano 31 e de Picard32 -
Lindelöf33 , os quais enunciaremos agora.
Teorema 5.1 Teorema de Peano (Existência de Soluções). Seja a equação diferencial ordinária
real de primeira ordem
ẏ(t) = F (t, y(t)) (5.57)
(F sendo não-identicamente nula) com a condição inicial

y(t0 ) = y0 . (5.58)
2
com y0 ∈  . Seja F :  →  contı́nua no retângulo fechado

R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.59)

com a, b > 0, sendo, portanto, limitada em R. Seja

M := max |F (t, y)| . (5.60)


(t, y)∈R

Então, o problema de valor inicial descrito pelas relações (5.57) e (5.58) apresenta pelo menos uma
solução. Além disso, essa solução existe pelo menos no intervalo fechado [t 0 − β, t0 + β], onde
 
b
β := min a, . (5.61)
M
2

Em essência, o que esse teorema afirma é que se pode garantir a existência de soluções do problema
de valor inicial descrito pelas relações (5.57) e (5.58) se pelo menos a função F for contı́nua em um
retângulo centrado na condição inicial.
31
Giuseppe Peano (1858-1932). O Teorema de Peano data de 1886.
32
Charles Émile Picard (1856-1941).
33
Ernst Leonard Lindelöf (1870-1946). Seus trabalhos sobre existência e unicidade de soluções de equações diferenciais
ordinárias datam de 1890.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 287/1195

A prova desse teorema, que é baseada no importante teorema de Ascoli-Arzelà, não será apresentada
aqui e remetemos os estudantes aos bons livros (por exemplo, [37], [1], [21], [10] ou [60]).
O estudante pode (deve) verificar que os Exemplos 5.12 a 5.16, página 283, não satisfazem as
condições do Teorema de Peano, daı́ não haver solução naqueles casos.
O teorema de Peano garante condições suficientes para existência, mas não unicidade de solução. O
estudante também pode (deve) verificar que os Exemplos 5.17 e 5.18, página 284 acima, satisfazem as
condições do teorema de Peano, mas para eles não vale a unicidade. É preciso requerer mais da função
F para ter-se unicidade da solução. Isso é obtido com o próximo teorema.
Teorema 5.2 Teorema de Picard-Lindelöf (Existência e Unicidade de Soluções). Seja a
equação diferencial ordinária real de primeira ordem
ẏ(t) = F (t, y(t)) (5.62)
2
(F :  →  sendo não-identicamente nula) com a condição inicial
y(t0 ) = y0 , (5.63)
2
com y0 ∈  . Seja F :  →  contı́nua no retângulo fechado
R = { (t, y) : |t − t0 | ≤ a, |y − y0 | ≤ b } , (5.64)
com a, b > 0, sendo, portanto, limitada em R. Seja
M := max |F (t, y)| . (5.65)
(t, y)∈R

Suponha ainda que F seja Lipschitz contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ R valha
|F (t, y) − F (t, v)| ≤ k |y − v| . (5.66)
Então, o problema de valor inicial descrito pelas relações (5.62) e (5.63) apresenta uma única solução.
Além disso, essa solução existe pelo menos no intervalo fechado [t 0 − β, t0 + β], onde
 
b
β := min a, . (5.67)
M

Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista e
seja limitada em todo R , em cujo caso a constante de Lipschitz seria dada por k := sup |∂y f (t, y)|.
(t, y)∈R
2

A prova do Teorema de Picard-Lindelöf será apresentada com bastante generalidade no Capı́tulo


14, página 779. Vide Teorema 14.3, página 796.
É importante notar que a condição de F ser Lipschitz34 contı́nua em R com relação ao seu segundo
argumento pode ser obtida de uma condição mais forte, a saber, que a derivada parcial ∂ y F (t, y) de
F em relação ao segundo argumento seja contı́nua em R. De fato, da relação
Z v
F (t, v) − F (t, u) = ∂y F (t, y) dy ,
u
34
Rudolf Otto Sigismund Lipschitz (1832-1903).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 288/1195


segue facilmente que F (t, v) − F (t, u) ≤ k|v − u|, onde k := max |∂y F (t, y)|, que é uma constante
(t, y)∈R
finita se ∂y F (t, y) for contı́nua em R. Assim, em essência, o que o Teorema de Picard-Lindelöf afirma
é que se pode garantir a existência e a unicidade de soluções do problema de valor inicial descrito pelas
relações (5.62) e (5.63) se pelo menos a função F e sua derivada parcial ∂ y F (t, y) forem contı́nuas em
um retângulo centrado na condição inicial.
Como comentário final, afirmamos que os teoremas de Peano e Picard-Lindelöf podem ser facilmente
estendidos para sistemas de equações diferenciais de primeira ordem (em verdade, o Teorema 14.3,
página 796, já é enunciado com essa generalidade). Como toda equação diferencial de ordem n é
equivalente a um tal sistema, essas generalizações garantem condições suficientes para existência ou
unicidade de solução de equações diferenciais ordinárias de qualquer ordem.
No caso de equações diferenciais parciais não existem teoremas tão fortes relativos à existência
e unicidade de problemas de valor inicial como há no caso de equações diferenciais ordinárias. Um
dos resultados mais importantes nessa direção, porém, é o Teorema de Cauchy-Kovalevskaya 35 . Seu
enunciado e sua demonstração podem ser encontrados, por exemplo, em [25, 26].

5.4.3 Soluções Globais


Vimos nos Exemplos 5.19 a 5.22 (página 285) que há equações diferencias cujas soluções, ainda que
existam e sejam eventualmente únicas, não são globais, ou seja, não podem ser definidas em toda
reta real. A questão que naturalmente se coloca é a de encontrar condições suficientes para garantir
a existência de soluções globais. Essa é uma vasta questão e nos limitaremos aqui a apresentar o
resultado mais simples, o Teorema 5.3, abaixo. Igualmente importante é a questão de se demonstrar
que uma determinada equação diferencial não possui soluções globais (se tal puder ser o caso). Um dos
principais resultados da Teoria da Relatividade Geral e da Cosmologia, a existência do chamado “big
bang” em uma classe bastante grande de modelos para o universo, foi tratado como um problema de
não-existência de soluções globais de determinadas equações diferenciais. Vide [54].
O seguinte teorema, cuja demonstração é apresentada com mais generalidade na Seção 14.3.2, página
800, apresenta condições suficientes para a existência de soluções globais.
Teorema 5.3 (Existência e unicidade de soluções globais) Seja F : 2 → contı́nua em todo  

2
 . Suponhamos também que para todo a > 0, a função F seja Lipschitz contı́nua em relação ao seu
segundo argumento na faixa

Fa, t0 = (t, y) ∈ 2 : |t − t0 | ≤ a , y ∈ arbitrário ,
 

ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a e denominada
constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale |F (t, y) − F (t, v)| ≤ ka |y − v|.
Então, para qualquer x0 ∈ , o problema de valor inicial ẋ(t) = F (t, x(t)) com x(t0 ) = x0 apresenta


uma solução única válida para todo t ∈ . 

Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y F (t, y) exista
em todo 2 e seja limitada em cada faixa Fa, t0 , em cujo caso as constantes de Lipschitz podem ser


escolhidas como ka := sup |∂y F (t, y)|. 2


(t, y)∈Fa, t0

35
Sofia Vasilyevna Kovalevskaya (1850-1891).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 289/1195

E. 5.34 Exercı́cio. Mostre que a equação diferencial não-linear ẋ = cos(x) satisfaz as condições do
Teorema 5.3 e, portanto, possui soluções globais. Mostre explicitamente, por integração, que as soluções
são dadas por x(t) = arctan ( senh (t + c)), onde c é uma constante a ser fixada pela condição inicial. Por
essa expressão explı́cita contata-se claramente que as soluções existem para todo t ∈ .  6

E. 5.35 Exercı́cio(de [20]). Mostre que a equação diferencial não-linear

x3 e t
ẋ = + t2 cos(x)
1 + x2
satisfaz as condições do Teorema 5.3. Sugestão: mostre que para esse caso

∂F (y 4 + 3y 2 ) t ∂F
(t, y) = e − t2 sen (y) e, portanto, em cada faixa Fa, t0 , (t, y) ≤ 3ea + a2 ,
∂y 2
(1 + y ) ∂y

e podemos adotar ka = 3ea + a2 para cada a > 0. 6

E. 5.36 Exercı́cio. A equação diferencial não-linear ẋ = x 2 não satisfaz as condições do Teorema 5.3,
pois a condição de Lipschitz requerida não é satisfeita em nenhuma faixa F a, t0 . Mostre isso. Com efeito,
vimos no Exemplo 5.20, da página 285 que essa equação não possui soluções globais. Vide também os
comentários da página 290 sobre esse problema. 6

E. 5.37 Exercı́cio. Faça o mesmo para o Exemplo 5.21, página 285. 6

• Comentários sobre soluções globais. O Exemplo 5.17

Analisemos agora o Exemplo 5.17, página 284 sob a luz dos Teoremas de Peano e de Picard-Lindelöf.
Aqui, F (t, y) = 3y 2/3 , t0 = 0, y0 = 0. Tomando-se um retângulo fechado centrado em (t0 , y0 ) = (0, 0),
ou seja, R = { (t, y) : |t| ≤ a, |y| ≤ b }, constata-se elementarmente que F é contı́nua e que

M := max |F (t, y)| = max 3y 2/3 = 3b2/3 .


(t, y)∈R y∈[−b, b]

Assim, o Teorema de Peano n garante o a existência de solução para o intervalo fechado [−β, β], onde
 b
b1/3
β := min a, M = min a, 3 (vide (5.61)). Os valores de a e de b podem ser escolhidos arbitra-
riamente grandes, sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar β
arbitrariamente grande. Assim, nesse particular exemplo, o Teorema de Peano garante-nos a existência
de uma solução global, para todo t. Isso condiz com a observação que a solução identicamente nula,
bem como as soluções (5.54) e (5.55) existem para todo t.
Por fim, é fácil verificar que a função F (t, y) = 3y 2/3 não satisfaz a condição de Lipschitz |F (t, y) −
F (t, v)| ≤ k|y − v| para nenhum k em nenhum retângulo centrado em (0, 0). Para isso observe que
se tomássemos v = 0 e y ≥ 0, a condição de Lipschitz diria que 3y 2/3 ≤ ky, ou seja, 3y −1/3 ≤ k. Mas
uma tal desigualdade é impossı́vel, pois para y → 0 o lado esquerdo diverge!
Isso justifica por que não se pode aplicar Picard-Lindelöf nesse caso (e a solução, de fato, não é
única).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 290/1195

• Comentários sobre soluções globais. O Exemplo 5.20

O fato de o Teorema de Peano em princı́pio garantir apenas uma região conservadora de validade
de solução, a saber o intervalo [t0 − β, t0 + β], onde β é dado pela expressão (5.61), não está em
desacordo com os exemplos: há sistemas satisfazendo as condições do Teorema de Peano para os quais
não há soluções globais, ou seja, soluções que existem para todo t ∈ . O Exemplo 5.20, página


285, é um tal caso. Vamos reanalisá-lo sob a luz dos Teoremas de Peano e Picard-Lindelöf, estudando
particularmente o que o Teorema de Peano nos diz sobre a região de existência de solução.
É bastante claro que no Exemplo 5.20 tem-se F (t, y) = y 2 , e t0 = 0 com y0 > 0. Tomando-se
um retângulo fechado centrado em (t0 , y0 ) = (0, y0 ), ou seja, R = { (t, y) : |t| ≤ a , |y − y0 | ≤ b },
constata-se elementarmente que F é contı́nua e que

M := max |F (t, y)| = max y 2 = (y0 + b)2 .


(t, y)∈R y∈[y0 −b, y0 +b]

O Teorema de Peano n garante ao existência de solução para o intervalo fechado [−β, β], onde β :=
 b
b
min a, M = min a, (y0 +b) 2 . O valor de a pode ser escolhido arbitrariamente grande, sem alterar
o valor de M e sem violar a condição de continuidade de F . Conclui-se disso que podemos tomar
b
β = .
(y0 + b)2

Para qual escolha de b a constante β assume seu maior valor? É um exercı́cio fácil (faça-o!) mostrar
que o lado direito da última expressão assume seu máximo em b = y0 , em cujo caso
1
β = .
4y0

Assim, o Teorema de Peano garante existência de solução no intervalo [− 4y10 , 4y10 ]. Sabemos, porém
que a solução (5.56) existe em um intervalo maior (e que contenha t = t0 = 0), a saber (−∞, y10 ).
O que se aprende disso é que o intervalo de solução obtido pela estimativa (5.61) nem sempre é
maximal, mas nem por isso contradiz-se o fato de nesse caso não haver solução válida para todo t.
Para sabermos se a solução é única, devemos estudar as condições do Teorema de Picard-Lindelöf.
Sabemos que F (t, y) − F (t, v) = y 2 − v 2 = (y + v)(y − v) . Logo, |F (t, y) − F (t, v)| = |y + v| |y − v|
e, para y e v no intervalo [y0 − b, y0 + b], tem-se |y + v| ≤ 2(y0 + b). Assim, adotando-se k = 2(y0 + b),
vale a condição de Lipschitz
|F (t, y) − F (t, v)| ≤ k|y − v|
para todos (t, y), (t, v) ∈ R. Assim, a solução do problema do Exemplo 5.20 será única para quaisquer
a e b que se tome.

5.4.4 Dependência Contı́nua de Condições Iniciais e de Parâmetros


Conforme mencionamos na página 281, é importante determinarmos condições sob as quais a solução
de um problema de valor inicial é contı́nua em relação às condições iniciais e a parâmetros que ocorram
na equação diferencial. Essas questões são respondidas com bastante generalidade e detalhe na Seção
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 5 291/1195

14.3.3, página 801. Vide Teorema 14.6, página 802, sua demonstração e comentários que se lhe seguem.
Os resultados encontram-se resumidos nos dois teoremas abaixo, os quais valem também para sistemas
de equações diferenciais ordinárias.
Teorema 5.4 Seja a equação diferencial ordinária real de primeira ordem ẏ(t) = F (t, y(t)) (F :
2
 → sendo não-identicamente nula) com a condição inicial y(t0 ) = y0 , com y0 ∈ e suponhamos
 

que sejam satisfeitas as condições descritas no Teorema 5.2, página 287, de modo que se garanta a
existência de uma solução única y(t, y0 ) do problema de valor inicial em um intervalo [t0 − β, t0 + β].
Então, existe uma vizinhança J de y0 ∈ onde a solução y(t, y0 ) depende continuamente de y0 . Mais


precisamente, existe uma constante κ > 0 e uma vizinhança T de t0 contida em [t0 − β, t0 + β] tal que
vale |y(t, y0 ) − y(t, y00 )| ≤ κ|y0 − y00 |eκ|t−t0 | para todo y00 ∈ J e todo t ∈ T . 2

Teorema 5.5 Seja a equação diferencial ordinária real de primeira ordem e dependente de um parâmetro
p: ẏ(t) = F (t, y(t), p) (F : 2 → sendo não-identicamente nula) com a condição inicial y(t0 ) = y0 ,
 

com y0 ∈  e suponhamos que sejam satisfeitas as condições descritas no Teorema 5.2, página 287,
de modo que se garanta a existência de uma solução única y(t, p) do problema de valor inicial em um
intervalo [t0 − β, t0 + β]. Suponhamos também que F seja contı́nua e continuamente diferenciável em
relação a p em alguma vizinhança. Então, y(t, p) depende continuamente de p nessa vizinhança. 2
Capı́tulo 6
Sistemas de Equações Diferenciais Lineares
Conteúdo

6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293


6.2 Unicidade e Existência de Soluções . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.1 Unicidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2.2 Existência. A Série de Dyson . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
6.2.3 Propriedades de D(s, t) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
6.3 Equações com Coeficientes Constantes . . . . . . . . . . . . . . . . . . . . . 305
6.3.1 Alguns Exemplos e Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . 307
6.4 Teoria de Perturbações de Sistemas Lineares . . . . . . . . . . . . . . . . . 311
6.5 Mais sobre a Série de Dyson. Produtos de Tempo Ordenado . . . . . . . 315
6.6 Sistemas de Equações Diferenciais Lineares no Plano Complexo . . . . . 318
6.6.1 O Caso Analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
6.6.2 Resolução por Séries de Potências . . . . . . . . . . . . . . . . . . . . . . . . 325
6.6.3 Sistemas com Pontos Singulares. Monodromia . . . . . . . . . . . . . . . . . 326
6.6.4 Sistemas com Pontos Singulares Simples . . . . . . . . . . . . . . . . . . . . . 337
6.7 Sistemas Provenientes de EDO’s de Ordem m . . . . . . . . . . . . . . . . 341
6.7.1 Pontos Singulares Simples em EDO’s de Ordem m . . . . . . . . . . . . . . . 342
6.7.2 Singularidades no Infinito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
6.7.3 Alguns Exemplos de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 348

remos neste capı́tulo estudar sistemas de equações diferenciais lineares ordinárias, com par-
ticular atenção a sistemas de equações diferenciais lineares associados a equações diferenciais
lineares de ordem n. Demonstraremos alguns teoremas básicos e apresentaremos métodos de
solução, com particular destaque para a série de Dyson. Alguns exemplos de interesse fı́sico
serão discutidos com certo detalhe. Inicialmente trataremos sistemas dependentes de uma variável real
e mais adiante generalizaremos nossos resultados para sistemas dependentes de uma variável complexa.
Tal generalização é particularmente importante para o tratamento de sistemas de equações diferenciais
provenientes de equações diferenciais ordinárias linerares de ordem n, já que métodos de resolução de
tais equações, como o método de Frobenius, estão intimamente relacionados a propriedades analı́ticas
dos coeficientes da equação. O presente capı́tulo será continuado no Capı́tulo 7, onde discutiremos a
solução de equações diferenciais ordinárias linerares de ordem 2 utilizando o método de expansões em
série, e utilizando o método de Frobenius. Em seguida, no Capı́tulo 8, estudaremos propriedades de
algumas das soluções de maior interesse em Fı́sica.

292
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 293/1195

6.1 Introdução
Seja t uma variável real, A(t) uma matriz m × m cujos elementos Aij (t), i, j = 1, . . . , m, são funções
contı́nuas (reais ou complexas) dadas de t e seja F (t) um vetor coluna
 
f1 (t)
 
F (t) =  ... 
fm (t)

onde fi (t), i = 1, . . . , m são igualmente funções contı́nuas (reais ou complexas) dadas de t.


Se Y (t) é um vetor coluna  
y1 (t)
 
Y (t) =  ... 
ym (t)
a equação diferencial
Ẏ (t) = A(t)Y (t) + F (t) (6.1)
é denominada um sistema linear de equações diferenciais de primeira ordem, cujas incógnitas são as m
funções y1 (t), . . . , ym (t).
Caso F for identicamente nula o sistema é dito ser homogêneo e, caso contrário, não-homogêneo.
Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (t) em um ponto t0 é especificado, tipicamente o valor
de Y (t) em t = 0: Y (0) = Y0 , com  
y10
 .. 
Y0 =  .  ,
0
ym
y10 , . . . ym
0
sendo constantes (reais ou complexas).

6.2 Unicidade e Existência de Soluções

6.2.1 Unicidade
Iremos mais adiante mostrar que, sob as hipóteses acima, o sistema (6.1), submetido a uma condição
inicial Y (0) = Y0 , sempre possui solução. Iremos em verdade exibir um método aproximativo para o
cálculo da solução.
Para preparar essa discussão devemos primeiramente demonstrar a unicidade da solução, ou seja,
precisamos mostrar que se houver uma função Y (t) satisfazendo Ẏ (t) = A(t)Y (t) + F (t) e Y (0) = Y0 ,
então não há outra função distinta de Y com essas propriedades. O fato de a solução ser única será de
importância quando discutirmos um método para calcular a solução.
Vamos considerar primeiro o caso mais simples onde a equação é homogênea Ẏ (t) = A(t)Y (t) e a
condição inicial é Y (0) = 0. Partiremos desse caso mais simples para poder tratar melhor depois o caso
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 294/1195

geral. Integrando-se ambos os lados da igualdade Ẏ (t) = A(t)Y (t) entre 0 e t e usando que Y (0) = 0,
tem-se Z t
Y (t) = A(t1 )Y (t1 ) dt1 . (6.2)
0
Essa relação é uma identidade a ser satisfeita pela função Y (t) que eventualmente é solução da equação
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = 0. Observemos que a função Y aparece no lado esquerdo
e também dentro da integral. Como a identidade acima vale para todo t, tem-se também que
Z t1
Y (t1 ) = A(t2 )Y (t2 ) dt2 .
0

Inserindo-se isso na penúltima identidade, tem-se


Z t Z t1
Y (t) = A(t1 ) A(t2 )Y (t2 ) dt2 dt1 ,
0 0

ou seja, Z tZ t1
Y (t) = A(t1 )A(t2 ) Y (t2 ) dt2 dt1 .
0 0
Repetindo-se esse procedimento n vezes chega-se à seguinte identidade:
Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 . (6.3)
0 0 0

Lembrando que Y (t) é um vetor cujas componentes são funções yi (t) essa última identidade significa
para a a-ésima componente
m Z t Z t1
X Z tn−1
ya (t) = ··· (A(t1 )A(t2 ) · · · A(tn ))ab yb (tn ) dtn dtn−1 · · · dt1 . (6.4)
b=1 0 0 0

Acima, (A(t1 )A(t2 ) · · · A(tn ))ab é o elemento ab da matriz A(t1 )A(t2 ) · · · A(tn ), formada pelo produto
de n matrizes.
De acordo com a regra de produto de matrizes, (A(t1 )A(t2 ) · · · A(tn ))ab é dado por
m X
X m m
X
(A(t1 )A(t2 ) · · · A(tn ))ab = ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ).
k1 =1 k2 =1 kn−1 =1

A relação (6.4) fica então


m X
X m X
m m
X Z tZ t1 Z tn−1
ya (t) = ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) yb (tn ) dtn dtn−1 · · · dt1 .
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0

Essa relação implica a seguinte desigualdade


Xm X m Xm Xm Z t Z t1 Z tn−1
|ya (t)| ≤ ··· ··· |Aak1 (t1 )| |Ak1 k2 (t2 )| · · · |Akn−1 b (tn )||yb (tn )|dtn dtn−1 · · · dt1 .
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0

(6.5)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 295/1195

Vamos agora supor (provisoriamente) que t é limitado a um intervalo [0, T ] para algum T > 0
finito. Vamos definir
α = max max |Aij (t)| (6.6)
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi (t)|,
t∈[0, T ] i∈{1, ..., m}

ou seja α é o máximo valor alcançado pelo módulo dos elementos de matriz A ij (t) quando t varia
no intervalo [0, T ] e M é o máximo valor alcançado pelo módulo de todas as componentes y i (t) de
Y quando t varia no intervalo [0, T ]. Note-se que as mencionadas funções são limitadas pois, por
hipótese, são contı́nuas, e o intervalo [0, T ] é finito.
Retornando a (6.5), como todos os |Aij (tk )| são menores ou iguais a α e todos os |yb (tn )| são menores
ou iguais a M , tem-se que
m X
X m X
m m
X Z tZ t1 Z tn−1
|ya (t)| ≤ ··· ··· αn M dtn dtn−1 · · · dt1 . (6.7)
b=1 k1 =1 k2 =1 kn−1 =1 0 0 0

O fator αn deve-se ao fato que

|Aak1 (t1 )| |Ak1 k2 (t2 )| · · · |Akn−1 b (tn )| ≤ α · · α} = αn .


| ·{z
n vezes

Claramente, vale que


m X
X m m
X Z tZ t1 Z tn−1 m X
X m m
X Z tZ t1 Z tn−1
n n
··· ··· α M dtn · · · dt1 = α M ··· ··· dtn · · · dt1 ,
b=1 k1 =1 kn−1 =1 0 0 0 b=1 k1 =1 kn−1 =1 0 0 0

pois α e M são constantes. Fora isso, é bem fácil constatar que


Z t Z t1 Z tn−1
tn
··· dtn dtn−1 · · · dt1 = .
0 0 0 n!

E. 6.1 Exercı́cio importante. A última igualdade pode ser facilmente provada por indução. Faça-o. 6

Assim, a desigualdade (6.7) fica


m m m
tn X X
n
X
|ya (t)| ≤ α M ··· 1.
n! b=1 k =1 k =1
1 n−1

É evidente, agora, que


m X
X m m
X
··· 1 = mn
b=1 k1 =1 kn−1 =1

pois há n somas sucessivas, em cada uma o ı́ndice assume m valores e o somando é sempre constante
(não depende dos ı́ndices).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 296/1195

Concluı́mos que
(αmt)n
|ya (t)| ≤ M . (6.8)
n!
Essa desigualdade deve ser satisfeita para t ∈ [0, T ] pela a-ésima componente da solução Y da
equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0. É importante notar, porém, que o lado esquerdo
não depende de n, que é simplesmente o número de vezes que repetimos a identidade (6.2) para obter
(6.3). O que ocorre, porém, se tomarmos n → ∞? É bem sabido que para qualquer x ≥ 0 fixo tem-se
xn
lim = 0.
n→∞ n!

Assim, tomando-se em (6.8) o limite n → ∞ em ambos os lados, conclui-se que ya (t) = 0 para todo a
e todo t ∈ [0, T ]. Como T foi escolhido arbitrário, segue que ya (t) = 0 para todo t e todo a.
Em resumo, concluı́mos que se Y é solução da equação Ẏ = A(t)Y (t) com condição inicial Y (0) = 0
então Y (t) = 0 para todo t. Não há, portanto, outra solução que não a função nula para a equação
homogênea Ẏ = A(t)Y (t) com condição inicial Y (0) = 0.
O que podemos dizer do caso geral da equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial
Y (0) = Y0 ? Vamos supor que Y e X são duas soluções satisfazendo a mesma condição inicial, ou seja,
Y (0) = X(0) = Y0 . Definindo Z(t) = Y (t) − X(t) tem-se Z(0) = Y (0) − X(0) = Y0 − Y0 = 0 e

Ż(t) = Ẏ (t) − Ẋ(t) = A(t)Y (t) + F (t) − (A(t)X(t) + F (t)) = A(t)(Y (t) − X(t)) = A(t)Z(t).

Assim, Z é solução da equação homogênea Ż(t) = A(t)Z(t) com a condição inicial Z(0) = 0. Pelo
que acabamos de ver, Z é identicamente nula, o que prova que Y = X.
Isso provou então que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem
também solução única, se houver. Provaremos adiante que há uma solução e mostraremos como calculá-
la.
Finalmente, observamos que todas as conclusões apresentadas acima permanecem se a condição
inicial for fixada não em t = 0 mas num ponto t0 qualquer.

• Uma propriedade da solução das equações homogêneas

As demonstrações que apresentamos acima têm mais uma conseqüência para as soluções das equações
homogêneas Ẏ (t) = A(t)Y (t), conseqüência essa da qual faremos uso mais adiante. Tem-se, a saber,
o seguinte: a solução Y (t) de uma equação homogênea Ẏ (t) = A(t)Y (t) anula-se em um ponto t0 ,
Y (t0 ) = 0 se e somente se Y (t) for nula para todo t.
A prova disso segue da seguinte observação. Se Y (t0 ) = 0 então
Z t
Y (t) = A(t1 )Y (t1 ) dt1 .
t0

Como em (6.3), concluı́mos que


Z t Z t1 Z tn−1
Y (t) = ··· A(t1 )A(t2 ) · · · A(tn ) Y (tn ) dtn dtn−1 · · · dt1 .
t0 t0 t0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 297/1195

Prosseguindo como antes, concluiremos que


(αm|t − t0 |)n
|ya (t)| ≤ M , (6.9)
n!
onde
α = max max |Aij (t)|
t∈[0, T ] i, j∈{1, ..., m}
e
M = max max |yi (t)|
t∈[0, T ] i∈{1, ..., m}

o intervalo [0, T ] sendo escolhido grande o suficiente para conter t e t0 .


Tomando o limite n → ∞ em (6.9), concluı́mos que ya (t) = 0. Como isso vale para um t arbitrário,
segue que Y (t) é identicamente nula, que é o que querı́amos provar.

6.2.2 Existência. A Série de Dyson


Uma vez demonstrada a unicidade da eventual solução de uma equação como Ẏ = A(t)Y (t) + F (t)
com condição inicial Y (0) = Y0 precisamos demonstrar que a solução existe. E a melhor maneira de
demonstrar a existência de solução de uma equação diferencial é exibindo uma.
Para s e t reais, seja D(t, s) a matriz m × m definida por
X∞ Z t Z t1 Z tn−1
D(t, s) := + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 . (6.10)
n=1 s s s

Seja também D(t) definida por D(t) = D(t, 0), ou seja,


X∞ Z t Z t1 Z tn−1
D(t) = + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 . (6.11)
n=1 0 0 0

Algumas páginas adiante (página 303) provaremos que vale entre D(t, s) e D(t) a seguinte relação:
D(t, s) = D(t)D(s)−1 .
A série do lado direito de (6.10) e (6.11) é freqüentemente denominada série de Dyson 1 , denominação
esta empregada especialmente em textos sobre Mecânica Quântica e Teoria Quântica da Campos.
Afirmamos que a equação Ẏ = A(t)Y (t) + F (t) com uma condição inicial Y (0) = Y0 tem solução,
a qual é dada por Z t
Y (t) = D(t)Y0 + D(t, s)F (s) ds . (6.12)
0
A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra que não
1
Freeman J. Dyson (1923-). Denominamos a série de (6.10) e (6.11) série de Dyson, pois essa nomenclatura é
comummente empregada na Mecânica Quântica e na Teoria Quântica de Campos. Dyson chegou a essa série estudando
problemas de teoria de perturbações na Teoria Quântica de Campos. Sua origem, porém, remonta pelo menos a trabalhos
de Volterra de 1890. Em Teoria Quântica de Campos aquelas séries são também denominadas “exponenciais de tempo
ordenado”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 298/1195

(6.12). Note-se, em particular, que pelo dito acima, a equação homogênea Ẏ = A(t)Y (t) com condição
inicial Y (0) = Y0 tem por solução
Y (t) = D(t)Y0 .

O estudante deve ter em mente que a expressão (6.12) generaliza o método de variação de constantes
apresentado na Seção 5.3.4, página 266. De fato, como veremos adiante, D(t, s) é idêntica à matriz
Wronskiana das soluções linearmente independentes da equação homogênea.
Comecemos por mostrar que as séries que aparecem em (6.10) e (6.11) são convergentes, sem o que
ambas as expressões não fariam sentido. Denotando por Dab (t, s) o elemento ab da matriz D(t, s),
temos
X∞ Z t Z t1 Z tn−1
Dab (t, s) = ab + ··· (A(t1 )A(t2 ) · · · A(tn ))ab dtn dtn−1 · · · dt1
n=1 s s s

∞ X
X m X
m m
X Z tZ t1 Z tn−1
= δa b + ··· ··· Aak1 (t1 )Ak1 k2 (t2 ) · · · Akn−1 b (tn ) dtn · · · dt1 .
n=1 k1 =1 k2 =1 kn−1 =1 s s s

Limitando provisoriamente t e s a um intervalo finito [0, T ] e usando a definição de α dada em (6.6),


temos
X∞ Xm Xm Z t Z t1 Z tn−1

|Dab (t, s)| ≤ 1 + ··· ··· |Aak1 (t1 )| |Ak1 k2 (t2 )| · · · Akn−1 b (tn ) dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s


X m
X m
X Z tZ t1 Z tn−1
n
≤ 1+ α ··· ··· dtn · · · dt1
n=1 k1 =1 kn−1 =1 s s s


X m m
n |t − s|n X X
≤ 1+ α ··· 1
n=1
n!
k1 =1 kn−1 =1


X |t − s|n n−1
≤ 1+ αn m
n=1
n!

1 αm|t−s| 
= 1+ e −1
m
Isso mostra que, para cada elemento de matriz ab, a série do lado direito de (6.10) é absolutamente
convergente, e isso para todo s e t.
Para mostrar que (6.12) representa de fato a solução procurada, vamos mostrar que

D(t, s) = A(t)D(t, s). (6.13)
∂t
Isso, em particular, diz que
d
D(t) = A(t)D(t). (6.14)
dt
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 299/1195

De fato,
( ∞ Z tZ Z )
∂ ∂ X t1 tn−1
D(t, s) = + ··· A(t1 )A(t2 ) · · · A(tn ) dtn dtn−1 · · · dt1 .
∂t ∂t n=1 s s s

( Z Z tZ
t t1
d
= + A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1
dt s s s

Z tZ Z )
t1 t2
+ A(t1 )A(t2 )A(t3 ) dt3 dt2 dt1 + · · ·
s s s

Z t Z tZ t2
= 0 + A(t) + A(t)A(t2 ) dt2 + A(t)A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
 Z t Z tZ t2 
= A(t) + A(t2 ) dt2 + A(t2 )A(t3 ) dt3 dt2 + · · ·
s s s
 Z t Z tZ t1 
= A(t) + A(t1 ) dt1 + A(t1 )A(t2 ) dt2 dt1 + · · ·
s s s

= A(t)D(t, s),

como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando t2 de t1 , t3 de t2 etc.
De maneira análoga prova-se também que

D(t, s) = −D(t, s)A(s).
∂s

E. 6.2 Exercı́cio. Faça isso. 6

É também evidente pela definição (6.10) que para todo t vale D(t, t) = . Analogamente, vale
D(0) = . Retornando à equação (6.12), notemos que calculando o lado direito em t = 0 temos
Z 0
Y (0) = D(0)Y0 + D(0, s)F (s) ds = Y0 + 0 = Y0
0

mostrando que o lado direito de (6.12) satisfaz a condição inicial Y (0) = Y0 . Derivando o lado direito
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 300/1195

de (6.12) em relação a t, tem-se


Z t
d d
Ẏ (t) = D(t)Y0 + D(t, s)F (s) ds
dt dt 0
Z t

= A(t)D(t)Y0 + D(t, t)F (t) + D(t, s)F (s) ds
0 ∂t
Z t
= A(t)D(t)Y0 + F (t) + A(t)D(t, s)F (s) ds
0
 Z t 
= A(t) D(t)Y0 + D(t, s)F (s) ds + F (t).
0

= A(t)Y (t) + F (t),


provando que lado direito de (6.12) satisfaz a equação diferencial. Como a solução é única, ela deve ser
aquela dada em (6.12).

• Observações

A série de Dyson em (6.10) e (6.11) fornece a solução do sistema de equações Ẏ (t) = A(t)Y (t)+F (t)
através de (6.12). Devemos fazer notar, porém, que a série de Dyson não é o único meio de obter soluções
dessas equações. Em alguns casos particulares outros métodos podem ser mais eficazes, especialmente
se estivermos interessados em obter soluções em termos de funções conhecidas ou de expansões em
série. Tal é o caso, por exemplo, se os elementos de matriz de A(t) e F (t) são funções analı́ticas de t
ou possuem singularidades “fracas”, quando o chamado método de expansão em série de potências ou
o método de Frobenius podem ser empregados (vide para tal o Capı́tulo 7, página 355,). Em muitos
casos a série de Dyson não é útil quando se pretende obter soluções explı́citas, devido à complexidade
de se calcular explicitamente os produtos de matrizes A(t1 ) · · · A(tn ) e suas integrais.
A série de Dyson é, porém, bastante eficiente quando o interesse é obter soluções por métodos
numéricos, já que a mesma é rapidamente convergente. A série de Dyson é também muito útil quando
se tem pela frente problemas de teoria de perturbações. Isso será discutido com mais detalhe na Seção
6.4. Foi, aliás, estudando problemas de teoria de perturbações na Teoria Quântica de Campos que
Dyson chegou àquela série, inspirado provavelmente nos métodos iterativos de solução da equação
integral de Volterra (o leitor interessado pode estudar o tratamento da equação integral de Volterra
feito na Seção 14.2, página 787, mas isso é dispensável para o que segue).
A série de Dyson possui generalizações para espaços de Hilbert e de Banach e mesmo quando A(t) é
uma famı́lia de operadores não-limitados. O leitor interessado poderá estudá-las em Methods of Modern
Mathematical Physics, vol. II, de Michael Reed e Barry Simon.
Um caso particular importante da solução via série de Dyson é aquele no qual a matriz A(t) é
constante, ou seja, não depende da variável t. Trataremos disso na Seção 6.3. Outras representações e
propriedades da série de Dyson são apresentadas no Apêndice 6.5, página 315.

• Equações Matriciais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 301/1195

Até agora estudamos equações da forma Ẏ (t) = A(t)Y (t) + F (t), com condição inicial Y (0) = Y0 ,
onde A(t) é uma matriz m × m e onde Y e F são vetores coluna com m componentes:
   
y1 (t) f1 (t)
   
Y (t) =  ...  , F (t) =  ...  .
ym (t) fm (t)

Consideremos agora a equação Ṁ(t) = A(t)M(t)+G(t), com condição inicial M(0) = M0 , onde A(t),
G(t) e M(t) são matrizes m × m, a incógnita sendo a matriz M(t). Veremos facilmente que podemos
tratar esse problema com os mesmos métodos do anterior, onde a incógnita era um vetor coluna Y de
m componentes e não uma matriz quadrada.
De fato, como toda matriz m × m, as matrizes M(t) e G(t) são da forma (para notação, vide página
142)
M(t) = [[M1 (t), . . . , Mm (t)]], G(t) = [[G1 (t), . . . , Gm (t)]],
onde Mi (t) e Gi (t) são vetores coluna com m componentes, representando a i-ésima coluna das matrizes
M(t) e G(t), respectivamente.
Nessa notação a equação diferencial Ṁ(t) = A(t)M(t) + G(t) fica

[[Ṁ1 (t), . . . , M˙m (t)]] = [[A(t)M1 (t), . . . , A(t)Mm (t)]] + [[G1 (t), . . . , Gm (t)]],

ou seja, tem-se um conjunto de m sistemas de equações independentes

Ṁi (t) = A(t)Mi (t) + Gi (t), i = 1, . . . , m (6.15)

do tipo que tratamos acima, onde as incógnitas são vetores coluna.


Para cada uma dessas equações vale o teorema de unicidade de soluções que provamos acima. Assim
concluı́mos que a equação matricial Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 tem
solução única.
A solução de cada equação (6.15) é
Z t
Mi (t) = D(t)Mi (0) + D(t, s)Gi (s) ds, i = 1, . . . , m.
0

Reunindo as colunas Mi novamente na matriz M, temos


Z t
M(t) = D(t)M0 + D(t, s)G(s) ds
0

como solução única de Ṁ(t) = A(t)M(t) + G(t), com condição inicial M(0) = M0 .

6.2.3 Propriedades de D(s, t)


Consideremos novamente a equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 .
Sabemos que sua solução é dada por Y (t) = D(t)Y0 , onde D(t) é dada em (6.11).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 302/1195

Sejam ek os vetores da base canônica


     
1 0 0
0  1  0 
     
     
e 1 = 0  , e 2 = 0  , ..., em =  ...  .
 ..   ..   
. . 0 
0 0 1

Definimos
Y k (t) = D(t)ek
para k = 1, . . . , m. Cada Y k (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição
inicial Y (0) = ek .
Um vetor Y0 representando uma condição inicial genérica
 
y10
 
Y0 =  ...  (6.16)
0
ym

pode ser escrita na base canônica como


m
X
Y0 = yk0 ek .
k=1

Assim, se Y (t) é solução da equação homogênea Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0
temos que
m
X Xm
0 k
Y (t) = D(t)Y0 = yk D(t)e = yk0 Y k (t). (6.17)
k=1 k=1

Em resumo, todas as soluções da equação homogênea Ẏ (t) = A(t)Y (t) podem ser escritas como com-
binações lineares das funções Y 1 (t), . . . , Y m (t), os coeficientes sendo as componentes yk0 do vetor Y0
na base canônica.
Em virtude dessas e de outras propriedades que ainda estudaremos é importante estudar as funções
Y (t). O conjunto de funções {Y 1 (t), . . . , Y m (t)} é denominado sistema fundamental ou sistema inte-
k

gral ou ainda base integral de soluções da equação Ẏ (t) = A(t)Y (t). O conceito de sistema fundamental
de soluções foi introduzido por Fuchs2 em 1866.
Importante nesse contexto é a matriz cujas colunas são formadas pelos vetores coluna Y k . Defina-se
(para a notação vide apêndice 3.1, página 142)

W (t) = [[Y 1 (t), . . . , Y m (t)]].

Essa matriz é denominada matriz Wronskiana3 ou matriz fundamental.


2
Lazarus Immanuel Fuchs (1833-1902).
3
Conde Josef Hoëné de Wronski (1778-1853).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 303/1195

Tem-se, porém, o seguinte. Pela definição Y k (t) = D(t)ek . Portanto,

[[Y 1 (t), . . . , Y m (t)]] = [[D(t)e1 , . . . , D(t)em ]] = D(t)[[e1 , . . . , em ]] = D(t) = D(t) ,

pois [[e1 , . . . , em ]] = .
O fato que
D(t) = [[Y 1 (t), . . . , Y m (t)]] (6.18)
mostra que a matriz de Dyson (6.11) é idêntica à matriz Wronskiana e, portanto, podemos determinar
D(t) calculando-se os vetores Y 1 (t), . . . , Y m (t). Esse procedimento para determinar D(t) pode ser
mais fácil que calcular a série de Dyson do lado direito de (6.11).
A identidade (6.18) será também usada para outros propósitos, um deles será mostrar que D(t) é
uma matriz invertı́vel.
Vamos, de fato, mostrar que para todo t o conjunto {Y 1 (t), . . . , Y m (t)} é um conjunto de vetores
linearmente independente. Suponhamos o oposto, ou seja, que haja constantes α1 , . . . , αm nem todas
nulas, tais que
α1 Y 1 (t0 ) + · · · + αm Y m (t0 ) = 0
para algum t0 . Sabemos por (6.16)-(6.17) que a função

Y (t) = α1 Y 1 (t) + · · · + αm Y m (t)

é solução de Ẏ (t) = A(t)Y (t) com a condição inicial


 
α1
 
Y (0) = Y0 =  ...  .
αm

Pela hipótese, Y (t0 ) = 0. Pelo observado no tópico “Uma propriedade da solução das equações ho-
mogêneas” da página 296, isso implica que Y (t) = 0 para todo t. Logo α1 = · · · = αm = 0, uma
contradição que prova que os vetores {Y 1 (t), . . . , Y m (t)} devem ser linearmente independentes para
todo t.
Se os vetores {Y 1 (t), . . . , Y m (t)} são linearmente independentes para todo t, então o determinante
da matriz Wronskiana [[Y 1 (t), . . . , Y m (t)]] nunca se anula.
O determinante
W(t) = det [[Y 1 (t), . . . , Y m (t)]]
é dito ser o Wronskiano do sistema linear homogêneo Ẏ (t) = A(t)Y (t). Como acabamos de ver W(t) 6= 0
para todo t.
Como a matriz Wronskiana é idêntica à matriz de Dyson (6.11), concluı́mos que o determinante
daquela matriz nunca se anula. Isso significa que a matriz inversa D(t)−1 existe para todo t.

• A relação entre D(t, s) e D(t)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 304/1195

Com o fato em mãos que existem as inversas D(t)−1 para todo t, vamos demonstrar agora a seguinte
identidade importante: para todo s e todo t vale

D(t, s) = D(t)D(s)−1 . (6.19)

A prova é simples. Seja s fixo daqui por diante. Sejam A(t) = D(t, s) e B(t) = D(t)D(s)−1 .
Queremos provar que A(t) = B(t) para todo t. Observemos que A(s) = D(s, s) = e que B(s) =
D(s)D(s)−1 = . Logo, A e B são iguais no ponto t = s. Fora isso,

d ∂ (6.13)
A(t) = D(t, s) = A(t)D(t, s) = A(t)A(t)
dt ∂t
e  
d d (6.14)
B(t) = D(t) D(s)−1 = A(t)D(t)D(s)−1 = A(t)B(t).
dt dt
Assim, A e B são iguais no ponto t = s e satisfazem a mesma equação homogênea Ṁ (t) = A(t)M (t).
Pelos teoremas de unicidade que estabelecemos, segue que A(t) = B(t) para todo t, que é o que
querı́amos provar.
Com isso, podemos escrever a solução (6.12) de Ẏ (t) = A(t)Y (t) + F (t), com a condição inicial
Y (0) = Y0 , como
Z t
Y (t) = D(t)Y0 + D(t)D(s)−1 F (s) ds
0
 Z t 
−1
= D(t) Y0 + D(s) F (s) ds .
0

Outro fato que se pode agora provar é o seguinte. Se Y (t) é solução da equação homogênea
Ẏ (t) = A(t)Y (t) com a condição inicial Y (0) = Y0 , então para todo s e todo t

Y (t) = D(t, s)Y (s).

De fato, Y (s) = D(s)Y0 . Portanto, D(t, s)Y (s) = D(t)D(s)−1 D(s)Y0 = D(t)Y0 = Y (t).

• A regra de composição para D(t, s)

A relação (6.19) tem a seguinte conseqüência, cuja prova é agora elementar: para todos r, s e t vale

D(t, s) = D(t, r)D(r, s). (6.20)

Essa expressão é denominada regra de composição para as matrizes de Dyson D(t, s). Note que é
muito mais difı́cil prová-la usando apenas a definição (6.10)!

E. 6.3 Exercı́cio para masoquistas. Prove (6.20) usando apenas (6.10). 6

• Solução para condição inicial em instante arbitrário


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 305/1195

Uma conseqüência das últimas observações é que se para a equação Ẏ (t) = A(t)Y (t) + F (t) for
dada uma “condição inicial” não em t = 0, mas em t = t0 , Y (t0 ) = Yt0 , a solução é então dada por
Z t
Y (t) = D(t, t0 )Yt0 + D(t, s)F (s) ds. (6.21)
t0

E. 6.4 Exercı́cio. Verifique. 6

Mais propriedades da série de Dyson são discutidas no Apêndice 6.5, página 315.

6.3 Equações com Coeficientes Constantes


Vamos aqui estudar sistemas de equações lineares de primeira ordem com coeficientes constantes como
Ẏ (t) = AY (t) + F (t), com condição inicial Y (0) = Y0 , onde A é uma matriz constante, ou seja, seus
elementos de matriz não dependem da variável t. Esse é um caso particular do que vimos acima.
A série de Dyson nesse caso fica
∞ Z tZ
X t1 Z tn−1
D(t, s) = + ··· An dtn dtn−1 · · · dt1
n=1 s s s


X Z tZ t1 Z tn−1
n
= + A ··· dtn dtn−1 · · · dt1
n=1 s s s


X (t − s)n
= + An .
n=1
n!

Por analogia com a bem conhecida série de Taylor da função exponencial, define-se, para uma matriz
A,
X∞
A 1 n
exp(A) = e = + A . (6.22)
n=1
n!
Assim,
D(t, s) = eA(t−s)
e
D(t) = eAt .
A convergência de (6.22) já foi provada quando tratamos da convergência da série de Dyson no caso
geral.
Assim, a solução de Ẏ (t) = AY (t) + F (t), com a condição inicial Y (0) = Y0 , é dada, segundo (6.12),
por Z t
At
Y (t) = e Y0 + eA(t−s) F (s)ds.
0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 306/1195

O que se pode dizer sobre a dependência em t dos elementos de matriz de eAt ? Há dois casos
básicos a considerar. O primeiro é o caso em que A é diagonalizável; o segundo caso em que A não é
diagonalizável.

• Caso diagonalizável

Se A é diagonalizável então existe uma matriz P tal que P −1 AP = D onde D é uma matriz diagonal,
tendo na diagonal os autovalores de A. Assim,

X
At tn
e = + An
n=1
n!
( ∞ n
)
X t
= P + P −1 An P P −1
n=1
n!
( ∞ n
)
X t
= P + (P −1 AP )n P −1
n=1
n!
( ∞ n
)
X t
= P + Dn P −1
n=1
n!

= P eDt P −1 .

Agora, se D = diag (λ1 , . . . , λm ), então eDt = diag (eλ1 t , . . . , eλm t ). É claro pela igualdade
eAt = P eDt P −1 que os elementos de matriz de eAt serão da forma
m
X

eAt ab
= ckab eλk t ,
k=1

ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Os coefici-


entes ckab são constantes e dados em função dos elementos de matriz de P e P −1 .

• Caso não-diagonalizável

Caso A não seja diagonalizável, o teorema da decomposição de Jordan (na forma do Teorema 3.18,
página 192) nos garante que existe uma matriz P tal que P −1 AP = D + N , onde: 1) D é uma matriz
diagonal, cujos elementos da diagonal são os autovalores de A; 2) N é uma matriz nilpotente com
ı́ndice, digamos, q; 3) D e N comutam.
Portanto, como D e N comutam,

exp(At) = P exp(P −1 AP t)P −1 = P exp(Dt + N t)P −1 = P exp(Dt) exp(N t)P −1 ,

onde aqui usamos a Proposição 4.6, da página 220. Agora,

exp(Dt) = diag (eλ1 t , . . . , eλm t )


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 307/1195

e
∞ n q−1 n
X t X t
n
exp(N t) = + N = + N n.
n=1
n! n=1
n!
Observe-se que a série do lado direito é truncada em n = q pois N q = 0, já que N é nilpotente com
ı́ndice q. Assim, eN t é uma matriz cujos elementos são polinômios em t de grau menor que q.
Fica claro, fazendo-se o produto eDt eN t , que os elementos de matriz de eAt serão agora da forma
m
X
At

e ab
= ckab (t) eλk t ,
k=1

ou seja, serão combinações lineares de exponenciais do produto de autovalores de A com t. Há, porém,
uma diferença em relação ao caso diagonalizável, a saber, os coeficientes c kab (t) não são mais constantes,
mas são agora polinômios em t de grau menor que q e são dados em função dos elementos de matriz
de P e P −1 .

6.3.1 Alguns Exemplos e Aplicações


Vamos aqui tratar um exemplo simples e bem conhecido proveniente da Mecânica Clássica e que ilustra
bem conceitos que introduzimos nas seções anteriores. Trata-se do problema do oscilador harmônico
amortecido forçado.
Como é bem sabido, esse sistema é descrito pela equação diferencial linear de segunda ordem

mẍ(t) = −kx(t) − γ ẋ(t) + f (t)

que nada mais é que a segunda lei de Newton para uma partı́cula de massa m ligada a uma mola de
constante k e se movendo em um meio (viscoso) que exerce sobre a partı́cula uma força do tipo −γv(t)
(v(t) é a velocidade da partı́cula no instante t). Fora isso age sobre a partı́cula mais uma força externa
que depende apenas do tempo: f (t). Acima m > 0, k ≥ 0 e γ ≥ 0.
Dividindo a equação acima por m, podemos escrevê-la como

ẍ(t) = −ω02 x(t) − ρẋ(t) + g(t)

onde r
k γ 1
ω0 = , ρ = , g(t) = f (t).
m m m
Podemos, por um método comummente usado, transformar essa equação de segunda ordem em um
sistema de duas equações de primeira ordem. Definindo v(t) = ẋ(t), ficamos com

ẋ(t) = v(t)

v̇(t) = −ω02 x(t) − ρv(t) + g(t) (6.23)

Isso pode ser escrito na seguinte forma matricial:

Ẏ (t) = AY (t) + F (t),


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 308/1195

onde      
x(t) 0 1 0
Y (t) = , A = , F (t) = .
v(t) −ω02 −ρ g(t)

A matriz A tem coeficientes constantes. Aprendemos nas seções anteriores que a solução dessa
equação, com uma condição inicial que fixa a posição e a velocidade da partı́cula em t = 0
   
x(0) x0
Y (0) = = ,
v(0) v0

é dada por Z t
At
Y (t) = e Y0 + eA(t−s) F (s) ds. (6.24)
0

Como se vê, precisamos calcular agora eAt para a matriz A dada acima.
A primeira questão que devemos nos colocar é se a matriz A é diagonalizável ou não. Seus autova-
lores são p p
−ρ + ρ2 − 4ω02 −ρ − ρ2 − 4ω02
λ1 = e λ2 = .
2 2

E. 6.5 Exercı́cio. Verifique. 6

Os autovetores associados podem ser escolhidos na forma


 p   p 
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
 2ω02   2ω02 
v1 = 
,
 v 2 = 

.

1 1

E. 6.6 Exercı́cio. Verifique. 6


p
Como facilmente se vê, caso ρ2 − 4ω02 6= 0, ou seja, caso ρ 6= 2ω0 , a matriz A tem dois autovalores
distintos e é, portanto, diagonalizável. Se, porém, ρ = 2ω0 , tem-se v1 = v2 e a matriz A não é mais
simples e, portanto, não é diagonalizável.
Vamos tratar esses dois casos separadamente. O leitor é convidado a fazer como exercı́cio todos os
cálculos que forem deixados indicados.

• O caso ρ 6= 2ω0

Nesse caso A é diagonalizável pela matriz P = [[v1 , v2 ]], ou seja


 √ 
  −ρ+ ρ2 −4ω02
λ1 0 √0 2
P −1 AP = D = =  2 ,
0 λ2 −ρ− ρ −4ω02
0 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 309/1195

onde  p p 
−ρ − ρ2 − 4ω02 −ρ + ρ2 − 4ω02
 2ω02 2ω02 
P = [[v1 , v2 ]] = 

.

1 1
Calculando-se a inversa, tem-se
 p 
ω02 −ρ + ρ2 − 4ω02
− p 2 p 
 ρ − 4ω02 2 ρ2 − 4ω02 
 
P −1 =  p .
 2 
 ω2 ρ + ρ − 4ω0 
2
p 0 p
ρ2 − 4ω02 2 ρ2 − 4ω02

Daı́, segue que


 
 λ1 t
 −λ2 eλ1 t + λ1 eλ2 t e λ1 t − e λ2 t
e 0  1 .
eAt = P eDt P −1 = P P −1 = p 
0 e λ2 t ρ2 − 4ω02 ω02 −eλ1 t + eλ2 t λ1 e λ1 t
− λ2 e λ2 t

(6.25)
O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (6.24).
Para x(t), por exemplo, obtem-se
  Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cos(ω1 t) + sen (ω1 t) + e−ρ(t−s)/2 sen (ω1 (t − s))f (s) ds,
2ω1 mω1 0
onde r
ρ2
ω1 = ω02 − .
4
Essa expressão vale tanto para ω0 > ρ/2 quanto para ω0 < ρ/2. Nesse segundo caso ω1 torna-se um
número imaginário puro:
ω1 = iω2 ,
onde r
ρ2
ω2 = − ω02
4
é real. A solução para x(t) fica
  Z t
−ρt/2 ρx0 + 2v0 1
x(t) = e x0 cosh(ω2 t) + senh (ω2 t) + e−ρ(t−s)/2 senh (ω2 (t − s))f (s) ds.
2ω2 mω2 0

• O caso ρ = 2ω0 > 0

Nesse caso a matriz A fica  


0 1
A = 2 .
− ρ4 −ρ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 310/1195

A pode ser levada à sua forma de Jordan (vide Seção 3.7.4, página 197 e antecedentes) J = P −1 AP ,
onde  
 ρ   ρ  4
− 1 1 0 − 2
 2   2   ρ 
    −1  
J =   , P =   , P =  .
ρ ρ 2  2 
0 − − 0 1
2 4 ρ
Note-se que J = D + N , onde
 ρ 
− 0  
 2  0 1
D = 

, N =  .
ρ 0 0
0 −
2
É fácil verificar que D e N comutam e que N 2 = 0. Assim,

eAt = P e(D+N )t P −1 = P eDt eN t P −1 ,

sendo que
 ρt 
e− 2 0
eDt =  
− ρt
0 e 2

e  
1 t
eN t = + Nt =  .
0 1
Portanto,    
ρt −ρt/2 −ρt/2
 1+ e te 
 2 
e At
= 
  
.

 ρ2 t ρt 
− e−ρt/2 1− e−ρt/2
4 2

O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (6.24).
Para x(t), por exemplo, obtem-se

 Z
−ρt/2 ρ   1 t
x(t) = e 1 + t x0 + t v 0 + (t − s)e−ρ(t−s)/2 f (s) ds.
2 m 0

• O caso ρ = 0

Analisemos também o caso ρ = 0, que corresponde à ausência do termo de amortecimento −γv(t)


na equação de movimento da partı́cula. Nesse caso
 
0 1
A =
−ω02 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 311/1195

λ1 = iω0 , λ2 = −iω0 e, por (6.25),


 1 
cos(ω0 t) sen (ω0 t)
 ω0 
eAt =  .
−ω0 sen (ω0 t) cos(ω0 t)

O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (6.24).
Para x(t), por exemplo, obtem-se
  Z t
v0 1
x(t) = x0 cos(ω0 t) + sen (ω0 t) + sen (ω0 (t − s))f (s) ds,
ω0 mω0 0

• O caso k = 0, γ = 0. Partı́cula submetida a força externa dependente do tempo

Nesse caso, usando a notação anterior,

ẍ(t) = g(t),

ou seja,
Ẏ (t) = AY (t) + F (t)
com  
0 1
A = .
0 0
A é nilpotente com A2 = 0. Logo
 
At 1 t
e = + At = .
0 1

O leitor é convidado agora a escrever as fórmulas explı́citas para x(t) e v(t) que advêm de (6.24).
Para x(t), por exemplo, obtem-se
Z
1 t
x(t) = (x0 + v0 t) + (t − s)f (s) ds .
m 0
f 2
Por exemplo, no caso de f ser constante, segue disso a conhecidı́ssima relação x(t) = x 0 + v0 t + 2m
t .

6.4 Teoria de Perturbações de Sistemas Lineares


Existem muitos problemas, especialmente na Mecânica Clássica e na Mecânica Quântica, que têm a
seguinte estrutura. Procura-se encontrar a solução de uma equação linear homogênea Ẏ (t) = A(t)Y (t),
com a condição inicial Y (0) = Y0 , sendo que A(t) é da forma

A(t) = L + I(t)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 312/1195

onde L é uma matriz constante e I(t) pode depender do tempo mas é, em um sentido a ser precisado,
“pequena”. Por exemplo, I(t) pode ser da forma I(t) = λJ(t), onde λ é uma constante “pequena”.
Se I fosse zero a solução seria Y (t) = eLt Y0 . Deve-se esperar que se I for pequena a solução de
Ẏ (t) = A(t)Y (t) não deve estar muito afastada de Y (t) = eLt Y0 e a presença de I(t) deve perturbar a
solução Y (t) = eLt Y0 apenas ligeiramente. Como determinar a perturbação que I provoca? Esse tipo
de problema é muito freqüentemente encontrado em Fı́sica.
Vamos usar aqui a série de Dyson para tratar esse problema no contexto acima de sistemas lineares.
O primeiro passo consiste em definir um novo vetor coluna X(t) por
X(t) = e−Lt Y (t).
Vamos verificar qual condição inicial e qual equação diferencial X(t) obedece. Tem-se que X(0) =
Y (0) = Y0 . Fora isso
d −Lt 
Ẋ(t) = e Y (t)
dt

= −Le−Lt Y (t) + e−Lt Ẏ (t)

= −Le−Lt Y (t) + e−Lt A(t)Y (t)

= −Le−Lt Y (t) + e−Lt (L + I(t))Y (t)

= e−Lt I(t)Y (t)

= e−Lt I(t)eLt X(t).


Assim, definindo-se
˜
I(t) = e−Lt I(t)eLt ,
concluı́mos que X(t) satisfaz
˜
Ẋ(t) = I(t)X(t).

Pela série de Dyson, a solução dessa equação com a condição inicial X(0) = Y 0 é
(∞ Z Z Z tn−1 )
X t t1
X(t) = Y0 + ··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 .
n=1 0 0 0

Retornando a Y (t) = eLt X(t), temos


(∞ Z Z Z )
X t t1 tn−1
Lt
Y (t) = e Y0 + e Lt
··· ˜ 1 )I(t
I(t ˜ 2 ) · · · I(t
˜ n ) dtn dtn−1 · · · dt1 Y0 . (6.26)
n=1 0 0 0

De modo mais explı́cito, isso é


Y (t) = eLt Y0
(∞ Z Z Z )
X t t1 tn−1
Lt −Lt1 L(t1 −t2 ) L(t2 −t3 ) L(tn−1 −tn ) Ltn
+e ··· e I(t1 )e I(t2 )e ···e I(tn )e dtn · · · dt1 Y0 .
n=1 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 313/1195

Vamos supor que I(t) seja da forma I(t) = λJ(t). Substituindo na última expressão obtemos a
solução expressa em termos de uma série de potências em λ:

Y (t) = eLt Y0
(∞ Z tZ Z )
X t1 tn−1
+ eLt λn ··· e−Lt1 J(t1 )eL(t1 −t2 ) J(t2 )eL(t2 −t3 ) · · · eL(tn−1 −tn ) J(tn )eLtn dtn · · · dt1 Y0
n=1 0 0 0

Z t  Z t Z t1 
Lt Lt −Lt1 Lt1 2 Lt −Lt1 L(t1 −t2 ) Lt2
= e Y0 +λe e J(t1 )e dt1 Y0 +λ e e J(t1 )e J(t2 )e dt2 dt1 Y0 +· · · .
0 0 0

Nessa forma é possı́vel ver as correções que o termo I(t) = λJ(t) adiciona à solução e Lt Y0 quando
λ é uma constante pequena. A correção de primeira ordem em λ é
Z t 
Lt −Lt1 Lt1
λe e J(t1 )e dt1 Y0 .
0

A de segunda ordem em λ é
Z t Z t1 
2 Lt −Lt1 L(t1 −t2 ) Lt2
λ e e J(t1 )e J(t2 )e dt2 dt1 Y0
0 0

etc.
Todas essa expressões são empregadas em Mecânica Quântica.

• Um problema de teoria de perturbações

Consideremos o problema de uma partı́cula de massa m presa a uma mola de constante k(t) =
k0 + λk1 (t) onde λ é um número pequeno, e sem nenhuma força adicional agindo sobre a partı́cula. Ou
seja, a constante de mola tem uma pequena dependência temporal e desejamos estudar o efeito dessa
pequena perturbação sobre a solução obtida quando λ = 0, a qual é, sabidamente,
v0
x0 cos(ω0 t) + sen (ω0 t),
ω0
onde ω02 = k0 /m.
A equação de movimento é mẍ(t) = −k(t)x(t), ou seja,
 
2 λk1 (t)
ẍ(t) = − ω0 + x(t),
m
que em forma de um sistema de duas equações de primeira ordem fica

Ẏ (t) = A(t)Y (t),

onde  
x(t)
Y (t) = ,
v(t)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 314/1195

e
A(t) = A + λJ(t),
com  
0 1
A =
−ω02 0
e  
0 0
J(t) = .
− m1 k1 (t) 0

Pelas expressões obtidas na Seção 6.4, a solução em primeira ordem em λ é


Z t 
At At −At1 At1
e Y0 + λe e J(t1 )e dt1 Y0 .
0

De modo mais explı́cito, isso é igual a


 1 
cos(ω0 t)x0 + sen (ω0 t)v0
 ω0 
 +
−ω0 sen (ω0 t)x0 + cos(ω0 t)v0
 
 1  1 2

λ 
cos(ω0 t) sen (ω0 t) Z t − sen (ω0 t1 ) cos(ω0 t1 )x0 + mω0 sen (ω0 t1 )v0 
ω0   
  k1 (t1 )   dt1 .
ω0 0  1 
−ω0 sen (ω0 t) cos(ω0 t) − cos2 (ω0 t1 )x0 + sen (ω0 t1 ) cos(ω0 t1 )v0
m
Para a posição x(t), a correção de primeira ordem em λ à solução não perturbada
1
cos(ω0 t)x0 + sen (ω0 t)v0
ω0
é " Z  
t
λ 1
cos(ω0 t) k1 (t1 ) − sen (ω0 t1 ) cos(ω0 t1 )x0 + sen 2 (ω0 t1 )v0 dt1
ω0 0 mω0
Z   #
t
1 1
+ sen (ω0 t) k1 (t1 ) − cos2 (ω0 t1 )x0 + sen (ω0 t1 ) cos(ω0 t1 )v0 dt1 .
ω0 0 m
O cálculo explı́cito dessas integrais depende da forma de k1 (t).
O leitor é convidado nesse momento a ler nos bons livros de Mecânica Clássica (por ex., Arnold [6],
Landau-Lifchitz [76]) algo sobre o assunto “ressonância paramétrica”.

• Comentário final sobre as séries perturbativas

Se λ for pequeno e t não for muito grande a aproximação de primeira ordem em λ é uma aproximação
razoavelmente boa para a solução. As correções de ordem superior em λ podem também ser calculadas,
embora seu cômputo fique cada vez mais complexo, como se vê pela expressões (6.26) e seguintes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 315/1195

Para t → ∞ os termos individuais da série perturbativa (6.26) podem divergir com t, sem que a
solução x(t) seja ela mesmo divergente. Esse tipo de comportamento não é tão estranho assim se nos
lembrarmos, por exemplo, do que acontece com a série da Taylor da função seno (ou co-seno):

X∞
(−1)n 2n+1 2n+1
sen (λt) = λ t
n=0
(2n + 1)!

Os primeiros termos são


λ3 3 λ5 5
t +λt − t +··· .
6 120
Cada um deles diverge quanto t → ∞ (para qualquer λ 6= 0 fixo, não importa o quão grande ou
pequeno) mas a função sen (λt) permanece limitada.
A lição a se aprender é que certas expansões podem não ser boas quando se deseja estudar o
comportamento para t grande das soluções. Tal é o caso da série de Taylor acima e da série de Dyson
(em muitos casos). Para estudar o comportamento para t grande é preciso procurar expansões que
sejam uniformemente convergentes em t para toda a reta real.

6.5 Mais sobre a Série de Dyson. Produtos de Tempo Orde-


nado

• A função degrau, ou função de Heaviside

Define-se a chamada função degrau ou função de Heaviside4 , θ(s), s ∈  , por



1, se s ≥ 0
θ(s) := .
0, se s < 0

Defina-se também, para t1 , . . . , tm ∈  ,

Θm (t1 , . . . , tm ) := θ(tm−1 − tm )θ(tm−2 − tm−1 ) · · · θ(t1 − t2 ) .

É bastante fácil de constatar pela definição que



1, se tm ≤ tm−1 ≤ · · · ≤ t1
Θm (t1 , . . . , tm ) := . (6.27)
0, de outra forma

Seja Sm o grupo de permutações de m ı́ndices {1, . . . , m}. Os elementos π de Sm são bijeções


de {1, . . . , m} em si mesmo. Há um importante fato sobre a função Θm : se os m números reais
t1 , . . . , tm forem todos distintos entre si, então
X
Θm (tπ(1) , . . . , tπ(m) ) = 1 . (6.28)
π∈Sm

4
Oliver Heaviside (1850-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 316/1195

Para prová-la, observe-se que, devido ao fato de ser totalmente ordenado, para uma m-upla t 1 , . . . , tm ∈


 composta de elementos distintos existe um e somente um elemento π0 ∈ Sm tal que tπ0 (m) < . . . <
tπ0 (1) . Assim, por (6.27), segue que há no lado esquerdo de (6.28) apenas um termo não-nulo: aquele
que corresponde a π0 , e esse termo vale 1, também devido a (6.27). A condição de os pontos t1 , . . . , tm
serem todos distintos entre si é importante nesse raciocı́nio, mas o conjunto dos pontos que não a
satisfazem é um conjunto de medida nula em m . Daı́, podemos afirmar que (6.28) vale quase em toda


a parte em m (ou seja, vale em todo m , exceto em um sub-conjunto de medida nula).


 

• Reescrevendo a série de Dyson.

Pretendemos apresentar uma outra maneira de representar a série de Dyson (6.11):


X∞ Z t Z t1 Z tm−1
D(t) = + ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (6.29)
m=1 0 0 0

da qual certas conseqüências podem ser mais facilmente extraı́das. O leitor há de notar que nas integrais
em (6.29) as variáveis t1 , . . . , tm aparecem ordenadas na forma 0 ≤ tm ≤ tm−1 ≤ · · · ≤ t1 ≤ t. Dessa
forma, no produto de matrizes A(t1 )A(t2 ) · · · A(tm ) os fatores aparecem ordenados (da esquerda para
a direita) de acordo com a ordem temporal decrescente dos argumentos.
Devido à propriedade (6.27) de Θm (t1 , . . . , tm ), podemos reescrever (6.29) na forma
∞ Z t
X Z t
D(t) = + ··· Θm (t1 , . . . , tm )A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (6.30)
m=1 0 0

Note o leitor que uma diferença entre (6.29) e (6.30) está nos limites superiores das integrações, que
passam a ser todos iguais a t, o que é permitido pela introdução dos fatores Θm (t1 , . . . , tm ) nos
integrandos, fatores esses que se anulam caso a restrição tm ≤ tm−1 ≤ · · · ≤ t1 seja violada.
Se F (t1 , . . . , tm ) é uma função de m variáveis, tem-se evidentemente que
Z t Z t Z t Z t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 0 0

para qualquer permutação π ∈ Sm .

E. 6.7 Exercı́cio. Justifique! Sugestão: mudança de variáveis mais a observação que o hipercubo [0, t] m
é invariante por permutações das coordenadas. 6

Assim, como Sm possui m! elementos, segue trivialmente que


Z Z t Z Z t
t
1 X t
··· F (t1 , . . . , tm ) dtm dtm−1 · · · dt1 = ··· F (tπ(1) , . . . , tπ(m) ) dtm dtm−1 · · · dt1 ,
0 0 m! π∈S 0 0
m

pois os termos somados no lado direito são todos iguais. Aplicando essa simples identidade a (6.30),
tem-se
X∞ Z Z t
1 X t
D(t) = + ··· Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) dtm dtm−1 · · · dt1 .
m=1
m! π∈S 0 0
m
(6.31)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 317/1195

Vamos definir
  X
T A(t1 )A(t2 ) · · · A(tm ) := Θm (tπ(1) , . . . , tπ(m) )A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) . (6.32)
π∈Sn

Para uma m-upla (t1 , . . . , tm ) ∈ [0, t]m composta de elementos distintos, existe um e somente
um elemento π0 ∈ Sm tal que tπ0 (m) < . . . < tπ0 (1) . Segue disso que o lado direito de (6.32) vale
A(tπ0 (1) )A(tπ0 (2) ) · · · A(tπ0 (m) ). O leitor deve observar que esse produto aparece ordenado da esquerda
para a direita na ordem decrescente dos argumentos. Por essa razão a expressão do lado esquerdo de
(6.32) é denominada produto de tempo ordenado das matrizes A, denotada por T (A(t 1 ) · · · A(tm )):
Com essa notação podemos escrever (6.31) na forma

X∞ Z t Z t  
1
D(t) = + ··· T A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1 . (6.33)
m=1
m! 0 0

Essa forma de representar a série de Dyson é freqüentemente empregada na Teoria Quântica de


Campos, sendo que lá as matrizes A(t) são substituı́das por operadores com valores em distribuições
e os produtos de tempo ordenado são definidos em um sentido distribucional e de forma iterativa, de
modo a permitir um tratamento de problemas de renormalização. Para uma referência moderna sobre
tais assuntos, vide [111].

• O caso comutativo

Uma situação particular de interesse é aquela na qual as matrizes A(s) comutam para valores
distintos do argumento, ou seja, A(s)A(s0 ) = A(s0 )A(s) para todos s, s0 . Tal é o caso, por exemplo,
se A(s) forem matrizes 1 × 1, ou se forem diagonais, ou ainda se forem da forma A(s) = f (s)B para
alguma matriz constante B e alguma função real ou complexa f . Sob essa hipótese de comutatividade,
tem-se que para todo π ∈ Sm

A(tπ(1) )A(tπ(2) ) · · · A(tπ(m) ) = A(t1 )A(t2 ) · · · A(tm )

pois a ordem dos fatores não importa, devido à comutatividade. A expressão (6.31) fica, então,

X∞ Z t Z t"X #
1
D(t) = + ··· Θm (tπ(1) , . . . , tπ(m) ) A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0 π∈S m

X∞ Z t Z t
(6.28) 1
= + ··· A(t1 )A(t2 ) · · · A(tm ) dtm dtm−1 · · · dt1
m=1
m! 0 0

X∞ Z t m
comut. 1
= + A(τ )dτ
m=1
m! 0

Z t 
def.
= exp A(τ )dτ . (6.34)
0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 318/1195

Usando que D(t, s) = D(t)D(s)−1 , obtem-se


Z t 
D(t, s) = exp A(τ )dτ . (6.35)
s

Concluı́mos que no caso comutativo, a solução da equação Ẏ = A(t)Y (t) + F (t) com uma condição
inicial Y (0) = Y0 dada em (6.12) fica
Rt
Z t R
t
A(τ )dτ
Y (t) = e 0 Y0 + e s A(τ )dτ F (s) ds . (6.36)
0

O estudante pode constatar que no caso n = 1 (um sistema com uma única equação de primeira ordem)
a expressão acima corresponde precisamente à solução dada em (5.22), página 262.

6.6 Sistemas de Equações Diferenciais Lineares no Plano Com-


plexo
Em (6.1), e em tudo que vimos até aqui, consideramos sistemas lineares de equações diferenciais onde a
variável t é assumida real. Para muitos propósitos importantes, alguns dos quais discutiremos abaixo, é
conveniente alargar um pouco o domı́nio de nossas considerações e discutir sistemas lineares de equações
diferenciais definidas no plano complexo.
Por simplicidade trataremos apenas equações homogêneas, caso em que se encontra a maioria das
aplicações. A Seção 6.7.3, página 348, discute exemplos. Para referências gerais sobre o assunto,
recomendamos [117] e [62].
Seja A(z) uma matriz m × m complexa cujos elementos Aij (z), i, j = 1, . . . , m, são funções de uma
variável complexa z em um certo domı́nio aberto e simplesmente conexo comum D do plano complexo:
D ⊂ . Consideremos a equação diferencial linear e homogênea
Y 0 (z) = A(z)Y (z), (6.37)
onde Y (z) denota um vetor coluna de funções complexas
 
y1 (z)
 
Y (z) =  ...  .
ym (z)

Estaremos aqui interessados em estudar esses sistemas de equações diferenciais quando uma condição
inicial é fornecida, ou seja, quando o valor de Y (z) em um ponto z0 ∈ D é especificado:
 
y10
 
Y (z0 ) =: Y0 =  ...  ,
0
ym
com y10 , . . . , ym
0
sendo constantes complexas. Notemos que ao procurarmos soluções Y (z) de (6.37)
é implicitamente sub-entendido que as mesmas funções Y (z) sejam analı́ticas, pois apenas funções
analı́ticas são diferenciáveis.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 319/1195

6.6.1 O Caso Analı́tico


Comecemos pelo caso no qual a matriz A(z) é analı́tica em um domı́nio aberto simplesmente conexo
D, ou seja, todos os seus elementos de matriz Aij (z) são funções analı́ticas de z em D. Uma primeira
pergunta importante diz respeito à unicidade da solução da equação diferencial Y 0 (z) = A(z)Y (z),
z ∈ D, com a condição Y (z0 ) = Y0 para algum z0 ∈ D. Essa pergunta pode ser respondida usando
nosso resultado anterior (do começo deste capı́tulo) que garante unicidade de solução de sistemas
lineares de equações diferenciais com variáveis reais.
De fato, seja z(t), t ∈ [0, 1], uma curva arbitrária contı́nua e diferenciável em D e tal que z(0) = z 0 .
Sejam Y1 e Y2 duas soluções analı́ticas de Y 0 (z) = A(z)Y (z), z ∈ D, com a mesma condição Y1 (z0 ) =
Y2 (z0 ) = Y0 . Sejam X1 (t) := Y1 (z(t)) e X2 (t) := Y2 (z(t)). Definamos também B(t) := ż(t)A(z(t)).
Notemos que B(t) é uma matriz contı́nua em t, pois A(z) é analı́tica.
É fácil, então, constatar que X1 e X2 são ambos soluções da equação diferencial
Ẋ(t) = B(t)X(t), t ∈ [0, 1],
com a condição X(0) = Y0 . Pelas nossas considerações anteriores, isso implica X1 (t) = X2 (t), ∀t ∈
[0, 1], ou seja, Y1 (z(t)) = Y2 (z(t)), ∀t ∈ [0, 1]. Como a curva z(t) é arbitrária e sua imagem pode
estar em todo D, isso implica Y1 (z) = Y2 (z) para todo z ∈ D. Isso prova a unicidade da solução de
Y 0 (z) = A(z)Y (z), z ∈ D, com condição Y1 (z0 ) = Y2 (z0 ) = Y0 .
Uma vez garantida a unicidade da solução, tentemos exibı́-la. O que faremos é seguir a inspiração
fornecida pela série de Dyson, estudada anteriormente, e tentar generalizá-la para o plano complexo.

• A série de Dyson no plano complexo

Seja então D um domı́nio aberto simplesmente conexo do plano complexo e A(z) analı́tica em D e
limitada em D. Seja também z0 ∈ D.
Uma vez demonstrada a unicidade da eventual solução de uma equação como Y 0 (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 precisamos demonstrar que a solução existe. O que faremos é generalizar
nossas considerações anteriores sobre a série de Dyson para o plano complexo.
Para z e w ∈ D , seja D(z, w) a matriz m × m definida por
X∞ Z z Z z1 Z zn−1
D(z, w) = + ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 . (6.38)
n=1 w w w

Acima, todas as integrações complexas são feitas em uma curva C, simples, orientada de w a z e
inteiramente contida em D. Para cada n os pontos z1 , . . . , zn são ordenados em sentido crescente
ao longo de C. Mais precisamente, denotamos por C a curva contı́nua e diferenciável C : [0, 1] → D
parametrizada por t ∈ [0, 1] com w = C(0), z = C(1). Então, para cada n, tem-se zk = C(tk ),
1 ≤ k ≤ n, com 0 ≤ t1 ≤ · · · ≤ tn ≤ 1.
Devido ao fato de A ser analı́tica no domı́nio simplesmente conexo D, a matriz D(z, w) não depende
da particular curva orientada C adotada que conecta w a z (justifique isso!).
Afirmamos que a equação Y 0 (z) = A(z)Y (z) com uma condição Y (z0 ) = Y0 tem solução, a qual é
dada por
Y (z) = D(z, z0 )Y0 (6.39)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 320/1195

A demonstração será feita provando-se que o lado direito satisfaz a equação diferencial e a condição
inicial. Como a solução é única (pelo provado acima), infere-se que não pode haver outra.
Comecemos por mostrar que a série que aparece em (6.38) é convergente, sem o que aquela expressão
não faria sentido. O leitor facilmente constatará que o que faremos é uma simples imitação da prova
anterior para a reta real, dado que somente faremos uso da hipótese de que A(z) é limitada em D.
Sejam z e w dois pontos de um domı́nio D sob as hipóteses acima (D é aberto e simplesmente
conexo) e seja Cw→z uma curva contı́nua, diferenciável, orientada, ligando w a z e inteiramente contida
em D. Para z 0 ∈ Cw→z , denotemos por l(z 0 ) ≡ lCw→z (z 0 ) o comprimento medido de w a z 0 ao longo
da curva Cw→z . A função l : Cw→z → + é bijetora e, portanto, possui uma inversa, o que nos


permite parametrizar os pontos de Cw→z pelo comprimento l medido ao longo de Cw→z a partir de w.
Denotaremos por z 0 (l) essa parametrização, ou seja, z 0 (l) é o ponto de Cw→z cuja distância a w ao longo
de Cw→z é l ∈ + . 

É um fato bemZ conhecido da teoria das funções de variáveis complexas que se f : D → é ao menos
contı́nua5 , então f (z 0 )dz 0 , a integral de f de w a z ao longo da curva Cw→z , pode ser estimada
Cw→z
por Z Z
l(z)
0
f (z )dz ≤ 0
|f (z 0 (l))| dl . (6.40)

Cw→z 0

Denotando por Dab (z, w) o elemento ab da matriz D(z, w), temos


∞ Z
X z Z z1 Z zn−1
Dab (z, w) = ab + ··· (A(z1 )A(z2 ) · · · A(zn ))ab dzn dzn−1 · · · dz1
n=1 w w w

∞ X
X m X
m m
X Z z Z z1 Z zn−1
= δa b + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w

Definindo como antes


α := max max |Aab (z)| ,
a, b z∈D

5
Essa condição pode ser enfraquecida.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 321/1195

aplicando (6.40) e escrevendo l1 ≡ l(zj ), j = 1, . . . , n, temos


∞ X
X m m
X Z l(z) Z l1 Z ln−1
|Dab (z, w)| ≤ 1 + ··· ···
n=1 k1 =1 kn−1 =1 0 0 0


|Aak1 (z 0 (l1 ))| |Ak1 k2 (z 0 (l2 ))| · · · Akn−1 b (z 0 (ln )) dln · · · dl1


X m
X m
X Z l(z) Z l1 Z ln−1
n
≤ 1+ α ··· ··· dln · · · dl1
n=1 k1 =1 kn−1 =1 0 0 0


X n m
X m
X
n l(z)
≤ 1+ α ··· 1
n=1
n! k1 =1 kn−1 =1


X n
n l(z)
≤ 1+ α mn−1
n=1
n!

1 αml(z) 
= 1+ e −1 .
m
Acima, usamos o fato, demonstrável por indução, que
Z l(z) Z l1 Z ln−1
l(z)n
··· dln · · · dl1 = . (6.41)
0 0 0 n!

Como mencionamos, l(z) é a distância de w a z ao longo da curva de integração, ou seja, é o comprimento


total dessa curva. Se D for um domı́nio convexo, podemos tomar a curva de integração como sendo
a linha reta que une w a z, em cujo caso teremos l(z) = |z − w|. Não precisamos, no entanto, supor
convexidade de D.
Provamos então que, para cada elemento de matriz ab, a série do lado direito de (6.38) é absoluta-
mente convergente, e isso para todo w e z ∈ D. Como, para cada N ∈ , as funções 

N X
X m X
m m
X Z z Z z1 Z zn−1
fN (z, w) = δab + ··· ··· Aak1 (z1 )Ak1 k2 (z2 ) · · · Akn−1 b (zn ) dzn · · · dz1 .
n=1 k1 =1 k2 =1 kn−1 =1 w w w

são analı́ticas em D (pois integrais de funções analı́ticas são também analı́ticas), concluı́mos do exposto
acima que cada elemento de matriz Dab (z, w) é o limite uniforme (por quê?) da seqüência de funções
analı́ticas fN (z, w). Um teorema importante da análise complexa (vide e.g. [121]) afirma que sob essas
circunstâncias Dab (z, w) é também analı́tica em D.
Para mostrar que (6.39) representa de fato a solução procurada, vamos mostrar que


D(z, w) = A(z)D(z, w). (6.42)
∂z
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 322/1195

De fato,
( ∞ Z Z Z )
∂ ∂ X z z1 zn−1
D(z, w) = + ··· A(z1 )A(z2 ) · · · A(zn ) dzn dzn−1 · · · dz1 .
∂z ∂z n=1 w w w

( Z Z Z
z z z1

= + A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1
∂z w w w

Z Z Z )
z z1 z2
+ A(z1 )A(z2 )A(z3 ) dz3 dz2 dz1 + · · ·
w w w

Z z Z z Z z2
= 0 + A(z) + A(z)A(z2 ) dz2 + A(z)A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
 Z z Z z Z z2 
= A(z) + A(z2 ) dz2 + A(z2 )A(z3 ) dz3 dz2 + · · ·
w w w
 Z z Z z Z z1 
= A(z) + A(z1 ) dz1 + A(z1 )A(z2 ) dz2 dz1 + · · ·
w w w

= A(z)D(z, w),

como querı́amos provar. Acima, na passagem da quarta para a quinta linha, fizemos uma série de
mudanças de nomes das variáveis de integração, chamando z2 de z1 , z3 de z2 etc.
De maneira análoga prova-se também que

D(z, w) = −D(z, w)A(w).
∂w

E. 6.8 Exercı́cio. Faça! 6

É também evidente pela definição (6.38) que para todo z vale D(z, z) = . Notemos que, por (6.39),
Y (z0 ) = D(z0 , z0 )Y0 = Y0 , mostrando que o lado direito de (6.39) satisfaz a condição Y (z0 ) = Y0 .
Derivando o lado direito de (6.39) em relação a z, tem-se

Y 0 (z) = D(z, z0 )Y0 = A(z)D(z, z0 )Y0 = A(z)Y (z) ,
∂z
provando que o lado direito de (6.39) satisfaz a equação diferencial. Como a solução é única, ela deve
ser aquela dada em (6.39).
De maneira análoga ao caso real podemos igualmente provar que vale a regra de composição

D(z1 , z3 ) = D(z1 , z2 )D(z2 , z3 ) , (6.43)

para quaisquer z1 , z2 e z3 contidos no domı́nio simplesmente conexo onde A é analı́tica.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 323/1195

E. 6.9 Exercı́cio. Prove (6.43) mostrando que ambos os lados satisfazem as mesmas equações diferenciais
e as mesmas condições iniciais. 6

• A equação não-homogênea

E. 6.10 Exercı́cio importante. Para A e F analı́ticas em um domı́nio aberto e simplesmente conexo D


e limitadas em D, mostre que a solução geral da equação não-homogênea Y 0 (z) = A(z)Y (z) + F (z) com
condição Y (z0 ) = Y0 , z0 ∈ D é
Z z
Y (z) = D(z, z0 )Y0 + D(z, w)F (w)dw , (6.44)
z0

onde D(z, z0 ) foi definida acima e a integração do lado direito é tomada em qualquer curva simples,
contı́nua e diferenciável em D, pois D e F são analı́ticas em D. 6

• Analiticidade da solução

Uma importante conclusão que tiramos da análise acima é que, sob a hipótese que A é analı́tica
em D e limitada em D, então a solução Y da equação homogênea Y 0 (z) = A(z)Y (z) com condição
Y (z0 ) = Y0 , z0 ∈ D é igualmente analı́tica em D pois, como vimos, D(z, z0 ) é analı́tica em z.

• Soluções nulas

Há uma conseqüência das considerações acima que é bastante elementar, possuindo, porém, im-
plicações profundas, como veremos, por exemplo, quando discutirmos equações com pontos singulares.
Expressaremos essa conseqüência em forma de uma proposição:
Proposição 6.1 Seja a equação homogênea Y 0 (z) = A(z)Y (z) onde A(z) é analı́tica em um domı́nio
aberto e simplesmente conexo D. Então, se Ys (z) é uma solução dessa equação que se anula em um
ponto z0 ∈ D, ou seja, Ys (z0 ) = 0, vale Ys (z) = 0 para todo z ∈ D. 2

Essa proposição diz que se a solução de uma equação linear homogênea Y 0 (z) = A(z)Y (z) anula-se
em algum ponto de D (com A(z) analı́tica em um domı́nio aberto e simplesmente conexo D), então
ela anula-se em todo D. A prova é a simples observação que, pelo que vimos, a solução é dada por
Y (z) = D(z, z0 )Y (z0 ).

• Equações Matriciais Complexas

Até agora estudamos equações da forma Y 0 (z) = A(z)Y (z), com condição Y (z0 ) = Y0 , onde A(z) é
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D que contem z0 e onde Y
é um vetor coluna com m componentes:
 
y1 (z)
 
Y (z) =  ...  .
ym (z)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 324/1195

Consideremos agora a equação M0 (z) = A(z)M(z), com condição M(z0 ) = M0 , onde A(z) e M(z)
são matrizes m × m, a incógnita sendo a matriz M(z) e a matriz A(z) sendo analı́tica em um domı́nio
aberto e simplesmente conexo D. Veremos facilmente que podemos tratar esse problema com os mesmos
métodos do anterior, onde a incógnita era um vetor coluna Y de m componentes e não uma matriz
quadrada. De fato, como toda matriz m × m, a matriz M(z) é da forma (para notação, vide página
142)
M(z) = [[M1 (z), . . . , Mm (z)]],
onde Mi (z) são vetores coluna com m componentes, representando a i-ésima coluna da matriz M(t).
Nessa notação a equação diferencial M0 (z) = A(z)M(z) fica

[[M10 (z), . . . , Mm
0
(z)]] = [[A(z)M1 (z), . . . , A(z)Mm (z)]],

ou seja, tem-se um conjunto de m sistemas de equações independentes

Mi0 (z) = A(z)Mi (z), i = 1, . . . , m (6.45)

do tipo que tratamos acima, onde as incógnitas são vetores coluna.


Para cada uma dessas equações valem todas as afirmações provadas acima. Assim concluı́mos que
a equação matricial M0 (z) = A(z)M(z), com condição M(z0 ) = M0 , tem solução única, a qual é dada
por
Mi (z) = D(z, z0 )Mi (z0 ), i = 1, . . . , m.
Reunindo as colunas Mi novamente na matriz M, temos

M(z) = D(z, z0 )M0

como solução única de M0 (z) = A(z)M(z), com condição M(z0 ) = M0 .


A partir do exposto acima é fácil demonstrar a validade da composição D(z, z 0 ) = D(z, z1 )D(z1 , z0 )
para quaisquer pontos z0 , z1 e z do domı́nio aberto e simplesmente conexo D. Como D(z0 , z0 ) = ,
isso em particular diz que toda matriz D(z, z0 ) é invertı́vel com D(z, z0 )−1 = D(z0 , z).
Uma simples mas importante observação que se pode fazer é que, como a matriz fundamental
D(z, z0 ) é invertı́vel, M(z) será invertı́vel para todo z ∈ D se e somente se M0 o for. Ou seja, se
a solução da equação M0 (z) = A(z)M(z), com A(z) analı́tica em um domı́nio aberto simplesmente
conexo D é analı́tica em um ponto de D, então o é em todo D.
Vamos aqui discutir propriedades dessas equações diferenciais matriciais homogêneas, com A(z)
uma matriz m × m analı́tica em um domı́nio aberto e simplesmente conexo D. Se M1 (z) é uma
solução desta equação, constata-se trivialmente que, para qualquer matriz m × m constante C, a
matriz M2 (z) = M1 (z)C é igualmente solução de M0 (z) = A(z)M(z), bastando para tal multiplicar a
equação à direita por C.
A seguinte afirmação recı́proca é também verdadeira:
Proposição 6.2 Se M1 (z) e M2 (z) são duas soluções invertı́veis de M0 (z) = A(z)M(z), com A(z)
analı́tica em um domı́nio aberto e simplesmente conexo D, então existe uma matriz constante invertı́vel
C tal que M2 (z) = M1 (z)C para todo z ∈ D. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 325/1195

Prova. Para ver isso, seja z0 um ponto arbitrário de D e defina-se M01 = M1 (z0 ) e M02 = M2 (z0 ). Seja
então C := (M01 )−1 M02 . Então, teremos que M3 (z), definida por M3 (z) = M2 (z) − M1 (z)C é também
solução da equação M0 (z) = A(z)M(z), mas que obviamente anula-se em z0 . Com isso, pela Proposição
6.1, M3 (z) é identicamente nula em todo D, ou seja, M2 (z) = M1 (z)C para todo z ∈ D.

Conseqüências dessas observações serão discutidas na Seção 6.6.3.

6.6.2 Resolução por Séries de Potências


A possibilidade, revelada acima, de se apresentar a solução da equação homogênea Y 0 (z) = A(z)Y (z)
com condição Y (z0 ) = Y0 , z0 ∈ D, em termos da matriz D(z, w) (a qual depende apenas de A) é
interessante do ponto de vista teórico mas nem sempre do ponto de vista prático, pois nem sempre é
possı́vel computar a série infinita de integrais de produtos de matrizes que compõe D(z, w) (a série de
Dyson). No entanto, uma das conclusões teóricas da análise acima, a saber, o fato de Y ser analı́tica,
aponta para um outro método de resolução, esse sim mais simples de ser usado em aplicações. Trata-se
do Método de Séries de Potências que descreveremos agora.
O fato de Y ser analı́tica nos diz a priori que Y pode ser expressa por uma série de Taylor
convergente centrada em z0 :
X∞
Y (z) = (z − z0 )n Yn , (6.46)
n=0
onde Yn são vetores-coluna constantes com m componentes, tal qual Y (z). Note-se que, pela expressão
acima, Y (z0 ) = Y0 . Para ver isso, tome z = z0 em ambos os lados da expressão.
Como a matriz A é igualmente analı́tica em torno de z0 , A pode ser expressa por uma série de
Taylor convergente centrada em z0 :

X
A(z) = (z − z0 )n An ,
n=0

onde An são igualmente matrizes m × m constantes. Com isso, a equação diferencial Y 0 (z) = A(z)Y (z)
fica
∞ ∞
! ∞ !
X X X
(n + 1)(z − z0 )n Yn+1 = (z − z0 )k Ak (z − z0 )l Yl
n=0 k=0 l=0

∞ X
X ∞
= (z − z0 )k+l Ak Yl
k=0 l=0


X n
X
= (z − z0 )n An−p Yp , (6.47)
n=0 p=0

o que nos leva a concluir que


n
1 X
Yn+1 = An−p Yp , ∀n ≥ 0. (6.48)
n + 1 p=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 326/1195

E. 6.11 Exercı́cio importante. Complete os detalhes das deduções que levam a (6.47) e (6.48). 6

A expressão (6.48) nos permite obter os vetores Yn recursivamente a partir de Y0 . Com isso, a
solução Y (z) fica determinada por sua série de Taylor (6.46). Esse é o método de resolução por séries
de potências. Por exemplo, para n = 0, (6.48) nos dá

Y1 = A 0 Y0 .

Para n = 1, (6.48) nos dá


1 1 
Y2 = (A1 Y0 + A0 Y1 ) = A1 + A20 Y0 ,
2 2
e assim por diante. Os primeiros termos da solução Y (z) são, então,

(z − z0 )2 
Y (z) = Y0 + (z − z0 )A0 Y0 + A1 + A20 Y0 + · · ·
2
 
(z − z0 )2 2

= + (z − z0 )A0 + A 1 + A 0 + · · · Y0 . (6.49)
2

Isso permite-nos identificar a expressão entre colchetes {· · · } como sendo a expansão em série de
Taylor de D(z, z0 ).

E. 6.12 Exercı́cio. Determine Y3 e Y4 em termos de Y0 . 6

E. 6.13 Exercı́cio importante. Desenvolva o método de expansão em série de potências para a resolução
da equação não-homogênea Y 0 (z) = A(z)Y (z) + F (z) com condição Y (z0 ) = Y0 , z0 ∈ D, onde A e F são
analı́ticas em um domı́nio simplesmente conexo D e limitadas em D. 6

6.6.3 Sistemas com Pontos Singulares. Monodromia


Nas páginas anteriores consideramos equações diferenciais como Y 0 (z) = A(z)Y (z) onde A(z) era
suposta ser analı́tica em um certo domı́nio aberto e simplesmente conexo D. Há inúmeros problemas
importantes nos quais essa situação não é encontrada, de modo que devemos afrouxar um pouco as
condições sobre a analiticidade de A(z). Consideraremos aqui a situação na qual A é analı́tica dentro
de um anel aberto Az0 , a, b centrado em z0 ∈ com raio interno a e raio externo b definido por
n o
Az0 , a, b := z ∈ a < |z − z0 | < b ,

sendo 0 ≤ a < b (os casos em que a = 0 e/ou b = ∞ podem ser também permitidos). Vide Figura
6.1. Uma tı́pica situação na qual isso ocorre se dá quando A(z0 ), ou seja, alguns de seus elementos de
matriz, tem uma singularidade tipo pólo ou essencial6 em um ponto z0 . Em verdade, interessaremo-nos
mais pelo caso de singularidades tipo pólo, caso que, felizmente, corresponde à maioria das aplicações.
6
Para o estudante que queira recordar esses conceitos sugerimos, por exemplo, [19].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 327/1195

Notemos que a hipótese de A(z) ser analı́tica em um anel Az0 , a, b significa que A(z) pode ser expressa
em uma série de Laurent7 convergente (vide e.g. [19]) em Az0 , a, b :

X
A(z) = (z − z0 )m Am .
m=−∞

Notemos que um anel Az0 , a, b é a união domı́nios abertos e simplesmente conexos do tipo Sz0 , a, b (φ1 , φ2 ),

b
a
z0

Figura 6.1: Um anel do tipo Az0 , a, b .

com 0 < φ2 − φ1 < 2π, onde



Sz0 , a, b (φ1 , φ2 ) := z ∈ | z − z0 = ρeiφ , com a < ρ < b e φ1 < φ < φ2 .

Denominaremos essas regiões setores. Vide Figura 6.2.

• Monodromia

Se tomarmos z1 e z dentro do anel Az0 , a, b , podemos encontrar um setor Sz0 , a, b (φ1 , φ2 ) que contem
ambos os pontos (se, por exemplo, na representação polar, z1 = ρ1 eiθ1 e z = ρeiθ , podemos tomar
φ1 < min{θ1 , θ} mod 2π e φ2 < max{θ1 , θ} mod 2π). Como A é analı́tica dentro de um tal setor
e o mesmo é simplesmente conexo, podemos representar a matriz de Dyson D(z, z1 ) na forma (6.38)
7
Pierre Alphonse Laurent (1813-1854).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 328/1195

φ
2

b φ
a 1

z0

Figura 6.2: Em cinza, um setor Sz0 , a, b (φ1 , φ2 ) no interior do anel Az0 , a, b .

com as integrais tomadas em um caminho orientado de z1 a z inteiramente contido no interior de


Sz0 , a, b (φ1 , φ2 ) (e, portanto, de Az0 , a, b ). Isso permite definir D(z, z1 ) dentro de cada setor.
Uma questão muito importante para o que segue é saber o que ocorre com a matriz D(z, z 1 ) se,
fixando z1 , fizermos z dar uma volta de 2π em torno do ponto z0 . Mais precisamente, consideremos os
pontos z(φ) definidos por z(φ) := (z − z0 )eiφ + z0 . Como é fácil constatar, ao variarmos φ entre 0 e 2π,
z(φ) move-se em um cı́rculo de raio |z − z0 | centrado em z0 e orientado em sentido anti-horário, sendo
que z(0) = z(2π) = z. Para 0 ≤ φ < 2π, os pontos z1 e z(φ) estão dentro de algum setor simplesmente
conexo de Az0 , a, b e podemos escrever, por (6.43), D(z(φ), z1 ) = D(z(φ), z)D(z, z1 ).
Consideremos a matriz D(z(φ), z). A mesma pode ser expressa na forma (6.38), sendo que podemos
tomar como caminho de integração o arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de
z a z(φ) (lembremo-nos que |z(φ) − z0 | = |z − z0 |). Vide Figura 6.3. A para a matriz D(z, z1 ) podemos
tomar o caminho de integração C1 da Figura 6.3. A medida em que φ aproxima-se de 2π, o caminho
de integração aproxima-se do cı́rculo fechado de raio |z − z0 | (indicado por C na Figura 6.3), orientado
de z a z no sentido anti-horário. Vemos assim que

lim D(z(φ), z1 ) = M D(z, z1 ) onde M := lim D(z(φ), z) .


φ→2π φ→2π

Pela definição e pela representação (6.38),


X∞ I Z w1 Z wn−1
M = + ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 , (6.50)
n=1 z z z
H
onde por z
entende-se a integração (na variável w1 ) de z a z tomada ao longo do cı́rculo fechado C de
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 329/1195

C1
C(φ)
z1
φ

z0

z(φ)

Figura 6.3: O arco de cı́rculo orientado no sentido anti-horário C(φ) que vai de z a z(φ).

raio |z − z0 |, orientado de z a z no sentido anti-horário. Como se percebe, esse cı́rculo corresponde ao


arco C(2π).
Devido à expressão (6.50), é fácil constatar que M , não depende da particular curva C tomada
unindo z a z, desde que essa curva dê exatamente uma volta em torno de z0 sentido anti-horário
sem abandonar Az0 , a, b . Devido ao fato de o integrando ser analı́tico dentro de todos os setores de
Az0 , a, b , podemos deformar continuamente o caminho de integração sem alterar seu valor, desde que
não se abandone Az0 , a, b . Podemos, assim, tomar como caminho de integração em (6.50) qualquer curva
fechada que dê uma volta completa no sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b ,
sem sair do mesmo. Em particular, vemos com esse argumento que M também não depende do ponto
z.
A matriz M é denominada matriz de monodromia associada à matriz A(z) em Az0 , a, b . Se M 6= ,
dizemos que D(z, z1 ) possui uma monodromia não-trivial.
Caso M 6= (veremos exemplos logo adiante), a matriz de Dyson D(z, z1 ) não é uma função
unı́voca, ou seja, quando a variável z dá uma volta de 2π em torno de z0 , D(z, z1 ) não volta ao
mesmo valor. Esse fenômeno é bem conhecido na teoria das funções de variável complexa e é associado
à presença de singularidades do tipo ponto de ramificação. Por exemplo, para a função complexa
ln(z), z 6= 0, vale lim ln(zeiφ ) = ln(z) + 2πi e para a função complexa z γ , z 6= 0, com γ 6∈ , vale
φ→2π
iφ γ 2πγi γ
lim (ze ) = e z .
φ→2π
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 330/1195

• Mais propriedades da matriz de monodromia

Um comentário que será importante é que toda matriz de monodromia é invertı́vel. Para ver-
mos isso, notemos que pela definição, M = limφ→2π D(z(φ), z). Assim, considerando o ponto z(π)
(escolhido de forma arbitrária, porém conveniente), tem-se pela fórmula de composição (6.43) que
M = limφ→2π D(z(φ), z) = limφ→2π D(z(φ), z(π))D(z(π), z) = Db (z, z(π))Da (z(π), z), sendo que
Da (z 0 , z) envolve integrações ao longo de um arco Ca , orientado de z a z(π), e Db (z, z(π)) envolve
integrações ao longo do arco Cb , orientado de z(π) a z. Ambos os arcos estão contidos em Az0 , a, b . A
união Ca ∪ Cb é uma curva fechada que dá exatamente uma volta completa no sentido anti-horário em
torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. Ambas as matrizes Da (z 0 , z) e Db (z, z 0 ) são
invertı́veis. Portanto, a matriz M também o é.
Um segundo comentário é que a matriz de monodromia comuta com D(z, z1 ) e com A(z) para
todos z, z1 ∈ Az0 , a, b . Para ver isso, considere a curva C, fechada, orientada, inteiramente contida em
Az0 , a, b , indicada na Figura 6.4. Essa curva é a fronteira deH uma região simplesmente conexa, portanto,
se f (z) é uma função analı́tica em Az0 , a, b , sua integral C f (w) dw ao longo de C é nula. Por essa
razão, tem-se que
X∞ I Z w1 Z wn−1
+ ··· A(w1 )A(w2 ) · · · A(wn ) dwn dwn−1 · · · dw1 = , (6.51)
n=1 C z z

pois todas as integrais ao lado direito se anulam (os integrandos são analı́ticos). A curva C pode
ser continuamente deformada à curva fechada indicada na Figura 6.5 sem alterar a igualdade (6.51).
Tem-se agora, porém, que o percurso ao longo de C pode ser caminhado pelo seguinte conjunto de
percursos sucessivos: 1) partindo do ponto z1 ao longo da curva C1 até o ponto z; 2) partindo de z ao
longo da curva fechada C2 , orientada no sentido anti-horário, até de volta a z; 3) partindo de z até z1 ,
ao longo da curva C3 ; 4) partindo de z1 ao longo da curva fechada C4 , orientada no sentido horário, até
de volta a z1 . Essas considerações e a expressão para M em (6.50) em termos de integrações ao longo
de um circuito arbitrário fechado que dá uma volta no sentido anti-horário em torno de z 0 , levam-nos
a concluir que (6.51) significa que
M −1 D(z1 , z)M D(z, z1 ) = .
Como D(z1 , z) = D(z, z1 )−1 , concluı́mos que M D(z, z1 ) = D(z, z1 )M , ou seja, M e D(z, z1 )
comutam para quaisquer z, z1 ∈ Az0 , a, b . Derivando em relação a z, obtemos M A(z)D(z, z1 ) =
A(z)D(z, z1 )M e tomando z1 = z, segue que M A(z) = A(z)M , ou seja, M e A(z) comutam para
qualquer z ∈ Az0 , a, b .
Os dois exercı́cios que seguem exibem mais propriedades de matrizes de monodromia em certos
casos.

E. 6.14 Exercı́cio. Monodromia no caso comutativo. Considere o caso em que A(z) é uma matriz
analı́tica no anel Az0 , a, b e tal que A(z)A(z 0 ) = A(z 0 )A(z) para todos z, z 0 ∈ Az0 , a, b . Usando (6.35),
página 318, e (6.50), mostre que I 
M = exp A(w) dw , (6.52)
H
a integral sendo tomada ao longo de qualquer curva fechada que dê exatamente uma volta completa no
sentido anti-horário em torno de z0 ao longo do anel Az0 , a, b , sem sair do mesmo. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 331/1195

z0

Figura 6.4: A curva fechada orientada C.

E. 6.15 Exercı́cio. Sejam A(z) matrizes n × n analı́ticas no anel A z0 , a, b . Suponha que dentro de
Az0 , a, b existam n2 pontos distintos z1 , . . . , zn2 com a propriedade que as n2 matrizes A(z1 ), . . . , A(zn2 )
são linearmente independentes. Mostre que isso implica que M = η para algum η ∈ , η 6= 0. Sugestão:
explore o fato que M A(z) = A(z)M para todo z ∈ Az0 , a, b . 6

Antes de examinarmos as conseqüências da existência de uma monodromia não-trivial para a matriz


D(z, z1 ) , devemos mostrar exemplos concretos onde se tem M 6= .

• Monodromia não trivial. Um exemplo

O seguinte exemplo8 é ilustrativo. Seja A(z) = z −1 R, onde R é a matriz constante


 
λ 1
R = , (6.53)
0 λ

sendo λ um número complexo fixo arbitrário. Claramente A(z) é singular em z0 = 0 e analı́tica em


todo anel A0, b = {z ∈ | 0 < |z| < b}, com qualquer b > 0. Tomando z1 ∈ A0, b , fixo, a matriz de
8
Esse exemplo é extraı́do com pequenas modificações de [117].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 332/1195

C1 C3

z1

C2

z0

C4

Figura 6.5: A curva fechada orientada C composta dos segmentos orientados C 1 , C2 , C3 e C4 . Os


pontos z1 e z.

Dyson D(z, z1 ) é dada por9  !


 λ
z 1 ln zz1
D(z, z1 ) = , (6.54)
z1 0 1

pois, como facilmente se constata, essa matriz satisfaz ∂z
D(z, z1 ) = A(z)D(z, z1 ) e D(z1 , z1 ) = .

E. 6.16 Exercı́cio. As matrizes A(z) = z −1 R, acima, comutam para valores diferentes de z. Por essa
razão, D(z, z1 ) pode ser calculada com o uso da expressão (6.35), página 318. Obtenha (6.54) dessa forma.
6

Fixando-se z1 , é fácil verificar que


 iφ λ  iφ !  λ   !
iφ ze 1 ln zez1 2πiλ z 1 ln z
z1
+ 2πi
lim D(ze , z1 ) = lim = e = M D(z, z1 ) ,
φ→2π φ→2π z1 0 1 z1 0 1
com a matriz de monodromia M sendo dada por
 
2πiλ 1 2πi
M = e . (6.55)
0 1

9
Em tudo o que segue utilizaremos o chamado ramo principal do logaritmo de uma variável complexa z. Ou seja, se
z∈ tem a decomposição polar z = |z|eiφ com −π ≤ φ < π, então ln(z) = ln |z| + iφ.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 333/1195

E. 6.17 Exercı́cio. Obtenha (6.55) fazendo uso da relação (6.52), válida no caso comutativo. Verifique
explicitamente que M A(z) = A(z)M para todo z ∈ A0, b . Vide Exercı́cio E. 6.14. 6

E. 6.18 Exercı́cio. Mostre, fazendo uso da relação (6.52), que para qualquer matriz R a matriz de
monodromia associada às funções A(z) = z −p R, com p ∈ , p =
6 1, é M = , ou seja, a monodromia é
trivial. 6

A existência de monodromias não-triviais em equações singulares do tipo que consideramos aqui é


um fato relevante que, como veremos, tem conseqüências sobre a forma geral das soluções.

• Um comentário sobre a matriz de monodromia

Como já observamos, toda matriz de monodromia M é invertı́vel. Vamos mostrar que para cada
M existe uma matriz Γ tal que M = e2πiΓ . Por exemplo, para a M dada em (6.55) podemos tomar
Γ = R, onde R é dada em (6.53) (verifique!). Para a prova geral, vamos primeiro escrever M na sua
forma de Jordan (vide Teorema 3.18, página 192): seja T invertı́vel tal que T −1 M T = D + N onde D
é diagonal, N é nilpotente e DN = N D. Definimos, então,
1  
Γ := T ln D + ln( + D −1 N ) T −1 .
2πi
Antes de prosseguirmos comentemos que essa expressão está bem definida. De fato, D é uma matriz
diagonal D = diag (d1 , . . . , dm ), tendo na diagonal os autovalores de M . Como M é invertı́vel, nenhum
desses autovalores é nulo, assim ln D está bem definida como ln D = diag (ln(d1 ), . . . , ln(dm )). Fora
P −1 k
isso, ln( + D −1 N ) é dada (já que D e N comutam) por ∞ k k
k=0 (−1) (D ) N , que é uma soma finita,
pois N é nilpotente.
Isto posto, dado que ln D e ln( + D −1 N ) comutam (por que?), é fácil então ver que

e2πiΓ = T exp ln D + ln( + D −1 N ) T −1

= T exp (ln D) exp ln( + D −1 N ) T −1

= T D( + D −1 N )T −1 = T (D + N )T −1

= M,
como querı́amos provar.
Logo abaixo usaremos a matriz Γ e o fato agora provado que M = e2πiΓ para extrair algumas
conclusões sobre a forma geral das soluções com pontos singulares do tipo aqui tratado. Para isso,
faremos uso da matriz eln(z−z0 )Γ . Vamos discutir sua forma geral. Como toda matriz, Γ pode ser
conduzida à sua forma de Jordan por uma transformação de similaridade: existe matriz Q invertı́vel
tal que QΓQ−1 = D0 + N0 onde D0 é diagonal, N0 é nilpotente e D0 N0 = N0 D0 . Com isso,
eln(z−z0 )Γ = Q−1 eln(z−z0 )(D0 +N0 ) Q = Q−1 eln(z−z0 )D0 eln(z−z0 )N0 Q.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 334/1195

Se a matriz D0 for a matriz diagonal diag (γ1 , . . . , γm ) então a matriz eln(z−z0 )D0 é a matriz diagonal
diag ((z − z0 )γ1 , . . . , (z − z0 )γm ). Por outro lado, como N0 é nilpotente de ı́ndice menor ou igual a m
(ou seja N0m = 0), os elementos de matriz de eln(z−z0 )N0 são polinômios em ln(z − z0 ) de ordem menor
ou igual a m − 1. Conseqüentemente, cada elemento de matriz eln(z−z0 )Γ ab é da forma

m−1 m
!
 X X
ln(z−z0 )Γ
e ab
= (z − z0 )γl Cab
kl
(ln(z − z0 ))k (6.56)
k=0 l=1

kl
para certas constantes complexas Cab (algumas podendo ser nulas).
Note-se que os γl são, em geral, números complexos: os autovalores de Γ.

E. 6.19 Exercı́cio importante. Complete os detalhes que levam a (6.56). 6

Observação importante. Como a expansão de eln(z−z0 )N0


m−1
X
ln(z−z0 )N0
e = + (ln(z − z0 ))k N0k
k=1

contem o termo , a expansão (6.56) sempre contem um termo não-nulo do tipo (ln(z − z 0 ))k com
k = 0, ou seja, há um termo não-nulo que não envolve potências de ln(z − z0 ). Essa observação será
lembrada adiante.

• A Forma Geral das Soluções

Essa discussão é baseada na referência [117], cuja leitura recomendamos.

Seja a equação Y 0 (z) = A(z)Y (z) com A(z) analı́tica no anel Az0 , a, b e seja como antes D(z, z1 ),
z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com uma matriz de monodromia M = e2πiΓ .
Para z1 fixo, seja S(z) a matriz definida por

S(z) = e− ln(z−z0 )Γ D(z, z1 ) .

Pelas hipóteses sobre D(z, z1 ) e pelas propriedades da função logaritmo, S(z) é analı́tica em cada setor
Sz0 , a, b (φ1 , φ2 ) com 0 < φ2 − φ1 < 2π.
Consideremos o que ocorre com S(z) quando a variável z dá uma volta de 2π em torno de z 0 , ou
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 335/1195


seja, comparemos S(z) com10 limφ→2π S (z − z0 )eiφ + z0 . Temos que
!
    
lim S (z − z0 )eiφ + z0 = lim exp − ln((z − z0 )eiφ )Γ D (z − z0 )eiφ + z0 , z1
φ→2π φ→2π

  
− ln((z−z0 ))Γ
 −iφΓ iφ

= e lim e lim D (z − z0 )e + z0 , z1
φ→2π φ→2π

= e− ln((z−z0 ))Γ e−2πiΓ M D(z, z1 )

= e− ln((z−z0 ))Γ M −1 M D(z, z1 )

= e− ln((z−z0 ))Γ D(z, z1 )

= S(z) .

Isso diz-nos que S(z) é contı́nua no anel Az0 , a, b . Como é analı́tica em cada setor Sz0 , a, b (φ2 , φ1 ) com
0 < φ2 − φ1 < 2π, concluı́mos que S(z) é analı́tica em Az0 , a, b . Se pudermos tomar o raio interno do
anel arbitrariamente pequeno, S(z) pode ser singular em z0 . Essa singularidade, porém, se houver,
será do tipo pólo ou do tipo singularidade essencial, mas não do tipo ponto de ramificação, pois isso
contrariaria o fato de S(z) ser analı́tica em qualquer anel centrado em z0 .
Resumimos nossos conclusões em forma de uma proposição.
Proposição 6.3 Seja a equação Y 0 (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , a, b
e seja como antes D(z, z1 ), com z, z1 ∈ Az0 , a, b , uma matriz fundamental dessa equação com matriz
de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma

D(z, z1 ) = eln(z−z0 )Γ S(z), (6.57)

onde S(z) é analı́tica no anel Az0 , a, b . Se pudermos tomar o raio interno do anel arbitrariamente
pequeno, S(z) pode ser singular em z0 , a singularidade, se houver, sendo do tipo pólo ou do tipo
singularidade essencial.
Conseqüentemente, por (6.56), cada elemento de matriz D(z, z1 )ab , para z1 fixo, é da forma
m−1
XX m
D(z, z1 )ab = (z − z0 )γl (ln(z − z0 ))k Fab
kl
(z) , (6.58)
k=0 l=1

kl
a, b = 1, . . . , m, onde cada função Fab (z) é analı́tica no anel Az0 , a, b . Novamente, se pudermos
kl
tomar o raio interno do anel arbitrariamente pequeno, cada Fab (z) pode ser singular em z0 . Essa
singularidade, se houver, é do tipo pólo ou do tipo singularidade essencial. As constantes complexas γ l
são os autovalores de Γ. Os termos com k = 0 são não-nulos. 2

10
Note que, para z e z0 fixos, quando φ varia de 0 a 2π os pontos (z − z0 )eiφ + z0 descrevem um cı́rculo orientado no
sentido anti-horário no plano complexo e centrado em z0 . Esse cı́rculo tem raio |z − z0 |, inicia-se e termina em z.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 336/1195

E. 6.20 Exercı́cio importante. Complete os detalhes que conduzem a (6.58). 6

E. 6.21 Exercı́cio. Qual a relação entre os expoentes γl e os autovalores da matriz de monodromia M ?


Sugestão: pela construção acima, os expoentes γl são os autovalores de Γ e M = e2πiΓ . 6

• O Método de Frobenius

A forma geral das matrizes fundamentais apresentada acima sugere e justifica um método de solução
para o caso de sistemas de equações lineares provenientes de uma equação diferencial ordinária de ordem
m (vide Seção 6.7):
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0, (6.59)
onde as funções a0 (z), . . . , am−1 (z) são analı́ticas em
Az0 , b := {z ∈ | 0 < |z − z0 | < b}.
O método consiste em procurar soluções na forma y(z) = (z − z0 )γ (ln(z − z0 ))k f (z), para algum γ ∈ ,
algum k = 0, . . . , m − 1, inteiro e f (z) analı́tica no anel Az0 , b . Como f possui uma singularidade tipo
pólo ou essencial em z0 , ela pode ser representada em Az0 , b por uma série de Laurent convergente (vide
e.g. [19]):
X∞
f (z) = cn (z − z0 )n .
n=−∞

A tarefa consiste em determinar γ ∈ , k = 0, . . . , m − 1, e os coeficientes cn de modo que a equação


(6.59) seja satisfeita.
Esse método é conhecido como método de Frobenius11 . Em certos casos esse método é muito eficaz,
fornecendo soluções para uma classe muito grande de equações diferenciais de interesse. Mais sobre ele,
adiante.
Note-se que, pela observação importante da página 334, sempre há pelo menos uma solução que
não envolve potências de ln(z − z0 ).

• Singularidades tipo pólo de S(z). Pontos Singulares Regulares

Retornando à (6.57), façamos alguns comentários sobre as singularidades de S(z) em z 0 .


Como dissemos, caso z0 seja um ponto singular de A(z), a matriz S(z), sendo analı́tica em Az0 , b , ou
possui uma singularidade do tipo pólo em z0 ou uma singularidade essencial. No caso de a singularidade
ser do tipo pólo (de qualquer ordem), z0 é dito ser um ponto singular regular12 da equação Y 0 (z) =
A(z)Y (z).
11
Ferdinand Georg Frobenius (1849-1917).
12
Comentário. A expressão “ponto singular regular” parece conter uma contradição em termos pois, na teoria das
funções de variáveis complexas, os adjetivos “singular” e “regular” são comummente empregados como antônimos. A
expressão “ponto singular regular” aparentemente provem de uma tradução imprecisa do Alemão, mas manteve-se, por
razões históricas, em várias lı́nguas. Na expressão “ponto singular regular” o adjetivo “regular” deve ser entendido no
sentido de “comum”, “ordinário”. Com isso pretende-se dizer que a singularidade em z 0 não é do tipo mais grave, como
no caso de singularidades essenciais.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 337/1195

No caso de z0 ser um ponto singular regular uma simplificação importante pode ser feita.
Se S(z) tem um pólo de ordem l em z0 , então S(z) = (z − z0 )−l S0 (z), onde S0 (z) é analı́tica em z0 .
Com isso, a forma geral (6.57) pode ser reescrita como
0
D(z, z1 ) = S0 (z) eln(z−z0 )Γ ,
onde Γ0 = Γ − l .

E. 6.22 Exercı́cio. Verifique. 6

Como se constata, é a mesma forma de (6.57), envolvendo apenas uma redefinição da matriz Γ,
sendo que agora o fator S0 (z) é uma matriz analı́tica. O ponto importante é que a conclusão (6.58)
sobre a forma geral dos elementos de matriz de D(z, z1 ) é igualmente válida, sendo que agora, porém,
kl
as funções Fab (z) são funções analı́ticas de z em z0 e não apenas no anel Az0 , b .
Nesse caso, então, o método de Frobenius discutido acima adquire o seguinte aspecto: procura-se
soluções na forma

X
y(z) = (z − z0 )γ (ln(z − z0 ))k cn (z − z0 )n
n=0
e tenta-se determinar γ, k e os coeficientes cn de modo que a equação diferencial seja satisfeita. Esse
método é eficaz e, em muitos casos, prático, fornecendo soluções para várias equações diferenciais de
interesse na Fı́sica. Mais sobre o método de Frobenius pode ser encontrado nos bons livros sobre
equações diferenciais e Fı́sica-Matemática ou no Capı́tulo 7, com exemplos.
A questão que se coloca então é: quando ocorre que S(z) possui apenas singularidades do tipo
pólo em z0 ? A resposta depende do tipo de singularidade que a própria matriz A(z) possui em z0 .
Começaremos a discutir isso na Seção 6.6.4.

6.6.4 Sistemas com Pontos Singulares Simples


Nesta seção seguiremos muito proximamente a discussão da Seção 2 do capı́tulo V da referência [117],
cuja leitura recomendamos fortemente.
De especial importância em aplicações são equações diferenciais Y 0 (z) = A(z)Y (z) nas quais A(z)
possui um pólo simples em z0 , ou seja, A(z) é da forma A(z) = (z − z0 )−1 A0 (z), onde A0 (z) é analı́tica
em z0 . Nesse caso, em que z0 é um pólo simples de A(z), dizemos que z0 é um ponto singular simples
da equação diferencial.
Essa situação é também particularmente feliz pois, como veremos, nesse caso z 0 é um ponto singular
regular. Isso é o conteúdo do seguinte teorema:
Teorema 6.1 Se z0 é um ponto singular simples da equação diferencial Y 0 (z) = A(z)Y (z), ou seja,
A0 (z) := (z − z0 )A(z) é analı́tica em z0 , então z0 é um ponto singular regular dessa equação, ou seja,
S(z) (definida acima) tem no máximo uma singularidade tipo pólo em z 0 . 2

Prova. (Extraı́da de [117], com ligeiras modificações). Comecemos com alguns comentários prepa-
ratórios.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 338/1195

1. Para uma matriz complexa m×m qualquer K denotamos por kKk sua norma operatorial, definida
por
kKvk 

kKk := sup ,
v∈ m , v6=0 kvk



p
onde, para v = (v1 , . . . , vm ) ∈ m , definimos a norma vetorial kvk := |v1 |2 + · · · + |vm |2 . 

2. Para qualquer elemento ab de uma matriz K vale


v
u m
uX
|Kab | ≤ t |Kcb |2 = kKeb k , 

c=1

onde eb é o vetor da base canônica cuja b-ésima componente é 1 e as demais são nulas. Como é
óbvio, keb k = 1. Assim,


kKeb k 

kKvk 

|Kab | ≤ ≤ sup =: kKk. (6.60)


keb k

v∈ 

m , v6=0 kvk 

E. 6.23 Exercı́cio. Justifique a segunda desigualdade. 6

3. Da definição da norma operatorial de uma matriz K, é evidente que vale kKvk ≤ kKk kvk  

para qualquer vetor v. Pela definição, é bem fácil constatar desse fato que norma operatorial de
um produto de matrizes satisfaz
kKLk ≤ kKk kLk, (6.61)
para quaisquer matrizes complexas m × m K e L.

E. 6.24 Exercı́cio. Prove isso. 6

4. Por (2.19), vale que | kKk − kLk | ≤ kK − Lk para quaisquer matrizes m × m complexas K e L.
Se, em particular B(z) for uma matriz analı́tica na variável complexa z, a desigualdade

| kB(z1 )k − kB(z2 )k | ≤ kB(z1 ) − B(z2 )k

implica
d
kB(z)k ≤ kB 0 (z)k. (6.62)
dz

Agora passemos à demonstração do teorema.


Com z, z1 ∈ Az0 , b e z1 fixo, vamos denotar D(z, z1 ) por Φ(z). Obviamente, Φ(z) satisfaz

Φ0 (z) = A(z)Φ(z) = (z − z0 )−1 A0 (z)Φ(z). (6.63)

Vamos escrever, para z ∈ Az0 , b ,


z = z0 + reiθ .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 339/1195

Assim, r > 0 mede a distância de z a z0 . Vamos também definir, para r > 0,


 
f (r, θ) := kΦ (z)k = Φ z0 + reiθ = D z0 + reiθ , z1 .

Temos que
∂f ∂ 
Φ z0 + reiθ = ∂z d kΦ (z)k = eiθ d kΦ (z)k .
(r, θ) =
∂r ∂r ∂r dz dz
Assim,

∂f d
(r, θ) = kΦ (z)k
∂r dz

por (6.62)
≤ kΦ0 (z)k


(z − z0 )−1 A0 (z)Φ(z) = 1 kA0 (z)Φ(z)k
por (6.63)

r
por (6.61) 1 1 
≤ kA0 (z)k kΦ(z)k = kA0 (z)k Φ z0 + reiθ
r r
1
= kA0 (z)k f (r, θ)
r
C
≤ f (r, θ),
r
onde C := sup kA0 (z)k. Note-se que C é finito pois, por hipótese, A0 (z) é analı́tica em torno de z0 .
|z−z0 |<a
C
Obviamente, o fato que ∂f
∂r
(r, θ) ≤ f (r, θ) implica
r

∂f C
(r, θ) + f (r, θ) ≥ 0.
∂r r
Obviamente, essa relação diz que
1 ∂f C
(r, θ) + ≥ 0,
f (r, θ) ∂r r
ou seja,
∂ 
ln r C f (r, θ) ≥ 0.
∂r
Integrando essa expressão entre r e r1 (com 0 < r < r1 < a. Doravante, r1 estará fixo.), temos
 C 
r1 f (r1 , θ)
ln ≥ 0.
r C f (r, θ)

Para x positivo, ln x ≥ 0 implica x ≥ 1. Assim, r1C f (r1 , θ) ≥ r C f (r, θ). Isso implica
d
f (r, θ) ≤ ,
rC
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 340/1195

com d := max0≤θ≤2π r1C f (r1 , θ). Com o que vimos, estabelecemos que
d
kΦ (z)k ≤
|z − z0 |C

para todo z ∈ Az0 , b com |z − z0 | < r1 . Sabemos que S(z) = e− ln(z−z0 )Γ Φ (z). Logo, com |z − z0 | < r1 ,
d − ln(z−z )Γ
kS(z)k ≤ kΦ (z)k e− ln(z−z0 )Γ ≤ C
e 0 . (6.64)
|z − z0 |

Vamos agora concentrar-nos em e− ln(z−z0 )Γ . Como é fácil de se ver, vale para qualquer matriz B e
qualquer número complexo β

βB X∞
β k X ∞
|β|k k X∞
|β|k
e = + k
B ≤ 1+ kB k ≤ 1 + kBkk = e|β| kBk .
k! k! k!
k=1 k=1 k=1

E. 6.25 Exercı́cio. Complete os detalhes. 6

Para qualquer número complexo w = |w|eiφ , tem-se ln w = ln |w| + iφ (vide nota-de-rodapé 9, à


página 332) e, portanto, | ln w|2 = (ln |w|)2 + (φ)2 ≤ (| ln |w|| + |φ|)2 . Logo, | ln w| ≤ | ln |w|| + |φ| ≤
| ln |w|| + π. Se |w| < 1 isso pode ser escrito como

| ln w| ≤ − ln |w| + π.

Assim, escolhendo |z − z0 | < 1, teremos


− ln(z−z )Γ kΓk kΓk eπkΓk
e 0 ≤ e| ln(z−z0 )|kΓk = e| ln(z−z0 )| ≤ e− ln |z−z0 | eπ = .
|z − z0 |kΓk

Retornando a (6.64), concluı́mos que para |z − z0 | < r1 e |z − z0 | < 1, tem-se


d0
kS(z)k ≤ ,
|z − z0 |p

onde p := C + kΓk ≥ 0 e d0 = deπkΓk . Logo, por (6.60), vale para cada elemento de matriz S(z)ab de
S(z)
lim |z − z0 |p |S(z)ab | ≤ d0 ,
z→z0

sendo, portanto, finito. Isso implica que para qualquer inteiro k maior que p tem-se que a matriz
(z − z0 )k S(z) é analı́tica em z0 , implicando que S(z) tem uma singularidade tipo pólo em z0 .

• Um comentário

A recı́proca do Teorema 6.1 não é verdadeira: um contra-exemplo (de [117]) sendo o caso em que
 
0 1
A(z) = ,
2z −2 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 341/1195

que claramente tem um pólo de ordem dois em z0 = 0. Não se trata, portanto, de uma singularidade
simples. Para esse caso, porém, tem-se, para todo z, z1 ∈ Az0 , b ,
 −1 
2z z1 + z 2 z1−2 z 2 z1−1 − z −1 z12
1
D(z, z1 ) =  .
3 −2 −1
2(zz1 − z −2 z1 ) 2zz1 + z −2 z12
Claramente z0 = 0 é um ponto singular regular, já que D(z, z1 ) tem um pólo de ordem 2 em z0 = 0.

E. 6.26 Exercı́cio. Para A e D dados acima, verifique que ∂z D(z, z1 ) = A(z)D(z, z1 ) e que
D(z1 , z1 ) = . Verifique que a matriz de monodromia de D(z, z1 ) é . 6

• A forma geral das soluções no caso de singularidades simples

A conclusão mais importante do teorema 6.1 diz respeito à forma geral das soluções de equações
com pontos singulares simples. Resumimos tudo no seguinte teorema.
Teorema 6.2 Seja a equação Y 0 (z) = A(z)Y (z) com A(z) matriz m × m analı́tica no anel Az0 , b
(para algum b > 0), z0 sendo um ponto singular simples dessa equação diferencial, ou seja, A 0 (z) :=
(z − z0 )A(z) é analı́tica em z0 . Seja como antes D(z, z1 ), z, z1 ∈ Az0 , b , uma matriz fundamental
dessa equação com matriz de monodromia M = e2πiΓ . Então, para z1 fixo, D(z, z1 ) é da forma
D(z, z1 ) = eln(z−z0 )Γ S(z), onde S(z) é analı́tica no anel Az0 , b e tem no máximo uma singularidade
tipo pólo em z0 . Isso significa que S(z) é da forma S(z) = (z − z0 )−l S0 (z), para algum inteiro l ≥ 0,
onde S0 é analı́tica em z0 . Com isso, definindo Γ0 = Γ − l , concluı́mos que D(z, z1 ) é da forma
0
D(z, z1 ) = eln(z−z0 )Γ S0 (z), (6.65)

Conseqüentemente, cada elemento de matriz D(z, z1 )pq , para z1 fixo, é da forma


m−1
XX m
D(z, z1 )pq = (z − z0 )γl (ln(z − z0 ))k Fpq
kl
(z) , (6.66)
k=0 l=1

kl
p, q = 1, . . . , m, onde as funções Fpq (z) são analı́ticas em z0 , podendo, portanto, ser expressas por
séries de Taylor centradas nesse ponto. As constantes complexas γ l são os autovalores de Γ0 . Os termos
com k = 0 são não-nulos. 2

6.7 Sistemas Provenientes de EDO’s de Ordem m


Considere-se a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0, (6.67)
onde as m funções a0 , . . . , am−1 são analı́ticas em um domı́nio aberto simplesmente conexo comum D.
É fácil constatar (faça!) que essa equação equivale ao sistema
Y 0 (z) = A(z)Y (z),
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 342/1195

onde  
y(z)
 y 0 (z) 
 
Y (z) :=  ..  (6.68)
 . 
y (m−1) (z)
e A(z) é a matriz m × m
 
0 1 0 0 ··· 0
 
 
 0 0 1 0 ··· 0 
 
 
 .. .. .. 
 .. .. .. 
 . . . . . . 
 
A(z) :=   , (6.69)
 .. 
 0 0 0 . 1 0 
 
 
 
 0 0 0 ··· 0 1 
 
 
−a0 (z) −a1 (z) −a2 (z) ··· −am−2 (z) −am−1 (z)
a qual é analı́tica em D, por assim o serem as funções a0 , . . . , am−1 , em cujo caso aplicam-se as
conclusões supra-citadas, ou seja, a solução y(z) é igualmente analı́tica em D. Para futura referência
coletamos essa conclusão no seguinte teorema
Teorema 6.3 Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0
e suponhamos que as funções a0 , . . . , am−1 são todas analı́ticas em um domı́nio aberto e simplesmente
conexo D. Então as soluções da equação são igualmente analı́ticas em D. Em particular, se D contiver
um disco aberto Daz0 := {z ∈ | |z − z0 | < a}, centrado em z0 e de raio a > 0, então as soluções da
equação podem ser expressas em termos de uma série de potências

X
y(z) = cn (z − z0 )n ,
n=0

a qual converge (absolutamente) pelo menos no disco aberto D az0 , ou seja, pelo menos para todo z ∈
tal que |z − z0 | < a. 2

6.7.1 Pontos Singulares Simples em EDO’s de Ordem m

• Introdução e motivação

Seja o sistema de equações Y 0 (z) = A(z)Y (z) procedente de uma EDO linear complexa homogênea
de ordem m como (6.67), com Y (z) como em (6.68) e A(z) dada em (6.69), definida em um domı́nio
D do plano complexo. Seja também z0 ∈ D.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 343/1195

Vamos supor que z0 seja um ponto singular de A(z), ou seja, A(z) não é analı́tica em z = z0 . É
bastante claro que se as funções ak (z), k = 0, . . . , m − 1, tiverem no máximo um pólo de ordem 1 em
z0 = 0, ou seja, se as funções (z − z0 )ak (z), k = 0, . . . , m − 1, forem todas analı́ticas em z0 , então z0
será um ponto singular regular de Y 0 (z) = A(z)Y (z), pois, teremos Y 0 (z) = (z − z0 )−1 A0 (z)Y (z), onde
A0 (z) := (z − z0 )A(z) é analı́tica em z0 . Assim, nesse caso, valeriam todas as importantes conclusões
a que chegamos na Seção 6.6.4, página 337, especialmente aquelas expressas no Teorema 6.2, página
341.
Sucede que há condições ainda menos restritivas sobre as funções ak (z), k = 0, . . . , m − 1, para as
quais as importantes conclusões sobre a forma geral da solução, expressas no Teorema 6.2, também se
aplicam. A saber, tal é o caso se as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, forem todas analı́ticas
em z0 , ou seja, se cada função ak (z) tiver no máximo um pólo de ordem m − k em z0 .
No que segue iremos primeiramente justificar as afirmativas do último parágrafo para depois extrair
as conclusões pertinentes. Esse caminho nos conduzirá a uma noção mais abrangente do conceito de
ponto singular simples de equações diferenciais lineares complexas homogêneas de ordem m como (6.67).

• A noção de ponto singular simples para EDOs de ordem m

Seja então Y 0 (z) = A(z)Y (z) com Y (z) como em (6.68) e com A(z) dada em (6.69), definida em
um domı́nio aberto e simplesmente conexo D com z0 ∈ D. Vamos definir um novo vetor coluna

Ỹ (z) := E(z)Y (z),

onde E(z) é a matriz diagonal m × m


 
1 0 0 ··· 0 0
 
 
0 (z − z0 ) 0 ··· 0 0 
 
 
 
 . 
0 0 (z − z0 )2 . . 0 0 
 
E(z) :=   , (6.70)
. .. .. .. .. .. 
 .. . . . . . 
 
 
 
0 0 0 (z − z0 )m−2 0 
 
 
0 0 0 ··· 0 (z − z0 )m−1

ou seja, E(z) é a matriz diagonal com E(z)kk = (z − z0 )k−1 , 1 ≤ k ≤ m.


O porquê de procedermos essa mudança de Y para Ỹ através dessa matriz E ficará claro logo
abaixo. Diferenciando-se Ỹ (z), teremos, para z 6= z0 ,

Ỹ 0 (z) = E(z)Y 0 (z) + E 0 (z)Y (z)

= E(z)A(z)Y (z) + E 0 (z)E(z)−1 Ỹ (z)

= E(z)A(z)E(z)−1 Ỹ (z) + E 0 (z)E(z)−1 Ỹ (z),


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 344/1195

ou seja, definindo h i
Ã(z) := (z − z0 ) E(z)A(z)E(z)−1 + E 0 (z)E(z)−1 , (6.71)
obtemos,
Ỹ 0 (z) = (z − z0 )−1 Ã(z)Ỹ (z). (6.72)

Para prosseguirmos (e para finalmente entendermos por que fizemos a mudança de Y para Ỹ ), é
muito importante calcularmos explicitamente a matriz Ã(z) definida acima.

E. 6.27 Exercı́cio muito importante. Calcule explicitamente a matriz Ã(z) definida acima. Use (6.71),
(6.69) e (6.70). 6

O resultado é
 
0 1 0 ··· 0 0 0
 
 
 0 1 1 0 0 0 
 
 
 
 .. 
 0 0 2 . 0 0 0 
 
 
 .. .. .. .. .. 
Ã(z) =  . . . . .  ,
 
 
 
 0 0 0 m−3 1 0 
 
 
 
 0 0 0 ··· 0 m−2 1 
 
 
b0 (z) b1 (z) b2 (z) ··· bm−3 (z) bm−2 (z) bm−1 (z)

onde

b0 (z) := −(z − z0 )m a0 (z),

b1 (z) := −(z − z0 )m−1 a1 (z),

b2 (z) := −(z − z0 )m−2 a2 (z),

..
.

bm−2 (z) := −(z − z0 )2 am−2 (z),

bm−1 (z) := −(z − z0 )am−1 (z) + (m − 1).

Como exemplo, tem-se no caso de particular interesse fı́sico das equações de segunda ordem

y 00 (z) + a1 (z) y 0 (z) + a0 (z) y(z) = 0


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 345/1195

 
  y(z)
1 0
que E(z) = , Ỹ (z) =  , e
0 z − z0
(z − z0 )y 0 (z)
 
0 1
Ỹ 0 (z) = (z − z0 )−1 Ã(z)Ỹ (z), com Ã(z) =  .
−(z − z0 )2 a0 (z) −(z − z0 )a1 (z) + 1

De volta ao caso geral, vemos que se as funções bk (z), 0 ≤ k ≤ m − 1, forem todas analı́ticas em
torno de z0 , então Ã(z) será analı́tica em torno de z0 e, portanto, o sistema (6.72) será um sistema com
um ponto singular simples em z0 . Coloquemos, assim, a seguinte definição:

Definição. Seja a equação diferencial linear homogênea complexa de ordem m

y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0. (6.73)
Um ponto z0 ∈ é dito ser um ponto singular simples, ou ponto singular regular dessa equação se pelo
menos uma das funções ak (z) for singular em z0 mas de modo que todas as funções (z − z0 )m−k ak (z),
k = 0, . . . , m − 1, sejam analı́ticas em z0 . Isso significa que cada função ak (z) ou é analı́tica em z0 ou
tem um pólo em z0 cuja ordem deve no máximo ser m − k, sendo que supostamente pelo menos uma
das funções ak (z) é singular em z0 .
Isso significa que um ponto z0 é um ponto singular simples se A(z) não é analı́tica em z = z0 mas
se Ã(z) é analı́tica em z = z0 .
Assim, por exemplo, dizemos que z0 é um ponto singular simples da equação de segunda ordem (ou
seja, para m = 2) dada por y 00 (z) + a1 (z) y 0 (z) + a0 (z) y(z) = 0 se a0 (z) tiver um pólo de ordem no
máximo 2 em z0 ou se a1 (z) tiver um pólo de ordem no máximo 1 em z0 , ou ambos. Vários exemplos
são apresentados e discutidos na Seção 6.7.3.
No caso de z0 ser um ponto singular simples de uma equação como (6.73), aplicam-se os resultados
da Seção 6.6.4, página 337, às soluções de (6.72). Discutiremos adiante as implicações deste fato.

• Soluções de equações com pontos singulares simples

Unindo as observações acima com o Teorema 6.2 chegamos à seguinte importante conclusão.
Teorema 6.4 Seja a equação diferencial linear homogênea complexa de ordem m
y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0
e seja z0 um ponto singular simples dessa equação, ou seja pelo menos uma das funções a k (z) é singular
em z0 mas de modo que todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, sejam analı́ticas em z0 .
Então as soluções da equação diferencial são combinações lineares de soluções da forma
yγ, k (z) = (z − z0 )γ (ln(z − z0 ))k fγ, k (z),
para certos γ ∈ , k = 0, . . . , m − 1 e fγ, k analı́tica em torno de z0 .
Por fim, pela observação importante da página 334, sempre há pelo menos uma solução que não
envolve potências de ln(z − z0 ), ou seja, há sempre pelo menos uma solução com k = 0. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 346/1195

• A equação de Euler

Um exemplo-protótipo de uma equação com um ponto singular simples é a equação de Euler de


ordem m:
z m y (m) (z) + z m−1 bm−1 y (m−1) (z) + · · · zb1 y 0 (z) + b0 y(z) = 0 ,
onde bm−1 , . . . , b0 são constantes. Nesse caso tem-se
bm−1 bm−2 b0
am−1 (z) = , am−2 (z) = , ..., a0 (z) =
z z2 zm
e, claramente, essa equação possui um ponto singular simples em z0 = 0. No caso m = 2 a equação de
Euler é
z 2 y 00 (z) + zb1 y 0 (z) + b0 y(z) = 0 ,
cujas soluções são, caso (1 − b1 )2 − 4b0 6= 0,

y(z) = αz γ+ + βz γ− (6.74)

onde p
1 − b1 ± (1 − b1 )2 − 4b0
γ± =
2
ou, caso (1 − b1 )2 − 4b0 = 0,
y(z) = αz γ0 + β ln(z) z γ0 (6.75)
onde
1 − b1
γ0 = .
2
Acima, α e β são constantes arbitrárias. Essas soluções ilustram as afirmações do Teorema 6.4.

E. 6.28 Exercı́cio importante. Verifique todas as afirmações feitas acima. 6

• Um Teorema de Fuchs

Há um importante teorema, devido a Fuchs, que estabelece uma recı́proca do Teorema 6.4: se toda
solução da equação

y (m) (z) + am−1 (z)y (m−1) (z) + · · · + a1 (z)y 0 (z) + a0 (z)y(z) = 0 (6.76)

for uma combinação linear de funções da forma (z − z0 )γ (ln(z − z0 ))k fγ, k (z), para certos γ ∈ ,
k = 0, . . . , m − 1 e fγ, k analı́ticas em torno de z0 , então z0 é um ponto singular simples de (6.76), ou
seja, todas as funções (z − z0 )m−k ak (z), k = 0, . . . , m − 1, são analı́ticas em z0 . Uma demonstração
pode ser encontrada em [117].

6.7.2 Singularidades no Infinito


Seja a equação diferencial linear homogênea complexa de ordem m

y (m) (z) + am−1 (z)y (m−1) (z) + · · · a1 (z)y 0 (z) + a0 (z)y(z) = 0.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 347/1195

Em muitas situações deseja-se estudar o comportamento dessas equações e suas soluções para |z| ten-
dendo a infinito e, para tal, presta-se muitas vezes estudar propriedades das soluções como funções de
1/z. Com isso poderı́amos, por exemplo, perguntar-nos se a solução pode ser expressa em termos de
uma série de potências em 1/z etc., e usar os métodos já discutidos para obter essa expansão, caso ela
exista, e, dessa forma, conhecer a solução para |z| grande.
Por simplicidade limitaremos nossa discussão a equações de segunda ordem13
y 00 (z) + a1 (z) y 0 (z) + a0 (z) y(z) = 0. (6.77)
Façamos a mudança de variáveis w = 1/z. Definindo u(w) = y(z) = y(1/w), teremos
 
00 2 a1 (1/w) a0 (1/w)
u (w) + − 2
u0 (w) + u(w) = 0. (6.78)
w w w4

E. 6.29 Exercı́cio. Confira. 6

Chamaremos essa equação “versão no infinito” da equação (6.77). Claramente essa equação equivale
a
U 0 (w) = C(w)U (w),
com    
u(w) 0 1
U (w) := , C(w) := ,
u0 (w) −c0 (w) −c1 (w)
onde
a0 (1/w)
c0 (w) := ,
w4
2 a1 (1/w)
c1 (w) := − .
w w2
Analogamente ao que fizemos anteriormente, podemos transformar esse sistema no sistema equiva-
lente
1
Ũ 0 (w) = C̃(w)Ũ (w),
w
onde  
Ũ (w) := E(w)U (w), C̃(w) := w E(w)C(w)E(w)−1 + E 0 (w)E(w)−1 ,
 
  u(w)
1 0
com E(w) = , Ũ (w) =  e
0 w 0
wu (w)
 
  0 1
0 1  
C̃(w) =   =    
1 .
2
 a0 1 a 1
−w c0 (w) −wc1 (w) + 1 − w
−1 + w
w2 w
Por analogia com nossas noções prévias, façamos as seguintes definições:
13
Para uma discussão mais geral, vide [117].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 348/1195

1. Diremos que a equação (6.77) é analı́tica no infinito se C(w) for analı́tica em torno de w = 0.

2. Diremos que a equação (6.77) tem uma singularidade no infinito se C(w) não for analı́tica em
torno de w = 0.

3. Diremos que a equação (6.77) tem uma singularidade simples no infinito (ou que z 0 = ∞ é um
ponto singular simples de (6.77)) se C(w) não for analı́tica em torno de w = 0 mas C̃(w) o for,
ou seja, se c0 (w) tiver um pólo de ordem no máximo 2 em w = 0 ou se c1 (w) tiver um pólo de
ordem no máximo 1 em w = 0, ou ambos.

Vários exemplos são discutidos na Seção 6.7.3.

6.7.3 Alguns Exemplos de Interesse


Nesta seção analisaremos algumas equações diferenciais de importância na Fı́sica-Matemática previa-
mente mencionadas na Seção 5.1.2, página 255, à luz do que discutimos neste capı́tulo.

E. 6.30 Exercı́cio importante. Complete os detalhes de todos os cálculos apresentados nos exemplos
que seguem. 6

1. A equação de segunda ordem com coeficientes constantes

y 00 (z) + by 0 (z) + cy(z) = 0,

onde b e c são constantes, corresponde a


 
0 1
A(z) =  .
−c −b

Assim, a equação é regular em todo z0 ∈ .


Ponto no infinito. A versão no infinito da equação de segunda ordem com coeficientes constantes
é  
00 2 b c
u (w) + − 2 u0 (w) + 4 u(w) = 0.
w w w
Claramente, z0 = ∞ é um ponto singular irregular da equação de segunda ordem com coeficientes
constantes.

2. A equação de Euler
z 2 y 00 (z) + az y 0 (z) + b y(z) = 0,
ou seja,
a 0 b
y 00 (z) + y (z) + 2 y(z) = 0,
z z
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 349/1195

onde a e b são constantes, corresponde a


 
0 1
 
A(z) =  .
b a
− −
z2 z

Para z0 = 0 tem-se  
0 1
Ã(z) =  .
−b −a + 1
Assim, z0 = 0 é um ponto singular simples da equação de Euler.
Ponto no infinito. A versão no infinito da equação de Euler é
2−a 0 b
u00 (w) + u (w) + 2 u(w) = 0.
w w
Claramente, z0 = ∞ é um ponto singular simples da equação de Euler.

3. A equação de Bessel
z 2 y 00 (z) + z y 0 (z) + (z 2 − ν 2 ) y(z) = 0,
ou seja,  
00 1 0 ν2
y (z) + y (z) + 1 − 2 y(z) = 0,
z z
onde ν ∈ , corresponde a


 
0 1
 
A(z) =  2 .
ν 1
−1 −
z2 z
Para z0 = 0 tem-se  
0 1
Ã(z) =  .
ν 2 − z2 0
Assim, z0 = 0 é um ponto singular simples da equação de Bessel.
Ponto no infinito. A versão no infinito da equação de Bessel é
 
00 1 0 1 ν2
u (w) + u (w) + − u(w) = 0.
w w4 w2

Claramente, c0 tem um pólo de ordem 4 em w = 0. Assim, z0 = ∞ é um ponto singular irregular


da equação de Bessel.

4. A equação de Legendre

(1 − z 2 ) y 00 (z) − 2z y 0 (z) + λ(λ + 1) y(z) = 0,


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 350/1195

ou seja,
2z λ(λ + 1)
y 00 (z) − 2
y 0 (z) + y(z) = 0,
1−z 1 − z2
onde λ ∈ , corresponde a
 
0 1
 
A(z) =  .
λ(λ + 1) 2z

1 − z2 1 − z2
Claramente percebe-se que a equação de Legendre é analı́tica no domı́nio simplesmente conexo
D formado pelo disco aberto de raio 1: D = {z ∈ : |z| < 1}. Concluı́mos que as soluções da
equação de Legendre são analı́ticas nesse domı́nio D.
Os pontos z0 = ±1 são pontos singulares da equação de Legendre.
Para z0 = 1 teremos  
0 1
 
Ã(z) =  ,
λ(λ + 1)(z − 1) 1−z
1+z 1+z
que é analı́tica em z0 = 1.
Para z0 = −1 teremos  
0 1
 
Ã(z) =  ,
λ(λ + 1)(z + 1) 1+z
z−1 1−z
que é analı́tica em z0 = −1.
Vemos então que os pontos z0 = ±1 são pontos singulares simples da equação de Legendre.
Ponto no infinito. A versão no infinito da equação de Legendre é
   
00 2w 0 1 λ(1 + λ)
u (w) + u (w) + 2 u(w) = 0.
w2 − 1 w w2 − 1
Claramente, z0 = ∞ é um ponto singular simples da equação de Legendre.
5. A equação de Hermite
y 00 (z) − 2z y 0 (z) + λ y(z) = 0,
onde λ ∈  , corresponde a  
0 1
A(z) = .
−λ 2z
Concluı́mos que a equação de Hermite é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Hermite é
 
00 2 2 λ
u (w) + + 3 u0 (w) + 4 u(w) = 0.
w w w
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 351/1195

Claramente, c0 tem um pólo de ordem 4 em w = 0 e c1 tem um pólo de ordem 3 em w = 0.


Assim, z0 = ∞ é um ponto singular irregular da equação de Hermite.

6. A equação de Airy
y 00 (z) − z y(z) = 0.
corresponde a  
0 1
A(z) = .
z 0

Concluı́mos que a equação de Airy é analı́tica em todo o plano complexo, assim sendo também
as suas soluções.
Ponto no infinito. A versão no infinito da equação de Airy é
2 0 1
u00 (w) + u (w) − 5 u(w) = 0.
w w
Claramente, c0 tem um pólo de ordem 5 em w = 0. Assim, z0 = ∞ é um ponto singular irregular
da equação de Airy.

7. A equação de Laguerre

zy 00 (z) + (1 − z) y 0 (z) + λ y(z) = 0,

ou seja,  
00 1 λ
y (z) + −1 y 0 (z) + y(z) = 0,
z z
onde λ ∈  , corresponde a  
0 1
 
A(z) =  .
λ 1
− 1−
z z
Para z0 = 0 teremos  
0 1
Ã(z) =  .
−λz z
Assim, z0 = 0 é um ponto singular simples da equação de Laguerre.
Ponto no infinito. A versão no infinito da equação de Laguerre é
 
00 1 1 λ
u (w) + + 2 u0 (w) + 3 u(w) = 0.
w w w

Claramente, c0 tem um pólo de ordem 3 em w = 0 e c1 tem um pólo de ordem 2 em w = 0.


Assim, z0 = ∞ é um ponto singular irregular da equação de Laguerre.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 352/1195

8. A equação de Chebyshev

(1 − z 2 ) y 00 (z) − z y 0 (z) + λ2 y(z) = 0,

ou seja,
z λ2
y 00 (z) − y 0
(z) + y(z) = 0,
1 − z2 1 − z2
onde λ ∈  , corresponde a  
0 1
 
A(z) =  .
λ z

1 − z2 1 − z2
Claramente percebe-se que a equação de Chebyshev é analı́tica no domı́nio simplesmente conexo
D formado pelo disco aberto de raio 1: D = {z ∈ : |z| < 1}. Concluı́mos que as soluções da
equação de Chebyshev são analı́ticas nesse domı́nio D.
Os pontos z0 = ±1 são pontos singulares da equação de Chebyshev.
Para z0 = 1 teremos  
0 1
 
Ã(z) =  ,
λ(z − 1) 1
1+z 1+z
que é analı́tica em z0 = 1.
Para z0 = −1 teremos  
0 1
 
Ã(z) =  ,
λ(z + 1) 1
z−1 1−z
que é analı́tica em z0 = −1.
Vemos então que os pontos z0 = ±1 são pontos singulares simples da equação de Chebyshev.
Ponto no infinito. A versão no infinito da equação de Chebyshev é
   
00 1 1 0 1 λ2
u (w) + 2− u (w) + 2 u(w) = 0.
w 1 − w2 w w2 − 1

Claramente, z0 = ∞ é um ponto singular simples da equação de Chebyshev.

9. A equação hipergeométrica

z(1 − z) y 00 (z) + [c − (1 + a + b)z] y 0 (z) − ab y(z) = 0,

ou seja,  
00 c − (1 + a + b)z ab
y (z) + y 0 (z) − y(z) = 0,
z(1 − z) z(1 − z)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 353/1195

com a, b, c constantes, corresponde a


 
0 1
 
A(z) = 

.
ab (1 + a + b)z − c 
z(1 − z) z(1 − z)

Seus pontos singulares são z0 = 0 e z0 = 1.


Para z0 = 0 teremos  
0 1
 
Ã(z) =  ,
abz (a + b)z − c + 1
1−z 1−z
que é analı́tica em z0 = 0.
Para z0 = 1 teremos  
0 1
 
Ã(z) =  ,
ab(z − 1) −(a + b)z + c

z z
que é analı́tica em z0 = 1.
Assim, z0 = 0 e z0 = 1 são pontos singulares simples da equação hipergeométrica.
Ponto no infinito. A versão no infinito da equação hipergeométrica é
 
00 1 (2 − c)w + a + b − 1 ab
u (w) + u0 (w) − 2 u(w) = 0.
w w−1 w (w − 1)

Claramente, z0 = ∞ é um ponto singular simples da equação hipergeométrica.

10. A equação hipergeométrica confluente

z y 00 (z) + [c − z] y 0 (z) − a y(z) = 0,

ou seja, c 
00 a
y (z) + − 1 y 0 (z) − y(z) = 0,
z z
com a, c constantes, corresponde a
 
0 1
 
A(z) =  .
a c
1−
z z

Para z0 = 0 teremos  
0 1
Ã(z) =  ,
az z−c+1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 6 354/1195

que é analı́tica em z0 = 0. Assim, z0 = 0 é um ponto singular simples da equação de hiper-


geométrica confluente.
Ponto no infinito. A versão no infinito da equação hipergeométrica confluente é
 
00 2−c 1 a
u (w) + + 2 u0 (w) − 3 u(w) = 0.
w w w

Claramente, c0 tem um pólo de ordem 3 em w = 0 e c1 tem um pólo de ordem 2 em w = 0.


Assim, z0 = ∞ é um ponto singular irregular da equação hipergeométrica confluente.
Capı́tulo 7
Soluções de Equações Diferenciais Ordinárias
Lineares no Plano Complexo
Conteúdo

7.1 Soluções em Séries de Potências para Equações Regulares . . . . . . . . . 356


7.1.1 A Equação do Oscilador Harmônico Simples . . . . . . . . . . . . . . . . . . . 357
7.1.2 A Equação de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
7.1.3 A Equação de Hermite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
7.1.4 A Equação de Airy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
7.1.5 A Equação de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
7.1.6 O Caso de Equações Regulares Gerais . . . . . . . . . . . . . . . . . . . . . . 370
7.2 Solução de Equações Singulares Regulares. O Método de Frobenius . . . 372
7.2.1 Equações Singulares Regulares. O Caso Geral . . . . . . . . . . . . . . . . . . 376
7.2.2 A Equação de Euler Revisitada . . . . . . . . . . . . . . . . . . . . . . . . . . 385
7.2.3 A Equação de Bessel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
7.2.4 A Equação de Laguerre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
7.2.5 A Equação Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
7.2.6 A Equação Hipergeométrica Confluente . . . . . . . . . . . . . . . . . . . . . 406
7.3 Algumas Equações Associadas . . . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.1 A Equação de Legendre Associada . . . . . . . . . . . . . . . . . . . . . . . . 409
7.3.2 A Equação de Laguerre Associada . . . . . . . . . . . . . . . . . . . . . . . . 411
7.3.3 A Equação de Bessel Esférica . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
7.A Prova da Proposição 7.1. Justificando os Polinômios de Legendre . . . . 414
7.B Provando (7.14) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
7.C Justificando os Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 418
7.D Provando (7.20) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
7.E Porque λ deve ser um Inteiro Positivo na Equação de Laguerre . . . . . 421

rataremos no presente capı́tulo de apresentar soluções de equações diferenciais ordinárias


lineares e homogêneas, regulares ou com pontos singulares regulares. Por simplicidade, e
para atender ao interesse de problemas fı́sicos, trataremos apenas de equações de segunda
ordem mas, em essência, tudo o que faremos facilmente se generaliza para equações de ordem
superior. Nossa abordagem estará centrada no chamado método de expansão em série de potências
(para equações regulares) e no método de Frobenius (para equações com singularidades regulares).

355
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 356/1195

Estudaremos tanto casos gerais (com razoável detalhe) quanto equações particulares de interesse em
Fı́sica.
Em um certo sentido, o presente capı́tulo dá continuidade ao Capı́tulo 6, mas dele só utilizaremos
os Teoremas 6.3 e 6.4, das páginas 342 e 345, respectivamente. Esses teoremas fundamentais são as
justificativas dos métodos de solução que empregaremos.
Comentamos ainda que trataremos as equações diferenciais como equações no plano complexo ainda
que, na Fı́sica, o interesse tipicamente resida em equações na reta real pois, como discutimos no Capı́tulo
6, a natureza das soluções e a justificativa dos métodos de solução são melhor entendidas quando
abandonamos as limitações da reta real de modo a explorar a estrutura analı́tica das equações e suas
soluções.
Por vezes, omitiremos detalhes de cálculos e o estudante é convidado a completá-los como exercı́cio.
Apesar de alguns desses cálculos omitidos serem reconhecidamente entediantes (não só os omitidos,
aliás), o estudante deverá fazê-los ao menos uma vez na vida, pois não é possı́vel apoderar-se do
conhecimento aqui desenvolvido apenas por meio de leitura passiva.
O tratamento que faremos de soluções de equações gerais é bastante detalhado, um tanto mais do
que o por vezes encontrado na literatura. Os resultados gerais estão resumidos nos Teoremas 7.1 e 7.2,
adiante. O tratamento de certas equações particulares de interesse em Fı́sica (como as de Legendre,
Hermite, Airy, Chebyshev, Bessel e Laguerre) é razoavelmente completo e várias propriedades espe-
ciais das soluções, tais como relações de ortogonalidade, relações de recorrência, fórmulas do tipo de
Rodrigues, representações integrais etc. (todas importantes na resolução de problemas de Fı́sica) são
discutidas com detalhe no Capı́tulo 8, página 424. Uma omissão é um estudo detalhado do comporta-
mento assintótico de certas soluções. Esperamos que futuramente essa lacuna possa ser completada.
Exemplos selecionados de problemas de Fı́sica onde algumas das equações particulares que discu-
timos se apresentam (e a conseqüente resolução desses problemas) poderão ser encontrados na Seção
8.3, página 482, à qual remetemos os estudantes interessados em adquirir um pouco de motivação.
A leitura daquela seção requer um conhecimento parcial das soluções das equações diferenciais e suas
propriedades, de modo que o estudante deverá alternar sua leitura com a do material que a precede
nos Capı́tulos 7 e 8.
Todas as equações particulares tratadas, suas soluções e propriedades dessas soluções, são ampla-
mente discutidas na vasta literatura pertinente e a ela remetemos os estudantes interessados. Vide, por
exemplo, [107], [130], [79], [4], [125], [21], [64], [65], [10], [25], [26], [37], [117], [62], [60].

7.1 Soluções em Séries de Potências para Equações Regulares


Vamos na presente seção ilustrar o Teorema 6.3 da página 342 estudando a solução por série de potências
de algumas equações diferenciais ordinárias, homogêneas de segunda ordem e regulares de interesse
(especialmente em Fı́sica). Boa parte dos métodos apresentados nos exemplos aplicam-se a equações
de ordem maior que dois, mas não trataremos de tais generalizações aqui pois elas pouco apresentam
de especial e seu interesse na Fı́sica é reduzido.
Na Seção 7.2, página 372, ilustraremos o Teorema 6.4, página 345, tratando de forma semelhante
várias equações singulares regulares de interesse pelo método de Frobenius.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 357/1195

Conforme demonstramos em páginas anteriores (Teorema 6.3, página 342), se a equação diferencial
linear homogênea de segunda ordem

y 00 (z) + a(z)y 0 (z) + b(z)y(z) = 0 (7.1)

for tal que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z 0 , então suas
soluções serão igualmente analı́ticas em torno desse ponto e poderemos procurar resolvê-la em termos
de séries de potência centradas em z0 :

X
y(z) = cn (z − z0 )n . (7.2)
n=0

O chamado método de série de potências consiste precisamente em inserir o Ansatz (7.2) na equação
(7.1) e determinar recursivamente os coeficientes cn . Pelas conclusões obtidas anteriormente, resumidas
no Teorema 6.3 da página 342, a solução obtida deve ser convergente pelo menos no maior disco aberto
centrado em z0 no qual ambas as funções a(z) e b(z) sejam também analı́ticas.
Ilustraremos a aplicação desse método na resolução da equação do oscilador harmônico simples e
nas equações de Legendre, Hermite, Airy e Chebyshev, todas equações de interesse em Fı́sica. Ao final
discutiremos a solução do problema geral.

7.1.1 A Equação do Oscilador Harmônico Simples


Por razões pedagógicas, vamos começar discutindo uma equação diferencial bastante simples e familiar.
Seja a bem-conhecida equação do oscilador harmônico simples

y 00 (z) + ω02 y(z) = 0 , (7.3)

a(z) = 0 e b(z) = ω02 , ambas analı́ticas em toda parte. Procuremos


onde ω0 é uma constante. Nesse caso P
então uma solução da forma y(z) = ∞ n
n=0 cn z (com z0 = 0). É fácil ver que


X ∞
X ∞
X
0 n−1 n−1 n→n+1
y (z) = ncn z = ncn z = (n + 1)cn+1 z n ,
n=0 n=1 n=0

ou seja,

X
0
y (z) = (n + 1)cn+1 z n (7.4)
n=0
e que

X ∞
X ∞
X
n→n+1
y 00 (z) = n(n + 1)cn+1 z n−1 = n(n + 1)cn+1 z n−1 = (n + 1)(n + 2)cn+2 z n ,
n=0 n=1 n=0

ou seja,

X
00
y (z) = (n + 1)(n + 2)cn+2 z n . (7.5)
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 358/1195

Inserindo-se (7.4) e (7.5) em (7.3), obtem-se


∞ h
X i
(n + 1)(n + 2)cn+2 + ω02 cn z n = 0 .
n=0

Como essa última relação supostamente vale para todo z, tem-se forçosamente que os fatores entre
colchetes são todos nulos (por que?):
−ω02
(n + 1)(n + 2)cn+2 + ω02 cn = 0 , ou seja cn+2 = cn (7.6)
(n + 1)(n + 2)
para todo n ≥ 0. A solução dessa última equação recursiva é
(−1)k ω02k (−1)k ω02k
c2k = c0 , c2k+1 = c1 .
(2k)! (2k + 1)!
com k ≥ 0. Essas expressões relacionam todos os coeficientes cn com os dois primeiros coeficientes, c0
e c1 .
P
Inserindo isso na expressão y(z) = ∞ n
n=0 cn z , tem-se

X ∞
X ∞
X ∞
X
2k 2k+1 (−1)k ω 2k 0 2k (−1)k ω 2k 0
y(z) = c2k z + c2k+1 z = c0 z + c1 z 2k+1
k=0 k=0 k=0
(2k)! k=0
(2k + 1)!


X ∞
(−1)k c1 X (−1)k
= c0 (ω0 z)2k + (ω0 z)2k+1
(2k)! ω0 (2k + 1)!
k=0 k=0

c1
= c0 cos(ω0 z) + sen (ω0 z) .
ω0
Na última passagem pudemos identificar as duas séries de potências com as séries de Taylor (em
torno de 0) das funções seno e co-seno. Notemos que em problemas menos simples, como os que
encontraremos adiante, nem sempre será possı́vel identificar as séries resultantes com as séries de Taylor
de funções previamente conhecidas, o que nos conduzirá à definição de novas funções, as chamadas
funções especiais.
É de se notar que a solução final, y(z) = c0 cos(ω0 z) + ωc10 sen (ω0 z), é analı́tica em toda a parte como
função de z, o que já era esperado do fato de as funções a(z) e b(z) serem funções analı́ticas em toda
parte (duas constantes).
Obtivemos, assim, a bem-conhecida solução do oscilador harmônico simples em termos de uma
combinação linear das funções seno e co-seno. Os coeficientes c0 e c1 podem ser determinados se mais
condições forem impostas à solução. Por exemplo, se impusermos “condições iniciais” y(0) = y 0 e
y 0 (0) = v0 , obtemos c0 = y0 e c1 = v0 .

7.1.2 A Equação de Legendre


A equação diferencial
(1 − z 2 )y 00 (z) − 2zy 0 (z) + λ(λ + 1)y(z) = 0 (7.7)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 359/1195

é denominada equação de Legendre1 de ordem2 λ. Em princı́pio, adotamos λ ∈ , arbitrário, mas na


maioria das aplicações em Fı́sica apenas valores especiais de λ são considerados, a saber, λ é tomado
um inteiro não-negativo.
A equação de Legendre e uma parente próxima, a equação de Legendre associada, tratada na Seção
7.3.1, página 409, surgem em vários problemas de Fı́sica, do Eletromagnetismo à Mecânica Quântica.
Tipicamente ambas surgem quando da resolução da equação de Helmholtz pelo método de separação
de variáveis em coordenadas esféricas em três dimensões. Vide Seção 8.3, página 482.
A equação de Legendre acima pode ser posta na forma padrão (7.1) com
−2z λ(λ + 1)
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z 0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
Inserindo-se (7.4)-(7.5) em (7.7), obtem-se

X ∞
X ∞
X ∞
X
n n+2 n+1
(n + 1)(n + 2)cn+2 z − (n + 1)(n + 2)cn+2 z −2 (n + 1)cn+1 z +λ(λ + 1) cn z n = 0 .
n=0
|n=0 {z } |n=0 {z } n=0

I II
(7.8)
É fácil ver que

X ∞
X ∞
X
n+2 n+2
I := (n + 1)(n + 2)cn+2 z = (n + 1)(n + 2)cn+2 z = (n − 1)n cn z n , (7.9)
n=0 n=−1 n=1

onde, na última igualdade, fizemos a mudança de variáveis n → n − 2. Analogamente,



X ∞
X
II := (n + 1)cn+1 z n+1 = ncn z n , (7.10)
n=0 n=1

onde fizemos a mudança de variáveis n → n − 1. Assim, (7.8) fica



X ∞
X ∞
X ∞
X
n n n
(n + 1)(n + 2)cn+2 z − (n − 1)n cn z − 2 ncn z + λ(λ + 1) cn z n = 0 ,
n=0 n=1 n=1 n=0

ou seja,
" #

X  
2c2 + λ(λ + 1)c0 + (n + 1)(n + 2)cn+2 − (n − 1)n + 2n − λ(λ + 1) cn z n = 0 .
n=1

Como (n − 1)n + 2n = n(n + 1), obtemos o seguinte conjunto de equações


2c2 + λ(λ + 1)c0 = 0 ,
 
(n + 1)(n + 2)cn+2 − n(n + 1) − λ(λ + 1) cn = 0 , ∀n ≥ 1 .
1
Adrien-Marie Legendre (1752-1833).
2
Aqui a palavra “ordem” não deve ser confundida com a ordem da equação diferencial, que é dois.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 360/1195

Essas expressões fornecem as seguintes equações recursivas para os coeficientes c n :


n(n + 1) − λ(λ + 1)
cn+2 = cn , ∀n ≥ 0 . (7.11)
(n + 1)(n + 2)
De maneira análoga ao que ocorre no caso do oscilador harmônico simples (vide (7.6)), podemos
expressar todos os coeficientes cn com n par em termos de c0 e todos os coeficientes cn com n ı́mpar
em termos de c1 . Mais precisamente, tem-se
k−1
" # k−1  
1 Y λ(λ + 1) Y λ(λ + 1)
c2k = 2l(2l + 1) − λ(λ + 1) c0 = − 1− c0 ,
(2k)! l=0 2k l=1
2l(2l + 1)

k−1
" # k−1  
1 Y 1 Y λ(λ + 1)
c2k+1 = (2l + 1)(2l + 2) − λ(λ + 1) c1 = 1− c1 .
(2k + 1)! l=0 2k + 1 l=0 (2l + 1)(2l + 2)

Para λ ∈ genérico concluı́mos que a solução geral da equação de Legendre é da forma


(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,
onde
∞ k−1
!
(0)
X z 2k Y
yλ (z) = 2l(2l + 1) − λ(λ + 1) (7.12)
k=0
(2k)! l=0

∞ k−1
!
(1)
X z 2k+1 Y
yλ (z) = (2l + 1)(2l + 2) − λ(λ + 1) (7.13)
k=0
(2k + 1)! l=0

Conforme comentamos, sabemos a priori que ambas as séries acima convergem para |z| < 1. O que
ocorre caso |z| = 1? Isso é respondido na seguinte proposição, cuja demonstração encontra-se no
Apêndice 7.A, página 414 (vide também [107] para uma outra prova semelhante):
Proposição 7.1 Caso λ ∈ não seja um inteiro não-negativo par, a série em (7.12) diverge em


z = ±1. Caso λ ∈ não seja um inteiro positivo ı́mpar, a série em (7.13) diverge em z = ±1.


Essa proposição ensina-nos que as soluções (7.12) e (7.13) da equação de Legendre serão divergentes
em z = ±1 caso λ não seja um inteiro não-negativo e isso para qualquer escolha de c 0 e c1 não-nulos.
Em aplicações, porém, é muito importante ter-se soluções finitas no intervalo fechado real [−1, 1] de
valores de z. A única esperança que resta reside na situação na qual λ é um inteiro não-negativo e, de
(0) (1)
fato, podemos verificar que em tal caso yλ é finita se λ for par e que yλ é finita se λ for ı́mpar.

• Os Polinômios de Legendre

Contemplando a expressão (7.12) facilmente constata-se que no caso em que λ = 2n, um inteiro
não-negativo par, tem-se
n k−1
!
(0)
X z 2k Y
y2n (z) := 2l(2l + 1) − 2n(2n + 1) ,
k=0
(2k)! l=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 361/1195

que é um polinômio de grau 2n em z.


Analogamente, contemplando a expressão (7.13) facilmente se constata que no caso em que λ =
2n + 1, um inteiro positivo ı́mpar, tem-se
n k−1
!
(1)
X z 2k+1 Y
y2n+1 (z) := (2l + 1)(2l + 2) − (2n + 1)(2n + 2) ,
k=0
(2k + 1)! l=0

que é um polinômio de grau 2n + 1 em z.


Assim, vemos que no caso de λ ser um inteiro não-negativo a equação de Legendre tem uma solução
(0) (1)
finita em toda a parte, a saber, o polinômio c0 y2n (z), caso λ = 2n, par, ou o polinômio c1 y2n+1 (z), caso
λ = 2n + 1, ı́mpar. Definimos, então,
 !


m/2
X z 2k k−1
Y

 (0)

 c0 ym (z) = c0 2l(2l + 1) − m(m + 1) , m par

 (2k)!
k=0 l=0
Pm (z) := .

 (m−1)/2
!

 X z 2k+1 Y
k−1

 c y (1)
(z) = c (2l + 1)(2l + 2) − m(m + 1) , m ı́mpar

 1 m 1
(2k + 1)!
k=0 l=0

É claro pela definição acima que Pm é um polinômio de grau m e o coeficiente do monômio de maior
grau, z m , vale !
m/2−1
1 Y
c0 2l(2l + 1) − m(m + 1) , para m par
m! l=0
e !
(m−3)/2
1 Y
c1 (2l + 1)(2l + 2) − m(m + 1) , para m ı́mpar.
m! l=0

Por razões históricas, convenciona-se escolher c0 e c1 de modo que o coeficiente do monômio de maior
grau de Pm seja igual a 2m(2m)!
(m!)2
. Como facilmente se constata após alguns cálculos entediantes, isso
conduz à seguinte expressão para os polinômios Pm (z):
bm/2c
X (−1)a (2m − 2a)!
Pm (z) := z m−2a , (7.14)
a=0
2m (m − a)! (m − 2a)! a!

onde bm/2c é o maior inteiro menor ou igual a m/2, ou seja,


 m
jmk  2 , m par,
:=
2  m−1
2
, m ı́mpar.

A prova de (7.14) pode ser encontrada no Apêndice 7.B, página 416.

E. 7.1 Exercı́cio. Tente provar (7.14) sem ler o Apêndice 7.B. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 362/1195

A expressão (7.14) define os assim denominados polinômios de Legendre de grau m, cada qual é
solução da equação de Legendre de ordem m

(1 − z 2 )y 00 (z) − 2zy 0 (z) + m(m + 1)y(z) = 0 ,

com m inteiro não-negativo. Como comentamos, essa equação possui, para cada m inteiro não-negativo,
uma segunda solução que é, porém, divergente para z → ±1.
Os quatro primeiros polinômios de Legendre são
1 3 3 5
P0 (z) = 1 , P1 (z) = z , P2 (z) = − + z 2 , P3 (z) = − + z 3 ,
2 2 2 2
como facilmente se vê pela definição acima.
Os polinômios de Legendre possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., as quais serão discutidas na Seção 8.2.1, página 436. Também
remetemos o estudante à literatura pertinente supracitada.

7.1.3 A Equação de Hermite


A equação diferencial
y 00 (z) − 2zy 0 (z) + λy(z) = 0, (7.15)
com λ ∈ é denominada equação de Hermite3 . Essa equação é famosa por surgir em um problema
básico da Mecânica Quântica, a saber, o problema do oscilador harmônico. Vide Seção 8.3.6, página
506. Comparando à forma padrão (7.1), constatamos que aqui

a(z) = −2z e b(z) = λ .

Ambas essas funções são analı́ticas em todo o plano complexo e, pelo Teorema 6.3 da página 342, assim
serão as soluções da equação de Hermite, sendo que
P∞podemos encontrá-las através de uma expansão
n
em série de potências em torno de z0 = 0: y(z) = n=0 cn z .
Inserindo-se (7.4)-(7.5) em (7.15), obtem-se

X ∞
X ∞
X
n n+1
(n + 1)(n + 2)cn+2 z − 2 (n + 1)cn+1 z +λ cn z n = 0 . (7.16)
n=0 n=0 n=0
| {z }
II

A soma II pode ser escrita como em (7.10) e, assim, (7.16) fica



X ∞
X ∞
X
(n + 1)(n + 2)cn+2 z n − 2 ncn z n + λ cn z n = 0 ,
n=0 n=1 n=0

ou seja,
∞ h
X i
2c2 + λc0 + (n + 1)(n + 2)cn+2 + (λ − 2n) cn z n = 0 ,
n=1

3
Charles Hermite (1822-1901).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 363/1195

o que implica

2c2 + λc0 = 0 ,

(n + 1)(n + 2)cn+2 + (λ − 2n) cn = 0 , ∀n≥1.

Disso concluı́mos que


2n − λ
cn+2 = cn , ∀n≥0. (7.17)
(n + 1)(n + 2)
Assim como no caso do oscilador harmônico simples e no caso da equação de Legendre, os coeficientes
cn com n par são proporcionais a c0 e os coeficientes cn com n ı́mpar são proporcionais a c1 . Mais
precisamente, tem-se
k−1
λ λ Y
c2 = − c0 , c2k = −c0 (4l − λ) , k≥2,
2 (2k)! l=1

Y k
1
c2k+1 = c1 (4l − 2 − λ) , k≥1.
(2k + 1)!
l=1

Desta forma, chegamos à seguinte solução geral da equação de Hermite:


(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,

onde
X∞ k−1 ∞ k
(0) λ 2 z 2k Y (1)
X z 2k+1 Y
yλ (z) := 1 − z − λ (4l − λ) , yλ (z) := z + (4l − 2 − λ) .
2 k=2
(2k)! l=1 k=1
(2k + 1)! l=1

Conforme comentamos, o Teorema 6.3 da página 342 garante-nos que ambas as séries acima convergem
(0) (1)
absolutamente para todo z ∈ , fazendo de yλ e yλ funções inteiras de z.

• Os Polinômios de Hermite

No caso em que z é restrita a ser uma variável real, chamêmo-la x, é possı́vel demonstrar que se λ
for real e as séries acima forem infinitas, então ambas comportam-se, para |x| grande, como funções que
crescem mais rápido que exp(x2 /2). Isso é provado no Apêndice 7.C, página 418, e, por outros meios,
em [79] ou em [77]. No contexto da Mecânica Quântica esse fato é indesejado, pois conduz a funções de
onda que não são de quadrado integrável (vide Seção 8.3.6, página 506). Assim, interessa-nos investigar
sob quais circunstâncias as séries acima podem ser reduzidas a polinômios.
Como vemos facilmente por (7.17), isso se dá apenas quando λ for um número inteiro não-negativo
e par: λ = 2m, com m = 0, 1, 2, . . . etc. De fato, se λ = 2m, com m = 0, 1, 2, . . . etc., a expressão
(0)
(7.17) diz-nos que 0 = cm+2 = cm+4 = cm+6 = · · · etc. Assim, caso m for par, yλ será um polinômio
(1)
de ordem m e caso m for ı́mpar, yλ será um polinômio de ordem m.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 364/1195

Defina-se, assim,
  

 m/2 (0)

 (−2) (m − 1)!! y2m (z), para m par,

Hm (z) :=   (7.18)



 (m+1)/2 (1)
 −(−2) (m!!) y2m (z), para m ı́mpar,

ou seja,
  m


 2m 2 X2
z 2k k−1
Y



 (−2)m/2 (m − 1)!! 1 − z − 2m (4l − 2m) , para m par,

 2 (2k)!
 k=2 l=1
Hm (z) :=   (7.19)

 m−1

 X z
2 2k+1 Yk



 −(−2)(m+1)/2 (m!!) z + (4l − 2(m + 1)) , para m ı́mpar.
 (2k + 1)!
k=1 l=1

De maneira compacta, podemos escrever isso da seguinte forma


bm/2c
X (−1)k m!
Hm (z) := (2z)m−2k . (7.20)
k=0
k! (m − 2k)!

A demonstração pode ser encontrada no Apêndice 7.D, página 420.

E. 7.2 Exercı́cio. Tente mostrar isso sem ler o Apêndice 7.D. 6

As funções Hm (z) são polinômios de grau m e são denominados polinômios de Hermite. Os fatores
(−2)m/2 (m − 1)!! e −(−2)(m+1)/2 (m!!) provêm de uma convenção histórica sobre a normalização dos
polinômios de Hermite. Os quatro primeiros são

H0 (z) = 1 , H1 (z) = 2z , H2 (z) = −2 + 4z 2 , H3 (z) = −12z + 8z 3 ,

como facilmente se vê pela definição acima.


Cada polinômio de Hermite Hm é solução da equação de Hermite

y 00 (z) − 2zy 0 (z) + 2my(z) = 0,

com m inteiro positivo. Como mencionamos, essa equação possui ainda uma segunda solução que,
embora finita para todo z ∈ , cresce muito rapidamente quando z é real e |z| → ∞, o que elimina seu
interesse no contexto da Mecânica Quântica (especificamente, no problema do oscilador harmônico).
Os polinômios de Hermite possuem várias propriedades importantes, tais como relações de orto-
gonalidade, fórmulas de recorrência etc., que serão discutidas na Seção 8.2.3, página 452. Também
remetemos o estudante à literatura pertinente supracitada.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 365/1195

7.1.4 A Equação de Airy


A equação diferencial
y 00 (z) − zy(z) = 0.
é denominada equação de Airy4 . Essa equação surge em vários contextos, como por exemplo no estudo
da propagação de ondas eletromagnéticas em meios com ı́ndice de refração variável, no estudo da
reflexão de ondas de radio na atmosfera e na Mecânica Quântica, mais especificamente na equação de
Schrödinger de uma partı́cula que se move em uma dimensão sob um potencial que cresce linearmente
com a posição.
Comparando à forma padrão (7.1), constatamos que aqui a(z) = 0 e b(z) = −z. Ambas essas
funções são analı́ticas em todo o plano complexo e, pelo Teorema 6.3 da página 342, assim serão as
soluções da equação de Airy, sendo que
P podemos encontrá-las através de uma expansão em série de
potências em torno de z0 = 0: y(z) = ∞ c
n=0 n z n
.
Inserindo-se (7.5) em (7.15), obtem-se

X ∞
X
n
(n + 1)(n + 2)cn+2 z − cn z n+1 = 0 . (7.21)
n=0 n=0
| {z }
III

A expressão III pode ser escrita como



X ∞
X
n+1
III = cn z = cn−1 z n
n=0 n=1

pela mudança n → n − 1. Assim, a equação de Airy diz-nos que



X ∞
X
n
(n + 1)(n + 2)cn+2 z − cn−1 z n = 0 ,
n=0 n=1

ou seja,
∞ h
X i
2c2 + (n + 1)(n + 2)cn+2 − cn−1 z n = 0 .
n=1
Com isso, devemos ter
c2 = 0 , (n + 1)(n + 2)cn+2 − cn−1 = 0, ∀n≥1.
ou seja,
cn
c2 = 0 , cn+3 = , ∀n≥0. (7.22)
(n + 2)(n + 3)
O conjunto de coeficientes {cn , n = 0, 1, 2, . . .} é a união dos seguintes três conjuntos disjuntos:
{c3k , k = 0, 1, 2, . . .} = {c0 , c3 , c6 , c9 , . . .}

{c3k+1 , k = 0, 1, 2, . . .} = {c1 , c4 , c7 , c10 , . . .}

{c3k+2 , k = 0, 1, 2, . . .} = {c2 , c5 , c8 , c11 , . . .}


4
George Biddell Airy (1801-1892).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 366/1195

As relações de recorrência de (7.22) implicam que os coeficientes do primeiro conjunto acima são
proporcionais a c0 , que os coeficientes do segundo conjunto acima são proporcionais a c1 e que os
coeficientes do terceiro conjunto acima são proporcionais a c2 . Porém, como c2 = 0, concluı́mos que os
coeficientes do terceiro conjunto são todos nulos. Logo,

X ∞
X
y(z) = c3k z 3k + c3k+1 z 3k+1 .
k=0 k=0

As relações de recorrência de (7.22) dizem-nos que


1 1
c3k = c0 , c3k+1 = c1 e c3k+2 = 0 ,
3k k! (3k − 1)!!! 3k k! (3k + 1)!!!

para todo k ≥ 0. Assim, a solução geral da equação de Airy é


"∞ # "∞ #
X z 3k X z 3k+1
y(z) = c0 + c1 . (7.23)
k=0
3k k! (3k − 1)!!! k=0
3k k! (3k + 1)!!!

Como 3k k! = (3k)!!! (por que?), podemos reescrever isso como


"∞ # "∞ #
X z 3k X z 3k+1
y(z) = c0 + c1 .
k=0
(3k)!!! (3k − 1)!!! k=0
(3k)!!! (3k + 1)!!!

• As funções de Airy de primeiro e de segundo tipo

Há ainda uma outra maneira de reescrever (7.23), a saber, usando as identidades
 
3k Γ k + 32 3k Γ k + 43
(3k − 1)!!! =  , (3k + 1)!!! =  , (7.24)
Γ 32 Γ 34

sendo, para x ≥ 0, Z ∞
Γ(x) := e−t tx−1 dt (7.25)
0
a bem conhecida Função Gama de Euler, a qual satisfaz

Γ(x + 1) = xΓ(x) . (7.26)

assim como a assim denominada fórmula de duplicação



Γ(x)Γ(x + 1/2) = 21−2x πΓ(2x) . (7.27)

E. 7.3 Exercı́cio. Demonstre a fórmula de duplicação (7.27). 6

E. 7.4 Exercı́cio. Usando (7.26) prove (7.24). 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 367/1195

Com isso, podemos escrever a solução (7.23) da equação de Airy como


  "X ∞ 3k
#   "X ∞ 3k+1
#
2 z 4 z
y(z) = c0 Γ 2
 + c1 Γ 4
 . (7.28)
3 3 2k k! Γ k + 3
3 3 2k k! Γ k + 3
k=0 k=0

Essa expressão pode ser escrita como combinação linear das seguintes funções:

X X∞
z 3k z 3k+1
Ai(z) :=  − ,
k=0
32k+2/3 k! Γ k + 23 k=0
3 2k+4/3 k! Γ k + 4
3

" ∞ ∞
#
X z 3k X z 3k+1
Bi(z) := 31/2  +  ,
k=0
32k+2/3 k! Γ k + 23 k=0
3 2k+4/3 k! Γ k + 4
3

as quais são denominadas funções de Airy de primeiro tipo e de segundo tipo, respectivamente. As
funções Ai(z) e Bi(z) foram definidas como acima por convenção histórica. Ambas são analı́ticas
para todo z ∈ e representam soluções da equação de Airy. Propriedades dessas funções podem ser
estudadas em [79].

7.1.5 A Equação de Chebyshev


A equação diferencial
(1 − z 2 )y 00 (z) − z y 0 (z) + λ2 y(z) = 0 (7.29)
é denominada equação de Chebyshev5 . Em princı́pio adotamos λ ∈ arbitrário, mas o maior interesse
estará no caso em que λ é um inteiro não-negativo.
A equação de Chebyshev acima pode ser posta na forma padrão (7.1) com
−z λ2
a(z) = e b(z) = .
1 − z2 1 − z2
Claramente, ambas as funções são analı́ticas emPum disco de raio 1 centrado em z 0 = 0. É, portanto,
legı́timo procurarmos soluções na forma y(z) = ∞ n
n=0 cn z (com z0 = 0). Tais soluções serão analı́ticas
pelo menos no disco de raio 1 centrado em z0 = 0.
Inserindo-se (7.4)-(7.5) em (7.29), obtem-se

X ∞
X ∞
X ∞
X
n n+2 n+1 2
(n + 1)(n + 2)cn+2 z − (n + 1)(n + 2)cn+2 z − (n + 1)cn+1 z +λ cn z n = 0 . (7.30)
n=0
|n=0 {z } |n=0 {z } n=0

I II

Novamente, I e II são dadas como em (7.9) e (7.10), respectivamente, e, portanto, (7.30) fica

X ∞
X ∞
X ∞
X
n n n 2
(n + 1)(n + 2)cn+2 z − (n − 1)n cn z − ncn z + λ cn z n = 0 ,
n=0 n=1 n=1 n=0

5
Pafnuty Lvovich Chebyshev (1821-1894).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 368/1195

ou seja, " #

X  
2c2 + λ2 c0 + (n + 1)(n + 2)cn+2 − (n − 1)n + n − λ2 cn z n = 0 .
n=1

Como (n − 1)n + n = n2 , obtemos o seguinte conjunto de equações

2c2 + λ2 c0 = 0 ,
 
(n + 1)(n + 2)cn+2 − n2 − λ2 cn = 0 , ∀n ≥ 1 .

Essas expressões fornecem as seguintes equações recursivas para os coeficientes c n :

n2 − λ 2
cn+2 = cn , ∀n ≥ 0 . (7.31)
(n + 1)(n + 2)

De maneira análoga ao que fizemos em exemplos anteriores, podemos expressar todos os coeficientes c n
com n par em termos de c0 e todos os coeficientes cn com n ı́mpar em termos de c1 . Mais precisamente,
tem-se
k−1
" #
1 Y
c2k = (2l)2 − λ2 c0 ,
(2k)! l=0

k−1
" #
1 Y
2 2
c2k+1 = (2l + 1) − λ c1 .
(2k + 1)! l=0

Para λ ∈ genérico concluı́mos que a solução geral da equação de Chebyshev é da forma


(0) (1)
y(z) = c0 yλ (z) + c1 yλ (z) ,

onde
∞ k−1
" #
(0)
X z 2k Y
yλ (z) = 1+ (2l)2 − λ2 , (7.32)
k=1
(2k)! l=0

∞ k−1
" #
(1)
X z 2k+1 Y 2 2
yλ (z) = z+ (2l + 1) − λ . (7.33)
k=1
(2k + 1)! l=0

• Os Polinômios de Chebyshev

Como mencionamos, o principal interesse reside no caso em que λ é um inteiro não-negativo: λ = m.


(0) (1)
Nesse caso é fácil ver que ym (z) será um polinômio de grau m, caso m seja par e ym (z) será um
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 369/1195

polinômio de grau m, caso m seja ı́mpar. Esses polinômios são


m/2 k−1
" #
X z 2k Y
(0)
ym (z) = 1 + (2l)2 − m2 , m par,
(2k)!
k=1 l=0

(m−1)/2 k−1
" #
X z 2k+1 Y
(1)
ym (z) = z + (2l + 1)2 − m2 , m ı́mpar.
(2k + 1)!
k=1 l=0

Por uma convenção histórica, costuma-se redefinir esses polinômios multiplicando-os por uma constante
dependente de m de modo a fazer o coeficiente do monômio de maior grau, z m , igual a 2m−1 . Após
alguns cálculos entediantes o estudante poderá convencer-se que, com essa convenção, os polinômios
acima podem ser escritos de uma forma compacta como
bm/2c
m X (−1)k (m − k − 1)!
Tm (z) := (2z)m−2k , (7.34)
2 k=0 k! (m − 2k)!

ou ainda como
bm/2c
X  
p m p
Tm (z) = (−1) z m−2p 1 − z 2 , (7.35)
p=0
2p

ambas válidas para todo m = 0, 1, 2, 3, 4, . . .. Os polinômios assim definidos são denominados


polinômios de Chebyshev, os quais desempenham um papel central na teoria da aproximação. Vide,
por exemplo, [29], [120], [112] ou [87].
Os quatro primeiros polinômios de Chebyshev são

T0 (z) = 1 , T1 (z) = z , T2 (z) = 2z 2 − 1 , T3 (z) = 4z 3 − 3z .

Uma das mais curiosas e importantes propriedades dos polinômios de Chebyshev Tm é a seguinte
identidade: 
Tm (z) = cos m arccos(z) , (7.36)
a qual pode ser facilmente demonstrada a partir da expressão (7.35). Vide exercı́cio abaixo.
Demonstrar diretamente a validade das expressões (7.34), (7.35) e (7.36) pode ser trabalhoso, por
envolver o uso de várias identidades combinatórias um tanto complicadas. O procedimento mais prático
é provar que todas essas expressões satisfazem a equação de Chebyshev e as mesmas condições iniciais,
por exemplo em z = 0.
De (7.36) segue a interessante propriedade de composição

Tn (Tm (z)) = Tnm (z), (7.37)

válida para todos n, m não-negativos.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 370/1195

E. 7.5 Exercı́cio resolvido. Prove (7.35) a partir de (7.36). Sugestão: defina y = arccos(z) e escreva
o lado direito como

cos m arccos(z) = cos(my)

1  imy 
= e + e−imy
2
1
= [(cos y + i sen y)m + (cos y − i sen y)m ]
2
1 h √ m  √ m i
= z + i 1 − z2 + z − i 1 − z2
2
" m   m   #
1 X m m−p  √ p X m  √ p
= z i 1 − z2 + z m−p −i 1 − z 2 .
2 p=0 p p=0
p

É muito fácil ver que nas duas somas acima os termos com p ı́mpar cancelam-se mutuamente. Assim,
ficamos com
bm/2c
X  
 p m p
cos m arccos(z) = (−1) z m−2p 1 − z 2 ,
p=0
2p
que é o que querı́amos. Para provar (7.36) a partir de (7.35), basta ler as linhas acima do fim para o começo.
6

7.1.6 O Caso de Equações Regulares Gerais


Nas páginas acima resolvemos em vários exemplos particulares a equação
y 00 (z) + a(z)y 0 (z) + b(z)y(z) = 0 (7.38)
em casos em que os coeficientes a(z) e b(z) são funções analı́ticas de z em torno de um ponto z 0 . Para
tal, evocando o Teorema 6.3, página 342, procuramos soluções na forma de séries de potências:

X
y(z) = cn (z − z0 )n . (7.39)
n=0

Vamos agora mostrar como o método que descrevemos se aplica ao caso geral no qual as funções a(z)
e b(z) são também dadas em termos de séries de potências:

X ∞
X
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n .
n=0 n=0

Usando novamente (7.4) e (7.5) a equação (7.38) fica (adotamos daqui para frente z 0 = 0, sem perda
de generalidade)
∞ ∞
! ∞ ! ∞
! ∞ !
X X X X X
n n n n n
(n + 1)(n + 2)cn+2 z + an z (n + 1)cn+1 z + bn z cn z . (7.40)
n=0 n=0 n=0 n=0 n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 371/1195

P∞ P∞
Para o produto de duas séries de potência p=0 αp z p e q=0 βq z q vale

! ∞
! ∞ X
∞ ∞ n
!
X X X X X
p q p+q
αp z βq z = α p βq z = αn−m βm zn . (7.41)
p=0 q=0 p=0 q=0 n=0 m=0

E. 7.6 Exercı́cio. Mostre isso. 6

Assim, (7.40) fica


∞ ∞ n
! ∞ n
!
X X X X X
(n + 1)(n + 2)cn+2 z n + an−m (m + 1)cm+1 zn + bn−m cm z n = 0,
n=0 n=0 m=0 n=0 m=0

ou seja,
∞ h
X n
X n
X i
(n + 1)(n + 2)cn+2 + (m + 1)an−m cm+1 + bn−m cm z n = 0,
n=0 m=0 m=0

o que implica
Xn
1 
cn+2 = − (m + 1)an−m cm+1 + bn−m cm (7.42)
(n + 1)(n + 2) m=0
para todo n ≥ 0. Observe que essa expressão determina cn+2 em termos de c0 , c1 , . . . , cn+1 . Assim,
apenas fixando c0 e c1 podemos determinar todos os demais coeficientes cn através da expressão recursiva
acima.
Como dissemos,
P∞ os resultados que nos conduziram ao Teorema 6.3, página 342, garantem-nos que
n
a série y(z) = n=0 cn z assim obtida é convergente na mesma região em que convergem as séries
de a(z) e b(z), de modo que não precisamos provar isso. Alguns autores (por exemplo,P∞ [107]) usam
n
as expressões recursivas (7.42) para demonstrar a convergência da série y(z) = n=0 cn z . Como
dissemos, pelo nosso proceder isso não é mais necessário, mas o estudante interessado é convidado a
estudar essa outra (elegante) demonstração no texto supracitado.
Para futura referência, resumimos nossas conclusões sobre equações regulares no seguinte teorema.
Teorema 7.1 (Solução de equações regulares por expansão em série de potências) Considere-
se a equação diferencial
y 00 (z) + a(z)y 0 (z) + b(z)y(z) = 0 , (7.43)
z ∈ , com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ X∞
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0

séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0. Então a solução
geral da equação (7.43) pode ser expressa em termos de uma expansão em série de potências em z − z 0 :

X
y(z) = cn (z − z0 )n ,
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 372/1195

onde os coeficientes cn podem ser obtidos através das relações recursivas


Xn
1 
cn+2 = − (m + 1)an−m cm+1 + bn−m cm , ∀n≥0,
(n + 1)(n + 2) m=0

a partir dos dois primeiros coeficientes c0 e c1 , arbitrários. A expansão em série de potências para y(z)
converge absolutamente pelo menos na região |z − z0 | < r, onde representa uma função analı́tica. 2

7.2 Solução de Equações Singulares Regulares. O Método de


Frobenius
Na presente seção ilustraremos o Teorema 6.4, página 345, estudando a solução, por um método
devido a Frobenius6 , de algumas equações diferenciais ordinárias, homogêneas de segunda ordem e
singulares regulares de interesse (especialmente em Fı́sica). Boa parte dos métodos apresentados nos
exemplos aplicam-se a equações de ordem maior que dois, mas não trataremos de tais generalizações
aqui pois elas pouco apresentam de especial e seu interesse na Fı́sica é reduzido.
Vale aqui novamente a advertência sobre a omissão de alguns detalhes de cálculos, sendo o estudante
novamente convidado a completá-los como exercı́cio (todos merecem ser feitos ao menos uma vez na
vida). Todas as equações particulares tratadas e suas soluções são amplamente discutidos na vasta
literatura pertinente, por exemplo, aquela listada à página 356.
Conforme demonstramos em páginas anteriores (Teorema 6.3, página 342), se a equação diferencial
linear homogênea de segunda ordem
a(z) 0 b(z)
y 00 (z) + y (z) + y(z) = 0 (7.44)
(z − z0 ) (z − z0 )2
a(z)
for tal que a(z) e b(z) são funções analı́ticas de z em torno de um ponto z0 , então o coeficiente (z−z0 )
b(z)
tem no máximo uma singularidade de tipo polo de ordem 1 em z0 e o coeficiente (z−z 0)
2 tem no máximo

uma singularidade de tipo polo de ordem 2 em z0 . Assim, pelas nossas definições prévias, z0 é um ponto
singular regular da equação (7.44). Nesse caso, o Teorema 6.3, página 342, diz-nos que ou a equação
(7.44) tem duas soluções independentes da forma

X
γ
y(z) = (z − z0 ) cn (z − z0 )n . (7.45)
n=0
P
onde γ ∈ e a série ∞ n
n=0 cn (z − z0 ) é absolutamente convergente para |z − z0 | < r (e, portanto, repre-
senta uma função analı́tica em torno de z0 ) ou então a equação (7.44) tem duas soluções independentes,
uma da forma (7.45) e outra da forma

X ∞
X
0
y(z) = (z − z0 )γ (ln(z − z0 )) cn (z − z0 )n + (z − z0 )γ vn (z − z0 )n . (7.46)
n=0 n=0

6
Ferdinand Georg Frobenius (1849-1917).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 373/1195

P P∞
onde, novamente as séries ∞ n
n=0 cn (z − z0 ) e
n
n=0 vn (z − z0 ) são absolutamente convergentes para
|z − z0 | < r (e, portanto, representam funções analı́ticas em torno de z0 ). Em ambos os casos acima
r > 0 é o raio do maior disco aberto centrado em z0 dentro do qual a(z) e b(z) são analı́ticas.
O chamado método de Frobenius consiste precisamente em inserir-se o Ansatz (7.45) na equação
(7.44) e determinar recursivamente os coeficientes cn , assim como o expoente γ. Caso duas soluções
distintas sejam encontradas dessa forma, o problema está resolvido. Caso se encontre apenas uma
solução, então uma segunda solução da forma (7.46) deve ser procurada através da determinação
recursiva dos coeficientes cn e vn , assim como dos expoentes γ e γ 0 .
Ao contrário do que fizemos no caso de equações regulares, quando primeiro exploramos exemplos
particulares para depois tratarmos do caso geral, é mais conveniente no presente contexto que nos apo-
deremos primeiramente da análise geral para depois tratarmos de equações especı́ficas, pois uma visão
prévia das complicações envolvidas nos auxiliará a evitar certas armadilhas ocultas no tratamento
de equações singulares regulares particulares7 . Ilustraremos o método de Frobenius apresentando a
resolução da equação de Euler, da equação de Bessel, da equação de Laguerre e das equações hiper-
geométrica e hipergeométrica confluente, todas de interesse em Fı́sica.
O principal teorema que demonstraremos, o qual resume os resultados do método de Frobenius e
expressa a solução de uma equação singular regular homogênea de segunda ordem geral, é o seguinte:
Teorema 7.2 (Solução de equações singulares regulares pelo método de Frobenius) Seja a
equação diferencial
(z − z0 )2 y 00 (z) + (z − z0 )a(z)y 0 (z) + b(z)y(z) = 0 , (7.47)
z ∈ , com a(z) e b(z) analı́ticas em torno de z0 e expressas em termos de suas séries de Taylor em
torno de z0 como
X∞ X∞
n
a(z) = an (z − z0 ) , b(z) = bn (z − z0 )n ,
n=0 n=0

séries estas supostas absolutamente convergentes em |z − z0 | < r, para algum r > 0.


Seja definido o polinômio de segundo grau

f (x) := x(x − 1) + a0 x + b0 = x2 + (a0 − 1)x + b0 ,

e considere-se a equação algébrica


f (x) = 0 , (7.48)
a qual é denominada equação indicial. Sejam γ± as soluções dessa equação no plano complexo:
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Então a equação (7.47) possui duas soluções independentes y 1 (z) e y2 (z), válidas pelo menos na região
0 < |z − z0 | < r. A forma dessas soluções varia conforme as seguintes condições complementares sobre
γ− e γ+ : 1. γ− − γ+ 6∈ , 2. γ− − γ+ = 0 ou 3. γ− − γ+ ∈ \ {0}, como enumeramos a seguir:
7
O estudante é convidado a não entrar em pânico diante da aparente complexidade de algumas expressões que
obteremos. Na maioria das equações diferenciais de interesse as funções a(z) e b(z) são apenas polinômios de grau 0, 1
ou 2 e as expressões obtidas no tratamento geral se simplificam um tanto.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 374/1195

1. Caso γ− − γ+ 6∈ .
Nesse caso tem-se

X ∞
X
γ− n γ+
y1 (z) = (z − z0 ) cn (γ− )(z − z0 ) e y2 (z) = (z − z0 ) cn (γ+ )(z − z0 )n , (7.49)
n=0 n=0

onde
n−1 h
X i
1
cn (γ± ) = − (m + γ± )an−m + bn−m cm (γ± ) , (7.50)
f (γ± + n) m=0
para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os c n (γ− ) a partir de um
c0 (γ− ) não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo
arbitrário.

2. Caso γ− − γ+ = 0.
p
Neste caso (a0 − 1)2 − 4b0 = 0 e γ− = γ+ = γ0 com

1 − a0
γ0 :=
2
e tem-se

X ∞
X
γ0 n γ0
y1 (z) = (z−z0 ) cn (γ0 ) (z−z0 ) e y2 (z) = y1 (z) ln(z−z0 )+(z−z0 ) vn (γ0 ) (z−z0 )n ,
n=0 n=0
(7.51)
onde
n−1 h
X i
1
cn (γ0 ) = − (m + γ0 )an−m + bn−m cm (γ0 ) (7.52)
f (γ0 + n) m=0
para todo n ≥ 1, e

" n
1   X
vn (γ0 ) = − − 2(n + γ0 ) − 1 cn (γ0 ) − an−m cm (γ0 )
f (γ0 + n) m=0

n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm (γ0 ) , ∀ n ≥ 1 , (7.53)
m=0

onde os coeficientes cn (γ0 ) são obtidos recursivamente a partir de um c0 (γ0 ) não-nulo arbitrário
e os coeficientes vn (γ0 ) são obtidos recursivamente a partir dos coeficientes cm (γ0 ) e a partir de
um v0 (γ0 ) arbitrário (mas que pode ser escolhido igual a zero).

3. Caso γ− − γ+ ∈ \ {0}.
p
Neste caso γ− − γ+ = − (a0 − 1)2 − 4b0 é um inteiro não-nulo. Definamos então
p

n0 = (a0 − 1)2 − 4b0 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 375/1195

Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Definamos também

γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(7.54)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.

Com essas definições tem-se


γ1 = γ 2 + n0 .
Então,

X ∞
X
γ1 n γ2
y1 (z) = (z −z0 ) cn (γ1 )(z −z0 ) e y2 (z) = Ay1 (z) ln(z −z0 )+(z −z0 ) vn (z −z0 )n ,
n=0 n=0
(7.55)
onde
n−1 h
X i
1
cn (γ1 ) = − (m + γ1 )an−m + bn−m cm (γ1 ) , (7.56)
f (γ1 + n) m=0
para n ≥ 1 e
 n−1 
 1 X 



 − (m + γ2 )an−m + bn−m vm , para 1 ≤ n ≤ n0 − 1 ,

 f (γ2 + n) m=0




vn = arbitrário , para n = n0 ,



 " #

 n−1

 1 X 

 − f (γ + n) −Agn−n0 +
 (m + γ2 )an−m + bn−m vm , para n > n0 ,
2 m=0
(7.57)
onde,
0 −1
nX
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm (7.58)
c0 (γ1 ) n0 m=0
e n
X
gn = [2(n + γ1 ) − 1] cn (γ1 ) + an−m cm (γ1 ) , n≥0. (7.59)
m=0

As expressões recursivas para cn (γ1 ) dependem de um c0 (γ1 ) não-nulo e arbitrário e as expressões


recursivas para vn dependem também de um v0 arbitrário.

Todas as séries de potência em z − z0 apresentadas acima convergem absolutamente pelo menos na


região |z − z0 | < r e nela representam, portanto, funções analı́ticas. 2

Para a demonstração desse teorema devotaremos toda a Seção 7.2.1. Em uma primeira leitura o
estudante poderá dispensar-se de um estudo detalhado da demonstração e passar mais rapidamente
aos exemplos discutidos na Seção 7.2.2, página 385, e seguintes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 376/1195

7.2.1 Equações Singulares Regulares. O Caso Geral


Daqui para frente, sem perda de generalidade, adotaremos z0 = 0.
Seja, então, a equação (7.44) escrita agora na forma

z 2 y 00 (z) + za(z)y 0 (z) + b(z)y(z) = 0 (7.60)

com a(z) e b(z) analı́ticas em torno de z0 = 0 e expressas em termos de suas séries de Taylor em torno
de 0 como ∞ ∞
X X
n
a(z) = an z , b(z) = bn z n .
n=0 n=0

Sob a luz do Teorema 6.4, página 345, procuraremos primeiramente uma solução na forma

X
y(z) = cn z n+γ . (7.61)
n=0

Antes de iniciarmos nossa análise, comentemos que, sem perda de generalidade, podemos sempre adotar
o primeiro coeficiente, c0 , como não-nulo: c0 6= 0. Isso se deve ao seguinte. Se cm fosse o primeiro
coeficiente não-nulo, terı́amos
X∞
y(z) = cn z n+γ .
n=m

Agora, com a mudança de variável n0 = n − m ficarı́amos com



X 0
y(z) = cn0 +m z n +(γ+m)
n0 =0

redefinindo c0n0 := cn0 +m e γ 0 = γ + m, ficarı́amos com



X ∞
X
0 0 0
y(z) = c0n0 z n +γ = c0n z n+γ .
n0 =0 n=0

A última expressão possui a mesma estrutura de (7.61) mas, como se vê, o primeiro coeficiente é
c00 = cm , que é não-nulo, por hipótese.
Isto posto, passemos a analisar o que se passa inserindo a expressão (7.61) em (7.60). Para (7.61)
valem ∞
X
y 0 (z) = (n + γ)cn z n+γ−1 (7.62)
n=0
e ∞
X
00
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (7.63)
n=0

a equação (7.60) fica


∞ ∞
! ∞ ∞
! ∞
X X X X X
n+γ n n+γ n
(n + γ)(n + γ − 1)cn z + an z (n + γ)cn z + bn z cn z n+γ = 0.
n=0 n=0 n=0 n=0 n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 377/1195

Usando novamente (7.41), isso fica


∞ ∞ n
! ∞ n
!
X X X X X
(n + γ)(n + γ − 1)cn z n+γ + an−m (m + γ)cm z n+γ + bn−m cm z n+γ = 0.
n=0 n=0 m=0 n=0 m=0

ou seja,

" n
! n
!#
X X X
(n + γ)(n + γ − 1)cn + an−m (m + γ)cm + bn−m cm z n+γ = 0
n=0 m=0 m=0

que implica
h i
γ(γ − 1) + a0 γ + b0 c0 = 0 ,

h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 .
m=0

para todo n ≥ 0. Como c0 6= 0, temos que

γ(γ − 1) + a0 γ + b0 = 0 , (7.64)

h i n−1 h
X i
(n + γ)(n + γ − 1) + a0 (n + γ) + b0 cn = − an−m (m + γ) + bn−m cm , ∀ n ≥ 1 . (7.65)
m=0

A equação (7.64) é denominada na literatura equação indicial, por ser uma equação algébrica (de
segundo grau) para o ı́ndice γ. Antes de escrevermos a solução dessa equação, denotemos por f o
polinômio de segundo grau

f (x) = x(x − 1) + a0 x + b0 = x2 + (a0 − 1)x + b0 .

As equações (7.64) e (7.65) podem, claramente, ser reescritas como

f (γ) = 0 , (7.66)
n−1 h
X i
f (γ + n) cn = − an−m (m + γ) + bn−m cm , ∀n ≥ 1 . (7.67)
m=0

A equação f (γ) = 0 é uma equação algébrica de segundo grau, cujas soluções são
p p
1 − a0 − (a0 − 1)2 − 4b0 1 − a0 + (a0 − 1)2 − 4b0
γ− = e γ+ = .
2 2
Assim, a equação indicial f (γ) = 0 obriga o ı́ndice γ a ser γ− ou γ+ . Há dois casos a considerar: o
caso γ− − γ+ 6∈ e o caso γ− − γ+ ∈ . Trataremos primeiramente do caso γ− − γ+ 6∈ , que é o mais
simples.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 378/1195

• O caso γ− − γ+ 6∈

Como a diferença γ− − γ+ não é um número inteiro, tem-se em particular que γ− 6= γ+ . Fora isso,
como γ− e γ+ são os dois únicos zeros (distintos) do polinômio f (x), tem-se que f (γ± + n) 6= 0 para
todos n ≥ 1 inteiros. Se assim não fosse e houvesse n0 ∈ com, digamos, f (γ+ + n0 ) = 0 valeria
γ− = γ+ + n0 , ou seja, γ− − γ+ = n0 , que é inteiro: uma contradição. Com isso, podemos de (7.67)
obter
n−1 h
X i
1
cn (γ± ) = − an−m (m + γ± ) + bn−m cm (γ± )
f (γ± + n) m=0

n−1 h
X i
1
= − a n−m (m + γ ± ) + b n−m cm (γ± ) , (7.68)
(γ± + n)2 + (a0 − 1)(γ± + n) + b0 m=0

para todo n ≥ 1. Essas expressões recursivas permitem-nos obter todos os c n (γ− ) a partir de um c0 (γ− )
não-nulo arbitrário e, respectivamente, todos os cn (γ+ ) a partir de um c0 (γ+ ) não-nulo arbitrário.
Concluı́mos assim, que no caso γ− − γ+ 6∈ a equação diferencial (7.60) (com z0 = 0) possui duas
soluções linearmente independentes y1 (z) e y2 (z), dadas por

X ∞
X
y1 (z) = cn (γ− )z n+γ− e y2 (z) = cn (γ+ )z n+γ+ ,
n=0 n=0

com cn (γ± ) dadas por (7.68), a solução geral sendo uma combinação linear de ambas. As constantes
c0 (γ− ) e c0 (γ+ ) são não-nulas e arbitrárias.

• O caso γ− − γ+ ∈

O caso γ− −γ+ ∈ subdivide-se em dois: o caso γ− −γ+ = 0 e o caso γ− −γ+ ∈ \{0}. Comecemos
com o primeiro.

• O caso γ− = γ+

O caso γ− = γ+ ocorre se e somente se (a0 − 1)2 − 4b0 = 0 e, portanto, tem-se γ− = γ+ = γ0 , com


1 − a0
γ0 := . (7.69)
2
Note-se que se (a0 − 1)2 − 4b0 = 0 a equação f (x) = 0 tem apenas γ0 por raiz e, portanto, f (n + γ0 ) 6= 0
para todo n ≥ 1. Conseqüentemente, os coeficientes cn com n ≥ 1 serão dados recursivamente por
(vide (7.67))
n−1 h
X i
1
cn (γ0 ) = − an−m (m + γ0 ) + bn−m cm (γ0 )
f (γ0 + n) m=0

  X
n−1 h i
1
= − 2
an−m (m + γ0 ) + bn−m cm (γ0 ) , (7.70)
(γ0 + n) + (a0 − 1)(γ0 + n) + b0 m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 379/1195

para todo n ≥ 1. Como se constata, a última expressão relaciona cn com os coeficientes anteriores
cn−1 , . . . , c0 . Assim, fixando apenas c0 todos os demais estão determinados. Obtemos dessa forma,
para o caso (a0 − 1)2 − 4b0 = 0 a solução

X
y1 (z) = cn (γ0 ) z n+γ0 , (7.71)
n=0

onde os coeficientes cn (γ0 ) são obtidos recursivamente de (7.70) a partir de um c0 arbitrário. Pelo
Teorema 6.4, página 345, a série acima será convergente (ao menos na região onde as séries de a(z) e
b(z) convergem).
Com esse proceder obtivemos apenas uma solução da equação diferencial (7.60). Como a mesma
é de segunda ordem, uma segunda solução deverá existir. Novamente, o Teorema 6.4, página 345,
indica-nos que essa segunda solução pode ter uma singularidade logarı́tmica. Podemos procurar essa
segunda solução seguindo um procedimento devido a D’Alembert8 , que consiste em procurar soluções
da forma
y2 (z) = Ay1 (z) ln(z) + v(z) , (7.72)
sendo y1 (z) a solução já conhecida em (7.71) e onde A é uma constante a ser determinada, assim como
a função v(z). Note-se que o Ansatz (7.72) está de acordo com o Teorema 6.4, página 345, que prevê a
ocorrência de soluções com uma singularidade logarı́tmica. A especialidade do Ansatz de D’Alembert
está em espertamente9 prever que o fator que multiplica ln(z) é a primeira solução y1 (z).
Substituindo (7.72) na equação (7.60), obtem-se a seguinte equação para v(z):
 
z 2 v 00 (z) + za(z)v 0 (z) + b(z)v(z) = −A 2zy10 (z) + (a(z) − 1)y1 (z) . (7.73)

E. 7.7 Exercı́cio. Verifique! 6

Como facilmente se verifica, o lado direito é dado pela expansão



X
−A fn z n+γ0 , (7.74)
n=0

onde n
X
fn = [2(n + γ0 ) − 1] cn (γ0 ) + an−m cm (γ0 ) . (7.75)
m=0
P
A equação (7.74) sugere que uma solução para v(z) deve ser procurada na forma v(z) = ∞ n=0 vn z
n+γ0
.
Inserindo isso em (7.73) tem-se
" n h
#
X∞ X i X∞
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm z n+γ0 = −A fn z n+γ0 ,
n=0 m=0 n=0

8
Jean Le Rond d’Alembert (1717-1783).
9
Na literatura matemática o truque é por vezes denominado método de redução de D’Alembert e pode ser usado em
várias equações diferenciais de segunda ordem para se obter uma segunda solução da equação a partir de uma primeira
solução conhecida.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 380/1195

que implica
n h
X i
(n + γ0 )(n + γ0 − 1)vn + (m + γ0 )an−m + bn−m vm = −Afn
m=0

para todo n ≥ 0. Para n = 0 a relação acima é


h i
γ0 (γ0 − 1) + a0 γ0 + b0 v0 = −Af0 ,

que é uma identidade trivial, já que γ0 (γ0 − 1) + a0 γ0 + b0 = 0 e que f0 = γ0 [2γ0 − 1 + a0 ] c0 (γ0 ) = 0,
por (7.69). Para n ≥ 1 tem-se, porém,
  " n−1 h
X i
#
1
vn = − −Afn + (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 ,
(γ0 + n)2 + (γ0 + n)(a0 − 1) + b0 m=0
(7.76)
o que permite obter recursivamente todos os vn a partir de v0 . Expressando-se os fn ’s como em (7.75),
tem-se

  " n
X
1
vn (γ0 ) = − 2
−[2(n + γ0 ) − 1] cn (γ0 ) − an−m cm (γ0 )
(γ0 + n) + (γ0 + n)(a0 − 1) + b0 m=0

n−1 h
#
X i
+ (m + γ0 )an−m + bn−m vm , ∀ n ≥ 1 , (7.77)
m=0

que expressa os vn ’s em termos dos coeficientes cn (γ0 ) de y1 (z), os quais, por sua vez, são dados pelas
relações recursivas (7.70)10 , e de v0 (γ0 ) arbitrário.
Observemos, por fim, que A deve, nesse caso, ser forçosamente não-nulo, pois se tomássemos A = 0
verı́amos por (7.77) que os coeficientes vn satisfazem as mesmas relações de recorrência dos cn (γ0 ).
Assim, v(z) e y1 (z) não seriam linearmente independentes. Podemos, portanto, adotar sem perda de
generalidade A = 1.
Resumindo nossas conclusões, caso (a0 − 1)2 − 4b0 = 0, a solução da equação diferencial (7.60) (com
z0 = 0) possui duas soluções linearmente independentes y1 (z) e y2 (z), dadas por

X ∞
X
n+γ0
y1 (z) = cn (γ0 )z e y2 (z) = y1 (z) ln(z) + vn (γ0 )z n+γ0 ,
n=0 n=0

com γ0 = (1 − a0 )/2, com os cn (γ0 )’s dados em (7.70) e com os vn (γ0 )’s dados em (7.77), tomando-se
A = 1. As constantes c0 (γ) e v0 (γ) são não-nulas e arbitrárias.
É de se notar que, como A é não-nulo, uma das soluções possui uma singularidade logarı́tmica.

• O caso γ− − γ+ ∈ \ {0}

10
Vide nota de rodapé da página 373.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 381/1195

Esse último caso, com a generalidade com que o abordamos aqui, é o mais complexo e o estu-
dante poderá dispensar seu estudo detalhado em uma primeira leitura, atendo-se preferencialmente aos
exemplos das equações de Bessel e Laguerre, das quais trataremos adiante.
O caso γ− − γ+ ∈ \ {0} é semelhante ao caso anterior onde γ− = γ+ , a principal diferença sendo
que aqui podem ocorrer situações onde A = 0, de modo que ambas as soluções podem ser livres de
singularidades logarı́tmicas. De fato, sabe-se de equações particulares onde tem-se A = 0 (um exemplo
sendo a equação de Bessel de ordem 1/2) e de equações particulares onde tem-se A 6= 0 (um exemplo
sendo a equação de Bessel de ordem 1).
p
Comecemos com algumas definições. O caso γ− − γ+ ∈ \ {0} só pode ocorrer se (a0 − 1)2 − 4b0
for um inteiro não nulo. Definamos então
p

n0 = (a0 − 1)2 − 4b0 .

Claro está que n0 ∈ {1, 2, 3, 4, . . .}. Como γ− − γ+ é um inteiro não-nulo, definamos também
γ1 := γ− , γ2 := γ+ , caso γ− − γ+ ≥ 1, ou
(7.78)
γ1 := γ+ , γ2 := γ− , caso γ+ − γ− ≥ 1.
Com essas definições, está sempre garantido que
γ1 = γ 2 + n0 .
Isso diz-nos que para todo n ≥ 1 a expressão f (γ1 +n) não pode se anular, pois se assim o fosse terı́amos
forçosamente γ1 + n = γ2 , ou seja, n = −n0 , um absurdo, já que n0 ≥ 1. Por outro lado, existe um
único valor de n para o qual f (γ2 + n) se anula, a saber n = n0 .
Com isso em mente, vemos que para a solução γ = γ1 da equação indicial, a expressão (7.67)
permite-nos obter todos os coeficientes cn a partir de um c0 não nulo:
n−1 h
X i
1
cn (γ1 ) = − an−m (m + γ1 ) + bn−m cm (γ1 )
f (γ1 + n) m=0

n−1 h
X i
1
= − a n−m (m + γ 1 ) + b n−m cm (γ1 ) , (7.79)
(γ1 + n)2 + (a0 − 1)(γ1 + n) + b0 m=0
para todo n ≥ 1. Isso fornece-nos a primeira solução da equação diferencial (7.60) (com z 0 = 0):

X
y1 (z) = cn (γ1 )z n+γ1 , (7.80)
n=0

com os cn (γ1 ) dados em (7.79) em termos de c0 (γ1 ), arbitrário mas não-nulo.


Passemos a procurar a segunda solução independente da equação diferencial (7.60).
O caso da solução γ = γ2 da equação indicial requer cuidado pois, como comentamos, vale que
f (γ2 + n0 ) = 0. Assim, para n = n0 a equação (7.67) só faz sentido se o lado direito for igualmente
nulo:
0 −1h
nX i
an0 −m (m + γ2 ) + bn0 −m cm (γ2 ) = 0 . (7.81)
m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 382/1195

Essa relação pode ou não ser satisfeita, dependendo da equação diferencial tratada. Por exemplo, no
caso da equação de Bessel de ordem semi-inteira (ou seja, de ordem 1/2, 3/2, 5/2 etc.) verifica-se que
a relação (7.81) é satisfeita. Já no caso da equação de Bessel de ordem inteira verifica-se que a relação
(7.81) não é satisfeita. Isso será discutido explicitamente na Seção 7.2.3, página 388.
Devemos, portanto, separar provisoriamente os dois casos: aquele no qual (7.81) é satisfeita e aquele
no qual não é. Posteriormente veremos que essa separação é supérflua, mas por ora ela é logicamente
necessária.
Na situação feliz em que (7.81) é satisfeita, o coeficiente cn0 (γ2 ) fica indeterminado e pode ser
escolhido livremente, já que as equações recursivas (7.67) não o fixam e nada mais há para fixá-los.
Com isso, as equações recursivas (7.67) determinam todos os demais coeficientes c n (γ2 ), n ≥ 1, n 6= n0 ,
a partir de um c0 (γ2 ) não-nulo mas arbitrário. Assim, obtemos a solução

X
y2 (z) = cn (γ2 )z n+γ2 , (7.82)
n=0

com
n−1 h
X i
1
cn (γ2 ) = − an−m (m + γ2 ) + bn−m cm (γ2 )
f (γ2 + n) m=0

n−1 h
X i
1
= − an−m (m + γ2 ) + bn−m cm (γ2 ) , (7.83)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0

para todo n ≥ 1, n 6= n0 e cn0 (γ2 ) = constante arbitrária11 .


Resta-nos ainda tratar do caso em que a relação (7.81) não é satisfeita. Aqui, devemos proceder
como fizemos no caso γ− = γ+ e procurar uma solução na forma y2 (z) = Ay1 (z) ln(z) + v(z), com A
sendo uma constante e y1 sendo a solução já conhecida (7.80). Substituindo isso na equação (7.60),
obtem-se novamente a equação (7.73) para v(z).
Como facilmente se verifica, o lado direito de (7.73) é dado pela expansão

X ∞
X
n+γ1
−A gn (γ1 )z = −A gn (γ1 )z n+n0 +γ2 , (7.84)
n=0 n=0

onde, como antes,


n
X
gn (γ1 ) = [2(n + γ1 ) − 1] cn (γ1 ) + an−m cm (γ1 ) , n≥0, (7.85)
m=0

os coeficientes cm (γ1 ) sendo dados por (7.79).


11
O que ocorre se, por opção, escolhermos cn0 (γ2 ) não-nulo? Nesse caso terı́amos um termo a mais em y2 (z) do tipo
cn0 z n0 +γ2 = cn0 z γ1 . Esse termo se adicionaria na solução geral ao termo c0 (γ1 )z γ1 proveniente da solução y1 (z), ou
seja, corresponderia a uma nova escolha da constante arbitrária c0 (γ1 ), não representando, assim, nenhuma mudança na
solução geral.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 383/1195

A equação (7.84) sugere que uma solução para v(z) deve ser procurada na forma

X
v(z) = vn z n+γ2 .
n=0

Inserindo isso em (7.73) tem-se


" n
! n
!#
X X X
(n + γ2 )(n + γ2 − 1)vn + an−m (m + γ2 )vm + bn−m vm z n+γ2
n=0 m=0 m=0


X
= −A gn−n0 (γ1 )z n+γ2 ,
n=n0

o que implica
n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = 0, n = 0, . . . , n0 − 1 , (7.86)
m=0

n h
X i
(n + γ2 )(n + γ2 − 1)vn + (m + γ2 )an−m + bn−m vm = −Agn−n0 (γ1 ), ∀n ≥ n0 . (7.87)
m=0

Para n = 0 a relação (7.86) tem a forma


h i
γ2 (γ2 − 1) + a0 γ2 + b0 v0 = 0,

mas como o fator entre colchetes é f (γ2 ) = 0, concluı́mos que essa relação é trivialmente satisfeita e,
assim, v0 pode ser escolhido livremente. Para 1 ≤ n ≤ n0 − 1, (7.86) implica que
n−1 h
X i
1
vn = − (m + γ2 )an−m + bn−m vm
f (γ2 + n) m=0

n−1 h
X i
1
= − (m + γ )a
2 n−m + b n−m vm (7.88)
(γ2 + n)2 + (a0 − 1)(γ2 + n) + b0 m=0

Para n = n0 a relação (7.87) é

h i 0 −1h
nX i
(n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 vn0 + (m + γ2 )an0 −m + bn0 −m vm
m=0

= −A[2γ1 − 1 + a0 ] c0 (γ1 ) .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 384/1195

Como (n0 + γ2 )(n0 + γ2 − 1) + a0 (n0 + γ2 ) + b0 = f (n0 + γ2 ) = f (γ1 ) = 0, ficamos apenas com


0 −1
nX
p
[(m + γ2 )an0 −m + bn0 −m ] vm = −A[2γ1 − 1 + a0 ] c0 (γ1 ) = ∓A (a1 − 1)2 − 4b0 c0 (γ1 ) , (7.89)
m=0

o sinal ∓ dependendo
p de se ter γ1 = γ+ ou γ1 = γ− , respectivamente. É fácil ver, porém, que em
qualquer caso ∓ (a1 − 1)2 − 4b0 = −n0 . A relação (7.89) fixa A:
  nX
0 −1
1
A = − [(m + γ2 )an0 −m + bn0 −m ] vm , (7.90)
c0 (γ1 ) n0 m=0
com os vm fixados na expressão (7.88) em função de v0 6= 0 arbitrário.
O coeficiente vn0 não é fixado por nenhuma das relações anteriores e pode ser escolhido livremente.
Sua presença adiciona um termo do tipo vn0 z n0 +γ2 = vn0 z γ1 à solução geral e aplica-se novamente o
comentário de rodapé da página 382.
Para n > n0 , tem-se ainda por (7.87)
" n−1 h
#
1 X i
vn = − −Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm
f (γ2 + n) m=0

  " n−1 h
X i
#
1
= − 2
−Agn−n0 (γ1 ) + an−m (m + γ2 ) + bn−m vm .
(γ2 + n) + (γ2 + n)(a0 − 1) + b0 m=0

(7.91)
com os gn (γ1 ) fixados em (7.85) em termos dos coeficientes cm (γ1 ) da solução y1 (z).
As expressões (7.88), (7.90) e (7.91) permitem fixar todos os vn ’s e a constante A em termos de v0 6= 0
e de vn0 , arbitrários. Observemos, A não é forçosamente nulo, nem pode ser escolhido arbitrariamente.
Sobre a constante A vale ainda uma observação importante.

• A condição (7.81) e a constante A

Observe o leitor que as relações de recorrência (7.88), que fixam os v m ’s com m = 0, . . . , n0 − 1, são
idênticas às de (7.83), que fixam todos os cm (γ2 )’s, em particular aqueles com m = 0, . . . , n0 − 1. Os
vm ’s são fixados por um v0 inicial não-nulo e os cm (γ2 )’s por um c0 (γ2 ) inicial não-nulo. Contemplando
aquelas relações de recorrência, um minuto de meditação nos leva a perceber que todos os v m são
proporcionais a v0 e que todos os cm (γ2 ) são proporcionais a c0 (γ2 ). Como as relações de recorrência
são idênticas, concluı́mos que
v0
vm = cm (γ2 ) para todo m = 0, . . . , n0 − 1 .
c0 (γ2 )
Agora, pela expressão (7.90), A é proporcional a
0 −1
nX n0 −1
v0 X
[(m + γ2 )an0 −m + bn0 −m ] vm = [(m + γ2 )an0 −m + bn0 −m ] cm (γ2 ) .
m=0
c0 (γ2 ) m=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 385/1195

A última soma, porém, é idêntica àquela de (7.81)! Assim, percebemos que, sob a hipótese que (7.81)
não é satisfeita, tem-se que A 6= 0.
Por outro lado, se (7.81) é satisfeita, então A = 0. Mas se A = 0, as relações de recorrência (7.91)
tornam-se também idênticas àquelas de (7.83), que fixam todos os cm (γ2 )’s. Concluı́mos então, que
nesse caso em que A = 0 (ou seja, sob (7.60)) vale também
v0
vm = cm (γ2 ) ,
c0 (γ2 )
mas agora para todo m ≥ 0. Assim, para A = 0 a solução y2 (z) = A ln(z)y1 (z)+v(z) reduz-se (a menos
de uma constante multiplicativa trivial) à solução para y2 (z) dada em (7.82), obtida sob a condição
(7.81).
Nesse sentido, a condição (7.81) é supérflua e podemos unificar as soluções que obtivemos nos casos
em que (7.81) é ou não é satisfeita e resumir nossas conclusões da seguinte forma:
Para γ− − γ+ 6∈ \ {0}, a equação diferencial (7.60) (com z0 = 0) tem duas soluções independentes
y1 (z) e y2 (z), onde:

X ∞
X
n+γ1
y1 (z) = cn (γ1 )z e y2 (z) = Ay1 (z) ln(z) + vn z n+γ2 ,
n=0 n=0

onde os cn (γ1 ), n ≥ 1, também estão definidos em (7.79) a partir de um c0 (γ1 ) não-nulo arbitrário e
onde os vn ’s com n ≥ 1, n 6= n0 , e a constante A são fixados em (7.88), (7.90) e (7.91) em termos de
v0 6= 0 e de vn0 , arbitrários.
Como mencionamos, há casos em que A = 0, exemplos sendo as equação de Bessel de ordem
semi-inteira e a equação de Euler, para certos parâmetros.
Com tudo isso a demonstração do Teorema 7.2 está completa e podemos passar ao estudo de
exemplos particulares.

7.2.2 A Equação de Euler Revisitada


A equação de Euler12 (de segunda ordem) é a equação diferencial
z 2 y 00 (z) + azy 0 (z) + by(z) = 0,
onde a e b são constantes. Comparando com a forma (7.47), vemos que z0 = 0 é um ponto singular
regular da equação, vemos que a(z) = a e que b(z) = b. Assim, no presente caso tem-se
 
a, para n = 0 b, para n = 0
an = , bn = .
0, para n ≥ 1 0, para n ≥ 1
12
Leonhard Euler (1707-1783). Um dos matemáticos mais prolı́ficos e influentes de todos os tempos, Euler foi um dos
fundadores da teoria das equações diferenciais e deixou contribuições seminais em inúmeros campos da Matemática e
da Fı́sica. A equação de Euler apresentada abaixo é uma das várias que levam seu nome. Há uma outra equação de
Euler na Mecânica dos Fluidos, assim como fórmulas de Euler, invariantes de Euler, métodos de Euler, Ansätze de Euler,
multiplicadores de Euler, constantes de Euler, ângulos de Euler, problemas de Euler, conjecturas de Euler, teoremas de
Euler etc. Boa parte da notação matemática usada atualmente é também sua invenção (por exemplo, o sı́mbolo f 0 para
denotar a derivada de uma função f ou o uso da letra e para designar o número 2, 7182818 . . .).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 386/1195

A equação de Euler já foi resolvida à página 346, onde encontramos as soluções (6.74) e (6.75).
Vamos tratá-la aqui sob a luz do Teorema 7.2, página 373. Se procurarmos uma solução na forma

X
y(z) = cn z n+γ , (7.92)
n=0

com ∞
X
0
y (z) = (n + γ)cn z n+γ−1 (7.93)
n=0
e ∞
X
00
y (z) = (n + γ)(n + γ − 1)cn z n+γ−2 , (7.94)
n=0

a equação de Euler fica



X ∞
X ∞
X
(n + γ)(n + γ − 1)cn z n+γ + a(n + γ)cn z n+γ + bcn z n+γ = 0
n=0 n=0 n=0

ou seja,
∞ h
X i
(n + γ)(n + γ − 1)cn + a(n + γ)cn + bcn z n+γ = 0,
n=0

o que implica
f (n + γ) cn = 0 ∀ n ≥ 0.
onde f é o polinômio de segundo grau.

f (x) := x(x − 1) + ax + b = x2 + (a − 1)x + b .

Sem perda de generalidade,


P∞ podemos sempre adotar c0 6= P0, pois se cm fosse o primeiro coeficiente
∞ 0
não-nulo, a série n=0 cn z n+γ
poderia ser reescrita como n=0 c0n z n+γ com c0n := cn+m e γ 0 = γ + m,
que tem a mesma forma genérica mas com c00 6= 0.
Assim, devemos impor f (γ) = 0, o que possui duas soluções:
p p
1 − a − (a − 1)2 − 4b 1 − a + (a − 1)2 − 4b
γ− = e γ+ = .
2 2

Se γ− − γ+ não for um inteiro, a equação f (γ± + n) = 0 não é satisfeita para nenhum n ≥ 1 inteiro.
A razão é a seguinte: f é um polinômio de segundo grau e, portanto, possui apenas duas soluções.
Assim, se f (γ± + n) = 0 terı́amos γ± + n = γ∓ , o que implica que γ− − γ+ é inteiro, uma contradição.
Nesse caso, então, temos que adotar cn = 0 para todo n ≥ 1 e as soluções da equação de Euler ficam

y1 (z) = z γ− e y2 (z) = z γ+ . (7.95)

No caso de γ− = γ+ = γ0 = (1 − a)/2, tem-se por (7.51) uma solução na forma



X ∞
X
γ0 n γ0
y1 (z) = z cn (γ0 )z e uma segunda na forma y2 (z) = y1 (z) ln(z) + z vn (γ0 )z n ,
n=0 n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 387/1195

com os cn dados em (7.52) e os vn dados em (7.53). Observando (7.52), constata-se que nesse caso
cn (γ0 ) = 0 para todo n, exceto n = 0, pois apenas a0 e b0 podem ser não-nulos. Igualmente, observando
(7.53) constata-se que vn (γ0 ) é proporcional a cn (γ0 ) para todo n ≥ 1 e, com isso, apenas v0 pode ser
não-nulo. Assim, temos nesse caso, tomando c0 = v0 = 1,
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) + z γ0 .
O termo z γ0 na expressão de y2 (z) é o próprio y1 (z), de modo que podemos tomar como soluções
linearmente independentes as seguintes:
y1 (z) = z γ0 e y2 (z) = z γ0 ln(z) . (7.96)

Por fim, consideremos


p o caso em que γ− − γ+ é um inteiro não-nulo. Definamos γ1 e γ2 como em
(7.54), com n0 = | (a − 1)2 − 4b|.
γ1
P∞ n
Então
P∞ uma solução será y 1 (z) = z n=0 cn (γ1 )z e a outra terá a forma y2 (z) = Ay1 (z) ln(z) +
γ2 n
z n=0 vn z onde aqui os cn são dados em (7.56), os vn são dados em (7.57) e A é dada em (7.58).

Contemplando (7.56) constata-se que cn (γ1 ) = 0 para todo n ≥ 1, pois apenas a0 e b0 podem
ser não-nulos, sendo que podemos escolher c0 = 1, livremente. Disso concluı́mos que y1 (z) = z γ1 . Por
(7.58) tem-se que A = 0 pois, no caso da equação de Euler, an0 −m = bn0 −m = 0 para m = 0, . . . , n0 −1.
Por (7.57), tem-se analogamente

 0, para 1 ≤ n ≤ n0 − 1 ,
vn = arbitrário , para n = n0 ,

0, para n > n0 ,
Assim, apenas v0 e vn0 são arbitrários, sendo que v0 deve ser não-nulo. Escolhendo v0 = 1 e vn0 = 0,
segue que y2 (z) = z γ2 . Concluindo, vale aqui que
y1 (z) = z γ1 e y2 (z) = z γ2 . (7.97)

Todos esses resultados coincidem, como deveria ser, com aqueles obtidos em (6.74) e (6.75), página
346 e seguintes.
O estudo das soluções da equações de Euler é útil na resolução de equações com singularidades
regulares mais gerais como
z 2 y 00 (z) + za(z)y 0 (z) + b(z)y(z) = 0
pela seguinte razão. Próximo ao ponto singular z0 = 0, podemos aproximar a(z) ≈ a0 e b(z) ≈ b0 , já
que esses são os primeiros termos das expansões de Taylor de a(z) e b(z). Assim, para |z| pequeno o
suficiente, a equação aproxima-se de
z 2 y 00 (z) + a0 z y 0 (z) + b0 y(z) = 0
que é uma equação de Euler com a = a0 e b = b0 . Com isso, vemos que as soluções da equação
geral se aproximam para |z| pequeno daquelas encontradas em (7.95), (7.96) ou (7.97), dependendo
do caso. Esse proceder permite-nos, face a uma equação singular regular geral, estudar qual tipo de
singularidade deve ocorrer próximo ao ponto singular e, com isso, perceber qual das soluções descritas
no Teorema 7.2, página 373, se aplica. Em verdade, a resolução da equação indicial (7.48) fornece o
mesmo tipo de informação.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 388/1195

7.2.3 A Equação de Bessel


Uma das equações diferenciais mais importantes dentro da classe que temos estudado é a equação
de Bessel, a qual surge em vários problemas aplicados. A mesma pode ser encontrada, por exemplo,
quando da resolução da equação de Helmholtz em duas dimensões em coordenadas polares ou em três
dimensões em coordenadas esféricas (levando às chamadas funções de Bessel esféricas). Vide para tal
a Seção 8.3, página 482. Para alguns comentários históricos sobre a origem das equações de Bessel e
das funções de Bessel, vide página 464.
A equação diferencial
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0,
com z ∈ , onde ν ∈ é uma constante, é denominada equação de Bessel13 de ordem ν. Comparando
com a forma (7.47), vemos que z0 = 0 é um ponto singular regular da equação, vemos que a(z) = 1 e
que b(z) = z 2 − ν 2 . Assim, no presente caso tem-se

  −ν 2 , para n = 0
1, para n = 0
an = , bn = 1, para n = 2 .
0, para n ≥ 1 
0, para n = 1 ou n ≥ 3
A equação indicial (7.48) conduz às soluções

γ− = −ν e γ+ = ν .

Há, portanto, três casos a considerar: 1. o caso em que 2ν 6∈ , 2. o caso em que 2ν = 0 e 3. o caso
em que 2ν ∈ \ {0}. Observe o leitor que as condições 2 e 3 correspondem a ν semi-inteiro ou inteiro.
Os dois casos são os mais relevantes em Fı́sica. O caso de ν inteiro conduz às chamadas funções de
Bessel e o caso de ν semi-inteiro conduz às chamadas funções de Bessel esféricas as quais surgem, por
exemplo, em problemas de propagação de ondas em duas ou três dimensões, respectivamente. Vide
Seção 7.3.3, página 412. Para a origem das funções de Bessel, vide nota histórica à página 464.
Caso 1. 2ν 6∈ .
Nesse caso tem-se duas soluções

X
y± = cn (±ν)z n±ν ,
n=0

com cn (±ν) dados por (7.50):


n−1 h
X i
1
cn (±ν) = − (m ± ν)an−m + bn−m cm (±ν) .
n(n + ±2ν) m=0

Podemos nos concentrar apenas nos coeficientes cn (+ν), pois os coeficientes cn (−ν) podem ser obtidos
fazendo-se ν → −ν. Vale
n−1 h
X i
1
cn (ν) = − (m + ν)an−m + bn−m cm (ν) , (7.98)
n(n + 2ν) m=0
13
Friedrich Wilhelm Bessel (1784-1846).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 389/1195

e tem-se
c1 (ν) = 0 ,

1
c2 (ν) = − c0 (ν) ,
2(2 + 2ν)

1
cn (ν) = − cn−2 (ν), n ≥ 3.
n(n + 2ν)
Com isso, fica claro que
(−1)k
c2k (ν) = c0 (ν) , k≥0.
(2k)!! (2 + 2ν)(4 + 2ν) · · · (2k + 2ν)

c2k+1 (ν) = 0 , k≥0.

E. 7.8 Exercı́cio importante. Mostre isso! 6

A última expressão pode ser reescrita como


(−1)k
c2k (ν) = c0 (ν) , k≥0.
k! 22k (1 + ν)(2 + ν) · · · (k + ν)

c2k+1 (ν) = 0 , k≥0,


onde usamos que (2 + 2ν)(4 + 2ν) · · · (2k + 2ν) = 2k (1 + ν)(2 + ν) · · · (k + ν) e também que (2k)!! = 2k k!.
Como a função Γ definida em (7.25)-(7.26) satisfaz
Γ(k + 1 + ν) = Γ(1 + ν)(1 + ν)(2 + ν) · · · (k + ν) ,
podemos ainda escrever
(−1)k Γ(1 + ν)
c2k (ν) = c0 (ν) , k≥0.
k! 22k Γ(k + 1 + ν)

c2k+1 (ν) = 0 , k≥0.


Por convenção histórica adota-se
1
c0 (ν) =
2ν Γ(1 + ν)
e chega-se com isso à expressão

X (−1)k  z 2k+ν
Jν (z) := . (7.99)
k=0
k! Γ(k + 1 + ν) 2
Essa função representa uma das soluções da equação de Bessel de ordem ν para o caso considerado e
é denominada função de Bessel de primeiro tipo e ordem ν. Como comentamos, uma segunda solução
é obtida fazendo-se ν → −ν:
X∞
(−1)k  z 2k−ν
J−ν (z) := .
k=0
k! Γ(k + 1 − ν) 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 390/1195

Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem ν para o
caso 2ν 6∈ é
α1 Jν (z) + α2 J−ν (z) ,
onde α1 e α2 são constantes arbitrárias.
Por convenção histórica, é costume considerar-se também uma combinação linear particular de
J±ν (z), a saber a seguinte:
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := . (7.100)
sen (νπ)
Essa função Nν (z) também representa uma das soluções da equação de Bessel de ordem ν (por ser uma
combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem ν, ou
ainda função de Neumann14 de ordem ν.
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem ν para o caso 2ν 6∈ também
pode ser escrita em termos das funções Jν e Nν na forma

β1 Jν (z) + β2 Nν (z) ,

onde β1 e β2 são constantes arbitrárias.


O estudante deve notar que as funções J±ν (z) e Nν (z), para 2ν não-inteiro, são analı́ticas em toda
a parte, exceto em z = 0, onde possuem um ponto de ramificação devido ao fator z ±ν = exp(±ν ln(z)).
Caso 2. 2ν = 0.
No caso em questão aplicam-se
P as soluções (7.51), (7.52) e (7.53). Aqui tem-se γ 0 = (1 − a0 )/2 = 0
e para y1 tem-se y1 (z) = ∞ c
n=0 n (0)z n
, com (por (7.52))

1 Xh i
n−1
cn (0) = − 2 man−m + bn−m cm (0) .
n m=0

Essas relações são idênticas àquelas de (7.98) (tomando-se aqui ν = 0) e, assim, tem por solução

(−1)k Γ(1) (−1)k


c2k (0) = c 0 (0) , = c0 (0) , k≥0,
k! 22k Γ(k + 1) (k!)2 22k

c2k+1 (0) = 0 , k≥0

onde usamos que Γ(1) = 1 e Γ(k + 1) = k!. Por convenção histórica adota-se

c0 (0) = 1

e chega-se com isso à expressão


(−1)k  z 2k
X∞
J0 (z) = 2
. (7.101)
k=0
(k!) 2
Essa função representa uma das soluções da equação de Bessel de ordem 0 e é denominada função de
Bessel de primeiro tipo e ordem 0.
14
Carl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 391/1195

Para a segunda solução y2 teremos, por (7.51),



X
y2 (z) = J0 (z) ln(z) + vn z n ,
n=0

com os vn dados em (7.53). Como o estudante pode facilmente verificar, adotando-se v0 = 0, obtem-se
para esses coeficientes as seguintes expressões:
(−1)k+1
v2k = hk , k≥0,
(k!)2 22k

v2k+1 = 0 , k≥0

onde

h0 := 0 , (7.102)

Xn
1 1 1 1
hn := 1 + + + · · · + = , ∀n≥1. (7.103)
2 3 n l=1
l

Note-se que v0 = 0.

E. 7.9 Exercı́cio importante. Verifique! 6

Com isso, a segunda solução y2 (z) será



X (−1)k+1  z 2k
y2 (z) = J0 (z) ln(z) + hk . (7.104)
k=1
(k!)2 2

Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
J0 (z) e y2 (z):
!
2   2   z  X∞
(−1) k+1 
hn z  2k
N0 (z) := y2 (z) + (γ − ln(2))J0 (z) = γ + ln J0 (z) + 2
,
π π 2 k=1
(k!) 2
(7.105)
15 16 17
onde γ é a chamada constante de Euler -Mascheroni , definida por :
 
1 1 1
γ := lim (hn − ln(n)) = lim 1 + + + · · · + − ln(n) ≈ 0, 5772156649 . . . .
n→∞ n→∞ 2 3 n

Essa função N0 (z) também representa uma das soluções da equação de Bessel de ordem 0 (por ser
uma combinação linear de duas outras) e é denominada função de Bessel de segundo tipo e ordem 0,
ou ainda função de Neumann de ordem 0.
15
Leonhard Euler (1707-1783).
16
Lorenzo Mascheroni (1750-1800).
17
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 392/1195

Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem 0 é

α1 J0 (z) + α2 N0 (z) ,

onde α1 e α2 são constantes arbitrárias.


O estudante deve notar que a primeira solução J0 (z) é uma função analı́tica para todo z ∈ (pois
a série em (7.101) converge absolutamente para todo z (mostre isso!)). Já a solução N 0 (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica.
Caso 3. 2ν ∈ \ {0}.
Como a equação de Bessel é invariante por ν → −ν, podemos sem perda de generalidade tomar
aqui 2ν um inteiro positivo. Como veremos, há dois casos a considerar: a. ν é um inteiro positivo e
b. ν é um semi-inteiro positivo, ou seja, no caso a. tem-se ν = 1, 2, 3, 4, . . . enquanto que no caso
b. tem-se ν = 1/2, 3/2, 5/2, . . ..
Caso a. ν = 1, 2, 3, 4, . . ..
Vamos aqui escrever ν = p, com p sendo um inteiro positivo: p = 1, 2, 3, 4, . . ..
Com essas convenções, tem-se que γ1 = p, γ2 = −p e n0 = 2p. As soluções y1 e y2 são aquelas dadas
em (7.55), (7.56) e (7.57):

X ∞
X
p n −p
y1 (z) = z cn (p)z e y2 (z) = Ay1 (z) ln(z) + z vn z n ,
n=0 n=0

onde, segundo (7.56), as constantes cn (p) satisfazem


n−1 h
X i
1
cn (p) = − (m + p)an−m + bn−m cm (p)
f (p + n) m=0

para n ≥ 1. Novamente, essas relações são idênticas àquelas de (7.98) e, assim, suas soluções são

(−1)k Γ(1 + p) (−1)k p!


c2k (p) = c 0 (p) = c0 (p) , k≥0.
k! 22k Γ(k + 1 + p) k! 22k (k + p)!

c2k+1 (p) = 0 , k≥0,

onde usamos que Γ(1 + p) = p! e Γ(k + 1 + p) = (k + p)!. Por convenção histórica adota-se
1
c0 (p) =
2p p!
e chega-se com isso à expressão

X (−1)k  z 2k+p
Jp (z) = .
k! (k + p)! 2
k=0

Essa função representa uma das soluções da equação de Bessel de ordem p (com p = 1, 2, 3, 4, . . .) e
é denominada função de Bessel de primeiro tipo e ordem p.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 393/1195

O leitor é convidado a constatar que a expressão (7.101) para J0 (z) é idêntica a essa se tomarmos
p = 0.
Procuremos agora a segunda solução y2 (z):

X
y2 (z) = AJp (z) ln(z) + z −p vn (p)z n .
n=0

Por (7.57),
 n−1 
 1 X 



 − (m − p)an−m + bn−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,

 f (n − p) m=0




vn (p) = arbitrário , para n = 2p ,



 " #

 n−1

 1 X 


 − f (n − p) −Agn−2p + (m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(7.106)
A constante A é dada em (7.58) e, para o presente caso, tem-se
2p−1
1 X 2p p!
A = − [(m − p)a2p−m + b2p−m ] vm (p) = − v2p−2 (p) .
2p c0 (p) m=0 2p

Agora, por (7.57),


2p−3 
1 X
v2p−2 (p) = − (m − p)a2p−2−m + b2p−2−m vm (p) ,
f (p − 2) m=0

de onde se vê imediatamente que


1
v2p−2 (p) = v2p−4 (p), p≥2,
22 (p− 1)
e, portanto,
1
v2p−2 (p) = v0 (p), p≥2.
22(p−1) (p − 1)!
Logo, A = −4v0 (p). Adotando-se v0 (p) = −1/4 teremos A = 1 e

X
−p
y2 (z) = Jp (z) ln(z) + z vn (p)z n .
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 394/1195

com
 n−1 
 1 X 



 − (m − p)a n−m + b n−m vm (p) , para 1 ≤ n ≤ 2p − 1 ,

 f (n − p) m=0




vn (p) = arbitrário , para n = 2p ,



 " #

 n−1

 1 X 

 − f (n − p) −gn−2p +
 (m − p)an−m + bn−m vm (p) , para n > 2p,
m=0
(7.107)
com os gn dados em (7.59) em termos de cn (p).
Um cálculo um pouco trabalhoso, que nos poupamos de apresentar em detalhe, conduz ao seguinte
resultado:

1 X (p − n − 1)!  z 2n−p 1 X (−1)n (hn + hn+p )  z 2n+p


p−1 ∞
y2 (z) = Jp (z) ln(z) − − ,
2 n=0 n! 2 2 n=0 n! (n + p)! 2

com p = 1, 2, 3, 4, . . ..

E. 7.10 Exercı́cio. Tome uma hora livre e mostre isso. 6

O leitor é convidado
P a constatar que a expressão (7.104) é idêntica a essa se tomarmos p = 0 (com
a convenção que −1 n=0 · · ) = 0).

Por convenção histórica, costuma-se considerar também uma particular combinação das soluções
Jp (z) e y2 (z):

2 
Np (z) := y2 (z) + (γ − ln(2))Jp (z) =
π
!
2   z  1 X (p − n − 1)!  z 2n−p 1 X (−1)n (hn + hn+p )  z 2n+p
p−1 ∞
γ + ln Jp (z) − − , (7.108)
π 2 2 n=0 n! 2 2 n=0 n! (n + p)! 2

onde γ é a constante de Euler-Mascheroni mencionada acima. Essa função Np (z) também representa
uma das soluções da equação de Bessel de ordem p (por ser uma combinação linear de duas outras) e
é denominada função de Bessel de segundo tipo e ordem p, ou ainda função de Neumann de ordem p.
Concluı́mos, assim, com a constatação que a solução geral da equação de Bessel de ordem p, p =
1, 2, 3, 4, . . ., é
α1 Jp (z) + α2 Np (z) ,
onde α1 e α2 são constantes arbitrárias.
O estudante deve notar que a primeira solução Jp (z) é uma função analı́tica para todo z ∈ (pois
a série em (7.101) converge absolutamente para todo z (mostre isso!)). Já a solução N p (z) é também
analı́tica em toda parte, exceto em z = 0, onde possui uma singularidade logarı́tmica assim como um
polo de ordem p.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 395/1195

Advertência. O estudante deve ser advertido do fato de não haver, infelizmente, uniformidade na
literatura quanto à definição exata das várias funções de Neumann N ν apresentadas acima, pois alguns
textos, especialmente alguns mais antigos, adotam para Nν uma combinação linear com constantes
ligeiramente diferentes daquelas de (7.100), (7.105) ou (7.108). A convenção que adotamos é a mais
freqüente modernamente. As funções de Neumann são também por vezes denotadas por Y ν .
Precisamos estudar ainda o caso em que ν é um número semi-inteiro onde, diferentemente do caso
que acabamos de estudar, as soluções independentes são ambas livres de singularidades logarı́tmicas.
Caso b. ν = 1/2, 3/2, 5/2, . . ..
Vamos convencionar escrever ν = q + 1/2, com q = 0, 1, 2, . . .. Teremos aqui n 0 = (2q + 1),
γ1 = ν = q + 1/2 e γ2 = −ν = −q − 1/2. As soluções y1 e y2 são aquelas dadas em (7.55), (7.56) e
(7.57):

X ∞
X
q+1/2 n −q−1/2
y1 (z) = z cn (q)z e y2 (z) = Ay1 (z) ln(z) + z vn (q)z n ,
n=0 n=0

onde, segundo (7.56), as constantes cn (q) satisfazem


n−1 
X  
1 1
cn (q) = −  m+q+ an−m + bn−m cm (q) , (7.109)
f n + q + 21 m=0 2

para n ≥ 1. Novamente, essas relações são idênticas àquelas de (7.98) com ν substituı́do por q + 1/2 e,
assim, suas soluções são

(−1)k Γ 1 + q + 12
c2k (q) =  c0 (q) , k ≥ 0 .
k! 22k Γ k + 1 + q + 12

c2k+1 (q) = 0 , k≥0,

onde usamos Γ(1 + q + 1/2) = q!Γ(1/2) e Γ(k + 1 + q + 1/2) = (k + q)!Γ(1/2). Adotando


1
c0 (q) = ,
2q+1/2 Γ 1 + q + 12

chegamos à expressão

X (−1)k  z 2k+q+1/2
Jq+1/2 (z) := .
k=0
k! Γ(k + 1 + q + 1/2) 2

Essa função representa uma das soluções da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem q + 1/2.
Passemos agora à segunda solução

X
y2 (z) = AJq+1/2 (z) ln(z) + vn (q)z n−q−1/2 .
n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 396/1195

Por (7.57),
 n−1   

 −1 X 1

  m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,

 f n − q − 21 m=0 2





vn (q) = arbitrário , n = 2q + 1 ,



 ( )

 n−1   

 −1 X 1

 f n − q − 1  −Agn−2q−1 +
 m−q−
2
an−m + bn−m vm (q) , n > 2q + 1,
2 m=0

onde,
2q   
1 X 1
A = − m−q− a2q+1−m + b2q+1−m vm (q) (7.110)
c0 (q) (2q + 1) m=0 2

Para 1 ≤ n ≤ 2q tem-se
−1
vn (q) = vn−2 (q) . (7.111)
f (n − q − 21 )
Porém,   
−1 1
v1 (q) = 1 0−q− a1 + b1 v0 (q) = 0 ,
f ( 2 − q) 2
pois a1 = b1 = 0. Conjuntamente com (7.111), isso diz-nos que vn (q) = 0 para todo n ı́mpar com
1 ≤ n ≤ 2q. A importância dessa observação reside no seguinte. Por (7.110) vê-se facilmente que
1
A = − v2q−1 (q) .
c0 (q) (2q + 1)
Portanto, tem-se no caso presente que A = 0 e, assim, a segunda solução é livre de singularidades
logarı́tmicas. Além disso, com A = 0 as expressões recursivas para vn (q) simplificam-se para
 n−1   

 −1 X 1

  m−q− an−m + bn−m vm (q) , 1 ≤ n ≤ 2q ,

 f n − q − 21 m=0 2





vn (q) = arbitrário , n = 2q + 1 , (7.112)



 ( n−1  )

  

 −1 X 1

 f n − q − 1
 m−q−
2
an−m + bn−m vm (q) , n > 2q + 1.
2 m=0

Como já vimos, para 1 ≤ n ≤ 2q os vn (q) com n ı́mpar são nulos. Como v2q+1 é arbitrário, é
conveniente escolhê-lo igual a zero também. Com isso, as relações (7.112) ficam idênticas àquelas de
(7.98) com ν substituı́do por −(q + 1/2) e, assim, suas soluções são

(−1)k Γ 1 − q − 21
v2k (q) =  v0 (q) , k ≥ 0 .
k! 22k Γ k + 1 − q − 21

v2k+1 (q) = 0 , k≥0,


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 397/1195

Adotando
1
v0 (q) = ,
2−q−1/2 Γ 1 − q − 12
chagamos à seguinte expressão:

X (−1)k  z 2k−q−1/2
J−q−1/2 (z) =  .
k=0
k! Γ k + 1 − q − 12 2

Essa função representa uma segunda solução da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, . . .
e é denominada função de Bessel de primeiro tipo e ordem −(q + 1/2).
Concluı́mos, assim, que a solução geral da equação de Bessel de ordem q+1/2 com q = 0, 1, 2, 3, . . .,

α1 Jq+1/2 (z) + α2 J−q−1/2 (z) ,
onde α1 e α2 são constantes arbitrárias.
Podemos definir também as funções de Neumann de ordem q + 1/2 em analogia com (7.100), mas
aqui, tem-se
Jq+1/2 (z) cos((q + 1/2)π) − J−q−1/2 (z)
Nq+1/2 (z) := = (−1)q+1 J−q−1/2 (z) . (7.113)
sen ((q + 1/2)π)
De qualquer forma, a solução geral da equação de Bessel de ordem q + 1/2 com q = 0, 1, 2, 3, . . ., é

β1 Jq+1/2 (z) + β2 Nq+1/2 (z) ,

onde β1 e β2 são constantes arbitrárias.


O estudante é convidado a constatar que Jq+1/2 (z) é uma função analı́tica para todo z ∈ , z 6= 0,
mas em z = 0 possui uma singularidade como z q+1/2 , que é uma singularidade do tipo ponto ramificação
(de grau 2). Paralelamente, J−q−1/2 (z) (e, portanto, Nq+1/2 (z)) é analı́tica para todo z 6= 0, mas possui
em z = 0 uma singularidade como z −q−1/2 , que é uma singularidade do tipo ponto ramificação (de grau
−2). Essas afirmações são ilustradas no próximo exercı́cio.

E. 7.11 Exercı́cio semi-resolvido. Com q = 0 tem-se pelas nossas definições acima



X (−1)k  z 2k+1/2 ∞
X (−1)k  z 2k−1/2
J1/2 (z) = e J−1/2 (z) =  .
k=0
k! Γ(k + 1 + 1/2) 2 k=0
k! Γ k + 12 2

Usando as identidades

Γ(3/2) (2k + 1)!! π (2k + 1)!!
Γ(k + 1 + 1/2) = = ,
2k 2 2k

2k k! = (2k)!! , (2k + 1)!!(2k)!! = (2k + 1)! , (2k)!!(2k − 1)!! = (2k)! ,

(prove-as!) teremos,
r ∞ r ∞
−1/2 2 X (−1)k −1/2 2 X (−1)k 2k
J1/2 (z) = z z 2k+1 , e J−1/2 (z) = z z ,
π k=0 (2k + 1)! π k=0 (2k)!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 398/1195

e reconhecemos que
r r
2 sen (z) 2 cos(z)
J1/2 (z) = e J−1/2 (z) = . (7.114)
π z 1/2 π z 1/2
Observe ainda que r
1/2 2 sen (z)
J1/2 (z) = z ,
π z
sen (z)
sendo que z
é uma função analı́tica para todo z ∈ , inclusive em z = 0 (por que?).
Complete os detalhes faltantes de todos os cálculos indicados acima. 6

E. 7.12 Exercı́cio. Verifique por cálculo explı́cito que as funções sen (z)/z 1/2 e cos(z)/z 1/2 são, de fato,
soluções da equação de Bessel de ordem ν = 1/2. 6

Para futura referência, reunimos nossos resultados sobre as soluções da equação de Bessel no seguinte
teorema:
Teorema 7.3 (Soluções da equação de Bessel) Seja a equação de Bessel de ordem ν ∈
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0,
com z ∈ .

1. Caso ν 6∈ duas soluções independentes são Jν (z) e J−ν (z), onde



X (−1)k  z 2k+ν
Jν (z) := . (7.115)
k=0
k! Γ(k + 1 + ν) 2

Definindo
Jν (z) cos(νπ) − J−ν (z)
Nν (z) := ,
sen (νπ)
as funções Jν (z) e Nν (z) são também duas soluções independentes.
2. Caso ν ∈ podemos, sem perda de generalidade, adotar ν ≥ 0, pois a equação de Bessel é
invariante pela mudança ν → −ν. Com essa convenção, duas soluções independentes são J ν (z)
e Nν (z), onde

X (−1)k  z 2k+ν X∞
(−1)k  z 2k+ν
Jν (z) := = (7.116)
k=0
k! Γ(k + 1 + ν) 2 k=0
k! (k + ν)! 2
e

Nν (z) :=
!
2   z  1 X (ν − n − 1)!  z 2n−ν 1 X (−1)n (hn + hn+ν )  z 2n+ν
ν−1 ∞
γ + ln Jν (z) − − ,
π 2 2 n=0 n! 2 2 n=0 n! (n + ν)! 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 399/1195

sendo que
Xn
1 1 1 1
h0 := 0 , hn := 1 + + + · · · + = , ∀n≥1.
2 3 n l=1
l
e γ é a constante de Euler-Mascheroni: γ := lim (hn − ln(n)) ≈ 0, 5772156649 . . ..
n→∞

As funções Jν (z), ν ∈ , são denominadas funções de Bessel de primeiro tipo e ordem ν, ou


simplesmente funções de Bessel de ordem ν. As funções Nν (z), ν ∈ , são denominadas funções de
Bessel de segundo tipo e ordem ν, ou funções de Neumann de ordem ν. 2

Comentário. O caso em que ν é semi-inteiro está incluı́do no caso 1, acima: ν 6∈ .

• Nota sobre as funções de Bessel de ordem inteira negativa

Até o momento definimos as funções de Bessel Jν através das expressões (7.115) e (7.116), mas
apenas para ν’s que não sejam inteiros negativos. A expressão (7.115) contem uma função Γ(x) no
denominador e Γ(x) diverge se x for inteiro negativo. Por isso, em princı́pio (7.115) não está definida
para ν’s inteiros negativos.
A experiência mostrou, porém, que é conveniente definir Jν para ν’s que sejam inteiros negativos
através da seguinte expressão:
J−m (z) := (−1)m Jm (z) , (7.117)
para todo m ∈ e todo z ∈ . Note que, como a equação de Bessel é invariante pela troca ν → −ν,


J−m definida acima é solução da equação de Bessel de ordem ±m. A conveniência dessa convenção não
pode ser apreciada no momento, mas irá manifestar-se quando discutirmos algumas propriedades das
funções de Bessel na Seção 8.2.6, que inicia-se na página 463, tais como as relações de recorrência e a
função geratriz.

E. 7.13 Exercı́cio. Mostre que com a convenção acima vale

J−m (−z) = Jm (z), ∀m∈  ,

Sugestão: Jm (z) é uma soma de monômios da forma z 2k+m e vale (−z)2k+m = (−1)m z 2k+m . 6

7.2.4 A Equação de Laguerre


A equação de Laguerre18 é a equação diferencial

zy 00 (z) + (1 − z)y 0 (z) + λy(z) = 0,

com z ∈ , onde λ ∈ é uma constante.


A equação de Laguerre, e uma parente próxima, a equação de Laguerre associada, apresentada
na Seção 7.3.2, página 411, emergem em um dos problemas mais importantes da Fı́sica, a equação
18
Edmond Nicolas Laguerre (1834-1886).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 400/1195

de Schrödinger para o átomo de hidrogênio em coordenadas esféricas. Vide Seção 8.3.7, página 507.
A equação de Laguerre é também um caso particular da equação hipergeométrica confluente, a ser
discutida na Seção 7.2.6, página 406.
Comparando com a forma (7.47), vemos que z0 = 0 é um ponto singular regular da equação, vemos
que a(z) = 1 − z e que b(z) = λz. Assim, no presente caso tem-se

 1, para n = 0 
λ, para n = 1
an = −1, para n = 1 , bn = .
 0, para n = 0 ou n ≥ 2
0, para n ≥ 2

É elementar constatar-se que, para essa equação, γ− = γ+ = 0 e, portanto, estamos no caso 2 do


Teorema 7.2 da página 373 com f (x) = x2 , γ0 = 0,

X ∞
X
n
y1 (z) = cn z e y2 (z) = y1 (z) ln(z) + vn z n , (7.118)
n=0 n=0

onde
1 Xh i
n−1
λ−n+1
cn = − 2 man−m + bn−m cm = − cn−1 , n≥2,
n m=0 n2
e
" n−1 h
#
1   n
X X i
vn = − 2 − 2n − 1 cn − an−m cm + man−m + bn−m vm
n m=0 m=0
" #
1 λ−n+1
= − 2 −2n cn + cn−1 − vn−1 , ∀n ≥ 1 , (7.119)
n n2

Adotando-se c0 = 1, obtem-se para n ≥ 1


n−1
(−1)n Y (−1)n Γ(λ + 1)
cn = (λ − l) =
(n!)2 l=0 (n!)2 Γ(λ − n + 1)

e y1 (z) fica
∞ n−1
! ∞
X (−1)n Y X (−1)n Γ(λ + 1)
y1 (z) = 1 + (λ − l) zn = 1 + zn . (7.120)
n=1
(n!)2 l=0 n=1
(n!) 2 Γ(λ − n + 1)

A situação de maior interesse em Fı́sica é aquela na qual λ é um inteiro positivo: λ = m ∈ . 

A razão disso será explicada detalhadamente no Apêndice 7.E, página 421, mas adiantamos que nos
casos em que λ não é um inteiro positivo a solução y1 cresce muito rapidamente (exponencialmente)
quando z é restrito ao eixo real positivo. Esse comportamento é inadequado em várias aplicações, por
exemplo no clássico problema do átomo de hidrogênio da Mecânica Quântica, o que leva ao descarte
de tais soluções.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 401/1195

Já no caso em que λ é um inteiro positivo, λ = m ∈ , a solução dada em (7.120) reduz-se a um




polinômio de grau m:
m n−1
! m
X (−1)n Y X (−1)n m!
n
y1 (z) = 1 + 2
(m − l) z = 1 + 2 (m − n)!
zn
n=1
(n!) l=0 n=1
(n!)

Xm  
(−1)n m
= zn
n=0
n! n

Os chamados polinômios de Laguerre, denotados por Lm (z), são definidos como m! vezes o polinômio
acima19 : m  
X
n m! m
Lm (z) := (−1) zn . (7.121)
n=0
n! n
Os quatro primeiros são

L0 (z) = 1, L1 (z) = 1 − z, L2 (z) = 2 − 4z + z 2 , L3 (z) = 6 − 18z + 9z 2 − z 3 .

É fácil provar, também, que a seguinte expressão é válida (vide página 457):
dm  m −z 
Lm (z) = ez z e . (7.122)
dz m

Os polinômios de Laguerre Lm (z) são, portanto, uma das soluções da equação de Laguerre (com
λ = m)
zy 00 (z) + (1 − z)y 0 (z) + my(z) = 0, (7.123)
com z ∈ , onde m ∈  . De acordo com (7.118), uma segunda solução é dada na forma

X
y2 (z) = Lm (z) ln(z) + vn z n ,
n=0

onde os coeficientes vn são dados em (7.119) em termos dos coeficientes cn dos polinômios de Laguerre.
Após cálculos um tanto maçantes, chega-se à seguinte expressão:

m
X  
m! k m
y2 (z) = Lm (z) ln(z) + (−1) (hm−k − hm − 2hk ) z k
k=1
k! k


X (k − 1)!
+ (−1)m z m+k ,
k=1
(m + 1)2 (m + 2)2 · · · (m + k)2

onde hn está definido em (7.102)-(7.103).

E. 7.14 Exercı́cio. Mostre isso. Sugestão: tire uma tarde livre. 6


19
O fator de normalização m! tem origem histórica. O leitor deve ser advertido do fato, já lamentado páginas acima,
que em alguns textos outra normalização é empregada.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 402/1195

E. 7.15 Exercı́cio. Caso o leitor não deseje fazer o exercı́cio anterior, poderá contentar-se com a tarefa
mais simples de verificar que a expressão acima é, de fato, uma solução de (7.123). 6

Essa segunda solução é raramente empregada em problemas de Fı́sica, especialmente devido à


singularidade logarı́tmica que apresenta.
Mais propriedades dos polinômios de Laguerre serão estudadas na Seção 8.2.4, página 456.

7.2.5 A Equação Hipergeométrica


A equação diferencial
z(1 − z)y 00 (z) + [γ − (1 + α + β)z]y 0 (z) − αβy(z) = 0, (7.124)
para z ∈ e com α, β e γ ∈ constantes, é denominada equação hipergeométrica, ou equação de
20
Gauß , quem a primeiro estudou. A razão do interesse nessa equação reside em três fatos. Primeiro, a
equação hipergeométrica é (a menos de multiplicação trivial por uma constante) a única equação linear
homogênea de segunda ordem com apenas três pontos singulares regulares em 0, 1 e ∞ (vide discussão
à página 352). Segundo, há várias equações diferenciais de interesse que podem ser transformadas em
equações hipergeométricas e, com isso, pode-se estudar certas propriedades de várias funções especi-
ais, tais como seu comportamento assintótico, a partir das propriedades correspondentes de funções
hipergeométricas. Terceiro, suas soluções possuem muitas simetrias. A equação hipergeométrica é uma
das equações diferenciais ordinárias mais estudadas, sendo suas soluções riquı́ssimas em propriedades.
Sua abordagem completa está muito além das pretensões destas Notas e, para um tratamento deta-
lhado, recomendamos as referências [64], [117], [130], [79], [62] e outras. Propriedades combinatórias
envolvendo as séries hipergeométricas e suas generalizações podem ser encontradas em [48].
Vamos aqui apresentar as soluções da equação hipergeométrica (7.124) em termos de expansões em
torno de seu ponto singular regular z0 = 0. O leitor poderá encontrar em [117] soluções de (7.124)
expressas como expansões em torno dos outros pontos singulares regulares z 0 = 1 e z0 = ∞. O interesse
nessas últimas expansões é um tanto menor, especialmente pois as mesmas podem ser expressas em
termos das soluções obtidas em torno de z0 = 0. Reescrevemos (7.124) na forma
a(z) 0 b(z)
y 00 (z) +
y (z) + 2 y(z) = 0, (7.125)
z z
sendo a(z) e b(z) analı́ticas em |z| < 1, a saber,
X∞ X∞
γ − (1 + α + β)z n
a(z) = = an z = γ + (γ − 1 − α − β)z n ,
1−z n=0 n=1

X∞ X∞
αβz n
b(z) = − = bn z = (−αβ)z n .
1−z n=0 n=1
20
Carl Friedrich Gauß (1777-1855). Um dos maiores e mais influentes matemáticos de todos os tempos, Gauß dedicou-
se também intensamente a problemas de Fı́sica, Astronomia, Matemática Aplicada e mesmo Engenharia (é um dos
co-inventores do telégrafo) e encontrou as equações hipergeométricas em estudos de Geodesia, assunto a que se dedicou
quando da construção das primeiras linhas férreas da Alemanha. Seus trabalhos nessa área também inspiraram uma das
suas muitas contribuições importantes à matemática pura: a formulação de geometrias não-Euclidianas.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 403/1195

A equação indicial, neste caso, é

f (x) = x(x − 1) + γx = x(x + γ − 1) = 0

e temos
γ− = 1 − γ e γ+ = 0 .

Há, assim, três casos a considerar: 1. γ − 1 6∈ , ou seja, γ 6∈ . 2. γ = 1. 3. γ − 1 ∈ \ {0}, ou


seja, γ ∈ mas γ 6= 1.
Caso 1. γ − 1 6∈ , ou seja, γ 6∈ .
Aqui, de acordo com (7.49) e (7.50), as soluções são

X ∞
X
y1 (z) = z 1−γ cn z n e y2 (z) = dn z n , (7.126)
n=0 n=0

onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0

para todo n ≥ 1. Nesse caso, porém, não é tão simples resolver recursivamente essas equações, pelo
menos na maneira como estão expressas acima. É muito mais fácil obter as relações recursivas de
outra forma: inserindo (7.126) na equação diferencial ainda na forma (7.124). Com esse procedimento,
começando pela solução y2 (z), obtem-se alegremente para os coeficientes dn a seguinte relação recursiva:
(α + n)(β + n)
dn+1 = dn , (7.127)
(n + 1)(γ + n)
para todo n ≥ 0.

E. 7.16 Exercı́cio importante. Verifique! 6

Convencionando-se tomar d0 = 1, chegamos a


(α)n (β)n
dn = , n≥1,
n!(γ)n
onde, para n ≥ 1,
n−1
Y Γ(x + n)
(x)n := x(x + 1) · · · (x + n − 1) = (x + l) = ,
l=0
Γ(x)

são os denominados sı́mbolos de Pochhammer21 . Com isso, obtemos para a solução y2 a expressão

X ∞
(α)n (β)n Γ(γ) X Γ(α + n)Γ(β + n) z n
F (α, β, γ, z) := 1 + zn = . (7.128)
n=1
n!(γ)n Γ(α)Γ(β) n=0 Γ(γ + n) n!
21
Leo August Pochhammer (1841-1920).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 404/1195

Essa função, introduzida por Gauß em cerca de 1812, é denominada função hipergeométrica, deno-
minação aparentemente criada por Kummer22 em 1836. Contribuı́ram à teoria das funções hiper-
geométricas nomes como Euler, Gauß, Kummer e Riemann. Na literatura F (α, β, γ, z) é muitas
vezes denotada por 2 F1 (α, β, γ, z)23 .
Repetindo considerações anteriores, F (α, β, γ, z) é analı́tica como função de z pelo menos na
região |z| < 1. No caso em que α ou β são inteiros não-positivos, é fácil ver que F (α, β, γ, z)
reduz-se a um polinômio e é, portanto, analı́tica em toda parte. Exceto nesses casos, a série que define
F (α, β, γ, z) é divergente para |z| > 1, como se vê pelo teste da razão, pois
(α)n+1 (β)n+1 n+1

(n+1)!(γ)n+1 z |α + n| |β + n|
(α)n (β)n = |z| ,
zn (n + 1) |γ + n|
n!(γ)n

que para n grande aproxima-se de |z| > 1. Casualmente, o mesmo argumento prova convergência da
série hipergeométrica (7.128) para |z| < 1.
Fazemos ainda notar que a expressão acima para F (α, β, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica naquele
caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ)n anula-se para n > m
e a expressão para F (α, β, γ, z) deixa de fazer sentido.
Para obtermos a outra solução inserimos y1 de (7.126) na equação diferencial ainda na forma (7.124)
e obtemos alegremente para os coeficientes cn a relação
(n + α + 1 − γ)(n + β + 1 − γ)
cn+1 = cn ,
(n + 1)(n + 2 − γ)
para todo n ≥ 0.

E. 7.17 Exercı́cio importante. Verifique! 6

Alguns segundos de contemplação nos levam a concluir que essas relações são idênticas àquelas de
(7.127), desde que lá façamos as seguintes modificações: α → α + 1 − γ, β → β + 1 − γ e γ → 2 − γ.
Por trás dessa aparente coincidência residem propriedades de simetria da equação hipergeométrica. O
leitor poderá encontrar essa discussão nos textos supra-citados.
Assim, tomando-se também c0 = 1, concluı́mos que a outra solução é

z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) .

Fazemos ainda notar que F (α + 1 − γ, β + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que
γ é um inteiro não-positivo e, portanto, z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) representa uma solução
da equação hipergeométrica naquele caso.
22
Ernst Eduard Kummer (1810-1893).
23
A explicação da notação 2 F1 é a seguinte: o “2” à esquerda indica a presença de dois sı́mbolos de Pochhammer no
numerador dos termos da série hipergeométrica (7.128). O “1” à direita indica a presença de um sı́mbolo de Pochhammer
no denominador. Há generalizações da série (7.128) que definem as chamadas funções hipergeométricas generalizadas, de-
notadas por k Fl , e que contêm k sı́mbolos de Pochhammer no numerador e l no denominador. Mais abaixo encontraremos
as funções hipergeométricas confluentes, que são do tipo 1 F1 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 405/1195

Resumindo nossas conclusões, para o caso γ 6∈ a solução geral da equação hipergeométrica (7.124)
expressa em termos de uma expansão em torno do ponto singular regular z0 = 0 é
A1 z 1−γ F (α + 1 − γ, β + 1 − γ, 2 − γ, z) + A2 F (α, β, γ, z) .
onde A1 e A2 são constantes arbitrárias.
Caso 2. γ = 1.
P
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = ∞ n
n=0 cn z e, de modo
análogo, obtemos
(α + n)(β + n)
cn+1 = cn , (7.129)
(n + 1)2
para todo n ≥ 0. Assim, a primeira solução é
X∞ X∞
(α)n (β)n n 1 zn
F (α, β, 1, z) = 1 + z = Γ(α + n)Γ(β + n) .
n=1
(n!)2 Γ(α)Γ(β) n=0 (n!)2
Pelo mesmo argumento de acima, a expansão em série do lado direito converge para |z| < 1 e diverge
para |z| > 1.
Pelo Teorema 7.2, página 373, a segunda solução tem a forma

X
F (α, β, 1, z) ln(z) + vn z n ,
n=0

com os vn dados em (7.53) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui. O leitor poderá encontrá-la, por exemplo, em [117].
Caso 3. γ − 1 ∈ \ {0}, ou seja, γ ∈ mas γ 6= 1.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por F (α, β, m, z). Uma segunda solução será da
forma ∞
X
AF (α, β, m, z) ln(z) + z 1−m vn z n ,
n=0
com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de F (α, β, m, z). Novamente,
a expressão que se obtem é complexa e remetemos o estudante a, e.g., [117].
No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.
Como já observamos acima, uma solução é dada por z 1+m F (α + 1 + m, β + 1 + m, 2 + m, z). Uma
segunda solução será da forma

X
Az 1+m F (α + 1 + m, β + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0

com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de z 1+m F (α + 1 + m, β +


1 + m, 2 + m, z). Novamente, a expressão que se obtem é complexa e remetemos o estudante a, e.g.,
[117].
Com isso encerramos nossa breve excursão às funções hipergeométricas e remetemos o estudante
interessado em um maior aprofundamento à literatura supra-citada.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 406/1195

7.2.6 A Equação Hipergeométrica Confluente


A equação diferencial
zy 00 (z) + [γ − z]y 0 (z) − αy(z) = 0, (7.130)
para z ∈ e com α e γ ∈ constantes, é denominada equação hipergeométrica confluente ou equação
de Kummer. A mesma pode ser obtida da equação hipergeométrica por um procedimento de limite
no qual a singularidade regular de z0 = 1 daquela equação é feita imergir (“confluir”, daı́ o nome)
na singularidade regular de z0 = ∞. Esse processo pode ser descrito da seguinte forma. Façamos na
equação hipergeométrica

z(1 − z)y 00 (z) + [γ − (1 + α + β)z]y 0 (z) − αβy(z) = 0

a mudança de variáveis ζ = βz. A mesma assume a forma (verifique!)


     
ζ d2 y α+β+1 dy
ζ 1− 2
+ γ− ζ − αy = 0 .
β dζ β dζ

Tomando-se agora o limite |β| → ∞ obtemos a forma (7.130). Vide, e.g., [117] ou [64]. A equação
hipergeométrica confluente possui uma singularidade regular em z0 = 0 e uma irregular em z0 = ∞
(vide discussão à página 353).
Assim como no caso da equação hipergeométrica, há várias equações diferenciais de interesse que
podem ser transformadas em equações hipergeométricas confluentes. Os exemplos mais evidentes são
a equação de Laguerre, Seção 7.2.4, página 399, que corresponde a γ = 1 e α = −λ, e a equação de
Laguerre associada, Seção 7.3.2, página 411, que corresponde a γ = m + 1 e α = −(n − m). Com
isso, pode-se estudar certas propriedades de várias funções especiais, tais como seu comportamento
assintótico, a partir das propriedades correspondentes de funções hipergeométricas confluentes.
Para a equação hipergeométrica confluente tem-se
[γ − z] 0 αz
y 00 (z) + y (z) − 2 y(z) = 0
z z
e assim, comparando com a forma padrão (7.44), temos

a(z) = γ − z, e b(z) = −αz .

Logo, 
 γ, para n = 0 
−α, para n = 1
an = −1, para n = 1 , bn = .
 0, para n = 0 ou n ≥ 2
0, para n ≥ 2
A equação indicial é, portanto,
f (x) = x(x + γ − 1) ,
cujas raı́zes são
γ− = 1 − γ e γ+ = 0 ,
tal como para a equação hipergeométrica. Há, assim, três casos a considerar: 1. γ − 1 6∈ , ou seja,
γ 6∈ . 2. γ = 1. 3. γ − 1 ∈ \ {0}, ou seja, γ ∈ mas γ 6= 1.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 407/1195

Caso 1. γ − 1 6∈ , ou seja, γ 6∈ .
Aqui, de acordo com (7.49) e (7.50), as soluções são

X ∞
X
1−γ n
y1 (z) = z cn z e y2 (z) = dn z n , (7.131)
n=0 n=0

onde
n−1 h i 1 Xh i
X n−1
1
cn = − (m + 1 − γ)an−m + bn−m cm , dn = − man−m + bn−m dm ,
f (1 − γ + n) m=0 f (n) m=0

para todo n ≥ 1. Assim,


n+α−γ n+α−1
cn = cn−1 , dn = dn−1 ,
n(n + 1 − γ) n(n + γ − 1)
o que conduz a
(α + 1 − γ)n (α)n
cn = c0 , dn = d0 , (7.132)
n!(2 − γ)n n!(γ)n
Tomando d0 = 1 a solução y2 assume a forma
X∞ ∞
(α)n n Γ(γ) X Γ(α + n) z n
1 F1 (α, γ, z) := 1 + z = . (7.133)
n=1
n!(γ) n Γ(α) n=0
Γ(γ + n) n!

Esta função é denominada função hipergeométrica confluente ou, por vezes, função de Kummer.

E. 7.18 Exercı́cio. Prove, usando diretamente as definições, a seguinte relação entre as funções hiper-
geométricas confluentes e as funções hipergeométricas:
 
z
1 F1 (α, γ, z) = lim F α, β, γ, .
|β|→∞ β
6

Aplicando o teste da razão à série de (7.133)


(α)n+1
n+1
(n+1)!(γ)n+1 z |α + n|
= |z| ,
(α) n
z n (n + 1) |γ + n|
n!(γ)n

vemos que a mesma converge para todo z, pois para cada z fixo o lado direito torna-se menor que 1
para n grande o suficiente. Assim, 1 F1 (α, γ, z) é analı́tica para todo z ∈ .
Fazemos ainda notar que a expressão acima para 1 F1 (α, γ, z) está definida mesmo para o caso em
que γ é um inteiro positivo e, portanto, representa uma solução da equação hipergeométrica confluente
naquele caso. Para γ nulo ou um inteiro negativo, digamos γ = −m, o denominador (γ) n anula-se para
n > m e a expressão para F (α, γ, z) deixa de fazer sentido.
Passemos agora à solução y1 . Alguns segundos de contemplação das expressões de (7.132) conduzem-
nos à percepção que a relação entre cn e c0 equivale à relação entre dn e d0 com a troca α → α + 1 − γ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 408/1195

e γ → 2 − γ (tal como se fez no caso da equação hipergeométrica, acima). Assim, convencionando-se


também c0 = 1 tem-se que a solução y1 (z) é dada por

z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) .

Fazemos ainda notar que 1 F1 (α + 1 − γ, 2 − γ, z) está definida mesmo para o caso em que γ é
um inteiro não-positivo e, portanto, z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) representa uma solução da equação
hipergeométrica confluente naquele caso.
Resumindo, para o caso γ 6∈ a solução geral da equação hipergeométrica confluente (7.130) é

A1 z 1−γ 1 F1 (α + 1 − γ, 2 − γ, z) + A2 1 F1 (α, γ, z) ,

onde A1 e A2 são constantes arbitrárias.


Caso 2. γ = 1.
Esse é o caso da equação de Laguerre.
P∞
Aqui γ− = γ+ = γ0 = 0. Nesse caso a primeira solução é da forma y1 (z) = n=0 cn z n e, de modo
análogo, obtemos
(α + n)
cn+1 = cn , (7.134)
(n + 1)2
para todo n ≥ 0. Assim, a primeira solução é
X∞ ∞
(α)n n 1 X zn
F
1 1 (α, 1, z) = 1 + 2
z = Γ(α + n) 2
.
n=1
(n!) Γ(α) n=0
(n!)

Pelo Teorema 7.2, página 373, a segunda solução tem a forma



X
1 F1 (α, 1, z) ln(z) + vn z n ,
n=0

com os vn dados em (7.53) em termos dos cn de acima. A expressão que se obtem é um tanto complexa
e evitamos colocá-la aqui.
Caso 3. γ − 1 ∈ \ {0}, ou seja, γ ∈ mas γ 6= 1.
Esse é o caso da equação de Laguerre associada.
Há dois casos a distinguir: a. γ > 1 e b. γ ≤ 0.
No caso a, γ = m, com m > 1 inteiro. Aqui tem-se n0 = m − 1, γ1 = γ+ = 0 e γ2 = γ− = 1 − m.
Como já observamos acima, uma solução é dada por 1 F1 (α, m, z). Uma segunda solução será da forma

X
1−m
A 1 F1 (α, m, z) ln(z) + z vn z n ,
n=0

com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de 1 F1 (α, m, z). Novamente,
a expressão que se obtem é complexa e a omitimos aqui.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 409/1195

No caso b, γ = −m, com m ≥ 0 inteiro. Aqui tem-se n0 = m + 1, γ1 = γ− = 1 + m e γ2 = γ+ = 0.


Como já observamos acima, uma solução é dada por z 1+m 1 F1 (α + 1 + m, 2 + m, z). Uma segunda
solução será da forma

X
1+m
Az 1 F1 (α + 1 + m, 2 + m, z) ln(z) + vn z n ,
n=0

com os vn e A dados como em (7.57) e (7.58) a partir dos coeficientes cn de z 1+m 1 F1 (α+1+m, 2+m, z).
Novamente, a expressão que se obtem é complexa e é omitida aqui.
Com isso encerramos nossa breve excursão às funções hipergeométricas confluentes. Para um tra-
tamento extensivo da equação hipergeométrica confluente e propriedades de suas soluções, vide [116],
[64] ou [130].

7.3 Algumas Equações Associadas


Algumas das equações tratadas acima possuem parentes próximos com os quais se relacionam amisto-
samente. Vamos estudar algumas delas.

7.3.1 A Equação de Legendre Associada


A equação de Legendre associada é equação diferencial
µ2
(1 − z 2 )y 00 (z) − 2zy 0 (z) + λ(λ + 1)y(z) − y(z) = 0 . (7.135)
1 − z2
Como é fácil de se constatar, os pontos ±1 são pontos singulares regulares da equação de Legendre
associada. Repare também que para µ = 0 recupera-se a equação de Legendre usual
(1 − z 2 )y 00 (z) − 2zy 0 (z) + λ(λ + 1)y(z) = 0 . (7.136)

O principal interesse na equação (7.135) se dá no caso em que µ é um número inteiro, µ = m ∈ ,


situação que corresponde à maioria das aplicações. Nesse caso, um truque feliz permite-nos encontrar
as soluções sem termos de recorrer ao método de Frobenius.
Tudo começa com a observação que a equação de Legendre usual e a equação de Legendre associada
podem ser transformadas em uma mesma equação. Se em (7.135) fizermos a substituição (já adotando
µ = m ∈ ) y(z) = (1 − z 2 )m/2 v(z), obtemos para v a equação
 
(1 − z 2 )v 00 (z) − 2(m + 1)z v 0 (z) + λ(λ + 1) − m(m + 1) v(z) = 0 . (7.137)

E. 7.19 Exercı́cio importante. Mostre isso. Sugestão: um pouco de paciência. 6

Se, por outro lado, tomarmos a equação (7.136) e a derivarmos m vezes, obtemos
00 0   
(1 − z 2 ) y (m) (z) − 2(m + 1)z y (m) (z) + λ(λ + 1) − m(m + 1) y (m) (z) = 0 . (7.138)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 410/1195

E. 7.20 Exercı́cio importante. Mostre isso. Sugestão: use a regra de Leibniz para calcular as derivadas
   
dm 2 00 dm 0
dz m
(1 − z )y (z) e dz m zy (z) . 6

Comparando (7.137) com (7.138), constatamos que ambas são a mesma equação. Com isso, vemos
que se yL é a solução geral da equação de Legendre e yLa é a solução geral da equação de Legendre
(m)
associada, então (1 − z 2 )−m/2 yLa (z) e yL (z) devem ser proporcionais, já que obedecem à mesma
equação (7.137). Com isso, obtemos que a solução geral da equação de Legendre associada pode ser
obtida da solução geral da equação de Legendre por
(m)
yLa (z) = km (1 − z 2 )m/2 yL (z) ,
km sendo constantes de normalização a serem convencionadas.
Coloquemo-nos agora a questão: qual solução yL da equação de Legendre devemos adotar? Isso
certamente depende do tipo de problema considerado, mas na maioria das aplicações procuramos
resolver a equação de Legendre associada no intervalo [−1, 1] e procuramos soluções que sejam finitas
em todo esse intervalo, incluindo as bordas ±1. Ora, já vimos que as únicas soluções da equação
de Legendre usual que permanecem limitadas nos extremos ±1 (assim como suas derivadas) são os
polinômios de Legendre Pl (z), os quais ocorrem como solução apenas no caso λ = l, um inteiro não-
negativo. Obtemos assim que as soluções de interesse da ação de Legendre associada que são limitadas
em todo o intervalo fechado [−1, 1] ocorrem para λ = l, um inteiro não-negativo, e são dadas por
dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (7.139)
dz m
onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se m > l (pois Pl é um polinômio
de grau l).
As funções Plm definidas acima são denominadas polinômios de Legendre associados, ainda que
não sejam realmente polinômios em z no caso em que m é ı́mpar (devido ao fator (1 − z 2 )m/2 )24 e
desempenham um papel importante na resolução de equações diferenciais parciais em 3 dimensões
em coordenadas esféricas, tais como a equação de Laplace e de Helmholtz. A eles estão intimamente
relacionados os chamados harmônicos esféricos, dos quais falaremos na Seção 8.2.2, página 442, e que
desempenham um papel na Mecânica Quântica (orbitais atômicos), na Teoria de Grupos (representações
do grupo SO(3)), no Eletromagnetismo (emissão de ondas eletromagnéticas por antenas) etc.
As funções Plm estão definidas acima para l inteiro não-negativo, ou seja l = 0, 1, 2, 3, . . ., e m
inteiro com 0 ≤ m ≤ l (pois para m > l o lado direito de (7.139) anula-se). Cada Plm é solução da
equação de Legendre associada
m2
(1 − z 2 )y 00 (z) − 2zy 0 (z) + l(l + 1)y(z) − y(z) = 0 . (7.140)
1 − z2
Na Seção 8.2.1, que se inicia à página 436, mostraremos que os polinômios de Legendre podem ser
escritos como
1 dl  2 l

Pl (z) = l (z − 1) ,
2 l! dz l
24
Se, no entanto, substituirmos z por cos θ, com 0 ≤ θ ≤ π, o que costumeiramente se faz em aplicações, P lm (cos θ)
torna-se um polinômio trigonométrico, ou seja, um polinômio em cos θ e sen θ, já que (1 − z 2 )m/2 torna-se ( sen (θ))m .
Essa é a razão dessa nomenclatura. Vide expressão (8.53), página 446.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 411/1195

expressão essa conhecida como fórmula de Rodrigues para os polinômios de Legendre. Assim, obtemos
l+m  
1 2 m/2 d
Plm (z) = l (1 − z ) 2 l
(z − 1) , (7.141)
2 l! dz l+m
expressão válida para 0 ≤ m ≤ l, com l um inteiro não-negativo: l = 0, 1, 2, 3, . . .. Caso m > l, o
lado direito se anula.
Um ponto interessante, porém, é que a expressão do lado direito de (7.141) está bem definida para
quaisquer l e m com l + m ≥ 0, ou seja, também para m’s negativos tais que m ≥ −l. Assim, (7.141)
está definida para todo m inteiro com −l ≤ m ≤ l 25 .
Da expressão (7.141), entendida para todo l inteiro não-negativo e −l ≤ m ≤ l, é possı́vel mostrar
que
(l − m)! m
Pl−m (z) = (−1)m P (z) .
(l + m)! l
Essa relação, que é relevante para os chamados harmônicos esféricos, mostra que P l−m (z) é também
solução da equação de Legendre associada (7.140), por ser proporcional a P lm (z). Trataremos disso
na Seção 8.2.2, página 442, onde outras propriedades dos polinômios de Legendre associados serão
apresentadas e sua relação com os harmônicos esféricos discutida.

7.3.2 A Equação de Laguerre Associada


A equação de Laguerre associada é a equação diferencial

xy 00 + (m + 1 − x)y 0 + (n − m)y = 0 . (7.142)

O principal interesse nessa equação reside no caso onde m e n são inteiros satisfazendo 0 ≤ m ≤ n.
Como o leitor facilmente constata, trata-se de um caso particular da equação hipergeométrica confluente
(7.130). A equação de Laguerre associada surge da equação de Schrödinger para o átomo de hidrogênio
quando a mesma é resolvida pelo método de separação de variáveis em coordenadas esféricas.
A solução dessa equação pode ser obtida diretamente da solução da equação de Laguerre usual

xy 00 + (1 − x)y 0 + ny = 0 (7.143)

pois esta, quando diferenciada m vezes em relação à x, transforma-se exatamente na equação (7.142).

E. 7.21 Exercı́cio. Verifique! Sugestão: regra de Leibniz. 6

Assim, se y é solução de (7.143) segue que y (m) é solução de (7.142). Concluı́mos que as únicas
soluções de (7.142) que são regulares em x = 0 são da forma
 
(m) dm dm x d
n
n −x
Ln (x) = Ln (x) = e (x e ) . (7.144)
dxm dxm dxn
a última igualdade sendo proveniente de (7.122) ou de (8.86).
25
De passagem, comentamos que a relação −l ≤ m ≤ l desempenha um papel na teoria do momento angular na
Mecânica Quântica, mas isso não é nosso assunto aqui.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 412/1195

(m)
Os polinômios Ln são denominados polinômios de Laguerre associados. Os polinômios de Laguerre
associados surgem, como dissemos, na resolução da equação de Schrödinger para o átomo de hidrogênio
em coordenadas esféricas. Vide Seção 8.3.7, página 507. Junto com os harmônicos esféricos, definidos à
página 450, os polinômios de Laguerre associados definem a forma dos orbitais eletrônicos do átomo de
hidrogênio e (de forma aproximada) de átomos hidrogenóides. A forma desses orbitais é de importância
fundamental no estudo de átomos e moléculas e suas ligações quı́micas.
Usando (7.121), é fácil constatar que
n−m
X  
n k n!
Ln(m) (x) = (−1)m
(−1) xk .
k=0
k! m + k

Mais propriedades dos polinômios de Laguerre associados serão estudadas na Seção 8.2.5, página
460.

7.3.3 A Equação de Bessel Esférica


A equação diferencial
z 2 y 00 (z) + 2zy 0 (z) + (z 2 − σ(σ + 1))y(z) = 0 ,
para z ∈ , com σ ∈ , constante, é denominada equação de Bessel esférica de ordem σ.
A equação de Bessel esférica surge, por exemplo, quando da resolução da equação de Helmholtz em
três dimensões em coordenadas esféricas (vide Seção 8.3, página 482) e, portanto, é importante para o
estudo da propagação de ondas ou de fenômenos de difusão em três dimensões.
Se definirmos v(z) = z 1/2 y(z), obtemos para v a equação diferencial
 2 !
1
z 2 v 00 (z) + zv 0 (z) + z 2 − σ + v(z) = 0 ,
2

que nada mais é que a equação de Bessel usual de ordem σ + 12 . Conseqüentemente as soluções da
equação de Bessel esférica são da forma

Jσ+ 1 (z) Nσ+ 1 (z)


y(z) = A √2 + B √2 ,
z z

onde A e B são constantes arbitrárias.


Em função disso, definem-se as chamadas funções de Bessel esféricas de ordem ν por
r
π
jν (z) := J 1 (z) , (7.145)
2z ν+ 2
e as chamadas funções de Neumann esféricas de ordem ν por
r
π
nν (z) := N 1 (z) . (7.146)
2z ν+ 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 413/1195

É bastante claro que as funções nν (z) são singulares em z = 0, enquanto que as funções jν (z) não
divergem em z = 0, sendo até mesmo funções inteiras (analı́ticas em toda parte) para ν inteiro não-
negativo.
Um caso de particular interesse é aquele no qual σ = l ∈  . Nesse caso, podemos escrever a solução
geral da equação de Bessel esférica na forma

y(z) = ajl (z) + bnl (z) ,

com a e b constantes arbitrárias, onde


r
π
jl (z) := J 1 (z) , e (7.147)
2z l+ 2
r r
π (7.113) l+1 π
nl (z) := Nl+ 1 (z) = (−1) J 1 (z) . (7.148)
2z 2 2z −(l+ 2 )

Note que, por (7.114), tem-se

sen (z) cos(z)


j0 (z) = e n0 (z) = − . (7.149)
z z

Algumas propriedades das funções de Bessel esféricas serão estudadas na Seção 8.2.7, página 478.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 414/1195

Apêndices

7.A Prova da Proposição 7.1. Justificando os Polinômios de


Legendre

X
Provaremos a Proposição 7.1 apenas para o caso da série c2k z 2k , pois a demonstração para a série
k=0

X
c2k+1 z 2k+1 é, mutatis mutantis, idêntica.
k=0

Caso λ ∈ seja um inteiro não-negativo par, a série em (7.12) torna-se um polinômio e é, con-


seqüentemente, finita para todo z ∈ .


Consideremos, então, que λ ∈ não é um inteiro não-negativo par. Tomemos a série em (7.12)


somada, para simplificar, a partir de k = 2 e calculada em z = ±1 (tomamos c0 = 1, sem perda de


generalidade):
X∞ X ∞ k−1  
1 Y λ(λ + 1)
c2k = −λ(λ + 1) 1− .
k=2 k=2
2k l=1 2l(2l + 1)
Consideremos, para N > 2,
N
X N
X k−1  
1 Y λ(λ + 1)
c2k = 1− .
2k 2l(2l + 1)
k=2 k=2 l=1

Se λ(λ + 1) ≤ 0 teremos que


Y
k−1
λ(λ + 1)

1− ≥ 1,
2l(2l + 1)
l=1

pois os fatores são positivos e maiores que 1. Logo,


N
X XN k−1   N
1 Y λ(λ + 1) X 1
c2k = 1− ≥ .
k=2 k=2
2k l=1
2l(2l + 1) k=2
2k

XN XN
1
Portanto, como lim diverge, isso prova que lim c2k diverge, completando a prova.
N →∞
k=2
2k N →∞
k=2

Se λ(λ + 1) > 0 devemos proceder de outra forma. É claro que existe k0 ∈  , k0 > 2, tal que

λ(λ + 1)
0 < < 1, (7.A.1)
2k0 (2k0 + 1)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 415/1195

λ(λ+1)
o que implica 1 − 2l(2l+1)
> 0 para todo l > k0 . Escolhendo N > k0 , podemos escrever

N
X k0
X N
X
c2k = c2k + c2k
k=2 k=2 k=k0 +1

k0
X 0 −1
kY   X
N k−1  
λ(λ + 1) 1 Y λ(λ + 1)
= c2k + 1− 1− . (7.A.2)
k=2 l=1
2l(2l + 1) k=k0 +1
2k l=k
2l(2l + 1)
0

Podemos escrever
k−1
Y   k−1
X  !
λ(λ + 1) λ(λ + 1)
1− = exp ln 1 − ,
l=k0
2l(2l + 1) l=k
2l(2l + 1)
0

λ(λ+1)
pois 1 − 2l(2l+1)
> 0 para todo l ≥ k0 .
Agora, se 0 ≤ x ≤ M para algum 0 < M < 1, então vale

ln(1 − M )
ln(1 − x) ≥ x . (7.A.3)
M
Isso pode ser provado de diversas formas, por exemplo usando a concavidade da função logaritmo, que
garante que  
ln αa + (1 − α)b ≥ α ln(a) + (1 − α) ln(b) ,

para todo 0 ≤ α ≤ 1 e todo 0 < a < b. Tomando a = 1 − M , b = 1 e α = x/M , estabelece-se (7.A.3).


λ(λ+1) λ(λ+1)
Com isso, e como 0 < 2l(2l+1)
≤ 2k0 (2k0 +1)
=: M , para todo l ≥ k0 , temos que

k−1
X  ! k−1
!
λ(λ + 1) ln(1 − M ) X λ(λ + 1)
exp ln 1 − ≥ exp ,
l=k0
2l(2l + 1) M l=k
2l(2l + 1)
0

Agora,
k−1
X X∞
λ(λ + 1) λ(λ + 1)
≤ < ∞,
l=k
2l(2l + 1) l=k
2l(2l + 1)
0 0

X∞
λ(λ + 1)
pois a série acima é convergente. Assim, definindo K := , teremos que
l=k
2l(2l + 1)
0

k−1
X  ! k−1
!  
λ(λ + 1) ln(1 − M ) X λ(λ + 1) ln(1 − M )
exp ln 1 − ≥ exp ≥ exp K
l=k0
2l(2l + 1) M l=k
2l(2l + 1) M
0

já que, por (7.A.1), ln(1 − M ) < 0.


Dessa forma, retornando a (7.A.2), temos que
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 416/1195

k −1     !
X N Xk0 Y 0
λ(λ + 1)
N
X 1
k−1
X λ(λ + 1)

c2k − c2k = 1− exp ln 1 −
2l(2l + 1) 2k 2l(2l + 1)
k=2 k=2 l=1 k=k0 +1 l=k 0

k −1    
Y0
λ(λ + 1) ln(1 − M )
N
X 1

≥ 1− exp K .
2l(2l + 1) M 2k
l=1 k=k0 +1

N
X XN
1
Como o limite lim diverge, concluı́mos que lim c2k também diverge, completando a
N →∞
k=k0 +1
2k N →∞
k=2
prova.

7.B Provando (7.14)


Vamos considerar apenas o caso em que m é par, pois o caso em que m é ı́mpar pode ser tratado de
forma totalmente análoga. Temos que
m/2 k−1
!
X z 2k Y
(0)
Pm (z) = c0 ym (z) = c0 2l(2l + 1) − m(m + 1) ,
(2k)!
k=0 l=0

Como dissemos, a convenção é escolher c0 de modo que o coeficiente do monômio de maior grau do
polinômio acima seja 2m(2m)!
(m!)2
. Assim, devemos ter
m
−1 !
1 Y2
(2m)!
c0 2l(2l + 1) − m(m + 1) = ,
m! l=0 2m (m!)2

ou seja,
m
−1 !−1
(2m)! Y
2

c0 = m 2l(2l + 1) − m(m + 1) .
2 m! l=0
Com isso m !−1
m/2 −1
X z 2k (2m)! Y
2

Pm (z) = 2l(2l + 1) − m(m + 1) .


k=0
(2k)! 2m m! l=k
m
Façamos agora a mudança de variável k → 2
− k. Ficamos com
m/2
m
−1 !−1
X z m−2k (2m)! Y
2

Pm (z) = 2l(2l + 1) − m(m + 1) .


(m − 2k)! 2m m!
k=0 l= m
2
−k

m
Façamos ainda a mudança de variável l → 2
− l. Obtemos,
m/2 k
!−1
X zm−2k
(2m)! Y
Pm (z) = (m − 2l)(m − 2l + 1) − m(m + 1) .
k=0
(m − 2k)! 2m m! l=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 417/1195

Entretanto,
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1) ,
como facilmente se vê. Agora, com isso,
k
!−1 k
!−1
Y Y
(m − 2l)(m − 2l + 1) − m(m + 1) = −2l(2m − 2l + 1)
l=1 l=1

k
! k
!
Y 1 Y 1
= (−1)k
l=1
2l l=1
2m − 2l + 1

m
Y
(2m − 2l + 1)
(−1)k l=k+1
= m
(2k)!! Y
(2m − 2l + 1)
l=1

Ym
(−1)k
= (2m − 2l + 1)
(2k)!! (2m − 1)!! l=k+1

m−k
Y
l→l+k (−1)k
= (2(m − k) − 2l + 1)
(2k)!! (2m − 1)!! l=1

(−1)k
= (2(m − k) − 1)!! .
(2k)!! (2m − 1)!!
Assim, !
m/2
X (−1)k z m−2k (2m)! (2(m − k) − 1)!!
Pm (z) = .
k=0
2m (m − 2k)! m! (2k)!! (2m − 1)!!
Vale, porém,
!
(2m)! (2(m − k) − 1)!! (2m)! (2(m − k) − 1)!! (2(m − k))!!
=
m! (2k)!! (2m − 1)!! m! (2k)!! (2m − 1)!! (2(m − k))!!

(2m)! (2(m − k))!


=
m! (2m − 1)!! (2k)!! (2(m − k))!!

(2m)!! (2m − 2k)!


=
m! (2k)!! (2(m − k))!!

2m m! (2m − 2k)!
=
m! 2k k! 2m−k (m − k)!

(2m − 2k)!
= ,
k! (m − k)!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 418/1195

onde, na penúltima passagem, usamos que (2p)!! = 2p p! para todo p ∈  . Com isso,
m/2
X (−1)k z m−2k (2m − 2k)!
Pm (z) = ,
k=0
2m (m − 2k)! k! (m − k)!

que é a expressão (7.14) para m par.


O caso em que m é ı́mpar é análogo e é deixado como exercı́cio.

7.C Justificando os Polinômios de Hermite


Tomaremos aqui z = x ∈  e consideraremos apenas a série

X∞ k−1
(0) λ 2 x2k Y
yλ (x) := 1 − x − λ (4l − λ) ,
2 k=2
(2k)! l=1

com λ ∈ mas λ 6= 2m para m um inteiro positivo par (o que faz da série acima uma série infinita),


(1)
pois o tratamento da série yλ é idêntico.
 
Seja s > 1, arbitrário mas fixo, e escolhamos k0 > 2 tal que 1 − 4kλ0 > 1s . Note que se λ ≤ 0, isso
é válido para todo k0 > 2 enquanto que, se λ > 0, devemos tomar
 
λs
k0 > max , 2 . (7.C.4)
4(s − 1)

Escrevemos
Xk0 k−1 ∞ k−1
(0) λ 2 x2k Y X x2k Y
yλ (x) := 1 − x − λ (4l − λ) − λ (4l − λ) .
2 k=2
(2k)! l=1 k=k +1
(2k)! l=1
0

É fácil verificar que



X k−1 ∞ k−1  
x2k Y X
k−1 2k (k − 1)! Y λ
(4l − λ) = 4 x 1−
k=k0 +1
(2k)! l=1 k=k0 +1
(2k)! l=1 4l

k0 −1   ! ∞ k−1  
1 Y λ X
k 2k (k − 1)! Y λ
= 1− 4 x 1− .
4 l=1 4l k=k0 +1
(2k)! l=k 4l
0


X k−1  
k 2k (k − 1)! Y λ
Vamos agora nos concentrar na série 4 x 1− . Pela escolha de k0 , sabemos
k=k0 +1
(2k)! l=k 4l
0
que para l ≥ k0 , vale    
λ λ 1
1− ≥ 1− >
4l 4k0 s
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 419/1195

e, portanto,
k−1
Y  
λ 1
1− > .
4l sk−k0
l=k0

Além disso,
(2k)! = (2k)!! (2k − 1)!! = 2k k! (2k − 1)!! < 22k (k!)2 ,
pois
   
k 1 3 5 1
(2k−1)!! = (2k−1)(2k−3)(2k−5) · · · 1 = 2 k− k− k− · · · < 2k k(k−1)(k−2) · · · 1 .
2 2 2 2

Logo,

X k−1   ∞  2 k
k 2k (k− 1)! Y λ k0
X 1 x
4 x 1− > s
k=k0 +1
(2k)! l=k 4l k=k +1
k(k!) s
0 0


X  k
k0 1 x2
> s
k=k0 +1
(k + 1)! s

∞  2 k+1
s X k0 1 x
= s 2
x k=k +1 (k + 1)! s
0

k=k
X 0 +1
 k !
sk0 +1 x2 /s 1 x2
= e − .
x2 k=0
k! s

2
Kex /s − p(x)
(0)
Tudo isso mostra que yλ (x) é maior que , onde K é uma constante (que depende
x2
de λ, s e k0 ) e p(x) é um polinômio de grau 2k0 + 2 em x. Como s é arbitrário, vemos que o produto
(0) 2
yλ e−x /2 diverge para |x| → ∞, já que podemos escolher 1/s > 1/2, tomando26 1 < s < 2.
No contexto do problema do oscilador harmônico na Mecânica Quântica (vide Seção 8.3.6, página
(0) 2
506) esse comportamento é inaceitável, pois o produto yλ e−x /2 representa uma função de onda, que
deve ser de quadrado integrável em . Isso força-nos a tomar λ = 2m com m um inteiro positivo e


(0)
par, de modo a reduzir yλ (x) a um polinômio.
(1)
Para yλ (x) as considerações são análogas e não iremos repeti-las aqui.
26 (0) 2
/2
Por (7.C.4), tomar s próximo de 1 aumenta o grau do polinômio p(x), mas não altera o fato que y λ (x)e−x diverge
para |x| → ∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 420/1195

7.D Provando (7.20)


Consideraremos apenas o caso em que m é par, pois o caso em que m é ı́mpar é tratado analogamente.
Para m par, tem-se
 m

X2 2k k−1
Y
z
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(2k)!
k=2 l=1

m
Fazendo a mudança de variáveis k → 2
− k, teremos
 m m

−2 −k−1
X
2
z m−2k 2Y
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (4l − 2m) .
(m − 2k)!
k=0 l=1

Tem-se que
m m
−k−1 −k−1
2 Y m
2 Y
−k−1
(4l − 2m) = (−2) 2 (m − 2l)
l=1 l=1

m
−1
Y
2

(m − 2l)
m l=1
−k−1
= (−2) 2
m
−1
Y
2

(m − 2l0 )
l0 = m
2
−k

m
−1
Y
2

(m − 2l)
l0 → m −l0 m
−k−1 l=1 m (m − 2)!!
= 2
(−2) 2 = (−2) 2 −k−1 .
k
Y (2k)!!
2l0
l0 =1

Logo,
 m

−2
X
2
zm−2k
m (m − 2)!! 
Hm (z) = (−2)m/2 (m − 1)!! 1 − m z 2 − 2m (−2) 2 −k−1
k=0
(m − 2k)! (2k)!!

m
−2
m  X
2
(−1)k m!
2
= (−2) (m − 1)!! 1 − m z
2 + (2z)m−2k
k=0
(m − 2k)! k!

m
X2
(−1)k m!
= (2z)m−2k , (7.D.5)
k=0
(m − 2k)! k!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 421/1195

já que

(2p)! (2p)!! (2p − 1)!!


m (m−1)!! (m−2)!! = m!, que (2k)!! = 2k k! e que = = 2p (2p−1)!! .
p! p!

A expressão (7.D.5) coincide com (7.20) para m par. O caso em que m é ı́mpar é análogo e é deixado
como exercı́cio.

7.E Porque λ deve ser um Inteiro Positivo na Equação de


Laguerre
Justificaremos aqui por que consideramos λ um inteiro positivo na equação de Laguerre. Temos dois
casos a tratar: a. λ < 0 e b. λ > 0 mas λ não-inteiro. Em aplicações, especialmente na Mecânica
Quântica, a variável z é um número real positivo (uma coordenada radial). Vamos então doravante
tomar z real e positivo e escrever z = r > 0.
Se λ não for um inteiro positivo a série (7.120) acima é uma série infinita. Podemos escrever
n−1
Y n−1
Y Y
n−1
λ

n
(−1) (λ − l) = −λ (l − λ) = −λ(n − 1)! 1− . (7.E.6)
l=0 l=1 l=1
l

Se λ < 0, a última expressão fica


Y
n−1
|λ|

|λ|(n − 1)! 1+
l=1
l
e "n−1  #

X Y
1 |λ|
y1 (r) = 1 + |λ| 1+ rn .
n=1
n(n!) l=1
l
 
1 1 |λ|
Agora, n
> n+1
e 1+ l
> 1. Assim,


X 1 |λ| r
y1 (r) > 1 + |λ| rn = 1 + (e − 1 − r) .
n=1
(n + 1)! r

Disso concluı́mos que y1 (r) cresce da ordem de er quando r → ∞. O problema com isso é que em
várias aplicações tal comportamento é indesejado. No problema do átomo de hidrogênio da Mecânica
Quântica, por exemplo, o produto e−r/2 y1 (r) representa a função de onda radial de um elétron de
momento angular nulo sob um potencial coulombiano27 . Pelo visto acima, se λ < 0 a função de onda
cresceria para r → ∞ pelo menos como e+r/2 , não podendo, assim, ser uma função de quadrado in-
tegrável em 3 , uma condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica.


Assim, soluções com λ < 0 devem ser descartadas nesse contexto.


27
Vide Seção 8.3.7, página 507, ou qualquer bom livro de Mecânica Quântica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 422/1195

Tratemos agora do caso em que λ é positivo, mas não é um número inteiro. Por (7.E.6), podemos
escrever, para n − 1 ≥ 2dλe,
2dλe−1   n−1
n−1
Y Y λ Y  λ

n
(−1) (λ − l) = −λ(n − 1)! 1− 1− ,
l=0 l=1
l l
l=2dλe

onde dλe é o menor inteiro maior ou igual a λ. Assim,


"n−1 #  
2dλe
X Y ∞
X n−1
Y  
(−1)n 1  λ  n
y1 (r) = 1 + (λ − l) rn + L 1− r ,
n=1
(n!)2 l=0
n (n!) l
n=2dλe+1 l=2dλe

com
2dλe−1  
Y λ
L := −λ 1− .
l=1
l
n−1
Y  
λ
A razão de escrevermos essa expressão dessa forma reside no fato que, agora, 1− é um
l
l=2dλe
produto de termos positivos, sendo que, para l ≥ 2dλe tem-se
λ
1− ≥ α
l
onde
λ 2dλe − λ dλe + (dλe − λ) dλe 1
α := 1 − = = > = .
2dλe 2dλe 2dλe 2dλe 2
Com isso, para a última soma do lado direito vale
 
X∞ n−1
Y   ∞
X
1  λ  n 1
1− r ≥ (α)n−2dλe r n
n (n!) l n (n!)
n=2dλe+1 l=2dλe n=2dλe+1


X 1
= K (αr)n
n (n!)
n=2dλe+1


X 1
> K (αr)n
(n + 1)!
n=2dλe+1

 
K αr
= e − P (αr)
αr
2dλe+1
X 1
onde K := α −2dλe
, P (αr) := (αr)n é um polinômio de grau 2dλe + 1 e α > 1/2.
n=0
n!
Disso concluı́mos que para r → ∞, |y1 (r)| cresce mais rápido que eαr com α > 1/2. Assim, um
produto como e−r/2 y1 (r), que como dissemos representa a função de onda radial de um elétron de
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 7 423/1195

momento angular nulo sob um potencial coulombiano, não é de quadrado integrável no espaço 3 , uma


condição fundamental ligada à interpretação probabilı́stica da Mecânica Quântica. Assim, soluções


com λ > 0, mas λ não-inteiro, devem também ser descartadas nesse contexto.
Capı́tulo 8
Propriedades de Algumas Soluções de Equações
Diferenciais Ordinárias e Aplicações
Conteúdo

8.1 Discussão Preliminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425


8.1.1 Definições e Considerações Preliminares . . . . . . . . . . . . . . . . . . . . . 425
8.1.2 Relações de Ortogonalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
8.1.3 Fórmulas de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
8.1.4 Funções Geratrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
8.2 Propriedades de Algumas Funções Especiais . . . . . . . . . . . . . . . . . 436
8.2.1 Propriedades dos Polinômios de Legendre . . . . . . . . . . . . . . . . . . . . 436
8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos Esféricos . 442
8.2.3 Propriedades dos Polinômios de Hermite . . . . . . . . . . . . . . . . . . . . . 452
8.2.4 Propriedades dos Polinômios de Laguerre . . . . . . . . . . . . . . . . . . . . 456
8.2.5 Propriedades dos Polinômios de Laguerre Associados . . . . . . . . . . . . . . 460
8.2.6 Propriedades das Funções de Bessel . . . . . . . . . . . . . . . . . . . . . . . 463
8.2.7 Propriedades das Funções de Bessel Esféricas . . . . . . . . . . . . . . . . . . 478
8.3 Algumas Aplicações Selecionadas . . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.1 O Método de Separação de Variáveis . . . . . . . . . . . . . . . . . . . . . . . 482
8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções . . . . . . . . . . . . . . . 485
8.3.3 As Equações de Helmholtz e de Laplace . . . . . . . . . . . . . . . . . . . . . 491
8.3.4 O Problema da Corda Pendurada . . . . . . . . . . . . . . . . . . . . . . . . . 499
8.3.5 O Problema da Membrana Circular . . . . . . . . . . . . . . . . . . . . . . . 503
8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Hermite . . . 506
8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada . . . . . . . . . . 507
8.A Provando (8.44) à Força Bruta . . . . . . . . . . . . . . . . . . . . . . . . . 511
8.B Alguns Teoremas de Unicidade de Soluções de Equações Diferenciais
Parciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512

ste capı́tulo dá continuidade ao Capı́tulo 7 e concentra-se no estudo de propriedades especiais


de algumas das funções lá apresentadas como soluções de equações diferenciais de interesse.
Nossos principais objetivos são a dedução das relações de ortogonalidade de certas funções, a
dedução das chamadas fórmulas de Rodrigues e de relações de recorrência para as mesmas e
também a determinação de suas funções geratrizes. Essas propriedades, que serão devidamente definidas

424
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 425/1195

e discutidas na Seção 8.1, são úteis para a resolução de equações diferenciais, especialmente aquelas
provenientes de problemas envolvendo equações diferenciais parciais submetidas a certas condições
iniciais e/ou de contorno. Exemplos de aplicações a problemas fı́sicos são discutidos na Seção 8.3, página
482. Ainda que nosso tratamento seja tão completo quanto possı́vel, dentro do escopo relativamente
limitado que pretendemos, repetimos aqui a recomendação das referências listadas no Capı́tulo 7 à
página 356.

8.1 Discussão Preliminar


Na próxima seção, a Seção 8.2, tencionamos apresentar ao leitor certas propriedades de algumas das
funções encontradas como solução de equações diferenciais de interesse em Fı́sica, propriedades essas
cuja utilidade maior manifesta-se especialmente, como mencionado, na resolução de equações diferen-
ciais parciais submetidas a certas condições iniciais e/ou de contorno. Na presente seção prepararemos
o terreno discutindo algumas idéias gerais.
As idéias gerais que apresentaremos envolvem 1. as chamadas relações de ortogonalidade, que gene-
ralizam aquelas bem-conhecidas da teoria das séries de Fourier; 2. as chamadas fórmulas de Rodrigues,
úteis para a obtenção de relações de recorrência entre funções e 3. as chamadas funções geratrizes, das
quais outras propriedades úteis são extraı́das, como por exemplo representações integrais para certas
funções.
Os exemplos principais dos quais trataremos a seguir, na Seção 8.2, envolvem os polinômios de
Legendre, de Hermite e de Laguerre e as funções de Bessel, todas de importância na resolução de
problemas do Eletromagnetismo, de Mecânica Quântica, da Mecânica dos Fluidos e de outras áreas.

8.1.1 Definições e Considerações Preliminares


No Capı́tulo 7 tratamos nossas equações diferenciais como equações no plano complexo. Para a dis-
cussão das chamadas relações de ortogonalidade devemos considerar apenas equações diferenciais de
uma variável real. De qualquer forma, na absoluta maioria das equações diferenciais de interesse em
Fı́sica a função incógnita y é uma função de uma variável real, digamos, x, e assim consideraremos
aqui.
Em muitas das equações diferenciais de interesse em Fı́sica a variável x é restrita a uma região J ⊂ 

da reta real, sendo J um intervalo fechado (tal como [a, b]), aberto (tal como (a, b)) ou semi-aberto
(tal como (a, b] ou [a, b)). Podem também ocorrer intervalos infinitos, tais como J = (−∞, ∞), ou
semi-infinitos, como J = (0, ∞) ou J = [0, ∞). Denotaremos por J 0 o interior do intervalo J, ou
seja, J 0 é o maior intervalo aberto contido em J. Por exemplo, se J = [a, b] teremos J 0 = (a, b), se
J = [0, ∞) então J 0 = (0, ∞) e se J é aberto então J 0 = J.
Até aqui escrevemos nossas equações lineares homogêneas de segunda ordem na forma

y 00 (x) + a(x)y 0 (x) + b(x)y(x) = 0

(agora já adotando como variável x ∈ J). Em muitos problemas de interesse essa equação pode ser
escrita de outra forma, denominada por alguns autores de forma canônica, e que será importante para
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 426/1195

o que segue:
(p(x)y 0 (x))0 + q(x)y(x) + µ r(x)y(x) = 0, (8.1)
onde,

1. p(x) é real, contı́nua e diferenciável em J 0 e p(x) > 0 para todo x ∈ J 0 .

2. q é real e contı́nua em J.
(8.2)
3. r(x) é real e contı́nua em J 0 e r(x) > 0 para todo x ∈ J 0 .

4. µ é uma constante.

As condições de positividade de p e r em J 0 são as mais importantes. Note-se que não excluiremos que
p e r possam se anular (ou mesmo divergir) nos extremos do intervalo J 1 .
Como o leitor pode facilmente constatar, a relação entre essas funções é a seguinte:
p0 (x) 1
a(x) = , b(x) = (q(x) + µr(x)) .
p(x) p(x)
Dadas a(x) e b(x), a primeira relação acima fixa p(x) (a menos de uma constante), a saber,
Z x 
0 0
p(x) = exp a(x )dx + const. .
0

Já a segunda nem sempre fixa q(x) e r(x) univocamente, tudo dependendo da condição de positividade
sobre r(x), que foi mencionada acima, ou de qual parâmetro se deseja tomar por µ. Na maioria dos
casos, porém, q e r podem ser fixados univocamente, o que ficará claro nos exemplos que seguem.
Várias das equações diferenciais de segunda ordem das quais tratamos no Capı́tulo 7 podem ser
escritas na forma canônica em algum intervalo J conveniente2 . Vamos a alguns exemplos que nos
interessarão:

A equação do oscilador harmônico simples: y 00 (x) + λy(x) = 0. Aqui p(x) = 1, q(x) = 0,


r(x) = 1 e µ = λ. Vários tipos de intervalos J aparecem em problemas. No problema da corda
vibrante, por exemplo, pode-se adotar J = [0, L], L sendo o comprimento da corda.
A equação de Legendre (1 − x2 )y 00 (x) − 2xy 0 (x) + λ(λ + 1)y(x) = 0 é tipicamente considerada
no intervalo J = [−1, 1] e pode ser escrita como
 0
1 − x2 y 0 (x) + λ(λ + 1)y(x) = 0.

Aqui p(x) = (1 − x2 ), q(x) = 0, r(x) = 1 e µ = λ(λ + 1).


Note que p(x) > 0 em J 0 = (−1, 1), mas anula-se nos extremos x = ±1. Já a função r(x) é
positiva em todo J = [−1, 1].
1
O caso em que p e r permanecem finitas e positivas nos extremos do intervalo J é particularmente importante no
chamado Problema de Sturm-Liouville regular, tratado no Capı́tulo 9.
2
A conveniência é ditada pelo problema fı́sico subjacente.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 427/1195

A equação de Hermite y 00 (x) − 2xy 0 (x) + λy(x) = 0, é tipicamente considerada no intervalo


J = (−∞, ∞) e pode ser escrita como
 2 0 2
e−x y 0 (x) + λe−x y(x) = 0.

2 2
Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ.
Note que p(x) > 0 e r(x) > 0 em todo J = (−∞, ∞).

A equação de Chebyshev (1 − x2 )y 00 (x) − x y 0 (x) + λ2 y(x) = 0 é tipicamente considerada no


intervalo J = [−1, 1] e pode ser escrita como
√ 0 1
0
1 − x y (x) + λ2 √
2 y(x) = 0.
1 − x2
√ √
Aqui p(x) = 1 − x2 , q(x) = 0, r(x) = 1/ 1 − x2 e µ = λ2 .
Note que p(x) > 0 em J 0 = (−1, 1), mas anula-se nos extremos x = ±1. Já a função r(x) é
positiva em todo J = (−1, 1), mas diverge nos extremos x = ±1.

A equação de Laguerre xy 00 (x)+(1−x)y 0 (x)+λy(x) = 0 é tipicamente considerada no intervalo


J = [0, ∞) e pode ser escrita como
0
xe−x y 0 (x) + λe−x y(x) = 0.

Aqui p(x) = xe−x , q(x) = 0, r(x) = e−x e µ = λ.


Note que p(x) > 0 em J 0 = (0, ∞), mas anula-se no extremo x = 0. Já a função r(x) é positiva
em todo J = [0, ∞).

A equação de Bessel e a equação de Bessel esférica também podem ser escritas desta forma canônica.
Porém, o tratamento das relações de ortogonalidade que se segue exige para elas algumas adaptações
e postergaremos sua discussão paras as Seções 8.2.6 e 8.2.7, adiante.
Daqui para frente vamos escrever o intervalo J, finito ou não, na forma J := (A, B) ⊂  .
Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos definir o
operador diferencial L por
(Lu)(x) := (p(x)u0 )0 + q(x)u . (8.3)
A equação (8.1) fica simplificada na forma

(Ly)(x) + λ r(x)y(x) = 0 . (8.4)

Se λ for um número tal que a equação (8.4) for satisfeita para alguma função u λ (que em geral
dependerá de λ), então diz-se que λ é um autovalor e uλ é dito ser a auto-função associada ao autovalor
λ. Essa nomenclatura surge por analogia com os conceitos de autovalor e auto-vetor de matrizes na
álgebra linear3 .
3 1
Estritamente falando λ e uλ são auto-valores, respectivamente, auto-funções, do operador M = − r(x) L.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 428/1195

8.1.2 Relações de Ortogonalidade


O teorema que agora apresentamos expressa uma da mais importantes propriedades das soluções das
equações diferenciais discutidas acima: as chamadas relações de ortogonalidade.
Teorema 8.1 Considere-se a equação diferencial Lu(x) + µr(x)u(x) = 0 definida no intervalo (não
necessariamente finito) J = (A, B), com p, q e r satisfazendo as condições enumeradas em (8.2).
Sejam λ1 e λ2 ∈ com λ1 6= λ2 e suponhamos que uλ1 e uλ2 sejam funções não-nulas que satisfazem


Luλ1 (x) + λ1 r(x)uλ1 (x) = 0 e Luλ2 (x) + λ2 r(x)uλ2 (x) = 0 , (8.5)

em J = (A, B) e suponhamos ainda que os limites4


   
0 0
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) e lim p(a) uλ1 (a)u0λ2 (a) − u0λ1 (a)uλ2 (a)
b→B− a→A+

existam e satisfaçam
   
0 0 0 0
lim p(b) uλ1 (b)uλ2 (b) − uλ1 (b)uλ2 (b) = lim p(a) uλ1 (a)uλ2 (a) − uλ1 (a)uλ2 (a) . (8.6)
b→B− a→A+

Então, Z B
uλ1 (x) uλ2 (x) r(x) dx = 0 . (8.7)
A
2

Prova. Seja (a, b), com A < a < b < B, qualquer intervalo finito contido em J 0 . Consideremos a
expressão Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx .
a

Como λ1 e λ2 são reais, isso pode ser escrito por (8.5) como

Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a

Z b Z b
= uλ1 (x) (Luλ2 )(x) dx − (Luλ1 )(x) uλ2 (x) dx .
a a
4
Os limites lim e lim significam os limites à esquerda e à direita, respectivamente.
x→Y− x→Y+
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 429/1195

Agora, para quaisquer u e v duas vezes diferenciáveis definidas em (a, b) vale, usando-se integração
por partes,
Z b Z b Z b
0 0
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a

Z b b Z b
0
= − v 0 (x)(p(x)u0 ) dx + vpu + v(x)q(x)u(x) dx
a a a

Z b b b Z b
0

= u(pv 0 )0 0
dx + vpu − v pu + v(x)q(x)u(x) dx
a a a a

Z b b b
0 0
= (Lv)(x) u(x) dx + vpu − v pu , (8.8)
a a a

ou seja, Z Z
b b b b
0 0
v(x) (Lu)(x) dx − (Lv)(x) u(x) dx = vpu − v pu . (8.9)
a a a a

Assim, concluimos que

Z b b b

(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = uλ1 pu0λ2 − u0λ1 puλ2
a a a

   
= p(b) uλ1 (b)u0λ2 (b) − u0λ1 (b)uλ2 (b) − p(a) uλ1 (a)u0λ2 (a) − u0λ1 (a)uλ2 (a) .

Conseqüentemente, tem-se pelas hipóteses,

Z B
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx
A
   
= lim p(b) uλ1 (b)u0λ2 (b) − u0λ1 (b)uλ2 (b) − lim p(a) uλ1 (a)u0λ2 (a) − u0λ1 (a)uλ2 (a) = 0 .
b→B− a→A+

Z B
Como λ1 6= λ2 , isso implica uλ1 (x) uλ2 (x) r(x) dx = 0, como querı́amos provar.
A

A relação (8.7) diz-nos que uλ1 e uλ2 são ortogonais em relação ao produto escalar
Z B
hf, gir := f (x)g(x) r(x) dx , (8.10)
A
RB
definido no conjunto de todas as funções f : J → tais que A |f (x)|2 r(x) dx < ∞. Essas relações
de ortogonalidade são de suma importância em aplicações, especialmente na resolução de equações
diferenciais parciais sob certas condições de contorno. O leitor interessado em exemplos pode passar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 430/1195

diretamente à Seção 8.2, página 436. Aplicações à solução de equações diferenciais parciais de interesse
em Fı́sica serão vistas na Seção 8.3, página 482.
Há várias condições sob as quais (8.6) é satisfeita. Por exemplo, ela será satisfeita se p(A) = p(B) =
0 e se uλ1 , uλ2 e suas derivadas não divergirem em A e B. Outra condição sob a qual (8.6) é satisfeita
se dá, no caso em que (A, B) é um intervalo finito, sob a hipótese que p(A) e p(B) sejam finitos e que
uλ1 e uλ2 satisfaçam condições de contorno em A e B do tipo

α1 y(A) + α2 y 0 (A) = 0 , (8.11)

β1 y(B) + β2 y 0 (B) = 0 , (8.12)

onde α1 , α2 , β1 , β2 são constantes fixadas, sendo (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0). Esse último
tipo de situação é discutido com detalhe no Capı́tulo 9, página 521, especialmente no Lema 9.1 da
página 535.

8.1.3 Fórmulas de Rodrigues


As idéias desta pequena seção serão melhor ilustradas nos exemplos da Seção 8.2.
Consideremos a equação diferencial (p(x)y 0 (x))0 + q(x)y(x) + µ r(x)y(x) = 0, ou seja, Ly + µry = 0,
com p, q e r satisfazendo as condições enumeradas em (8.2) e suponhamos também que r seja uma
função infinitamente diferenciável de x. Consideremos que o intervalo J onde a equação é considerada
seja J = [−1, 1]. Para n = 0, 1, 2, . . ., sejam definidas as funções
!
1 dn
pn (x) := r(x)(1 − x2 )n . (8.13)
r(x) dxn

É fácil ver que se m < n, então Z 1


xm pn (x) r(x) dx = 0 , (8.14)
−1

ou seja, cada pn é ortogonal, segundo o produto escalar h·, ·ir definido em (8.10), a todos os polinômios
de grau menor que n. Para provar (8.14), basta escrever
Z 1 Z 1 !
n
d
xm pn (x) r(x) dx = xm n r(x)(1 − x2 )n dx
−1 −1 dx
 
dk
e fazer n vezes integração por partes, lembrando que a expressão dxk
r(x)(1 − x2 )n , com k < n,
sempre contem um fator (1 − x2 ) que se anula em ±1.

E. 8.1 Exercı́cio importante. Faça isso! 6

Se as funções pn forem elas mesmas polinômios de grau n, o que ocorre em vários casos, concluı́mos
que Z 1
pm (x) pn (x) r(x) dx = 0 ,
−1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 431/1195

sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = [−1, 1].
Várias equações diferenciais do tipo mencionado acima, definidas em um intervalo finito [−1, 1], têm
soluções polinomiais, como por exemplo, a equação de Legendre e de Chebyshev. Como as mesmas,
pelo Teorema 8.1, são ortogonais em relação ao produto escalar h·, ·ir no intervalo J = [−1, 1]5 ,
as considerações acima sugerem que as soluções polinomiais possam ser escritas, a menos de uma
constante multiplicativa, na forma (8.13). Isso é, de fato, verdade para várias equações importantes
(como as de Legendre e Chebyshev) e da expressão (8.13) será possı́vel obter várias propriedades
daqueles polinômios. Isso será melhor discutido nos exemplos que trataremos na Seção 8.2.
A expressão (8.13) é denominada fórmula de Rodrigues6 .

E. 8.2 Exercı́cio. Generalize a fórmula de Rodrigues (8.13) para um intervalo J = [a, b] finito arbitrário.
Sugestão: procure uma transformação linear que mapeie bijetivamente [−1, 1] em [a, b]. 6

As fórmulas de Rodrigues podem ser generalizadas para equações diferenciais definidas em intervalos
não-finitos, como J = (0, ∞) ou J = (−∞, ∞). Tratemos disso.
Para o caso J = (0, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável, mas
devemos ainda supor que r(x) seja limitada em x = 0 e que r(x) e todas as suas derivadas r (m) (x)
caiam no infinito mais rápido que qualquer potência, ou seja lim x→∞ xk r (m) (x) = 0 para todo k ≥ 0 e
m ≥ 0. Definimos, nesse caso,
1 dn  n

pn (x) := r(x) x . (8.15)
r(x) dxn
É fácil ver que se m < n, então Z ∞
xm pn (x) r(x) dx = 0 , (8.16)
0
Para ver isso, escrevemos novamente
Z Z !
∞ ∞
dn
xm pn (x) r(x) dx = xm r(x) xn dx
0 0 dxn

e fazemos integração
 por partes, usando que limx→∞ xk r (m) (x) = 0 para todos k ≥ 0 e m ≥ 0 e que a

dk n
expressão dx k r(x)x , com k < n, sempre contem um fator x que se anula em 0.

E. 8.3 Exercı́cio importante. Complete os detalhes. 6

Em certos exemplos, como na equação de Laguerre, as funções pn são polinômios na variável x.


Nesses casos, temos então que Z ∞
pm (x) pn (x) r(x) dx = 0 ,
0
5
Veremos isso explicitamente nos exemplos da Seção 8.2
6
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Encontrou a fórmula que leva seu nome apenas para o caso dos polinômios de Legendre. A
generalização aqui apresentada é posterior. Rodrigues também deu contribuições para a teoria dos quatérnions e para o
grupo SO(3) (vide Proposição 10.5, página 593). Apesar de banqueiro, Rodrigues foi lı́der do partido socialista francês.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 432/1195

sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = (0, ∞). Como antes, isso sugere que as soluções polinomiais de certas
equações diferenciais definidas no intervalo J = (0, ∞) possam ser escritas, a menos de uma constante
multiplicativa, na forma sugerida pela fórmula de Rodrigues (8.15). Veremos que tal é o caso para os
polinômios de Laguerre e isso nos permitirá obter algumas relações úteis sobre aqueles polinômios.
Para o caso J = (−∞, ∞) devemos supor novamente que r(x) seja infinitamente diferenciável,
mas devemos ainda supor que r(x) e todas as suas derivadas r (m) (x) caiam no infinito mais rápido que
qualquer potência, ou seja lim|x|→∞ |x|k |r (m) (x)| = 0 para todo k ≥ 0 e m ≥ 0. Definimos, nesse caso,
1 dn  
pn (x) := r(x) . (8.17)
r(x) dxn

É fácil ver que se m < n, então Z ∞


xm pn (x) r(x) dx = 0 , (8.18)
−∞
Para ver isso, escrevemos novamente
Z ∞ Z
m

m dn  
x pn (x) r(x) dx = x r(x) dx
−∞ −∞ dxn

e fazemos integração por partes, usando que lim|x|→∞ |x|k |r (m) (x)| = 0 para todos k ≥ 0 e m ≥ 0.

E. 8.4 Exercı́cio importante. Complete os detalhes. 6

Em certos exemplos, como na equação de Hermite, as funções pn são polinômios na variável x.


Nesses casos, temos então que Z ∞
pm (x) pn (x) r(x) dx = 0 ,
−∞

sempre que m 6= n. Isso significa que os polinômios pn (x) são ortogonais dois-a-dois segundo o produto
escalar h·, ·ir no intervalo J = (−∞, ∞). Como antes, isso sugere que as soluções polinomiais de
certas equações diferenciais definidas no intervalo J = (−∞, ∞) possam ser escritas, a menos de uma
constante multiplicativa, na forma sugerida pela fórmula de Rodrigues (8.17). Veremos que tal é o caso
para os polinômios de Hermite e isso nos permitirá obter algumas relações úteis sobre os mesmos.

8.1.4 Funções Geratrizes


Funções geratrizes desempenham um elegante papel no estudo de propriedades de seqüências numéricas,
em análise combinatória e no estudo de certas seqüências de funções (ilustraremos essa afirmação
estudando com elas, logo abaixo, a chamada seqüência de Fibonacci). Faremos adiante uso de funções
geratrizes para demonstrar algumas propriedades úteis de algumas das soluções que encontramos no
Capı́tulo 7, como os polinômios de Legendre, de Hermite, de Laguerre, de Chebyshev e as funções de
Bessel.
O leitor poderá encontrar na bela referência [48] uma vasta coleção de identidades combinatórias in-
teressantes que podem ser engenhosamente demonstradas com o uso de funções geratrizes de seqüências,
assim como outras referências à literatura pertinente.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 433/1195

• Funções geratrizes

Seja {an , n ∈ } uma seqüência de números reais ou complexos. Define-se a função geratriz da


seqüência {an , n ∈ } como sendo a função dada por





X
G{an } (t) := a n tn .
n=0

Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T , para algum T > 0. Isso nem sempre é o caso. Por exemplo,
se an = n! a série acima tem raio de convergência nulo.

• Funções geratrizes exponenciais

A função geratriz exponencial da seqüência {an , n ∈  } é definida por



X an
E{an } (t) := tn .
n=0
n!
Essa definição pressupõe que a série de potências em t do lado direito seja convergente em alguma
região do plano complexo, digamos |t| < T .

• Funções geratrizes de Dirichlet

Para certos tipos de seqüências é conveniente


P∞ definir outro tipo de função geratriz, substituindo os
n
monômios t por outras funções de t: n=0 an Sn (t). O exemplo mais importante desse tipo de função
geratriz é aquele no qual se toma Sn (t) = 1/nt , n ≥ 1. Isso nos conduz à próxima definição.
A função geratriz de Dirichlet7 da seqüência {an , n ∈  } é definida por

X an
D{an } (t) := ,
n=1
nt
desde que a série do lado direito convirja com a variável t em alguma região do plano complexo.
A mais famosa das funções geratrizes de Dirichlet é a função zeta de Riemann 8 , que é a função
geratriz de Dirichlet da seqüência constante an = 1, n ≥ 1:
X∞
1
ζ(s) := .
n=1
ns
Como facilmente se vê, a série do lado direito converge na região do plano complexo definida por
Re(s) > 1. A função zeta de Riemann desempenha um papel de grande importância na teoria das
funções de variável complexa e na teoria de números, pois várias de suas propriedades estão relacionadas
a propriedades do conjunto de números primos. Vide, e.g., [53], [121], [122] ou [32].
Os três tipos de funções geratrizes definidas acima têm várias propriedades algébricas interessantes,
como mostrado nos três exercı́cios que seguem.
7
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
8
Georg Friedrich Bernhard Riemann (1826-1866).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 434/1195

E. 8.5 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes G {an } (t) e G{bn } (t) têm
uma região de convergência comum, mostre que

G{an } (t) G{bn } (t) = G{cn } (t) ,

onde n
X
cn = an−p bp .
p=0

E. 8.6 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes exponenciais E {an } (t) e
E{bn } (t) têm uma região de convergência comum, mostre que

E{an } (t) E{bn } (t) = E{cn } (t) ,

onde n  
X n
cn = an−p bp .
p=0
p
6

E. 8.7 Exercı́cio. Se {an } e {bn } são duas seqüências cujas funções geratrizes de Dirichlet D {an } (t) e
D{bn } (t) têm uma região de convergência comum, mostre que

D{an } (t) D{bn } (t) = D{cn } (t) ,

onde n
X
cn = an/p bp .
p=1
n/p inteiro

• Um exemplo. A seqüência de Fibonacci

Seja an , n = 1, 2, 3, 4 . . ., a seqüência definida recursivamente da seguinte forma:

a0 = 1, a1 = 1, an+2 = an+1 + an , ∀n≥0.

Essa seqüência é denominada seqüência de Fibonacci9 . Os primeiros elementos da seqüência de Fibo-


nacci são 1, 1, 2, 3, 5, 8, 13, 21, 34, 55... Cada elemento da seqüência de Fibonacci é a soma de seus
dois antecessores.
Fibonacci introduziu a seqüência que leva seu nome em um problema de seu livro Liber abbaci,
de 1202 (livro esse que introduziu o sistema decimal arábico na Europa, em substituição ao sistema
de algarismos romanos, usado até então): “Um certo homem coloca um casal de coelhos em um local
9
Leonardo Pisano, cognominado “Fibonacci” (1170-1250).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 435/1195

cercado de muros por todos os lados. Quantos pares de coelhos podem ser produzidos a partir daquele
casal em um ano se for suposto que a cada mês cada casal gera um novo casal, o qual se torna fértil
em um mês”. A resposta (supondo que nenhum coelho morre) é que, após n meses, tem-se a n pares de
coelhos, sendo an dado acima. Trata-se provavelmente do primeiro modelo de evolução de populações.
A seqüência de Fibonacci é surpreendentemente rica em propriedades, sendo possivelmente uma das
mais pesquisadas da história, existindo até mesmo uma publicação periódica (“Fibonacci Quarterly”)
dedicada a seu estudo.
No intuito de ilustrar a utilidade de funções geratrizes de seqüências, vamos demonstrar a seguinte
identidade para os elementos da seqüência de Fibonacci:
 
√ !n+1 √ !n+1
1 1+ 5 1− 5
an = √  −  , (8.19)
5 2 2

válida para todo n ≥ 0. Essa expressão permite obter cada an diretamente em termos de n.
A função geratriz da seqüência de Fibonacci é

X
F (t) = a n tn . (8.20)
n=0

Mostremos primeiramente que a série de potências do lado direito tem um raio de convergência não-
nulo. Pelo teste da razão vale, para n > 0,
 
an+1 tn+1
= an+1 |t| = an + an−1 |t| = 1 + an−1 |t| ≤ 2|t| ,
a n tn an an an
pois an−1
an
≤ 1, já que a seqüência de Fibonacci é crescente. Logo, a série converge absolutamente pelo
menos na região |t| < 1/2. A verdadeira região de convergência é um pouco maior (como veremos
adiante), mas não precisaremos desse fato por ora, pois tudo o que necessitamos é da existência de um
raio de convergência não-nulo, o que justifica as manipulações que faremos.
Façamos uso da definição da seqüência de Fibonacci para obter uma fórmula explı́cita para F (t).
Temos que

X
F (t) = 1 + t + a n tn
n=2


X ∞
X ∞
X
n n
= 1+t+ (an−1 + an−2 ) t = 1+t+ an−1 t + an−2 tn
n=2 n=2 n=2


X ∞
X
n 2
= 1+t+t an t + t a n tn
n=1 n=0

= 1 + t + t(F (t) − 1) + t2 F (t) .


Assim, (1 − t − t2 )F (t) = 1 e, portanto,
1
F (t) = .
1 − t − t2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 436/1195

A idéia agora é obter a expansão em série de Taylor de F (t) em torno de t = 0 e compará-la a (8.20),
para assim obter uma expressão explı́cita para os an ’s. Para isso, ao invés de calcularmos as derivadas
de F em t = 0, é mais fácil proceder da seguinte forma. Escrevemos 1 − t − t2 = −(t − γ1 )(t − γ2 ) onde
√ √
5−1 5+1
γ1 = , γ2 = − .
2 2
Assim,
 
1 1 1 1 1
F (t) = = − = −
1 − t − t2 (t − γ1 )(t − γ2 ) γ1 − γ 2 γ1 − t γ2 − t
" ! !#
1 1 1 1 1
= √ t −
5 γ 1 1 − γ1 γ2 1 − γt2

∞  
1 X 1 1
= √ − tn
5 n=0 γ1n+1 γ2n+1


1 X  
= √ (−γ2 )n+1 − (−γ1 )n+1 tn
5 n=0
 
∞ √ !n+1 √ !n+1
X 1  1+ 5 1− 5
= √ −  tn ,
n=0
5 2 2

onde usamos que 1/γ1 = −γ2 . Comparando com (8.20) obtemos (8.19), como querı́amos.√ Da última
expressão, vê-se também que o raio de convergência da série de potências que define F é ( 5 − 1)/2 ≈
0, 618 . . ..

8.2 Propriedades de Algumas Funções Especiais


Vamos agora então reunir o conhecimento acumulado acima para obter várias propriedades úteis de
algumas das funções especiais que encontramos como soluções de equações diferenciais de interesse.
As várias identidades que provaremos podem ser obtidas de diferentes modos, de sorte que o leitor
certamente encontrará na literatura demonstrações alternativas àquelas aqui apresentadas.

8.2.1 Propriedades dos Polinômios de Legendre

• Relações de ortogonalidade para os polinômios de Legendre


0
A equação de Legendre ((1 − x2 ) y 0 (x)) + λ(λ + 1)y(x) = 0, é tipicamente considerada no intervalo
J = [−1, 1]. Aqui, p(x) = (1 − x2 ), q(x) = 0, r(x) = 1 e µ = λ(λ + 1). A função p(x) anula-se nos
extremos ±1 do intervalo J = [−1, 1].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 437/1195

Os polinômios de Legendre Pm (x) foram definidos em (7.14) por


bm/2c
X (−1)a (2m − 2a)!
Pm (x) := m
xm−2a , (8.21)
a=0
2 (m − a)! (m − 2a)! a!

onde bm/2c é o maior inteiro menor ou igual a m/2, e são soluções da equação de Legendre com
µ = m(m + 1), sendo (as únicas) soluções da equação de Legendre que permanecem limitadas nos
pontos ±1.
Como p(x) anula-se nos extremos ±1 e os Pm (x) são limitados nesses pontos, vale para os polinômios
de Legendre a relação (8.6) e concluı́mos pelo Teorema 8.1 que
Z 1
Pn (x)Pm (x) dx = 0 (8.22)
−1

para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Notemos que isso implica


Z 1
xk Pm (x) dx = 0 (8.23)
−1

para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Pn ’s com n < m. Para calcular as integrais de (8.22) no caso n = m, podemos elegantemente usar as
relações
0 0
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , n≥0, (8.24)
e
Pn (1) = 1 , Pn (−1) = (−1)n , n≥0, (8.25)
as quais serão demonstradas mais abaixo (relações (8.30) e (8.34), respectivamente) como conseqüência
da fórmula de Rodrigues para os polinômios de Legendre. De fato, por integração por partes, tem-se
Z 1 1 Z 1
0
Pn (x)Pn+1 (x) dx = Pn (x)Pn+1 (x) − Pn0 (x)Pn+1 (x) dx .
−1 −1 −1
1 R1

Por (8.25), Pn (x)Pn+1 (x) = 1 + (−1)2n = 2. Por (8.23), −1
Pn0 (x)Pn+1 (x) dx = 0, pois Pn0 (x) é
−1
seguramente um polinômio de grau n − 1. Assim,
Z 1 Z 1
0 (8.24)  0

2 = Pn (x)Pn+1 (x) dx = Pn (x) (2n + 1)Pn (x) + Pn−1 (x) dx
−1 −1

Z 1
= (2n + 1) Pn (x)2 dx ,
−1
R1 0 0
pois, novamente por (8.23), −1
Pn (x)Pn−1 (x) dx = 0, já que Pn−1 (x) é um polinômio de grau n − 2.
Isso provou que Z 1
2
Pn (x)Pm (x) dx = δn, m , (8.26)
−1 2n + 1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 438/1195

para todos m, n ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Legendre.


Em muitas situações práticas é conveniente expressar (8.26) através da mudança de variável x =
cos θ, com 0 ≤ θ ≤ π. Ficamos com
Z π
2
Pn (cos θ)Pm (cos θ) sen (θ) dθ = δn, m , (8.27)
0 2n + 1
para todos m, n ≥ 0.

• Fórmula de Rodrigues para os polinômios de Legendre

Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Pm , por serem ortogonais entre si (vide (8.22)), possam ser expressos na forma (8.13) com
r(x) = 1, ou seja,
dm  2 m

Pm (x) = Km m (1 − x ) ,
dx
onde Km são constantes que dependem
P  da normalização adotada. De fato, essa pressuposição é correta
pois, escrevendo (1 − x2 )m = m a=0 a
m
(−1) m−a 2m−2a
x (binômio de Newton) e notando que


 (2m − 2a)! m−2a
m    x , para 0 ≤ a ≤ bm/2c
d 2m−2a (m − 2a)!
x = (8.28)
dxm 


0, para bm/2c + 1 ≤ a ≤ m

(justifique!), concluı́mos facilmente que


m  
dm  2 m
 dm X m
(1 − x ) = (−1)m−a x2m−2a
dxm dxm a=0 a

bm/2c  
dm X m
= (−1)m−a x2m−2a
dxm a=0 a

bm/2c
X  
m−a m (2m − 2a)! m−2a
= (−1) x
a=0
a (m − 2a)!

bm/2c
X (−1)a (2m − 2a)!
m m
= (−1) 2 m! xm−2a
a=0
2m (m − a)!(m − 2a)!a!

= (−1)m 2m m! Pm (x) .

Assim, Km = (−1)m /(2m m!) e

1 dm  2 m

Pm (x) = (x − 1) , (8.29)
2m m! dxm
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 439/1195

como pressuposto. Essa expressão é conhecida como fórmula de Rodrigues para os polinômios de
Legendre e é válida para todo m ≥ 0, inteiro.
De (8.29) outras relações úteis podem ser extraı́das, nosso próximo assunto.

• Relações de recorrência para os polinômios de Legendre

Vamos aqui demonstrar as seguintes relações válidas para os polinômios de Legendre:


0 0
Pn+1 (x) = (2n + 1)Pn (x) + Pn−1 (x) , (8.30)
0
Pn+1 (x) = xPn0 (x) + (n + 1)Pn (x) , (8.31)

nPn (x) = xPn0 (x) − Pn−1


0
(x) , (8.32)

(n + 1)Pn+1 (x) = (2n + 1)xPn (x) − nPn−1 (x) , (8.33)

Pn (1) = 1 , Pn (−1) = (−1)n . (8.34)

Todas as relações acima têm aplicações (vimos isso quando provamos as relações de ortogonali-
dade para os Pn ’s). A relação (8.33) é particularmente interessante por permitir determinar os P n ’s
recursivamente a partir dos dois primeiros: P0 (x) = 1 e P1 (x) = x.
d
Comecemos por provar (8.30). Como dx
(x2 − 1)n+1 = 2(n + 1)x(x2 − 1)n , segue da fórmula de
Rodrigues para Pn+1 que
0 1 dn+1 h 2 n
i
Pn+1 (x) = 2(n + 1)x(x − 1)
2n+1 (n + 1)! dxn+1

1 dn h 2 n 2 2 n−1
i
= (x − 1) + 2nx (x − 1)
2n n! dxn
1 dn h 2 n 2 n−1
i
= n (2n + 1)(x − 1) + 2n(x − 1)
2 n! dxn
0
= (2n + 1)Pn (x) + Pn−1 (x) ,
provando (8.30). Por outro lado, começando pela primeira linha obtida acima, e usando-se a regra de
Leibniz, tem-se
0 1 dn+1 h 2 n
i
Pn+1 (x) = n x(x − 1)
2 n! dxn+1
n+1    p   n+1−p 
1 X n+1 d d 2 n
= n x (x − 1)
2 n! p=0 p dxp dxn+1−p

1 dn+1 2 n (n + 1) dn 2
= x (x − 1) + (x − 1)n
2n n! dxn+1 2n n! dxn
= xPn0 (x) + (n + 1)Pn (x) ,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 440/1195

provando (8.31). A relação (8.32) é obtida subtraindo-se (8.31) de (8.30). Por fim, para obter (8.33),
multiplicamos (8.30) por x e escrevemos
0 0
(2n + 1)xPn (x) = xPn+1 (x) − xPn−1 (x)
0

= xPn+1 (x) − Pn0 (x) + Pn0 (x) − xPn−1
0
(x)

(8.32) 
= (n + 1)Pn+1 (x) + Pn0 (x) − xPn−1
0
(x)

(8.31)
= (n + 1)Pn+1 (x) + nPn−1 (x) .
Disso (8.33) segue imediatamente.
Por fim, vamos provar (8.34) por indução. Como P0 (x) = 1 e P1 (x) = x, as relações acima valem
para n = 0 e n = 1. Supondo-as válidas para n−1 e n, teremos por (8.33) que (n+1)P n+1 (1) = (2n+1)−
n = (n+1), o que implica Pn+1 (1) = 1 e (n+1)Pn+1 (−1) = −(2n+1)(−1)n +n(−1)n = (n+1)(−1)n+1 ,
o que implica Pn+1 (−1) = (−1)n+1 . Isso encerra a demonstração de (8.30)-(8.34).

• A função geratriz dos polinômios de Legendre

A função geratriz dos polinômios de Legendre é



X 1
L(x, t) := Pn (x) tn = √ , (8.35)
n=0
1 − 2tx + t2
válida para |t| < 1 e |x| ≤ 1. Essa relação tem diversas demonstrações, a mais elegante sendo a seguinte

(de [64]). Calculando-se ∂t L(x, t) e usando-se (8.33), tem-se
X∞ ∞
X

L(x, t) = nPn (x) tn−1 = (n + 1)Pn+1 (x) tn
∂t n=1 n=0

∞ h
X i
(8.33)
= (2n + 1)xPn (x) − nPn−1 (x) tn
n=0


X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − nPn−1 (x) tn
n=0 n=0 n=0


X ∞
X ∞
X
n n
= 2x nPn (x) t + x Pn (x) t − (n + 1)Pn (x) tn+1
n=0 n=0 n=0

∞ ∞ ∞
∂ X n
X
n 2 ∂
X
= 2xt Pn (x) t + (x − t) Pn (x) t − t Pn (x) tn
∂t n=0 n=0
∂t n=0


= (2xt − t2 ) L(x, t) + (x − t)L(x, t) .
∂t
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 441/1195

E. 8.8 Exercı́cio. Verifique! 6

Assim, L(x, t) satisfaz a equação diferencial


1 ∂ (x − t)
L(x, t) = .
L(x, t) ∂t 1 − 2xt + t2
1∂ 
O lado direito é − ln 1 − 2xt + t2 . Logo,
2 ∂t
exp(l(x))
L(x, t) = √ ,
1 − 2tx + t2
onde l(x) é, em princı́pio, uma função arbitrária. Lembrando, porém, que L(x, 0) = P0 (x) = 1 para
todo x, obtem-se de imediato que l(x) = 0 para todo x. Isso estabelece (8.35), como querı́amos.

• Representações integrais para os polinômios de Legendre

A bem-conhecida Fórmula Integral de Cauchy, afirma que, para uma função f analı́tica em um
domı́nio aberto simplesmente conexo D, vale
Z
(n) n! f (w)
f (z) = dw , (8.36)
2πi C (w − z)n+1
para todo z ∈ D, onde a curva C é uma curva diferenciável fechada inteiramente contida em D e dá
precisamente uma volta no sentido anti-horário em torno de z. Combinando a fórmula de Rodrigues e
a Fórmula Integral de Cauchy, obtem-se imediatamente
Z
1 (w 2 − 1)l
Pl (z) = l+1 dw , (8.37)
2 πi C (w − z)l+1
onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no sentido
anti-horário. Essa expressão é conhecida como representação integral de Schläfli 10 dos polinômios de
Legendre.
Uma conseqüência dessa representação é a seguinte expressão:
Z π l
1
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) dφ , (8.38)
2π −π
válida para |z| < 1. A demonstração dessa expressão será apresentada mais adiante como caso parti-
cular de uma identidade mais geral (expressão (8.49), abaixo), válida para os polinômios de Legendre
associados. Como a equação de Legendre é invariante pela mudança l → −(l + 1) (verifique que l(l + 1)
é levado em si mesmo por essa transformação!), vale também a identidade11
Z π
1 1
Pl (z) =  l+1 dφ . (8.39)
2π −π
z + i(1 − z 2 )1/2 cos(φ)
10
Ludwig Schläfli (1814-1895).
11
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (8.39) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre. Deixamos os detalhes como
exercı́cio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 442/1195

Para z real no intervalo [−1, 1], podemos escrever, como é comum em aplicações, z = cos(θ) com
0 ≤ θ ≤ π e com isso as duas identidades acima ficam
Z π l Z π
1 1 1
Pl (cos(θ)) = cos(θ) + i sen (θ) cos(φ) dφ =  l+1 dφ .
2π −π 2π −π
cos(θ) + i sen (θ) cos(φ)

Usando o binômio de Newton podemos usar a primeira identidade para escrever Pl (cos(θ)) como
um polinômio em cos θ e sen θ:
l   p Z π 
1 X l p l−p  p
Pl (cos(θ)) = i cos(θ) sen (θ) cos(φ) dφ
2π p=0 p −π

X (−1)q  l 2q 
bl/2c l−2q  2q
= cos(θ) sen (θ)
q=0
22q 2q q

bl/2c
X (−1)q l!  l−2q  2q
= cos(θ) sen (θ) .
q=0
22q (l − 2q)! (q!)2

E. 8.9 Exercı́cio. Prove que no intervalo (−1, 1) vale



P0 (x) 5P2 (x) X (−1)m+1 (2m − 3)! (4m + 1)
|x| = + + P2m (x) . (8.40)
2 8 m=2
22m−1 (m + 1)! (m − 2)!
Z 1
Sugestão: para calcular integrais como xP2m (x)dx pode-se usar (8.30) e/ou (8.33), integração por
0
(−1)m (2m − 1)!!
partes e os fatos que Pn (1) = 1, ∀n ∈ e P2m (0) = , ∀m ∈ , m ≥ 1, o qual segue de
2m m!
 

(8.21). 6

8.2.2 Propriedades dos Polinômios de Legendre Associados. Harmônicos


Esféricos
Na Seção 7.3.1, página 409, introduzimos a equação de Legendre associada (7.135) e mostramos que
para λ = l ∈ e µ = m ∈ a mesma possui soluções da forma
 

dm
Plm (z) := (1 − z 2 )m/2 Pl (z) , (8.41)
dz m
para z ∈ com |z| < 1, onde Pl é o polinômio de Legendre de grau l. É claro que Plm (z) é nulo se
m > l (pois Pl é um polinômio de grau l). A relação (8.41), como dissemos na Seção 7.3.1, define os
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 443/1195

chamados polinômios de Legendre associados12 , ainda que eles não sejam exatamente polinômios na
variável z.
Vimos também que, devido à fórmula de Rodrigues para os polinômios de Legendre, podemos
escrever Plm (z) como
l+m  
m 1 2 m/2 d 2 l
Pl (z) = l (1 − z ) (z − 1) , (8.42)
2 l! dz l+m
para z ∈ com |z| < 1 e 0 ≤ m ≤ l. Lá notamos também que essa expressão faz sentido mesmo para
m inteiro negativo, mas tal que −l ≤ m ≤ l. Assim, definimos
l−m  
−m 1 2 −m/2 d 2 l
Pl (z) = l (1 − z ) (z − 1) , (8.43)
2 l! dz l−m
também com 0 ≤ m ≤ l e para z ∈ com |z| < 1. Afirmamos que
(l − m)! m
Pl−m (z) = (−1)m P (z) . (8.44)
(l + m)! l
Essa relação é importante por mostrar que Pl−m (z) é também uma solução da equação de Legendre
associada, por ser proporcional a Plm (z). Fora isso a expressão acima é relevante para os chamados
harmônicos esféricos, dos quais trataremos mais abaixo.
Apresentaremos duas demonstrações de (8.44), ambas instrutivas. Uma “à força bruta”, usando
diretamente as definições, é desenvolvida no Apêndice 8.A, página 511. Uma segunda, mais gentil, será
vista logo abaixo e usa uma representação integral dos polinômios de Legendre associados.

• Representações integrais para os polinômios de Legendre associados

Nossa intenção agora é obter algumas representações integrais úteis para os polinômios de Legendre
associados mas, en passant, encontraremos uma outra demonstração mais gentil da identidade (8.44).
d k
2 l
As expressões (8.42) e (8.43) envolvem derivadas do tipo dz k (z − 1) para k = l + m e k = l − m,
dk 2 l
respectivamente. Procuremos primeiramente expressar genericamente dz k (z − 1) em termos de certas

integrais. Tomemos provisoriamente z real no intervalo aberto −1 < z < 1. Pela Fórmula Integral de
Cauchy (8.36), podemos escrever13
Z
dk 2 l k! (w 2 − 1)l
(z − 1) = dw , (8.45)
dz k 2πi C (w − z)k+1
onde C é uma curva fechada e diferenciável no plano complexo, dando uma volta em torno de z no
sentido anti-horário. Escolhemos a curva C dada por C := {w ∈ | |w − z| = (1 − z 2 )1/2 }, de modo
que podemos escrever todo ponto w de C na forma

w = z + i(1 − z 2 )1/2 eiφ


12
O leitor deve ser advertido que, lastimavelmente, não há uniformidade na literatura quanto à definição dos polinômios
de Legendre associados. Alguns autores (e.g., [79]) introduzem um fator (−1) m no lado direito de (8.41). Assim, algumas
das expressões que obtemos aqui podem divergir das correspondentes encontradas em alguns textos e o leitor deve
compará-las cuidadosamente. A definição que seguimos é a recomendada pela American Mathematical Society.
13
As idéias que se seguem provavelmente originam-se dos trabalhos de Schläfli. Nossas fontes são [64] e [130], que
seguimos com adaptações.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 444/1195

com −π ≤ φ ≤ π. Com isso, a integral em w sobre C pode ser escrita como uma integral em φ e para
isso, usa-se

dw = −(1 − z 2 )1/2 eiφ dφ ,

w − z = i(1 − z 2 )1/2 eiφ ,

w 2 − 1 = −(1 − z 2 ) (e2iφ + 1) + 2iz(1 − z 2 )1/2 eiφ


 2  
2 1/2 iφ eiφ + e−iφ
= 2 i(1 − z ) e + 2iz(1 − z 2 )1/2 eiφ
2
 
= 2i(1 − z 2 )1/2 eiφ z + i(1 − z 2 )1/2 cos(φ) .

Assim,
Z
dk 2 k! (w 2 − 1)l
k
(z − 1)l = dw
dz 2πi C (w − z)k+1
  l
Z π 2i(1 − z 2 )1/2 eiφ z + i(1 − z 2 )1/2 cos(φ)
k!
= −(1 − z 2 )1/2 k+1
eiφ dφ
2πi −π (i(1 − z 2 )1/2 eiφ )
Z π  l
2 (l−k)/2 2l il−k k! 2 1/2
= (1 − z ) z + i(1 − z ) cos(φ) ei(l−k)φ dφ
2π −π

e assim,
Z
dk 2 l
l l−k
2 (l−k)/2 2 i k! π  2 1/2
l 
k
(z − 1) = (1 − z ) z + i(1 − z ) cos(φ) cos (l − k)φ dφ , (8.46)
dz 2π −π
Z π
l
pois z + i(1 − z 2 )1/2 cos(φ) sen ((l − k)φ) dφ = 0, pelo fato de o integrando ser uma função
−π
ı́mpar.
Aplicando (8.46) às expressões (8.42) e (8.43) de Plm e Pl−m (adotando k = l + m e k = l − m,
respectivamente), chegamos a
Z
m i−m (l + m)! π  l 
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos − mφ dφ ,
2πl! −π
Z π  l
i+m (l − m)! 
Pl−m (z) = z + i(1 − z 2 )1/2 cos(φ) cos + mφ dφ ,
2πl! −π

e comparando-as, extraı́mos que

(l + m)! −m
Plm (z) = (−1)m P (z) . (8.47)
(l − m)! l
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 445/1195

Com isso, encontramos uma segunda demonstração de (8.44). As identidades acima foram provadas
para z real em −1 < z < 1, mas valem para todo z complexo com |z| < 1 (e mesmo em z = ±1), pois
lá Plm (z) e Pl−m (z) têm uma extensão analı́tica única.
Coletemos o que provamos acima. Aplicando (8.45) à definição (8.42) de P lm (z), agora para todo
m ∈ com −l ≤ m ≤ l, chegamos à expressão
Z
m (l + m)! 2 m/2 (w 2 − 1)l
Pl (z) = l+1 (1 − z ) l+m+1
dw , (8.48)
2 πi l! C (w − z)

onde C é uma curva fechada e diferenciável no plano complexo dando uma volta em torno de z no
sentido anti-horário. Essa expressão generaliza a representação de Schläfli (8.37) para os polinômios
de Legendre. Como conseqüência, estabelecemos também logo acima a representação integral
Z
m i−m (l + m)! π  l 
Pl (z) = z + i(1 − z 2 )1/2 cos(φ) cos mφ dφ , (8.49)
2πl! −π

válida para |z| < 1 e para todo l ∈  e todo m ∈ com −l ≤ m ≤ l.


Assim como a equação de Legendre, a equação de Legendre associada é invariante pela transformação
l → −(l + 1). Assim, vale também14
Z π
m im l! 1 
Pl (z) =  l+1 cos mφ dφ , (8.50)
2π(l − m)! −π 2 1/2
z + i(1 − z ) cos(φ)

onde acima usamos o fato que (l+m)!


l!
= (l + m)(l + m − 1) · · · (l + 1) é levado pela transformação
l!
l → −(l + 1) em (−1 − l + m)(−2 − l + m) · · · (−l) = (−1)m (l)(l + 1) · · · (l − m + 1) = (l−m)! .
Em aplicações é comum tomar-se z real no intervalo [−1, 1] e escrever z = cos(θ) com 0 ≤ θ ≤ π.
Com isso, as duas identidades acima ficam
Z
m i−m (l + m)! π  l 
Pl (cos(θ)) = cos(θ) + i sen (θ) cos(φ) cos mφ dφ , (8.51)
2πl! −π
Z π
m im l! 1 
Pl (cos(θ)) =  l+1 cos mφ dφ . (8.52)
2π(l − m)! −π
cos(θ) + i sen (θ) cos(φ)

Através do binômio de Newton, a primeira identidade pode ser usada para expressar P lm (cos(θ)) como
14
Esse argumento envolvendo a transformação l → −(l + 1) é ainda incompleto, mas pode-se provar que o lado direito
de (8.50) é de fato igual ao esquerdo, pois é regular e satisfaz a equação de Legendre associada. Deixamos os detalhes
como exercı́cio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 446/1195

um polinômio em cos θ e sen θ:


l   l−p  p Z π  p
i−m (l + m)! X p l 
Plm (cos(θ)) = i cos(θ) sen (θ) cos(φ) cos mφ dφ ,
2πl! p=0
p −π

b l−|m|
X 2 c   
−m+|m| (l + m)! (−1)q l 2q + |m| l−2q−|m| 2q+|m|
= i cos(θ) sen (θ)
2|m| l! q=0
22q 2q + |m| q

b l−|m|
X 2 c
(l + m)! (−1)q l−2q−|m| 2q+|m|
= i−m+|m| cos(θ) sen (θ) .
2|m| q=0
22q (l − 2q − |m|)! (q + |m|)! q!

(8.53)

Note que i−m+|m| = 1 se m ≥ 0 e i−m+|m| = (−1)m se m < 0, de modo que Plm (cos(θ)) é real se
0 ≤ θ ≤ π. A expressão (8.53) é por vezes utilizada na prática para expressar os harmônicos esféricos
(que definiremos abaixo) como polinômios em cos θ e sen θ. Logo adiante faremos uso da mesma no
estudo das relações de ortogonalidade das funções Plm .

• A função geratriz dos polinômios de Legendre associados

Usando (8.41), (8.35) e a identidade, válida para m ≥ 0,

dm 1 (2m)! m 1

m
(1 − 2tx + t2 )− 2 = m t (1 − 2tx + t2 )−m− 2
dx 2 m!
(prove-a!) é fácil mostrar que

X m
m (2m)! (1 − x2 ) 2
Pl+m (x) tl = m , (8.54)
l=0
2 m! (1 − 2tx + t2 )m+ 21

válida para todo m ≥ 0.

E. 8.10 Exercı́cio. Mostre isso. 6

A expressão (8.54) é também denominada função geratriz dos polinômios de Legendre associados.
A expressão (8.54) tem poucas aplicações diretas, mas pode ser usada para demonstrar outras relações
sobre os polinômios de Legendre associados.

• Relações de recorrência para os polinômios de Legendre associados

Os polinômios de Legendre associados satisfazem uma série de relações de recorrência. Listemos as


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 447/1195

mais relevantes:
 
2mx
Plm+1 (x) = √ Pl (x) − l(l + 1) − m(m − 1) Plm−1 (x) ,
m
1−x 2

m+1

Pl+1 (x) = (2l + 1) 1 − x2 Plm (x) + Pl−1
m+1
(x) ,

(2l + 1) 1 − x2 Plm (x) = (l + m)(l + m − 1)Pl−1
m−1 m−1
(x) − (l − m + 1)(l − m + 2)Pl+1 (x) ,

(2l + 1)xPlm (x) = (l + m)Pl−1


m m
(x) + (l − m + 1)Pl+1 (x) ,
√ d
2 1 − x2 Plm (x) = Plm+1 (x) − (l + m)(l − m + 1)Plm−1 (x) .
dx
As demonstrações podem ser obtidas da seguinte forma: 1. a partir das relações de recorrência dos
polinômios de Legendre (8.30)-(8.34) com uso da definição (8.41); 2. a partir de (8.42) ou, em alguns
casos, 3. com o uso da função geratriz (8.54). Deixamos as demonstrações como exercı́cio.

E. 8.11 Exercı́cio. Prove todas as relações acima. Sugestão: tente por conta própria seguir as sugestões
do último paragrafo. Senão, consulte a literatura supracitada, mas com as seguintes precauções: a. dife-
rentes textos apresentam definições diferentes dos Plm , o que conduz a relações de recorrência distintas das
de acima; b. nem todos os livros-texto15 provam todas as relações e c. alguns contêm erros. 6

• Relações de ortogonalidade para os polinômios de Legendre associados

Obteremos agora relações de ortogonalidade para os polinômios de Legendre associados, relações


essas de grande importância na Análise Harmônica e que inspiram a definição dos chamados harmônicos
esféricos.
A equação de Legendre associada (7.135) é considerada na maioria das aplicações no intervalo
[−1, 1], como já mencionamos. A mesma, em analogia com a equação de Legendre, pode ser escrita
como
m2
((1 − x2 )y 0 (x))0 + l(l + 1)y(x) − y(x) = 0 , (8.55)
1 − x2
onde aqui já nos restringimos ao caso l ∈ , m ∈  com −l ≤ m ≤ l. Como se vê, temos aqui
p(x) = (1 − x2 ), mas podemos fazer as seguintes escolhas

m2
1) q(x) = − , r(x) = 1, µ = l(l + 1) ,
1 − x2
1
2) q(x) = l(l + 1), r(x) = , µ = −m2 .
1 − x2
Analisaremos essas duas opções em separado. O caso 1 é o mais interessante, especialmente devido a
sua aplicação para os harmônicos esféricos. O caso 2 não é de grande interesse e o leitor pode dispensar
15
Segundo o Houaiss, “livros-textos” ou “livros-texto” são dois plurais gramaticalmente corretos para “livro-texto”,
assim como “espaços-tempos” e “espaços-tempo” são plurais aceitáveis para “espaço-tempo”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 448/1195

sua leitura, se o desejar16 .


Caso 1) A primeira questão que aqui se coloca é se a condição (8.6) é satisfeita para funções P lm (x) e
0
Plm
0 (x) com l ≤ l , ou seja, se

  1
m m 0 m m 0
p(x) Pl (x) (Pl0 (x)) − Pl0 (x) (Pl (x)) = 0, (8.56)
−1
0
com l ≤ l . A maneira mais fácil de discutir isso é escrever x = cos(θ) e, como
d m 1 d m
Pl0 (x) = − P 0 (cos θ),
dx sen (θ) dθ l
e p(x) = sen (θ)2 , (8.56) fica
 d d m  θ=π

sen (θ) Plm (cos θ) Plm
0 (cos θ) − P m
l0 (cos θ) P l (cos θ) . (8.57)
dθ dθ θ=0
d
Agora, por (8.53), Plm (cos θ) é um polinômio trigonométrico, e assim o é também dθ Plm (cos θ). Logo,
ambos são finitos em θ = 0 e θ = π. Como, porém, sen θ anula-se nesses extremos, concluı́mos que
(8.57) é nula, confirmando a validade de (8.6) no caso em questão. Concluı́mos assim, pelo Teorema
8.1, página 428, que deve valer Z 1
Plm (x) Plm
0 (x) dx = 0 (8.58)
−1
sempre que l 6= l0 .
R1
Interessamo-nos agora pelo caso l 0 = l. Caso l = l0 = 0 vale P00 (x) = 1 e −1 (P00 )2 dx = 2. Para
R1
calcular −1 (Plm (x))2 dx com l > 0 podemos proceder de diferentes maneiras, a mais direta sendo a
seguinte. Usando (8.44) e as expressões (8.42) e (8.43) para Plm e Pl−m , respectivamente, escrevemos
Z 1 Z 1
m (l + m)!
m m
Pl (x) Pl (x) dx = (−1) Plm (x)Pl−m (x) dx
−1 (l − m)! −1

Z 1   
(−1)m (l + m)! dl+m 2 dl−m 2
= (x − 1)l l
(x − 1) dx
22l (l!)2 (l − m)! −1 dxl+m dxl−m
Z 1  
int. por partes l−m vezes (−1)l (l + m)! d2l 2
= (x − 1) (x2 − 1)l dx
l
22l (l!)2 (l − m)! −1 dx2l
Z 1
(2l)! (l + m)!
= (1 − x2 )l dx
2 (l!)2 (l − m)!
2l
−1
 
(2l)! (l + m)! 2 (2l)!!
=
2 (l!)2 (l − m)!
2l (2l + 1)!!

2 (l + m)!
= .
2l + 1 (l − m)!
16
O caso 2 é um tanto patológico (pois a função r(x) diverge em ±1 e não é integrável) e é evitado por quase todos os
livros-texto.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 449/1195

Na terceira linha aplicamos integração por partes l − m vezes. Isso é justificado pois, como facilmente
dp 2 l 2 l−p
se vê por indução, derivadas como dx p (x − 1) , com 0 ≤ p < l são proporcionais a (x − 1) e, por
(2l)! (2l)!!
isso, os termos de fronteira se anulam. Na última passagem usamos o fato que (2l+1)!! = 2l+1 e o fato
que (2l)!! = 2l l!. Na penúltima passagem usamos a identidade
Z 1
(2l)!!
(1 − x2 )l dx = 2 , (8.59)
−1 (2l + 1)!!
R1
a qual pode ser provada da seguinte forma. Seja Al := −1 (1 − x2 )l dx. Então, para l > 0,

Z 1 Z 1  
2 l dx
Al := (1 − x ) dx = (1 − x2 )l dx
−1 −1 dx
1 Z 1
int. por partes 2 l
= x(1 − x ) +2l x2 (1 − x2 )l−1 dx = −2lAl + 2lAl−1 .
−1
| {z } −1
=0

2l
Assim, Al = A
2l+1 l−1
e como A0 = 2, segue (8.59).
Demonstramos, assim, as relações de ortogonalidade
Z 1
2 (l + m)!
Plm (x) Plm0 (x) dx = δl, l0 , (8.60)
−1 2l + 1 (l − m)!

válidas para todo l, l0 ∈ e m, m0 ∈ com −l ≤ m ≤ l e −l0 ≤ m0 ≤ l0 . É por vezes útil expressar




essas relações com a mudança de variáveis x = cos θ:


Z π
2 (l + m)!
Plm (cos θ) Plm
0 (cos θ) sen θ dθ = δl, l0 . (8.61)
0 2l + 1 (l − m)!
Essa forma das relações de ortogonalidade dos polinômios de Legendre associados será particularmente
relevante para os harmônicos esféricos, como veremos adiante.
Caso 2) A primeira questão que aqui se coloca é se a condição (8.6) é satisfeita para funções P lm (x) e
0
Plm (x), com |m| 6= |m0 | (lembre-se o leitor que µ = −m2 e, portanto µ 6= µ0 equivale a |m| 6= |m0 |), ou
seja, se   0 0  1
m m m0 m 0
p(x) Pl (x) Pl (x) − Pl (x) (Pl (x)) = 0. (8.62)
−1
0
sempre que |m| 6= |m |. A mesma análise feita para o caso 1 mostra que isso é verdadeiro, confirmando
a validade de (8.6) no caso em questão. Concluı́mos assim, pelo Teorema 8.1, página 428, que deve
valer
Z 1 Z π
m m0 1 0 1
Pl (x) Pl (x) 2
dx = 0, ou seja, Plm (cos θ) Plm (cos θ) dθ = 0, (8.63)
−1 1−x 0 sen (θ)

sempre que |m| 6= |m0 |. A expressão (8.53) ensina-nos que Plm (cos θ) é proporcional a ( sen θ)|m| . Logo,
0
como |m| 6= |m0 |, sempre haverá no produto Plm (cos θ)Plm (cos θ) pelo menos um fator sen θ para
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 450/1195

compensar o sen1 θ , o que mostra que o integrando em (8.63) é limitado. O caso |m0 | = |m| é um tanto
patológico (a integral diverge se m = m0 = 0), difı́cil de demonstrar e sem conseqüências práticas
relevantes, de modo que nos limitamos a apresentar o resultado final17 :

 0, se |m0 | 6= |m|,







 ∞, se m0 = m = 0,
Z 1 

1 
m m0
Pl (x) Pl (x) dx = (−1)m (8.64)
−1 1 − x2 
 , se − m0 = m > 0,

 m





 1 (l + m)!

 , se m0 = m > 0.
m (l − m)!
Note o leitor que a condição m > 0 só pode ocorrer se l > 0.
Como já dissemos, as relações (8.64) são menos importantes na prática que as de (8.60). Essas
inspiram uma definição importante: a dos harmônicos esféricos.

• Os Harmônicos Esféricos

No espaço n , n ≥ 2, o conjunto de pontos que distam de uma unidade da origem formam a assim


chamada esfera unitária18 , denotada por S n−1 :


n o
S n−1 := (x1 , . . . , xn ) ∈ n (x1 )2 + · · · + (xn )2 = 1 .


O conjunto S 1 é o cı́rculo unitário e seus pontos podem ser descritos por um único ângulo ϕ com
−π ≤ ϕ ≤ π: n o

S 1 := cos ϕ, sen ϕ ∈ 2 , −π ≤ ϕ ≤ π .


Como se vê, os pontos correspondentes a ϕ = ±π são identificados. O conjunto S 2 é a esfera unitária


e seus pontos podem ser descritos por dois ângulos: ϕ e θ, com −π ≤ ϕ ≤ π e 0 ≤ θ ≤ π:
n  o
S 2 := sen (θ) cos(ϕ), sen (θ) sen ϕ, cos(θ) ∈ 3 , −π ≤ ϕ ≤ π, 0 ≤ θ ≤ π .


Novamente, os pontos correspondentes a ϕ = ±π são identificados e para os pontos correspondentes a


θ = 0 e θ = π o ângulo ϕ é indeterminado.
Os chamados Harmônicos Esféricos são as funções definidas por
s
2l + 1 (l − m)! m
Ylm (θ, ϕ) := (−1)m P (cos(θ)) eimϕ , (8.65)
4π (l + m)! l

onde 0 ≤ θ ≤ π, −π ≤ ϕ ≤ π, l ∈  em∈ com −l ≤ m ≤ l. Note-se que


r
2l + 1
Yl0 (θ, ϕ) = Pl (cos(θ)) ,

17
Para uma referência mais detalhada, vide [86], pag. 74.
18
Há aqui um abuso de linguagem, pois S n−1 é, estritamente falando, a superfı́cie da esfera.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 451/1195

onde Pl são os polinômios de Legendre.


Mais uma vez o leitor deve ser advertido da existência de outras convenções sobre a definição dos
harmônicos esféricos (alguns autores substituem o fator (−1)m por im ).
Os harmônicos esféricos são solução da equação diferencial parcial
 
1 ∂ ∂Y m2 ∂ 2 Y
( sen θ) (θ, ϕ) − (θ, ϕ) + l(l + 1)Y (θ, ϕ) = 0 ,
sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
que é encontrada quando da resolução da equação de Helmholtz ou de Laplace em três dimensões
em coordenadas esféricas, assim como no problema do átomo de hidrogênio na Mecânica Quântica ou
qualquer outro problema quântico em três dimensões no qual o potencial seja esfericamente simétrico.
Vide equação (8.194) e seguintes.
É um exercı́cio relevante verificar que, devido à relação (8.44), tem-se, com a definição acima,
Yl−m (θ, ϕ) = (−1)m Ylm (θ, ϕ) . (8.66)

No cı́rculo unitário S 1 valem as bem-conhecidas relações de ortogonalidade


Z Z π
em0 em dl = em0 (ϕ) em (ϕ) dϕ = δm, m0 (8.67)
S1 −π

onde, para m ∈ ,
1
em (ϕ) := √ eimϕ , −π ≤ ϕ ≤ π,

dl = dϕ sendo a medida de comprimento do cı́rculo unitário S 1 . Usando as relações de ortogonalidade
(8.67) e as relações de ortogonalidade (8.61), é fácil constatar que
Z Z πZ π
m0 m 0 m
Yl0 Yl dΩ = Ylm
0 (θ, ϕ) Yl (θ, ϕ) sen (θ) dθ dϕ = δm, m0 δl, l0 (8.68)
S2 −π 0

para todos l, l0 ∈ e todos m, m0 ∈ com −l0 ≤ m0 ≤ l0 e −l ≤ m ≤ l, onde dΩ = sen (θ) dθ dϕ é a




medida de área na esfera unitária S 2 em coordenada polares. Essas são as relações de ortogonalidade dos
harmônicos esféricos, as quais desempenham um relevante papel na resolução de problemas envolvendo
certas equações diferenciais parciais em três dimensões que tenham simetria esférica. Os harmônicos
esféricos surgem na importante solução de um problema fundamental da Mecânica Quântica, o problema
do átomo de hidrogênio. As formas dos orbitais eletrônicos, de importância fundamental no estudo de
átomos e moléculas e suas ligações quı́micas, estão intimamente relacionadas às funções Y lm (θ, ϕ) e
aos polinômios de Laguerre associados.
Como se percebe da comparação de (8.67) com (8.68), os harmônicos esféricos desempenham na
esfera unitária S 2 o mesmo papel que as funções em desempenham no cı́rculo S 1 : formam um conjunto
ortonormal em relação à medida de área dΩ = sen (θ) dθ dϕ. Assim como as funções e m formam um
conjunto ortonormal completo para as funções definidas em S 1 , o que nos permite expressar funções
f (ϕ), periódicas de perı́odo 2π, contı́nuas por partes ou apenas de quadrado integrável, em termos de
uma série de Fourier:

X Z π
f (ϕ) = cm em (ϕ) com cm := em (ϕ) f (ϕ) dϕ ,
m=−∞ −π
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 452/1195

os harmônicos esféricos também formam um conjunto ortonormal completo para as funções definidas
em S 2 . Assim, em um sentido a ser precisado, todas as funções f (θ, ϕ) definidas em S 2 , e que sejam
contı́nuas por partes ou apenas de quadrado integrável, podem ser escritas em termos de uma série
envolvendo harmônicos esféricos. Essa série é dada por
∞ X
X l Z π Z π
m
f (θ, ϕ) = cl, m Yl (θ, ϕ), com cl, m := Ylm (θ, ϕ) f (θ, ϕ) sen (θ) dθ dϕ ,
l=0 m=−l −π 0

e é uma espécie de generalização para a esfera S 2 da série de Fourier. Essas considerações justificam a
denominação de “harmônicos esféricos” para as funções Ylm .
Os harmônicos esféricos também desempenham um papel na teoria de representações do grupo
SO(3). Há também generalizações dos harmônicos esféricos para as esferas S n com n ≥ 3. Essas
generalizações são estudadas, por exemplo, em [64].

8.2.3 Propriedades dos Polinômios de Hermite

• Relações de ortogonalidade para os polinômios de Hermite


 0
2 2
A equação de Hermite e−x y 0 (x) + λe−x y(x) = 0 é tipicamente considerada no intervalo J =
2 2
(−∞, ∞). Aqui p(x) = e−x , q(x) = 0, r(x) = e−x e µ = λ. Note que p(x) > 0 e r(x) > 0 em todo
J = (−∞, ∞). Os polinômios de Hermite Hm (x) foram definidos em (7.20) por
bm/2c
X (−1)k m!
Hm (x) := (2x)m−2k . (8.69)
k=0
k! (m − 2k)!

onde bm/2c é o maior inteiro menor ou igual a m/2, e são soluções da equação de Hermite com µ = 2m.
Como p(x) decai a zero para x → ±∞ e os Hm (x) são polinômios, vale para os polinômios de
Hermite a relação (8.6) e concluı́mos pelo Teorema 8.1 que
Z ∞
2
Hn (x)Hm (x) e−x dx = 0 (8.70)
−∞

para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Para calcular as integrais acima no caso n = m,


podemos elegantemente usar as relações

Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) , (8.71)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 453/1195

R∞ 2
as quais serão provadas mais abaixo (expressão (8.78)). Seja An := −∞
(Hn (x))2 e−x dx. Tem-se que
Z ∞
2
2nAn−1 = (2nHn−1 (x)) Hn−1 (x) e−x dx
−∞
Z ∞ Z ∞
(8.71) −x2 2
= (2xHn (x)) Hn−1 (x) e dx − Hn+1 (x) Hn−1 (x) e−x dx
−∞
| −∞ {z }
= 0 por (8.70)

Z ∞
2
= Hn (x) (2xHn−1 (x)) e−x dx
−∞
Z ∞ Z ∞
(8.71) −x2 2
= Hn (x) Hn (x) e dx + (2n − 2) Hn (x) Hn−2 (x) e−x dx
−∞
| −∞ {z }
= 0 por (8.70)

= An .
R∞ 2 √
Logo, An = (2n)An−1 , ou seja, An = (2n)!! A0 = 2n n! A0 . Como A0 = −∞ e−x dx = π, concluı́mos
que Z ∞
2 √
Hn (x)Hm (x) e−x dx = 2n n! π δn, m , (8.72)
−∞

para todo m, n ≥ 0. Estas são as relações de ortogonalidade dos polinômios de Hermite.

• A função geratriz exponencial dos polinômios de Hermite

Vamos aqui considerar a função geratriz exponencial dos polinômios de Hermite e provar que

X Hn (x) 2
tn = e2xt−t . (8.73)
n=0
n!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 454/1195

Usando-se diretamente (8.69) e separando-se na soma n’s pares de n’s ı́mpares, segue que
X∞ X∞ ∞
Hn (x) n H2m (x) 2m X H2m+1 (x) 2m+1
t = t + t
n=0
n! m=0
(2m)! m=0
(2m + 1)!

∞ X
X m ∞ X
X m
(−1)k (2x)2m−2k t2m (−1)k (2x)2m+1−2k t2m+1
= +
m=0 k=0
k! (2m − 2k)! m=0 k=0
k! (2m + 1 − 2k)!

X∞ X ∞ ∞ ∞
(−1)k (2x)2m−2k t2m X X (−1)k (2x)2m+1−2k t2m+1
= +
k=0 m=k
k! (2m − 2k)! k=0 m=k
k! (2m + 1 − 2k)!

X∞ X ∞ ∞ ∞
m→m+k (−1)k (2x)2m t2m+2k X X (−1)k (2x)2m+1 t2m+1+2k
= +
k=0 m=0
k! (2m)! k=0 m=0
k! (2m + 1)!


! ∞
! ∞
! ∞
!
X (−1)k t2k X (2xt)2m X (−1)k t2k X (2xt)2m+1
= +
k=0
k! m=0
(2m)! k=0
k! m=0
(2m + 1)!


!
X (2xt)n
−t2
= e
n=0
n!

2
= e2xt−t ,
como querı́amos provar.

• Fórmula de Rodrigues para os polinômios de Hermite

Pelas nossas considerações gerais sobre as fórmulas de Rodrigues, podemos presumir que os po-
linômios Hm , por serem ortogonais entre si (vide (8.70)), possam ser expressos na forma (8.17) com
2
r(x) = e−x , ou seja,
n
2 d 2
Hn (x) = Kn ex n
e−x ,
dx
onde Km são constantes que dependem da normalização adotada. De fato, essa pressuposição é correta
2
pois, multiplicando (8.73) por e−x , obtem-se

X∞ 2
−(x−t)2 Hm (x)e−x m
e = t . (8.74)
m=0
m!
Encarando o lado direito como a expansão em série de Taylor em t, em torno de t = 0, da função do
lado esquerdo, concluı́mos que
2 d n
−(x−t)
2
Hn (x)e−x = e ,
dtn t=0
d d
para todo n ≥ 0. Com a mudança de variável u = x − t, dt
= − du , ficamos com

−x2 n d
n
−u2 dn −x2
Hn (x)e = (−1) e = (−1)n e .
dun u=x dxn
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 455/1195

Assim,
dn −x2 2
Hn (x) = (−1)n ex e , (8.75)
dxn
para todo n ≥ 0. Essa é a fórmula de Rodrigues dos polinômios de Hermite.

• Relações de recorrência para os polinômios de Hermite

Tomando-se a derivada em x de (8.75), é elementar constatar que


Hn0 (x) = 2xHn (x) − Hn+1 (x) . (8.76)
Ao mesmo tempo,
dn+1 −x2
2
Hn+1 (x) = (−1)n+1 ex e
dxn+1
n
 
x2 d d −x2
= (−1)n+1 e e
dxn dx

dn  −x2 
2
= 2(−1)n ex xe
dxn
X n    p   n−p 
Leibniz n x2 n d d −x2
= 2(−1) e x e
p=0
p dxp dxn−p
 
n x2 dn  −x2  dn−1  −x2 
= 2(−1) e x n e + n n−1 e
dx dx

= 2xHn (x) − 2nHn−1 (x) .


Assim, Hn+1 (x) = 2xHn (x)−2nHn−1 (x). Note que, como H0 (x) = 1 e H1 (x) = 2x, essa identidade vale
também para n = 0, convencionando que H−1 (0) ≡ 0. Reunindo isso com (8.76), somos conduzidos a
Hn0 (x) = 2nHn−1 (x), n ≥ 0. Resumindo, obtemos as seguintes relações:
Hn0 (x) = 2xHn (x) − Hn+1 (x) , (8.77)

Hn+1 (x) = 2xHn (x) − 2nHn−1 (x) , (8.78)

Hn0 (x) = 2nHn−1 (x) , (8.79)


válidas para todo n ≥ 0 com a convenção H−1 (0) ≡ 0. Estas expressões são bastante úteis. A relação
(8.78), por exemplo, permite obter recursivamente todos os Hn ’s a partir de H0 (x) = 1 e H1 (x) = 2x.

Em livros de Mecânica Quântica o estudante poderá aprender que algumas das propriedades dos
polinômios de Hermite que obtivemos acima podem ser provadas com o uso dos chamados operadores
de criação e aniquilação.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 456/1195

8.2.4 Propriedades dos Polinômios de Laguerre

• Relações de ortogonalidade para os polinômios de Laguerre


0
A equação de Laguerre (xe−x y 0 (x)) + λe−x y(x) = 0 é tipicamente considerada no intervalo J =
[0, ∞). Para ela tem-se p(x) = xe−x , q(x) = 0, r(x) = e−x e µ = λ. Note que p(x) > 0 em J 0 = (0, ∞),
e anula-se em x = 0 e no infinito. Além disso, r(x) > 0 em todo J = [0, ∞). Os polinômios de Laguerre
foram definidos em (7.121) por
X m  
n m! m
Lm (x) := (−1) xn (8.80)
n=0
n! n

e representam soluções da equação de Laguerre em J = [0, ∞) para µ = m. É bastante claro que para
os polinômios de Laguerre vale a condição (8.6) e, portanto, pelo Teorema 8.1, segue que
Z ∞
Ln (x)Lm (x) e−x dx = 0 (8.81)
0

para todo n 6= m, com m, n = 0, 1, 2, 3, . . .. Notemos também aqui que (8.81) implica


Z ∞
xk Lm (x) e−x dx = 0 (8.82)
0

para todo k < m, pois os monômios xk podem ser escritos como combinações lineares dos polinômios
Ln ’s com n < m. Para calcular as integrais de (8.81) no caso m = n podemos fazer uso da identidade

L0n+1 (x) = (n + 1)L0n (x) − (n + 1)Ln (x) , (8.83)

que será demonstrada mais abaixo (expressão (8.87)). Com ela, vê-se que
Z ∞ Z ∞  
2 −x
(n + 1) Ln (x) e dx = Ln (x) (n + 1)Ln (x) e−x dx
0 0
Z ∞ Z ∞
(8.83)
= (n + 1) Ln (x)L0n (x) e −x
dx − Ln (x)L0n+1 (x) e−x dx
|0 {z 0
}
= 0 por (8.82)

∞ Z ∞
int. por partes −x
= −Ln (x)Ln+1 (x)e + L0n (x)Ln+1 (x) e−x dx
0
|0 {z }
= 0 por (8.82)

Z ∞
− Ln (x)Ln+1 (x) e−x dx
|0 {z }
= 0 por (8.81)

(8.80)
= Ln (0)Ln+1 (0) = (n + 1)(n!)2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 457/1195

Concluı́mos assim que Z ∞


Ln (x)Lm (x) e−x dx = (n!)2 δn, m (8.84)
0
para todos n, m ≥ 0. Estas são as relações de ortogonalidade para os polinômios de Laguerre.

• Fórmula de Rodrigues para os polinômios de Laguerre

Pela ortogonalidade dos polinômios de Laguerre (8.81), podemos presumir, sob a luz das consi-
derações da Seção 8.1.3, página 430, que os polinômios de Laguerre satisfazem, por (8.15), uma relação
como
1 dm  m

x d
m 
m −x

Lm (x) := Km r(x) x = K m e x e , (8.85)
r(x) dxm dxm
onde Km é uma constante dependente da normalização adotada. De fato, pela regra de Leibniz,
m   Xm    m−p   p 
x d m −x x m d m d −x
e x e = e x e
dxm p=0
p dxm−p dxp

Xm  
p m m! p (8.80)
= (−1) x = Lm (x) .
p=0
p p!

Assim, Km = 1 e concluı́mos que


dm  m −x 
Lm (x) = ex x e , (8.86)
dxm
para todo m ≥ 0. Esta é a fórmula de Rodrigues para os polinômios de Laguerre.

• Relações de recorrência para os polinômios de Laguerre

Por (8.86), é elementar constatar que

dm+1  m+1 −x  x d
m+1
d  m+1 −x 
L0m+1 (x) = ex x e + e x e
dxm+1 dxm+1 dx
dm+1  m −x  x d
m+1 
m+1 −x

= Lm+1 (x) + (m + 1)ex x e − e x e
dxm+1 dxm+1
(8.86) dm+1  m −x  d dm  m −x 
= (m + 1)ex x e = (m + 1)ex x e
dxm+1 dx dxm
 
x d −x
= (m + 1)e e Lm (x)
dx
= −(m + 1)Lm (x) + (m + 1)L0m (x) .

Estabelecemos assim que

L0m+1 (x) = (m + 1)L0m (x) − (m + 1)Lm (x) , (8.87)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 458/1195

m ≥ 0. Essa é uma das fórmulas de recorrência para os polinômios de Laguerre, a qual empregamos
acima para provar as relações de ortogonalidade (8.84) no caso m = n. Há uma segunda, da qual
trataremos agora. Pela fórmula de Rodrigues vale
(8.86) dm   dm  
Lm (x) = ex m xm e−x = ex m x xm−1 e−x
dx dx
Xm    p 
Leibniz x m d dm−p m−1 −x

= e x x e
p=0
p dxp dxm−p

x dm m−1 −x
 x d
m−1
m−1 −x

= e x m x e + me x e
dx dxm−1
d −x 
= ex x e Lm−1 (x) + mLm−1 (x)
dx
= −xLm−1 (x) + xL0m−1 (x) + mLm−1 (x) .
Estabelecemos que
Lm (x) = −xLm−1 (x) + xL0m−1 (x) + mLm−1 (x) (8.88)
o que também implica (fazendo m → m + 1)
Lm+1 (x) = −xLm (x) + xL0m (x) + (m + 1)Lm (x) . (8.89)
Multiplicando ambos os lados de (8.88) por −m e somando o resultado a (8.89), teremos:
Lm+1 (x) − mLm (x) = −xLm (x) + xL0m (x) + (m + 1)Lm (x) + mxLm−1 (x) − mxL0m−1 (x) − m2 Lm−1 (x) .
(8.90)
(8.87)
Por (8.87), os termos xL0m (x) − mxL0m−1 (x) valem x(L0m (x) − mL0m−1 (x)) = −mxLm−1 (x). Introdu-
zindo isso de volta a (8.90), inferimos que
Lm+1 (x) = (2m − x + 1)Lm (x) − m2 Lm−1 (x) .

Resumindo nossas conclusões, estabelecemos as seguintes relações:


L0m+1 (x) = (m + 1)L0m (x) − (m + 1)Lm (x) , (8.91)

Lm+1 (x) = (2m − x + 1)Lm (x) − m2 Lm−1 (x) . (8.92)


Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre. A relação
(8.92), em particular, permite obter recursivamente todos os Lm (x)’s a partir de L0 (x) = 1 e L1 (x) =
1 − x.

• A função geratriz exponencial dos polinômios de Laguerre

Partindo de (8.80) obtemos para a função geratriz exponencial dos polinômios de Laguerre
X∞
Lm (x) m
L(x, t) := t
m=0
m!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 459/1195

o seguinte desenvolvimento19 :
∞ X
X m  
1 n m
L(x, t) = (−1) xn t m
m=0 n=0
n! n

∞ X
X ∞  
1 n m
= (−1) xn t m
n=0 m=n
n! n

∞ ∞  
!
X xn X m
= (−1)n tm . (8.93)
n=0
n! m=n
n

Agora,
∞  
X ∞
m m m→m+n tn X (m + n)! m
t = t
m=n
n n! m=0 m!

∞ ∞
!
tn X dn m+n tn d n X
= t = tn tm
n! m=0 dtn n! dtn m=0
 
tn d n tn
=
n! dtn 1−t
n    p   n−p 
Leibniz tn X n d n d −1
= t (1 − t)
n! p=0 p dtp dtn−p

n     
tn X n n! n−p (n − p)!
= t
n! p=0 p (n − p)! (1 − t)n−p+1

n    n−p  n
tn X n t tn t tn
= = 1+ = .
1 − t p=0 p 1−t 1−t 1−t (1 − t)n+1

Retornando com isso a (8.93), temos


∞  n
1 X (−1)n xt
L(x, t) = ,
1 − t n=0 n! 1−t

e assim concluı́mos que  


xt
exp −
1−t
L(x, t) = . (8.94)
1−t
Essa é a função geratriz exponencial dos polinômios de Laguerre.
19
Assumimos |t| e |x| pequenos o suficiente para justificar as diversas manipulações que faremos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 460/1195

8.2.5 Propriedades dos Polinômios de Laguerre Associados


A equação de Laguerre associada

xy 00 + (m + 1 − x)y 0 + (n − m)y = 0 , (8.95)

com m e n inteiros com 0 ≤ m ≤ n, é tipicamente considerada no intervalo J = [0, ∞). A mesma


pode ser ser levada à forma canônica (8.1), transformando-se em

(xm+1 e−x y 0 (x))0 + (n − m)xm e−x y(x) = 0 .

Tem-se, portanto, p(x) = xm+1 e−x , q(x) = 0, r(x) = xm e−x e µ = n − m. Uma alternativa talvez
melhor é tomar-se p(x) = xm+1 e−x , q(x) = −mxm e−x , r(x) = xm e−x e µ = n. Note-se que p(x) e r(x)
são os mesmos em ambas as escolhas.
Os polinômios de Laguerre associados foram definidos em (7.144) e expressões seguintes por 20
  n−m
X  
dm dm dn n −x n k n!
Ln(m) (x) = L n (x) = x
e (x e ) = (−1) (−1)m
xk , (8.96)
dxm dxm dxn k=0
k! m + k

(m)
com 0 ≤ m ≤ n. O polinômio Ln é a única solução de (8.95) que é regular em x = 0.

E. 8.12 Exercı́cio. Mostre que


(−1)m n! x −m dn−m n −x

Ln(m) (x) = e x x e .
(n − m)! dxn−m
6
(m)
É bastante elementar constatar que, com m fixo, as funções Ln com n ≥ m satisfazem (8.6) para
o intervalo J = [0, ∞). Assim, vale que
Z ∞
(m)
Ln(m) (x) Ln0 (x) xm e−x dx = 0 (8.97)
0

sempre que n 6= n0 . Para calcular a integral acima no caso n0 = n fazemos uso da relação (8.104),
que será demonstrada logo adiante. Tomando (8.104), substituindo n → n − 1 e multiplicando-a por
(m)
n−1 Ln (x), obtemos

(n − m)  (m) 2 (m) (m)


Ln (x) = (2n − m − x − 1)Ln−1 (x)Ln(m) (x) − (n − 1)2 Ln−2 (x)Ln(m) (x) .
n
(m)
Tomando (8.104) e multiplicando-a por (n + 1)−1 Ln−1 (x), obtemos

(n + 1 − m) (m)  2
(m) (m) (m)
Ln+1 (x)Ln−1 (x) = (2n − m − x + 1)Ln(m) (x)Ln−1 (x) − n2 Ln−1 (x) .
n+1
20
Mais uma vez advertimos o leitor do fato de haver várias convenções distintas quanto à definição dos polinômios de
Laguerre associados na literatura. Para comparação, polinômios de Laguerre associados definidos em [79], que denotamos
(m) (−1)m (m)
aqui por L Lm m
n (x), diferem dos nossos Ln (x) da seguinte forma: L Ln (x) = (n+m)! Ln+m (x).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 461/1195

Subtraindo uma expressão da outra, obtemos

(n − m)  (m) 2 (n + 1 − m) (m) (m)


Ln (x) − Ln+1 (x)Ln−1 (x)
n n+1
 2
(m) (m) (m)
= −2Ln−1 (x)Ln(m) (x) − (n − 1) 2
Ln−2 (x)Ln(m) (x) +n 2
Ln−1 (x) .

Multiplicando agora esta expressão por xm e−x , integrando entre 0 e ∞ e usando (8.97), ficamos com
Z ∞ 2 Z ∞ 2
m −x n3 (m)
(m)
Ln (x) x e dx = Ln−1 (x) xm e−x dx .
0 (n − m) 0
A indução pode ser feita diminuindo n até atingir o valor m, de onde extraı́mos que
Z ∞ 2 Z ∞ 2
m −x (n!)3
(m)
Ln (x) x e dx = 3 (n − m)!
L (m)
m (x) xm e−x dx .
0 (m!) 0

(m) R∞
Pela última igualdade em (8.96), tem-se Lm (x) = (−1)m m!. Ao mesmo tempo, 0 xm e−x dx = m!.
Assim, Z ∞ 2 (n!)3
Ln(m) (x) xm e−x dx = .
0 (n − m)!
Essa expressão pressupõe, naturalmente, 0 ≤ m ≤ n.
Concluı́mos assim que com nossas definições
Z ∞
(m) (n!)3
Ln(m) (x) Ln0 (x) xm e−x dx = δn, n0 . (8.98)
0 (n − m)!
Essas são as relações de ortogonalidade dos polinômios de Laguerre associados.
Comentário para o leitor mais avançado. Ao contrário da lenda, as relações de ortogonalidade (8.98)
não são as relações de ortogonalidade da parte radial das auto-funções de energia do átomo de hi-
drogênio. Os polinômios de Laguerre associados possuem um outro tipo de relação de ortogonalidade,
a saber, Z ∞    
ρ ρ 0”
2 p2l+4 ((p + l)!)3

(2l+1) (2l+1) − ρ2 p+p 0 2l+2
Lp0 +l L p+l e pp ρ dρ = δ p, p 0 . (8.99)
0 p0 p (p − l − 1)!
válida para todo p, p0 inteiros positivos (não-nulos), as quais discutiremos na Seção 8.3.7, página 507.
Lamentavelmente, poucos livros-texto de Mecânica Quântica discutem esse ponto quando tratam do
átomo de hidrogênio. Uma exceção, um tanto surpreendentemente, é [4].

• Uma conseqüência de (8.98) empregada no estudo do átomo de hidrogênio

As relações (8.98) implicam um resultado que é usado no contexto do átomo de hidrogênio. Trata-se
do seguinte: no caso n = n0 (8.98) diz-nos que
Z ∞
(m)
2 m −x (n!)3
Ln (x) x e dx = .
0 (n − m)!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 462/1195

No problema do átomo de hidrogênio surge a necessidade de se determinar a integral


Z ∞
2 m+1 −x
Ln(m) (x) x e dx (8.100)
0

que difere da anterior pois o fator xm é substituı́do por xm+1 . Essa última integral pode ser calculada
empregando-se a relação
(n + 1 − m) (m) (m)
xLn(m) (x) = − Ln+1 (x) + (2n − m + 1)Ln(m) (x) − n2 Ln−1 (x) ,
n+1
que será provada logo abaixo (expressão (8.104)). Inserindo-a em (8.100) e usando as relações de
ortogonalidade (8.98), obtem-se facilmente
Z ∞
2 m+1 −x (n!)3
Ln(m) (x) x e dx = (2n − m + 1) . (8.101)
0 (n − m)!
Essa expressão será usada quando da normalização das auto-funções de energia do átomo de hidrogênio.

• Relações de recorrência para os polinômios de Laguerre associados


(m)
Se explorarmos a primeira igualdade em (8.96), que define os polinômios Ln , algumas fórmulas
de recorrência para os polinômios de Laguerre associados podem ser obtidas diretamente daquelas dos
polinômios de Laguerre listadas em (8.91)-(8.92) simplesmente diferenciando-as m vezes em relação a
x. Como facilmente se constata, obtem-se
(m+1)
Ln+1 (x) = (n + 1)Ln(m+1) (x) − (n + 1)Ln(m) (x) , (8.102)
(m) (m)
Ln+1 (x) = (2n − x + 1)Ln(m) (x) − mL(m−1)
n (x) − n2 Ln−1 (x) , (8.103)
(m) 0 (m+1)
onde, em (8.102), usamos o fato evidente que Ll (x) = Ll (x).
(m−1) 1 (m) (m)
Tomando (8.102) e trocando m → m − 1, obtem-se Ln (x) = − (n+1) Ln+1 (x) + Ln (x). Inserindo
isso em (8.103), obtem-se
(m) (m)
(n + 1 − m)Ln+1 (x) = (n + 1)(2n − m − x + 1)Ln(m) (x) − n2 (n + 1)Ln−1 (x) . (8.104)

Essas relações são denominadas fórmulas de recorrência para os polinômios de Laguerre associados.

• A função geratriz exponencial dos polinômios de Laguerre associados

A partir da definição (8.96) e de (8.94) é elementar constatar que a função geratriz exponencial dos
polinômios de Laguerre associados é dada por
X∞ (m)  
Ll (x) l (−1)m tm xt
Las. (x, t) := t = m+1
exp − . (8.105)
l=m
l! (1 − t) 1 − t

dm
A soma acima começa com l = m pois L (x)
dxm l
= 0 caso m > l.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 463/1195

• A equação de Laguerre generalizada

A assim denominada equação de Laguerre generalizada é a equação diferencial

zy 00 (z) + (α + 1 − z)y 0 (z) + ny(z) .

com n ∈  e α > −1, real. Trata-se de uma variante da equação de Laguerre associada, pois α aqui
não é necessariamente um inteiro.

E. 8.13 Exercı́cio. Mostre que essa equação tem uma solução da forma de um polinômio
n
X  
n Γ(n + α + 1) k
Lαn (z) := (−1) k
z .
k=0
k Γ(k + α + 1)

E. 8.14 Exercı́cio. Mostre que


dn  n+α −x 
Lαn (x) = ex x−α x e ,
dxn
x > 0. 6

E. 8.15 Exercı́cio. Mostre que


Z ∞
Lαn (x)Lαm (x) xα e−x dx = 0
0

se m 6= n. Calcule a integral no caso m = n. 6

E. 8.16 Exercı́cio. Para α = m, inteiro, mostre que

(n − m)! (m)
Lαn (x) = (−1)m Ln (x) .
n!
6

8.2.6 Propriedades das Funções de Bessel


Na presente seção apresentaremos algumas das propriedades mais importantes e mais empregadas das
funções de Bessel, especialmente as de ordem inteira. Devido à sua importância em um sem-número de
problemas aplicados, as funções de Bessel e de Neumann têm sido intensamente estudadas nos últimos
duzentos anos e foi coletado um enorme conjunto de informações sobre as mesmas, gerando uma vasta
literatura. Por isso, nossas pretensões aqui são relativamente modestas. Um texto clássico sobre o
assunto é [125]. Outros excelentes são [130], [64] e [79], mas todas as referências listadas à página 356
tratam do assunto com maior ou menor grau de profundidade.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 464/1195

No estudo das propriedades das funções de Bessel Jν (x) procederemos de um modo ligeiramente
diferente do que fizemos acima. Isso se dá por várias razões. Uma delas é que as funções de Bessel não
são polinômios, ao contrário dos casos de acima. Outra é a natureza das relações de ortogonalidade
dessas funções.

• Origens

As funções de Bessel surgem em vários problemas da Fı́sica-Matemática, especialmente envolvendo a


resolução de certas equações diferenciais em coordenadas cilı́ndricas. O mais célebre desses problemas é
aquele que estuda as vibrações de uma membrana circular (um tambor), problema encontrado em vários
livros-texto e que estudamos na Seção 8.3.5, página 503. Esse problema foi tratado pela primeira vez
por Euler21 em 1764, antecedendo a Bessel. Em verdade, certas funções de Bessel surgiram antes ainda,
em 1703, na resolução da chamada equação de Riccati22 por Jacob Bernoulli23 (vide nota histórica à
página 265) e em 1732, em trabalhos de Daniel Bernoulli24 sobre o problema da corda vibrante e suas
variantes (vide problema da corda pendurada na Seção 8.3.4, página 499). O trabalho do astrônomo
Bessel25 no qual as funções que levam seu nome foram (re)encontradas é bem posterior e data de 1817.
O problema que conduziu Bessel não foi o de resolver uma equação diferencial, mas o de determinar
coeficientes de Fourier que descrevem a trajetória de um planeta em movimento periódico em uma órbita
elı́ptica em torno do Sol e obedecendo a segunda lei de Kepler26 , segundo a qual o raio-vetor que conecta
o Sol ao planeta em questão varre áreas iguais em tempos iguais27 . Bessel obteve para esses coeficientes
uma expressão integral que é a representação integral das funções de Bessel que apresentamos em
(8.131), mais abaixo. Posteriormente, identificou-se que esses coeficientes representavam as funções
previamente tratadas por Daniel Bernoulli e Euler, mas as mesmas acabaram sendo nomeadas em
honra a Bessel. Em seu trabalho, em verdade, Bessel estendeu resultados anteriores de Lagrange 28 , de
1769, o qual também dedicou-se à questão de determinar os coeficientes de Fourier que expressam como
função do tempo a distância ao Sol de um planeta em órbita elı́ptica, calculando os três primeiros.
A determinação desses coeficientes de Fourier não é um mero exercı́cio acadêmico, pois é importante
para cálculos, via teoria de perturbações, da influência gravitacional que os planetas exercem entre si
e da conseqüente previsão de desvios das suas órbitas elı́pticas. O estudo matemático de perturbações
periódicas ou quase-periódicas em sistemas mecânicos (ou em equações diferenciais, em geral) é um
vasto assunto de pesquisa que tem desafiado inúmeros pesquisadores até a atualidade.
Bessel é também autor de dois outros importantes feitos cientı́ficos, a proposição da existência de
estrelas binárias e a medição da distância ao Sol de uma outra estrela.
Bessel foi um dos primeiros a propor a existência de estrelas binárias, prevendo em 1834 a existência
de uma companheira da estrela Sirius. Tal previsão foi possı́vel em função de medidas de alta precisão,
21
Leonhard Euler (1707-1783).
22
Iacopo Francesco Riccati (1676-1754).
23
Jacob Bernoulli (1654-1705).
24
Daniel Bernoulli (1700-1782).
25
Friedrich Wilhelm Bessel (1784-1846).
26
Johannes Kepler (1571-1630).
27
Como todo estudante de Fı́sica bem sabe, isso é conseqüência da conservação do momento angular sob uma força
central.
28
Joseph-Louis Lagrange (1736-1813).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 465/1195

que Bessel produziu durante anos, da posição de várias estrelas. Tais medidas indicavam um movimento
elı́ptico periódico de Sirius cuja origem não poderia ser explicada em termos de movimentos da Terra
ou do sistema solar. Bessel propôs que esse movimento fosse devido à presença de uma outra estrela
menos brilhante nas proximidades de Sirius e que ambas orbitassem em torno do centro de massa
comum, explicando assim as observações. Em 1840, Bessel anunciou a observação de tais movimentos
periódicos em outra estrela, a estrela Procyon.
A existência da companheira de Sirius foi confirmada por observações feitas em 1862 por A. G.
Clark29 e a de Procyon em 1896, por J. M. Schaeberle30 , ambas após a morte de Bessel. As estatı́sticas
atuais indicam que cerca de metade das estrelas da nossa galáxia é composta por estrelas binárias.
Há também sistemas triplos de estrelas (α Centauri sendo o exemplo mais popularmente conhecido),
quádruplos ( Lyrae) etc.
Um problema matemático, levantado pela primeira vez por Laplace31 em 1785 e ainda hoje em
aberto, ao qual nomes como o de Poincaré32 deram importantes contribuições, é o de saber se sistemas
múltiplos como esses, ou como o nosso próprio sistema solar, são estáveis. Esse problema deu origem
a uma importante área de pesquisa atual, a teoria dos sistemas dinâmicos33 . Métodos como os que
Bessel e outros empregaram para a detecção de sistemas binários são empregados hoje em dia para a
detecção de planetas orbitando estrelas, outro tema atual de pesquisa.
Bessel foi também o primeiro, em 1838, a determinar a distância ao Sol de uma outra estrela, usando
para tal o método de paralaxe. A estrela em questão foi 61 Cygni e Bessel calculou sua distância ao
Sol como sendo de cerca de 10 anos-luz. O valor atualmente aceito é de cerca de 10,7 anos-luz, ou
3,3 parsecs. Com esse trabalho, Bessel contribuiu para o estudo das escalas de distância cosmológicas,
tarefa em implementação até os nossos dias.

• Relações de recorrência para as funções de Bessel

Seja a função de Bessel Jν (x) definida em (7.99) por



X (−1)k  x 2k+ν
Jν (x) := . (8.106)
k=0
k! Γ(k + 1 + ν) 2

Consideremos provisoriamente ν diferente de 0 ou de um inteiro negativo (pois Γ(x) diverge se x é um


29
Alvan Graham Clark (1832-1897).
30
John Martin Schaeberle (1853-1924).
31
Pierre-Simon Laplace (1749-1827).
32
Jules Henri Poincaré (1854-1912).
33
Em verdade, boa parte da topologia moderna foi criada por Poincaré no seu tratamento do problema de estabilidade.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 466/1195

inteiro negativo). Multiplicando Jν por xν e diferenciando em relação a x, obtem-se


∞  2k+ν
d ν d X (−1)k 1
(x Jν (x)) = (x)2k+2ν
dx dx k=0 k! Γ(k + 1 + ν) 2

X∞  2k+ν−1
(−1)k (k + ν) 1
= (x)2k+2ν−1
k=0
k! Γ(k + 1 + ν) 2


X (−1)k  x 2k+ν−1
ν
= x
k=0
k! Γ(k + ν) 2

= xν Jν−1 (x) .
Multiplicando Jν por x−ν e diferenciando em relação a x, obtem-se analogamente
∞  2k+ν
d  d X (−1)k 1
−ν
x Jν (x) = (x)2k
dx dx k=0 k! Γ(k + 1 + ν) 2


X  2k+ν−1
(−1)k 1
= (x)2k−1
k=1
(k − 1)! Γ(k + 1 + ν) 2


X (−1)k  x 2k+ν−1
−ν
= x
k=1
(k − 1)! Γ(k + 1 + ν) 2


X (−1)k  x 2k+ν+1
k→k+1 −ν
= −x
k! Γ(k + 2 + ν) 2
k=0

= −x−ν Jν+1 (x) .


Provamos assim que, para ν 6= 0, −1, −2, −3 . . .,
d ν d 
(x Jν (x)) = xν Jν−1 (x) e x−ν Jν (x) = −x−ν Jν+1 (x) . (8.107)
dx dx
Adotando-se a já mencionada definição J−m (x) = (−1)m Jm (x), para m inteiro positivo ou zero, vemos
que a expressão acima também vale para ν = 0, −1, −2, −3 . . ..

E. 8.17 Exercı́cio. Mostre isso! 6

Para ν = 0, a segunda relação em (8.107) diz-nos que


J00 (x) = −J1 (x) . (8.108)

Expandindo as derivadas em (8.107), teremos que


xν Jν0 (x) + νxν−1 Jν (x) = xν Jν−1 (x) e

x−ν Jν0 (x) − νx−ν−1 Jν (x) = −x−ν Jν+1 (x) ,


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 467/1195

ou seja,
xJν0 (x) = xJν−1 (x) − νJν (x) e xJν0 (x) = νJν (x) − xJν+1 (x) . (8.109)
Somando e subtraindo essas duas expressões uma da outra obtemos as seguintes relações importantes:
1 
Jν0 (x) = Jν−1 (x) − Jν+1 (x) , (8.110)
2
1 
Jν+1 (x) = 2νJν (x) − xJν−1 (x) . (8.111)
x
Essas relações, válidas para todo ν ∈ , são denominadas relações de recorrência das funções de Bessel.
A segunda delas permite, por exemplo, obter todas as funções Jm com m inteiro positivo a partir de
J0 e J1 . Na verdade, por (8.108), basta conhecer J0 e sua derivada.
Resumindo, obtivemos as seguintes relações
d ν
(x Jν (x)) = xν Jν−1 (x) , (8.112)
dx
d 
x−ν Jν (x) = −x−ν Jν+1 (x) , (8.113)
dx
xJν0 (x) = xJν−1 (x) − νJν (x) , (8.114)

xJν0 (x) = νJν (x) − xJν+1 (x) , (8.115)

1 
Jν0 (x) = Jν−1 (x) − Jν+1 (x) , (8.116)
2
1 
Jν+1 (x) = 2νJν (x) − xJν−1 (x) , (8.117)
x
válidas para todo ν ∈ e todo x ∈ , x 6= 0.
Expressões análogas às de acima são também válidas para as funções N ν (x).

• A relação entre Jn e J0 , n ∈ 

A segunda expressão em (8.107) diz-nos que


1 d 
x−ν Jν (x) = −x−(ν+1) Jν+1 (x) .
x dx
Disso segue imediatamente que
 n
1 d 
x−ν Jν (x) = (−1)n x−(ν+n) Jν+n (x) , (8.118)
x dx
válida para todo ν, x ∈ en∈  . No caso particular em que ν = 0, obtem-se,
 n
n n 1 d
Jn (x) = (−1) x (J0 (x)) , (8.119)
x dx
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 468/1195

válida para todo x ∈ e n ∈  . A expressão (8.119) generaliza (8.108) e guarda certa semelhança
com as fórmulas de Rodrigues.

E. 8.18 Exercı́cio. Obtenha (8.118) e (8.119) diretamente da definição (8.106). 6

• A função geratriz das funções de Bessel

A determinação da função geratriz das funções de Bessel é importante, entre outras razões, por nos
permitir obter representações integrais para as funções de Bessel, representações essas que assumem
uma grande relevância em várias aplicações.
Tomemos as funções de Bessel de ordem inteira definidas por

X (−1)k  x 2k+m
Jm (x) := , (8.120)
k=0
k! (k + m)! 2

para m ≥ 0, convencionando-se que J−m (x) = (−1)m Jm (x) (vide (7.117) e a discussão que lhe acom-
panha). Vamos aqui considerar a função geratriz definida por

X
J(x, t) := tm Jm (x)
m=−∞

para t 6= 0 e vamos provar que



X   
m x 1
t Jm (x) = exp t− . (8.121)
m=−∞
2 t

Dessa importante relação serão extraı́dos vários fatos úteis sobre as funções de Bessel de ordem inteira.
Antes de provarmos isso, mostremos que J(x, t) está bem definida. Por (8.120), vale

X 1 x 2k+m 1 x m X 1
∞ x 2k 1 x m |x/2|2

|Jm (x)| ≤ ≤ = e ,
k=0
k! (k + m)! 2 m! 2 k=0 k! 2 m! 2

de modo que


X ∞ m
X 1
|J(x, t)| ≤ |J0 (x)| + m
|t| |Jm (x)| + |Jm (x)|
t
m=1 m=1

m
1 x m
X∞ X∞
|x/2|2 1 xt |x/2|2
≤ |J0 (x)| + e +e ,
m=1
m! 2 m=1
m! 2t

sendo que as últimas somas são convergentes para todo x ∈ e todo t ∈ com t 6= 0, o que prova que
J(x, t) é analı́tica para todo x ∈ e todo t ∈ com t 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 469/1195

Podemos com isso demonstrar (8.121) de modo bem simples, tomando a derivada parcial em relação
a x de J(x, t), derivando termo a termo na soma (o que é permitido, devido à analiticidade) e usando
(8.110):

X
∂ 0
J(x, t) = t m Jm (x) (8.122)
∂x m=−∞

∞ ∞
(8.110) 1 X m 1 X m
= t Jm−1 (x) − t Jm+1 (x) (8.123)
2 m=−∞ 2 m=−∞

∞ ∞
k=m−1,
l=m+1 t X k t−1 X l
= t Jk (x) − t Jl (x) (8.124)
2 k=−∞ 2 l=−∞
 
1 1
= t− J(x, t) . (8.125)
2 t


Assim, J(x, t) satisfaz a equação diferencial ∂x
t) = 21 t − 1t J(x, t), cuja solução geral é
J(x,
  
x 1
J(x, t) = f (t) exp t− ,
2 t

para alguma função f (t). Agora, como Jm (0) = 0 para m 6= 0 e J0 (0) = 1, segue que J(0, t) = 1, o
que implica f (t) = 1, provando (8.121).
Estudando a demonstração acima o leitor poderá reconhecer a importância de definir-se J −m (x) =
(−1)m Jm (x), para m inteiro positivo ou zero.

• Fórmula de adição das funções de Bessel

Uma das relações mais úteis que advêm de (8.121) é a seguinte:



X
Jm (x + y) = Jn (x)Jm−n (y) , (8.126)
n=−∞

válida para todo m ∈ e todos x, y ∈ . Essa expressão é denominada por alguns autores fórmula
de adição das funções de Bessel (a “adição”, aqui, refere-se à adição dos argumentos da função no
lado esquerdo). As funções de Bessel satisfazem várias outras relações de adição do tipo de acima e
remetemos o leitor à literatura supracitada (por exemplo, à referência [64]) para generalizações.
A demonstração de (8.126) é obtida de (8.121) calculando-se o produto J(x, t)J(y, t) de duas
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 470/1195

formas: por um lado,


     
x 1 y 1
J(x, t)J(y, t) = exp t− exp t−
2 t 2 t
  
x+y 1
= exp t−
2 t

X
= tm Jm (x + y) . (8.127)
m=−∞

Por outro lado,



! ∞
!
X X
J(x, t)J(y, t) = tk Jk (x) tl Jl (y)
k=−∞ l=−∞


X ∞
X
= tk+l Jk (x)Jl (y)
k=−∞ l=−∞

∞ ∞
!
X X
= tm Jn (x)Jm−n (y) . (8.128)
m=−∞ n=−∞

Comparando-se (8.127) a (8.128) obtem-se (8.126).


Se em (8.126) tomarmos y = −x e m = 0, e usarmos que Jn (x) = J−n (−x) e que J0 (0) = 1,
obteremos ∞ 
X 2  2 ∞ 
X 2
1 = Jn (x) = J0 (x) + 2 Jn (x) . (8.129)
n=−∞ n=1

Como Jn (x) é real para x ∈  , isso ensina-nos que


1
|J0 (x)| ≤ 1 e |Jn (x)| ≤ √ ,
2
para todo x ∈  e n 6= 0, n inteiro.

E. 8.19 Exercı́cio. Justifique! 6

É possı́vel estabelecer limites superiores mais precisos para |Jn (x)|, mas não trataremos disso aqui.

• Representações integrais das funções de Bessel

A relação (8.121) tem vários usos, um deles é o de fornecer uma representação integral para as
funções de Bessel, com a qual outras propriedades podem ser obtidas. A relação (8.121) foi provada
para todo x ∈ e t ∈ com t 6= 0. Tomemos t com |t| = 1, ou seja, tomemos t da forma t = eiϕ , com
−π ≤ ϕ ≤ π. Obtemos,

X
eix sen (ϕ) = Jm (x)eimϕ . (8.130)
m=−∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 471/1195

O ponto interessante é que podemos interpretar o lado direito como sendo a série de Fourier na variável
ϕ da função periódica de perı́odo 2π do lado esquerdo, de onde tiramos que
Z π Z π
1 ix sen (ϕ) −imϕ 1
Jm (x) = e e dϕ = eix sen (ϕ)−imϕ dϕ ,
2π −π 2π −π
para todo m ∈ . Usando eia = cos(a) + i sen (a), tem-se
Z π Z π
1 i
Jm (x) = cos (x sen (ϕ) − mϕ) dϕ + sen (x sen (ϕ) − mϕ) dϕ .
2π −π 2π −π
A segunda integral do lado direito é nula, pois o integrando é uma função ı́mpar em ϕ. Como o
integrando da primeira integral do lado direito é uma função par em ϕ, segue que
Z π Z
1 1 π
Jm (x) = cos (x sen (ϕ) − mϕ) dϕ = cos (x sen (ϕ) − mϕ) dϕ , (8.131)
2π −π π 0
válida para todo m ∈ . Essa expressão é a importante representação integral da função de Bessel
Jm (x), m ∈ .
Tomando-se t = ieiϕ em (8.121), obtem-se

X
ix cos(ϕ)
e = im Jm (x)eimϕ . (8.132)
m=−∞

de onde se extrai Z π
(−i)m
Jm (x) = eix cos(ϕ)−imϕ dϕ . (8.133)
2π −π

É fácil obter daı́ que


Z π  
(−1)m
J2m (x) = cos x cos(ϕ) − 2mϕ dϕ ,
2π −π
Z π  
(−1)m
J2m+1 (x) = sen x cos(ϕ) − (2m + 1)ϕ dϕ .
2π −π

para todo m = 0, 1, 2, . . .. De (8.133) segue, em particular, a relação


Z π
1
J0 (x) = eix cos(ϕ) dϕ . (8.134)
2π −π
Aplicações dessa identidade encontram-se nos Exercı́cios E. 8.20 e E. 8.21.
2
E. 8.20 Exercı́cio. Seja f :  → integrável e seja
Z
1
F[f ](~
p) := f (~x)e−i~p·~x d2 ~x
2π 2 

e p~ · ~x = p1 x1 + p2 x2 . Suponha que f depende


sua transformada de Fourier, onde ~x = (x1 , x2 ), p~ = (p1 , p2 )p
apenas da coordenada radial: f (~x) = f (r), com r = k~xk = x21 + x22 . Mostre que
Z ∞
F[f ](~
p) = f (r)J0 (pr)r dr ,
0

onde p = |~
p|. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 472/1195


2 f0 , 0 ≤ r ≤ R
E. 8.21 Exercı́cio. Seja f : → definida por f (~x) = f (r) = , sendo f0 e R
0, r > R


constantes com R > 0. Mostre que


f0 R
F[f ](~
p) = J1 (pR) .
p
Sugestão: De (8.107) segue que xJ0 (x) = (xJ1 (x))0 . 6

• Propriedades adicionais

De (8.130) podemos extrair mais algumas relações de interesse. Mostremos algumas aqui. Separando
a parte real e a parte imaginária de ambos os lados de (8.130), teremos
  X∞
cos x sen (ϕ) = Jm (x) cos(mϕ) ,
m=−∞

  ∞
X
sen x sen (ϕ) = Jm (x) sen (mϕ) .
m=−∞
m
Usando que J−m (x) = (−1) Jm (x), obtemos alguns cancelamentos que conduzem a
  X∞
cos x sen (ϕ) = J0 (x) + 2 J2k (x) cos(2kϕ) , (8.135)
k=1

  ∞
X
sen x sen (ϕ) = 2 J2k−1 (x) sen ((2k − 1)ϕ) . (8.136)
k=1

Em particular, para ϕ = π/2, isso diz-nos que



X
cos(x) = J0 (x) + 2 (−1)k J2k (x) , (8.137)
k=1


X
sen (x) = 2 (−1)k+1 J2k−1 (x) . (8.138)
k=1

Tomando ϕ = 0 em (8.135), segue também a identidade



X
1 = J0 (x) + 2 J2k (x) .
k=1

De (8.135)-(8.136), obtem-se também, usando as bem-conhecidas relações de ortogonalidade das


funções seno e co-seno,
Z 
1 π  Jm (x), m par
cos x sen ϕ cos(mϕ)dϕ = .
π 0 0, m ı́mpar
Z 
1 π  0, m par
sen x sen ϕ sen (mϕ)dϕ = .
π 0 J m (x), m ı́mpar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 473/1195

Outras identidades podem ser obtidas a partir das várias apresentadas de acima, ou com os mesmos
métodos, mas encerramos aqui nossa apresentação das mesmas, convidando o leitor a um passeio
à literatura pertinente às funções de Bessel. Nossa intenção agora é a de discutir as relações de
ortogonalidade para as funções de Bessel.

• Zeros das funções de Bessel

Antes de entrarmos na discussão sobre as relações de ortogonalidade para as funções de Bessel em


J = [0, 1] precisamos fazer alguns comentários sobre os zeros das funções de Bessel. Os seguintes
teoremas são válidos:
Teorema 8.2 As funções Jn (z), com n ∈ , não possuem zeros complexos e possuem uma coleção
infinita enumerável de zeros reais, todos simples, exceto z = 0, que é um zero de ordem |m| de J m (z)
para m ∈ , m 6= 0. Os zeros de Jn (z), com n ∈ , não possuem pontos de acumulação em . Como 

Jn (x) = (−1)n Jn (−x), vemos que os zeros de Jn (x) são simétricos em relação ao ponto x = 0. Fora
isso, como J−n (x) = (−1)n+1 Jn (x), os zeros de Jn (x) coincidem com os de J−n (x). Por fim, os zeros
positivos das funções de Bessel de ordem inteira positiva possuem a seguinte propriedade de alternância:
entre dois zeros positivos sucessivos de Jn existe um zero de Jn−1 e um de Jn+1 , para todos n ≥ 0. 2

Teorema 8.3 Seja ν real e suponha que | arg z| < π. Então Jν (z) possui uma coleção infinita enu-
merável de zeros reais e positivos e um número 2N (ν) de zeros conjugados complexos, sendo que

1. N (ν) = 0 se ν > −1 ou ν = −1, −2, −3, . . .,


2. N (ν) = m se −m − 1 < ν < m, m = 1, 2, 3, . . ..

Os zeros reais positivos de Jν (z), com ν real, não possuem pontos de acumulação em 

+. 2

Teorema 8.4 Para ν ≥ 0 a função Jν0 (z) possui apenas zeros simples, exceto em z = 0 e entre dois
zeros sucessivos de Jν0 (z) há exatamente um zero de Jν (z). 2

O teorema seguinte é particularmente útil na resolução de problemas envolvendo condições de


contorno mistas.
Teorema 8.5 Para A e B reais e ν real com ν > −1 a equação

AJν (z) + BzJν0 (z)

para | arg z| < π possui uma coleção enumerável de zeros reais positivos e no caso em que ν + A/B ≥
0, também não possui raı́zes complexas. Caso ν + A/B < 0, AJ ν (z) + BzJν0 (z) possui duas raı́zes
imaginárias puras. 2

Os enunciados acima foram extraı́dos de [79], [64] e [60] e suas demonstrações podem ser encontradas
em [125] ou (parcialmente) em [64]. Não as apresentaremos aqui, mas o leitor não deve ser desestimulado
a estudá-las pois as mesmas são elementares e utilizam-se essencialmente apenas do material que já
apresentamos aqui.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 474/1195

• As relações de ortogonalidade das funções de Bessel no intervalo [0, 1]

Em muitos problemas, por exemplo, naquele em que estudamos os modos de vibração de uma
membrana circular, estamos interessados nas soluções da equação de Bessel em um intervalo finito
fechado. Consideraremos, para fixar idéias, o caso em que o intervalo é J = [0, 1]. Em uma tal
situação encontraremos relações de ortogonalidade, as quais são muito importantes na resolução de
certos problemas envolvendo equações diferenciais parciais submetidas a condições iniciais e de contorno.
Devido aos comentários que fizemos acima sobre os zeros das funções de Bessel consideraremos no
que segue apenas o caso em que ν é real.
Seja para um dado α ∈  a função fα (x) := Jν (αx). É fácil verificar que fα (x) é solução da equação
ν2
(xy 0 (x))0 − y(x) + α2 xy(x) = 0 . (8.139)
x

E. 8.22 Exercı́cio importante. Verifique isso. 6

Como α aparece elevada ao quadrado na expressão acima podemos sem perda de generalidade
considerar α > 0 (o caso α = 0 é trivial, pois corresponde a uma função constante: f 0 (x) = Jν (0)).
Nosso principal resultado será o seguinte teorema, o qual estabelece uma classe bastante geral de
relações de ortogonalidade para as funções de Bessel. Essas relações de ortogonalidade são de suma
importância nas aplicações dessas funções à solução de certas equações diferenciais submetidas a certas
condições iniciais e de contorno.
Teorema 8.6 Seja ν ≥ 0 e sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + A/B ≥ 0, caso B 6= 0 (vide Teoremas 8.2-8.5). Seja também ZνA, B o conjunto de todos os números
α > 0 tais que
AJν (α) + BαJν0 (α) = 0 , (8.140)
ou seja,
ZνA, B := {α > 0| AJν (α) + BαJν0 (α) = 0} . (8.141)
Pelo Teorema 8.5, esse conjunto é não-vazio e enumerável. Então a condição (8.6) do Teorema 8.1,
página 428, com J = [0, 1], é satisfeita para todas as funções f α (x) = Jν (αx) com α ∈ ZνA, B e,
portanto, para α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)
Z 1
fα (x)fβ (x) x dx = 0 ,
0

ou seja, Z 1
Jν (αx)Jν (βx) x dx = 0 . (8.142)
0
para todos α, β ∈ ZνA, B com α 6= β. Para todos α, β ∈ ZνA, B , tem-se
Z 1    
δα, β 0 2 ν2 2
Jν (αx)Jν (βx) x dx = (Jν (α)) + 1 − 2 (Jν (α))
0 2 α
 
(8.115) δα, β 2 2ν 2
= (Jν (α)) − Jν (α)Jν+1 (α) + (Jν+1 (α)) . (8.143)
2 α
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 475/1195

Essa expressão é denominada relação de ortogonalidade das funções de Bessel. Note que há uma relação
de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0) e ν + A/B ≥ 0, B 6= 0, pois
cada tripla (ν, A, B) fixa o conjunto WνA, B .
A relação (8.140) corresponde a condições de contorno freqüentemente encontradas na resolução de
equações diferenciais parciais da Fı́sica, como por exemplo no problema de propagação de ondas em
uma membrana circular (um tambor). No caso A = 1, B = 0 o conjunto Z ν1, 0 coincide com o dos zeros
da função de Bessel Jν (x). No caso A = 0, B = 1 o conjunto Zν0, 1 coincide com o dos zeros da função
Jν0 (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função Jν (x) no intervalo (0, ∞), então
Z 1
ν
 ν
 (Jν0 (αkν ))2 (Jν+1 (αkν ))2
Jν αk x Jν αl x x dx = δk, l = δk, l . (8.144)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função Jν0 (x) no intervalo (0, ∞), então
Z 1  2 !
  ν (Jν (βkν ))2
Jν βkν x Jν βlν x x dx = δk, l 1 − . (8.145)
0 βkν 2

Dessa relação percebemos incidentalmente que βkν > ν para todo k, pois o lado esquerdo é certamente
positivo quando k = l. 2

Prova do Teorema 8.6. Podemos encarar a equação (8.139) como sendo da forma canônica (8.1) para o
2
intervalo J = (0, 1] com p(x) = x, q(x) = − νx , r(x) = x e µ = α2 . Perguntemo-nos agora se para duas
funções fα (x) := Jν (αx) e fβ (x) := Jν (βx) a condição (8.6) do Teorema 8.1, página 428 é satisfeita nos
extremos do intervalo J = (0, 1], ou seja, se
 
p(1) fα (1)fβ0 (1) − fα0 (1)fβ (1) − lim p(x) fα (x)fβ0 (x) − fα0 (x)fβ (x) = 0 ,
x→0

isto é, se

(Jν (α)βJν0 (β) − αJν0 (α)Jν (β)) − lim x (Jν (αx)βJν0 (βx) − αJν0 (αx)Jν (βx)) = 0 .
x→0

Dado que o primeiro termo da expansão de Jν (x) é proporcional a xν , e que, conseqüentemente, o


primeiro termo da expansão de Jν0 (x) é proporcional a xν−1 teremos que

lim x (Jν (αx)βJν0 (βx) − αJν0 (αx)Jν (βx)) ∝ lim xxν xν−1 = 0
x→0 x→0

sempre que ν > 0. Para ν = 0 a relação acima também é válida, pois o primeiro termo da expansão de
J0 (x) é constante, mas o primeiro termo da expansão de J00 (x) é proporcional a x. Para ν < 0 o limite
x → 0 da expressão acima é singular. Concluı́mos que para ν ≥ 0 vale

 
p(1) fα (1)fβ0 (1) − fα0 (1)fβ (1) − lim p(x) fα (x)fβ0 (x) − fα0 (x)fβ (x)
x→0

= (Jν (α)βJν0 (β) − αJν0 (α)Jν (β)) .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 476/1195

Procuramos agora identificar condições sob as quais o lado direito se anula, o que nos garantirá a
aplicabilidade do teorema de ortogonalidade, Teorema 8.1.
Um caso óbvio é aquele no qual α e β são zeros da função de Bessel Jν . Outro caso óbvio é aquele
no qual α e β são zeros de Jν0 , a derivada da função de Bessel Jν . O caso mais geral está na seguinte
proposição.
Proposição 8.1 Suponhamos que para certos números A e B com (A, B) 6= (0, 0) existam constantes
reais α e β tais que

AJν (α) + BαJν0 (α) = 0 e (8.146)

AJν (β) + BβJν0 (β) = 0 . (8.147)

Então,
Jν (α)βJν0 (β) − αJν0 (α)Jν (β) = 0 .
2

Prova. As relações (8.146)-(8.147) podem ser expressas em forma matricial como


    
Jν (α) αJν0 (α) A 0
   =   .
Jν (β) βJν0 (β) B 0

Como por hipótese (A, B) 6= (0, 0), a relação acima só é possı́vel se a matriz 2 × 2 do lado esquerdo
for não-invertı́vel, ou seja, se tiver determinante nulo. Assim, devemos ter
 
Jν (α) αJν0 (α)
0 = det   = Jν (α)βJν0 (β) − αJν0 (α)Jν (β) ,
Jν (β) βJν0 (β)

que é o que querı́amos estabelecer.

Com essa proposição, fica estabelecido que a condição (8.6) do Teorema 8.1, página 428, com
com J = [0, 1], é satisfeita para todas as funções fα (x) = Jν (αx) com α ∈ ZνA, B e, portanto, para
α, β ∈ ZνA, B com α 6= β valem as relações de ortogonalidade (com r(x) = x)
Z 1 Z 1
fα (x)fβ (x) x dx = 0 ou seja, Jν (αx)Jν (βx) x dx = 0 ,
0 0

para todos α, β ∈ ZνA, B com α 6= β.


Passemos à questão de provar (8.143) para o caso em que α = β. Isso pode ser feito de diversas
maneiras, a mais direta sendo a seguinte. Escrevamos a equação (8.139) na forma

x2 y 00 (x) + xy 0 (x) + α2 x2 − ν 2 y(x) = 0 . (8.148)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 477/1195

Multiplicando-a por 2y 0 (x), obtemos



0 = 2x2 y 0 (x)y 00 (x) + 2x(y 0 (x))2 + 2 α2 x2 − ν 2 y(x)y 0 (x)

d 0 2  d
= x2 (y (x)) + 2x(y 0 (x))2 + α2 x2 − ν 2 (y(x))2
dx dx
d  2 0 2
  d
= x (y (x)) + α2 x2 − ν 2 (y(x))2
dx dx
e, portanto,
d  2 0 2
 d  2 2  
0 = x (y (x)) + α x − ν 2 (y(x))2 − 2α2 x (y(x))2 .
dx dx
Integrando-se ambos os lados da igualdade entre 0 e 1, obtem-se
  1 h  i 1 Z 1
2 2
2 0 2 2 2
0 = x (y (x)) + α x − ν (y(x)) − 2α 2
x (y(x))2 dx . (8.149)
0 0 0

Como fα (x) = Jν (αx) é solução de (8.148), podemos adotar y(x) = Jν (αx), acima. Assim,
  1   1
2 2 2
x2 (y 0 (x)) = α2 x2 (Jν0 (αx)) = α2 (Jν0 (α)) .
0 0

h  i 1    

2 2
α x −ν 2
(y(x)) = α2 − ν 2 (Jν (α))2 + ν 2 (Jν (0))2 = α2 − ν 2 (Jν (α))2 ,
2
0

pois ν 2 (Jν (0))2 = 0 para todo ν ≥ 0 (por que?). Portanto, (8.149) fica
Z 1  
2
2α 2
x (Jν (αx)) dx = α (Jν (α)) + α − ν (Jν (α))2 ,
2 2 0 2 2
0

o que conduz à primeira linha de (8.143) no caso α = β. A identidade


 
2 ν2 2ν
(Jν (α)) + 1 − 2 (Jν (α))2 = (Jν (α))2 − Jν (α)Jν+1 (α) + (Jν+1 (α))2
0
α α
segue diretamente de (8.115).
Com isso, o Teorema 8.6 está demonstrado

• Comentário sobre a equação de Bessel no intervalo J = [0, ∞)

Seja a equação de Bessel x2 y 00 (x) + xy 0 (x) + (x2 − ν 2 )y(x) = 0 e consideremo-la agora no intervalo
semi-infinito J = [0, ∞). A mesma pode ser escrita como
ν2
(xy 0 (x))0 − y(x) + xy(x) = 0, (8.150)
x
e aqui temos p(x) = x e poderı́amos adotar q(x) = x, r(x) = x1 e µ = −ν 2 . Há, porém, uma diferença
marcante em relação aos casos anteriormente tratados. Para as funções J ν (x), mesmo com ν inteiro,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 478/1195

não vale a relação (8.6), pois limx→∞ p(x)Jν (x)Jν 0 (x) não se anula e, portanto, o Teorema 8.1 não se
aplica nesse caso. De fato, Jν (x) comporta-se para x → ∞ como
r 
2 cos x − νπ − π
Jν (x) ≈ √2 4
.
π x
Infelizmente, não apresentaremos a demonstração dessa expressão assintótica nestas Notas. O leitor
poderá encontrá-la em vários textos, por exemplo, em [125], [130], [64] e mesmo em [77]. Em [64], por
exemplo, encontra-se demonstrada a expressão assintótica mais detalhada

r  ∞   2r
2 cos x − νπ − π X (−1)r Γ ν + 2r + 21 1
Jν (x) ≈ √2 4
1

π x r=0
(2r)! Γ ν − 2r + 2 2x
r  ∞   2r+1
2 sen x − νπ − π X (−1)r Γ ν + 2r + 23 1
− √ 2 4
1
 ,
π x r=0
(2r + 1)! Γ ν − 2r − 2 2x

válida para x → ∞. Com isso, percebemos que não devem valer para as funções de Bessel com ν’s
diferentes relações de ortogonalidade envolvendo integrais em J = [0, ∞).

8.2.7 Propriedades das Funções de Bessel Esféricas


As funções de Bessel e Neumann esféricas de ordem ν foram definidas em (7.145) e (7.146) por
r r
π π
jν (z) := Jν+ 1 (z) , nν (z) := N 1 (z) . (8.151)
2z 2 2z ν+ 2
Por serem fortemente relacionadas às funções de Bessel, suas propriedades podem ser facilmente dedu-
zidas das propriedades estudadas acima daquelas funções.
Por (7.99), tem-se
√ X ∞  z 2k+ν
π (−1)k
jν (z) = .
2 k=0 k! Γ(k + 1 + ν + 1/2) 2

Pela fórmula de duplicação (7.27), podemos escrever isso como



X
ν (−1)k Γ(k + 1 + ν)
jν (z) = 2 z 2k+ν .
k=0
k! Γ(2(k + 1 + ν))

Em particular, para ν = l ∈  , vale



X (−1)k (k + l)! 2k+l
l
jl (z) = 2 z .
k! (2k + 2l + 1)!
k=0

• Relações de recorrência para as funções de Bessel esféricas


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 479/1195

Fórmulas de recorrência para as funções de Bessel esféricas também podem ser obtidas daquelas
para as funções de Bessel listadas em (8.112)-(8.117). Analisando-as, é imediato ver que de (8.112) e
(8.113) segue facilmente que

d  d 
xν+1 jν (x) = xν+1 jν−1 (x) e x−ν jν (x) = −x−ν jν+1 (x) . (8.152)
dx dx
De (8.114) e (8.115) segue facilmente que

xjν0 (x) = xjν−1 (x) − (ν + 1)jν (x) e xjν0 (x) = νjν (x) − xjν+1 (x) . (8.153)

Dessas duas relações segue facilmente que


 
1 jν (x)
jν0 (x) = jν−1 (x) − − jν+1 (x) , (8.154)
2 x

1 
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) , (8.155)
x
para todo ν. Usando (8.155), é fácil ver que (8.154) pode ser reescrita como
 
(2ν + 1) jν0 (x) = (ν + 1) jν−1 (x) − jν+1 (x) (8.156)

para todo ν.
Resumindo nossas conclusões, obtivemos que
d 
xν+1 jν (x) = xν+1 jν−1 (x) , (8.157)
dx
d 
x−ν jν (x) = −x−ν jν+1 (x) , (8.158)
dx
xjν0 (x) = xjν−1 (x) − (ν + 1)jν (x) , (8.159)

xjν0 (x) = νjν (x) − xjν+1 (x) , (8.160)


 
(2ν + 1) jν0 (x) = (ν + 1) jν−1 (x) − jν+1 (x) , (8.161)

1 
jν+1 (x) = (2ν + 1)jν (x) − xjν−1 (x) . (8.162)
x

Expressões análogas são válidas para as funções nν (x).


Com o uso das relações de recorrência acima é possı́vel obter para as funções de Bessel esféricas o
análogo da expressão (8.119).

• A relação entre jn e j0 , n ∈ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 480/1195

A expressão (8.158) diz-nos que

1 d 
x−ν jν (x) = −x−(ν+1) jν+1 (x) .
x dx
Disso segue imediatamente que
 n
1 d 
x−ν jν (x) = (−1)n x−(ν+n) jν+n (x) , (8.163)
x dx

válida para todo ν, x ∈ en∈ . No caso particular em que ν = 0, obtem-se,




 n  n 
n n 1 d n n 1 d sen x 
jn (x) = (−1) x (j0 (x)) = (−1) x , (8.164)
x dx x dx x

válida para todo x ∈ en∈  . A expressão (8.164) guarda certa semelhança com as fórmulas de
Rodrigues.
Para as funções de Neumann esféricas tem-se uma expressão análoga:
 n 
n+1 n 1 d cos x 
nn (x) = (−1) x . (8.165)
x dx x

• Relações de ortogonalidade para as funções de Bessel esféricas no intervalo [0, 1]

As relações de ortogonalidade para as funções de Bessel esféricas podem ser provadas diretamente
daquelas expressas no Teorema 8.6.
ν+1/2
Observemos em primeiro lugar que o conjunto ZA, B que, pela definição (8.141), é
ν+1/2  0

ZA, B := α > 0| AJν+1/2 (α) + BαJν+1/2 (α) = 0

pode ser caracterizado em termos de jν como


   
B
ZA, B := α > 0 A +
ν+1/2 0
jν (α) + Bαjν (α) = 0 .
2

Assim, ao lidarmos com problemas que possuem condições de contorno do tipo

Ajν (α) + Bαjν0 (α) = 0


ν+1/2
o conjunto de α’s que satisfazem isso é ZA−B/2, B .
Isso mostra que podemos aplicar diretamente
q as conclusões do Teorema 8.6, tomando o cuidado de
2α √ px
substituir: 1. ν por ν + 1/2, 2. Jν (α) por π
j ν (α), 3. (na integral) J ν (αx) por α π jν (αx) e 3. e
√  √ 
Jν0 (α) por π j2ν√(α)
α
+ αjν0 (α) . Após algumas contas elementares, obtem-se o seguinte:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 481/1195

Teorema 8.7 Seja ν ≥ 0, sejam fixados certos números reais A, B com (A, B) 6= (0, 0) satisfazendo
ν + 1/2 + A/B ≥ 0, caso B 6= 0 (vide Teoremas 8.2-8.5) e seja definido
ν+1/2
WνA, B := {α > 0| Ajν (α) + Bαjν0 (α) = 0} = ZA−B/2, B .

Pelo Teorema 8.5, esse conjunto é não-vazio e enumerável. Para todos α, β ∈ W νA, B , tem-se
"  2  #
Z 1 1 2
δ α, β 1 j ν (α) √ (ν + )
jν (αx)jν (βx) x2 dx = √ + αjν0 (α) + 1 − 2
2
(jν (α))2
0 2 α 2 α α
  
δα, β ν(ν + 1) jν (α)jν0 (α)
= 1− (jν (α)) + 2
+ (jν0 (α))2
2 α2 α
 
(8.160) δα, β 2 (2ν + 1) 2
= (jν (α)) − jν (α)jν+1 (α) + (jν+1 (α)) . (8.166)
2 α
Essa expressão é denominada relação de ortogonalidade das funções de Bessel esféricas. Note que há
uma relação de ortogonalidade para cada tripla (ν, A, B) com ν ≥ 0 e (A, B) 6= (0, 0), pois cada
tripla (ν, A, B) fixa o conjunto ZνA, B .
No caso A = 1, B = 0 o conjunto Wν1, 0 coincide com o dos zeros da função de Bessel esférica jν (x).
No caso A = 0, B = 1 o conjunto Wν0, 1 coincide com o dos zeros da função jν0 (x).
Em particular, se ν ≥ 0 e αkν é o k-ésimo zero da função jν (x) no intervalo (0, ∞), então
Z 1
  (j 0 (αν ))2 (jν+1 (αkν ))2
jν αkν x jν αlν x x2 dx = δk, l ν k = δk, l . (8.167)
0 2 2
Analogamente, se ν ≥ 0 e βkν é o k-ésimo zero da função jν0 (x) no intervalo (0, ∞), então
Z 1  
ν
 ν
 2 ν(ν + 1) (jν (βkν ))2
jν βk x jν βl x x dx = δk, l 1 − . (8.168)
0 (βkν )2 2
p
Dessa relação percebemos incidentalmente que βkν > ν(ν + 1) para todo k, pois o lado esquerdo é
certamente positivo quando k = l. 2

sen (x)
É instrutivo considerar a relação (8.167) no caso ν = 0, quando j0 (x) = x
e, portanto, αk0 = kπ,
com k > 0 inteiro. Como j00 (x) = cos(x)
x
− senx2(x) , (8.167) está dizendo que
Z 1  2
sen (kπx) sen (lπx) δk, l cos(kπ) 1
dx = = δk, l ,
0 klπ 2 2 kπ 2(kπ)2
ou seja, Z 1
1
sen (kπx) sen (lπx) dx = δk, l .
0 2
Essa é uma relação bem conhecida que, evidentemente, pode também ser provada por meios mais
elementares.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 482/1195

8.3 Algumas Aplicações Selecionadas


Nesta seção ilustramos alguns problemas fı́sicos dos quais emergem algumas das equações diferenciais
ordinárias que temos estudado, tais como as equações de Euler, de Bessel, de Legendre, de Legendre
associada, de Bessel esférica, de Hermite, de Laguerre e de Laguerre associada. O estudante que estiver
procurando a motivação e a origem fı́sica daquelas equações poderá ler parcialmente a presente seção
sem precisar dominar totalmente o material anteriormente apresentado, pelo menos até o ponto em
que apresentarmos as soluções das equações.

8.3.1 O Método de Separação de Variáveis


O chamado método de separação de variáveis é um método muito freqüentemente empregado na solução
de uma certa classe de equações diferenciais parciais lineares e homogêneas. Quer a sorte que muitas
equações de interesse em Fı́sica pertencem à classe de equações para as quais esse método é eficaz,
uma das razões da sua popularidade. Uma segunda vantagem desse método reside no fato de o mesmo
transformar um problema de equações diferenciais parciais em uma série de problemas de equações
diferenciais ordinárias, sobre as quais muito mais é conhecido no que concerne a métodos de solução.
Uma terceira razão para o interesse no método de separação de variáveis reside no fato de o mesmo
permitir explorar simetrias de determinados problemas (por exemplo, a simetria por rotações), o que
é de particular utilidade em certas situações. O método de separação de variáveis foi descoberto
originalmente por Daniel Bernoulli34 no estudo de diversas equações diferenciais, como a equação da
corda vibrante.
Vamos apresentar o método de separação de variáveis no tratamento de uma equação de segunda
ordem em duas variáveis reais, digamos x e y, definidas em um certo domı́nio de 2 . Seja a equação a


derivadas parciais da forma


∂2u ∂2u ∂u ∂u
A(x) 2
+ B(y) 2
+ C(x) + D(y) + (E(x) + F (y))u = 0 , (8.169)
∂x ∂y ∂x ∂y
sendo que ou A ou B não é identicamente nula (de modo que a equação seja de segunda ordem em
pelo menos uma das variáveis, mas não-necessariamente em ambas) a ser satisfeita por uma função
incógnita de duas variáveis u(x, y). Como claramente indicado acima, as funções A, C e E são funções
de uma única variável, a saber x, enquanto que B, D e F são funções de uma única variável, a saber
y. É preciso supor muito pouco sobre essas funções, por exemplo, que as mesmas são contı́nuas, mas
mesmo essa hipótese pode ser enfraquecida, o que ocorre em muitos exemplos de interesse (vide as
próximas seções). Por enquanto, deixemos de lado considerações sobre o domı́nio de validade D ⊂ 2 

da equação acima e sobre condições de contorno e concentremo-nos em procurar soluções particulares


de (8.169).
O método de separação de variáveis consiste em procurar soluções particulares para a equação
(8.169) que sejam da forma u(x, y) = X(x)Y (y). Antes de fazermos perguntas sobre a aplicabilidade
dessa idéia, vejamos a que a mesma conduz. Inserindo o Ansatz u(x, y) = X(x)Y (y) na equação
(8.169), obtem-se
A(x)X 00 (x)Y (y) + B(y)X(x)Y 00 (y) + C(x)X 0 (x)Y (y) + D(y)X(x)Y 0 (y) + (E(x) + F (y))X(x)Y (y) = 0 .
34
Daniel Bernoulli (1700-1782).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 483/1195

Dividindo-se essa expressão por X(x)Y (y), obtem-se

X 00 (x) Y 00 (y) X 0 (x) Y 0 (y)


A(x) + B(y) + C(x) + D(y) + E(x) + F (y) = 0 .
X(x) Y (y) X(x) Y (y)

Aqui, é de se observar que cada termo da expressão acima é função de uma única variável. Separando
os termos que dependem de cada variável em cada lado da igualdade, obtem-se da última expressão
   
X 00 (x) X 0 (x) Y 00 (y) Y 0 (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) .
X(x) X(x) Y (y) Y (y)

Chegamos agora ao ponto crucial que justifica o que foi feito até aqui. Do lado esquerdo da igualdade
acima encontra-se uma função que depende apenas de x e do lado direito uma função apenas de y. Ora,
como ambas as variáveis são independentes, uma tal igualdade só é possivel se ambos os lados forem
iguais a uma mesma constante, que denotaremos por λ, a qual é denominada constante de separação.
Assim,
   
X 00 (x) X 0 (x) Y 00 (y) Y 0 (y)
A(x) + C(x) + E(x) = − B(y) + D(y) + F (y) = λ ,
X(x) X(x) Y (y) Y (y)

o que implica o par de equações

A(x)X 00 (x) + C(x)X 0 (x) + (E(x) − λ)X(x) = 0 , (8.170)

B(y)Y 00 (y) + D(y)Y 0 (y) + (F (y) + λ)Y (y) = 0 , (8.171)

cada qual sendo uma equação diferencial ordinária. Ambas as equações podem agora, em princı́pio, ser
tratadas separadamente com os métodos de solução disponı́veis para equações diferenciais ordinárias
como por exemplo, o método de expansão em série ou o método de Frobenius. É de se lembrar, porém,
que ambas as equações não são totalmente desacopladas, pois têm em comum a presença da mesma
constante de separação ainda indeterminada λ.
Uma pergunta que se coloca nesse momento é se a equação (8.169) é a forma mais geral de uma
equação linear de segunda ordem em duas variáveis para a qual o Ansatz u(x, y) = X(x)Y (y) conduz a
equações separadas para X e para Y . Não é do conhecimento do autor que sejam conhecidas condições
necessárias e suficientes para a separabilidade de equações diferenciais parciais lineares, de modo que a
forma da (8.169) é apenas uma condição suficiente para separabilidade. Um pouco de experimentação
(faça!) permite concluir que a separação dificilmente se dá caso haja na equação um termo com uma
∂2u
derivada mista ∂x∂y , ou se as funções A, B etc. não forem funções de uma única variável especificamente
como explicitado em (8.169), mas há excessões, como mostra o exemplo do Exercı́cio E. 8.25, abaixo.
Outrossim, o método de separação de variáveis dificilmente pode ser feliz no caso de equações diferen-
ciais não-lineares mas, novamente, não é do conhecimento do autor que isso tenha sido completamente
demonstrado em uma classe grande de exemplos interessantes.
É de se notar, porém, que o método de separação de variáveis não se restringe a equações envolvendo
apenas duas variáveis, nem a equações de segunda ordem. Nosso interesse pelas equações de segunda
ordem provem do fato de que a grande maioria das equações diferenciais parciais encontrada na Fı́sica
é de segunda ordem.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 484/1195

E. 8.23 Exercı́cio. Encontre uma classe de equações diferencias parciais de primeira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6

E. 8.24 Exercı́cio. Encontre uma classe de equações diferencias parciais de terceira ordem lineares e
homogêneas em duas variáveis x e y para as quais o Ansatz u(x, y) = X(x)Y (y) conduz a equações
separadas para X e para Y . Obtenha essas equações. 6

E. 8.25 Exercı́cio. Mostre que uma equação diferencial da forma

∂2u ∂2u ∂u
A(x) 2
+ B(y) + (C(x) + D(y)) = 0 (8.172)
∂x ∂x∂y ∂x

permite separação de variáveis na forma u(x, y) = X(x)Y (y). Sugestão: substitua esse Ansatz na equação
e divida-a por X 0 (x)Y (y), obtendo, com uma constante de separação λ,

A(x)X 00 (x) + (E(x) − λ)X 0 (x) = 0 ,

B(y)Y 0 (y) + (D(y) + λ)Y (y) = 0 .

Outra sugestão é observar que a equação (8.172) pode ser reduzida a uma equação linear de primeira ordem
para ∂u
∂x
, a qual é separável. 6

O que determina a constante de separação λ? Em situações tı́picas ela é determinada pela imposição
de condições de contorno, ou de outras condições subsidiárias à solução, tais como que ela seja contı́nua,
ou que ela seja periódica, ou que ela seja limitada, ou que ela seja de quadrado integrável (o que
tipicamente ocorre na Mecânica Quântica) etc. Os exemplos que se seguirão ilustrarão essas diversas
situações.
Um certo cuidado aqui é necessário. Para a imposição de condições de contorno ou subsidiárias às
soluções particulares da forma de um produto X(x)Y (y) é necessário que essas condições de contorno
possam ser expressas separadamente como condições sobre a dependência em x e sobre a dependência
em y. Geralmente, isso só é possı́vel se o domı́nio D de validade da equação (entenda-se, a região
onde o problema está definido) seja um retângulo tal como {(x, y) ∈ 2 , 0 ≤ x ≤ L, 0 ≤ y ≤ M },


um disco {(x, y) ∈ 2 , 0 ≤ x ≤ L, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π




na variável y (que representaria um ângulo, em algum sistema de coordenadas) ou talvez um toro


{(x, y) ∈ 2 , 0 ≤ x ≤ 2π, 0 ≤ y ≤ 2π} com uma dependência periódica de perı́odo 2π em ambas as


variáveis. Os exemplos são os melhores mestres nessa discussão.


Assim, mesmo que uma equação diferencial tenha a forma (8.169) o método de separação de variáveis
será ineficaz se as condições de contorno e subsidiárias não forem compatı́veis com soluções particulares
na forma de um produto.
Um fato importante observado na prática (vide os exemplos tratados adiante) é que já a imposição
de algumas das condições de contorno ou subsidiárias fixa todos os valores possı́veis para a constante de
separação λ e, em muitos casos, esse conjunto de valores possı́veis é um conjunto contável: {λ n , n ∈ }. 

Para cada uma dessas constantes λn haverá possivelmente duas soluções independentes para a equação
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 485/1195

(8.170) e duas soluções independentes para a equação (8.171) (pois são equações de segunda ordem 35 ).
Assim, para cada n ∈ teremos associada uma constante de separação λn , duas soluções linearmente


(1) (2)
independentes, Xn e Xn , para a equação (8.170) (a solução geral sendo uma combinação linear
(1) (2)
de ambas) e duas soluções linearmente independentes, Yn e Yn , para a equação (8.171) (a solução
geral sendo uma combinação linear de ambas). A solução particular fornecida
 pelo Ansatz u(x,
 y) =
(1) (2) (1) (2)
X(x)Y (y) assume assim, para cada n, a forma αn Xn (x) + βn Xn (x) γn Yn (y) + δn Yn (y) , onde
αn , βn , γn e δn são constantes.
Como a equação (8.169) é linear e homogênea, e as condições de contorno são homogêneas, o
princı́pio de sobreposição se aplica e uma solução mais geral seria obtida somando-se as soluções obtidas
para cada n, ou seja,
X  
(1) (2) (1) (2)
αn Xn (x) + βn Xn (x) γn Yn (y) + δn Yn (y) . (8.173)
n∈ 

As constantes αn , βn , γn e δn devem ainda ser fixadas através das demais condições de contorno e
subsidiárias (que não aquelas que já foram usadas para fixar os λn ’s) e, após isso, é preciso também
demonstrar que a série (8.173) assim obtida converge.
Será, afinal, a expressão (8.173) a solução completa do problema, que resolve a equação diferencial
e satisfaz todas as condições de contorno e subsidiárias? Em muitos casos, a resposta é sim, o que
pode ser provado por teoremas que garantem a unicidade de soluções de certas equações diferenciais
que satisfaçam certas condições de contorno. Vide Seção 8.3.2, página 485 e Seção 8.B, página 512.
Como comentamos, e como ilustram os exemplos que se seguirão, o método de separação de variáveis
delineado acima é feliz em resolver vários problemas envolvendo equações diferenciais parciais de inte-
resse em Fı́sica. Mas, o estudante não deve adquirir a falsa impressão de que o método de separação
de variáveis é o único método de solução disponı́vel para equações diferenciais parciais. Muitos ou-
tros métodos são oferecidos na gigantesca literatura sobre o assunto (vide para tal [25, 26] ou mesmo
[135]), cada qual empregável em uma classe especı́fica de equações. Para nos limitarmos a um único
exemplo, citamos o chamado método das caraterı́sticas, que também permite a resolução de certas
equações diferenciais parciais em termos de equações diferenciais ordinárias. Boa parte do estudo de
equações diferenciais parciais não é voltado à procura de soluções para as equações, mas sim a análises
qualitativas de propriedades das soluções. Muitas vezes, advêm dessas análises informações úteis sobre
o comportamento do sistema de interesse que não são facilmente obtenı́veis diretamente das soluções,
mesmo caso estas sejam conhecidas (vide para tal [43], [34], [96] [25, 26]).

8.3.2 Uma Breve Discussão Sobre Unicidade de Soluções


Como comentamos acima, teoremas de unicidade de soluções são de importância crucial para jus-
tificar o uso de métodos como o de separação de variáveis para a procura de soluções de equações
diferenciais parciais. Nesta breve seção, exporemos o leitor a alguns desses teoremas e seus métodos
de demonstração. A intenção é pedagógica e por isso escolhemos dois tipos de equações simples mas
de interesse fı́sico, as equações de difusão e de onda com coeficientes constantes em uma dimensão
espacial. Generalizações serão apresentadas na Seção 8.B, página 512.
35
Nada impede, porém, que se tenha A ≡ 0 ou B ≡ 0, em cujo caso uma das equações (8.170) ou (8.171) será de
primeira ordem. Tal ocorre, por exemplo, na equação de difusão. Vide página 491.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 486/1195

• Unicidade de soluções para a equação de difusão em um intervalo finito

A proposição que segue apresenta condições que garantem unicidade para as soluções da equação
de difusão a coeficientes constantes definida em um intervalo finito da reta sob certas condições iniciais
e de contorno.
Proposição 8.2 Considere a equação diferencial
∂u ∂2u
− K 2 = F (x, t) , (8.174)
∂t ∂x
com K > 0 constante, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L] para algum
L > 0 e t ≥ 0. As condições iniciais são

u(x, 0) = u0 (x), (8.175)

onde u0 : [0, L] →  é uma função arbitrária. Considere os seguintes tipos de condições de contorno.

I. Condições de Dirichlet36 :
u(0, t) = f1 (t), u(L, t) = f2 (t) .

II. Condições de Neumann37 :


∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x

Acima fi são funções arbitrárias.


Então, caso exista, a solução de (8.174) sob as condições iniciais (8.175) é única tanto sob condições
de contorno do tipo de Dirichlet quanto sob condições de contorno do tipo de Neumann. 2

A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por exemplo
em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções f i . A
demonstração da Proposição 8.2 é apresentada na forma do exercı́cio dirigido que segue. Generalizações
encontram-se na Proposição 8.5, página 513, e a Proposição 8.6, página 517.

E. 8.26 Exercı́cio. Prova da Proposição 8.2. Para demonstrar a unicidade de solução da equação
diferencial (8.174) sob as condições acima procede-se da seguinte forma. Suponha que haja duas soluções u
e v da equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais.
Defina w(x, t) := u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e
v são em verdade iguais.

a. Mostre que w satisfaz a equação diferencial homogênea


∂w ∂2w
−K = 0. (8.176)
∂t ∂x2
36
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
37
Carl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 487/1195

b. Mostre que w satisfaz a condição inicial w(x, 0) = 0.

c. Mostre que w satisfaz as condições de contorno

w(0, t) = 0, w(L, t) = 0 , (8.177)

no caso de condições de Dirichlet ou


∂w ∂w
(0, t) = 0, (L, t) = 0 , (8.178)
∂x ∂x
no caso de condições de Neumann.

d. Defina Z L
E(t) = (w(x, t))2 dx .
0

Mostre que E(t) ≥ 0 para todo t. (Trivial).

e. Mostre que E(0) = 0. (Use as condições iniciais de w).

f. Mostre, diferenciando dentro da integral, usando integração por partes e usando a equação diferencial
(8.176), que
Z L  2  
0 ∂w ∂w ∂w
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) .
0 ∂x ∂x ∂x

g. Conclua que  2
Z L
0 ∂w
E (t) = −2K dx
0 ∂x
supondo as condições de contorno (8.177) ou (8.178) para w. Conclua que, sob essas condições,
E 0 (t) ≤ 0 para todo t.

h. Conclua de g, d e e que E(t) = 0 para todo t.

i. Conclua daı́ que w(x, t) é identicamente nula.

Uma das razões de expormos os passos acima de forma tão detalhada é pedagógica: esses passos são
seguidos, nem sempre com a mesma trivialidade, em outras demonstrações de teoremas de unicidade
de soluções de equações diferenciais parciais. Para teoremas de unicidade válidos em generalizações da
equação de difusão vide, por exemplo, a Proposição 8.5, página 513, e a Proposição 8.6, página 517.
Podemos generalizar um pouco a proposição acima, mas apenas para condições de Dirichlet. Isso é
o conteúdo da proposição que segue.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 488/1195

Proposição 8.3 Considere a equação diferencial

∂u ∂2u ∂u
−K 2 −α = F (x, t) , (8.179)
∂t ∂x ∂x
com K > 0, α ∈ , constantes, e F é uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]


para algum L > 0 e t ≥ 0. As condições iniciais são

u(x, 0) = u0 (x), (8.180)

onde u0 : [0, L] →  é uma função arbitrária. Então, para condições de Dirichlet:

u(0, t) = f1 (t), u(L, t) = f2 (t) ,

onde fi são funções arbitrárias, a solução de (8.179) é única, caso exista. 2

Prova. A prova segue os mesmos passos descritos no Exercı́cio E. 8.26, mas agora
Z L  2  
0 ∂w ∂w ∂w 
E (t) = −2K dx + 2K w(L, t) (L, t) − w(0, t) (0, t) + α w(L, t)2 − w(0, t)2 .
0 ∂x ∂x ∂x

Porém, os dois últimos termos são nulos, em função das condições de Dirichlet, e obtemos a mesma
expressão para E 0 (t) que no caso do Exercı́cio E. 8.26.

• Unicidade de soluções para a equação de ondas em um intervalo finito

Vamos agora considerar outra equação importante em Fı́sica, a equação de ondas. A proposição que
segue apresenta condições que garantem unicidade para as soluções da equação de ondas a coeficientes
constantes definida em um intervalo finito da reta sob certas condições iniciais e de contorno.
Proposição 8.4 Considere a equação diferencial

∂2u 2
2 ∂ u ∂u
2
− c 2
+γ = F (x, t) (8.181)
∂t ∂x ∂t
com c > 0, γ ≥ 0, constantes, sendo F uma função dada (em princı́pio arbitrária). Acima, x ∈ [0, L]
para algum L > 0 e t ≥ 0. As condições iniciais são
∂u
u(x, 0) = u0 (x), (x, 0) = v0 (x) , (8.182)
∂t
onde u0 , v0 : [0, L] →  são igualmente funções arbitrárias. Para as condições de contorno, conside-
ramos

I. Condições de Dirichlet:
u(0, t) = f1 (t), u(L, t) = f2 (t) .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 489/1195

II. Condições de Neumann:


∂u ∂u
(0, t) = f3 (t), (L, t) = f4 (t) .
∂x ∂x

Acima fi são funções arbitrárias.


Então, caso exista, a solução de (8.181) com as condições iniciais (8.182) é única tanto no caso de
condições de contorno do tipo de Dirichlet quando do tipo de Neumann. 2

A proposição acima garante unicidade da solução para qualquer função F (x, t) e quaisquer funções
fi , mas não garante a existência de soluções. Para garantir existência e exibir uma solução (por
exemplo em termos de séries de Fourier) é preciso ser mais restritivo quanto à função F e às funções
fi . A proposição acima pode ser bastante generalizada. Isso é apresentado na Proposição 8.7, página
517.

E. 8.27 Exercı́cio. Prova da Proposição 8.4. Para demonstrar a unicidade de solução da equação
diferencial sob as condições acima proceda da seguinte forma: suponha que haja duas soluções u e v da
equação acima, ambas satisfazendo as mesmas condições de contorno e as mesmas condições iniciais. Defina
w(x, t) = u(x, t) − v(x, t). Desejamos mostrar que w = 0, implicando que as duas soluções u e v são,
em verdade, iguais.

a. Mostre que w satisfaz a equação diferencial homogênea

∂2w 2
2 ∂ w ∂w
2
− c 2
+γ = 0.
∂t ∂x ∂t

b. Mostre que w satisfaz as condições iniciais


∂w
w(x, 0) = 0, (x, 0) = 0
∂t

c. Mostre que w satisfaz as condições de contorno

w(0, t) = 0, w(L, t) = 0 , (8.183)

no caso de condições de Dirichlet ou


∂w ∂w
(0, t) = 0, (L, t) = 0 (8.184)
∂x ∂x
no caso de condições de Neumann.

d. Defina Z " 2  2 #
L
∂w ∂w
E(t) = + c2 dx .
0 ∂t ∂x
Mostre que E(t) ≥ 0 para todo t. (Trivial).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 490/1195

e. Mostre que E(0) = 0. (Use as condições iniciais de w).


f. Mostre, diferenciando dentro da integral e usando integração por partes, que
Z L  
0 ∂w ∂ 2 w 2
2 ∂ w
E (t) = 2 −c dx .
0 ∂t ∂t2 ∂x2
Para a integração por partes é preciso usar as condições de contorno (8.183) ou (8.184) para w.
g. Usando a equação diferencial de w conclua que
Z L  2
0 ∂w
E (t) = −2γ dx .
0 ∂t
e, portanto, E 0 (t) ≤ 0 para todo t.
h. Conclua de g, d e e que E(t) = 0 para todo t.
i. Conclua daı́ que w(x, t) é uma constante, ou seja, não depende de x e t. Disso, conclua pela condição
inicial w(x, 0) = 0 que w é identicamente nula.

Sob a luz das Proposições 8.2, 8.3, 8.5 e 8.6 (páginas 486, 488, 513 e 517, respectivamente), o
estudante não deve ser levado a pensar que a unicidade seja uma propriedade comum a todas as
equações diferenciais parciais lineares com as condições iniciais e de contorno como as que tratamos.
Vejamos um contra-exemplo.

E. 8.28 Exercı́cio. Seja a equação diferencial linear e homogênea


∂u ∂u
(1 − 2x)t − x(1 − x) = 0,
∂t ∂x
para x ∈ [0, 1], t ≥ 0, com a condição inicial u(x, 0) = 0 e as condições de contorno u(0, t) = u(1, t) = 0.

a. Esse problema tem infinitas soluções. Mostre que todas as funções da forma v α (x, t) = [x(1 − x)t]α
com α > 0 satisfazem a equação diferencial, a condição inicial e as condições de contorno acima.
Observe que a função u(x, t) ≡ 0 também satisfaz a equação diferencial acima, assim como a condição
inicial e as condições de contorno.
b. Seja 0 < a < b < ∞ e h uma função contı́nua de [a, b] em . Mostre que 

Z b
wh (x, t) = h(α)[x(1 − x)t]α dα
a

também satisfaz a equação diferencial, a condição inicial e as condições de contorno acima.

6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 491/1195

8.3.3 As Equações de Helmholtz e de Laplace


Nesta seção apresentaremos alguns problemas envolvendo as equações diferenciais parciais de Laplace e
Helmholtz dos quais emergem, pelo método de separação de variáveis, algumas das equações diferenciais
ordinárias – e suas soluções – de que tratamos em capı́tulos anteriores.

• A equação de onda

A equação de onda
∂2u
(~x, t) − c2 ∆u(~x, t) = 0
∂t2
com c > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T 00 (t) ∆E(~x)
2
= .
c T (t) E(~x)
Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que
T 00 (t) + (cλ)2 T (t) = 0 , (8.185)

∆E(~x) + λ2 E(~x) = 0 . (8.186)

Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno. Tais constantes que
aparecem quando do método de separação de variáveis são denominadas constantes de separação.
A solução da equação temporal é bem simples:
T (t) = β1 + β2 t , caso λ = 0 ,
(8.187)
T (t) = α1 cos(λct) + α2 sen (λct) , caso λ 6= 0 ,
onde α1 , α2 , β1 e β2 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.

• A equação de difusão

A equação de difusão
∂u
(~x, t) − K∆u(~x, t) = 0
∂t
com K > 0, pode ser tratada pelo procedimento de separação de variáveis, através do qual procuramos
soluções independentes que sejam da forma de um produto u(~x, t) = T (t)E(~x). Por substituição na
equação de onda, somos rapidamente levados à seguinte equação:
1 T 0 (t) ∆E(~x)
= .
K T (t) E(~x)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 492/1195

Como o lado esquerdo é uma função somente de t e o lado direito uma função somente das coordenadas
espaciais ~x, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, a qual
denotaremos por −λ2 . Assim, concluı́mos que

T 0 (t) + λ2 K T (t) = 0 ,

∆E(~x) + λ2 E(~x) = 0 .

Obtemos por esse procedimento duas equações, uma envolvendo apenas a função T , outra a função
E e uma incógnita extra, a constante λ, a qual deverá ser determinada pela fixação de certas condições
adicionais sobre o problema, por exemplo, através de condições de contorno.
A solução da equação temporal é bem simples:

T (t) = β1 , caso λ = 0 ,
(8.188)
2 Kt
T (t) = α1 e−λ , caso λ 6= 0 ,

onde α1 e β1 são constantes arbitrárias a serem tipicamente fixadas por condições iniciais.

• As equações de Helmholtz e de Laplace

Como se observa, tanto no caso da equação de onda quanto no caso da equação de difusão, a função
E(~x), que contem a dependência espacial da função u(~x, t), satisfaz a equação diferencial parcial

∆E(~x) + λ2 E(~x) = 0 ,

com λ constante. No caso em que λ 6= 0 essa equação diferencial parcial é denominada equação de
Helmholtz38 . No caso λ = 0 temos a chamada equação de Laplace39

∆E(~x) = 0 .

Essa última equação aparece em vários outros contextos, por exemplo na Eletrostática.
Trataremos dessas duas equações em duas e três dimensões em coordenadas polares e esféricas,
respectivamente.

• A Equação de Laplace em duas dimensões em coordenadas polares

O operador Laplaciano em duas dimensões em coordenadas polares assume a forma


 
1 ∂ ∂u 1 ∂2u
∆u = ρ + 2 2 (8.189)
ρ ∂ρ ∂ρ ρ ∂ϕ
e a equação de Laplace fica  
1 ∂ ∂E 1 ∂2E
ρ + = 0.
ρ ∂ρ ∂ρ ρ2 ∂ϕ2
38
Hermann Ludwig Ferdinand von Helmholtz (1821-1894).
39
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 493/1195

E agora é tomada como uma função de ρ e ϕ.


O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Laplace, somos
levados a
ρ (ρΞ0 (ρ))0 Φ00 (ϕ)
= − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ00 (ρ) + ρΞ0 (ρ) − ν 2 Ξ(ρ) = 0 ,

Φ00 (ϕ) + ν 2 Φ(ϕ) = 0 .

Reconhecemos que a equação para Ξ é uma equação de Euler, cuja solução geral é α ν ρν + βν ρ−ν ,
caso ν 6= 0, ou α0 ln(ρ) + β0 , caso ν = 0. Aqui, α’s e β’s são constantes arbitrárias.
Concluı́mos que a equação de Laplace em duas dimensões em coordenadas polares possui soluções
independentes da forma
  
E(ρ, ϕ) = α0 ln(ρ) + β0 δ0 ϕ + γ0 , caso ν = 0 ,
   (8.190)
E(ρ, ϕ) = αν ρν + βν ρ−ν δν cos(νϕ) + γν sen (νϕ) , caso ν 6= 0 .

Acima α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem
impostas à solução. Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de
perı́odo 2π, então devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Laplace em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
X∞   
u(ρ, ϕ) = γ0 ln(ρ) + αm ρm + βm ρ−m δm cos(mϕ) + γm sen (mϕ) ,
m=−∞

ou, em forma complexa,



X  
u(ρ, ϕ) = γ0 ln(ρ) + am ρm + bm ρ−m eimϕ ,
m=−∞

onde γ0 , am e bm são constantes a serem determinadas por condições adicionais a serem impostas à
solução.

• A Equação de Helmholtz em duas dimensões em coordenadas polares

Devido à forma do operador Laplaciano em duas dimensões em coordenadas polares dada em (8.189),
a equação de Helmholtz assume a forma
 
1 ∂ ∂E 1 ∂2E
ρ + 2 2
+ λ2 E = 0 .
ρ ∂ρ ∂ρ ρ ∂ϕ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 494/1195

E agora é tomada como uma função de ρ e ϕ.


O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(ρ, ϕ) = Ξ(ρ)Φ(ϕ). Inserindo isso na equação de Helmholtz, somos
levados a
ρ (ρΞ0 (ρ))0 Φ00 (ϕ)
+ λ2 ρ2 = − .
Ξ(ρ) Φ(ϕ)
Como o lado esquerdo é uma função somente de ρ e o lado direito uma função somente de ϕ, a igualdade
acima só é possı́vel se ambos os lados forem iguais a uma constante de separação, a qual denotaremos
por ν 2 . Assim, concluı́mos que
ρ2 Ξ00 (ρ) + ρΞ0 (ρ) + (λ2 ρ2 − ν 2 )Ξ(ρ) = 0 ,

Φ00 (ϕ) + ν 2 Φ(ϕ) = 0 .

Pela mudança de variável40 z = λρ e definindo y(z) = y(λρ) = Ξ(ρ), a primeira equação acima
transforma-se em
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0 ,
que podemos reconhecer como sendo a equação de Bessel de ordem ν.
Vemos assim que o método de separação de variáveis para a equação de Helmholtz em duas di-
mensões em coordenadas polares conduz a soluções independentes da forma E(ρ, ϕ) = y(λρ)Φ(ϕ)
onde as funções y e Φ satisfazem as equações ordinárias
z 2 y 00 (z) + zy 0 (z) + (z 2 − ν 2 )y(z) = 0 ,

Φ00 (ϕ) + ν 2 Φ(ϕ) = 0 .


sendo z = λρ.
Concluı́mos que a equação de Helmholtz em duas dimensões em coordenadas polares possui soluções
independentes da forma
  
E(ρ, ϕ) = α0 J0 (λρ) + β0 N0 (λρ) δ0 ϕ + γ0 , caso ν = 0 ,
   (8.191)
E(ρ, ϕ) = αν Jν (λρ) + βν Nν (λρ) δν cos(νϕ) + γν sen (νϕ) , caso ν 6= 0 .
Acima, Jν são as funções de Bessel de ordem ν e Nν são as funções de Neumann de ordem ν. Fora isso,
α’s, β’s, γ’s e δ’s são constantes arbitrárias a serem fixadas por condições adicionais a serem impostas
à solução.
Por exemplo, se desejarmos que as soluções sejam funções periódicas em ϕ de perı́odo 2π, então
devemos impor que δ0 = 0 e que ν seja um inteiro.
A solução geral da equação de Helmholtz em duas dimensões que representa funções periódicas de
perı́odo 2π em ϕ é, portanto,
X ∞   
u(ρ, ϕ) = αm Jm (λρ) + βm Nm (λρ) δm cos(mϕ) + γm sen (mϕ) ,
m=−∞

40
Aqui supomos λ 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 495/1195

ou, em forma complexa,



X  
u(ρ, ϕ) = am Jm (λρ) + bm Nm (λρ) eimϕ ,
m=−∞

onde am e bm são constantes a serem determinadas por condições adicionais a serem impostas à solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em duas dimensões, assim como suas soluções.

• A Equação de Laplace em três dimensões em coordenadas esféricas

O operador Laplaciano em três dimensões em coordenadas esféricas assume a forma


     
1 ∂ 2 ∂u 1 ∂ ∂u 1 ∂2u
∆u = 2 r + ( sen θ) + . (8.192)
r ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2

Assim, a equação de Laplace em três dimensões em coordenadas esféricas fica


     
1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
r + ( sen θ) + = 0,
r 2 ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2

onde E agora é uma função de r, θ e ϕ.


O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(r, θ, ϕ) = R(r)Y (θ, ϕ). Inserindo isso na equação de Laplace,
somos levados a
0    
(r 2 R0 (r)) 1 1 ∂ ∂Y 1 ∂2Y
= − ( sen θ) (θ, ϕ) + (θ, ϕ) .
R(r) Y (θ, ϕ) sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2

Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que

r 2 R00 (r) + 2rR0 (r) − σ(σ + 1)R(r) = 0 . (8.193)


 
1 ∂ ∂Y 1 ∂2Y
( sen θ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (8.194)
sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2

Reconhecemos que a equação para R é uma equação de Euler, cujas soluções são

R(r) = α1 r σ + α2 r −(1+σ) , caso σ 6= − 12


. (8.195)
1
R(r) = r − 2 (α1 ln(r) + α2 ), caso σ = − 12
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 496/1195

Passemos agora à equação para Y (θ, ϕ), a qual propomos novamente tratar pelo método de se-
paração de variáveis. Tomemos, então, Y na forma de um produto Y (θ, ϕ) = Θ(θ)Φ(ϕ). Somos
conduzidos a  
sen θ d dΘ Φ00 (ϕ)
( sen θ) (θ) + σ(σ + 1)( sen θ)2 = − .
Θ(θ) dθ dθ Φ(ϕ)
Mais uma vez, a igualdade acima só é possı́vel se ambos os lados forem iguais a uma constante, que
escrevemos na forma µ2 . Ficamos com
 
1 d dΘ µ2
sen (θ) (θ) + σ(σ + 1)Θ(θ) − Θ(θ) = 0 , (8.196)
sen (θ) dθ dθ ( sen (θ))2

Φ00 (ϕ) + µ2 Φ(ϕ) = 0 . (8.197)

A equação para Φ tem por soluções



 δ0 ϕ + γ 0 , caso µ = 0 ,
Φ(ϕ) = (8.198)

δµ cos(µϕ) + γµ sen (µϕ) , caso µ 6= 0 .

Claramente, se desejarmos que Φ(ϕ) seja contı́nua e periódica de perı́odo 2π devemos impor que δ 0 = 0 e
que µ seja um inteiro, ou seja, µ = m ∈ em cujo caso a solução fica Φ(ϕ) = δm cos(mϕ)+γm sen (mϕ)
para todo µ = m ∈ (inclusive m = 0). Essa solução pode também ser escrita de forma complexa
como Φ(ϕ) = am eimϕ + bm e−imϕ para outras constantes am e bm .
A experiência ensina que para melhor tratarmos a equação (8.196) convem proceder a mudança de
variável
d 1 d
ζ = cos θ, com = − .
dζ sen (θ) dθ
Definindo também y(ζ) = Θ(θ), ou seja, Θ(θ) = y(cos θ), a equação diferencial para Θ transforma-se
em  
d 2 dy µ2
(1 − ζ ) (ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 ,
dζ dζ 1 − ζ2
ou, equivalentemente,
µ2
(1 − ζ 2 )y 00 (ζ) − 2ζy 0(ζ) + σ(σ + 1) y(ζ) − y(ζ) = 0 .
1 − ζ2
Reconhecemos que se trata da equação de Legendre associada. Por (8.198) vemos que para o
caso em que Φ é contı́nua e periódica de perı́odo 2π devemos necessariamente ter µ = m ∈ . Como
discutimos quando tratamos da equação de Legendre associada, se desejarmos também que y(ζ) seja
finita nos extremos ±1 (ou seja, que Θ(θ) seja finita nos extremos θ = 0 e θ = π), devemos ter também
que σ = l ∈ , sendo que l e m relacionam-se por −l ≤ m ≤ l. As soluções para y(ζ) nesse caso são


os polinômios de Legendre associados y(ζ) = Plm (ζ) ou, em termos de θ, Θ(θ) = Plm (cos(θ)).
Concluı́mos, assim, que se desejarmos soluções que sejam periódicas de perı́odo 2π em ϕ e finitas
nos extremos θ = 0 e θ = π, temos
 
Y (θ, ϕ) = Plm (cos(θ)) δm cos(mϕ) + γm sen (mϕ)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 497/1195

ou, em forma complexa,


 
−imϕ
Y (θ, ϕ) = Plm (cos(θ)) am e imϕ
+ bm e .

Constatamos que o lado direito é uma combinação linear dos harmônicos esféricos Y lm (θ, ϕ) e Yl−m (θ, ϕ),
definidos em (8.65).
Assim, retornando à E(r, θ, ϕ), concluı́mos que sob as condições mencionadas a equação de Laplace
tem soluções independentes da forma
 
β
E(r, θ, ϕ) = α r + l+1 Ylm (θ, ϕ) ,
l
r
com l ∈ , m ∈
 e −l ≤ m ≤ l, α e β sendo constantes. Acima, adotamos para a parte radial a
primeira solução de (8.195), pois σ = l ∈ e, portanto, σ 6= − 21 .


A solução geral da equação de Laplace em três dimensões que representa funções periódicas de
perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π é, portanto,
∞ X
X l  
βl, m
l
u(r, θ, ϕ) = αl, m r + l+1 Ylm (θ, ϕ) .
l=0 m=−l
r

Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.

• Expansão de multipolos

Se soubermos a priori que a solução u(r, θ, ϕ) converge a 0 para r → ∞, podemos supor que as
constantes αl, m , acima, se anulam. Nesse caso a solução reduz-se a

X∞ X l
βl, m m
u(r, θ, ϕ) = Y (θ, ϕ) .
l+1 l
l=0 m=−l
r

Essa situação ocorre, por exemplo, na Eletrostática quando lidamos com o problema de determinar o
potencial elétrico produzido por uma distribuição de cargas elétricas estáticas limitadas a uma região
finita. Nesse caso a expansão acima é denominada expansão de multipolos. O mesmo tipo de situação
ocorre se desejarmos determinar o potencial gravitacional produzido por uma distribuição de matéria
limitada a uma região finita (por exemplo, um planeta).
Se soubermos a priori, por exemplo, por considerações de simetria, que a função u(r, θ, ϕ) não
depende
q da variável ϕ, então os termos da soma com m 6= 0 devem ser todos nulos. Como Y l0 (θ, ϕ) =
2l+1

Pl (cos(θ)), onde Pl são os polinômios de Legendre, obtemos apenas
∞ 
X 
l βl
u(r, θ) = αl r + l+1 Pl (cos(θ))
r
l=0

para certas constantes αl e βl . Novamente, se também soubermos que a solução u(r, θ) converge a 0
para r → ∞, podemos supor que as constantes αl , acima, anulam-se, e obtemos para a expansão de
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 498/1195

multipolos
X∞
βl
u(r, θ) = Pl (cos(θ)) . (8.199)
l=0
r l+1
Historicamente, o problema que conduziu Legendre aos polinômios de Legendre foi o de determinar
o potencial gravitacional de uma distribuição de matéria limitada a uma região finita e simétrica em
relação ao eixo z. Isso conduziu-o à função geratriz dos polinômios de Legendre (expressão (8.35),
página 440), da qual ele derivou a expressão para os Pl (cos(θ)) como polinômios em cos(θ) e, daı́, à
última expressão.

• A Equação de Helmholtz em três dimensões em coordenadas esféricas

Devido à forma assumida pelo operador Laplaciano, expressa em (8.192), a equação de Helmholtz
em três dimensões em coordenadas esféricas assume a forma
     
1 ∂ 2 ∂E 1 ∂ ∂E 1 ∂2E
r + ( sen θ) + + λ2 E = 0 ,
r 2 ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
onde E agora é uma função de r, θ e ϕ.
O método de separação de variáveis propõe procurarmos soluções independentes dessa equação que
sejam da forma de um produto: E(r, θ, ϕ) = R(r)Y (θ, ϕ). Inserindo isso na equação de Helmholtz,
somos levados a
0    
(r 2 R0 (r)) 2 2 1 1 ∂ ∂Y 1 ∂2Y
+λ r = − ( sen θ) (θ, ϕ) + (θ, ϕ) .
R(r) Y (θ, ϕ) sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
Mais uma vez constatamos que, pelo fato de o lado esquerdo ser função apenas de r enquanto que
o lado direito é função de θ e ϕ, a igualdade acima implica que ambos os lados devem ser iguais a
uma constante. Por conveniência futura, escrevemos essa constante na forma σ(σ + 1) (note que todo
número complexo c pode ser escrito dessa forma, pois a equação σ 2 + σ − c = 0 sempre tem pelo menos
uma solução). Concluı́mos que
 
r 2 R00 (r) + 2rR0 (r) + λ2 r 2 − σ(σ + 1) R(r) = 0 , (8.200)
 
1 ∂ ∂Y 1 ∂2Y
( sen θ) (θ, ϕ) + (θ, ϕ) + σ(σ + 1)Y (θ, ϕ) = 0 . (8.201)
sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2

Reconhecemos que a equação para Y (θ, ϕ) é precisamente a mesma que obtivemos no caso da
equação de Laplace em três dimensões em coordenadas esféricas. Assim, se desejarmos soluções para
Y (θ, ϕ) que sejam periódicas de perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π, teremos que
fixar σ = l ∈ e Y (θ, ϕ) será uma combinação linear de Ylm (θ, ϕ) e Yl−m (θ, ϕ), onde m ∈ com


−l ≤ m ≤ l.
Concentremo-nos agora na equação radial. Pela mudança de variável 41 z = λr e definindo y(z) =
y(λr) = R(r), a equação (8.200) acima transforma-se em
z 2 y 00 (z) + 2zy 0 (z) + (z 2 − σ(σ + 1))y(z) = 0 ,
41
Aqui supomos λ 6= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 499/1195

que podemos reconhecer como sendo a equação de Bessel esférica de ordem σ. Como mencionamos,
estamos interessados primordialmente no caso em que σ = l ∈ . Obtemos, nesse caso


R(r) = a jl (λr) + b nl (λr),


onde a e b são constantes e jl e nl são as funções de Bessel esféricas de ordem l e de Neumann esféricas
de ordem l, respectivamente.
Retornando a E(r, θ, ϕ), concluı́mos que, sob as hipóteses delineadas acima, a equação de
Helmholtz em três dimensões possui soluções independentes da forma
 
E(r, θ, ϕ) = α jl (λr) + β nl (λr) Ylm (θ, ϕ) ,

com l ∈  ,m∈ e −l ≤ m ≤ l, α e β sendo constantes.


A solução geral da equação de Helmholtz em três dimensões que representa funções periódicas de
perı́odo 2π em ϕ e finitas nos extremos θ = 0 e θ = π é, portanto,
∞ X
X l  
u(r, θ, ϕ) = αl, m jl (λr) + βl, m nl (λr) Ylm (θ, ϕ) .
l=0 m=−l

Aqui, αl, m e βl, m são constantes a serem determinadas por condições adicionais a serem impostas à
solução.
Recomendamos ao leitor o exercı́cio instrutivo de comparar as equações radiais obtidas acima no
caso de Laplace e de Helmholtz em três dimensões, assim como suas soluções.

8.3.4 O Problema da Corda Pendurada


Se considerarmos o problema de determinar o movimento transversal, no regime de pequenas oscilações,
de uma corda de comprimento L, de densidade linear de massa ρ(x), com 0 ≤ x ≤ L, submetida a uma
tensão T (x), chegaremos à equação diferencial
 
∂2u ∂ ∂u
ρ(x) 2 − T (x) = 0,
∂t ∂x ∂x
onde u(x, t) representa o deslocamento transversal, no instante de tempo t, do ponto x da corda. A
expressão acima é conseqüência, essencialmente, da segunda lei de Newton e sua dedução pode ser
acompanhada, por exemplo, em [31]. Nosso propósito é aplicar a equação acima para determinar o
movimento de uma corda, ou barbante, homogêneo (ou seja, de densidade constante) e de comprimento
L que esteja pendurada por uma das suas extremidades em um campo gravitacional constante (por
exemplo, o da superfı́cie da Terra), a outra extremidade sendo mantida livre. Cada ponto da corda
estará sujeito a uma tensão igual ao peso do trecho de corda abaixo de si.
Para fixar idéias, vamos denotar por z a coordenada vertical e supor que a corda, quando parada,
localize-se no intervalo 0 ≤ z ≤ L, estando presa no ponto z = L, apenas. A função u(z, t) representará
o deslocamento horizontal da corda, digamos, no plano xz 42 , do ponto z no instante de tempo t. O
42
Movimentos no plano yz podem ser tratados também mas, por simplicidade, consideramos apenas esse caso mais
simples.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 500/1195

ponto da corda situada à altura z sustenta o peso do trecho de corda situado abaixo de si, ou seja,
entre 0 e z. Como a corda é homogênea, esse peso é ρgz, onde g é a aceleração da gravidade. Assim,
T (z) = ρgz e o problema
 que queremos resolver é o de determinar a solução da equação diferencial
∂2u ∂ ∂u
ρ ∂t2 − ∂z ρgz ∂z = 0, ou seja,  
∂2u ∂ ∂u
−g z = 0, (8.202)
∂t2 ∂z ∂z
para 0 ≤ z ≤ L, submetida à condição de contorno u(L, t) = 0 para todo t e a certas condições iniciais
u(z, 0) = u0 (z) e ∂u
∂t
(z, 0) = v0 (z) que fixam posição e velocidade transversal de cada ponto da corda
em t = 0.
Comecemos seguindo o método de separação de variáveis e procuremos soluções particulares na
forma de um produto u(z, t) = T (t)U (z). Inserindo isso em (8.202), obtemos facilmente

1 T 00 (t) (zU 0 (z))0


= .
g T (t) U (z)

Essa igualdade só é possı́vel se ambos os lados forem iguais a uma constante de separação, que deno-
tamos por −λ2 . Chegamos com isso a

T 00 (t) + λ2 gT (t) = 0 , (8.203)

zU 00 (z) + U 0 (z) + λ2 U (z) = 0 . (8.204)

As soluções da primeira equação, naturalmente, são

T (t) = a0 t + b0 , caso λ = 0 ,
√ √
T (t) = a1 cos(λ gt) + b1 sen (λ gt) , caso λ 6= 0 .

Para λ = 0 a equação (8.204) reduz-se a zU 00 (z) + U 0 (z) = 0, cuja solução é U (z) = c1 ln(z) + c2 .
Como desejamos que U (0) seja finita (o deslocamento da corda não pode divergir em nenhum ponto),
devemos impor c1 = 0 e, portanto, U (z) = c2 . Porém, como u(L, t) = 0 para todo t, devemos impor
U (L) = 0. Assim, c2 = 0 também e obtemos apenas a solução trivial U (z) = 0, o que corresponde a
uma corda eternamente parada. O caso interessante, portanto, está em λ 6= 0.
A equação (8.204) para λ 6= 0 pode ser transformada em uma equação conhecida através da mudança
de variáveis √ √
ζ = 4λ2 z , U (z) = y(ζ) = y ( 4λ2 z) ,
com a qual obtemos
ζ 2 y 00 (ζ) + ζy 0(ζ) + ζ 2 y(ζ) = 0 .

E. 8.29 Exercı́cio. Mostre isso! 6

Essa equação, como se constata, é a equação de Bessel de ordem zero: ν = 0. Assim, suas soluções
são
y(ζ) = β1 J0 (ζ) + β2 N0 (ζ) ,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 501/1195

J0 sendo a função de Bessel de ordem 0 e N0 sendo a função de Neumann de ordem 0. Isso significa,
então, que √ √
U (z) = β1 J0 (2λ z) + β2 N0 (2λ z) .

A solução acima tem por particularidade que se β2 6= 0 o termo N0 (2λ z) diverge em z = 0. Esse
comportamento não é aceitável, obviamente, de modo que devemos impor43 β2 = 0.

Chegamos dessa forma à solução U (z) = J0 (2λ z) (adotando aqui β1 = 1), para
√ a qual devemos
impor a condição de contorno u(L, t) = 0, ou seja, U (L) = 0. Isso implica que 2λ L deve ser um dos
zeros αk0 , k ∈ , k ≥ 1, da função de Bessel J0 em + . Assim, concluı́mos que
 

αk0
λ = √ ,
2 L
e dessa forma, para 0 ≤ z ≤ L,
 r 
z
Uk (z) = J0 αk0 , k = 1, 2, 3, 4, . . . ,
L
representam soluções de (8.204) que satisfazem as condições de contorno requeridas. Tem-se, então,
que
  0r   0 r   r 
αk g αk g z
uk (z, t) = ak cos t + bk sen t J0 αk0 , k = 1, 2, 3, 4, . . . ,
2 L 2 L L
são soluções particulares da equação de onda (8.202) que satisfazem as condições
 0p de contorno
 requeridas.
αk g p 
Acima, ak e bk são constantes a serem determinadas. Cada função cos 2 L t + δ0 J0 αk0 Lz ,
k = 1, 2, 3, 4, . . ., representa um modo de vibração da corda pendurada.
A solução geral da equação de onda (8.202) que satisfaz as condições de contorno requeridas é dada
por
∞   0 r   0 r   r 
X αk g αk g z
u(z, t) = ak cos t + bk sen t J0 αk0 , (8.205)
k=1
2 L 2 L L

∞  r  0r  r  0 r   r 
∂u X αk0 g αk g αk0 g αk g z
(z, t) = −ak sen t + bk cos t J0 αk0 .
∂t 2 L 2 L 2 L 2 L L
k=1

∂u
Assim, a imposição das condições iniciais u(z, 0) = u0 (z) e ∂t
(z, 0) = v0 (z), que fixam posição e
velocidade da corda em t = 0, conduz a
X∞  r 
z
u0 (z) = ak J0 αk0 , (8.206)
k=1
L
r ∞  r 
1 gX z
v0 (z) = bk αk J0 αk0
0
. (8.207)
2 L k=1 L
43
Podemos interpretar a condição de finitude da solução em z = 0 como uma outra condição de contorno a ser imposta,
juntamente à condição u(L, t) = 0, para o outro extremo da corda.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 502/1195

Para determinarmos as constantes ak em termos de u0 e as constantes bk em termos de v0 faremos


uso das relações de ortogonalidade (8.144), página 475, para as funções de Bessel J 0 :
Z 1 2
  (J1 (αk0 ))
J0 αk0 x J0 αl0 x x dx = δk, l . (8.208)
0 2
p 
Multiplicando ambos os lados de (8.206)-(8.207) por J0 αl0 Lz e integrando-se em z entre 0 e L,
obtem-se
Z L  r  ∞
X Z L  r   r 
0 z z z
J0 α l u0 (z) dz = ak J0 αl0 J0 αk0 dz ,
0 L 0 L L
k=1

Z  r  r ∞ Z L  r   r 
L
z 1 g X z z
J0 αl0 v0 (z) dz = bk αk0 J0 αl0 J0 αk0 dz .
0 L 2 L k=1 0 L L

Agora,
Z L  r   r  √z Z 1
z z x= L
  (8.208) 2
J0 αl0 J0 αk0 dz = 2L J0 αk0 x J0 αl0 x x dx = L J1 (αk0 ) δk, l .
0 L L 0

Assim, concluı́mos que


Z L  r 
1 z
al = 2 J0 αl0 u0 (z) dz , (8.209)
L (J1 (αk0 )) 0 L
Z L  r 
2 z
bl = √ 2 J0 αl0 v0 (z) dz , (8.210)
αl0 gL (J1 (αl0 )) 0 L

para todos l ∈  , l ≥ 1.
A solução obtida acima satisfaz as condições de contorno e as condições iniciais propostas. A
Proposição 8.7, página 517, garante que a solução assim obtida é a única solução do problema, o que
a posteriori, justifica todo o nosso proceder. Note o leitor que as condições de contorno do problema
tratado acima correspondem às condições de contorno do tipo IV da Proposição 8.7, pois a corda está
fixa em z = L e a tensão anula-se em z = 0. Com isso, o problema de determinar o movimento da corda
pendurada a partir de condições iniciais como acima está completamente resolvido. Esse problema foi
um dos primeiros nos quais surgiram funções de Bessel como solução. Ele foi tratado pela primeira vez
em 1732 por D. Bernoulli4445 .

• As funções de Green para o problema

44
Daniel Bernoulli (1700-1782).
45
Em verdade, de acordo com os comentários históricos de [60], D. Bernoulli não incluiu a dependência temporal na sua
solução nem aplicou o princı́pio de sobreposição para somar os vários modos de vibração. Como comentamos à página
253, ainda que conhecido anteriormente, o princı́pio de sobreposição para a resolução de equações diferenciais lineares
homogêneas só se tornou de uso corrente sob a influência de Helmholtz, no séc. XIX.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 503/1195

Usando (8.209)-(8.210) podemos reescrever (8.205) como


Z L Z L
0 0 0
u(z, t) = G(z, t, z )u0 (z ) dz + H(z, t, z 0 )v0 (z 0 ) dz 0 , (8.211)
0 0

onde
∞  r  r !  0r 
X 1 z z0 αk g
G(z, t, z 0 ) := 2 J0 0
αk J0 0
αk cos t ,
L (J1 (αk0 )) L L 2 L
k=1

∞  r  r !  0r 
X 2 z z 0 αk g
H(z, t, z 0 ) := √ 2 J0 αk0 J0 αk0 sen t ,
αk0 gL (J1 (αk0 )) L L 2 L
k=1

são denominadas funções de Green46 do problema em questão. Note-se também que


∂H
G(z, t, z 0 ) = (z, t, z 0 ) .
∂t
A importância de (8.211) está em expressar a solução diretamente em termos das condições iniciais u 0
e v0 . As funções G e H contêm em si a informação de como os valores das condições iniciais no ponto
z 0 influenciam a solução no ponto z no instante de tempo t.

8.3.5 O Problema da Membrana Circular


Com o que obtivemos acima sobre a equação de Helmholtz em duas dimensões podemos abordar o
problema de determinar o movimento vibratório, a partir de uma condição inicial, de um tambor ou
membrana de raio R cujas bordas são fixas. Matematicamente, isso consiste em determinar as soluções
da equação de onda dentro de um disco de raio R > 0 no plano bidimensional, ou seja, a equação
∂2u
2
(~x, t) − c2 ∆u(~x, t) = 0 , (8.212)
∂t
com c > 0, sendo ~x restrito à região k~xk ≤ R, com condições de contorno u(~x, t) = 0 para todo t e
para todo ~x com k~xk = R e com certas condições iniciais u(~x, 0) = u0 (~x) e ∂u
∂t
(~x, 0) = v0 (~x) para
certas funções u0 (~x) e v0 (~x) convenientes.
Pelo que apresentamos acima, soluções particulares da equação de Helmholtz correspondente em
coordenadas polares são (por simplicidade escolhemos a solução complexa) da forma
 
am Jm (λρ) + bm Nm (λρ) eimϕ ,

onde am e bm são constantes47 . Como esperamos que a solução não apresente divergências em ρ = 0,
devemos ter bm = 0. A condição de contorno que impõe que a solução deve anular-se em ρ = R conduz
a Jm (λR) = 0, ou seja, λ = αkm /R, onde αkm é o k-ésimo zero da função de Bessel Jm (x) para x > 0.
46
George Green (1793-1841).
47
Caso λ = 0, a única solução da equação de Laplace que é não-singular em ρ = 0 e anula-se em ρ = R é a solução
identicamente nula. Vide solução da equação de Laplace em duas dimensões dada acima.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 504/1195

Isso fixa os valores da constante de separação λ. Para cada k a solução da equação temporal (8.185)
fica  m   m 
αk c αk c
T (t) = α1 cos t + α2 sen t .
R R

Assim, uma solução particular da equação de onda satisfazendo as condições de contorno é


  m   m   m 
αk ct αk ct αk ρ
ak, m cos + bk, m sen Jm eimϕ ,
R R R

ak, m e bk, m sendo constantes. Cada uma dessas funções, para k ∈  em∈ , representa um modo de
vibração da membrana circular de raio R.
Pelo princı́pio de sobreposição (ou seja, pela linearidade e homogeneidade da equação (8.212) e das
condições de contorno consideradas), a solução geral u da equação de onda satisfazendo as condições
de contorno e sua derivada temporal ∂u ∂t
são dadas por

X ∞
X       
αkm ct αkm ct αkm ρ
u(ρ, ϕ, t) = ak, m cos + bk, m sen Jm eimϕ , (8.213)
k=1 m=−∞
R R R

X∞ ∞
X   m   m   m 
∂u ak, m αkm c αk ct bk, m αkm c αk ct αk ρ
(ρ, ϕ, t) = − sen + cos Jm eimϕ .
∂t k=1 m=−∞
R R R R R

As constantes ak, m e bk, m devem ser determinadas pelas condições iniciais. É aqui que entram as
relações de ortogonalidade das funções de Bessel e das funções eimϕ .
As condições iniciais impoem (tomando t = 0 nas duas equações acima) que

X ∞
X  0 
αkm0 ρ 0
u0 (ρ, ϕ) = a k 0 , m 0 Jm 0 eim ϕ ,
k 0 =1 m0 =−∞
R

X ∞ X ∞ 0  m0 
bk0 , m0 αkm0 c αk 0 ρ 0
v0 (ρ, ϕ) = Jm 0 eim ϕ .
k 0 =1 m0 =−∞
R R

Multiplicando ambos os lados de ambas as expressões


R π i(m−m0por e−imϕ e tomando-se a integral em ϕ no

intervalo −π ≤ ϕ ≤ π, obtemos com o uso de −π e dϕ = 2πδm, m0 ,
Z π ∞
X  
−imϕ αkm0 ρ
u0 (ρ, ϕ)e dϕ = 2π a k 0 , m Jm ,
−π R
k 0 =1

Z π X ∞  m 
−imϕ bk0 , m αkm0 c αk 0 ρ
v0 (ρ, ϕ)e dϕ = 2π Jm .
−π k 0 =1
R R
 
αkm ρ ρ
Multiplicando ambos os lados de ambas as expressões por Jm e integrando-se as expressões
R R
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 505/1195

resultantes para ρ entre 0 e R, obtemos


Z RZ π  m  ∞
X Z R  m   m 
−imϕ αk ρ ρ αk ρ αk 0 ρ ρ
u0 (ρ, ϕ)e Jm dρdϕ = 2π ak 0 , m Jm Jm dρ ,
0 −π R R 0 0 R R R
k =1

Z R Z π   X bk0 , m αm0 c ∞ Z R    
−imϕ αkm ρ ρ k αkm ρ αkm0 ρ ρ
v0 (ρ, ϕ)e Jm dρdϕ = 2π Jm Jm dρ .
0 −π R R 0
R 0 R R R
k =1

Temos, porém, com a óbvia mudança de variáveis x = Rρ ,


Z R  m   m  Z 1
αk ρ αk 0 ρ ρ (8.144) (Jm+1 (αkm ))2
Jm Jm dρ = R Jm (αkm x) Jm (αkm0 x) xdx = δk, k0 R
0 R R R 0 2
e, portanto,
Z R Z π  
1 −imϕ αkm ρ
ak, m = u0 (ρ, ϕ)e Jm ρdρdϕ , (8.214)
π (Jm+1 (αkm ))2 R2 0 −π R
Z R Z π  
1 −imϕ αkm ρ
bk, m = v0 (ρ, ϕ)e Jm ρdρdϕ . (8.215)
παkm c (Jm+1 (αkm ))2 R 0 −π R
Essas expressões determinam completamente os coeficientes ak, m e bk, m para todos k e m em temos
das condições iniciais. A solução assim obtida satisfaz, então, as condições de contorno e iniciais. A
Proposição 8.7, página 517, garante que a solução assim obtida é a única solução do problema proposto
(as condições de contorno que tratamos são do tipo de Dirichlet) o que, a posteriori, justifica todo o
nosso proceder.

• As funções de Green para o problema

Assim como no problema da corda pendurada, podemos expressar a solução diretamente em termos
das condições iniciais com o uso das chamadas funções de Green. Usando (8.214)-(8.215), podemos
reescrever (8.213) como
Z RZ π Z RZ π
0 0 0 0 0 0 0
u(ρ, ϕ, t) = G(ρ, ϕ, t, ρ , ϕ ) u0 (ρ , ϕ ) ρ dρ dϕ + H(ρ, ϕ, t, ρ0 , ϕ0 ) v0 (ρ0 , ϕ0 ) ρ0 dρ0 dϕ0 ,
0 −π 0 −π
(8.216)
onde

X ∞
X      
0 0 1 αkm ρ αkm ρ0 αkm ct 0
G(ρ, ϕ, t, ρ , ϕ ) := m 2 2 m
J Jm cos eim(ϕ−ϕ ) ,
k=1 m=−∞
π (J m+1 (α k )) R R R R


X ∞
X      
0 0 1 αkm ρ αkm ρ0 αkm ct 0
H(ρ, ϕ, t, ρ , ϕ ) := Jm Jm sen eim(ϕ−ϕ ) .
k=1 m=−∞
παkm c (Jm+1 (αkm ))2 R R R R

Essas são as funções de Green do problema em questão. Note-se novamente que


∂H
G(ρ, ϕ, t, ρ0 , ϕ0 ) = (ρ, ϕ, t, ρ0 , ϕ0 ) .
∂t
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 506/1195

Tal como no problema da corda pendurada, a importância de (8.216) está em expressar a solução
diretamente em termos das condições iniciais u0 e v0 . As funções G e H contêm em si a informação
de como os valores das condições iniciais no ponto (ρ0 , ϕ0 ) influenciam a solução no ponto (ρ, ϕ) no
instante de tempo t.

8.3.6 O Oscilador Harmônico na Mecânica Quântica e a Equação de Her-


mite
A equação de Schrödinger48 independente do tempo para o oscilador harmônico unidimensional é

~2 d 2 k
− 2
ψ(x) + x2 ψ(x) = Eψ(x) , (8.217)
2m dx 2
onde E é um autovalor do operador de Hamilton49 , ~ é a constante de Planck50 , m a massa da partı́cula
e k a constante de Hooke51 . Definindo
 2 1/4 r
~ k 2E x
α := , ω0 := , λ := − 1, z := , v(z) := ψ(x) = v(x/α) , (8.218)
mk m ~ω0 α

a equação (8.217) fica


v 00 (z) + (λ + 1 − z 2 )v(z) = 0 .
A experiência mostra que para melhor tratarmos dessa equação devemos definir uma nova função
2 2
u(z) := ez /2 v(z), ou seja, escrevemos v(z) = e−z /2 u(z), obtendo para u a equação diferencial

u00 (z) − 2zu0 (z) + λu(z) = 0 , (8.219)

a qual reconhecemos ser a equação de Hermite. Como discutimos, essa equação só possui soluções
2
que crescem mais lentamente que e+z /2 para |z| → ∞ se λ = 2n, sendo n um inteiro não-negativo. A
2
condição que u cresce mais lentamente que e+z /2 para |z| → ∞ é necessária para que v(z) e, portanto,
ψ(x), seja de quadrado integrável, uma condição fundamental para a Mecânica Quântica.
No caso em que λ = 2n, sendo n um inteiro não-negativo, a solução para (8.219) é u(z) = H n (z),
sendo Hn o n-ésimo polinômio de Hermite. Se λ = 2n, então, por (8.218), o valor de E é dado por
 
1
En := ~ω0 n + ,
2
para n = 0, 1, 2, 3 . . .. Essa equação expressa a quantização da energia do oscilador harmônico
unidimensional na Mecânica Quântica. Ainda para λ = 2n, sendo n um inteiro não-negativo, a solução
ψn (x) da equação de Schrödinger (8.217) será
x  
−z 2 /2 x2
ψn (x) = cn Hn (z)e = c n Hn exp − 2 ,
α 2α
48
Erwin Rudolf Josef Alexander Schrödinger (1887-1961).
49
Sir William Rowan Hamilton (1805-1865).
50
Max Karl Ernst Ludwig Planck (1858-1947).
51
Robert Hooke (1635-1703).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 507/1195

cRn sendo uma constante de normalização a ser fixada. Na Mecânica Quântica adota-se a normalização

−∞
|ψn (x)|2 dx = 1. Isso implica,
Z ∞   2  2 Z ∞
x x  (8.72) √
1 = |cn | 2
Hn exp − 2 dx = α|cn | 2
(Hn (z))2 exp −z 2 dz = α|cn |2 2n n! π ,
−∞ α α −∞
q
1√
de onde se extrai, escolhendo-se cn real e positivo, que cn = α2n n! π
e, portanto,
s  
1 x x2
ψn (x) = √ Hn exp − 2
α2n n! π α 2α

são os auto-estados normalizados de energia En para n = 0, 1, 2, 3 . . .. Com o uso de (8.72), é trivial


verificar ainda que Z ∞
ψn (x)ψm (x) dx = δn, m ,
−∞
a bem-conhecida relação de ortogonalidade das auto-funções ψn .

E. 8.30 Exercı́cio. Mostre que


Z ∞ Z ∞   2  2  
2 2 1 2 x x 2 1
x |ψn (x)| dx = √ x Hn exp − 2 dx = α n + ,
−∞ α2n n! π −∞ α α 2
para todo n ∈ , α sendo uma constante positiva. Na Mecânica Quântica a expressão do lado esquerdo,


acima, representa o valor médio do quadrado do operador de posição, ou seja, de x 2 , no auto-estado


normalizado ψn do operador Hamiltoniano do oscilador harmônico. Sugestão: use as relações de recorrência
(8.78), página 455, e as relações de ortogonalidade (8.72), página 453, das funções H n . 6

8.3.7 O Átomo de Hidrogênio e a Equação de Laguerre Associada


A equação de Schrödinger independente do tempo que descreve uma partı́cula de massa m 0 , em três
dimensões, sob um potencial de Coulomb52 atrativo V (r) = − αr , α > 0, é

~2 α
− ∆ψ − ψ = Eψ .
2m0 r
Expressando o operador Laplaciano em coordenadas esféricas, como em (8.192), essa equação fica
     
1 ∂ 2 ∂ψ 1 ∂ ∂ψ 1 ∂2ψ 2m0  α 
r + ( sen θ) + + + E ψ = 0.
r 2 ∂r ∂r sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2 ~2 r
Seguindo o procedimento de separação de variáveis, procuramos soluções na forma ψ = R(r)Y (θ, ϕ) e
obtemos, inserindo na equação,
   
(r 2 R0 (r))0 2m0 2
 1 1 ∂ ∂Y 1 ∂2Y
+ 2 αr + Er = − ( sen θ) + .
R(r) ~ Y (θ, ϕ) sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2
52
Charles Augustin de Coulomb (1736-1806).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 508/1195

Novamente, ambos os lados devem ser igualados a uma constante λ, e obtemos o par de equações
 
2 0 0 2m0 2

(r R (r)) + αr + Er − λ R(r) = 0 ,
~2
 
1 ∂ ∂Y 1 ∂2Y
( sen θ) + + λY = 0 .
sen θ ∂θ ∂θ ( sen θ)2 ∂ϕ2

Como já discutimos, a segunda equação só possui soluções finitas em θ = 0 e θ = π se λ = l(l + 1) com
l ∈ , em cujo caso as soluções para Y são dadas pelos harmônicos esféricos Y lm (θ, ϕ) com m ∈ e


−l ≤ m ≤ l. A equação radial fica então


 
2 00 0 2m0 2

r R (r) + 2rR (r) + αr + Er − l(l + 1) R(r) = 0 .
~2

Para simplificar essa expressão, definamos as constantes


r
2m0 2m0
β := α e γ := − E
~2 ~2
(tomamos aqui E ≤ 0, o que corresponde aos chamados estados ligados), com o quê, escrevemos

r 2 R00 (r) + 2rR0 (r) + βr − γ 2 r 2 − l(l + 1) R(r) = 0 .
eγr
Essa equação ainda não se encontra em uma forma reconhecı́vel, mas definindo S(r) := rl
R(r), ou
seja, escrevendo R na forma R(r) = r l e−γr S(r), obtem-se para S a seguinte equação:
   
rS 00 (r) + 2(l + 1) − 2γr S 0 (r) + β − 2γ(l + 1) S(r) = 0 .

E. 8.31 Exercı́cio. Faça essa conta ao menos uma vez na vida. 6

Definindo uma nova variável z = 2γr e y(z) = S(r) = y(2γr), obtemos para y(z) a equação
diferencial    
00 0 β
zy (z) + 2(l + 1) − z y (z) − − (l + 1) y(z) = 0 ,

a qual, para fins de comparação, escrevemos como
    
00 0 β
zy (z) + (2l + 1) + 1 − z y (z) − + l − (2l + 1) y(z) = 0 .

β
Comparando a (7.142), reconhecemos que se trata da equação de Laguerre associada com n = 2γ +l.
Pela nossa discussão de quando tratamos da equação de Laguerre, devemos ter n um inteiro positivo
com 0 ≤ 2l + 1 ≤ n, de outra forma a solução da equação de Laguerre crescerá mais rápido que
exponencial, destruindo a propriedade de ψ ser de quadrado integrável. Assim, n deve ser tomado um
β
inteiro positivo e, portanto, p := 2γ deve ser também inteiro. Como 0 ≤ 2l + 1 ≤ n e n = p + l, segue
que p ≥ l + 1 e, portanto, p é igualmente um inteiro positivo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 509/1195

Na situação descrita no último parágrafo, vimos na Seção 7.3.2, página 411, que as soluções da
(2l+1)
equação de Laguerre associada acima são dadas pelos polinômios de Laguerre associados L n (z).
Retornando a R(r), obtivemos a solução
   
βr l (2l+1) βr
Rp, l (r) = r exp − Lp+l ,
2p p
β β
onde usamos p := 2γ ∈  , p > 0, e escrevemos γ = 2p
. Voltando às constantes originais, a relação
β
γ = 2p expressa-se como
r
2m0 αm0 α 2 m0 1
− E = , ou seja, E ≡ Ep = − , com p = 1, 2, 3, 4, . . . .
~2 p~2 2~2 p2
Essa é a bem-conhecida regra de quantização de energia do átomo de hidrogênio, obtida pela primeira
vez, por outros meios, por Bohr53 em 1912-1913 e reobtida posteriormente por Schrödinger em 1926
através do estudo das soluções da equação de Schrödinger para o potencial de Coulomb, como fizemos
acima. O número inteiro não-negativo p é denominado número quântico principal no contexto da
Mecânica Quântica.
Os auto-estados de energia são
   
l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = cp, l, m r exp − Lp+l Ylm (θ, ϕ) ,
2p p

cp, l, m sendo uma constante de normalização a ser fixada pela imposição


Z Z ∞Z
2 3
1 = |ψp, l, m | d x = |ψp, l, m (r, θ, ϕ)|2 r 2 drdΩ ,


3 0 S2
R
onde dΩ = sen (θ)dθdϕ. Como por (8.68) tem-se S2
|Ylm (θ, ϕ)|2 dΩ = 1, segue que
Z ∞    2
2 βr (2l+1) βr
1 = |cp, l, m | exp − Lp+l r 2l+2 dr
0 p p
 2l+3 Z ∞  2
p (2l+1)
= |cp, l, m | 2
e−ρ Lp+l (ρ) ρ2l+2 dρ
β 0

 2l+3
(8.101) p2 ((p + l)!)3
= |cp, l, m | (2p) .
β (p − l − 1)!

Assim, tomando cp, l, m real, obtemos


s  l+1 s
β β (p − l − 1)!
cp, l, m = .
2p2 p ((p + l)!)3
53
Niels Henrik David Bohr (1885-1962).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 510/1195

Finalmente, as auto-funções de energia normalizadas são


s  l+1 s    
β β (p − l − 1)! l βr (2l+1) βr
ψp, l, m (r, θ, ϕ) = r exp − L p+l Ylm (θ, ϕ) ,
2p2 p ((p + l)!)3 2p p

com p ≥ l + 1, l ∈  ,l≥0em∈ com −l ≤ m ≤ l.

• Um comentário sobre a ortonormalidade das funções ψp, l, m

Nota para o leitor com conhecimento de Mecânica Quântica


Por serem auto-funções normalizadas do operador Hamiltoniano, as funções ψ p, l, m devem satisfazer
as relações de ortogonalidade hψp0 , l, m , ψp, l, m i = δp, p0 . Integrando a parte angular, isso significa que
Z ∞         
βr (2l+1) βr βr (2l+1) βr 2l+2 2 p2l+4 ((p + l)!)3
exp − 0 Lp0 +l exp − L p+l r dr = δ 0
p, p 2l+3 .
0 2p p0 2p p β (p − l − 1)!

O fator β pode ser absorvido com a mudança de variáveis ρ = βr e obtem-se


Z ∞    
ρ ρ 0”
2 p2l+4 ((p + l)!)3

(2l+1) (2l+1) − ρ2 p+p 0 2l+2
Lp0 +l L p+l e pp ρ dρ = δ p, p 0 . (8.220)
0 p0 p (p − l − 1)!

Essa é uma nova relação de ortogonalidade para os polinômio de Laguerre associados, a qual vale para
todo p, p0 inteiros positivos (não-nulos).
Perceba-se que não podemos eliminar simultaneamente p e p0 por uma mudança de variáveis na
integral em (8.220). É de se notar que essa relação de ortogonalidade não tem muito a ver com a relação
de ortogonalidade dos polinômios de Laguerre associados que obtivemos em (8.98). Infelizmente, poucos
livros de Mecânica Quântica ou de Fı́sica-Matemática comentam esse ponto 54 , uma exceção um tanto
surpreendente sendo [4] e estas Notas.
Comentamos que toda a teoria do átomo de hidrogênio, incluindo as várias expressões complexas
que derivamos acima envolvendo polinômios de Laguerre, e muito mais, já se encontrava nos primeiros
trabalhos de Schrödinger sobre a Mecânica Quântica, de 1926.

54
[77] e [108] ignoram o assunto e mesmo o excelente [40] atribui erroneamente a normalização de ψ p, l, m às relações
de ortogonalidade (8.98).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 511/1195

Apêndices

8.A Provando (8.44) à Força Bruta


A idéia é tomar (8.42), escrever (z 2 − 1)l = (z − 1)l (z + 1)l e aplicar a regra de Leibniz. Tudo está
resumido nas seguintes linhas auto-explicativas, acompanhadas de uns poucos comentários ao final:

(1 − z 2 )m/2 dl+m  2 
Plm (z) := (z − 1) l
2l l! dz l+m

(1 − z 2 )m/2 dl+m  l l

= (z − 1) (z + 1)
2l l! dz l+m
l+m  
Leibniz (1 − z 2 )m/2 X l + m dp   l+m−p 
l d l

= (z − 1) (z + 1)
2l l! p=0
p dz p dz l+m−p

l  
(∗) (1 − z 2 )m/2 X l + m dp  l
 dl+m−p 
l

= (z − 1) (z + 1)
2l l! p=m
p dz p dz l+m−p

l    
(1 − z 2 )m/2 X l + m l! l−p l! p−m
= (z − 1) (z + 1)
2l l! p=m
p (l − p)! (p − m)!

l  
(1 − z 2 )m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p−m
2l l! p=m
p (l − p)! (p − m)!

l  
(∗∗) m (z− 1)m (1 − z 2 )m/2 X l + m
2
(l!)2
= (−1) (z − 1)l−p (z + 1)p−m
(1 − z 2 )m 2l l! p=m
p (l − p)! (p − m)!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 512/1195

l  
(−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p+m (z + 1)p
2l l! p=m
p (l − p)! (p − m)!

l−m  
p→p+m (−1)m (1 − z 2 )−m/2 X l + m (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
p + m (l − p − m)! p!

l−m
(−1)m (1 − z 2 )−m/2 X (l + m)! (l!)2
= (z − 1)l−p (z + 1)p+m
2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!

l−m
(l + m)! (1 − z 2 )−m/2 X (l − m)! (l!)2
= (−1)m (z − 1)l−p (z + 1)p+m
(l − m)! 2l l! p=0
(l − p)! (p + m)! (l − p − m)! p!

l−m    
m (l+ m)! (1 − z 2 )−m/2 X l − m l! l−p l! p+m
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p (l − p)! (p + m)!

l−m   p   l−m−p 
m (l+ m)! (1 − z 2 )−m/2 X l − m d l d l
= (−1) (z − 1) (z + 1)
(l − m)! 2l l! p=0
p dz p dz l−m−p

Leibniz (l + m)! (1 − z 2 )−m/2 dl−m 


= (−1)m l l−m
(z − 1)l (z + 1)l
(l − m)! 2 l! dz

(l + m)! (1 − z 2 )−m/2 dl−m 2 (l + m)! −m


= (−1)m (z − 1)l = (−1)m P (z) ,
(l − m)! l
2 l! dz l−m (l − m)! l
como querı́amos provar.
d p d l+m−p
l l
No ponto indicado por (∗) acima, usamos o fato que dz p (z − 1) = 0 se p > l e dz l+m−p (z − 1) = 0

se l + m − p > l. Ambas as condições juntas implicam m ≤ p ≤ l, daı́ a mudança nos limites da soma.
2 −1)m
No ponto indicado por (∗∗) multiplicamos toda a expressão por 1 = (−1)m (z (1−z 2 )m
. Na linha seguinte
2 m m m
o fator (z − 1) é escrito como (z − 1) (z + 1) e distribuı́do dentro da soma. Fora isso, usamos
também que (1−z12 )m (1 − z 2 )m/2 = (1 − z 2 )−m/2 .

8.B Alguns Teoremas de Unicidade de Soluções de Equações


Diferenciais Parciais
Ao discutirmos a solução de alguns dos problemas tratados acima mencionamos a importante questão
da unicidade da solução de certas equações diferenciais parciais submetidas a condições iniciais e de
contorno. Teoremas de unicidade de solução são fundamentais para justificar métodos de solução por
expansão em modos satisfazendo as condições de contorno (como os modos de vibração de cordas ou
membranas vibrantes, por exemplo), tal como fizemos em diversos exemplos de acima. Nesta seção
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 513/1195

vamos tratar dessa questão para o caso da equação de onda e para o caso da equação de difusão, em
uma ou mais dimensões espaciais.
O problema de determinar soluções de equações diferenciais submetidas a condições iniciais é
freqüentemente demoninado problema de Cauchy.

• Unicidade de solução para a equação de difusão em regiões finitas

A proposição que segue estabelece unicidade de solução para uma forma bastante geral da equação
de difusão definida em um conjunto pré-compacto55 e conexo D de n , para todo n ≥ 1, sob certas


condições iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet 56 , de Neumann57
ou mistas (vide abaixo), generalizando assim a Proposição 8.2, da página 486.
Proposição 8.5 Consideremos para uma função real u a equação diferencial linear, denominada
equação de difusão, dada por
∂u  
~ · κ(~x, t)∇u(~
γ(~x) (~x, t) − ∇ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (8.B.1)
∂t
definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ n , n ≥ 1. D é, assim, 

pré-compacto e conexo.
Suporemos que γ e η são contı́nuas por partes com γ(~x) ≥ 0 e η(~x) ≥ 0, ambas podendo se anular
apenas em um conjunto de medida nula. Suporemos também que κ é contı́nua e diferenciável e que
κ(~x, t) ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Acima, ϕ(~x, t) é uma função real dada de ~x e t que, se não nula, faz de (8.B.1) uma
equação não-homogênea. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de
modo que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal
à ∂D no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (8.B.2)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy). Além disso,
iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições de
contorno. Trataremos dos seguintes tipos de condições de contorno:

I. Condições de Dirichlet:
u(~x, t) = φ(~x, t)
para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.
II. Condições de Neumann:
∂u
(~x, t) = −ψ(~x, t)
∂n
55 n
Um conjunto é dito ser pré-compacto se seu fecho for compacto. No caso de , um conjunto é compacto se e
somente se for fechado e limitado.
56
Johann Peter Gustav Lejeune Dirichlet (1805-1859).
57
Carl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 514/1195

∂u
para todo ~x ∈ ∂D e todo t ≥ 0, ψ(~x, t) sendo uma função real dada. Acima, ∂n representa a
∂u ~
derivada normal de u à superfı́cie ∂D, ou seja, ∂n (~x, t) = ~n(~x) · ∇u(~x, t), ~x ∈ ∂D.

III. Condições mistas: para uma função contı́nua α(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0,
tem-se
∂u
u(~x, t) + α(~x, t) (~x, t) = χ(~x, t)
∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.

Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (8.B.1) para as condições iniciais (8.B.2) é única, caso exista. 2

Vide também a Proposição 8.6 para uma generalização. Antes de passarmos à demonstração da
Proposição 8.5, façamos alguns comentários.
O leitor deve ter notado que no enunciado da Proposição 8.5 não são feitas restrições às funções
ϕ, φ, ψ e χ, acima, pois, de fato, restrições não são necessárias para garantir-se unicidade. Para uma
prova de existência de solução, porém, certamente são necessárias restrições a essas funções, tais como
continuidade por partes etc. Não trataremos de condições gerais de existência aqui.
Na Proposição 8.5, acima, a região D é limitada (tecnicamente, é pré-compacta e conexa). O es-
tudante pode perguntar-se o que ocorre com a questão da unicidade se considerarmos a equação de
difusão, equação (8.B.1), em regiões abertas, conexas, mas não-limitadas, como n , por exemplo. Nesse


caso, tem-se que considerar outras condições de contorno no infinito e os métodos de demonstração
abaixo não funcionam. Sob condições convenientes, é possı́vel demonstrar unicidade de solução, mas al-
gumas surpresas interessantı́ssimas ocorrem. Vide para tal a fascinante discussão de [73], especialmente
seus capı́tulos 67 e 68.
A equação (8.B.1) pode ser interpretada como a equação de difusão de calor sem convecção em um
meio homogêneo de constante de difusão κ(~x, t), a função u(~x, t) representando a temperatura do
meio no ponto ~x no instante t. Nessa interpretação, para o caso em que para η e ϕ são identicamente
nulas, a equação (8.B.1) é uma representação matemática de uma lei fı́sica denominada Lei de Fourier 58
do transporte de calor. Vide [31]. A Lei de Fourier foi originalmente obtida experimentalmente e é até
hoje um problema de pesquisa demonstrá-la teoricamente a partir de primeiros princı́pios usando os
métodos da Mecânica Estatı́stica, especialmente no caso quântico. O termo ϕ(~x, t) tem a interpretação
de uma fonte de calor externa e o termo η(~x, t)u(~x, t) com η ≥ 0 representa uma dissipação de calor,
por exemplo, por emissão de radiação.
As três condições de contorno listadas acima manifestam condições fı́sicas às quais o sistema definido
em D se submete em seu contorno ∂D. Consideremos a interpretação de (8.B.1) como a equação de
difusão de calor sem convecção em um meio homogêneo. Fisicamente mais precisas são as condições
∂u
mistas, que afirmam que para o fluxo de calor (para fora de D) por unidade de área, − ∂n (~x, t), vale
∂u 1
− ∂n (~x, t) = α(~x, t) (u(~x, t) − χ(~x, t)). De acordo com a Lei de Fourier do transporte de calor (vide
[31]), isso diz-nos que em cada ponto ~x ∈ ∂D o calor flui do sistema à temperatura u(~x, t) para um
banho térmico externo à temperatura χ(~x, t), através da superfı́cie de contacto cuja constante de
58
Jean Baptiste Joseph Fourier (1768-1830). Os trabalhos de Fourier na resolução da equação de difusão de calor em
uma dimensão o conduziram às chamadas séries de Fourier.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 515/1195

difusão é α(~x, t), a qual dependente do contacto entre o sistema e o meio, do material que os compõe
etc., e por isso pode depender de ~x e t. As condições de Dirichlet significam que cada ponto de ~x de
∂D está em contacto com um banho térmico à temperatura φ(~x, t) que difunde calor perfeitamente ao
sistema nos pontos de contacto, ou seja, vale a aproximar por zero a constante de difusão de contacto α
(o que é uma boa aproximação no caso de contactos metálicos). As condições de Neumann significam
∂u
que, cada ponto de ~x de ∂D, o fluxo de calor (para fora de D) por unidade de área, − ∂n , é fixado em
ψ(~x, t). Tal se dá, por exemplo, se u for desprezı́vel face à temperatura do meio externo, em cujo caso
terı́amos, comparando com o caso das condições mistas, −ψ = χ/α. Um caso comum é aquele em que
ψ é nula, o que corresponde a colocar o sistema em contacto com um isolante térmico perfeito, ou seja,
para o qual α é próximo ao infinito.

Prova da Proposição 8.5. Afirmamos que sob as condições descritas na proposição, a solução de (8.B.1)
é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (8.B.1), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (8.B.1) é linear, é fácil constatar que w satisfaz a equação homogênea

∂w  
γ(~x) ~ · κ(~x, t)∇w(~
(~x, t) − ∇ ~ x, t) + η(~x)w(~x, t) = 0 , (8.B.3)
∂t
para todo ~x ∈ D e todo t ≥ 0, assim como a condição inicial w(~x, 0) = 0, ∀~x ∈ D. Quanto às condições
de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0. Para o caso de
∂w
condições mistas, w(~x, t) + α(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideremos a expressão
Z Z t Z 
2 n 
0 2 n
A(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t ) d ~x dt0 . (8.B.4)
D 0 D

É evidente que A(t) ≥ 0 para todo t ≥ 0. Tem-se, porém, A(0) = 0, pois em t = 0 a função w anula-se
(pela condição inicial para w). Como w é diferenciável em relação a t, podemos calcular a derivada
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 516/1195

d
dt
A(t) por
Z Z
dA ∂ 2 n 2
(t) = γ(~x) w(~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
dt D ∂t D
Z Z
∂w n
2
= 2 w(~x, t)γ(~x) (~x, t) d ~x + 2 η(~x) w(~x, t) dn~x
D ∂t D
Z h   i Z
(8.B.3) 2
= 2 ~ ~
w(~x, t) ∇ · κ(~x, t)∇w(~x, t) − η(~x)w(~x, t) d ~x + 2 n
η(~x) w(~x, t) dn~x
D D
Z  
= 2 ~ · κ(~x, t)∇w(~
w(~x, t) ∇ ~ x, t) dn~x
D
Z   Z  2 
= 2 ~ · κ(~x, t) w ∇w
∇ ~ n
d ~x − ~
κ(~x, t) ∇w d ~xn
D D
Z Z  2 
Gauss ∂w ~ n
= 2 κ(~x, t)w ds(~x) − κ(~x, t) ∇w d ~x ,
∂D ∂n D

onde ds(~x)Zé a medida de integração n−1 dimensional em ∂D. Agora, no caso de condições de Dirichlet,
∂w
a integral κ(~x, t) w ds(~x) anula-se pois w anula-se em ∂D, o mesmo se sucedendo no caso de
∂D ∂n
condições de Neumann, quando ∂w ∂n
anula-se em ∂D. Concluı́mos que em ambos os casos
Z  2
dA ~
(t) = −2 κ(~x, t) ∇w dn~x . (8.B.5)
dt D

No caso de condições mistas, tem-se


"Z  2 Z #
dA ∂w  2
(t) = −2 α(~x, t) κ(~x, t) ds(~x) + ~
κ(~x, t) ∇w dn~x . (8.B.6)
dt ∂D ∂n D

Ora, como κ(~x, t) ≥ 0 e α(~x, t) ≥ 0 , o lado direito de (8.B.5) e de (8.B.6) são ambos claramente
menores ou iguais a zero. Porém, como A(0) = 0, se a derivada dA dt
(t) fosse negativa para algum t ≥ 0,
a função A assumiria valores negativos, o que é impossı́vel pois, como observamos, A(t) ≥ 0 para todo
t ≥ 0. Logo, devemos ter dA dt
(t) = 0 para todo t, ou seja, A é constante. Mas como A(0) = 0, vale
A(t) = 0 para todo t ≥ 0. Sendo A(t) dada em (8.B.4) como a somaZ de duas integrais maiores ou
2
iguais a zero, isso implica que ambas se anulam, ou seja, em particular, γ(~x) w(~x, t) dn~x = 0 para
D
todo t ≥ 0. Como w é contı́nua e γ(~x) se anula apenas em um conjunto de medida nula, isso implica
que w é identicamente nula em todo D, para todo t ≥ 0, para a condição inicial e para cada uma das
condições de contorno consideradas, que é o que querı́amos mostrar.

Uma idéia semelhante à da demonstração acima será seguida quando tratarmos da equação que
descreve vibrações em meios elásticos na Proposição 8.7, página 517. A Proposição 8.5 pode ser
extendida, sob certas condições, como mostra a seguinte proposição, que generaliza a Proposição 8.3
da página 488.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 517/1195

Proposição 8.6 Consideremos para uma função real u a equação diferencial linear dada por
∂u  
γ(~x) (~x, t) − ∇ ~ x, t) − ~θ(~x, t) · ∇u(~
~ · κ(~x, t)∇u(~ ~ x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (8.B.7)
∂t
definida sob as mesmas hipóteses da Proposição 8.5, mas assumindo ainda que θ~ é continuamente
~ · ~θ(~x, t) ≥ 0 para todo ~x ∈ D e t ≥ 0. Seja u submetida a condições iniciais que
diferenciável e ∇
fixam seu valor em t = 0:
u(~x, 0) = u0 (~x) , (8.B.8)
∀~x ∈ D, onde a função real u0 é um dado do problema (denominado dado de Cauchy) e a condições de
contorno do tipo de Dirichlet na fronteira ∂D:

u(~x, t) = φ(~x, t)

para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.


Então, a solução do problema de Cauchy de determinar a solução (8.B.7) para as condições iniciais
(8.B.8) é única, caso exista. 2

O leitor deve notar que a equação diferencial (8.B.7) difere de (8.B.1) pela introdução do termo
contendo o campo ~θ, sendo que supomos que o divergente desse campo seja maior ou igual a zero em D.
É de se notar também o fato de a proposição limitar-se a condições de contorno do tipo de Dirichlet.

Prova. A prova segue os mesmos passos do caso da Proposição 8.5, mas obtem-se agora
Z  2 Z   Z  
dA ~
(t) = −2 ~ n
κ(~x, t) ∇w d ~x − ~ 2 n
∇ · θ w d ~x + w 2 ~θ · ~n(~x) ds(~x) , (8.B.9)
dt D D ∂D

em lugar de (8.B.5). A integral sobre ∂D é nula sob condições de Dirichlet, pois para elas w anula-se na
~ · ~θ ≥ 0, obtem-se novamente dA (t) ≤ 0 sob condições de Dirichlet59 , conduzindo
fronteira. Assim, se ∇ dt
às mesmas conclusões que no caso da Proposição 8.5.

• Unicidade de solução para a equação de vibrações elásticas em regiões finitas

A proposição que segue estende os resultados de unicidade que obtivemos para a equação de difusão
na Proposição 8.5, acima, para uma forma bastante geral da equação que descreve vibrações em meios
elásticos, definida em um conjunto pré-compacto e conexo D de n , para todo n ≥ 1, sob certas


condições iniciais e certas condições de contorno, que podem ser do tipo de Dirichlet, de Neumann ou
mistas. Um caso particular importante é a equação de ondas, de grande relevância em Fı́sica, tratado
na Proposição 8.4 da página 488 no caso unidimensional.
Proposição 8.7 Consideremos para uma função real u a equação diferencial linear, dada por
∂2u ∂u  
~ ~
ρ(~x) 2 (~x, t) + γ(~x, t) (~x, t) − ∇ · τ (~x)∇u(~x, t) + η(~x)u(~x, t) = ϕ(~x, t) , (8.B.10)
∂t ∂t
59
O leitor poderia pensar que poderı́amos incluir condições mistas de contorno e ainda obter dA
dt (t) ≤ 0 em (8.B.9) se
~ ~ ~
adionamente supuséssemos que θ · ~n(~x) ≤ 0 em todo ∂D, mas isso é incompatı́vel com ∇ · θ ≥ 0, pelo Teorema de Gauss.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 518/1195

definida para ~x em um conjunto não-vazio, aberto, conexo e limitado D ⊂ n , n ≥ 1. D é, assim,




pré-compacto e conexo. Assumiremos que τ é contı́nua e diferenciável e que ρ, γ e η sejam contı́nuas


por partes. Suporemos também que ρ(~x) > 0 e τ (~x) > 0, exceto em conjuntos de medida nula, onde
podem anular-se. Assumiremos também que η(~x) ≥ 0 e que γ(~x, t) ≥ 0 para todo ~x ∈ D e todo t ≥ 0.
Denotaremos por D o fecho de D (que é compacto, pois D é limitado) e denotaremos por ∂D = D\D
a fronteira de D. Sobre a região D, suporemos ainda que ∂D seja diferenciável e orientável, de modo
que em qualquer ponto ~x de ∂D possamos definir o versor (vetor de comprimento 1) ~n(~x) normal à ∂D
no ponto ~x e apontando para fora de D.
Iremos supor que a função u esteja submetida a condições iniciais que fixam seu valor em t = 0
assim como o de sua derivada temporal:
∂u
u(~x, 0) = u0 (~x) , (~x, 0) = v0 (~x) . (8.B.11)
∂t
∀~x ∈ D, onde as funções reais u0 e v0 são dados do problema (denominados dados de Cauchy). Além
disso, iremos supor que u(~x, t) esteja submetida a condições na fronteira ∂D, as chamadas condições
de contorno. Trataremos dos seguintes tipos de condições de contorno:

I. Condições de Dirichlet:
u(~x, t) = φ(~x, t)
para todo ~x ∈ ∂D e todo t ≥ 0, φ(~x, t) sendo uma função real dada.

II. Condições de Neumann:


∂u
(~x, t) = −ψ(~x, t)
∂n
∂u
para todo ~x ∈ ∂D e todo t ≥ 0, ψ(~x, t) sendo uma função real dada. Acima, ∂n representa a
∂u ~
derivada normal de u à superfı́cie ∂D, ou seja, ∂n (~x, t) = ~n(~x) · ∇u(~x, t), ~x ∈ ∂D.

III. Condições mistas: para uma função contı́nua ζ(~x, t) ≥ 0, definida em ∂D para todo t ≥ 0,
tem-se
∂u ∂u
(~x, t) + ζ(~x, t) (~x, t) = χ(~x, t)
∂t ∂n
para todo ~x ∈ ∂D e todo t ≥ 0, χ(~x, t) sendo uma função real dada.

IV. A expressão τ (~x) ∂u ∂u


∂t ∂n
anula-se identicamente na fronteira ∂D.

Então, para cada uma das condições de contorno descritas acima, a solução do problema de Cauchy
de determinar a solução (8.B.10) para as condições iniciais (8.B.11) é única, caso exista. 2

A equação (8.B.10) descreve vibrações elásticas em um meio material de densidade ρ(~x) localizado
em D. O termo γ(~x, t) ∂u ∂t
(~x, t) descreve uma dissipação (por exemplo, por atrito viscoso com um meio
externo) e τ (~x) deve ser interpretado como a tensão do meio no ponto ~x. O termo η(~x)u(~x, t) provem
de uma força harmônica restauradora (caso η positivo) agindo sobre cada ponto do meio. Por fim,
ϕ(~x, t) representa uma força externa (por unidade de volume) agindo sobre o sistema no ponto ~x no
instante t. Para uma dedução parcial dessa expressão no caso unidimensional vide, por exemplo, [31].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 519/1195

Um caso particular importante é aquele em que γ, η e ϕ são nulas e ρ e τ são constantes positivas,
caso esse em que (8.B.10) assume a forma da equação de ondas livres
r
∂2u 2 τ
2
(~x, t) − c ∆u(~x, t) = 0 , c = .
∂t ρ
A constante c tem a interpretação de velocidade de propagação das ondas.

Prova da Proposição 8.7. Afirmamos que sob as condições descritas na proposição, a solução de (8.B.10)
é única, caso exista. Para tal, vamos supor que u e v sejam duas soluções reais de (8.B.10), ambas
satisfazendo as mesmas condições iniciais e as mesmas condições de contorno, quer sejam de Dirichlet, de
Neumann ou mistas, descritas acima. Consideremos a função w definida por w(~x, t) := u(~x, t)−v(~x, t).
Como (8.B.10) é linear, é fácil constatar que w satisfaz a equação homogênea
∂2w ∂w  
ρ(~x) 2 (~x, t) + γ(~x, t) ~ · τ (~x)∇w(~
(~x, t) − ∇ ~ x, t) + η(~x)w(~x, t) = 0 , (8.B.12)
∂t ∂t
para todo ~x ∈ D e todo t ≥ 0, assim como as condições iniciais w(~x, 0) = 0, e ∂w ∂t
(~x, 0) = 0, ∀~x ∈ D.
Quanto às condições de contorno teremos, para o caso de condições de Dirichlet, w(~x, t) = 0 para todo
~x ∈ ∂D e todo t ≥ 0. Para o caso de condições de Neumann, ∂w ∂n
(~x, t) = 0 para todo ~x ∈ ∂D e todo
∂w ∂w
t ≥ 0. Para o caso de condições mistas, ∂t (~x, t) + ζ(~x, t) ∂n (~x, t) = 0 para todo ~x ∈ ∂D e todo t ≥ 0.
Desejamos mostrar que w é identicamente nula, o que prova que u e v são idênticas, estabelecendo
unicidade de solução sob as condições mencionadas. Para tal, consideramos a expressão
Z "  2 #
ρ(~x) ∂w τ (~x)  ~ 2 η(~x)  2
E(t) = (~x, t) + ∇w(~x, t) + w(~x, t) dn~x . (8.B.13)
D 2 ∂t 2 2

É evidente pelas hipoteses de positividade sobre ρ, τ e η que E(t) ≥ 0 para todo t ≥ 0. Tem-se, porém,
E(0) = 0, pois em t = 0 a função w anula-se, assim como sua derivada temporal (pela condição inicial
para w). Como w é diferenciável em relação a t, podemos calcular a derivada dtd E(t) por
Z    
dE ∂w ∂2w ~ ~ ∂w ∂w
(t) = ρ(~x) 2 + τ (~x) ∇w · ∇ + η(~x)w dn~x
dt D ∂t ∂t ∂t ∂t
Z     
(8.B.12) ∂w ∂w ~  ~

~ ~ ∂w
= −γ(~x, t) + ∇ · τ (~x)∇w − η(~x) w + τ (~x) ∇w · ∇ dn~x
D ∂t ∂t ∂t
Z
∂w n
+ η(~x) w d ~x
D ∂t
Z  2 Z   
∂w n ∂w ~  ~

~ ~ ∂w
= − γ(~x, t) d ~x + ∇ · τ (~x)∇w + τ (~x) ∇w · ∇ dn~x
D ∂t D ∂t ∂t
Z  2 Z  
∂w n ~ · τ (~x) ∂w ∇w
~
= − γ(~x, t) d ~x + ∇ dn~x
D ∂t D ∂t
Z  2 Z
Gauss ∂w n ∂w ∂w
= − γ(~x, t) d ~x + τ (~x) ds(~x) , (8.B.14)
D ∂t ∂D ∂t ∂n
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 8 520/1195

∂w
onde ∂n
é a derivada normal introduzida à página 518.
No caso de condições de Dirichlet, w anula-se na fronteira ∂D para todo t e, portanto, também sua
derivada temporal se anula. Com isso, a segunda integral em (8.B.14) vale zero, o que também ocorre
para condições de Neumann pois, aı́, ∂w
∂n
é nula, assim como para as condições de contorno do tipo IV,
descritas na página 518. Nesses casos tem-se, assim,
Z  2
dE ∂w
(t) = − γ(~x, t) dn~x ,
dt D ∂t

que é menor ou igual a zero, pois supomos γ(~x, t) ≥ 0. Para condições de contorno mistas, tem-se
Z  2 Z  2
dE ∂w n ∂w
(t) = − γ(~x, t) d ~x − τ (~x)ζ(~x, t) ds(~x) ,
dt D ∂t ∂D ∂n

que é igualmente menor ou igual a zero, pois supusemos que τ (~x) > 0, γ(~x, t) ≥ 0 e ζ(~x, t) ≥ 0.
Para os vários tipos de condições de contorno tratados, chegamos ao mesmo tipo de situação encon-
trada na prova da Proposição 8.5: temos que E(t) ≥ 0 e que dE dt
(t) ≤ 0 para todo t ≥ 0, mas E(0) = 0.
Isso só é possı́vel se E(t) = 0 para todo t ≥ 0. Lembrando a definição de E(t) em (8.B.13) e da hipótese
que ρ e τ são positivos (exceto, talvez, em conjuntos de medida nula), concluı́mos que para todo ~x ∈ D
e todo t ≥ 0 tem-se ∂w ~ x, t) = 0, o que implica que w(~x, t) é uma constante para todo
(~x, t) = 0 e ∇w(~
∂t
~x ∈ D e todo t ≥ 0. Lembrando que w(~x, 0) = 0 pela condição inicial, concluı́mos que w(~x, t) é nula
para todo ~x ∈ D e todo t ≥ 0. Isso implica que as soluções u e v são idênticas, que é o que querı́amos
provar.

E. 8.32 Exercı́cio. Se u é uma solução da equação (8.B.10), que descreve vibrações elásticas em um
meio material, então a expressão que define E(t) em (8.B.13), ou seja,
Z "  2 #
ρ(~x) ∂u τ (~x)  ~ 2 η(~x)  2
E(t) = (~x, t) + ∇u(~x, t) + u(~x, t) dn~x ,
D 2 ∂t 2 2

representa a energia mecânica dessas vibrações. Justifique essa afirmação. Determine, como fizemos acima,
mas para ϕ não-nula e para condições de contorno não-homogêneas, a expressão de dE dt
(t). Discuta sob
quais circunstâncias a energia é conservada. 6
Capı́tulo 9
Introdução ao Problema de Sturm-Liouville
Conteúdo
9.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521
9.2 O Problema de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
9.2.1 Resolvendo o Problema de Sturm. A Função de Green . . . . . . . . . . . . . 527
9.2.2 O Teorema de Green . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530
9.3 O Problema de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . 532
9.4 Propriedades Básicas dos Autovalores e das Autofunções de Problemas
de Sturm-Liouville . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534
9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções . . . . . . . . . . 534
9.4.2 A Simplicidade dos Autovalores . . . . . . . . . . . . . . . . . . . . . . . . . . 537
9.4.3 Condições Suficientes para a Positividade dos Autovalores . . . . . . . . . . . 538
9.5 A Equação Integral de Fredholm . . . . . . . . . . . . . . . . . . . . . . . . 542
9.6 Uma Aplicação do Problema de Sturm-Liouville . . . . . . . . . . . . . . . 545
9.7 Comentários Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
9.7.1 O Problema de Sturm-Liouville Singular . . . . . . . . . . . . . . . . . . . . . 549
9.A Prova do Teorema 9.1. Existência e Unicidade . . . . . . . . . . . . . . . . 551
9.B Prova da Proposição 9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552
9.C Comentário Sobre o Determinante Wronskiano . . . . . . . . . . . . . . . 554
9.D Ausência de Autovalores em um Problema Singular . . . . . . . . . . . . 555
9.E Demonstração do Teorema 9.3 . . . . . . . . . . . . . . . . . . . . . . . . . 556
9.F Prova da Desigualdade (9.E.22) . . . . . . . . . . . . . . . . . . . . . . . . . 560

presente capı́tulo é dedicado ao problema de Sturm-Liouville, um clássico problema da


teoria das equações diferenciais com várias aplicações em Fı́sica. Historicamente o problema
de Sturm-Liouville engendrou uma série de desenvolvimentos que conduziram, no começo
do século XX, ao nascimento de uma nova e importante área da Matemática, a Análise
Funcional, área essa que é de importância fundamental para a Fı́sica Quântica.

9.1 Introdução
Inúmeros problemas em Fı́sica envolvem a resolução de equações diferenciais ordinárias lineares de
segunda ordem e o estudo de propriedades gerais de suas soluções. De modo geral, uma equação
diferencial desse tipo é da forma
u00 + a1 (x)u0 + a0 (x)u = g(x) , (9.1)

521
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 522/1195

onde g, a0 e a1 são certas funções conhecidas de números reais em números reais das quais eventualmente
exige-se certas condições (como continuidade diferenciabilidade etc.). A função u representa alguma
grandeza fı́sica e a equação (9.1) é a expressão matemática de uma lei fı́sica que essa grandeza deve
obedecer.
Em muitos casos a função u é definida em um intervalo fechado finito [a, b] da reta real, b > a, e
é obrigada a satisfazer certas condições nos extremos desse intervalo. Tais condições são chamadas de
condições de contorno.
Condições de contorno são ditadas ou por leis fı́sicas ou por restrições fı́sicas ou geométricas que
devem ser impostas nos pontos a e b à grandeza representada por u. O caso mais tı́pico é aquele no
qual impõe-se que a função u ou sua primeira derivada (ou combinações lineares de ambas) assumem
certos valores fixos nos pontos a e b.
Há também muitas situações nas quais a função u é definida em intervalos semi-infinitos, como
[0, ∞) ou infinitos, como (−∞, ∞), e as condições impostas podem exigir, por exemplo, que u se
anule no infinito, que seja limitada ou que seja de quadrado integrável.

• Condições de contorno lineares e homogêneas

Há muitos tipos distintos de condições de contorno. De particular importância são as condições de
contorno lineares que, no caso de equações de segunda ordem, têm a seguinte estrutura. A função u
está definida em um intervalo finito [a, b] e para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que
(α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaz o par de condições

α1 u(a) + α2 u0 (a) = ϕ1 , (9.2)

β1 u(b) + β2 u0 (b) = ϕ2 . (9.3)

Condições de contorno desse tipo são ditas lineares devido à dependência linear em u do lado direito
de (9.2) e (9.3).
Nestas notas, estaremos interessados particularmente em condições do seguinte tipo: vamos estar
supondo que u está definida em um intervalo finito [a, b] e que para certas constantes reais α 1 , α2 , β1
e β2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) a função u satisfaça o par de condições

α1 u(a) + α2 u0 (a) = 0 , (9.4)

β1 u(b) + β2 u0 (b) = 0 . (9.5)

Condições de contorno lineares desse tipo são ditas homogêneas devido ao lado direito de (9.4) e
(9.5) ser zero.
Condições de contorno são restrições de crucial importância na resolução de equações diferenciais.
Para verificar essa importância, faça os seguintes exercı́cios simples:

E. 9.1 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 = 0 tal que u0 (0) = 0
e u0 (1) = 1 não tem soluções. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 523/1195

E. 9.2 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 = 0 tal que u0 (0) = 0
e u0 (1) = 0 tem infinitas soluções. 6

E. 9.3 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 +u = 0 com u(0) = 1
e u(π) = 1 não tem soluções. 6

E. 9.4 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 +u = 0 com u(0) = 1
e u(π) = −1 tem infinitas soluções. 6

E. 9.5 Exercı́cio. Verifique que o problema de determinar uma função u tal que u 00 +u = 0 com u(0) = ϕ1
e u(π) = ϕ2 tem infinitas soluções se ϕ1 = −ϕ2 e não tem solução se ϕ1 6= −ϕ2 . 6

• Um teorema sobre existência e unicidade de soluções

Os exemplos dos exercı́cios acima mostram que a questão da existência e unicidade de soluções
em problemas que envolvem condições de contorno não é uma questão trivial. É importante nesse
contexto mencionar o seguinte teorema, o qual expressa condições necessárias e suficientes para garantir
a existência e a unicidade de soluções:
Teorema 9.1 Seja a equação diferencial linear de segunda ordem

u00 + a1 (x)u0 + a0 (x)u = g(x), (9.6)

onde g, a0 e a1 são definidas num intervalo finito e fechado [a, b] e são contı́nuas nesse intervalo. O
problema de encontrar soluções dessa equação que satisfaçam condições de contorno do tipo

α1 u(a) + α2 u0 (a) = ϕ1 (9.7)

β1 u(b) + β2 u0 (b) = ϕ2 (9.8)

para certas constantes reais α1 , α2 , β1 , β2 , ϕ1 e ϕ2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) tem
solução única se e somente se o determinante da matriz
 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
  (9.9)
0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b)

for não nulo, onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea

u00 + a1 (x)u0 + a0 (x)u = 0 . (9.10)

A demonstração é apresentada no Apêndice 9.A, página 551, cujo estudo pode ser dispensado em
uma primeira leitura.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 524/1195

Exemplo. No Exercı́cio E. 9.5, página 523, acima, verificamos que o problema de determinar uma
função u tal que u00 + u = 0 com u(0) = ϕ1 e u(π) = ϕ2 ou tem infinitas soluções (caso ϕ1 = −ϕ2 )
ou não tem nenhuma solução (caso ϕ1 6= −ϕ2 ). Vamos analisar isso sob a luz do Teorema 9.1. Aqui
temos [a, b] = [0, π]. Com as condições u(0) = ϕ1 e u(π) = ϕ2 tem-se α1 = β1 = 1 e α2 = β2 = 0.
Duas soluções independentes da equação homogênea u00 + u = 0 são u1 (x) = cos(x) e u2 (x) = sen (x).
Assim,
     
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) cos(0) sen (0) 1 0
  =   =   ,
0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b) cos(π) sen (π) −1 0
que tem determinante nulo. Logo, a condição do Teorema 9.1 é violada e isso justifica por que não se
pode garantir nem existência nem unicidade à solução do problema em questão.

• Relacionando problemas com condições de contorno não-homogêneas e homogêneas

Adiante, consideraremos apenas problemas com condições de contorno lineares e homogêneas. Por
que não consideraremos também as condições de contorno não-homogêneas? A razão é que, como
veremos, podemos sempre obter soluções de problemas com condições de contorno não-homogêneas a
partir das soluções de problemas com condições de contorno homogêneas.
A argumentação é bem simples. Seja w uma função em princı́pio arbitrária (duas vezes diferenciável)
mas que satisfaça
α1 w(a) + α2 w 0 (a) = ϕ1 , (9.11)

β1 w(b) + β2 w 0 (b) = ϕ2 . (9.12)


Para uma tal função w, vamos definir uma função h(x) da seguinte forma:
h(x) := w 00 + a1 (x)w 0 + a0 (x)w .

Seja v solução da equação


v 00 + a1 (x)v 0 + a0 (x)v = g(x) − h(x) , (9.13)
com as condições de contorno homogêneas
α1 v(a) + α2 v 0 (a) = 0, (9.14)

β1 v(b) + β2 v 0 (b) = 0. (9.15)


Então, é fácil verificar que a função u(x) = v(x) + w(x) satisfaz
u00 + a1 (x)u0 + a0 (x)u = g(x)
e
α1 u(a) + α2 u0 (a) = ϕ1 , (9.16)

β1 u(b) + β2 u0 (b) = ϕ2 . (9.17)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 525/1195

Isso diz-nos, em resumo, que para resolver problemas com condições de contorno não-homogêneas
é suficiente saber determinar uma função como w acima e saber determinar a solução de uma equação
diferencial linear com condições de contorno homogêneas. Por essa razão, daqui por diante só conside-
raremos problemas com condições de contorno homogêneas.
Determinar uma função w pode ser feito, por exemplo, procurando uma w na forma de um polinômio
e procurando ajustar os coeficientes desse polinômio de modo que (9.11)-(9.12) sejam satisfeitas.

• Reescrevendo a equação diferencial na forma de Liouville

Uma observação importante que devemos fazer sobre equações como (9.1) é que, para muitos ca-
sos, as mesmas sempre podem ser reescritas da seguinte forma equivalente, conhecida como forma de
Liouville:
(p(x)u0 )0 + q(x)u = f (x) , (9.18)
Rx 
onde p(x) = exp a a1 (x0 ) dx0 , q(x) = p(x)a0 (x) e f (x) = p(x)g(x). Estaremos usando esta forma da
equação mais freqüentemente que a forma anterior.

E. 9.6 Exercı́cio. Verifique a equivalência das duas formas da equação multiplicando (9.1) por p(x) e
usando o fato que, pela definição, p0 (x) = a1 (x)p(x). 6

• Condições de contorno homogêneas caracterizam um espaço vetorial

Um fato importante sobre problemas com condições de contorno homogêneas e que será implicita-
mente utilizado no que seguirá é o seguinte:
Sejam fixadas as constantes α1 , α2 , β1 e β2 . Se r1 e r2 são duas funções duas vezes diferenciáveis
definidas no intervalo [a, b] tais que ambas satisfazem as condições de contorno homogêneas (9.4)-
(9.5) então qualquer combinação linear de ambas λ1 r1 (x) + λ2 r2 (x) é também uma função duas vezes
diferenciável no intervalo [a, b] que satisfaz as mesmas condições de contorno homogêneas (9.4)-(9.5).

E. 9.7 Exercı́cio. Verifique essa afirmação. 6

Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno homogêneas (9.4)-(9.5) é um espaço vetorial. Esse espaço
será denotado aqui por V(α1 , α2 , β1 , β2 ), ou simplesmente por V, quando não houver confusão.

• Condições de contorno não-homogêneas caracterizam um espaço convexo

Sejam fixadas as constantes α1 , α2 , β1 , β2 , ϕ1 e ϕ2 . Se r1 e r2 são duas funções duas vezes


diferenciáveis definidas no intervalo [a, b] tais que ambas satisfazem as condições de contorno não-
homogêneas (9.2)-(9.3) então qualquer combinação linear convexa de ambas λr 1 (x) + (1 − λ)r2 (x),
0 ≤ λ ≤ 1, é também uma função duas vezes diferenciável no intervalo [a, b] que satisfaz as mesmas
condições de contorno não-homogêneas (9.2)-(9.3).

E. 9.8 Exercı́cio. Verifique essa afirmação. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 526/1195

Em outras palavras, o conjunto de todas as funções duas vezes diferenciáveis definidas no intervalo
[a, b] que satisfazem as condições de contorno não-homogêneas (9.2)-(9.3) é um espaço convexo.

• Uma notação

Como iremos daqui por diante tratar de equações diferenciais da forma (p(x)u0 )0 + q(x)u = f (x),
convem introduzir uma notação simplificadora:

Lu := (p(x)u0 )0 + q(x)u .

L pode ser entendido como o operador diferencial linear


d d
L := p(x) + q(x) .
dx dx
L é linear pois claramente tem-se

L(αu + βv) = αLu + βLv

para quaisquer constantes α e β e quaisquer funções (duas vezes diferenciáveis) u e v.

Após estas observações podemos passar a tratar nosso problema de forma mais sistemática.

9.2 O Problema de Sturm

• Definição do problema

Entende-se como o Problema de Sturm1 o problema de determinar as soluções da equação diferencial

(p(x)u0 )0 + q(x)u = f (x) , (9.19)

para u definida no intervalo fechado finito [a, b] ⊂  , b > a, com as condições de contorno lineares e
homogêneas

α1 u(a) + α2 u0 (a) = 0 , (9.20)

β1 u(b) + β2 u0 (b) = 0 , (9.21)

onde o seguinte estará sendo suposto:

As funções p, q e f são reais e contı́nuas em [a, b].

A função p é diferenciável em [a, b] e estritamente positiva: p(x) > 0, x ∈ [a, b].


1
Jacques Charles François Sturm (1803-1855).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 527/1195

As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).

As condições acima são essenciais mas não delimitam ainda totalmente o Problema de Sturm,
pois é preciso impor restrições que garantam a existência e unicidade de soluções do mesmo. Como
aprendemos do Teorema 9.1, devemos impor ainda que
 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
det   6= 0 , (9.22)
0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b)

onde u1 e u2 são duas soluções independentes quaisquer da equação homogênea Lu = 0.

• Uma observação importante

Essa última restrição tem uma conseqüência que usaremos abaixo quando tratarmos de desenvolver
um método de resolver problemas de Sturm baseado no conceito de função de Green. A conseqüência
da qual falamos é a seguinte:
Proposição 9.1 Com as definições acima, existem funções v1 e v2 , independentes, definidas no inter-
valo [a, b], tais que
Lv1 = 0, Lv2 = 0
e tais que
α1 v1 (a) + α2 v10 (a) = 0 (9.23)
e
β1 v2 (b) + β2 v20 (b) = 0 . (9.24)
2

A demonstração dessa proposição, da qual faremos uso adiante, encontra-se no Apêndice 9.B, página
552.

Uma vez delineado o quadro onde iremos trabalhar, passemos ao importante conceito da função de
Green que nos leva diretamente à solução do problema de Sturm.

9.2.1 Resolvendo o Problema de Sturm. A Função de Green


Além da equação
(p(x)u0 )0 + q(x)u = f (x) , (9.25)
consideremos também a equação diferencial homogênea

(p(x)u0 )0 + q(x)u = 0 . (9.26)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 528/1195

Pela Proposição 9.1, existem soluções independentes v1 e v2 da equação homogênea, tais que v1 e
v2 satisfazem as seguintes condições de contorno:

α1 v1 (a) + α2 v10 (a) = 0 , (9.27)

β1 v2 (b) + β2 v20 (b) = 0 . (9.28)

Note-se que a (9.27) é uma restrição à função v1 no ponto a enquanto que a (9.28) é uma restrição à
função v2 no ponto b. Com o uso dessas funções vamos construir uma solução do problema de Sturm.
Para tal, vamos introduzir a importante definição da função de Green2 . A função de Green é uma
função de duas variáveis G(x, y), onde x ∈ [a, b] e y ∈ [a, b], definida da seguinte forma:


 v1 (x)v2 (y)

 , para a ≤ x ≤ y ≤ b
 p(a)W (a)
G(x, y) := , (9.29)

 v1 (y)v2 (x)


 , para a ≤ y ≤ x ≤ b
p(a)W (a)

onde W (x) é o chamado determinante Wronskiano3 , ou função Wronskiana, definido4 , neste caso, por
 
v1 (x) v10 (x)
W (x) := det   = v1 (x)v20 (x) − v2 (x)v10 (x) . (9.30)
0
v2 (x) v2 (x)

Note-se que, por (9.B.9), W (x) 6= 0 para todo x ∈ [a, b].


Antes de prosseguirmos, vamos demonstrar um fato simples sobre a função Wronskiana, a sa-
ber vamos mostrar que a função p(x)W (x) é constante no intervalo [a, b]. Isso significa provar que
(p(x)W (x))0 = 0. De fato,

(pW )0 = p0 W + pW 0 = p0 (v1 v20 − v10 v2 ) + p (v1 v20 − v10 v2 )0

= p0 (v1 v20 − v10 v2 ) + p (v10 v20 + v1 v200 − v100 v2 − v10 v20 )

= p0 (v1 v20 − v10 v2 ) + p (v1 v200 − v100 v2 )

= v1 (p0 v20 + pv200 ) − v2 (p0 v10 + pv100 )

= v1 (pv20 )0 − v2 (pv10 )0

= −v1 qv2 + v2 qv1

= 0, (9.31)
2
George Green (1793-1841).
3
Conde Josef Hoëné de Wronski (1778-1853).
4
No Apêndice 9.C, página 554, mostramos a relação entre essa definição de determinante Wronskiano e aquela intro-
duzida no Capı́tulo 6, página 292 (vide página 303).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 529/1195

onde, na penúltima igualdade, usamos o fato que v1 e v2 satisfazem a equação homogênea. Assim,
provamos que, para todo x ∈ [a, b], tem-se p(x)W (x) = p(a)W (a) = p(b)W (b).
Dado que as funções v1 e v2 são contı́nuas, é fácil ver que G é igualmente contı́nua no quadrado
Q := [a, b] × [a, b] onde está definida. Entretanto, as derivadas parciais Gx e Gy de G não são
contı́nuas em Q, apresentando uma descontinuidade ao longo da diagonal de Q, que consiste nos
pontos (x, y) ∈ Q com x = y. Como esse fato terá conseqüências adiante, vamos nos dedicar a estudar
essa descontinuidade com mais detalhe.
Dado que v1 e v2 são diferenciáveis, é claro que


 v10 (x)v2 (y)

 , para a ≤ x < y ≤ b
 p(a)W (a)
Gx (x, y) := . (9.32)

 v1 (y)v20 (x)


 , para a ≤ y < x ≤ b
p(a)W (a)

Note que, nesta última expressão, excluı́mos os pontos para os quais x = y, onde G x não está definida.
Entretanto, apesar de Gx não estar definida nesses pontos, os limites lim Gx (x + , x) e lim Gx (x − , x)
→0 →0
existem mas são, porém, distintos, o mesmo se dando com os limites lim Gx (x, x + ) e lim Gx (x, x − ).
→0 →0
Dado que, para qualquer  > 0, tem-se x +  > x e x −  < x, segue que

v1 (x)v20 (x)
lim Gx (x + , x) = (9.33)
→0 p(a)W (a)
e que
v10 (x)v2 (x)
lim Gx (x − , x) = . (9.34)
→0 p(a)W (a)
Analogamente segue que
v1 (x)v20 (x)
lim Gx (x, x − ) = (9.35)
→0 p(a)W (a)
e que
v10 (x)v2 (x)
lim Gx (x, x + ) = . (9.36)
→0 p(a)W (a)
Portanto, segue que

v1 (x)v20 (x) − v10 (x)v2 (x) W (x) 1


lim Gx (x + , x) − lim Gx (x − , x) = = = , (9.37)
→0 →0 p(a)W (a) p(a)W (a) p(x)

pois, como vimos, para qualquer x ∈ [a, b] tem-se p(a)W (a) = p(x)W (x). De maneira idêntica, segue
que
1
lim Gx (x, x − ) − lim Gx (x, x + ) = . (9.38)
→0 →0 p(x)

As relações (9.37) e (9.38) mostram-nos que, de fato, Gx é descontı́nua na diagonal de Q e nos


dizem também quão grande é o salto dado pela função Gx quando se cruza a diagonal de Q no ponto
(x, x).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 530/1195

O fato fundamental a respeito da função de Green é que a função u(x) definida por
Z b
u(x) = G(x, y) f (y) dy (9.39)
a

é tal que u satisfaz a equação não-homogênea (9.19) e satisfaz as condições de contorno (9.20)-(9.21),
ou seja, é a solução do problema de Sturm. Esse fato é conhecido como Teorema de Green e será
provado na próxima sub-seção.

9.2.2 O Teorema de Green


Vamos aqui demonstrar o Teorema de Green mencionado acima. Precisamos para tal calcular

(pu0 )0 + qu = pu00 + p0 u0 + qu

para u(x) dada por (9.39) e demonstrar que isso é igual a f (x). Dado que G tem derivadas parciais
descontı́nuas, é conveniente escrever
Z x Z b
u(x) = G(x, y) f (y) dy + G(x, y) f (y) dy . (9.40)
a x

Em cada um dos pedaços em que quebramos a integral acima tem-se que Gx é contı́nua. Daı́, segue
que
Z x Z b
0
u (x) = G(x, x)f (x) + Gx (x, y) f (y) dy − G(x, x)f (x) + Gx (x, y) f (y) dy
a x

Z x Z b
= Gx (x, y) f (y) dy + Gx (x, y) f (y) dy . (9.41)
a x

E. 9.9 Exercı́cio. Justifique as expressões acima. 6

De forma inteiramente análoga tem-se que


Z x
00
u (x) = lim Gx (x, x − )f (x) + Gxx (x, y) f (y) dy
→0 a

Z b
− lim Gx (x, x + )f (x) + Gxx (x, y) f (y) dy
→0 x

Z x Z b
f (x)
= + Gxx (x, y) f (y) dy + Gxx (x, y) f (y) dy , (9.42)
p(x) a x

onde, na última igualdade, usamos (9.38).

E. 9.10 Exercı́cio. Justifique as expressões acima. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 531/1195

Desta forma, temos que


p(x)
p(x)u00 + p0 (x)u0 + q(x)u = f (x)
p(x)
Z x
+ [p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y)] f (y) dy
a

Z b
+ [p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y)] f (y) dy (9.43)
.
x

Entretanto, temos que

p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y) = 0 , (9.44)

e isto vale tanto para y = [a, x) quanto para y = (x, b]. Para ver isso basta notar, por exemplo, que
para y = [a, x) tem-se que

p(x)Gxx (x, y) + p0 (x)Gx (x, y) + q(x)G(x, y) =

v1 (y)
[p(x)v200 (x) + p0 (x)v20 (x) + q(x)v2 (x)] = 0 , (9.45)
p(a)W (a)
pois, por hipótese, v2 é solução da equação homogênea p(x)v200 (x) + p0 (x)v20 (x) + q(x)v2 (x) = 0. O caso
y = (x, b] é análogo.

E. 9.11 Exercı́cio. Verifique! 6

Assim, retomando a equação (9.43), vemos que

p(x)u00 + p0 (x)u0 + q(x)u = f (x) . (9.46)

Está, portanto, demonstrado que a função u dada por (9.39) é solução da equação diferencial não-
homogênea. Resta provar que essa função u satisfaz as condições de contorno (9.4)-(9.5). Deixamos a
importante verificação desse último fato como exercı́cio.

E. 9.12 Exercı́cio. Mostre que (9.39) satisfaz as condições de contorno (9.4)-(9.5). 6

• O problema de Sturm com condições de contorno não-homogêneas

Com as observações da página 524 podemos encontrar também soluções de problemas de Sturm
(Lu)(x) = f (x) com u satisfazendo condições de contorno não-homogêneas como (9.2)-(9.3).
Seja w é uma função duas vezes diferenciável satisfazendo também (9.11)-(9.12). Defina-se

h(x) := (Lw)(x) .

e seja v a solução da equação


(Lv)(x) = f (x) − h(x) , (9.47)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 532/1195

com as condições de contorno homogêneas

α1 v(a) + α2 v 0 (a) = 0 , (9.48)

β1 v(b) + β2 v 0 (b) = 0 . (9.49)

Então, u = v + w satisfaz Lu = f e as condições não-homogêneas (9.2)-(9.3). Agora, pela solução do


problema de Sturm homogêneo, sabemos que
Z b
v(x) = G(x, y)(f (y) − h(y)) dy,
a

onde G é montada como antes (vide (9.29)) a partir de soluções v1 e v2 da equação homogênea
Lv1, 2 = 0, com v1 e v2 satisfazendo (9.27) e (9.28), respectivamente.
Logo, a solução procurada é
Z b
u(x) = G(x, y)(f (y) − h(y)) dy + w(x)
a

Z b  Z b 
= G(x, y)f (y) dy + w(x) − G(x, y)h(y) dy .
a a

Z b  Z b 
= G(x, y)f (y) dy + w(x) − G(x, y)(Lw)(y) dy . (9.50)
a a

9.3 O Problema de Sturm-Liouville


Seja o intervalo J := [a, b] ⊂  e sejam p, q e r funções reais definidas em J, tais que

p é contı́nua, diferenciável e estritamente positiva em J, ou seja, p(x) > 0 para todo x ∈ [a, b].

q é contı́nua em J.

r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].

Para uma função u definida em J que seja pelo menos duas vezes diferenciável, vamos como ante-
riormente definir o operador diferencial L por (Lu)(x) = (p(x)u0 )0 + q(x)u.
Entende-se por Problema de Sturm-Liouville5 regular6 , ou simplesmente Problema de Sturm-Liouville,
o problema de se determinar a função u definida em J e os números λ tais que a seguinte equação
diferencial seja satisfeita:
Lu + λ r(x)u = 0 , (9.51)
5
Jacques Charles François Sturm (1803-1855). Joseph Liouville (1809-1882). Os trabalhos de ambos sobre o problema
que é hoje conhecido como Problema de Sturm-Liouville foram desenvolvidos entre 1829 e 1837.
6
O problema de Sturm-Liouville singular será tratado brevemente à página 549.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 533/1195

com o seguinte tipo de condição de contorno: vamos estar supondo que existam constantes reais α 1 ,
α2 , β1 e β2 tais que (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0) e tais que o seguinte par de relações deve ser
válido

α1 u(a) + α2 u0 (a) = 0 , (9.52)

β1 u(b) + β2 u0 (b) = 0 . (9.53)

Se λ for um número tal que a equação (9.51) for satisfeita para alguma função u λ (que em geral
dependerá de λ) então diz-se que λ é um autovalor do Problema de Sturm-Liouville e u λ é dito ser a
autofunção associada ao autovalor λ do Problema de Sturm-Liouville. Essa nomenclatura surge por
analogia com os conceitos de autovalor e autovetor de matrizes na álgebra linear.
Muitos problemas de Fı́sica envolvem a solução de problemas de Sturm-Liouville. Fora isso, a
solução de problemas de Sturm-Liouville é útil para a resolução de equações não-homogêneas como

Lu = f (x) (9.54)

para uma função f dada, com condições de contorno como (9.52)-(9.53). A razão para isso reside no
fato que, como veremos, a função de Green associada ao problema de Sturm Lu = f com condições
de contorno como (9.52)-(9.53) pode ser escrita em termos das autofunções e dos autovalores de um
problema de Sturm-Liouville.
Exemplo 9.1 No bem-conhecido problema da corda vibrante, descrevendo o movimento transversal
de uma corda homogênea de densidade ρ > 0 e de comprimento L, estendida entre os pontos a e
b = a + L e submetida a uma tensão T > 0, temos que resolver a equação de ondas
s
2 2
∂ u ∂ u T
2
− c2 2 = 0 , c := ,
∂t ∂x ρ

com x ∈ [a, b], t ∈ . Pelo método de separação de variáveis (vide Seção 8.3.1, página 482), procuramos


soluções da forma u(x, t) = y(x)θ(t) e obtemos para θ a equação θ̈(t) + λc2 θ(t) = 0 e para y a equação

y 00 (x) + λy(x) = 0 , (9.55)

λ sendo uma constante de separação. Se a corda estiver fixa em a e em b, devemos impor as condições
de contorno y(a) = 0 e y(b) = 0. Esse problema de determinar a função y satisfazendo a equação (9.55)
e as condições de contorno acima é um problema de Sturm-Liouville com p(x) = 1, q(x) = 1, r(x) = 1,
(α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0).
No caso a = 0 e b = 0, obtem-se como soluções desse problema de Sturm-Liouville as funções
yn (x) = sen (nπx/L) com λn = (nπ/L)2 para todo n = 1, 2, 3, . . .. ◊
Exemplo 9.2 Na Mecânica Quântica, considere o problema de determinar a função de onda de uma
partı́cula de massa m movendo-se em uma dimensão e constrita a um intervalo finito [a, b] ⊂ por 

barreiras infinitas de potencial em x ≤ a e x ≥ b e sujeita, no intervalo [a, b], a um potencial V (x). A


equação de Schrödinger independente do tempo é
~2 d 2 ψ
(x) − V (x)ψ(x) + Eψ(x) = 0 ,
2m dx2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 534/1195

com x ∈ [a, b], sendo que, devido às barreiras infinitas de potencial, devemos impor as condições
~2
de contorno ψ(a) = 0 e ψ(b) = 0. Trata-se de um problema de Sturm-Liouville com p(x) = 2m ,
q(x) = −V (x), r(x) = 1, λ = E, (α1 , α2 ) = (1, 0) e (β1 , β2 ) = (1, 0). ◊

9.4 Propriedades Básicas dos Autovalores e das Autofunções


de Problemas de Sturm-Liouville
Seja C([a, b]) o conjunto das funções complexas contı́nuas definidas no intervalo [a, b]. É bem sabido
que C([a, b]) é um espaço vetorial. Para cada α1 , α2 , β1 e β2 o espaço V(α1 , α2 , β1 , β2 ), definido à
página 525, é um sub-espaço de C([a, b]).
Um produto escalar complexo em um espaço vetorial complexo V é uma função V × V → , ou
seja, uma função que associa pares de vetores a um número complexo, denotada por h·, ·i e de tal
forma que os seguintes requerimentos sejam observados:

1. hx, xi ≥ 0 para todo x ∈ V .

2. hx, yi = hy, xi, para todos x, y ∈ V .

3. Se hx, xi = 0 então x = 0, onde 0 é o vetor nulo.

4. Se a e b são números complexos quaisquer então

hx, ay + bzi = ahx, yi + bhx, zi . (9.56)

5. Se a e b são números complexos quaisquer então

hax + by, zi = ahx, zi + bhy, zi . (9.57)

Podemos dotar o espaço vetorial C([a, b]) de vários produtos escalares. Dois deles nos interessarão
aqui. Para f , g ∈ C([a, b]) definimos o produto escalar
Z b
hf, gi = f (x) g(x) dx , (9.58)
a

e também o produto escalar Z b


hf, gir = f (x) g(x) r(x) dx , (9.59)
a
onde a função r é a função estritamente positiva caracterizada acima no problema de Sturm-Liouville.

9.4.1 Realidade dos Autovalores. Ortogonalidade de Autofunções


Vamos aqui demonstrar duas propriedades básicas comuns a todos os problemas de Sturm-Liouville.
A saber, vamos mostrar o seguinte teorema.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 535/1195

Teorema 9.2 Os autovalores de um problema de Sturm-Liouville, como descrito acima são sempre
números reais. Fora isso, se uλ1 e uλ2 são duas autofunções associadas a dois autovalores distintos λ 1
e λ2 (λ1 6= λ2 ) então vale que
Z b
huλ1 , uλ2 ir = uλ1 (x) uλ2 (x) r(x) dx = 0 . (9.60)
a

Esta última relação é chamada de relação de ortogonalidade (em relação ao produto escalar h·, ·i r ). 2

Para provar este teorema vamos antes demonstrar o seguinte lema:


Lema 9.1 (Lema de Green) Sejam u e v duas funções definidas em J = [a, b], que sejam pelo menos
duas vezes diferenciáveis e tais que ambas satisfaçam condições de contorno como (9.52)-(9.53), ou
seja, ambas são elementos do espaço vetorial de funções V(α 1 , α2 , β1 , β2 ) (página 525). Então, tem-se
hv, Lui = hLv, ui,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (9.61)
a a
2

Prova do Lema 9.1. Usando-se integração por partes, tem-se


Z b Z b Z b
0 0
v(x) (Lu)(x) dx = v(x)(p(x)u ) dx + v(x)q(x)u(x) dx
a a a

Z b Z b
b
= − v 0 (x)(p(x)u0 ) dx + vpu0 |a + v(x)q(x)u(x) dx
a a

Z Z
b b b
v 0 pu a
b
= u(pv 0 )0 dx + vpu0 |a − + v(x)q(x)u(x) dx
a a

Z b b
u(x) (Lv)(x) dx + vpu0 |a − v 0 pu a .
b
= (9.62)
a
Agora, escrevendo-se explicitamente tem-se que
b
vpu0 |a − v 0 pu a = p(b)v(b)u0 (b) − p(a)v(a)u0 (a) − p(b)v 0 (b)u(b) + p(a)v 0 (a)u(a)
b

   
= p(b) v(b)u0 (b) − v 0 (b)u(b) − p(a) v(a)u0 (a) − v 0 (a)u(a) . (9.63)

Vamos agora provar que os fatores entre parênteses em (9.63) são nulos. Como u e v satisfazem
(9.52)-(9.53), tem-se
         
v(a) v 0 (a) α1 0 v(b) v 0 (b) β1 0
   =   e     =   .
0 α2 0 0 β2 0
u(a) u (a) u(b) u (b)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 536/1195

       
α1 0 β1 0
Como 6 = e 6= devemos ter
α2 0 β2 0
   
v(a) v 0 (a) v(b) v 0 (b)
det   = 0 e det   = 0,
0 0
u(a) u (a) u(b) u (b)
ou seja,
v(a)u0 (a) − v 0 (a)u(a) = 0 e v(b)u0 (b) − v 0 (b)u(b) = 0 .
O lado esquerdo de ambas as expressões são os termos entre parênteses de (9.63). Logo,
b
vpu0 |a − v 0 pu a = 0.
b

Voltando à (9.62), isso completa a demonstração do Lema de Green.

Vamos então passar à

Prova do Teorema 9.2. Para provar que os autovalores de um problema de Sturm-Liouville são reais,
seja λ um autovalor e u a sua correspondente autofunção. Vamos mostrar que
Z b
(λ − λ) u(x) u(x) r(x) dx = 0 . (9.64)
a
Rb
Como u 6= 0 e r > 0 (por hipótese), temos que a u u r(x) dx 6= 0. Portanto, (9.64) diz-nos que
λ − λ = 0, ou seja, que λ é um número real. Para provar (9.64), notemos que
Z b Z b Z b
(λ − λ) u u r(x) dx = u (λu r(x)) dx − λur(x) u dx
a a a

Z b Z b
= − u (Lu) dx + Lu u dx
a a

= 0, (9.65)
pelo Lema de Green. Assim, completamos a demonstração de que os autovalores de um problema de
Sturm-Liouville são números reais.
Vamos agora provar a relação de ortogonalidade (9.60). Para tal, vamos provar que
Z b
(λ1 − λ2 ) uλ1 (x) uλ2 (x) r(x) dx = 0 . (9.66)
a

Como estamos supondo que λ1 6= λ2 , essa relação diz então que (9.60) deve ser verdadeira. Como λ1 e
λ2 são reais, o lado esquerdo de (9.66) pode ser escrito como

Z b Z b
(λ1 r(x)uλ1 (x)) uλ2 (x) dx − uλ1 (x) (λ2 r(x)uλ2 (x)) dx
a a

Z b Z b
= − (Luλ1 (x)) uλ2 (x) dx + uλ1 (x) (Luλ2 (x)) dx = 0 , (9.67)
a a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 537/1195

pelo Lema de Green. A prova do Teorema 9.2 está então completa.

O que vimos no Teorema 9.2 é que autofunções associadas a autovalores distintos de um problema
de Sturm-Liouville são ortogonais entre si em relação ao produto escalar definido em (9.59).
O Lema de Green afirma que L é um operador simétrico em relação ao produto escalar definido em
(9.58) quando age em vetores do sub-espaço V(α1 , α2 , β1 , β2 ).

9.4.2 A Simplicidade dos Autovalores


Se u1 , u2 ∈ V(α1 , α2 , β1 , β2 ) são duas autofunções de um problema de Sturm-Liouville regular com
o mesmo autovalor λ, ou seja, Lu1 + λru1 = 0 e Lu2 + λru2 = 0, então é fácil verificar que qualquer
combinação linear a1 u1 +a2 u2 é também um elemento de V(α1 , α2 , β1 , β2 ) e é também uma autofunção
com autovalor λ: L(a1 u1 +a2 u2 )+λr(a1 u1 +a2 u2 ) = 0. Em outras palavras, o conjunto das autofunções
de um um problema de Sturm-Liouville com um mesmo autovalor é um espaço vetorial.
Uma questão importante sobre problemas de autovalores, como o de Sturm-Liouville, é a questão
da multiplicidade dos autovalores, ou seja, a questão de saber, dado um autovalor λ, qual a dimensão
do espaço vetorial de todas as suas autofunções.
No problema de Sturm-Liouville regular a resposta é simples. A dimensão é sempre igual a 1, ou
seja, os autovalores são simples. A demonstração é a seguinte. Sejam u1 , u2 ∈ V(α1 , α2 , β1 , β2 ) tais
que Lu1 + λru1 = 0 e Lu2 + λru2 = 0 para um dado λ. Considere-se a função
 
u1 (x) u01 (x)
W12 (x) = det   = u1 (x)u02 (x) − u01 (x)u2 (x) .
u2 (x) u02 (x)

Vamos em primeiro lugar mostrar que p(x)W12 (x) é constante no intervalo [a, b], ou seja, que (pW12 )0 =
0. De fato,

(pW12 )0 = p0 W12 + pW012 = p0 (u1 u02 − u01 u2 ) + p (u1 u02 − u01 u2 )0

= p0 (u1 u02 − u01 u2 ) + p (u01 u02 + u1 u002 − u001 u2 − u01 u02 )

= p0 (u1 u02 − u01 u2 ) + p (u1 u002 − u001 u2 )

= u1 (p0 u02 + pu002 ) − u2 (p0 u01 + pu001 )

= u1 (pu02 )0 − u2 (pu01 )0

= −u1 (qu2 + λru2 ) + u2 (qu1 + λru1 )

= 0. (9.68)

Vamos agora mostrar que W12 (b) = 0. Como acabamos que ver que p(x)W12 (x) é constante, isso
implica que p(x)W12 (x) = 0 para todo x ∈ [a, b].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 538/1195

Como as funções u1 e u2 são elementos de V(α1 , α2 , β1 , β2 ), temos em x = b7


    
u1 (b) u01 (b) β1 0
   =   .
u2 (b) u02 (b) β2 0
   
β1 0
Agora, como 6= , segue que
β2 0
 
u1 (b) u01 (b)
det   = 0,
0
u2 (b) u2 (b)

ou seja, W12 (b) = 0.


Pelo que acabamos de provar, p(x)W12 (x) = 0 para todo x ∈ [a, b]. Como p é estritamente positiva,
segue que W12 (x) = 0 para todo x ∈ [a, b], ou seja,
 
u1 (x) u01 (x)
det   = 0,
u2 (x) u02 (x)

para todo x ∈ [a, b]. Isso diz que as duas linhas que formam a matriz acima são, para cada x ∈ [a, b],
proporcionais uma a outra, ou seja, existe γ(x) tal que, por exemplo,

u1 (x) = γ(x)u2 (x) e u01 (x) = γ(x)u02 (x)

para cada x ∈ [a, b]. Derivando a primeira e comparando à segunda, concluı́-se que γ(x) é constante,
ou seja, não depende de x.
Assim, verificamos que as funções u1 e u2 são múltiplas entre si. Com isso, mostramos que se
tivermos duas autofunções com o mesmo autovalor as autofunções são múltiplas uma da outra e o sub-
espaço que ambas geram tem dimensão 1. Em resumo, autovalores de problemas de Sturm-Liouville
regular são sempre simples, ou não-degenerados.

9.4.3 Condições Suficientes para a Positividade dos Autovalores


Em muitas aplicações de interesse fı́sico ocorre que os autovalores são (ou precisem ser) números
positivos. Vamos apresentar agora um conjunto de condições que são suficientes para garantir isso.
Proposição 9.2 Se forem simultaneamente válidas as condições

1. q(x) ≤ 0 para todo x ∈ [a, b],

2. α1 α2 ≤ 0,

3. β1 β2 ≥ 0,
7
Um argumento análogo funciona também em x = a.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 539/1195

então todos os autovalores λ do problema de Sturm-Liouville correspondente são estritamente positivos:


λ > 0. 2

Prova. A demonstração é um tanto indireta. Seja u uma autofunção com autovalor λ, ou seja,

(pu0 )0 + qu + λru = 0 .

Multiplicando-se essa igualdade por u e integrando-se entre a e b, tem-se


Z b Z b Z b
2 0 0
λ |u(x)| r(x) dx = − u(x)(pu ) (x) dx − |u(x)|2 q(x) dx . (9.69)
a a a

Vamos agora integrar por partes a primeira integral do lado direito. Temos,
Z b b Z b
0 0 0
u(x)(pu ) (x) dx = u(x)(pu )(x) − |u0 (x)|2 p(x) dx .
a a a

Substituindo em (9.69), tem-se


Z b Z b h i
2 0 2 2
 0 0
λ |u(x)| r(x) dx = |u (x)| p(x) − |u(x)| q(x) dx + p(a)u(a)u (a) − p(b)u(b)u (b) . (9.70)
a a

As três integrais acima são números reais. Portanto, vale, tomando-se a parte real da expressão,
Z b Z b h    i

λ 2
|u(x)| r(x) dx = |u0 (x)|2 p(x) − |u(x)|2 q(x) dx+ p(a) Re u(a)u0 (a) − p(b) Re u(b)u0 (b) .
a a
(9.71)
0
No ponto a u satisfaz α1 u(a) + α2 u (a) = 0. Multiplicando-se essa expressão pelo seu complexo
conjugado, tem-se  
α12 |u(a)|2 + α22 |u0 (a)|2 + 2α1 α2 Re u(a)u0 (a) = 0 ,
ou seja,   
2α1 α2 Re u(a)u0 (a) = − α12 |u(a)|2 + α22 |u0 (a)|2 . (9.72)
Analogamente, para o ponto b,
  
2β1 β2 Re u(b)u (b) = − β12 |u(b)|2 + β22 |u0 (b)|2 .
0
(9.73)

Consideremos agora que α1 α2 < 0 e β1 β2 > 0.


 
A expressão (9.72) nos ensina que α1 α2 e Re u(a)u0 (a) têm sinais opostos e (9.73) que β1 β2 e
 
Re u(b)u0 (b) têm sinais opostos. Assim, se tivermos q(x) ≤ 0 para todo x ∈ [a, b], α1 α2 < 0 e
Rb
β1 β2 > 0 a soma do lado direito de (9.71) será estritamente positiva. Como a |u(x)|2 r(x) dx > 0, já
que r é também por hipótese estritamente positiva, segue de (9.71) que λ > 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 540/1195

Se α1 α2 = 0, então u(a)u0 (a) = 0 (por que?). Assim, se adicionalmente tivermos q(x) ≤ 0 para
todo x ∈ [a, b] e β1 β2 > 0, então a soma do lado direito de (9.71) será estritamente positiva, o que
implica λ > 0.
Analogamente, se β1 β2 = 0, então u(b)u0 (b) = 0 (por que?). Assim, se adicionalmente tivermos
q(x) ≤ 0 para todo x ∈ [a, b] e α1 α2 < 0, então teremos novamente λ > 0. Por fim, se α1 α2 = 0 e
β1 β2 = 0, então u(a)u0 (a) = 0 e u(b)u0 (b) = 0. Assim, com q(x) ≤ 0 para todo x ∈ [a, b] teremos
novamente λ > 0.

• Comentário sobre autovalores negativos

É importante dizer aqui que existem problemas de Sturm-Liouville regulares onde ocorrem autovalo-
res negativos (vide exercı́cio-exemplo abaixo). No Teorema 9.3, página 541, mostraremos que apesar de
ser possı́vel a existência de autovalores negativos, os mesmos não podem ser arbitrariamente negativos,
ou seja, negativos mas com módulo |λ| arbitrariamente grande. Provaremos que existe uma constante
M tal que λ ≥ M . A constante M pode ser positiva, negativa ou nula. Em verdade, em um problema
de Sturm-Liouville regular pode ocorrer no máximo um número finito de autovalores negativos.

• Um Exemplo

E. 9.13 Exercı́cio-exemplo. Seja o problema de Sturm-Liouville u 00 + λu = 0, no intervalo [0, 1], com


as condições de contorno u(0) = 0 e β1 u(1) + β2 u0 (1) = 0.
Aqui p(x) = 1, q(x) = 0, r(x) = 1, α1 = 1 e α2 = 0. A identidade (9.71) fica
Z b Z b  
2 0 2 0
λ |u(x)| dx = |u (x)| dx − Re u(b)u (b) . (9.74)
a a

Caso β1 = 0, teremos u0 (b) = 0. Caso β2 = 0, teremos u(b) = 0. Nesses dois casos, (9.74) fica
Z b Z b
λ 2
|u(x)| dx = |u0 (x)|2 dx ,
a a

que garante que λ > 0.


No caso em que β1 e β2 são não-nulos, (9.73) diz-nos que
Z b Z b
1 
λ 2
|u(x)| dx = |u0 (x)|2 dx + β12 |u(b)|2 + β22 |u0 (b)|2 . (9.75)
a a 2β1 β2
Como se vê, se β1 β2 > 0 tem-se λ > 0, mas se β1 β2 < 0 poderemos ter autovalores negativos. Abaixo
(item f), veremos que isso de fato ocorre caso −β12 < β2 β1 < 0.

a. No caso β1 = 0 mostre que os autovalores são λn = (n + 12 )2 π 2 , n = 0, 1, 2, . . ..

b. No caso β2 = 0 mostre que os autovalores são λn = n2 π 2 , n = 1, 2, 3, . . ..

c. Determine as autofunções nessas duas situações.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 541/1195

d. No caso em que β1 e β2 são não-nulos mostre que os autovalores positivos são as (infinitas!) soluções
de
√ β1 √
λ = − tan( λ) .
β2
Mostre graficamente que essa equação tem infinitas soluções quer ββ21 > 0 ou quer ββ12 < 0.
e. Para o caso β1 = −β2 mostre que também ocorre o autovalor λ = 0, cuja autofunção é u(x) = αx, α
sendo uma constante arbitrária não nula.
f. Mostre que se 0 < − ββ21 < 1, ou seja, se −β12 < β2 β1 < 0, ocorre também um (único!) autovalor
negativo, o qual é solução de
√ β1 √
−λ = − tanh( −λ) .
β2
Mostre graficamente que essa equação não tem solução se 0 > − ββ12 ou se − ββ21 > 1.
g. Reunindo os resultados obtidos, indique no plano Cartesiano (β 1 , β2 ) a região onde os autovalores
são estritamente positivos, a região onde ocorre o autovalor zero e a região onde ocorrem também
autovalores negativos além dos autovalores positivos.

• Um Limite Inferior para os Autovalores

Ainda sobre os autovalores de problemas de Sturm-Liouville regulares, o seguinte teorema pode ser
demonstrado.
Teorema 9.3 Seja o problema de Sturm-Liouville (regular) definido pela equação
Lu + λ r(x)u = 0,
onde p, q e r funções reais definidas em [a, b], tais que p é contı́nua, diferenciável e estritamente
positiva em [a, b], ou seja, p(x) > 0 para todo x ∈ [a, b]; q é contı́nua em [a, b]; r é contı́nua e
estritamente positiva em [a, b], ou seja, r(x) > 0 para todo x ∈ [a, b]; com as condições de contorno
α1 u(a) + α2 u0 (a) = 0 , β1 u(b) + β2 u0 (b) = 0
para (α1 , α2 ) 6= (0, 0), (β1 , β2 ) 6= (0, 0).
Então existe uma constante M , que depende (em geral de forma muito complicada) das funções p,
q e r e das constante α1, 2 e β1, 2 , tal que todos os autovalores λ satisfazem
λ ≥ M.
2

A constante M pode ser positiva, negativa ou nula. O que esse teorema diz é que existe um
limitante inferior para os autovalores de um problema de Sturm-Liouville, ou seja, os mesmos podem
até ser eventualmente negativos, mas não arbitrariamente negativos. A demonstração 8 desse teorema
é apresentada no Apêndice 9.E, página 556.
8
Essa demonstração pode ser omitida numa primeira leitura.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 542/1195

9.5 A Equação Integral de Fredholm


Um dos passos mais úteis para se estudar um problema de Sturm-Liouville consiste em transformá-lo
em uma equação integral. Como veremos, isso pode ser feito caso 0 não seja um possı́vel autovalor.
Considere o problema de Sturm-Liouville de determinar as soluções de

Lu = −λ r(x) u, (9.76)

que satisfaçam as condições de contorno (9.52)-(9.53). Se λ = 0 não for um autovalor desse problema,
ou seja, se Lu = 0 com as condições de contorno (9.52)-(9.53) possuir apenas a solução trivial u = 0,
então o problema de Sturm Lu = f com as condições de contorno (9.52)-(9.53) possui solução única.
Isso é elementar de se ver, pois se u1 e u2 são duas soluções, então L(u1 − u2 ) = 0, sendo que u1 − u2
obviamente satisfaz (9.52)-(9.53). Pelo pressuposto, u1 − u2 = 0.
Z b
Agora, pelo Teorema de Green, u(x) = G(x, y) f (y)dy é solução de Lu = f com as condições
a
de contorno (9.52)-(9.53) e, portanto, essa é a única solução. Assim sob a hipótese que λ = 0 não é
um autovalor do problema de Sturm-Liouville, toda Z função u que satisfaz Lu = f com as condições
b
de contorno (9.52)-(9.53) satisfaz também u(x) = G(x, y) f (y)dy para qualquer que seja a função
a
contı́nua f .
Disso concluı́mos que a função u que satisfaz a equação diferencial (9.76) satisfaz também
Z b
u(x) = −λ G(x, y) r(y) u(y) dy , (9.77)
a

isto é, definindo-se


k(x, y) := −G(x, y) r(y) (9.78)
para x, y ∈ [a, b], vale
Z b
u(x) = λ k(x, y) u(y) dy . (9.79)
a
Uma equação como esta onde a função k(x, y) é contı́nua em um intervalo fechado é conhecida como
Equação Integral de Fredholm linear homogênea, ou simplesmente Equação Integral de Fredholm 9 . O
estudo da equação integral de Fredholm é um dos capı́tulos importantes da Análise Funcional e da
Teoria das Equações Integrais. Iremos aqui tratar aqui apenas de aspectos básicos da mesma que
mais diretamente nos interessam. O leitor poderá encontrar mais material sobre a equação integral de
Fredholm não-linear na Seção 14.2, página 787, assim como na Seção 23.6, página 1100, para o caso
linear.
Seja o espaço vetorial C(J) introduzido acima, de todas as funções contı́nuas definidas no intervalo
J = [a, b]. Podemos então, com o auxı́lio da função k(x, y) dada em (9.78), definir em C(J) um
operador linear K dado por Z b
(Kf )(x) := k(x, y) f (y) dy . (9.80)
a
9
Erik Ivar Fredholm (1866-1927). O trabalho de Fredholm sobre operadores integrais é “Sur une class d’equations
fonctionelles”, Acta Math. 27, 365-390 (1903).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 543/1195

x ∈ J. O operador K é denominado operador de Fredholm. A equação (9.79) diz-nos então que


1
Ku = u. (9.81)
λ

A respeito desse operador K podemos provar o seguinte resultado. Tomando-se em C(J) o produto
escalar h·, ·ir definido acima, temos

hf, Kgir = hKf, gir (9.82)

para todo f , g ∈ C(J).

E. 9.14 Exercı́cio. Mostre esse fato. Para isso use que a função de Green satisfaz G(x, y) = G(y, x).
6

Um operador linear que satisfaz uma relação como (9.82) é dito ser um operador simétrico ou
Hermiteano, um conceito de grande importância em Fı́sica e Matemática. O operador K é então um
operador simétrico em relação ao produto escalar h·, ·ir .
Se A é um operador linear agindo em um espaço vetorial complexo V , dizemos que um vetor
não-nulo x é um autovetor de A se houver um número (real ou complexo) α tal que

Ax = α x. (9.83)

O número α é dito ser um autovalor de A e x o autovetor associado a α. O conjunto de todos os


autovalores de um operador linear A é chamado de espectro pontual10 de A.
Um fato importante sobre operadores simétricos é o seguinte: se α é um autovalor de um operador
simétrico A que age em um espaço vetorial complexo V , então α é um número real. Para ver isso note
que se x é o autovetor associado a α então temos que, como A é simétrico

0 = hx, Axi − hAx, xi = λhx, xi − λhx, xi = (λ − λ)hx, xi .

Como x 6= 0, isso implica λ = λ, ou seja, λ é real.


O fato de o operador de Fredholm K ser simétrico significa que seus autovalores são números reais.
Note-se que a equação de Fredholm (9.81) é precisamente uma equação de autovalores, o autovalor
sendo, nesse caso, o número 1/λ. O que provamos acima diz-nos então que λ dever ser um número
real, uma outra demonstração de um fato que já sabı́amos.
O seguinte teorema pode ser demonstrado sobre o operador de Fredholm associado a um problema
de Sturm-Liouville:
Teorema 9.4 Seja K o operador de Fredholm associado a um problema de Sturm-Liouville, que su-
pomos não admitir autovalor nulo. Então K é um operador contı́nuo. Seus autovalores formam um
conjunto discreto (ou seja, contável) {αn ∈ , n ∈ }. Os valores da seqüência dos αn são limitados
 

(não divergem para ±∞), apenas um número finito deles pode ser negativo e eles se acumulam apenas
10
O conceito geral de espectro de operadores definidos em espaços de Banach é detalhadamente discutido na Seção
23.5, página 1091.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 544/1195

1
no ponto 0. Assim, tem-se que lim = +∞. Além disso, os autovalores αn são simples: existe para
n→∞ αn
cada autovalor αn apenas uma autofunção un tal que

K u n = α n un . (9.84)

Denotemos por Hr o espaço de Hilbert de todas as funções em J = [a, b] tais que


Z b
|f (x)|2 r(x) dx < ∞. (9.85)
a

Nesse espaço de Hilbert o produto escalar considerado é o produto escalar h·, ·i r definido acima. Vamos
supor que as autofunções un são normalizadas, ou seja, satisfazem hun , un ir = 1. Então o conjunto
das autofunções normalizadas un de K forma uma base ortonormal completa em Hr , ou seja, todo
vetor f ∈ Hr pode ser escrito como
N
X ∞
X
f = lim cn un =: c n un , (9.86)
N →∞
n=1 n=1

onde Z b
cn := hun , f ir = un (x) f (x) r(x) dx . (9.87)
a
Mais precisamente, vale

* N
! N
!+
X X
lim f− c n un , f− c n un
N →∞
n=1 n=1 r

Z b XN
2


= lim f (x) − cn un (x) r(x) dx = 0 . (9.88)
N →∞ a
n=1

A demonstração deste teorema é elaborada e será apresentada ao longo da Seção 23.6, página 1100,
do Capı́tulo 23. O que faremos é mostrar que o operador de Fredholm K é um operador compacto e
auto-adjunto e para tais operadores valem as propriedades espectrais mencionadas acima. A afirmação
(9.86)-(9.88), por exemplo, é parte do chamado Teorema Espectral, o qual vale para operadores com-
pactos e auto-adjuntos, como mostrado no Teorema 23.29 da página 1116.
Notemos algumas conseqüências do teorema acima. Como os autovalores de um problema de Sturm-
Liouville regular λn são da forma λn = 1/αn , onde αn é um autovalor de K, o teorema acima diz-nos
que podemos ordenar os λn ’s em ordem crescente:

−∞ < λ1 < λ2 < λ3 < · · · (9.89)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 545/1195

com lim λn = +∞. Uma segunda conseqüência de importância relaciona o problema de Sturm-
n→∞
Liouville com a função de Green. Seja u um vetor arbitrário de Hr . Como dissemos, podemos escrever
N
u = lim uN , onde uN = Σ cn un , onde os cn ’s são dados por (9.87). Como K é contı́nuo, temos que
N →∞ n=1

(Ku)(x) = lim (KuN )(x) =


N →∞

N
X
= lim cn (Kun )(x)
N →∞
n=1

N
X 1
= lim cn un (x)
N →∞
n=1
λn

XN Z b 
1
= lim un (y)u(y)r(y) dy un (x)
N →∞
N =1
λn a

Z N
!
b X un (x)un (y)
= r(y) lim u(y) dy . (9.90)
a N →∞
n=1
λn
Rb
Por outro lado sabemos que, pela definição, (Ku)(x) = − a
G(x, y)r(y) u(y). Como ambas relações
valem para qualquer u ∈ Hr , concluı́mos que

X un (x)un (y)
G(x, y) = − . (9.91)
n=1
λn

É possı́vel demonstrar, o que não faremos aqui, que a soma do lado direito da última expressão é absoluta
e uniformemente convergente. A relação (9.91), que é por vezes chamada fórmula de Mercer 11 , mostra
que a função de Green de um problema de Sturm pode ser escrita como uma expansão envolvendo
autovalores e autofunções de um problema de Sturm-Liouville. Esse fato é relevante tanto na prática
da resolução de equações diferenciais quando na obtenção de resultados qualitativos sobre a natureza
das soluções. Estudaremos adiante algumas dessas aplicações.

9.6 Uma Aplicação do Problema de Sturm-Liouville


Vamos aqui tratar do problema de encontrar as soluções da equação diferencial não-homogênea

Lu + γr(x)u = f (x) , (9.92)

onde a solução u está ainda sujeita às condições de contorno homogêneas (9.52)-(9.53). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
11
T. Mercer. “Functions of positive type and their connection with the theory of integral equations”. Transactions
London Phil. Soc. (A) 209, 415-446 (1909).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 546/1195

mencionadas no inicio desta capı́tulo. A função f será assumida ser uma função real e contı́nua e γ é
assumido ser um número real dado.
Como veremos, a solução pode ser obtida com uso das autofunções e autovalores do problema de
Sturm-Liouville
Lu + λr(x)u = 0
com condições de contorno homogêneas do tipo (9.4)-(9.5). Chamaremos esse problema de problema de
Sturm-Liouville associado (ao problema (9.92)). Novamente estaremos aqui supondo que o problema
de Sturm-Liouville associado não tem solução com autovalor λ = 0.
Com o uso da representação da função de Green em termos dos autovalores e autofunções do
problema de Sturm-Liouville associado (fórmula de Mercer, (9.91)), vamos mostrar como podemos
encontrar uma expressão para a solução desse problema.
A equação diferencial (9.92) pode ser escrita como
Lu = −γr(x)u + f . (9.93)
Usando, como fizemos anteriormente, o Teorema de Green, podemos dizer que a função u(x) que satisfaz
esta equação diferencial satisfaz também a equação integral
Z b Z b
u(x) = −γ G(x, y)r(y)u(y) dy + G(x, y)f (y) dy . (9.94)
a a

Definamos Z b
g(x) := G(x, y)f (y) dy . (9.95)
a
Usando a fórmula de Mercer para a função de Green, podemos escrever (9.94) como
X∞
hu, un ir
u(x) = γ un (x) + g(x) . (9.96)
n=1
λ n

E. 9.15 Exercı́cio. Mostre isso. 6

Tomando-se o produto escalar de ambos os lados da igualdade com o vetor um , tiramos que
 
γ
1− hum , uir = hum , gir . (9.97)
λm

Aplicando agora a fórmula de Mercer à definição de g em (9.95), tiramos que


X∞ Z b 
1
g(x) = − un (y) f (y) dy un (x) , (9.98)
n=1 n
λ a

e, portanto, que Z b
1
hum , gir = − um (y) f (y) dy , (9.99)
λm a
ou seja,
1
hum , gir = − hum , f i . (9.100)
λm
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 547/1195

E. 9.16 Exercı́cio. Mostre esses dois últimos resultados. 6

Até agora não fizemos quaisquer restrições a respeito da constante γ que aparece na equação dife-
rencial não-homogênea (9.92). Há dois casos a supor. Aquele em que γ não é igual a nenhum autovalor
λm do problema de Sturm-Liouville associado e aquele caso em que γ = λs , para algum autovalor λs
do problema de Sturm-Liouville associado.
Caso I. γ não é um autovalor.
Nesse caso as relações (9.97) e (9.99) dizem-nos que
Z b
1
hu, um ir = um (y) f (y) dy (9.101)
γ − λm a

e, portanto, temos que


∞ 
X Z b 
1
u(x) = um (y) f (y) dy um (x) . (9.102)
m=1
γ − λm a

Esta fórmula dá-nos a solução do problema termos das autofunções e autovalores do problema do
Sturm-Liouville associado e mostra-nos uma das razões que tornam importante a solução do mesmo
problema de Sturm-Liouville. A série do lado direito converge absoluta e uniformemente em J.
Caso II. γ = λs para algum s.
Neste caso o problema tratado nem sempre tem soluções. Para ver isso, note que, supondo-se a
existência de uma solução, a relação (9.97) diz-nos neste caso que hu s , gir = 0, ou seja, por (9.100)
Z b
hum , f i = us (y) f (y) dy = 0 . (9.103)
a

Caso a função f seja tal que (9.103) não é satisfeita, então nenhuma solução é possı́vel para o
problema tratado. Se f , porém, for tal que (9.103) seja válida, teremos que a função û dada por
∞ 
X Z b 
1
û(x) = um (y) f (y) dy um (x) (9.104)
m=1
γ − λm a
m6=s

é uma solução do problema tratado.

E. 9.17 Exercı́cio. Prove esta última afirmativa seguindo passos semelhantes aos do caso I. 6

A solução mais geral, porém, é dada por

u(x) = cus (x) + û(x) , (9.105)

onde c é uma constante arbitrária, a ser determinada por alguma imposição adicional qualquer a ser
feita ao problema.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 548/1195

E. 9.18 Exercı́cio. Mostre que esta função u é de fato uma solução (substitua na equação (9.92) e
verifique também se as condições de contorno são satisfeitas). Mostre que não pode haver solução mais
geral que esta. Para isso use o fato que o autovalor λs é simples. 6

• O caso de condições de contorno não-homogêneas

Vamos aqui discutir brevemente uma generalização do problema anterior. Procuramos uma solução
da equação diferencial não-homogênea
Lu + γr(x)u = f (x) , (9.106)
onde a solução u está ainda sujeita às condições de contorno não-homogêneas (9.2)-(9.3). Acima, o
operador L é definido como anteriormente e assumimos para as funções p, q e r as mesmas condições
mencionadas no inı́cio destas notas. A função f será assumida ser uma função real e contı́nua e γ será
assumido ser um número real dado.
Esse problema pode ser resolvido combinando métodos que já discutimos. Em primeiro lugar
constrói-se uma função w que seja duas vezes diferenciável e satisfaça as condições não-homogêneas
(9.2)-(9.3).
Procura-se então uma supostamente existente solução v da equação
Lv + γr(x)v = h(x) , (9.107)
com
h(x) = f (x) − (L + γr(x))w(x) ,
que satisfaça as condições de contorno homogêneas (9.4)-(9.5). Uma tal solução pode ser obtida pelos
métodos da Seção 9.6, página 545.
É claro, então, que u = v + w satisfará
Lu + γr(x)u = f (x) (9.108)
e as condições de contorno não-homogêneas (9.2)-(9.3).
Como vimos, para a solução v exista é necessário que γ não seja um autovalor do problema de
Sturm-Liouville associado. Caso γ seja um autovalor, só teremos solução se hu γ , hi = 0, ou seja,
huγ , f i = huγ , (L + γr)wi . (9.109)
Vale observar que
huγ , (L + γr)wi = huγ , Lwi + hγruγ , wi = huγ , Lwi − hLuγ , wi .
Note que o lado direito não é forçosamente zero, pois aqui o Lema de Green não se aplica, já que w não
é elemento do espaço vetorial V(α1 , α2 , β1 , β2 ) das funções que satisfazem as condições de contorno
homogêneas (9.4)-(9.5). A condição (9.109) fica, então,
huγ , f i = huγ , Lwi − hLuγ , wi .

Nesse caso de γ ser um autovalor podemos, como já observamos, acrescentar à solução û um múltiplo
da autofunção uγ , obtendo a solução mais geral na forma cuγ (x) + û(x).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 549/1195

9.7 Comentários Finais

9.7.1 O Problema de Sturm-Liouville Singular


Vamos aqui discutir brevemente uma variante do problema de Sturm-Liouville regular que consiste no
problema de determinar as soluções da equação diferencial

(p(x)u0 )0 + q(x)u + λr(x)u(x) = 0 (9.110)

para u definida no intervalo fechado finito [a, b] ⊂  , b > a, com as seguintes condições de contorno

u(a) e u0 (a) são finitas, (9.111)

β1 u(b) + β2 u0 (b) = 0 , (9.112)

onde o seguinte estará sendo suposto:

As funções p, q e r são reais e contı́nuas em [a, b].


A função p é diferenciável em [a, b] e positiva: p(x) > 0 para x ∈ (a, b] mas se anula em x = a:
p(a) = 0
r é contı́nua e estritamente positiva em J, ou seja, r(x) > 0 para todo x ∈ [a, b].
As constantes α1 , α2 , β1 e β2 são reais e tais que (α1 , α2 ) 6= (0, 0) e (β1 , β2 ) 6= (0, 0).

Como se percebe, a distinção básica entre este problema e o anteriormente tratado reside no fato
de que agora p(x) se anula no ponto a. O fato de p anular-se em a implica que a solução pode ser
singular nesse ponto. Daı́, nenhuma condição de contorno pode ser fixada para o ponto x = a, exceto
que a solução e sua derivada não sejam divergentes naquele ponto (se isso for desejado).
Um exemplo fı́sico que conduz a esse tipo de situação é o problema das oscilações de uma corda de
densidade constante ρ e comprimento L, suspensa verticalmente em um campo gravitacional constante
(a aceleração da gravidade sendo g) e presa em uma das suas extremidades, a outra ficando livre. Esse
problema é resolvido na Seção 8.3.4, página 499. Se x representa a altura e o ponto onde uma as
extremidades fica presa é x = L, então a equação que descreve o problema é
 
∂ ∂u ∂2u
gx =
∂x ∂x ∂t2
com as condições de contorno u(0, t) e u0 (0, t) finitas e u(L, t) = 0. Usando o método de separação
de variáveis e adotando-se u(x, t) = v(x)w(t), obtem-se para w a equação

ẅ(t) + λw(t) = 0

e para v
(gxv 0 )0 + λv = 0 ,
com v(L) = 0 e com v(0) e v 0 (0) finitos. Aqui λ é√uma constante arbitrária a ser determinada pelas
condições de contorno. A solução é vn (x) = cn J0 (2 λn x), onde J0 é a função de Bessel de ordem zero,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 550/1195

0 2
cn é uma constante e λn é o n-ésimo autovalor, dado por λn = (α4L
n)
, onde αn0 é o n-ésimo zero de J0 no
semi-eixo real positivo. Para um tratamento detalhado desse problema, vide Seção 8.3.4, página 499.
O problema para v é claramente um problema de Sturm-Liouville do tipo mencionado acima, já que
p(x) = gx se anula em x = 0.
Esse tipo de problema de Sturm-Liouville é, por vezes, denominado Problema de Sturm-Liouville
singular, e para ele nem sempre valem os mesmos resultados que no caso anteriormente tratado, o dos
problemas de Sturm-Liouville regulares. Por exemplo, nem sempre pode ser garantida a existência de
autovalores e autovetores (ou seja, de soluções para o problema). Isso pode ser visto explicitamente no
exemplo tratado no Apêndice 9.D, página 555.
Mesmo assim, os problemas de Sturm-Liouville singulares, quando solúveis, compartilham algumas
propriedades com os problemas regulares, tais como a realidade dos autovalores e a ortogonalidade das
autofunções.
De fato, é fácil ver que o Lema de Green também vale nesse caso. Seja V(β1 , β2 ) o espaço vetorial
de todas as funções f duas vezes diferenciáveis definidas no intervalo [a, b] tais que β 1 f (b) + β2 f 0 (b) = 0
e que sejam finitas em x = a. Então, se u e v são elementos de V(β1 , β2 ) tem-se
hv, Lui = hLv, ui ,
ou seja, Z Z
b b
v(x) (Lu)(x) dx = (Lv)(x) u(x) dx . (9.113)
a a
De fato, como em (9.62) e (9.63), página 535, tem-se

Z b Z b
v(x) (Lu)(x) dx = u(x) (Lv)(x) dx
a a
   
+ p(b) v(b)u0 (b) − v 0 (b)u(b) − p(a) v(a)u0 (a) − v 0 (a)u(a) . (9.114)

O último termo é zero, pois p(a) = 0 e v(a)u0 (a) − v 0 (a)u(a) é finito. O termo v(b)u0 (b) − v 0 (b)u(b) é
nulo pelo mesmo argumento apresentado quando da primeira demonstração do Lema de Green, para o
caso regular (vide página 535 e seguintes).
Uma vez demonstrado o Lema de Green para o problema singular, segue de maneira totalmente
análoga ao que demonstramos no caso regular que os autovalores são reais e que autofunções de auto-
valores distintos são ortogonais entre si em relação ao produto escalar h·, ·ir :
Z b
huλ , uλ0 ir = uλ (x) uλ0 (x) r(x) dx = 0
a

se λ 6= λ0 . Não repetiremos a demonstração aqui e remetemos o leitor à página 536 onde isso foi feito
no caso regular.

E. 9.19 Exercı́cio. Mostre que, assim como no caso regular, os autovalores, se existirem, são simples.
Para isso estude a demonstração para o caso regular da Seção 9.4.2, página 537, e verifique que a mesma
também se aplica ao caso singular. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 551/1195

Apêndices

9.A Prova do Teorema 9.1. Existência e Unicidade


Abaixo faremos uso da notação e de resultados do Capı́tulo 6, página 292.
A equação u00 + a1 (x)u0 + a0 (x)u = g(x) é equivalente à equação de primeira ordem

Y 0 (x) = A(x)Y (x) + G(x)

onde      
y1 (x) 0 1 0
Y (x) =  , A(x) =   , G(x) =   ,
y2 (x) −a0 (x) −a1 (x) g(x)
0
com as identificações u(x) = y1 (x), u (x) = y2 (x).
A solução é da forma
Z x
Y (x) = D(x, x0 )Yx0 + D(x, y)G(y) dy ,
x0

onde Yx0 = Y (x0 ), x0 arbitrário.


É fácil ver daı́ que a solução geral da equação u00 + a1 (x)u0 + a0 (x)u = g(x) é da forma

u(x) = A1 u1 (x) + A2 u2 (x) + up (x) ,

onde A1 e A2 são constantes, u1 e u2 são soluções independentes da equação homogênea u00 + a1 (x)u0 +
a0 (x)u = 0 e up é uma solução particular da equação não-homogênea u00 + a1 (x)u0 + a0 (x)u = g(x).
Desejamos impor as condições de contorno

α1 u(a) + α2 u0 (a) = ϕ1 , (9.A.1)

β1 u(b) + β2 u0 (b) = ϕ2 , (9.A.2)

à solução. Isso implica

α1 (A1 u1 (a) + A2 u2 (a) + up (a)) + α2 (A1 u01 (a) + A2 u02 (a) + u0p (a)) = ϕ1 , (9.A.3)

β1 (A1 u1 (b) + A2 u2 (b) + up (b)) + β2 (A1 u01 (b) + A2 u02 (b) + u0p (b)) = ϕ2 . (9.A.4)

Esse par de equações pode ser escrito em forma matricial como


    
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) A1 ϕ1 − α1 up (a) − α2 u0p (a)
   =  . (9.A.5)
0 0 0
β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b) A2 ϕ2 − β1 up (b) − β2 up (b)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 552/1195

E. 9.20 Exercı́cio. Verifique. 6

Essa última equação (cujas incógnitas são A1 e A2 ) tem solução única se e somente se
 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
 
β1 u1 (b) + β2 u01 (b) β1 u2 (b) + β2 u02 (b)

for uma matriz invertı́vel, ou seja, se


 
α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a)
det   6= 0 .
β1 u1 (b) + β2 u01 (b) β1 u2 (b) + β2 u02 (b)

Isso é o que querı́amos provar.

9.B Prova da Proposição 9.1


Pelas hipóteses mencionadas, existem funções u1 e u2 independentes entre si que são soluções de Lu = 0
e satisfazem (9.22). Sejam c11 , c12 , c21 , c22 definidas por
    
c11 c12 α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) 0 −1
  :=   
0 0
c21 c22 β1 u1 (b) + β2 u1 (b) β1 u2 (b) + β2 u2 (b) 1 0
 
α1 u2 (a) + α2 u02 (a) −(α1 u1 (a) + α2 u01 (a))
=   . (9.B.6)
β1 u2 (b) + β2 u02 (b) −(β1 u1 (b) + β2 u01 (b))
Note-se que
     
c11 c12 α1 u1 (a) + α2 u01 (a) α1 u2 (a) + α2 u02 (a) 0 −1
det   = det   det   6= 0 (9.B.7)
c21 c22 β1 u1 (b) + β2 u01 (b) β1 u2 (b) + β2 u02 (b) 1 0

por (9.22).
Sejam as funções v1 (x) e v2 (x) definidas por
    
v1 (x) c11 c12 u1 (x)
  =    .
v2 (x) c21 c22 u2 (x)

Pela definição,       
Lv1 c11 c12 Lu10
  =    =   ,
Lv2 c21 c22 Lu2 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 553/1195

pois Lu1 = Lu2 = 0. Além disso,


    
v1 (x) v10 (x) c11 c12 u1 (x) u01 (x)
  =    (9.B.8)
v2 (x) v20 (x) c21 c22 u2 (x) u02 (x)
e como  
u1 (x) u01 (x)
det   6= 0 ,
u2 (x) u02 (x)
pois u1 e u2 são independentes, segue de (9.B.7) que
 
v1 (x) v10 (x)
det   6= 0 , (9.B.9)
0
v2 (x) v2 (x)

para todo x ∈ [a, b], provando que v1 e v2 são também independentes.


Tem-se de (9.B.8)
    
α1 v1 (x) + α2 v10 (x) v1 (x) v10 (x) α1
  =   
α1 v2 (x) + α2 v20 (x) v2 (x) v20 (x) α2
   
c11 c12 u1 (x) u01 (x) α1
=    
c21 c22 u2 (x) u02 (x) α2
  
c11 c12 α1 u1 (x) + α2 u01 (x)
=   .
c21 c22 α1 u2 (x) + α2 u02 (x)

Logo,
    
α1 v1 (a) + α2 v10 (a) c11 c12 α1 u1 (a) + α2 u01 (a)
  =   
α1 v2 (a) + α2 v20 (a) c21 c22 α1 u2 (a) + α2 u02 (a)
  
c11 c12 −c12
=   
c21 c22 c11
 
0
=   , (9.B.10)
c11 c22 − c12 c21

que afirma, em particular, que


α1 v1 (a) + α2 v10 (a) = 0 . (9.B.11)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 554/1195

Analogamente,
    
β1 v1 (x) + β2 v10 (x) v1 (x) v10 (x) β1
  =   
β1 v2 (x) + β2 v20 (x) v2 (x) v20 (x) β2
   
c11 c12 u1 (x) u01 (x) β1
=    
c21 c22 u2 (x) u02 (x) β2
  
c11 c12 β1 u1 (x) + β2 u01 (x)
=   .
c21 c22 β1 u2 (x) + β2 u02 (x)
Logo,
    
β1 v1 (b) + β2 v10 (b) c11 c12 β1 u1 (b) + β2 u01 (b)
  =   
β1 v2 (b) + β2 v20 (b) c21 c22 β1 u2 (b) + β2 u02 (b)
  
c11 c12 −c22
=   
c21 c22 c21
 
−c11 c22 + c12 c21
=  , (9.B.12)
0
que afirma, em particular, que
β1 v2 (b) + β2 v20 (b) = 0 . (9.B.13)

As relações (9.B.11) e (9.B.13) são precisamente o que afirmamos em (9.23) e (9.24). Isso demonstra
o que querı́amos provar sobre a existência e propriedades das funções v 1 e v2 .

9.C Comentário Sobre o Determinante Wronskiano


Faremos aqui um comentário sobre a noção de determinante Wronskiano introduzida no Capı́tulo 6,
página 6 (vide página 303) e aquele apresentado na definição. (9.30).
Abaixo faremos uso de notação e de resultados daquelas notas.
A equação Lu = 0 pode ser escrita na forma u00 +a1 (x)u0 +a0 (x)u = 0 que, por sua vez, é equivalente
à equação de primeira ordem
Y 0 (x) = A(x)Y (x) ,
onde    
y1 (x) 0 1
Y (x) =  , A(x) =   ,
y2 (x) −a0 (x) −a1 (x)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 555/1195

com as identificações u(x) = y1 (x), u0 (x) = y2 (x).


A solução é da forma
Y (x) = D(x, x0 )Yx0 ,
onde Yx0 = Y (x0 ), x0 arbitrário.
Se Y1 e Y2 são duas soluções independentes da equação homogênea Y 0 (x) = A(x)Y (x) o determi-
nante Wronskiano (segundo a definição usada no Capı́tulo 6, página 6 (vide página 303)) é

det [[Y1 (x), Y2 (x)]].

Como comentamos acima, Y1 e Y2 são da forma


   
u1 (x) u2 (x)
Y1 (x) =  , Y2 (x) =   ,
0
u1 (x) u02 (x)

onde u1 e u2 são duas soluções independentes de Lu = 0.


É claro então que
   
u1 (x) u2 (x) u1 (x) u01 (x)
det [[Y1 (x), Y2 (x)]] = det   = det   .
u01 (x) u02 (x) u2 (x) u02 (x)

A última igualdade é apenas o fato de que o determinante de uma matriz não muda quando a trans-
pomos.
Por outro lado, a relação (9.B.8) nos diz que
     
v1 (x) v10 (x) c11 c12 u1 (x) u01 (x)
det   = det   det   . (9.C.14)
0 0
v2 (x) v2 (x) c21 c22 u2 (x) u2 (x)
     
c11 c12 v1 (x) v10 (x) u1 (x) u01 (x)
Como det é não nulo, isso diz que det 0 e det diferem apenas
c21 c22  v
2 (x) v2 (x) u2 (x) u02 (x)
v (x) v10 (x)
por um fator constante. Agora det 1 é o determinante Wronskiano, introduzido em
v2 (x) v20 (x)
(9.30).
Com isso mostramos que o determinante Wronskiano do Capı́tulo 6, página 6, difere apenas por
um fator não nulo constante daquele introduzido em (9.30).

9.D Ausência de Autovalores em um Problema Singular


Considere o seguinte problema de Sturm-Liouville singular definido no intervalo [0, 1]:

(x2 u0 )0 + λu = 0 ,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 556/1195

com u(1) = 0 e u finita em x = 0. A equação diferencial é

x2 u00 + 2xu0 + λu = 0 ,

que é uma equação do tipo de Euler, de segunda ordem. A solução pode ser procurada na forma
u(x) = xγ e obtem-se √
−1 ± 1 − 4λ
γ = .
2
Assim, para λ 6= 1/4, tem-se √ √
−1+ 1−4λ −1− 1−4λ
u(x) = Ax 2 + Bx 2 .
Como deseja-se u(1) = 0 tem-se A = −B e, assim,
 −1+√1−4λ √
−1− 1−4λ

u(x) = A x 2 −x 2 .

Essa solução só será finita em x = 0 se12


√ √
−1 + Re 1 − 4λ ≥ 0 e − 1 − Re 1 − 4λ ≥ 0 .

Ambas as condições não podem ser satisfeitas simultaneamente para nenhum λ (pois somando-se ambas
as desigualdades, terı́amos −2 ≥ 0, o que é obviamente falso). Para λ = 1/4 a solução é u(x) =
√1 (A ln x + B) e a condição u(1) = 0 implica B = 0 e, portanto, u(x) = A √1 ln x, que não é finita em
x x
x = 0. Logo, o problema tratado não tem solução para nenhum autovalor.

9.E Demonstração do Teorema 9.3


De acordo com (9.71),

Z b Z b 
λ 2
|u(x)| r(x) dx = |u0 (x)|2 p(x) − |u(x)|2 q(x) dx
a a
h   
i
0 0
+ p(a) Re u(a)u (a) − p(b) Re u(b)u (b) . (9.E.15)

Afirmamos que existem constantes γ1 e γ2 , independentes de u, tais que


 
p(a) Re u(a)u0 (a) = γ1 |u(a)|2 (9.E.16)

e  
p(b) Re u(b)u0 (b) = −γ2 |u(b)|2 . (9.E.17)
A demonstração é a seguinte. A função u satisfaz no ponto a

α1 u(a) + α2 u0 (a) = 0 .
12
Outra possibilidade seria escolher A = 0, ou seja, u(x) = 0, solução trivial que não interessa como autofunção.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 557/1195

Vamos primeiro supor que α2 6= 0. Tomando-se o complexo conjugado e multiplicando-se a expressão


por u(a) obtem-se
α1
u0 (a)u(a) = − |u(a)|2 ,
α2
ou seja,   α1
Re u0 (a)u(a) = − |u(a)|2 .
α2
Nesse caso, então, tomamos γ1 = −p(a) αα12 .
Caso α2 = 0, a relação α1 u(a) + α2 u0 (a) = 0 diz-nos que u(a). Daı́, é evidente que
 
p(a) Re u(a)u0 (a) = γ1 |u(a)|2 ,

para qualquer constante γ1 , pois ambos os lados são nulos. Isso provou (9.E.16). A demonstração de
(9.E.17) é análoga, escolhendo-se γ2 = +p(b) ββ12 , caso β2 6= 0.
Inserindo (9.E.16) e (9.E.17) em (9.E.15) tem-se
Z b Z b 
λ 2
|u(x)| r(x) dx = |u0 (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (9.E.18)
a a

Essa última expressão será nosso ponto de partida para mostrar que os autovalores λ são limitados
inferiormente, ou seja, que existe uma constante M ∈ tal que λ ≥ M . 

Note-se que γ1 e γ2 são números reais que tanto podem ser positivos quanto negativos. Vamos
considerar os quatro casos possı́veis: 1. γ1 ≥ 0 e γ2 ≥ 0; 2. γ1 < 0 e γ2 ≥ 0; 3. γ1 ≥ 0 e γ2 < 0; 4.
γ1 < 0 e γ2 < 0.
Caso 1. γ1 ≥ 0 e γ2 ≥ 0.
Nesse caso tem-se de (9.E.18) que
Z b Z b
2
λ |u(x)| r(x) dx ≥ − |u(x)|2 q(x) dx ,
a a
Rb
pois γ1 |u(a)|2 + γ2 |u(b)|2 ≥ 0 e |u0 (x)|2 p(x)dx ≥ 0, pois p(x) > 0. Logo,
a

Rb  
Rb 2 q(x)
2
|u(x)| q(x) dx a
|u(x)| − r(x)
r(x) dx
λ ≥ − Rab = Rb . (9.E.19)
|u(x)| 2 r(x) dx |u(x)| 2 r(x) dx
a a

Sejam agora

Q = max q(x), R1 = max r(x), e R2 = min r(x) .


x∈[a, b] x∈[a, b] x∈[a, b]

Lembrando que r(x) > 0 para todo x ∈ [a, b], teremos

q(x) Q
− ≥ − .
r(x) r(x)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 558/1195

Se Q = 0 concluı́mos que
q(x)
− ≥ 0.
r(x)
Se Q < 0, concluı́mos que
q(x) Q
− ≥ − .
r(x) R1
Se Q > 0, teremos
q(x) Q
− ≥ − .
r(x) R2

E. 9.21 Exercı́cio. Justifique cuidadosamente as desigualdades acima. 6

Em resumo, 

 0, se Q = 0


q(x) 
− ≥ B := − RQ1 , se Q < 0 . (9.E.20)
r(x) 



 Q
− R2 , se Q > 0

Retornando a (9.E.19)
Rb
a
|u(x)|2 Br(x) dx
λ ≥ Rb = B,
a
|u(x)|2 r(x) dx
onde B está definida em (9.E.20). Adotando M = B para esse caso, obtemos o que se queria provar.
Caso 2. γ1 < 0 e γ2 ≥ 0.
Nesse caso tem-se de (9.E.18) que
Z b Z b 
λ 2
|u(x)| r(x) dx ≥ |u0 (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 , (9.E.21)
a a

pois γ2 |u(b)|2 ≥ 0.
No Apêndice 9.F, página 560, demonstramos a seguinte desigualdade, válida para todo x ∈ [a, b] e
todo  > 0: Z b Z b
2 0 2
|u(x)| ≤  |u (y)| dy + ξ() |u(y)|2 r(y) dy , (9.E.22)
a a
onde  
1 1 1
ξ() = + ,
R2 b−a 
R2 sendo definido como acima: R2 = min r(x).
x∈[a, b]

Tomando x = a, temos
Z b Z b
2 0 2
γ1 |u(a)| ≥ γ1  |u (y)| dy + γ1 ξ() |u(y)|2 r(y) dy ,
a a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 559/1195

sendo que a desigualdade se inverteu pois γ1 < 0, por hipótese. Inserindo isso em (9.E.21), tem-se
Z b Z b Z b
2 0 2
λ |u(x)| r(x) dx ≥ (p(x) + γ1 ) |u (x)| dx + (γ1 ξ()r(x) − q(x)) |u(x)|2 dx .
a a a

Até agora não fixamos o valor de . Vamos agora escolhê-lo pequeno o suficiente de modo que

p(x) + γ1  ≥ 0 ,

para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + γ1 ) |u0 (x)|2 dx é positiva e podemos escrever

Z b Z b Z b 
2 2 q(x)
λ |u(x)| r(x) dx ≥ (γ1 ξ()r(x) − q(x)) |u(x)| dx = γ1 ξ() − |u(x)|2 r(x) dx .
a a a r(x)

Com o uso de (9.E.20) isso fica


Z b Z b
2
λ |u(x)| r(x) dx ≥ (γ1 ξ() + B) |u(x)|2 r(x) dx ,
a a

o que implica
λ ≥ (γ1 ξ() + B) .
Adotando-se M = (γ1 ξ() + B) para esse caso, isto é o que querı́amos provar.
Caso 3. γ1 ≥ 0 e γ2 < 0.
Esse caso é totalmente análogo ao caso 2, e não precisa ser considerado em detalhe.
Caso 4. γ1 < 0 e γ2 < 0.
Esse caso é também análogo ao caso 2, mas trataremos dos detalhes. De (9.E.18) temos
Z b Z b

λ 2
|u(x)| r(x) dx ≥ |u0 (x)|2 p(x) − |u(x)|2 q(x) dx + γ1 |u(a)|2 + γ2 |u(b)|2 . (9.E.23)
a a

Usando novamente a desigualdade (9.E.22) para x = a e x = b, temos


Z b Z b
2 2 0 2
γ1 |u(a)| + γ2 |u(b)| ≥ (γ1 + γ2 ) |u (y)| dy + (γ1 + γ2 )ξ() |u(y)|2r(y) dy,
a a

sendo que a desigualdade se inverteu pois γ1 < 0 e γ2 < 0, por hipótese. Inserindo isso em (9.E.21),
tem-se
Z b Z b Z b
2 0 2
λ |u(x)| r(x) dx ≥ (p(x) + (γ1 + γ2 )) |u (x)| dx + ((γ1 + γ2 )ξ()r(x) − q(x)) |u(x)|2 dx.
a a a

Até agora não fixamos o valor de . Vamos agora escolhê-lo pequeno o suficiente de modo que

p(x) + (γ1 + γ2 ) ≥ 0 ,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 560/1195

para todo x ∈ [a, b]. Isso é sempre possı́vel, pois, por hipótese p(x) > 0 para todo x ∈ [a, b]. Com
Rb
essa escolha a integral a (p(x) + (γ1 + γ2 )) |u0 (x)|2 dx é positiva e podemos escrever

Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ()r(x) − q(x)) |u(x)|2 dx
a a

Z b 
q(x)
= (γ1 + γ2 )ξ() − |u(x)|2 r(x) dx.
a r(x)

Com o uso de (9.E.20) isso fica


Z b Z b
2
λ |u(x)| r(x) dx ≥ ((γ1 + γ2 )ξ() + B) |u(x)|2 r(x) dx ,
a a

o que implica
λ ≥ ((γ1 + γ2 )ξ() + B) .
Adotando-se M = ((γ1 + γ2 )ξ() + B) para esse caso, isto é o que querı́amos provar.
Com isso a demonstração do Teorema 9.3 está completa.

9.F Prova da Desigualdade (9.E.22)


Seja u uma função qualquer duas vezes diferenciável definida em [a, b]. Sejam x ∈ [a, b] e x0 ∈ [a, b].
Tem-se Z x
2 2
0
|u(x)| = |u(x0 )| + |u(y)|2 dy .
x0

Portanto, tem-se, para quaisquer x, x0 ∈ [a, b],


Z
x 
2 0

|u(x)| ≤ |u(x0 )| +
2 2
|u(y)| dy .
x0

Agora,
Z x Z x  0 Z x   Z x  

2 0 0
|u(y)| dy = u(y)u(y) dy = u0 (y)u(y) + u(y)u (y) dy = 2 Re u0 (y)u(y) dy .
x0 x0 x0 x0

Assim, Z
x
|u(x)| ≤ |u(x0 )| + 2 Re
2 2
u0 (y)u(y) dy .
x0

Para qualquer número complexo z, vale |Re(z)| ≤ |z|. Logo,


Z x Z x

Re u 0 (y)u(y) dy ≤ u 0 (y)u(y) dy .

x0 x0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 561/1195

Pela desigualdade de Cauchy-Schwarz,


Z x Z 1/2 Z 1/2
x x
u (y)u(y) dy ≤
0 |u (y)| dy
0 2
|u(y)| dy
2
.

x0 x0 x0

Conseqüentemente, juntando as duas últimas desigualdades,


Z x 1/2 Z 1/2
x
2 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy
2 |u (y)| dy
0 2
.

x0 x0

Como x e x0 são elementos de [a, b] é também óbvio que


Z x Z b

2
|u(y)| dy ≤ |u(y)|2 dy

x0 a

e que Z Z b
x
0 2
|u (y)| dy ≤ |u0 (y)|2 dy ,

x0 a

já que ao passarmos de uma integral em [x0 , x] a uma integral em [a, b] estamos em geral aumentando
o intervalo de integração e, em ambos os casos, o integrando é positivo.
Assim,
Z b 1/2 Z b 1/2
2 2 2 0 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy |u (y)| dy .
a a

Para qualquer  > 0 isso pode ser reescrito como


 Z b 1/2  Z b 1/2
2 2 1 2 0 2
|u(x)| ≤ |u(x0 )| + 2 |u(y)| dy  |u (y)| dy . (9.F.24)
 a a

√ √ 2
Se A e B são dois números positivos, é fácil provar a partir de A − B ≥ 0, que
√ √
2 A B ≤ A+B .

E. 9.22 Exercı́cio. Faça! 6

1
Rb
2
Rb 0
Usando isso em (9.F.24) com A = a
|u(y)|

dy e B =  a
|u (y)|2 dy, tem-se
Z Z b
1 b
2 2
|u(x)| ≤ |u(x0 )| + 2
|u(y)| dy +  |u0 (y)|2 dy . (9.F.25)
 a a

Até aqui x0 era um ponto arbitrário do intervalo [a, b]. Vamos escolhê-lo agora de modo que x 0 seja
o ponto onde |u(x)| assume seu menor valor nesse intervalo: |u(x0 )| = min |u(x)|. Um tal ponto x0
x∈[a, b]
sempre existe, pois |u(x)| é contı́nua e [a, b] é um intervalo compacto. Com isso teremos, obviamente,
Z b
|u(y)|2 dy ≥ (b − a)|u(x0 )|2 ,
a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 9 562/1195

ou seja, Z b
1 2
|u(x0 )| ≤ |u(y)|2 dy .
b−a a

Inserindo isso em (9.F.25), ficamos com


Z b  Z b
2 0 2 1 1
|u(x)| ≤  |u (y)| dy + + |u(y)|2 dy . (9.F.26)
a b−a  a

Seja agora r uma função contı́nua qualquer definida em [a, b] com r(y) > 0 para todo y ∈ [a, b].
r(y)
Definindo-se como antes R2 = min r(y) teremos ≥ 1 , para todo y ∈ [a, b]. Inserindo isso na
y∈[a, b] R2
segunda integral de (9.F.26), aquela expressão fica
Z b  Z b
2 0 2 1 1 1
|u(x)| ≤  |u (y)| dy + + |u(y)|2r(y) dy . (9.F.27)
a R2 b − a  a

Isso é a desigualdade (9.E.22), que querı́amos provar.


Parte IV

Grupos

563
Capı́tulo 10
Grupos. Alguns Exemplos
Conteúdo

10.1 O Grupo de Permutações . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565


10.1.1 Ciclos, Transposições e Transposições Elementares . . . . . . . . . . . . . . . 566
10.2 Alguns Grupos Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.1 Os Grupos GL(n) e SL(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571
10.2.2 O Grupo de Borel e Grupo de Heisenberg . . . . . . . . . . . . . . . . . . . . 574
10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares . . . . . . . . . . . . 580
10.2.4 Os Grupos Ortogonais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582
10.2.5 Os Grupos Unitários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583
10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2) . . . . . . . . . . . . . . . . . 584
10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1) . . . . . . . . . . . . . . . . . . . 584
10.3.2 O Grupo SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588
10.3.3 O Grupo SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596
10.3.4 A Relação entre SO(3) e SU(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 599
10.3.5 O Grupo SL( , 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 602
10.4 Generalidades sobre os grupos SU(n) e SO(n) . . . . . . . . . . . . . . . . 603
10.4.1 Os Grupos SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604
10.4.2 O Grupo SU(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
10.4.3 Os Grupos SO(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608
10.5 O Grupo Afim e o Grupo Euclidiano . . . . . . . . . . . . . . . . . . . . . . 613
10.6 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617
10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal . . . . . . . . . 618
10.6.2 A Invariância do Intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624
10.6.3 O Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
10.6.4 Alguns Sub-Grupos do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . 628
10.6.5 A Estrutura do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 632
10.6.6 Os Geradores do Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . 636
10.7 O Grupo de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 640
10.8 SL( , 2) e o Grupo de Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . 643
10.A Prova do Teorema 10.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 652
10.B Um Isomorfismo entre SL( , 2)/{ , − } e L ↑+ . . . . . . . . . . . . . . . . . 662

564
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 565/1195

rupos são objetos de suma importância na Fı́sica devido à sua relação com transformações de
simetria. A noção abstrata de grupo foi introduzida na Seção 1.2.1, página 45. No presente
capı́tulo introduziremos alguns grupos de particular interesse na Fı́sica e na Matemática
e estudaremos algumas de suas propriedades mais simples e importantes. Com particular
detalhe trataremos do grupo de Lorentz na Seção 10.6, grupo este de fundamental importância na
teoria da relatividade.

10.1 O Grupo de Permutações


Seja C um conjunto não-vazio qualquer e seja P erm(C) o conjunto de todas as funções bijetoras de C
em C. P erm(C) é naturalmente um grupo, onde o produto é a composição de funções e o elemento
neutro é a função identidade (que denotaremos doravante por id). O elemento inverso de uma função
f ∈ P erm(C) é a sua função inversa f −1 (que existe, pois P erm(C) contem funções bijetoras, por
definição). P erm(C) é denominado grupo de permutações do conjunto C.

E. 10.1 Exercı́cio. Mostre que P erm(C) somente é um grupo Abeliano se C possuir um ou dois
elementos. 6

Grupos de permutações desempenham um papel de destaque na teoria de grupos, em parte devido


ao seguinte teorema estrutural, que não demonstraremos nestas notas:
Teorema 10.1 Todo grupo é sub-grupo de um grupo de permutações P erm(C), para algum conjunto
C. 2

De particular importância é o caso em que C é um conjunto finito. Tais grupos de permutação e suas
representações também desempenham um papel de destaque na Fı́sica, particularmente na Mecânica
Quântica, e por isso vamos nos deter um pouco nos mesmos.

• Grupos de Permutações de n Elementos

Seja n ≥ 1, inteiro, e considere-se o conjunto {1, . . . , n}. O grupo Sn = P erm({1, . . . , n}) é


denominado grupo de permutações de n elementos.

E. 10.2 Exercı́cio. Seja C um conjunto com n elementos. Mostre que P erm(C) é isomorfo a S n . 6

Um elemento π ∈ Sn é dito ser uma permutação. Como toda a permutação, π é uma função bijetora
{1, . . . , n} → {1, . . . , n} e é costume representá-la na forma de um arranjo matricial:
 
1 2 ... n
π = ,
π(1) π(2) . . . π(n)

onde na primeira linha ordenamos os elementos de {1, . . . , n} e na segunda suas imagens por π.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 566/1195

Exemplos. Os elementos de S2 são


   
1 2 1 2
π1 = e π2 = .
1 2 2 1

π1 é a identidade do grupo.
Os elementos de S3 são
     
1 2 3 1 2 3 1 2 3
π1 = , π2 = , π3 = ,
1 2 3 2 1 3 1 3 2
     
1 2 3 1 2 3 1 2 3
π4 = , π5 = , π6 = .
3 2 1 3 1 2 2 3 1
π1 é a identidade do grupo.

E. 10.3 Exercı́cio. Mostre que Sn tem exatamente n! elementos. 6

10.1.1 Ciclos, Transposições e Transposições Elementares


Vamos aqui estudar alguns fatos estruturais importantes sobre os grupos Sn .

• Ciclos

Precisamos da seguinte definição.

Definição. Uma permutação π é dita ser um ciclo, ou um r-ciclo se existirem r inteiros distintos
i1 , . . . , ir tais que 

 j, se j 6∈ {i1 , . . . , ir }



π(j) = ia+1 , se j = ia , mas a 6= r .





i1 , se j = ir

E. 10.4 Exercı́cio. Mostre que se π é um r-ciclo, então π r = id. 6

A importância co conceito de ciclo manifesta-se no seguinte teorema:


Teorema 10.2 Toda permutação diferente da identidade é um produto de ciclos disjuntos dois a dois.
2

Prova. Seja π ∈ Sn , π 6= id. Seja i1 o menor elemento de {1, . . . , n} para o qual π(i) 6= i. Vamos
considerar a seqüência (em princı́pio infinita)

i1 , π(i1 ), π 2 (i1 ), π 3 (i1 ), . . .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 567/1195

Os elementos dessa seqüência são obviamente elementos de {1, . . . , n} que é um conjunto finito.
Conseqüentemente essa seqüência tem, na verdade, elementos repetidos. Vamos supor que π p (i1 ) e
π q (i1 ), p < q, sejam os primeiros elementos que se repetem: π p (i1 ) = π q (i1 ). Essa igualdade implicaria
i1 = π r1 (i1 ), onde r1 = q − p. Assim, o primeiro par que se repete na seqüência acima é, em verdade,
o par i1 e π r1 (i1 ).
Isso nos diz que a seqüência acima é uma repetição infinita da seqüência finita
i1 , π(i1 ), π 2 (i1 ), ..., π r1 (i1 ),
seqüência esta formada por r1 elementos que, por construção, são distintos.
Vamos denominar
i1 , i2 := π(i1 ), i3 = π 2 (i1 ), ..., ir1 = π r1 (i1 )
e definir π1 ∈ Sn por 

 j, se j 6∈ {i1 , . . . , ir1 }



π1 (j) = ia+1 = π a (i1 ), se j = ia , mas a 6= r1 .





i1 , se j = ir1
É evidente que π1 é um ciclo e que π1 e π coincidem no conjunto {i1 , . . . , ir1 }. Podemos então escrever
π = π 1 π 0 = π 0 π1 ,
onde π 0 ∈ Sn é a identidade em {i1 , . . . , ir1 } e coincide com π no complemento:

 j, se j ∈ {i1 , . . . , ir1 }
0
π (j) = .

π(j), de outra forma.

O que fazemos em seguida é repetir o procedimento, mas agora para a permutação π 0 . Obteremos
π = π2 π 00 = π 00 π2 , onde π2 é novamente um ciclo (disjunto de π1 , por construção). Como {1, . . . , n}
0

é um conjunto finito, a repetição desse procedimento deve ter um fim, e obtemos


π = π 1 π2 · · · π k
para k ciclos π1 , . . . , πk disjuntos dois a dois. Isso completa a prova.

• Transposições

2-ciclos são denominados transposições. Sejam p e q dois elementos distintos de {1, . . . , n}. A
transposição de p e q, denotada por tp, q é a permutação definida por


 j, se j 6= p e j 6= q



tp, q (j) = q, se j = p .





p, se j = q

Transposições são importantes pela seguinte razão:


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 568/1195

Teorema 10.3 Todo ciclo pode ser escrito como um produto de transposições. 2

Prova. Seja π o ciclo associado ao conjunto {i1 , . . . , ir } ⊂ {1, . . . , n}:




 j, se j 6∈ {i1 , . . . , ir }



π(j) = ia+1 , se j = ia , mas a 6= r .





i1 , se j = ir

A prova resume-se em constatar que

π = tir−1 , ir · · · ti2 , i3 ti1 , i2 ti2 , i3 · · · tir−1 , ir

E. 10.5 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6

O seguinte teorema é um corolário imediato dos Teoremas 10.2 e 10.3:


Teorema 10.4 Toda permutação diferente da identidade é um produto transposições. 2

• Transposições Elementares

De particular importância são as transposições de vizinhos ti = ti, i+1 com i = 1, . . . , n − 1:




 j, se j 6= i e j 6= i + 1



ti (j) = i + 1, se j = i





i, se j = i + 1

e que são chamadas transposições elementares.


A importância das mesmas reside nos dois teoremas abaixo.
Teorema 10.5 Toda transposição é um produto transposições elementares. 2

Prova. Seja tp, q uma transposição com p < q. A prova resume-se em constatar que

tp, q = tq−1, q · · · tp+1, p+2 tp, p+1 tp+1, p+2 · · · tq−1, q = tq−1 · · · tp+1 tp tp+1 · · · tq−1 .

E. 10.6 Exercı́cio. Complete os detalhes e/ou faça alguns casos particulares para convencer-se. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 569/1195

O seguinte teorema é um corolário imediato dos Teoremas 10.2, 10.3, 10.4 e 10.5:
Teorema 10.6 Toda permutação diferente da identidade é um produto de transposições elementares.
2

O Teorema 10.6 afirma que Sn é um grupo gerado por transposições elementares, ou seja, todo
π ∈ Sn (distinto da identidade) é da forma

π = t i1 · · · t ik , (10.1)

para certas transposições ti1 , . . . , tik .

E. 10.7 Exercı́cio. Determine quais dos elementos π1 , . . . , π6 do grupo S3 (página 566) são trans-
posições elementares e escreva os demais como produtos de tais transposições elementares. 6

Podemos nos perguntar, essa forma de escrever π é única? A resposta é não, pelas razões que agora
expomos.

• Transposições Elementares e suas Relações

Proposição 10.1 Em Sn as transposições elementares ti , i = 1, . . . , n − 1 satisfazem as seguintes


relações:

(ti )2 = id, (10.2)

ti tj = t j ti , se |i − j| ≥ 2, (10.3)

ti ti+1 ti = ti+1 ti ti+1 , se i = 1, . . . , n − 2. (10.4)

Prova. ←→ Exercı́cio.
Essa proposição explica por que a representação (10.1) não é geralmente única: o lado direito
de (10.1) pode eventualmente ser reescrito se aplicarmos quaisquer das relações (10.2)-(10.4). Estas,
porém, são as únicas relações que as transposições elementares t i satisfazem. Desses fatos extraı́mos a
seguinte conclusão:
Proposição 10.2 Todo grupo gerado por n − 1 elementos t1 , . . . , tn−1 e que satisfazem as relações
(10.2)-(10.4) (e somente elas) é isomorfo a Sn . 2

Prova. ←→ Exercı́cio.

• O Sinal, ou Paridade, de uma Permutação


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 570/1195

Seja π ∈ Sn . O sinal, ou paridade de π é (−1)k , onde k é o menor número de transposições


elementares que geram π. Assim, se π = ti1 · · · tik define-se sinal(id) = +1 e
sinal(π) := (−1)k , π 6= id.
O estudante é convidado a constatar que sinal(π) não depende da particular representação de π em
termos de produtos de transposições elementares, pois sinal(π) não muda por aplicação das relações
(10.2)-(10.4).

E. 10.8 Exercı́cio. Determine o sinal das permutações π1 , . . . , π6 do grupo S3 dadas acima (página
566). 6

E. 10.9 Exercı́cio importante. Mostre que


sinal(ππ 0 ) = sinal(π)sinal(π 0 )
para todos π, π 0 ∈ Sn . Mostre daı́ que Sn+ = {π ∈ Sn | sinal(π) = +1} é um subgrupo de Sn , o subgrupo
das permutações pares. Mostre também que Sn+ é normal. 6

Sn+ é também denominado subgrupo alternante de grau n.

E. 10.10 Exercı́cio. Já mencionamos que Sn tem n! elementos. Quantos elementos tem Sn+ ? 6

• O Grupo de Tranças

Há um grupo importante aparentado ao grupo Sn que é o chamado grupo de n tranças, denotado por
Bn (do inglês braid = trança). Este é, por definição, o grupo gerado por n − 1 elementos b 1 , . . . , bn−1
que satisfazem as relações
bi bj = b j bi , se |i − j| ≥ 2, (10.5)

bi bi+1 bi = bi+1 bi bi+1 , se i = 1, . . . , n − 2, (10.6)


de tal forma que para todo β ∈ Bn existem {bi1 , . . . , bik } ⊂ {b1 , . . . , bn−1 } e números inteiros
n1 , . . . , nk ∈ tais que
β = (bi1 )n1 · · · (bik )nk .

Note-se que a relação (10.2) não tem análogo em Bn , ou seja, ao contrário do que ocorre em Sn ,
os elementos bi não têm a si mesmos como inversa. Por essa razão elementos como (bi )n para n’s
diferentes são todos distintos entre si. Assim, ao contrário de Sn , Bn é um grupo infinito, apesar de ter
um número finito de geradores.

E. 10.11 Exercı́cio. Seja p : → {0, 1} definida por p(n) = 0 se n for par e p(n) = 1 se n for ı́mpar.
p(n ) p(n )
Mostre que φ : Bn → Sn definido por φ((bi1 )n1 · · · (bik )nk ) = ti1 1 · · · tik k é um homomorfismo. 6

O grupo de tranças foi inventado pelo matemático E. Artin1 em 1925 e desempenha um papel
importante na chamada teoria dos nós, um rico capı́tulo do estudo das propriedades topológicas do
1
Emil Artin (1989-1962).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 571/1195

espaço tridimensional. Nesse contexto os elementos bi têm uma interpretação interessante em termos
de transposições de tranças (barbantes) no espaço tridimensional. Por falta de espaço e habilidade em
apresentar as figuras correspondentes, não entraremos em mais detalhes aqui e remetemos o estudante
à leitura de [70], por exemplo. No final dos anos 80 e nos anos 90 do século XX encontrou-se aplicações
dos grupos de tranças na Fı́sica, no contexto das teorias quânticas de campos em dimensões 2 e 3,
assim como na fı́sica dos materiais (problema da supercondutividade a altas temperaturas).

10.2 Alguns Grupos Matriciais

10.2.1 Os Grupos GL(n) e SL(n)


Vamos denotar por Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes reais n × n e por
 

Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes complexas n × n.


Mat(n, ) e Mat(n, ) são naturalmente dois grupos (Abelianos) em relação à operação de soma


de matrizes. Não, porém, em relação à operação de produto, pois é bem sabido que nem toda a matriz
possui uma inversa.
O conjunto de todas as matrizes de Mat(n, ) que são invertı́veis forma naturalmente um grupo


não-Abeliano2 em relação ao produto usual de matrizes. Esse grupo, denominado grupo linear real,
é denotado por GL(n, ). Analogamente, o conjunto de todas as matrizes de Mat(n, ) invertı́veis


forma um grupo não-Abeliano3 que é denominado grupo linear complexo e denotado por GL(n, ). Em
sı́mbolos

GL(n,  ) := {A ∈ Mat(n,  ), det(A) 6= 0} e GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0} .

Devido à propriedade bem conhecida det(AB) = det(A) det(B), o produto de duas matrizes com
determinante igual a 1 é novamente uma matriz com determinante igual a 1. Assim,

SL(n,  ) := {A ∈ Mat(n,  ), det(A) = 1} e SL(n, ) := {A ∈ Mat(n, ), det(A) = 1}

são subgrupos de GL(n,  ) e GL(n, ), respectivamente.


−1
E. 10.12 Exercı́cio. Para qualquer matriz n × n real ou complexa e invertı́vel A vale que AT =
−1 T ∗ −1 −1 ∗
(A ) . Além disso, para qualquer matriz n × n complexa A vale que (A ) = (A ) . Usando esses
fatos, mostre que se A ∈ GL(n, ) então AT ∈ GL(n, ). Analogamente, mostre que se A ∈ GL(n, )
 

então A∗ e AT ∈ GL(n, ). 6


E. 10.13 Exercı́cio. Para qualquer matriz n × n real ou complexa A vale que det(A) = det AT . Fora
isso, para qualquer matriz n × n complexa A vale que det(A) = det (A ∗ ). Usando esses fatos, mostre que
se A ∈ SL(n, ) então AT ∈ SL(n, ). Analogamente, mostre que se A ∈ SL(n, ) então A∗ e AT ∈
 

SL(n, ). 6

2
Exceto no caso n = 1, onde o grupo é Abeliano, trivialmente.
3
Idem.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 572/1195

Os grupos GL(n, ), GL(n, ), SL(n, ) e SL(n, ) possuem vários outros sub-grupos de interesse.
 

Discutiremos alguns adiante, como os grupos de Borel, os grupos ortogonais, unitários e simpléticos.

• Os grupos GL(n, ), SL(n, ) e SL(n, )

Vamos denotar por Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes n × n cujos elementos
de matriz são números inteiros e por Mat(n, ) ou Mat( , n) o conjunto de todas as matrizes n × n
cujos elementos de matriz são números racionais. Analogamente, defina-se

GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0} e GL(n, ) := {A ∈ Mat(n, ), det(A) 6= 0}

SL(n, ) := {A ∈ Mat(n, ), det(A) = 1} e SL(n, ) := {A ∈ Mat(n, ), det(A) = 1} .

Então valem as seguintes afirmações:

1. GL(n, ) é um grupo em relação à operação de produto usual de matrizes.


2. SL(n, ) é um grupo em relação à operação de produto usual de matrizes.

3. GL(n, ) não é um grupo em relação à operação de produto usual de matrizes, mas sim um
monóide.
4. SL(n, ) é um grupo em relação à operação de produto usual de matrizes.

Para provar 1, notemos que o produto de matrizes n × n com entradas racionais é também uma
matriz n × n com entradas racionais (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, ). O elemento neutro é a matriz identidade, que é elemento de GL(n, ) (pois os números 0
e 1 são racionais). Por fim, resta mostrar que a inversa de uma matriz invertı́vel com entradas racionais
também tem entradas racionais.
Para mostrar isso, notemos primeiramente que o determinante de uma matriz com entradas racionais
é também um número racional, pois o cálculo do determinante de uma matriz M envolve apenas
operações de soma e produto dos elementos de matriz de M . Além disso, lembremos o fato bem
conhecido (a chamada “regra de Laplace4 ”) que para qualquer matriz A o elemento ij da sua matriz
inversa (se houver) é dado por
(−1)i+j
(A−1 )ij = ∆ji , (10.7)
det(A)
onde ∆ij é o determinante da matriz (n − 1) × (n − 1) obtida eliminando-se a i-ésima linha e a j-ésima
coluna da matriz A. (A matriz ∆ é por vezes denominada matriz dos co-fatores de A). Vê-se claramente
daı́ que se A é uma matriz com entradas racionais então os números ∆ji são também racionais, assim
como det(A). Logo (A−1 )ij é um número racional e, portanto, se A ∈ GL(n, ) então A−1 ∈ GL(n,
).
4
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 573/1195

O item 2 se prova da mesma maneira.


No caso do item 3, notemos que o produto de matrizes n × n com entradas inteiras é também uma
matriz n × n com entradas inteiras (por quê?). Assim, a operação de produto é uma operação binária
em GL(n, ). O elemento neutro é a matriz identidade, que é elemento de GL(n, ) (pois os números
0 e 1 são inteiros). Com isso, GL(n, ) é um monóide. O problema que faz com que GL(n, ) não
seja um grupo reside no fato de que a inversa de uma matriz com entradas inteiras nem sempre é uma 
matriz com entradas inteiras. Isso se vê claramente no exemplo da matriz ( 10 02 ) cuja inversa é 10 1/2
0
.
No entanto, se uma matriz A, invertı́vel com entradas inteiras, tiver determinante igual a 1, segue
imediatamente de (10.7) que A−1 tem também entradas inteiras. Daı́, prova-se facilmente a afirmativa
4.

E. 10.14 Exercı́cio. Complete os detalhes das afirmações feitas acima. 6


   
1 1 2 −1 −1
E. 10.15 Exercı́cio. Verifique que A = ∈ SL(n, ) e que A = ∈ SL(n, ).
1 2 −1 1
 
a b
Mais genericamente, se a, b, c e d são números inteiros tais que ad − bc = 1, então A = ∈ SL(n,
c d
 
−1 d −c
)eA = ∈ SL(n, ). 6
−b a

 
1 b
E. 10.16 Exercı́cio. Verifique que todas as matrizes da forma com b ∈ são elementos de
  0 1
1 1
SL(n, ). Verifique que todas as matrizes da forma com c ∈ são elementos de SL(n, ). 6
c c+1

• Outros Subgrupos de GL( , n) e de GL( , n)




Há vários outros subgrupos de GL( , n) e GL( , n) aos quais eventualmente faremos referência.


Deixamos ao estudante provar em cada caso que se trata realmente de grupos. Dois deles são os grupo
de matrizes com determinante positivo:

GL( , n)+ := {A ∈ Mat ( , n), det(A) > 0} ,


 

GL( , n)+ := {A ∈ Mat ( , n), det(A) > 0} .


Outro grupo relevante é o chamado grupo de Weyl5 de GL( , n):
( n n
)
X X
Wn := A ∈ GL( , n), Aij ∈ {0, 1} ∀i, j, com Aij = 1 = Aij .
i=1 j=1

Em palavras, as matrizes de Wn são matrizes n × n cujas entradas valem 0 ou 1, sendo que exatamente
um elemento “1” ocorre em cada linha e em cada coluna.
5
Hermann Klaus Hugo Weyl (1885-1955).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 574/1195

 
1 0
E. 10.17 Exercı́cio. Mostre que W2 contem apenas dois elementos, a saber as matrizes e
  0 1
0 1
. 6
1 0

E. 10.18 Exercı́cio. Determine os (seis) elementos de W3 . 6

E. 10.19 Exercı́cio. Prove que Wn é isomorfo ao grupo de permutações de n elementos Sn definido à


página 565. 6

10.2.2 O Grupo de Borel e Grupo de Heisenberg


Uma matriz A, complexa, n × n, é dita ser uma matriz triangular superior se seus elementos de matriz
Aij satisfizerem Aij = 0 se i > j. Tais matrizes têm a forma
 
A11 A12 · · · A1(n−1) A1n
 0 A22 · · · A2(n−1) A2n 
 
 ..  ,
A =  ... ..
.
..
.
..
. . 
 
 0 0 · · · A(n−1)(n−1) A(n−1)n 
0 0 ··· 0 Ann

onde os elementos abaixo da diagonal principal são nulos. Aqueles que ficam acima da diagonal principal
podem ser nulos ou não.
De acordo com a Proposição 3.17, página 182, o conjunto das matrizes complexas n × n triangulares
superiores invertı́veis forma um grupo, denominado por alguns autores Grupo de Borel 6 de ordem n e
denotado por GBn ( ).

E. 10.20 Exercı́cio-exemplo. Para duas matrizes triangulares superiores invertı́veis 2 × 2


! !
a b d e
A = e B =
0 c 0 f

verifique que !
ad ae + bf
AB = ,
0 cf
que é novamente uma matriz triangular superior, e verifique que
1 b
!
a
− ac
A−1 = 1
.
0 c

6
6
Armand Borel (1923-2003). A noção de grupo de Borel é mais geral. As matrizes n × n triangulares superiores
invertı́veis compõe o grupo de Borel associado ao grupo GL( , n).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 575/1195

Um caso particular do grupo de Borel é o grupo de Heisenberg, que agora discutiremos.

• O grupo de Heisenberg GH3 ( )

O chamado grupo de Heisenberg7 , denotado por GH3 ( ) (os grupos GHn ( ) com n ≥ 3 são definidos
adiante), é definido como o grupo formado por todas as matrizes 3 × 3 da forma
 
1 a c
H(a, b, c) = 0 1 b  ,
0 0 1

onde a, b, c ∈ , com o produto usual de matrizes (se a, b, c ∈ temos o grupo GH3 ( )). A matriz
 

identidade é um elemento de GH3 ( ) pois H(0, 0, 0) = e tem-se

H(a, b, c)H(a0 , b0 , c0 ) = H(a + a0 , b + b0 , c + c0 + ab0 ). (10.8)

Essa relação, em particular, diz que o produto de duas matrizes de GH3 ( ) é novamente uma matriz
de GH3 ( ). Tem-se também que
 
1 −a ab − c
H(a, b, c)−1 = H(−a, −b, ab − c) = 0 1 −b  , (10.9)
0 0 1

que mostra que toda matriz de GH3 ( ) tem inversa e que essa inversa é também uma matriz de
GH3 ( ). Assim, GH3 ( ) é um grupo matricial.

E. 10.21 Exercı́cio. Verifique essas afirmações. 6

De (10.8) constata-se facilmente que GH3 ( ) não é um grupo Abeliano.

E. 10.22 Exercı́cio. Mostre que o centro do grupo de Heisenberg é formado pelas matrizes do tipo
H(0, b, 0) com b ∈ . O conceito de centro de um grupo foi introduzido à página 70. 6

Como é fácil de ver, o grupo de Heisenberg é um grupo de Lie (grupos de Lie serão tratados no
Capı́tulo 11) que, como variedade analı́tica, é difeomorfo a 3 . O exercı́cio seguinte discute três de seus
subgrupos uniparamétricos.

E. 10.23 Exercı́cio. Verifique que as matrizes H1 (t) := H(t, 0, 0), H2 (t) := H(0, t, 0), H3 (t) :=
H(0, 0, t) satisfazem Hj (t)Hj (t0 ) = Hj (t + t0 ) e Hj (0) = , j = 1, 2, 3. Assim, para cada j, as
matrizes Hj (t) representam sub-grupos uniparamétricos de GH3 ( ). Os geradores desses subgrupos são
hj := dtd Hj (t) t=0 . Verifique que
     
0 1 0 0 0 0 0 0 1
h1 = 0 0 0 , h2 = 0 0 1 , h3 = 0 0 0 .
0 0 0 0 0 0 0 0 0
6
7
Werner Karl Heisenberg (1901-1976).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 576/1195

Mostraremos agora que esses geradores formam uma álgebra de Lie, a chamada álgebra de Heisen-
berg gh3 ( ). Adiante explicaremos por que o nome de Heisenberg é associado ao grupo GH 3 ( ) e à
álgebra gh3 ( ).

• A álgebra de Heisenberg gh3 ( )

Considere matrizes da forma 


0 a c
h(a, b, c) = 0 0 b  , (10.10)
0 0 0
onde a, b, c ∈ . Calculando-se o comutador de duas de tais matrizes tem-se

[h(a, b, c), h(a0 , b0 , c0 )] = h(0, 0, ab0 − a0 b), (10.11)

(verifique!) que é novamente da forma (10.10). Assim, o conjunto de matrizes da forma (10.10) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por gh3 ( ), é denominada álgebra de Heisenberg.
A razão dessa denominação é a seguinte. Podemos encontrar em gh3 ( ) uma base especial formada
por três matrizes que, por razões “psicológicas”, denotaremos por p, q e ~:
     
0 1 0 0 0 0 0 0 i
p = 0 0 0  , q = 0 0 1 , ~ = 0 0 0  .
0 0 0 0 0 0 0 0 0

É um exercı́cio fácil (e fortemente recomendado) verificar que essas matrizes satisfazem as seguintes
regras de comutação:
[p, ~] = 0 , [q, ~] = 0 , [p, q] = −i~ .

Para aqueles familiarizados com a Mecânica Quântica as relações acima justificam a denominação
dessa álgebra em honra a Heisenberg: as relações de comutação acima são precisamente iguais às
relações canônicas de comutação satisfeitas pelos operadores associados ao momento (p) e posição (q)

de uma partı́cula se movendo em uma dimensão. No caso da Mecânica Quântica, p é o operador −i~ ∂x ,
q = x e ~ representa um número (a constante de Planck ), que obviamente comuta com os operadores
8

p e q.

Nota. O estudante deve, porém, observar que as matrizes p, q e ~, acima, não são auto-adjuntas, ao
contrário dos operadores correspondentes da Mecânica Quântica. Essa observação é relevante, pois é
possivel provar que as relações canônicas de comutação não podem ser satisfeitas por operadores auto-
adjuntos agindo em espaços de Hilbert de dimensão finita ou por operadores auto-adjuntos limitados
agindo em espaços de Hilbert de dimensão infinita. De fato, no espaço de Hilbert L2 ( , dx) os 


operadores p = −i~ ∂x e q = x são auto-adjuntos (em um dominı́o conveniente), mas não são limitados.
O que faz gh3 ( ) especial como álgebra de Lie é a propriedade expressa no seguinte exercı́cio:
8
Max Karl Ernst Ludwig Planck (1858-1947).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 577/1195

E. 10.24 Exercı́cio importante. Verifique que para quaisquer três elementos h 1 , h2 e h3 da álgebra de
Heisenberg tem-se
[h1 , [h2 , h3 ]] = 0 . (10.12)
Sugestão: use as relações de comutação de p, q e ~, dadas acima ou use diretamente (10.11). A relação
(10.12) mostra que gh3 ( ) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6

Para entender a relação da álgebra de Heisenberg gh3 ( ) com o grupo de Heisenberg GH3 ( ),
façamos o seguinte. Notemos em primeiro lugar que as matrizes h(a, b, c) são matrizes nilpotentes de
grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que se calcularmos a exponencial de h(a, b, c) teremos
 
1 a c + ab  
1 2 
2
 ab
exp (h(a, b, c)) = + h(a, b, c) + h(a, b, c) = 0 1 b = H a, b, c + , (10.13)
2 2
0 0 1
ou seja,   
ab
H(a, b, c) = exp h a, b, c − . (10.14)
2

E. 10.25 Exercı́cio. Escreva h a, b, c − ab
2
como combinação linear de p, q e ~. 6

Pelo que vimos, todos os elementos do grupo de Heisenberg GH3 ( ) são obtidos pela exponenciação
de elementos da álgebra de Lie gh3 ( ), ou seja, a exponenciação é uma aplicação sobrejetora de gh3 ( )
em seu grupo de Lie GH3 ( ). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de gh3 ( ) em GH3 ( ).

E. 10.26 Exercı́cio importante. Usando a fórmula de Baker-Campbell-Hausdorff (equações (4.4), página


210, ou (4.46), página 237) e as relações (10.11) e (10.12), mostre que
      
0 0 0 0 0 0 ab0 − a0 b
exp h(a, b, c) exp h(a , b , c ) = exp h a + a , b + b , c + c + . (10.15)
2
Usando (10.13) e (10.14), re-obtenha de (10.15) a regra de produto (10.8). 6

Comentário. Esse exercı́cio ilustra uma aplicação da fórmula de Baker-Campbell-Hausdorff. Note-se


que, devido ao fato de gh3 ( ) ser uma álgebra de Lie nilpotente (vide (10.12)), a série de Baker-
Campbell-Hausdorff é composta apenas por um número finito de termos e, portanto, converge sempre.

• O grupo de Heisenberg GHn ( ), n ≥ 3

Vamos agora generalizar o grupo GH3 ( ). Para n ≥ 3, os chamados grupos de Heisenberg GHn ( )
são definidos como sendo os grupos formado por todas as matrizes n × n da forma
 
1 aT c
H(a, b, c) =  m m b 
T
0 m 1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 578/1195

com o produto usual de matrizes, sendo m = n − 2, onde a, b ∈ n−2 e c ∈ . Acima, a e b representam


matrizes-coluna com m = n − 2 linhas equanto que aT e bT , as transpostas de a e b, respectivamente,
representam matrizes-linha com m = n − 2 colunas:
   
a1 b1
     
a =  ...  , aT = a1 · · · an−2 , b =  ...  , bT = b1 · · · bn−2 ,
an−2 bn−2
0
sendo m = ... a matriz coluna identicamente nula com m = n − 2 linhas e sendo m a matriz
0    
a1 b
identidade m × m. Por exemplo, no caso n = 4, para a = , b = 1 ∈ 2 , a matriz H(a, b, c) é
a2 b2
 1 a 1 a2 c 
H(a, b, c) = 00 01 10 bb21 . Para simplificar a notação, iremos doravante escrever H(a, b, c) na forma
0 0 0 1
 
1 aT c
H(a, b, c) = 0 b .
0 0 1

A matriz identidade é um elemento de GHn ( ) pois H(0, 0, 0) = e tem-se


H(a, b, c)H(a0 , b0 , c0 ) = H(a + a0 , b + b0 , c + c0 + aT b0 ) , (10.16)
sendo que definimos a forma bilinear aT b0 := ha, b0 i = a1 b01 + · · · + an−2 b0n−2 .


Essa relação, em particular, diz que o produto de duas matrizes de GHn ( ) é novamente uma
matriz de GHn ( ). Vale também que
 
1 −a aT b − c
 
H(a, b, c)−1 = H(−a, −b, aT b − c) =   0 −b ,
 (10.17)
0 0 1

que mostra que toda matriz de GHn ( ) tem inversa e que essa inversa é também um elemento de
GHn ( ). Assim, GHn ( ) é um grupo matricial.

• A álgebra de Heisenberg ghn ( ), n ≥ 3

Para n ≥ 3, considere matrizes de Mat ( , n) da forma


   
1 aT c 0 aT c
h(a, b, c) =  m mm b  ≡ 0 mm b , (10.18)
T
0 m 1 0 0 0
n−2
com m = n − 2, onde é a matriz m × m identicamente
mm    e onde a, b ∈
nula e c ∈ ,
a1 b1
como acima. Por exemplo, no caso n = 4, para a = , b = ∈ 2 , a matriz h(a, b, c) é
a2 b2
 0 a 1 a2 c 
h(a, b, c) = 00 00 00 bb21 .
0 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 579/1195

Calculando-se o comutador de duas de tais matrizes tem-se


T
[h(a, b, c), h(a0 , b0 , c0 )] = h(0, 0, aT b0 − a0 b), (10.19)
(verifique!) que é novamente da forma (10.18). Assim, o conjunto de matrizes da forma (10.18) forma
uma álgebra de Lie com o produto definido pelo comutador de matrizes. Essa álgebra de Lie, denotada
por ghn ( ), é igualmente denominada álgebra de Heisenberg.

E. 10.27 Exercı́cio importante. Verifique que para quaisquer três elementos h 1 , h2 e h3 da álgebra de
Heisenberg ghn ( ) tem-se
[h1 , [h2 , h3 ]] = 0 . (10.20)
A relação (10.20) mostra que ghn ( ) é o que se chama uma álgebra de Lie nilpotente (de grau 2). 6

Podemos encontrar em ghn ( ) uma base especial formada pelas matrizes ~ e pk , qk , k = 1, . . . , n−2
definidas por
     
0 eTk 0 0 0 0 0 0 i
p k = 0 0 , q k = 0 ek  , ~ = 0 0 0  ,
0 0 0 0 0 0 0 0 0
sendo ek , k = 1, . . . , n − 2 as matrizes-coluna definidas por
1 0 0
0 1 0
0 0 0
e1 :=  ..  , e2 :=  ..  , ······ , en−2 :=  ..  ,
. . .
0 0 0
0 0 1
ou seja, todos as linhas de ej são nulas, exceto a j-ésima, que vale 1. No caso n = 4, por exemplo,
tem-se
   
0 1 0 0 0 0 1 0
0 0 0 0 0 0 0 0
p1 =   
0 0 0 0 , p2 = 0 0 0 0 ,

0 0 0 0 0 0 0 0
     
0 0 0 0 0 0 0 0 0 0 0 i
0 0 0 1 0 0 0 0 0 0 0 0
q1 = 
0
 , q2 =   , ~ =   .
0 0 0 0 0 0 1 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0

Em analogia com o caso do grupo GH3 ( ), é fácil constatar que as matrizes pk , qk e −i~ são
geradores de sub-grupos uniparamétricos de GHn ( ).

E. 10.28 Exercı́cio. Verifique a afirmação do último parágrafo. Determine os sub-grupos uniparamétricos


de GHn ( ) mencionados. 6

Como eTk el = δk, l para todos k e l, é um exercı́cio fácil (e fortemente recomendado!) verificar que
essas matrizes satisfazem as seguintes regras de comutação:
[pk , ql ] = −i~ δk, l ,

[pk , ~] = [qk , ~] = [pk , pl ] = [qk , ql ] = 0 ,


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 580/1195

para todos k, l = 1, . . . , n − 2. Como o estudante familiarizado com a Mecânica Quântica percebe,


essas são as relações canônicas de comutação de um sistema com n − 2 graus de liberdade.
Para entender a relação da álgebra de Heisenberg ghn ( ) com o grupo de Heisenberg GHn ( ),
notemos em primeiro lugar que, assim como no caso n = 3, as matrizes h(a, b, c) são matrizes
nilpotentes de grau 3, ou seja,
h(a, b, c)3 = 0.
(Mostre isso!). É fácil com isso verificar que
 
1 a c + aT b  T

1 2 a b
exp (h(a, b, c)) = + h(a, b, c) + h(a, b, c) = 0 1
2
b  = H a, b, c + ,
2 2
0 0 1
(10.21)
ou seja,   
aT b
H(a, b, c) = exp h a, b, c − . (10.22)
2

Pelo que vimos, todos os elementos do grupo de Heisenberg GHn ( ) são obtidos pela exponenciação
de elementos da álgebra de Lie ghn ( ), ou seja, a exponenciação é uma aplicação sobrejetora de ghn ( )
em seu grupo de Lie GHn ( ). Em verdade, é fácil constatar que essa aplicação é também injetora (faça
isso!). A aplicação exponencial é, portanto, uma bijeção de ghn ( ) em GHn ( ).

E. 10.29 Exercı́cio importante. Usando a fórmula de Baker-Campbell-Hausdorff (equações (4.4), página


210, ou (4.46), página 237) e as relações (10.19) e (10.20), mostre que
!!
    a T 0
b − a 0T
b
exp h(a, b, c) exp h(a0 , b0 , c0 ) = exp h a + a0 , b + b0 , c + c0 + . (10.23)
2

Usando (10.21) e (10.22), re-obtenha de (10.23) a regra de produto (10.16). 6

10.2.3 Grupos Associados a Formas Bilineares e Sesquilineares


Seja E um espaço vetorial. Vamos denotar por GL(E) o conjunto de todos os operadores lineares
bijetores (e portanto invertı́veis) de E em E. É bem claro que GL(E) forma um grupo, tendo como
produto o produto de operadores.
Seja ω uma forma bilinear ou sesquilinear (caso E seja complexo) em E. Denotaremos por Ω(E, ω)
o subconjunto de GL(E) formado por todos os operadores lineares O invertı́veis tais que

ω(Ox, Oy) = ω(x, y)

para todos x, y ∈ E. Vamos mostrar que Ω(E, ω) é um sub-grupo de GL(E). Primeiramente é claro
que ∈ Ω(E, ω). Em segundo lugar, sejam O1 e O2 dois operadores de Ω(E, ω). Teremos pelas
hipóteses que
ω(O1 O2 x, O1 O2 y) = ω(O2 x, O2 y) = ω(x, y)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 581/1195

para todos x, y ∈ E e, portanto, O1 O2 ∈ Ω(E, ω). Resta mostrar que se O ∈ Ω(E, ω) então
O −1 ∈ Ω(E, ω). De fato,

ω(O −1 x, O −1 y) = ω(OO −1x, OO −1 y) = ω(x, y)

para todos x, y ∈ E, que é o que querı́amos provar.


n n
Vamos considerar casos particulares em que E é o espaço  ou .
n n
Seja E =  e seja ωA uma forma bilinear em , que pelas considerações da Seção 2.4 é da forma


ωA (x, y) = hx, Ayi para alguma matriz real A. Neste caso Ω( n , ωA ) é o conjunto de todas as



matrizes M invertı́veis reais n × n tais que

hM x, AM yi 
= hx, Ayi 

n
para todos x, y ∈  . Essa relação nos diz que

hx, M T AM yi 
= hx, Ayi 

n
para todos x, y ∈  , o que implica
M T AM = A.
(Por quê?). Assim,
n

Ω(  , ωA ) = M ∈ Mat( , n), det(M ) 6= 0 e M T AM = A .


Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também

Ω( n , ωA ) = M ∈ Mat( , n), det(M ) 6= 0 e M −1 = A−1 M T A .
 

Seja E = n e seja ωA uma forma sesquilinear em n , que pelas considerações da Seção 2.4 é da
forma ωA (x, y) = hx, Ayi para alguma matriz complexa A. Neste caso Ω( n , ωA ) é o conjunto de


todas as matrizes M invertı́veis complexas n × n tais que

hM x, AM yi  = hx, Ayi 

n
para todos x, y ∈ . Essa relação nos diz que

hx, M ∗ AM yi  = hx, Ayi 

n
para todos x, y ∈  , o que implica
M ∗ AM = A.
Acima M ∗ = M T . Assim,

Ω( n
, ωA ) = {M ∈ Mat( , n), det(M ) 6= 0 e M ∗ AM = A} .

Se a matriz A for invertı́vel (ou seja, se ωA for não-degenerada), então podemos escrever também

Ω( n , ωA ) = M ∈ Mat( , n), det(M ) 6= 0 e M −1 = A−1 M ∗ A .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 582/1195

10.2.4 Os Grupos Ortogonais

• Os Grupos O(n) e SO(n)

Um caso de particular interesse é aquele onde E = n e A = , ou seja, ωA (x, y) = hx, yi . Neste





caso o grupo Ω( n , ωA ) é denotado por O(n) e tem-se





O(n) := M ∈ Mat( , n), M −1 = M T .


O(n) é o grupo das matrizes ditas ortogonais n × n.


Se M é uma matriz ortogonal, tem-se que M M T = . Daı́, 1 = det( ) = det(M M T ) =
det(M ) det(M T ) = (det(M ))2 . Concluı́mos que se uma matriz M é ortogonal, vale det(M ) = ±1.
O(n) possui um sub-grupo, denominado SO(n), que é composto pelas matrizes ortogonais com
determinante igual a 1:

SO(n) := M ∈ Mat( , n), M −1 = M T e det(M ) = 1 .


Os grupos SO(n) representam generalizações do grupo de rotações do espaço tridimensional para o


espaço n-dimensional.

• Os Grupos O(p, m) e SO(p, m)


n
Um outro caso de particular interesse é aquele onde E =  e ω(x, y) = hx, η(p, m)yi 
onde
η(p, m) é a matriz diagonal
 
1
 ... 
 
 
 1 
η(p, m) :=  , (10.24)
 −1 
 .. 
 . 
−1
com p elementos +1 e m elementos −1, sendo p + m = n.
n
Neste caso o grupo Ω( , ω) é denotado por O(p, m) e tem-se



O(p, m) := M ∈ Mat( , n), M −1 = η(p, m)M T η(p, m) .


Se M ∈ O(p, m), tem-se que M η(p, m)M T η(p, m) = . Daı́,



1 = det( ) = det M η(p, m)M T η(p, m) = det(M ) det(M T ) (det(η(p, m)))2 = (det(M ))2 .
Concluı́mos que se M ∈ O(p, m), vale det(M ) = ±1.
O(p, m) possui um sub-grupo, denominado SO(p, m), que é composto pelas matrizes de O(p, m)
com determinante igual a 1:

SO(p, m) := M ∈ Mat( , n), M −1 = η(p, m)M T η(p, m) e det(M ) = 1 .

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 583/1195

Certos grupos O(p, m) e SO(p, m) desempenham um papel muito importante em Fı́sica, estando
ligados ao chamado Grupo de Lorentz, o qual tem importância na Teoria da Relatividade Especial. O
grupo de Lorentz é detalhadamente discutido na Seção 10.6.

10.2.5 Os Grupos Unitários

• Os Grupos U (n) e SU (n)

Mais um caso importante é aquele onde E = n e ωA é a forma sesquilinear associada a A = , ou


seja, ωA (x, y) = hx, yi . Neste caso o grupo Ω( n , ωA ) é denotado por U (n) e tem-se



U (n) := M ∈ Mat( , n), M −1 = M ∗ .
U (n) é o grupo das matrizes ditas unitárias n × n.
Se M é uma matriz unitária, tem-se que M M ∗ = . Daı́,
 
∗ ∗ T
1 = det( ) = det (M M ) = det(M ) det(M ) = det(M ) det M =

det(M )det(M T ) = det(M )det(M ) = |det(M )|2 .


Concluı́mos que se M ∈ U (n), vale |det(M )| = 1.
U (n) possui um sub-grupo, denominado SU (n), que é composto pelas matrizes unitárias com de-
terminante igual a 1:

SU (n) := M ∈ Mat( , n), M −1 = M ∗ e det(M ) = 1 .

Os grupos U (2) e SU (3) desempenham um papel muito importante na Mecânica Quântica e na


Fı́sica das Partı́culas Elementares.

• Os Grupos U (p, m) e SU (p, m)

Mais um caso é aquele onde E = n e ω(x, y) = hx, η(p, m)yi onde η(p, m) foi definida em


(10.24). Neste caso o grupo Ω( n , ω) é denotado por U (p, m) e tem-se



U (p, m) := M ∈ Mat( , n), M −1 = η(p, m)M ∗ η(p, m) .

Se M ∈ U (p, m), tem-se que M η(p, m)M ∗ η(p, m) = . Daı́,

1 = det( ) = det (M η(p, m)M ∗ η(p, m)) = det(M ) det(M ∗ ) (det(η(p, m)))2 =
 
det(M ) det M T = det(M )det(M T ) = det(M )det(M ) = |det(M )|2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 584/1195

Concluı́mos que se M ∈ U (p, m), vale |det(M )| = 1.


U (p, m) possui um sub-grupo, denominado SU (p, m), que é composto pelas matrizes de U (p, m)
com determinante igual a 1:

SU (p, m) := M ∈ Mat( , n), M −1 = η(p, m)M ∗ η(p, m) e det(M ) = 1 .

E. 10.30 Exercı́cio. Mostre que os elementos do grupo SO(n) são caracterizados por n(n − 1)/2
parâmetros reais. Mostre que os elementos do grupo SU(n) são caracterizados por n 2 − 1 parâmetros reais.
6

Desse exercı́cio conclui-se, por exemplo, que os grupos SO(3) e SU(2) são caracterizados pelo mesmo
número de parâmetros reais, a saber 3. Conseqüências desse fato serão investigadas abaixo, quando
olharemos com mais detalhe para esses dois grupos.

• Os Grupos Ortogonais Complexos

Seja o espaço vetorial complexo n e seja a seguinte forma bilinear em n : ω(x, y) = hx yi = 

x1 y1 +· · ·+xn yn para vetores x = (x1 , · · · , xn ) e y = (y1 , · · · , yn ) ∈ n . O grupo ortogonal complexo,


denotado por O(n, ), é o grupo das matrizes complexas que mantêm essa forma bilinear invariante:
n
O(n, ) := {M ∈ Mat (n, )| ω(M x, M y) = ω(x, y), ∀x, y ∈ }

= M ∈ Mat (n, )| M T = M −1 .

O(n, ) não pode ser confundido com o grupo U (n). É fácil ver também que se M ∈ O(n, ), então
det(M ) = ±1. Daı́, define-se

SO(n, ) := M ∈ Mat (n, )|M T = M −1 e det(M ) = 1 .

Como é fácil de se ver, SO(n, ) é um subgrupo de O(n, ).

10.3 Os Grupos SO(2), SO(3), SU(2) e SL( , 2)


Em função de sua particular importância na Fı́sica, em especial na Fı́sica Quântica, vamos discutir
aqui com algum detalhe os grupos SO(3) e SU(2), os quais, ademais, como veremos, são intimamente
relacionados. Por razões pedagógicas, ilustraremos o estudo dos grupos SO(3) e SU(2) tratando antes
do grupo SO(2).

10.3.1 Os Grupos SO(2), O(2), SO(1, 1) e O(1, 1)

• Os Grupos SO(2) e O(2)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 585/1195

Conforme já definimos, o grupo SO(2) é o grupo das matrizes ortogonais 2×2 reais com determinante
igual a 1: SO(2) = {R ∈ Mat ( , 2)| RT = R−1 e det(R) = 1}. Vamos começar estudando a forma


geral de tais matrizes.


Como toda matriz 2×2 real, uma matriz genérica R ∈ SO(2) é da forma R = ( ac db ), onde a, b, c, d ∈
 . Vamos estudar a condição R−1 = RT . Podemos calcular R−1 lembrando (vide (3.41), página 183)
a regra bem conhecida (a chamada “regra de Laplace9 ”): R−1 é dada pela transposta da matriz  dos
−1 d −b
co-fatores de R dividida pelo determinante de R, que é 1, neste caso. Ou seja, R = −c a . Assim,
R−1 = RT significa nesse caso    
d −b a c
= ,
−c a b d
a b
 2 2
ou seja, c = −b e d = a. Logo, R = −b a . A condição det(R) = 1 implica, portanto, a + b = 1.
Podemos então escrever a e b na forma a = cos θ, b = − sen (θ), com θ ∈ (−π, π]. Resumindo:
  
cos θ − sen θ
SO(2) = , onde θ ∈ (−π, π] .
sen θ cos θ

Como R(θ) = R(θ +2π) vemos que SO(2) é homeomorfo ao cı́rculo unitário S 1 , que é uma variedade
diferenciável. Como o produto e a inversa são contı́nuos em SO(2), isso diz que SO(2) é um grupo de
Lie.
Definindo  
cos θ − sen θ
R(θ) := ,
sen θ cos θ
é fácil constatar que R(0) = e que vale a regra de produto R(θ)R(θ 0 ) = R(θ + θ 0 ) (faça!). SO(2) é,
portanto, um grupo uniparamétrico homomorfo ao grupo ( , +) e isomorfo ao grupo ( , + mod 2π).
 

O gerador J de SO(2) é definido por


   
d d cos θ − sen θ 0 −1
J := R(θ) = = .
dθ θ=0 dθ sen θ cos θ θ=0 1 0

É igualmente elementar constatar que J 2 = − . Daı́


X∞
θm m
exp(θJ) = J
m=0
m!

X∞ ∞
θ 2k 2k X θ 2k+1
= J + J 2k+1
k=0
(2k)! k=0
(2k + 1)!


! ∞
!
X (−1)k θ 2k X (−1)k θ 2k+1
= + J
k=0
(2k)! k=0
(2k + 1)!

= cos(θ) + sen (θ)J

= R(θ).
9
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 586/1195

Assim,
SO(2) = {exp(θJ), onde θ ∈ (−π, π]} . (10.25)
Com isso, (10.25) está nos dizendo que todo elemento de SO(2) pode ser escrito como exponencial do
seu gerador. Veremos que algo semelhante também se dá nos grupos SO(3) e SU(2).
O grupo O(2) é o grupo das matrizes ortogonais 2 × 2 reais: O(2) = {R ∈ Mat ( , 2)| R T = R−1 }. 

Se R ∈ O(2) então det(R) = ±1. O caso det(R) = 1 corresponde a SO(2), que tratamos acima. Vamos
considerar o caso det(R) = −1.
Como toda matriz 2×2 real, uma matriz genérica R ∈ O(2) com det(R) = −1 é da forma R = ( ac db ),
onde a, b, c, d ∈ . Neste caso, como det(R) = −1, teremos R −1 = −d

b
c −a . Assim, a condição
−1 T
R = R significa nesse caso    
−d b a c
= ,
c −a b d

ou seja, c = b e d = −a. Logo, R = ab −ab
. A condição det(R) = −1 implica novamente a2 + b2 = 1.
Podemos então escrever a e b na forma a = cos θ, b = − sen θ, com θ ∈ (−π, π]. Assim, R é da forma
    
cos θ − sen θ 1 0 cos θ − sen θ
R = = .
− sen θ − cos θ 0 −1 sen θ cos θ

Resumindo:
( P   )
1 0 cos θ − sen θ
O(2) = , onde P ∈ {0, 1} e θ ∈ (−π, π] .
0 −1 sen θ cos θ

• O grupo U(1)

E. 10.31 Exercı́cio. Mostre que o grupo U(1) := {z ∈ , |z| = 1} é isomorfo ao grupo SO(2). 6

• O grupo O(1, 1) (O Grupo de Lorentz em 1+1 dimensões)

Aqui estudaremos em detalhe o grupo O(1, 1), também denominado Grupo de Lorentz em 1+1
dimensões. A leitura deste tópico pode servir de introdução à leitura da Seção 10.6 que tratará do
Grupo de Lorentz em 3+1 dimensões.
1

Seja M matriz real 2×2 na forma M = ( ac db ), onde a, b, c, d ∈ . Tem-se que, M −1 = ad−bc d −b
−c a



a −c
onde det(M ) = ad − bc. Se η := ( 10 −1
0
) então ηM T η = −b d como facilmente se vê.
−1 T d −b
 a −c

Se M ∈ SO(1, 1) então M = ηM η e det(M ) = 1. Isso significa que −c a = −b d . Assim,
devemos ter a = d e b = c. A condição det(M ) = 1 significa a2 − b2 = 1. Logo,

SO(1, 1) = M ∈ Mat ( , 2)| M = ( ab ab ) com a2 − b2 = 1, a, b ∈
 . 

Como se vê, SO(1, 1) é homeomorfo ao conjunto H+ ∪ H− formado por duas hipérboles


p
H± := {(x, y) ∈ 2 | x = ± 1 + y 2 }.

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 587/1195

SO(1, 1) tem, portanto, duas componentes conexas, que denotaremos por L↑+ e L↓+ :
n √  o
L↑+ := M ∈ Mat ( , 2)| M = 1+b2 √ b
b 1+b2
 , b ∈ , 

n  √  o
L↓+ := M ∈ Mat ( , 2)| M = 
− 1+b2 √ b
b − 1+b2
, b∈  .

Note-se que apenas L↑+ é conexa à identidade e, portanto, apenas a componente L↑+ é um subgrupo de
SO(1, 1).
Parametrizando b ∈ na forma b = − senh (z), com z ∈ , constatamos que 

n   o
− senh (z)
L↑+ = M ∈ Mat ( , 2)| M = −cosh(z)


senh (z) cosh(z) , z ∈ , 

n   o
− cosh(z) − senh (z)
L↓+ = M ∈ Mat ( , 2)| M =


− senh (z) − cosh(z) , z∈  .

Os elementos de  O(1,a 1)−cque


 não são de SO(1, 1) têm determinante
 −1. Assim, são matrizes que
satisfazem −d c −a
b
= −b d sendo, portanto, da forma a b
−b −a com a2 − b2 = 1. O conjunto de
tais matrizes é igualmente homeomorfo ao conjunto H+ ∪ H− e consta também de duas componentes
conexas, a saber, os conjuntos
n  √  o
↑ − 1+b2 √ b
L− := M ∈ Mat ( , 2)| M = −b 1+b2
 , b∈ , 

n √  o
L↓− := M ∈ Mat ( , 2)| M = 
1+b2 √ b
−b − 1+b2
, b∈  .

É claro que nem L↑− nem L↓− são subgrupos de O(1, 1). Parametrizando b ∈  novamente na forma
b = − senh (z), com z ∈ , constatamos que


n   o
L↑− = M ∈ Mat ( , 2)| M = −senh cosh(z) − senh (z)
(z) cosh(z)
 , z∈  ,
n   o
cosh(z) − senh (z)
L↓− = M ∈ Mat ( , 2)| M =


senh (z) − cosh(z) , z∈  .

O grupo O(1, 1) é, portanto, a união de quatro componentes conexas:


O(1, 1) = L↑+ ∪ L↓+ ∪ L↑− ∪ L↓− ,
sendo cada componente disjunta das demais. Dentre elas apenas L↑+ é um grupo.
↑ ↓
Definindo as matrizes P := ( −1 0 1 0
0 1 ) ∈ L− e T := ( 0 −1 ) ∈ L− , podemos escrever
n   o
− senh (z)
L↓+ = M ∈ Mat ( , 2)| M = T −cosh(z) 

senh (z) cosh(z) P, z ∈ , 

n   o
cosh(z) − senh (z)
L↑− = M ∈ Mat ( , 2)| M =


− senh (z) cosh(z) P, z ∈  ,


n   o
cosh(z) − senh (z)
L↓− = M ∈ Mat ( , 2)| M = T


− senh (z) cosh(z) , z∈  ,

o que exibe a relação entre as matrizes dessas três componentes conexas e as matrizes de L ↑+ .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 588/1195

E. 10.32 Exercı́cio. Mostre que

L↑+ = {M ∈ Mat ( , 2)| M = exp(zM1 ), z ∈


  },
0 −1

onde M1 := −1 0 . 6

O grupo O(1, 1) é por vezes denominado Grupo de Lorentz em 1+1 dimensões. L↑+ é denominado
Grupo de Lorentz próprio ortócrono em 1+1 dimensões. O Grupo de Lorentz em 3+1 dimensões será
estudado em detalhe na Seção 10.6, página 617.
Para fazermos contacto com a teoria da relatividade restrita, façamos uma outra parametrização
de L↑+ , definindo v = c tanh(z). Com isso −c < v < c, cosh(z) = γ(v) e senh (z) = vc γ(v), onde
γ(v) = (1 − (v/c)2 )−1/2 . Assim,
n   o
↑ γ(v) − vc γ(v)
L+ = M ∈ Mat ( , 2)| M = − v γ(v) γ(v) , −c < v < c .


   0
Logo, M ∈ L↑+ age em um vetor x
ct
como M x
ct
= x
ct0
, onde

0 x − vc t 0 t − cv2 x
x = q , t = q ,
2 2
1 − vc2 1 − vc2

que são as bem conhecidas transformações de Lorentz da teoria da relatividade restrita.

E. 10.33 Exercı́cio. Qual a interpretação fı́sica das matrizes P e T introduzidas acima? 6

10.3.2 O Grupo SO(3)


Conforme já definimos, SO(3) é o grupo formado por todas as matrizes 3 × 3 reais R tais que R T = R−1
e tais que det(R) = 1. Vamos começar seu estudo mostrando que toda a matriz R 6= de SO(3)
representa uma rotação por algum ângulo em torno de algum eixo. A essa interpretação seremos
conduzidos pelas duas proposições que seguem.
Proposição 10.3 Para cada matriz R ∈ SO(3), R 6= , existe um sub-espaço unidimensional V de
3
 formado por vetores que são deixados invariantes por R: R~v = ~v para todo ~v ∈ V . 2

Note que o sub-espaço V pode não ser o mesmo para matrizes R distintas. Note também que
excluı́mos R = por razões óbvias: todo vetor de 3 é invariante por e não apenas um sub-espaço


unidimensional.

Prova. Seja R 6= uma matriz qualquer de SO(3), fixa daqui por diante. Para x ∈ , seja p(x) := 

det(x − R), o polinômio caracterı́stico de R. Se escrevermos explicitamente o determinante da matriz


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 589/1195

x −R (faça!), veremos que p(x) = +x3 +α1 x2 +α2 x+α2 , onde as constantes αi dependem dos elementos
de matriz de R. Como o termo de maior grau em x de p(x) é +x3 , concluı́mos que limx→∞ p(x) = +∞.
Fora isso, é claro que p(0) = det(−R) = − det(R) = −1 (por que?). Esses dois fatos dizem que o
polinômio p(x) deve ter um zero para algum x0 > 0.
Vamos provar que x0 = 1. Como det(x0 − R) = 0, concluı́mos que a matriz R − x0 não possui
uma inversa. Portanto, deve existir pelo menos um vetor não-nulo ~v0 ∈ 3 tal que (R − x0 )~v0 = 0, 

ou seja, R~v0 = x0~v0 . Como R ∈ SO(3), segue que


|~v0 |2 = h~v0 , ~v0 i 
= hR~v0 , R~v0 i 
= hx0~v0 , x0~v0 i 
= x20 h~v0 , ~v0 i .


Logo x20 = 1 e, como x0 > 0, segue x0 = 1. Assim, R~v0 = ~v0 , ou seja, ~v0 é um autovetor de R com
autovalor 1.
Seja V o sub-espaço de 3 formado por todos os vetores ~v que são autovetores de R com autovalor


1: V = {~v ∈ 3 | R~v = ~v }. Como acabamos de mostrar, V é não-trivial, ou seja, V 6= {0} e sua




dimensão pode ser 1, 2 ou 3.


Notemos de passagem que se v ∈ V então vale também que R T v = v. De fato, se aplicarmos RT à
direita na igualdade v = Rv e lembrarmos que RT R = , segue que RT v = v. Notemos também que
V ⊥ , o sub-espaço formado por todos os vetores ortogonais a todos os vetores de V , é também deixado
invariante por R, ou seja, se u ∈ V ⊥ então Ru ∈ V ⊥ . De fato, se v ∈ V e u ∈ V ⊥
hRu, vi 
= hu, RT vi 
= hu, vi 
= 0.
Como isso vale para todo v ∈ V , concluı́mos que Ru ∈ V ⊥ , como querı́amos.
Como dissemos, a dimensão de V pode ser igual a 1, 2 ou 3. Vamos mostrar que os dois últimos
casos não são possı́veis.
3
Se a dimensão de V fosse 3, V seria idêntico ao espaço  . Nesse caso então R~v = ~v para todo
vetor ~v ∈ 3 , ou seja, R = , situação que excluı́mos.


Vamos supor então que a dimensão de V é 2. Nesse caso a dimensão de seu complemento ortogonal
V é 1. Agora, como V ⊥ é unidimensional e é invariante pela ação de R, teremos para u ∈ V ⊥ que

Ru = λu, para algum λ ∈ . Mas isso diz que




hu, ui  = hRu, Rui  = hλu, λui  = λ2 hu, ui 

e, portanto, λ = ±1. O caso λ = +1 já está excluı́do (pois aı́ u ∈ V ). Logo λ = −1 e Ru = −u.
Conseqüentemente, se escolhermos em 3 uma base ortonormal formada por três vetores v1 , v2 e u


com v1 , v2 ∈ V e u ∈ V ⊥ , a matriz R teria a forma


 
1 0 0
R = 0 1 0  .
0 0 −1
Mas com isso terı́amos det(R) = −1, uma contradição! Logo a dimensão de V dever ser igual a 1, e
isso completa a prova.

Seja R 6= um elemento de SO(3) e seja VR o sub-espaço unidimensional formado pelos vetores


deixados invariantes por R e cuja existência foi estabelecida na proposição que acabamos de provar.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 590/1195

Como também vimos, R também deixa invariante o sub-espaço bidimensional VR⊥ , que é ortogonal a
VR .
3
Isso significa que se escolhermos em uma base ortonormal v, u1 , u2 com v ∈ VR e ui ∈ VRT , R


terá a forma  
1 0 0
 0 
 

R :=  r , (10.26)

 0 

onde r é uma matriz real 2 × 2. Que propriedades tem r? Como veremos, r ∈ SO(2). De fato, pela
definição de R, teremos para qualquer vetor u, que hu, ui = hRu, Rui , mas se escolhermos u ∈ VRT ,
 

teremos Ru = ru em VRT e a relação acima significa hu, ui = hru, rui . Logo r ∈ O(2). Fora isso,
 

(10.26) mostra que 1 = det(R) = det(r), provando que r ∈ SO(2). Como sabemos a forma geral de
uma matriz de SO(2) é  
cos ϕ − sen ϕ
r = ,
sen ϕ cos ϕ
com ϕ ∈ (−π, π]. Isso está também dizendo que R representa uma rotação de ϕ em torno do eixo
representado por VR .
Concluı́mos então o seguinte:
3
Proposição 10.4 Para cada R ∈ SO(3) existe uma base ortonormal de  onde R é da forma
 
1 0 0
R =  0 cos ϕ − sen ϕ  (10.27)
0 sen ϕ cos ϕ

com ϕ ∈ (−π, π]. 2

Pela discussão precedente, se considerarmos os elementos de SO(3) que correspondem a rotações


por um ângulo ϕ no sentido horário em torno dos eixos canônicos 1, 2 e 3 do espaço tridimensional 3 , 

eixos esses que suporemos orientados positivamente, como usual, teremos que as respectivas matrizes
de rotação são dadas por
   
1 0 0 cos ϕ 0 sen ϕ
R1 (ϕ) =  0 cos ϕ − sen ϕ  , R2 (ϕ) =  0 1 0 ,
0 sen ϕ cos ϕ − sen ϕ 0 cos ϕ

 
cos ϕ − sen ϕ 0
R3 (ϕ) =  sen ϕ cos ϕ 0  , (10.28)
0 0 1

com ϕ ∈ (−π, π].


É um exercı́cio elementar (faça) verificar que cada matriz Ri (θ) representa um sub-grupo unipa-
ramétrico de SO(3): Ri (0) = e Ri (θ)Ri (θ 0 ) = Ri (θ + θ 0 ). Os geradores desses sub-grupos são dados
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 591/1195

por
   
1 0 0 0 0 0
d d 
J1 := R1 (ϕ) = 0 cos ϕ − sen ϕ  =  0 0 −1  , (10.29)
dϕ dϕ
ϕ=0 0 sen ϕ cos ϕ ϕ=0
0 1 0
   
cos ϕ 0 sen ϕ 0 0 1
d d 
J2 := R2 (ϕ) = 0 1 0  =  0 0 0 , (10.30)
dϕ dϕ
ϕ=0 − sen ϕ 0 cos ϕ ϕ=0 −1 0 0
   
cos ϕ − sen ϕ 0 0 −1 0
d d 
J3 := R3 (ϕ) = sen ϕ cos ϕ 0  =  1 0 0 . (10.31)
dϕ dϕ
ϕ=0 0 0 1 ϕ=0
0 0 0

E. 10.34 Exercı́cio importantı́ssimo. Verifique que as matrizes J1 , J2 e J3 satisfazem as relações de


comutação
3
X
[Ja , Jb ] = εabc Jc , (10.32)
c=1

onde εabc , com a, b, c = 1, 2, 3, é o chamado sı́mbolo (ou tensor) de Levi-Civita 10 , definido da seguinte
forma: 
 1, se abc for uma permutação par de 123
εabc := −1, se abc for uma permutação ı́mpar de 123 . (10.33)

0, se quaisquer dois ı́ndices forem iguais
6

Esse exercı́cio nos diz que as matrizes J1 , J2 e J3 formam uma álgebra de Lie, denominada álgebra
de Lie so(3) (com letras minúsculas), para lembrar sua associação com o grupo SO(3).

~ = (α1 , α2 , α3 ) ∈ 3 e β~ = (β1 , β2 , β3 ) ∈
E. 10.35 Exercı́cio. Sejam α  
3
. Usando (10.32), mostre
que h i
α ~ β~ · J~ = (~
~ · J, ~ · J,
α × β) ~ (10.34)

sendo que “×” denota o produto vetorial em 


3
~ · J~ é uma abreviação sugestiva para α1 J1 + α2 J2 + α3 J3 .

6

10
Tullio Levi-Civita (1873-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 592/1195

E. 10.36 Exercı́cio. Verifique que as matrizes J1 , J2 e J3 satisfazem


 
0 0 0
J12 = −  0 1 0  =: E1 , (10.35)
0 0 1
 
1 0 0
J22 = −  0 0 0  =: E2 , (10.36)
0 0 1
 
1 0 0
J32 = −  0 1 0  =: E3 . (10.37)
0 0 0
6

E. 10.37 Exercı́cio. Verifique que com as matrizes E1 , E2 e E3 acima podemos escrever


Ra (ϕ) = + (1 − cos(ϕ))Ea + sen (ϕ)Ja (10.38)
para a = 1, 2 e 3. 6

Com o uso de (10.35) podemos facilmente provar o seguinte fato: para a = 1, 2 ou 3 tem-se
Ra (ϕ) = exp(ϕJa ).
Vamos mostrar isso. Por (10.35)-(10.37) é evidente que Ja3 = Ea Ja = −Ja (verifique!). Logo, para todo
k∈ ,

Ja2k = (−1)k+1 Ea , ∀k > 0 e Ja2k+1 = (−1)k Ja , ∀k ≥ 0. (10.39)

Assim, temos para a = 1, 2 ou 3,


X∞
ϕm m
exp(ϕJa ) = + J
m=1
m! a

X∞ ∞
ϕ2k 2k X ϕ2k+1 2k+1
= + J + J
k=1
(2k)! a k=0
(2k + 1)! a


! ∞
!
(10.39) X (−1)k+1 ϕ2k X (−1)k ϕ2k+1
= + Ea + Ja
k=1
(2k)! k=0
(2k + 1)!

= + (1 − cos(ϕ))Ea + sen (ϕ)Ja

(10.38)
= Ra (ϕ),
que é o que querı́amos mostrar.
Vamos agora mostrar que todo elemento de SO(3) pode ser escrito como exponencial de uma
combinação linear das matrizes Ja .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 593/1195

3
Proposição 10.5 Seja R ∈ SO(3). Então existe um vetor η~ ∈  , ~η = (η1 , η2 , η3 ), com |~η | = 1 e um
ângulo θ ∈ (−π, π] tais que  
R = exp θ~η · J~ ,

onde ~η · J~ := η1 J1 + η2 J2 + η3 J3 . Em particular, toda matriz de rotação R ∈ SO(3) pode ser expressa


na forma  2  
R = + (1 − cos(θ)) ~η · J~ + sen (θ) ~η · J~ , (10.40)
ou seja, escrevendo-se explicitamente,
 
(1 − cos(θ))η12 + cos(θ) (1 − cos(θ))η1 η2 − sen (θ)η3 (1 − cos(θ))η1 η3 + sen (θ)η2
 
 
R =   (1 − cos(θ))η 1 η 2 + sen (θ)η 3 (1 − cos(θ))η 2
2 + cos(θ) (1 − cos(θ))η 3 η 2 − sen (θ)η 1
 .

 
(1 − cos(θ))η1 η3 − sen (θ)η2 (1 − cos(θ))η3 η2 + sen (θ)η1 (1 − cos(θ))η32 + cos(θ)

A expressão (10.40) é denominada fórmula de Rodrigues 11 .

Prova. Se R = podemos escolher θ = 0. Vamos supor R 6= . Pela Proposição 10.3, existe um


sub-espaço unidimensional VR que é deixado invariante por R. Vamos escolher ~η como sendo um vetor
de VR com comprimento igual a 1. É óbvio que R~η = ~η. Pela Proposição 10.4, R representa uma
rotação de um ângulo θ (no sentido horário) em torno de ~η .
 
O que faremos para demonstrar nossa proposição é mostrar que exp θ~η · J~ mantem ~η invariante
e roda os vetores perpendiculares a ~η de um ângulo
 θ (no sentido horário) em torno do eixo definido
por ~η. Com isso, podemos identificar R = exp θ~η · J~ , como queremos.
 
~
Vamos abaixo calcular de modo mais explı́cito o que é a matriz exp θ~η · J mas, antes disso, vamos
 
demonstrar que exp θ~η · J~ ∈ SO(3).
Para isso começamos com a observação que
 
0 −η3 η2
η~ · J~ := η1 J1 + η2 J2 + η3 J3 :=  η3 0 −η1  (10.41)
−η2 η1 0

~ T = −~η · J~.
é uma matriz anti-simétrica, ou seja, (~η · J)
11
Benjamin Olinde Rodrigues (1794-1851). Rodrigues foi banqueiro e matemático amador, nascido na França, mas de
origem judaico-portuguesa. Seu nome é mais conhecido por uma identidade sobre polinômios de Legendre.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 594/1195

Assim,
h  iT X∞ m
h iT m
θ
exp θ~η · J~ = ~η · J~
m=0
m!

X∞
(−θ)m ~m
= (~η · J)
m=0
m!
 
= exp −θ~η · J~

h  i−1
= ~
exp θ~η · J .

~ é ortogonal, ou seja, sua transposta é igual a sua inversa. Resta-nos


η · J) 
Isso provou que exp(θ~  
mostrar que det exp θ~η · J~ = 1. Como exp θ~η · J~ é ortogonal, seu determinante é ±1. Assim,
  
como det exp θ~η · J~ depende continuamente de θ (para isso, vide, por exemplo a expressão (10.44)
  
abaixo), temos que det exp θ~η · J~ é constante para todo θ ∈ (−π, π]. Calculando em θ = 0,
teremos      
det exp θ~η · J~ = det exp 0~η · J~ = det( ) = 1.
 
Logo, exp θ~η · J~ ∈ SO(3) para todo θ e todo η~.
 
Vamos agora expressar de modo mais explı́cito a matriz exp θ~η · J~ . Para isso será importante
mostrar que  3  
~η · J~ = − ~η · J~ . (10.42)

A maneira pedestre de mostrar isso é por verificação explı́cita. De fato, por (10.41),
 2 
 2 η1 − 1 η 1 η2 η1 η3
~η · J~ =  η1 η2 η22 − 1 η3 η2  . (10.43)
η1 η3 η3 η2 η32 − 1

~ obtem-se (10.42). Temos, então, o seguinte: para todo k ∈


Multiplicando-se novamente por ~η · J,  ,
k > 0, vale
 2k  2  2k+1  
~
~η · J = (−1) k+1 ~
~η · J e ~
~η · J k ~
= (−1) ~η · J .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 595/1195

Logo,
  X∞
θ m  ~m
~
exp θ~η · J = + ~η · J
m=1
m!

θ 2k  ~2k X θ 2k+1  ~2k+1


X∞ ∞
= + ~η · J + ~η · J
k=1
(2k)! k=0
(2k + 1)!
! !

X (−1)k+1 θ 2k  2 ∞
X (−1)k θ 2k+1
= + ~η · J~ + ~η · J~
(2k)! (2k + 1)!
k=1 k=0

 2  
= + (1 − cos(θ)) ~η · J~ + sen (θ) ~η · J~ .

Resumindo,    2  
exp θ~η · J~ = + (1 − cos(θ)) ~η · J~ + sen (θ) ~η · J~ . (10.44)

É um exercı́cio fácil verificar que


    
  0 −η3 η2 η1 0
~η · J~ ~η =  η3 0 −η1  η2  = 0 .
−η2 η1 0 η3 0
 
~
Assim, concluı́-se, tanto pela expansão em série de Taylor de exp θ~η · J quando por (10.44) que
 
exp θ~η · J~ ~η = ~η,
 
ou seja, tal como R, a matriz exp θ~η · J~ mantem ~η invariante para qualquer θ.
 
1
Para finalizar, vamos então escolher uma base em 3 na qual η~ = 0 . Nessa base teremos ~η · J~ = J1


0
 2  
~
e ~η · J = E1 . Logo, por (10.44), teremos nessa base que exp θ~η · J~ se expressa como
 
  1 0 0
exp θ~η · J~ = + (1 − cos(θ))E1 + sen (θ)J1 =  0 cos θ − sen θ 
0 sen θ cos θ
 
~
que é a forma (10.27) da matriz R. Isso permite-nos identificar R = exp θ~η · J , completando a prova.

Resumindo nossas conclusões,


n   o
SO(3) = exp θ~η · J~ , θ ∈ [−π, π], ~η ∈ 
3
com |~η | = 1 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 596/1195

A Proposição 10.5 está nos dizendo que todo elemento de SO(3) pode ser escrito como a exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [114]) que
diz que se um grupo de Lie é compacto e sua álgebra de Lie é semi-simples, a aplicação exponencial da
sua álgebra de Lie é sobrejetora no grupo. De fato, SO(3) é compacto e so(3) é semi-simples.
Para finalizar esta exposição sobre o grupo SO(3), vamos descrever sua estrutura enquanto variedade
diferenciável. Como vimos, os elementos de SO(3) são parametrizados por pontos θ~η de 3 , sendo que 

θ ∈ [−π, π] e |~η | = 1. O conjunto de todos os pontos desse tipo compreende a esfera de raio π
centrada na origem. Para cada ~η fixo, os dois pontos antı́podas da superfı́cie dessa esfera que estão na
direção definida por ~η são ±π~η . É claro, porém, que tais pontos correspondem à mesma rotação: uma
rotação de π em torno de um eixo é o mesmo  que uma rotação
 de−π em torno do mesmo eixo. De
fato, é trivial verificar por (10.44) que exp π~η · J = exp −π~η · J~ . Assim, SO(3) corresponde nessa
~
imagem ao espaço obtido tomando-se uma esfera e identificando-se todos os pares de pontos antı́podas.
Na linguagem da geometria diferencial, o conjunto que assim se obtem é denominado espaço projetivo
real (em quatro dimensões) e denotado por P 3 . O conjunto P n é a variedade diferenciável n-
 

dimensional formada pelo conjunto de todas as linhas retas de n+1 que passam pela origem. SO(3)


é homeomorfo, enquanto variedade, ao espaço projetivo P 3 . Como veremos na próxima seção, o




grupo SU(2), que é fortemente aparentado a SO(3), tem outra estrutura: SU(2) é homeomorfo a S 3 , a
superfı́cie da esfera de raio 1 em 4 . Para uma introdução à geometria diferencial, vide [94].


E. 10.38 Exercı́cio. Leia [94] e resolva todos os seus exercı́cios. 6

10.3.3 O Grupo SU(2)

• As Matrizes de Pauli

De grande importância no estudo do grupo SU(2) são as chamadas matrizes de Pauli 12 , definidas
como      
0 1 0 −i 1 0
σ1 := , σ2 := e σ3 := . (10.45)
1 0 i 0 0 −1
As matrizes de Pauli satisfazem as seguintes relações algébricas: para todos a, b = 1, 2, 3 valem
3
X
[σa , σb ] := σa σb − σb σa = 2i εabc σc , (10.46)
c=1

{σa , σb } := σa σb + σb σa = 2δab , (10.47)


3
X
σa σb = δab + i εabc σc . (10.48)
c=1

E. 10.39 Exercı́cio importantı́ssimo (todo estudante deve fazê-lo pelo menos uma vez na vida). Ve-
rifique as relações algébricas acima. Note que (10.48) segue diretamente de (10.47) e (10.46). 6
12
Wolfgang Pauli (1900-1958).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 597/1195

Note também que as matrizes de Pauli são auto-adjuntas: σi∗ = σi . Note ainda que as quatro
matrizes , σ1 , σ2 , σ3 formam uma base em Mat ( , 2): toda matriz complexa 2 × 2 pode ser escrita
como uma combinação linear das mesmas.

E. 10.40 Exercı́cio. Mostre que as matrizes , σ1 , σ2 , σ3 são ortonormais em relação ao seguinte


produto escalar definido em Mat ( , 2): hA, Bi := 21 Tr (A∗ B). 6

As matrizes de Pauli desempenham um papel importante na Mecânica Quântica, estando associadas


ao operador de spin para partı́culas de spin 1/2, tais como o elétron, o próton, o neutron, os quarks e
outras.

• A Forma Geral das Matrizes de SU(2)

Conforme já definimos, o grupo SU(2) é o grupo das matrizes unitárias complexas 2 × 2 com
determinante igual a 1: SU(2) = {U ∈ Mat ( , 2)| U ∗ = U −1 e det(U ) = 1}. Vamos começar
estudando a forma geral de tais matrizes, procurando uma parametrização conveniente para as mesmas
que permitirá estudar as propriedades de SU(2) como um grupo de Lie.
Como toda matriz 2 × 2 complexa, uma matriz genérica U ∈ SU(2) é da forma U = ( ac db ), onde
a, b, c, d ∈ . Vamos estudar a condição U −1 = U ∗ . Podemos calcular U −1 lembrando (vide (3.41),
página 183) a regra bem conhecida: U −1 é dada pela transposta da matriz
 dos co-fatores de U dividida
pelo determinante de U , que é 1, neste caso. Ou seja, U = −c a . Assim, U −1 = U ∗ significa nesse
−1 d −b

caso    
d −b a c
= ,
−c a b d
a b
 2 2
ou seja, c = −b e d = a. Logo, U = −b a . A condição det(U ) = 1 implica, portanto, |a| + |b| = 1.
Resumindo:   
a b 2 2
SU(2) = , onde a, b ∈ com |a| + |b| = 1 .
−b a

Escrevendo os números complexos a e b como soma de suas partes real e imaginária: a = a 1 + ia2
e b = b1 + ib2 , com a1 , a2 , b1 , b2 ∈ , poderemos escrever U como uma combinação linear de matrizes


de Pauli (e da unidade):
 
a1 + ia2 b1 + ib2
U = = a1 + i(b2 σ1 + b1 σ2 + a2 σ3 ). (10.49)
−b1 + ib2 a1 − ia2

Essa expressão será usada adiante.


Vamos agora nos voltar para a condição |a|2 + |b|2 = 1. A mesma significa a21 + a22 + b21 + b22 = 1.
Temos então,
  
a1 + ia2 b1 + ib2 4 2 2 2 2
SU(2) = , onde (a1 , a2 , b1 , b2 ) ∈ com a1 + a2 + b1 + b2 = 1 . (10.50)
−b1 + ib2 a1 − ia2


Lembremos que para todo inteiro n ≥ 1, o conjunto de pontos

S n := {(x1 , . . . , xn+1 ) ∈ 
n+1
com x21 + · · · + x2n+1 = 1} ⊂ 
n+1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 598/1195

designa a superfı́cie da esfera unitária de n+1 . Assim, vemos que SU(2) é homeomorfo a S 3 , a


superfı́cie da esfera unitária do espaço quadridimensional 4 . Isso ilustra o fato que SU(2) é uma


variedade diferenciável. Como o produto e a inversa são contı́nuos em SU(2), o mesmo é um grupo de
Lie.
Vamos tentar agora parametrizar de outra forma o vetor (a1 , a2 , b1 , b2 ) ∈ S 3 que aparece do lado
direito de (10.50). Claramente, a condição a21 + a22 + b21 + b22 = 1 diz que a1 , a2 , b1 e b2 são números
reais contidos no intervalo [−1, 1]. Podemos assim definir um ângulo θ ∈ [−π, π] de forma que
a1 = cos θ.
Fora isso, para cos(θ) 6= ±1, podemos definir
b2 b1 a2
η1 := , η2 := , η3 := .
sen θ sen θ sen θ
A condição a21 + a22 + b21 + b22 = 1 implica então (verifique!) que η12 + η22 + η32 = 1. Assim, o vetor
η~ := (η1 , η2 , η3 ) de 3 é um vetor de comprimento 1. Com esses novos parâmetros θ e ~η podemos


reescrever (10.49) como


U = cos(θ) + i sen (θ)~η · ~σ ,
onde  
η3 η1 − iη2
η~ · ~σ := η1 σ1 + η2 σ2 + η3 σ3 = .
η1 + iη2 −η3
Assim, 
3
SU(2) = cos(θ) + i sen (θ)~η · ~σ , onde θ ∈ [−π, π] e ~η ∈  com |~η | = 1 .
A importância de se expressar U ∈ SU(2) dessa forma, em termos de θ e η~, provem da seguinte
identidade:
cos(θ) + i sen (θ)~η · ~σ = exp (iθ~η · ~σ ) .
Vamos provar isso expandindo o lado direito e verificando que é igual ao lado esquerdo. De fato, pela
definição da exponencial de matrizes,
X∞
(iθ)m
exp (iθ~η · ~σ ) = (~η · ~σ )m
m=0
m!


X X∞
(iθ)2k 2k (iθ)2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1 ,
k=0
(2k)! k=0
(2k + 1)!
onde, na última linha, apenas fizemos separar a soma em m da primeira linha nos casos m par e m
ı́mpar. É um exercı́cio muito fácil (faça!) verificar que
 2
2 η3 η1 − iη2
(~η · ~σ ) = = .
η1 + iη2 −η3
Portanto, (~η · ~σ )2k = e (~η · ~σ )2k+1 = ~η · ~σ . Logo,

! ∞
!
X (iθ)2k X (iθ)2k+1
exp (iθ~η · ~σ ) = + ~η · ~σ
k=0
(2k)! k=0
(2k + 1)!

= cos(θ) + i sen (θ)~η · ~σ ,


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 599/1195

que é o que querı́amos mostrar.


Resumindo nossas conclusões,
 3

SU(2) = exp (iθ~η · ~σ ) onde θ ∈ [−π, π] e ~η ∈  com |~η | = 1 . (10.51)

Se tomarmos ~η1 = (1, 0, 0), ~η2 = (0, 1, 0) ou ~η3 = (0, 0, 1), obtemos três sub-grupos unipa-
ramétricos distintos de SU(2):
 
cos θ i sen θ
U1 (θ) := exp(iθσ1 ) = ,
i sen θ cos θ
 
cos θ sen θ
U2 (θ) := exp(iθσ2 ) = ,
− sen θ cos θ
 
eiθ 0
U3 (θ) := exp(iθσ3 ) = ,
0 e−iθ

respectivamente. Isso nos permite identificar as matrizes de Pauli σ1 , σ2 e σ3 como os geradores desses
subgrupos uniparamétricos. As relações (10.46) são as relações satisfeitas por essas matrizes, como
elementos de uma álgebra de Lie, que é denominada álgebra de Lie su(2).
Com isso, (10.51) está nos dizendo que todo elemento de SU(2) pode ser escrito como exponencial
de um elemento de sua álgebra de Lie. Isso constata um teorema geral (vide, por exemplo, [114]) que
diz que se um grupo de Lie é compacto e sua álgebra de Lie é semi-simples, a aplicação exponencial
da sua álgebra de Lie é sobrejetora no grupo. De fato, tal como SO(3), SU(2) é compacto e su(2) é
semi-simples.

E. 10.41 Exercı́cio. Mostre que


 3

U(2) = exp (iα + iθ~η · ~σ ) onde α, θ ∈ [−π, π] e ~η ∈  com |~η| = 1 .

10.3.4 A Relação entre SO(3) e SU(2)


O leitor que acompanhou com atenção as exposições precedentes sobre os grupos SO(3) e SU(2) certa-
mente apercebeu-se da existência de uma série de semelhanças entre ambos. Vamos agora precisá-las.
Em primeiro lugar, note-se que os geradores de SO(3) são matrizes 3 × 3 satisfazendo as relações
algébricas [Ja , Jb ] = εabc Jc , enquanto que geradores de SU(2) são matrizes 2×2 satisfazendo as relações
algébricas [σa , σb ] = 2iεabc σc . Se porém definirmos ja := −iσa /2, obtemos [ja , jb ] = εabc jc .
Seja
so(3) := {L ∈ Mat ( , 3) : L = α1 J1 + α2 J2 + α3 J3 , αk ∈
  , k = 1, 2, 3}
a álgebra de Lie (real) associada aos geradores de SO(3) e seja

su(2) := {l ∈ Mat ( , 2) : l = α1 j1 + α2 j2 + α3 j3 , αk ∈  , k = 1, 2, 3}
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 600/1195

a álgebra de Lie (real) associada aos geradores de SU(2).


É muito fácil constatar que a aplicação linear ϕ : su(2) → so(3) dada por

ϕ(α1 j1 + α2 j2 + α3 j3 ) = α1 J1 + α2 J2 + α3 J3

é um isomorfismo de álgebras de Lie, ou seja, é bijetora e satisfaz ϕ([la , lb ]) = [ϕ(la ), ϕ(lb )] para todos
la , lb ∈ su(2).

E. 10.42 Exercı́cio importante. Prove as afirmativas acima. 6

E. 10.43 Exercı́cio. Mostre que so(3) coincide com álgebra de Lie de todas as matrizes reais 3 × 3
anti-simétricas. (Vide exercı́cio à página 57). 6

E. 10.44 Exercı́cio. Mostre que su(2) coincide com álgebra de Lie de todas as matrizes complexas 2 × 2
anti-autoadjuntas. (Vide exercı́cio à página 57). 6

Assim, as álgebras de Lie so(3) e su(2) são isomorfas. Discutiremos agora que implicações isso traz
sobre as relação entre os grupos SO(3) e SU(2).
O isomorfismo ϕ definido acima sugere considerar-se a seguinte aplicação φ : SU (2) → SO(3) dada
por
φ (exp(l)) := exp (ϕ(l)) , ∀l ∈ su(2),
ou seja,     
φ exp θ~η · ~j := exp θ~η · J~ ,
3
para todos θ ∈ (−2π, 2π], e ~η ∈  com |~η | = 1.
Que propriedades essa φ possui? Em primeiro  lugar, é fácil ver que φ é sobrejetora (por que?),
mas não é injetora, pois para U1 := exp −i 20 ~η · ~σ = e U2 := exp −i 2π 2
~η · ~σ = − tem-se φ(U1 ) =
φ(U2 ) = . Verifique! A questão é: como se comporta φ em relação ao produto dos elementos do
grupo? A resposta encontra-se na afirmativa da proposição seguinte.
Proposição 10.6 A aplicação φ : SU (2) → SO(3) definida acima é um homomorfismo do grupo
SU(2) no grupo SO(3), ou seja, φ( ) = e para todos Ua , Ub ∈ SU(2) vale φ(Ua )φ(Ub ) = φ(Ua Ub ). 2

Em verdade, como φ é sobrejetora, a proposição estabelece que φ é um epimorfismo de SU(2) em


SO(3). Vide definição à página 65.

Prova. Que φ( ) = é trivial. Provemos que φ(Ua )φ(Ub ) = φ(Ua Ub ) para todos Ua , Ub ∈ SU(2). Sejam
Ua e Ub da forma ! !
3
X 3
X
Ua = exp αk j k , Ub = exp βk j k ,
k=1 k=1

com αk , βk ∈ , k = 1, 2, 3, e limitemos provisoriamente os valores




P3dos αk ’s e βk ’3P
a uma vizinhança
O suficientemente pequena de zero
 de modo
 que as matrizes a = k=1 αk jk e b = 3k=1 βk jk tenham

ambas normas menores que 12 ln 2 − 2
2
. Essa restrição provisória às normas de a e b (vide comentário
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 601/1195

à página 239) é útil pois coloca-nos no domı́nio de validade do fórmula de Baker-Campbell-Hausdorff


(eq. (4.46) à página 237. Vide também (4.47)). Isso justifica então escrevermos

Ua Ub = ea eb = exp (a ∗ b) ,

onde a ∗ b está definida em (4.46). Como a série que define a ∗ b é convergente e envolve comutadores
múltiplos de elementos da álgebra de Lie su(2), é evidente que a ∗ b é também um elemento de su(2) e,
mais que isso, tem-se
3
X 3
X
a∗b = γ k jk = γk (α1 , α2 , α3 , β1 , β2 , β3 )jk , (10.52)
k=1 k=1

onde cada γk é uma função analı́tica das variáveis α1 , α2 , α3 , β1 , β2 , β3 em um aberto suficientemente


pequeno próximo zero. A analiticidade se deve ao fato de que a série que define a ∗ b é absolutamente
convergente e envolve, em cada termo, polinômios nas variáveis α e β.

E. 10.45 Exercı́cio. Lance um olhar meditativo sobre a fórmula de Baker-Campbell-Hausdorff (4.46)


e convença-se da veracidade das afirmações feitas no último parágrafo sobre a analiticidade das funções
γk . De modo mais iluminante, mostre usando (4.47) e as relações de comutação (10.34), que os primeiros
termos de ~γ = (γ1 , γ2 , γ3 ) são
1  1     
~γ = α ~ + β~ + ~ × β~ +
α ~× α
α ~ × β~ + β~ × β~ × α ~ +··· ,
2 12

~ = (α1 , α2 , α3 ) e β~ = (β1 , β2 , β3 ).
onde α 6

Retomando, sejam agora


3
! 3
!
X X
φ(Ua ) = exp α k Jk , φ(Ub ) = exp β k Jk ,
k=1 k=1
P3 P3
e A = ϕ(a), B = ϕ(b), ou seja, A = k=1 α k Jk e B = k=1 βk Jk . Novamente, tem-se que

φ(Ua )φ(Ub ) = eA eB = exp (A ∗ B) ,

mas, como as relações de comutação entre os jk ’s são idênticas às dos Jk ’s, segue que
3
X 3
X
A∗B = γ k Jk , = γk (α1 , α2 , α3 , β1 , β2 , β3 )Jk ,
k=1 k=1

com as mesmas funções γk que em (10.52) (Justifique isso!). Ou seja, vale que

A ∗ B = ϕ(a ∗ b).

Isso concluiu que, pelo menos quando α1 , α2 , α3 , β1 , β2 , β3 são suficientemente próximos de zero,
vale
φ(Ua )φ(Ub ) = exp(ϕ(a ∗ b)) = φ(exp(a ∗ b)) = φ(Ua Ub ).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 602/1195

Tudo que nos falta agora é um argumento que justifique que essa igualdade vale não apenas para
α1 , α2 , α3 , β1 , β2 , β3 suficientemente próximos de zero, mas para quaisquer valores desses parâmetros.
Esse argumento é a analiticidade.
P3 
Cada elemento de matriz de exp k=1 αk Jk é uma função analı́tica (inteira) de α1 , α2 e α3 (pois a
série que define a exponencial
P3  converge absolutamente em toda parte). O mesmoPvale para os elementos
P3 
3
de matriz de exp β
k=1 k kJ . Assim, cada elemento de matriz do produto exp k=1 αk Jk exp k=1 βk Jk
é uma Pfunção analı́tica
 (inteira) de α1 , α2 , α3 , β1 , β2 , β3 . Igualmente, cada elemento de matriz de
3
exp γ
k=1 k kJ é uma função analı́tica de α1 , α2 , α3 , β1 , β2 , β3 quando esses estão próximos a zero
(pois a composição de funçõesPanalı́ticasé também P3 uma função
 analı́tica).
P3 Portanto,
 provamos acima
3
que as funções analı́ticas exp k=1 αk Jk exp k=1 βk Jk e exp k=1 γk Jk coincidem em um aberto
suficientemente pequeno. Por um teorema geral da teoria de funções de variáveis complexas, isso im-
plica que essas funções são iguais em toda parte. Assim, vale para todos α1 , α2 , α3 , β1 , β2 , β3 reais ou
complexos que φ(Ua )φ(Ub ) = φ(Ua Ub ), completando a prova.

Note que a aplicação φ não pode ser um isomorfismo de grupos pois, como vimos, não é bijetora.

E. 10.46 Exercı́cio. Mostre, porém, que SO(3) e SU(2)/{ , − } são isomorfos. 6

Todas as considerações de acima sobre a relação entre os grupos SO(3) e SU(2) são de grande
importância em fı́sica, particularmente no que concerne à representação do grupo de rotações SO(3)
para partı́culas de spin 1/2. Ainda mais profunda é a relação entre o grupo SL( , 2) e o grupo de
Lorentz, relação esta que discutiremos na Seção 10.8, página 643.

10.3.5 O Grupo SL( , 2)


Vamos aqui tratar de um grupo fortemente aparentado ao grupo SU(2) e ao grupo de Lorentz, cujo
estudo é importante na teoria dos spinores, particularmente no estudo de representações do grupo de
Lorentz para partı́culas de spin 1/2. Trata-se do grupo SL( , 2). Mais sobre o grupo SL( , 2), em
especial, sua relação com o grupo de Lorentz, será visto na Seção 10.8, página 643.
O grupo SL( , 2) é definido como o grupo formado pelas matrizes complexas 2 × 2 de determinante
igual a 1. Como as matrizes , σ1 , σ2 , σ3 formam uma base em Mat ( , 2), podemos escrever toda
matriz A ∈ SL( , 2) na forma
 
b4 + b3 b1 − ib2
A = b 4 + b 1 σ1 + b 2 σ2 + b 3 σ3 , = ,
b1 + ib2 b4 − b3

com b4 , b1 , b2 , b3 ∈ . A condição det(A) = 1 implica b24 − b21 − b22 − b23 = 1.


Assim,
  
b4 + b3 b1 − ib2
SL( , 2) = com b4 , b1 , b2 , b3 ∈ e b24 − b21 − b22 − b23 =1 . (10.53)
b1 + ib2 b4 − b3
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 603/1195

Como b4 é um número complexo arbitrário, podemos escrever

b4 = cosh z,

para algum z ∈ . Fora isso, para z 6= 0, podemos definir três números complexos η1 , η2 , η3 por
b1 b2 b3
η1 := , η2 := , η3 := .
senh z senh z senh z
A condição b24 − b21 − b22 − b23 = 1 implica (verifique!) que os números complexos η1 , η2 , η3 satisfazem
η12 + η22 + η32 = 1.
Com isso vemos que
 3

SL( , 2) = cosh(z) + senh (z) (~η · ~σ ), onde z ∈ e ~η ∈ com η12 + η22 + η32 = 1 . (10.54)

Mesmo para vetores η~ complexos tem-se, como vimos anteriormente quando tratamos de SU(2),
que (~η · ~σ )2 = . Portanto,
X∞
zm
exp (z ~η · ~σ ) = (~η · ~σ )m
m=0
m!

X∞ X∞
z 2k 2k z 2k+1
= (~η · ~σ ) + (~η · ~σ )2k+1
k=0
(2k)! k=0
(2k + 1)!


! ∞
!
X z 2k X z 2k+1
= + (~η · ~σ )
k=0
(2k)! k=0
(2k + 1)!

= cosh(z) + senh (z) (~η · ~σ ).

Assim, todo elemento A ∈ SL( , 2) é da forma exp (z ~η · ~σ ). Em resumo,



SL( , 2) = exp (z ~η · ~σ ) , onde z ∈ e ~η ∈ 3 com η12 + η22 + η32 = 1 . (10.55)

Como já vimos, o sub-grupo SU(2) de SL( , 2) corresponde a z = iθ, θ ∈ , e ~η ∈ 3 . Como  

vemos, SU(2) de SL( , 2) têm ambas álgebras de Lie geradas pelas matrizes de Pauli, mas em SU(2)
essa álgebra é real enquanto que em SL( , 2) é complexa.
Mais sobre o grupo SL( , 2), em especial, sua relação com o grupo de Lorentz, será visto na Seção
10.8, página 643.

10.4 Generalidades sobre os grupos SU(n) e SO(n)


Nesta seção discutiremos algumas qualidades gerais dos grupos SU(n) e SO(n). Para esta seção
recomenda-de a leitura prévia de partes do Capı́tulo 11. Começaremos com os grupos SU(n) pois
seu tratamento é ligeiramente mais simples que o dos grupos SO(n). O caso fisicamente importante do
grupo SU(3) será discutido com um pouco de detalhe.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 604/1195

10.4.1 Os Grupos SU(n)


Após termos adquirido algum conhecimento sobre o grupo SU(2), vamos estudar alguns aspectos gerais
dos grupos SU(n), n ≥ 2. Vimos acima de modo explı́cito que os elementos de SU(2) podem ser escritos
como exponenciais de elementos de sua álgebra de Lie. Veremos que esse fato é também válido para
SU(n).
Lembremos a definição: para n ≥ 2,

SU (n) := {U ∈ Mat ( , n)| U ∗ = U −1 e det(U ) = 1}.

Comecemos com a seguinte observação.


Proposição 10.7 SU(n) é um subgrupo compacto de GL( , n). 2

Prova. Provemos primeiramente que SU (n) é um subconjunto (topologicamente) fechado de GL( , n).
Seja Un , n ∈ , uma seqüência de matrizes de SU(n) que converge em norma a uma matriz


U ∈ Mat ( , n), ou seja, limn→∞ kUn − U k = 0, onde k · k é a norma operatorial de matrizes.


 

Desejamos provar que U ∈ SU(n).


Em primeiro lugar, notemos que podemos escrever

U ∗ U = (U − Un + Un )∗ (U − Un + Un ) = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un + Un∗ Un .

Como os Un são unitários, Un∗ Un = e conclui-se que U ∗ U − = (U − Un )∗ (U − Un ) + Un∗ (U − Un ) +


(U − Un )∗ Un . Assim

kU ∗ U − k 

= k(U − Un )∗ (U − Un ) + Un∗ (U − Un ) + (U − Un )∗ Un k 

≤ k(U − Un )∗ (U − Un )k + kUn∗ (U − Un )k + k(U − Un )∗ Un k


  

≤ k(U − Un )∗ k kU − Un k + kUn∗ k kU − Un k + k(U − Un )∗ k kUn k


     

≤ kU − Un k2 + 2kU − Un k



. (10.56)

(Ao estudante deve ser claro que acima usamos os fatos que, para quaisquer matrizes A, B, complexas
n × n, valem kA + Bk ≤ kAk + kBk , kABk ≤ kAk kBk , kAk = kA∗ k e que kAk = 1 se A é
        

unitária. Se não for claro, justifique esses fatos como exercı́cio ou leia o Capı́tulo 23).
Agora, como o extremo direito da seqüência de desigualdades (10.56) pode ser feito arbitrariamente
pequeno para n → ∞, concluı́mos que o extremo esquerdo é nulo, ou seja, U ∗ U = . Analogamente,
prova-se que U U ∗ = . Isso estabelece que U é unitário.
Para provar que o determinante de U vale 1, notemos que o fato de Un convergir a U na norma
operatorial implica que os elementos de matriz de seqüência de matrizes Un convergem aos elementos de
matriz de U (por que?). Como o determinante de uma matriz depende continuamente de seus elementos
de matriz (por que?), segue que det(U ) = limn→∞ det(Un ) = 1. Isso estabelece que U ∈ SU(n) e isso
prova que SU(n) é um subconjunto topologicamente fechado de GL( , n), como querı́amos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 605/1195

Para provarmos que SU(n) é compacto, resta apenas provar que SU(n) é um conjunto limitado
(em um espaço métrico um conjunto é compacto se e somente se for fechado e limitado). A condição
U ∗ U = implica Tr (U ∗ U ) = n. Assim, vale
n
X
|Uab |2 = n,
a, b=1

para todo U ∈ SU(n). Isso mostra que SU(n) é limitado e, portanto, compacto.

Seja agora {U (t) ∈ SU (n), t ∈ }, um subgrupo uniparamétrico de SU(n) (ou seja, U (0) = e


U (t)U (t0 ) = U (t+t0 )). Pela Proposição 11.5, página 680, U (t) = exp(tA) para alguma matriz A. Agora,
sejam u, v dois vetores arbitrários de n . Temos que, para todo t vale hu, vi = hU (t)u, U (t)vi .  

Diferenciando essa igualdade em relação a t, escrevendo-se U (t) = exp(tA) e calculando a derivada em


t = 0, tem-se 0 = hAu, vi + hu, Avi , ou seja, hu, (A + A∗ )vi = 0. Como isso vale para todo u, v
  

em n , segue que A∗ = −A. Fora isso13 , como 1 = det(exp(tA)) = exp(tTr (A)), segue que A tem
traço nulo.
Assim, vimos que os geradores dos subgrupos uniparamétricos de SU(n) são anti-autoadjuntos e
têm traço nulo. Podemos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-
autoadjuntas e de traço nulo são geradoras de subgrupos uniparamétricos de SU(n). Para responder
isso, precisamos da seguinte proposição:
Proposição 10.8 Se A ∈ Mat ( , n) é anti-autoadjunta (ou seja, A∗ = −A) satisfazendo também
Tr (A) = 0, então a matriz exp(A) é um elemento de SU(n). 2

Prova. Precisamos provar que exp(A) é unitária e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M )∗ = exp(M ∗ ) para qualquer matriz n×n complexa M . Assim, exp(A)∗ = exp(A∗ ) =
exp(−A) = exp(A)−1 , provando que exp(A) é unitária.
Assim, para nossa matriz A, tem-se det(exp(A)) = exp(Tr(A)) = exp(0) = 1, o que prova que
exp(A) ∈ SU(n), como querı́amos.

Essa proposição diz-nos que, se A ∈ Mat ( , n) é anti-autoadjunta e tem traço nulo, então U (t) =
exp(tA), t ∈ é um subgrupo uniparamétrico de SU(n). Em resumo, concluı́mos que o conjunto de


todas as matrizes n × n complexas anti-autoadjuntas e de traço nulo é idêntico ao conjunto de todos


os geradores de subgrupos uniparamétricos de SU(n).
Como SU(n) é um subgrupo fechado de GL( , n), segue do Teorema 11.1 que o conjunto de seus
geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a álgebra de Lie de SU(n), e é denotada
por su(n) (assim, com letras minúsculas). Como vimos, su(n) coincide com o conjunto de todas as
matrizes n × n complexas anti-autoadjuntas de traço nulo.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n complexas anti-
autoadjuntas de traço nulo forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios
da página 57.
13
Aqui usamos a Proposição 4.7, página 222.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 606/1195

Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SU(n)
pode ser obtido como exponencial de um elemento de su(n). No caso de SU(2) isso foi provado expli-
citamente, quando mostramos que todo elemento de SU(2) é da forma exp(iθ~η · ~σ ).
Proposição 10.9 Todo elemento U de SU(n) pode ser escrito na forma U = e A , onde A ∈ Mat ( , n)
é anti-autoadjunta (ou seja, A∗ = −A) e de traço nulo (ou seja, Tr (A) = 0). 2

Prova. Seja U ∈ SU(n). Como toda matriz unitária U é normal, pois vale U U ∗ = U ∗ U (= ). Uma das
conseqüências do Teorema Espectral para matrizes diz-nos que toda matriz normal pode ser diagona-
lizada por uma matriz unitária (vide Teorema 3.14 e as páginas que o antecedem).
Assim, existe V , matriz unitária, tal que U = V DV ∗ , onde D = diag (u1 , . . . , un ), e onde os uk são
números complexos (os autovalores de U ). Da condição U U ∗ = segue imediatamente que DD ∗ = ,
o que implica que cada uk é um número complexo de módulo 1: |uk |2 = 1. Assim, podemos escrever
uk = eiλk , onde λk ∈ , sendo que cada λk é determinado a menos de um termo 2πm, com m inteiro.


Note-se
Pn que, como UPtem determinante 1, segue que 1 = det(U ) = det(V DV ∗ ) = det(D) =
exp i k=1 λk . Assim, nk=1 λk = 2πm0 , com m0 inteiro. Podemos redefinir, digamos, λn , subtraindo-
lhe 2πm0 . Com essa nova escolha teremos
n
X
λk = 0. (10.57)
k=1

Definamos agora a matriz L = diag (iλ1 , . . . , iλn ). Note-se que, como os λk são reais, vale L∗ = −L.
É claro que D = eL e também que U = exp(A), onde A = V LV ∗ . É agora elementar Pn constatar que
∗ ∗ k
A = −A. Fora isso, por (10.57) segue que Tr (A) = Tr (V LV ) = Tr (L) = i k=1 λ = 0. Isso
completa a prova.

A Proposição 10.9 diz-nos que a exponenciação é uma aplicação sobrejetora de su(n) em SU(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.

E. 10.47 Exercı́cio. Pelo que vimos su(2) coincide com a álgebra de Lie real de todas as matrizes
complexas 2 × 2, anti-autoadjuntas e de traço zero. Mostre que as matrizes iσ 1 , iσ2 e iσ3 formam uma base
nesse espaço de matrizes. Conclua que todo elemento de SU(2) é da forma exp(iα 1 σ1 + iα2 σ2 + iα3 σ3 )
com αk ∈ .  6

A Proposição 10.9 tem o seguinte corolário simples:


Corolário 10.1 O grupo SU(n) é conexo por caminhos e, portanto, é um espaço conexo. 2

Prova. Pelo que vimos, se U ∈ SU(n), U é da forma U = eA , para alguma A ∈ su(n). Logo U
pertence ao subgrupo uniparamétrico de SU(n) gerado por A: {exp(tA), t ∈ }. Esse subgrupo 

conecta continuamente U à identidade (que corresponde a t = 0).


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 607/1195

10.4.2 O Grupo SU(3)


O grupo SU(3) é de grande importância na Fı́sica das Partı́culas Elementares, estando associado à
uma simetria aproximada, dita de “sabor”, e a uma simetria exata, dita de “cor”. Não nos deteremos
nesses aspectos aqui, e remetemos o estudante aos bons livros sobre Fı́sica das Partı́culas Elementares
e Teoria Quântica de Campos (por exemplo, [128]-[129]).
O grupo SU(3) é um grupo a 32 −1 = 8 parâmetros. Pelo que vimos, su(3) coincide com o espaço das
matrizes complexas 3 × 3, anti-autoadjuntas e de traço zero. Para o estudo do grupo SU(3) no contexto
da fı́sica das partı́culas elementares é conveniente introduzir-se uma base explı́cita nesse espaço. Como
toda matriz anti-autoadjunta pode ser escrita como iλ, onde λ é autoadjunta, basta-nos procurar uma
base no espaço das matrizes autoadjuntas de traço zero.
Comummente adota-se as chamadas Matrizes de Gell-Mann14 λi , i = 1, . . . , 8, que são as seguintes
matrizes:
     
0 1 0 0 −i 0 1 0 0
λ1 =  1 0 0  , λ2 =  i 0 0 , λ3 = 0 −1 0 ,
0 0 0 0 0 0 0 0 0
     
0 0 1 0 0 −i 0 0 0
λ4 =  0 0 0  , λ5 =  0 0 0  , λ6 =  0 0 1  ,
1 0 0 i 0 0 0 1 0
   
0 0 0 1 0 0
λ7 = 0 0 −i , λ8 = √1 0 1
3
0 .
0 i 0 0 0 −2

Note que todas as matrizes λi são autoadjuntas e de traço zero, formando uma base no espaço
das matrizes complexas autoadjuntas e de traço nulo. As mesmas são normalizadas de modo que
Tr (λa λb ) = 2δab .

E. 10.48 Exercı́cio. Prove as afirmativas do último parágrafo. 6

A álgebra de Lie de su(3) pode ser expressa para as matrizes de Gell-Mann da seguinte forma:
8
X
[λa , λb ] = 2i fabc λc ,
c=1

onde fabc , as camadas constantes de estrutura de su(3), são totalmente anti-simétricas, ou seja

fabc = fbca = fcab = −fbac = −facb = −fcba ,


14
Murray Gell-Mann (1929-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 608/1195

sendo

f123 = 1,

1
f147 = −f156 = f246 = f257 = f345 = −f367 = ,
2

3
f458 = f678 = ,
2
e as demais constantes independentes são nulas.

E. 10.49 Exercı́cio. Verifique isso. Sugestão: tire uma tarde livre. 6

Pelo que aprendemos da nossa discussão geral sobre grupos SU(n), todo elemento U de SU(3) pode
ser escrito na forma !
X8
U = exp i α k λk ,
k=1

onde os αk ’s são números reais.

10.4.3 Os Grupos SO(n)


Primeiramente lembremos a definição: para n ≥ 2,

SO(n) := {R ∈ Mat ( , n)| RT = R−1 e det(R) = 1}.




Sob vários aspectos os grupos SO(n) podem ser tratados de modo semelhante aos grupos SU(n),
exceto por um ponto importante: por agirem em um espaço vetorial real ( n ), não podemos aplicar o


teorema espectral às matrizes ortogonais, tal como fizemos na prova da Proposição 10.9. Por isso, um
desvio mais longo deverá ser seguido, ainda que as conclusões sejam as mesmas, em essência.
Analogamente ao que fizemos no caso SU(n), comecemos com a seguinte observação.
Proposição 10.10 SO(n) é um subgrupo compacto de GL( , n).  2

Prova. A prova é uma mera imitação da demonstração correspondente no caso SU(n) e poupamo-nos
de reproduzı́-la.

Seja agora {R(t) ∈ SO(n), t ∈ }, um subgrupo uniparamétrico de SO(n) (ou seja, R(0) = e


R(t)R(t0 ) = R(t+t0 )). Pela Proposição 11.5, página 680, R(t) = exp(tA) para alguma matriz A. Agora,
sejam u, v dois vetores arbitrários de n . Temos que, para todo t vale hu, vi = hR(t)u, R(t)vi .

 

Diferenciando essa igualdade em relação a t, escrevendo-se R(t) = exp(tA) e calculando a derivada em


t = 0, tem-se 0 = hAu, vi + hu, Avi , ou seja, hu, (A + AT )vi = 0. Como isso vale para todo u, v
  

em n , segue que AT = −A. Assim, A é uma matriz anti-simétrica, o que implica que seus elementos


diagonais são nulos. Assim, é automático que Tr (A) = 0.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 609/1195

Assim, vimos que os geradores dos subgrupos uniparamétricos de SO(n) são anti-simétricos. Pode-
mos nos perguntar se a recı́proca é válida, ou seja, se todas as matrizes anti-simétricas são geradores
de subgrupos uniparamétricos de SU(n). Para responder isso, precisamos da seguinte proposição:
Proposição 10.11 Se A ∈ Mat ( , n) é anti-simétrica (ou seja, AT = −A), então a matriz exp(A)


é um elemento de SO(n). 2

Prova. Precisamos provar que exp(A) é ortogonal e que seu determinante é igual a 1. Pela definição da
exponencial de matrizes em termos de uma série de potências (a série de Taylor da função exponencial),
sabe-se que exp(M )T = exp(M T ) para qualquer matriz n × n real ou complexa M . Assim, exp(A)T =
exp(AT ) = exp(−A) = exp(A)−1 , provando que exp(A) é ortogonal.
Como observamos, Tr (A) = 1. Logo, para nossa matriz A, tem-se det(exp(A)) = exp(Tr (A)) =
exp(0) = 1, o que prova que exp(A) ∈ SO(n), como querı́amos.

Essa proposição diz-nos que, se A ∈ Mat ( , n) é anti-simétrica, então R(t) = exp(tA), t ∈


 é 

um subgrupo uniparamétrico de SO(n). Em resumo, concluı́mos que o conjunto de todas as matrizes


n × n reais anti-simétricas é idêntico ao conjunto de todos os geradores de subgrupos uniparamétricos
de SO(n).
Como SO(n) é um subgrupo fechado de GL( , n), segue do Teorema 11.1 que o conjunto de seus


geradores é uma álgebra de Lie. Essa álgebra de Lie é dita ser a a álgebra de Lie de SO(n), e é denotada
por so(n). Como vimos, so(n) coincide com o conjunto de todas as matrizes n × n reais anti-simétricas.
De passagem, notemos que o fato de que o conjunto de todas as matrizes n × n reais anti-simétricas
forma uma álgebra de Lie real já fora visto independentemente nos exercı́cios da página 57.
Provemos agora uma outra proposição, a qual essencialmente diz-nos que todo elemento de SO(n)
pode ser obtido como exponencial de um elemento de so(n). Nos casos de SO(2) e SO(3) isso foi
provado explicitamente nas páginas acima.
Proposição 10.12 Todo elemento R de SO(n) pode ser escrito na forma R = e A , onde A ∈ Mat ( , n) 

é anti-simétrica (ou seja, AT = −A). 2

Prova. Como dissemos não podemos aqui seguir exatamente os passos da prova da Proposição 10.9,
pois o teorema espectral não se aplica de modo direto a matrizes reais.
Seja R ∈ SO(n), com elementos de matriz reais Rij . Normalmente R age no espaço real n , mas 

podemosP fazê-la agir em n da maneira usual: para um vetor u ∈ n com componentes ui ∈ , tem-se
(Ru)i = nj=1 Rij uj . Como tal, R é uma matriz unitária de determinante 1, ou seja, um elemento de
SU(n), pois (R∗ )ij = (R)ji = (R)ji = (RT )ij = (R−1 )ij . Aqui usamos que os Rij são reais e o fato óbvio
(por que?) que a inversa de R em n é a mesma que em n . 

Dado que R é unitária, seus autovalores são números eventualmente complexos mas de módulo 1.
Notemos, porém, que os autovalores são raı́zes do polinômio caracterı́stico p(x) = det(x − R), x ∈ .
Como os Rij são reais, esse polinômio tem coeficientes reais. É um fato elementar e bem conhecido que
se x é raiz de um polinômio com coeficientes reais, então seu complexo conjugado x também o é.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 610/1195

Se n é par, os autovalores são, portanto, pares de números complexos de módulo 1 complexo-


conjugados: eiθ e e−iθ . Como o determinante de R é o produto de seus autovalores, isso automati-
camente garante que det(R) = 1 desde que −1, se for autovalor, o seja com multiplicidade algébrica
par.
Se n é ı́mpar, os autovalores são pares de números complexos de módulo 1 complexo-conjugados:
e±iθ , mas um deles pode ser real, podendo, portanto, ser ±1. Como o determinante de R é o produto
de seus autovalores, a condição det(R) = 1 implica que um dos autovalores deve ser +1 e que −1, se
for autovalor, o é com multiplicidade algébrica par.
Em resumo:

1. Se n é par, o conjunto de autovalores de R é do tipo {e±iθk , k = 1, . . . , n/2, sendo θk ∈  }.


2. Se n é ı́mpar, o conjunto de autovalores de R é do tipo {1}∪{e±iθk , k = 1, . . . , (n−1)/2, sendo θk ∈
}.

Em ambos os casos −1 pode ser autovalor e, se o for, o é com multiplicidade algébrica par.
Seja o autovalor eiθk . Há dois casos a considerar.
Caso I. eiθk 6= ±1, de modo que eiθk é não-real e, portanto, distinto de e−iθk .
Seja vk ∈ n um autovetor de R com autovalor eiθk : Rvk = eiθk vk , normalizado de modo que
kvk k2 = hvk , vk i = 1. Segue que Rvk = e−iθk vk , ou seja, vk é um autovetor de R com autovalor


e−iθk . Como R é unitária, segue que autovetores que correspondem a autovalores distintos são ortogonais
(em n ). Logo,
hvk , vk i  = 0 e, portanto, hvk , vk i 
= hvk , vk i  = 0. (10.58)

Escrevamos vk separando componente a componente suas partes real e imaginária: v k = ak + ibk ,


com ak , bk ∈ n . As relações Rvk = eiθk vk e Rvk = e−iθk vk tornam-se


Rak = (cos θk )ak − ( sen θk )bk ,

Rbk = ( sen θk )ak + (cos θk )bk .

Note-se que, como sen θk 6= 0, essas duas relações implicam que não se pode ter ak = 0, pois isso
implicaria bk = 0 e vice-versa. Porém,, ak e bk são vetores ortogonais em n . De fato, 

1 k
hak , bk i = h(v + vk ), (vk − vk )i
4
 

1 k k 
= hv , v i − hvk , vk i + hvk , vk i − hvk , vk i
4
   

1 k k 
= hv , v i − hvk , vk i + hvk , vk i − hvk , vk i
4
   

por (10.58) 1
= (0 − 1 + 1 − 0)
4
= 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 611/1195

k k
Assim, concluı́mos que no sub-espaço realgerado pelos vetores ortogonais não-nulos a e b , a
cos θk − sen θk
matriz R age como a matriz , elemento de SO(2).
sen θk cos θk
É importante notar também que os vetores ak e bk são também ortogonais entre si para k’diferentes.
Isso é mostrado na proposição seguinte.
Proposição 10.13 Se vj = aj + ibj e vk = ak + ibk são vetores de n
com aj , ak , bj , bk ∈ 
n
e se
valerem hvj , vk i = 0 e hvj , vk i = 0, então tem-se
 

haj , ak i 
= haj , bk i 
= hbj , ak i 
= hbj , bk i 
= 0.

Prova. De hvj , vk i = 0 segue facilmente que




haj , ak i + hbj , bk i
 
= 0 e hbj , ak i − haj , bk i
 
= 0.

Como vj = aj − ibj , tem-se de hvj , vk i = 0 que 

haj , ak i − hbj , bk i
 
= 0 e hbj , ak i + haj , bk i
 
= 0.

Disso, o resultado desejado segue imediatamente.

j j
O fato demonstrado nessa proposição mostra que os sub-espaços gerados por pares
 a , b são ortogo-

n cos θj − sen θj
nais em . Na base formada por esses vetores, R tem a forma de blocos diagonais .
sen θj cos θj


Resta-nos ainda discutir o que se passa com os autovalores reais.


Caso II. eiθk = ±1.
Como comentamos, o autovalor −1 tem multiplicidade algébrica par em n . Como R é unitária
em n , R é simples (vide definição à página 149), concluı́mos que a multiplicidade geométrica desse
autovalor em n é igualmente par. Os autovalores reais de R correspondem a autovetores reais (por
que?). Assim, há um sub-espaço real de dimensão par onde R age como − . Como a dimensão é par, 
cos θj − sen θj
podemos escrever R nesse sub-espaço como uma série de blocos diagonais como ,
sen θj cos θj
mas para θj = π.
Para o autovalor +1 a conclusão é a mesma, exceto que se n for ı́mpar a multiplicidade
 geométrica

cos θj − sen θj
é ı́mpar. Assim, R nesse sub-espaço como uma série de blocos diagonais como , mas
sen θj cos θj
para θj = 0 e um bloco 1 × 1 com elemento de matriz 1.
A conclusão é a seguinte: para R ∈ SO(n) existe uma matriz ortogonal15 V tal que R = V BV −1 ,
onde B é a seguinte matriz: quando n é par, ou seja, n = 2m, para algum m > 0 inteiro, B é a matriz
15
A matriz é ortogonal pois faz a mudança de base para a base dos os vetores a j , bj e dos autovetores de autovalor
±1, os quais são todos ortogonais entre si, como provamos acima. Um fato crucial, como se vê.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 612/1195

bloco-diagonal dada por


 
cos θ1 − sen θ1
 sen θ1 0 ··· 0 
 cos θ1 
 
 
 
 cos θ2 − sen θ2 
 0 0 
 sen θ2 cos θ2 
 
B =   , (10.59)
 
 .. .. 
 . . 
 
 
 
 
 cos θm − sen θm 
0 0
sen θm cos θm

que formada por m = n/2 blocos 2 × 2, como indicado acima, sendo os demais elementos de matriz
nulos. Quando n é ı́mpar, ou seja, n = 2m + 1, para algum m > 0 inteiro, B é a matriz bloco-diagonal
dada por
 
cos θ1 − sen θ1
 0 ··· 0 0
 sen θ1 cos θ1 
 
 
 
 
 cos θ2 − sen θ2 
 0 0 0
 sen θ2 cos θ2 
 
 
B =  
.. . . ..  , (10.60)
 . . . 
 
 
 
 cos θ − sen θ 
 0 0 m m
0 
 sen θm cos θm 
 
 
 
0 0 ··· 0 1

que formada por m = (n − 1)/2 blocos 2 × 2, como indicado acima, sendo o elemento B nn igual a 1, e
os demais elementos de são matriz nulos.
Definamos agora (tanto para o caso em que n é par ou ı́mpar)


Jk := R .
∂θk θ1 =···=θm =0

0 −1
É claro que cada Jk é a matriz anti-simétrica composta pelo bloco colocado na k-ésima posição,
1 0
os demais elementos de matriz sendo iguais a zero. Deve ser também claro que Jk Jl = Jl Jk para todos
k, l = 1, . . . , m e que
B = exp (θ1 J1 + · · · + θm Jm ) .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 613/1195

E. 10.50 Exercı́cio. Complete os detalhes. 6

Do comentado acima, temos então que R = V BV −1 = exp (A) , onde


A := V (θ1 J1 + · · · + θm Jm ) V −1 .
Agora, como V é ortogonal e as Jk são anti-simétricas, é elementar verificar que AT = −A. Isso
completa a prova da Proposição 10.12.

A Proposição 10.12 diz-nos que a exponenciação é uma aplicação sobrejetora de so(n) em SO(n).
Isso é um caso particular de um teorema mais geral que diz que isso é válido para qualquer grupo de
Lie compacto, conexo e cuja álgebra de Lie seja de dimensão finita.
A Proposição 10.12 tem os dois seguintes corolários simples:
n
Corolário 10.2 Para n ı́mpar existe para cada R ∈ SO(n) um vetor ~η ∈  tal que R~η = ~η . 2

O vetor ~η é o autovetor com autovalor 1. Se n é par pode não haver um tal vetor invariante. Esse
corolário, junto com a Proposição 10.12, generaliza a Proposição 10.5, que era restrita ao caso SO(3).
Corolário 10.3 O grupo SO(n) é conexo por caminhos. 2

Prova. Pelo que vimos, se R ∈ SO(n), R é da forma R = eA , para alguma A ∈ so(n). Logo R
pertence ao subgrupo uniparamétrico de SO(n) gerado por A: {exp(tA), t ∈ }. Esse subgrupo 

conecta continuamente U à identidade (que corresponde a t = 0).

10.5 O Grupo Afim e o Grupo Euclidiano


Seja V um espaço vetorial (que, lembremos, é um grupo Abeliano em relação à operação de adição
de vetores). Vamos denotar por GL(V ) o conjunto dos operadores lineares bijetores (e, portanto,
invertı́veis) de V em V . Também sabemos que GL(V ) é um grupo.
Existe uma ação à esquerda natural de GL(V ) em V , a saber α : GL(V ) × V → V dada por
α(M, v) := M v onde M ∈ GL(V ) e v ∈ V . (Mostre que isso define uma ação à esquerda).
Dessa forma podemos definir o produto semi-direto de GL(V ) e V , denotado por GL(V )sα V ou
simplesmente por GL(V )sV , definindo em GL(V ) × V o produto
(M, u) · (M 0 , u0 ) := (M M 0 , M u0 + u) ,
onde M, M 0 ∈ GL(V ) e u, u0 ∈ V . (A noção de produto semi-direto de dois grupos foi definida à
página 72).
GL(V )sV é denominado o grupo afim do espaço vetorial V .
Se G for um subgrupo de GL(V ), o produto semi-direto GsV é definido analogamente (M, u) ·
(M , u0 ) := (M M 0 , M u0 + u) , onde M, M 0 ∈ G e u, u0 ∈ V . É evidente que GsV é um subgrupo
0

de GL(V )sV .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 614/1195

E. 10.51 Exercı́cio. Mostre que o conjunto de translações puras formado pelos pares ( , v), v ∈ V é
um subgrupo normal de GL(V )sV . Sugestão: basta mostrar que trata-se de um subgrupo Abeliano. 6

E. 10.52 Exercı́cio. Se G é um subgrupo normal de GL(V ), mostre que GsV é um subgrupo normal
de GL(V )sV . 6

E. 10.53 Exercı́cio. Se G é um subgrupo de GL(V ), mostre que V 3 u 7→ Ru+v, para (g, v) ∈ GsV ,
define uma ação à esquerda de GsV em V . 6

Consideraremos dois exemplos importantes, o grupo Euclidiano16 e o grupo de Poincaré17 o qual


será tratado na Seção 10.7.

• O Grupo Euclidiano
n
O chamado grupo Euclidiano em dimensão n é o grupo En := O(n)s  .
O grupo En tem uma ação natural em n dada por n 3 y 7→ Ry + x, para cada elemento (R, x) ∈
 

En . Assim, En implementa em n translações, rotações e reflexões, as chamadas transformações




Euclidianas de n . Essa é, em verdade, a própria motivação da definição de En .




n
E. 10.54 Exercı́cio. Mostre que  3 y 7→ Ry + x, para (R, x) ∈ En , define uma ação à esquerda de
En em n .  6

Há um subgrupo de GL(n + 1,  ) que é isomorfo a En . Sejam as matrizes reais (n + 1) × (n + 1)


 
 
 R x 
  n
E(R, x) :=  , com R ∈ O(n) e x ∈ .
 


 
0 1

Então, tem-se
E(R, x) E(R0 , x0 ) := E(RR0 , Rx0 + x) .

E. 10.55 Exercı́cio importante. Mostre isso. 6

Assim, o conjunto de matrizes {E(R, x) ∈ GL(n + 1, ), com R ∈ O(n) e x ∈ n } forma um sub-


 

grupo de GL(n + 1, ) que é isomorfo a En . Também denotaremos esse grupo por En .




E. 10.56 Exercı́cio. Prove essa última afirmativa. 6

• Os Geradores do Grupo Euclidiano E3

16
Euclides de Alexandria (≈ 325 A.C, ≈ 265 A.C.).
17
Jules Henri Poincaré (1854-1912).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 615/1195

De particular interesse é o caso n = 3. É possı́vel identificar os seguintes sub-grupos uniparamétricos


de E3 , aqueles gerados pelas matrizes E(Rj , 0), j = 1, 2, 3, onde Rj são as matrizes introduzidas em
(10.28) e que geram sub-grupos uniparamétricos de SO(3) e aqueles gerados pelas matrizes E( , x k ),
k = 1, 2, 3, onde x1 = (x, 0, 0), x2 = (0, x, 0) e x3 = (0, 0, x) com x ∈ . Esses subgrupos geram 

translações nas direções k = 1, 2, 3.

E. 10.57 Exercı́cio importante. Mostre que esses seis subgrupos são subgrupos uniparamétricos. 6

Como facilmente se verifica, os geradores desses subgrupos são as seguintes matrizes:


     
0 0 0
 J1 0   J2 0   J3 0 
     

j1 :=  
0  , j :=  
0  , j :=  0 
2  3  
     
0 0 0 0 0 0 0 0 0 0 0 0
e      
1 0 0
 0 0   0 1   0 0 
     
p1 := 
 0 ,
 p2 := 
 0 ,
 p3 := 
 1 ,

     
0 0 0 0 0 0 0 0 0 0 0 0
sendo que J1 , J2 e J3 são os geradores de SO(3), definidos em (10.29)-(10.31), página 591. Usando a
forma das matrizes Jk dada em (10.29)-(10.31), é fácil constatar as seguintes relações de comutação
entre os geradores acima:
3
X 3
X
[ja , jb ] = εabc jc , [pa , pb ] = 0 , [ja , pb ] = εabc pc . (10.61)
c=1 c=1

E. 10.58 Exercı́cio. Verifique! 6

As relações (10.61) representam as relações de comutação da álgebra de Lie e 3 do grupo E3 . Note


que p1 , p2 e p3 formam uma sub-álgebra Abeliana de e3 e que essa sub-álgebra é um ideal de e3 . Esse
fato reflete a propriedade que o subgrupo de translações é um subgrupo normal de E3 .

• Os Geradores do Grupo Euclidiano E2


2
De maneira análoga podemos tratar o caso (mais simples) do grupo E2 . Os elementos de SO(2)s 

podem ser parametrizados na forma


 
cos θ − sen θ x1
 sen θ cos θ x2  , θ ∈ (−π, π], x1 , x2 ∈ . 

0 0 1
Seus geradores serão
     
0 −1 0 0 0 1 0 0 0
j1 := 1 0 0 , p1 := 0 0 0 , p2 := 0 0 1 .
0 0 0 0 0 0 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 616/1195

Como é fácil de verificar, as relações de comutação entre esses geradores são

[j1 , p1 ] = p2 , [j1 , p2 ] = −p1 , [p1 , p2 ] = 0.

Um elemento genérico dessa álgebra de Lie é da forma


 
 J t 
 
I(J, t) := 



 
0 0 0

onde    
0 −θ t1
J = θj1 = e t = t 1 p1 + t 2 p2 =
θ 0 t2
com −π < θ ≤ π e t1 , t2 ∈  .
É um exercı́cio fácil (faça-o) constatar que para todo k ∈  , k ≥ 1, tem-se

I(J, t)k = I Jk , Jk−1 t .

Conseqüentemente, vale que


 
∞ ∞  t0 
X 1 X 1   R 
exp (I(J, t)) = + I(J, t)k = + I Jk , Jk−1 t = 

 ,

k=1
k! k=1
k!  
0 0 1

onde  
cos θ − sen θ
R := e = J
e t0 = f (J)t ,
sen θ cos θ
sendo f a função analı́tica inteira definida pela série de Taylor
X∞
1 k−1
f (w) := 1 + w , w∈ . (10.62)
k=2
k!

É fácil constatar que  w


 e −1
 , w 6= 0
f (w) = w .


1, w=0

A matriz f (J) pode ser calculada facilmente usando-se o fato que


 2k  2k+1  
0 −1 k 0 −1 k 0 −1
= (−1) e = (−1) , k∈ ,
1 0 1 0 1 0

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 617/1195

de onde se extrai
X∞
1 k−1
f (J) := + J
k=2
k!


X X∞
1 2m−1 1
= + J + J2m
m=1
(2m)! m=1
(2m + 1)!

X∞   X ∞
(−1)m θ 2m−1 0 −1 (−1)m θ 2m
= +
(2m)! 1 0 (2m + 1)!
m=1 m=0
 
cos θ − 1 0 −1 sen θ
= +
θ 1 0 θ
 
sen θ cos θ − 1
 − 
 θ θ 
=   .
 cos θ − 1 sen θ 
θ θ
Notemos que  
1 − cos θ
det f (J) = 2 6= 0
θ2
 
−1 x1 2
para −π < θ ≤ π. Assim, f (J) é invertı́vel e se escolhermos t = f (J) x, para qualquer x = ∈
x2


teremos  
 
 R x  cos θ − sen θ x
   1
exp I(J, f (J)−1 x) =  
 =  sen θ cos θ x2  .

  0 0 1
0 0 1

Isso prova que todo elemento do grupo SO(2)s 2 pode ser escrito como exponencial de um elemento


da sua própria álgebra de Lie. Essa afirmação é igualmente válida para todo os grupos SO(n)s n . A 

demonstração segue passos análogos aos de acima pois, como observamos na Seção 10.4.3, página 608,
os elementos de SO(n) podem ser escritos em uma base conveniente na forma de blocos de matrizes de
SO(2). Isso implicará que também no caso geral a matriz f (J) é invertı́vel. Deixamos os detalhes da
demonstração como exercı́cio ao leitor.

10.6 O Grupo de Lorentz


Para a leitura desta seção uma certa familiaridade com os rudimentos da teoria da relatividade restrita
é recomendável, mas não totalmente indispensável.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 618/1195

10.6.1 O Espaço-Tempo, a Noção de Intervalo e a Estrutura Causal


É um fato elementar da natureza ser possı́vel descrever qualquer evento idealmente pontual e de duração
instantânea por uma coleção de quatro números que especificam sua posição espacial e seu instante de
tempo, medidos em algum sistema de referência. A coleção de todos os eventos pontuais de duração
instantânea, é denominada espaço-tempo, noção introduzida por Minkowski 18 . Assim, é natural (pelo
menos na ausência de campos gravitacionais, que podem alterar a topologia global do espaço-tempo)
identificar o mesmo com o espaço matemático 4 . Assim descrito, cada evento pode ser especificado


em um sistema de referência que adote coordenadas espaciais cartesianas, por uma quadrupla ordenada
(x1 , x2 , x3 , x4 ), onde convencionamos que os três primeiros números são coordenadas espaciais do
evento e o último sua coordenada temporal. O leitor deve ser advertido que muitos autores conven-
cionam escrever as coordenadas espaço-temporais de um evento na forma (x0 , x1 , x2 , x3 ), onde x0 é
a coordenada temporal. Isso alteraria a forma das matrizes que serão manuseadas abaixo, mas não a
essência dos resultados que apresentaremos.
Na mecânica clássica, a primeira lei de Newton19 afirma existirem certos sistemas de referência
dotados da seguinte propriedade: se um corpo encontra-se isolado do restante do universo, ou seja,
se sobre ele não atuam forças externas, então em relação a esse sistema de referência esse corpo se
move com velocidade constante. Tais sistemas de referência são denominados sistemas de referência
inerciais, pois neles vale o princı́pio de inércia. É muito fácil concluir que se um sistema de referência
se move com velocidade constante em relação a um sistema de referência inercial, então ele é também
um sistema de referência inercial.
Sistemas de referência inerciais desempenham um papel central pois neles as Leis da Fı́sica assumem
um caracter universal. É um postulado fundamental da Fı́sica que suas leis básicas são as mesmas em
todos os sistemas de referência inerciais. Na mesma linha, é um postulado fundamental da Fı́sica que
também suas constantes fundamentais, tais como a velocidade da luz c, a constante de Planck 20 ~, a
constante de gravitação universal G e outras tenham também o mesmo valor em todos os sistemas de
referência inerciais. Mais que isso, os sistemas de referência inerciais concordam quanto às relações
de causa e efeito entre todos os eventos ocorridos no espaço-tempo. Essa série de princı́pios aqui
mal-delineados é por vezes denominada princı́pio da relatividade. O princı́pio da relatividade tem sua
origem nos trabalhos de Galilei21 sobre a dinâmica, mas foi com a Teoria da Relatividade de Einstein22
que suas reais conseqüências foram exploradas em sua máxima extensão.
Ao realizarmos transformações entre sistemas de coordenadas inerciais, as coordenadas dos even-
tos transformam-se linearmente. Esse postulado é familiar se nos lembramos da ação do grupo de
translações, da ação do grupo de rotações no espaço tridimensional ou das transformações de Galilei da
mecânica clássica (não-relativista). Assim, cada transformação entre sistemas de coordenadas inerciais
deve ser representada na forma Lx + t, onde L é uma matriz real  4 × 4 e x e t são vetores de 4 . Aqui,


x1
x2
x e t são representados na forma de um vetor coluna, como x = x3 .
x4

O vetor t representa uma translação (tanto no espaço quanto no tempo) entre os sistemas de
18
Hermann Minkowski (1864-1909). A expressão “espaço-tempo” provem do alemão “Raumzeit”.
19
Isaac Newton (1643-1727).
20
Max Karl Ernst Ludwig Planck (1858-1947).
21
Galileu Galilei (1564-1642).
22
Albert Einstein (1879-1955).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 619/1195

coordenadas. Cada matriz L ∈ Mat ( , 4) deve depender das velocidades relativas entre os sistemas


inerciais cuja transformação descreve, da direção dessas velocidades e dos ângulos relativos entre os
eixos cartesianos espaciais dos dois sistemas. L deve também conter informação sobre se os eixos
cartesianos espaciais dos dois sistemas têm a mesma orientação (positiva ou negativa) e sobre se os
relógios dos dois sistemas correm na mesma direção.
Dados dois eventos quaisquer x, y no espaço-tempo (que doravante identificaremos com 4 ) e cujas 

coordenadas sejam x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) em um determinado sistema de referência


inercial, define-se o intervalo entre ambos como sendo a quantidade23

I(x, y) = I(x − y) := (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − c2 (x4 − y4 )2 ,

onde c é a velocidade da luz no sistema de referência inercial em questão.


A noção de intervalo entre eventos é de grande importância. Para começar a explicar isso consi-
deremos a situação na qual dois eventos distintos x e y que representam a produção e a absorção de
um mesmo raio luminoso. Se em um determinado sistema de referência inercial as coordenadas desses
eventos são x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ), então a velocidade de propagação da luz entre
x e y satisfaz
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
c2 =
(y4 − x4 )2
e, portanto, I(y, x) = I(y − x) = 0. Um dos postulados fundamentais da teoria da relatividade restrita
é a afirmação que a velocidade de propagação da luz no vácuo é a mesma para qualquer sistema de
referência inercial. Portanto, se em um outro sistema de referência inercial as coordenadas de x e y
fossem x0 = (x01 , x02 , x03 , x04 ) e y 0 = (y10 , y20 , y30 , y40 ) terı́amos igualmente

(y10 − x01 )2 + (y20 − x02 )2 + (y30 − x03 )2


c2 =
(y40 − x04 )2

e, portanto, tem-se igualmente I(y 0 , x0 ) = I(y 0 − x0 ) = 0 com o mesmo valor c para a velocidade de
propagação da luz.
Compreendemos então que o postulado da constância da velocidade da luz pode ser traduzido ma-
tematicamente da seguinte forma: se o intervalo entre dois eventos é nulo em um sistema de referência
inercial então é também nulo em todos os demais sistemas de referência inerciais. Mais adiante pro-
varemos que, sob certas hipóteses fı́sicas adicionais, esse fato implica uma condição ainda mais geral
de invariância: o intervalo entre dois eventos quaisquer é o mesmo em qualquer sistema de referência
inercial, mesmo quando não é nulo.
Nota. Independente de ser um postulado teórico, a constância da velocidade da luz é um fato experimental que tem sofrido sucessivas
confirmações ao longo de várias décadas. Para uma lista possivelmente parcial de referências recentes (das últimas quatro décadas) contendo
testes experimentais da constância da velocidade da luz e testes da velocidade da luz como velocidade limite, vide:

1. T. S. Jaseja, A. Javan, J. Murray and C. H. Townes. “Test of Special Relativity or of the Isotropy of Space by Use of Infrared Masers”.
Phys. Rev. A133, A1221-A1125 (1964).

2. T. Alväger, F. J. M. Farley, J. Kjellman and I. Wallin. “Test of the Second Postulate of Special Relativity in the GeV Region”. Phys.
Lett. 12, 260-263 (1964).

23
Novamente supomos a ausência de campos gravitacionais, em cuja presença a definição de intervalo tem que ser
modificada.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 620/1195

3. D. I. Blotkhintsev. “Basis for Special Relativity Theory Provided by Experiments in High Energy Physics”. Sov. Phys. Uspekhi, 9,
405 (1966).

4. Z. G. T. Guiragossián, G. B. Rothbart, M. R. Yearian, R. A. Gearhart and J. J. Murray. “Relative Velocity Measurements of Electrons
and Gamma Rays at 15 GeV”. Phys. Rev. Lett. 34, 335-338 (1975).

5. K. Brecher. “Is the Speed of Light Independent of the Velocity of the Source?”. Phys. Rev. Lett. 39, 1051-1054, 1236(E) (1977).

6. D. Newman, G. W. Ford, A. Rich and E. Sweetman. “Precision Experimental Verification of Special Relativity”. Phys. Rev. Lett.
40, 1355-1358 (1978).

7. K. M. Baird, D. S. Smith and B. G. Whitford. “Confirmation of the Currently Accepted Value 299 792 458 Metres per Second for
the Speed of Light”. Opt. Comm. 31, 367-368 (1979).

8. G. L. Greene, M. Scott Dewey, E. G. Kessler, Jr. and E. Fischbach. “Test of Special Relativity by a Determination of the Lorentz
Limiting Velocity: Does E = mc2 ?”. Phys. Rev. D 44, R2216-R2219 (1991).

9. Bradley E. Schaefer. “Severe Limits on Variations of the Speed of Light with Frequency”. Phys. Rev. Lett. 82, 4964 (1999).

Para um texto recente, vide [134]24 .

Notemos que o intervalo depende da diferença x − y. Assim, translações entre sistemas de re-
ferência automaticamente mantêm invariantes os intervalos entre eventos. Por essa razão vamos por
ora interessar-nos apenas por transformações entre sistemas de referência que sejam do tipo Lx, com
L ∈ Mat ( , 4).


Para prosseguirmos precisamos introduzir uma importante classificação de intervalos.

• Intervalos de Tipo Luz, de Tipo Tempo e de Tipo Espaço

Em um sistema de referência, dois eventos distintos x e y são ditos ser25

1. do tipo luz se I(x, y) = 0,


2. do tipo tempo se I(x, y) < 0,
3. do tipo espaço se I(x, y) > 0.

Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo luz, então


(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
2
= c2 .
(y4 − x4 )
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo tempo, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
< c2 .
(y4 − x4 )2
Se dois eventos distintos x = (x1 , x2 , x3 , x4 ) e y = (y1 , y2 , y3 , y4 ) são do tipo espaço, então
(y1 − x1 )2 + (y2 − x2 )2 + (y3 − x3 )2
2
> c2 .
(y4 − x4 )

Com isso entendemos que


24
Agradecemos à Profa. Renata Zukanovich Funchal pelas referências acima.
25
As expressões em inglês são “light-like”, “time-like” e “space-like”, respectivamente. Essa nomenclatura provém do
alemão: “lichtartig”, “zeitartig” e “raumartig”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 621/1195

1. Se dois eventos são separados por um intervalo do tipo luz pode haver um sinal conectando ambos
e que se propagaria com a velocidade da luz.

2. Se dois eventos são separados por um intervalo do tipo tempo pode haver um sinal conectando
ambos e que se propagaria com velocidade menor que a da luz.

3. Se dois eventos são separados por um intervalo do tipo espaço não pode haver um sinal conectando
ambos, pois o mesmo se propagaria com velocidade maior que a da luz.

A importância dessas considerações é a seguinte. É uma crença da fı́sica atual que as partı́culas
elementares (que compõe toda a matéria do universo) não podem mover-se com velocidade maior que
a da luz. Conseqüentemente, se dois eventos são separados por um intervalo do tipo espaço não pode
haver nenhum processo fı́sico que, iniciando-se em um evento, influencie o outro. Diz-se então que
esses eventos são causalmente desconectados, ou seja, não pode haver nenhuma relação causal (isto é,
de causa e efeito) entre ambos. Por outro lado, se dois eventos são separados por um intervalo do tipo
tempo então pode haver alguma influência causal entre ambos, por exemplo, através de uma partı́cula
ou corpo material que, movendo-se no espaço-tempo com velocidades inferiores à da luz, parta de um
evento e influencie o outro. No caso de intervalos do tipo luz a situação é a mesma mas, então, a
eventual influência de um no outro deve propagar-se com a velocidade da luz.

E. 10.59 Exercı́cio. Passe vários dias meditando sobre os parágrafos acima. 6

• A Estrutura Causal. Transformações que Preservam a Estrutura Causal

Como se percebe, se aceitarmos a idéia que processos fı́sicos não podem propagar-se com velocidades
superiores à da luz, a noção de intervalo estabelece as possı́veis relações de causalidade entre todos os
eventos do espaço-tempo, ao dizer quais eventos podem eventualmente influenciar-se (aqueles que são
do tipo tempo ou do tipo luz um em relação ao outro) e quais não podem de forma alguma influenciar-se
(aqueles que são do tipo espaço um em relação ao outro).
É uma crença da Fı́sica atual que essas relações de causalidade devem ser as mesmas para todos os
sistemas de referência inerciais, pois os mesmos descrevem as mesmas leis fı́sicas e devem perceber as
mesmas relações de causa e efeito entre os eventos que compõe o universo.

E. 10.60 Exercı́cio. Mais alguns dias de meditação. 6

Com isso, podemos introduzir a seguinte definição: dizemos que uma transformação linear L, que
representa uma transformação entre dois sistemas de referência, preserva a estrutura causal do espaço-
tempo se a mesma satisfizer todas as três condições seguintes:

1. I(Lx, Ly) = 0 sempre que I(x, y) = 0,

2. I(Lx, Ly) < 0 sempre que I(x, y) < 0,

3. I(Lx, Ly) > 0 sempre que I(x, y) > 0.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 622/1195

Em palavras, L preserva o tipo de intervalo que separa todos os eventos do espaço-tempo, levando
todos os intervalos do tipo luz em intervalos do tipo luz, levando todos os intervalos do tipo tempo em
intervalos do tipo tempo e levando todos os intervalos do tipo espaço em intervalos do tipo espaço.
Notemos que a condição que impõe que I(Lx, Ly) = 0 sempre que I(x, y) = 0 é a condição da
invariância da velocidade da luz (já mencionada acima), mas as demais representam algo diferente: a
invariância das relações de causalidade por mudança de sistemas de referência inerciais.
Um pouco mais abaixo exploraremos as conseqüências matemáticas que essas imposições têm sobre
as transformações L e concluiremos que, sob as hipóteses acima (e sob uma hipótese adicional de
ausência de dilatações), vale uma conseqüência mais forte, a saber, que I(Lx, Ly) = I(x, y) para
todos os eventos x e y. Assim, transformações que preservam a estrutura causal e não envolvem
dilatações preservam o valor do intervalo entre dois eventos quaisquer do espaço-tempo.
Por fim, apenas a tı́tulo de ilustração, exemplifiquemos como seria uma transformação que preserva
os intervalos de tipo luz mas não os demais, preservando, portanto, a velocidade da luz mas violando
a estrutura causal. Consideremos um espaço-tempo bidimensional, onde  0 cada
 evento é descrito por
c
uma coordenada espacial x1 e uma temporal t. Seja a matriz L = . O intervalo entre os
x    c−1 0
1 0
eventos x = t
e 0 = seria I(x, 0) = x21 − c2 t2 . Porém, pela transformação L terı́amos
 0  x   ct  0
x1 1
0
= L t
= −1 . Assim,
t c x1

I(Lx, L0) = (x01 )2 − c2 (t0 )2 = c2 t2 − x21 = − I(x, 0).

Logo, como os intervalos I(Lx, L0) e I(x, 0) diferem por um sinal, terı́amos para quaisquer eventos x
ey

1. I(Lx, Ly) = 0 sempre que I(x, y) = 0,

2. I(Lx, Ly) < 0 sempre que I(x, y) > 0,

3. I(Lx, Ly) > 0 sempre que I(x, y) < 0.

Portanto, intervalos tipo luz seriam levados em intervalos tipo luz, mas intervalos tipo espaço seriam
levados em intervalos tipo tempo e vice-versa. Como se vê por esse exemplo, em transformações
que violam a estrutura causal deve haver algo como uma permutação entre coordenadas espaciais e
temporais.

E. 10.61 Exercı́cio. São tais transformações fisicamente aceitáveis? 6

• Dilatações

Vamos agora discutir uma classe de transformações que preservam a estrutura causal: as dilatações.
Para λ ∈ , λ 6= 0, a matriz D(λ) := λ simplesmente transforma cada x ∈ 4 em λx, ou seja,
 

D(λ) representa uma dilatação ou mudança de escala das coordenadas espaço-temporais de eventos. É
evidente que I(D(λ)x, D(λ)y) = λ2 I(x, y), de modo que dilatações são transformações lineares que
preservam a estrutura causal.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 623/1195

São as dilatações aceitáveis enquanto mudanças de sistemas de referência inerciais? Essa é uma
questão muito interessante e sutil e demanda uma certa discussão.
Claramente, mudanças de escala podem ocorrer naturalmente no caso de tratarmos de dois sistemas
de referência que adotam sistemas métricos diferentes, como no caso em que um sistema mede distâncias
em metros e um outro em jardas (mas de modo que as medidas de tempo em um e outro sejam
tais que ambos atribuem o mesmo valor numérico para c). Essas situações são triviais e poderiam
ser contornadas se ambos os sistemas de referência concordassem no uso de uma mesma escala de
distâncias. Mas para que isso seja possı́vel é preciso que haja objetos fı́sicos, em repouso em ambos
os sistemas de referência, que possuam as mesmas dimensões. Poderı́amos, por exemplo, adotar como
unidade de distância o “tamanho médio” do átomo de hidrogênio26 , ou o comprimento de onda de uma
linha de emissão de um certo átomo ou molécula, fixos em cada sistema de referência.
Mas o que garante que o tamanho médio de um átomo de hidrogênio parado na Terra é o mesmo
que o de um átomo de hidrogênio parado em uma galáxia distante que se move em relação a nós com
uma certa velocidade? A princı́pio, nada garante, mas a crença que sistemas de referência inerciais
descrevem a mesma fı́sica envolve também a crença que certas escalas básicas de distância e de tempo,
como o tamanho médio de um átomo em repouso, são as mesmas em todos os sistemas de referência
inerciais. Por exemplo, o tamanho médio do átomo de hidrogênio em repouso depende de propriedades
fı́sicas que regem a interação entre o próton e o elétron que o constituem (a lei de Coulomb 27 ), das leis
da mecânica que regem seus movimentos (as leis da mecânica quântica), assim como dos valores das
cargas elétricas e das massas de repouso dessas partı́culas. Essas grandezas e leis devem ser as mesmas
em quaisquer sistemas de referência inerciais.
Intimamente associada a isso está a questão dos valores das massas de repouso das partı́culas
elementares. Isso se deve ao fato seguinte. A fı́sica quântica nos ensina que se m 0 é a massa de
repouso de uma partı́cula elementar, digamos um elétron, então a quantidade ~/(m0 c) tem dimensão
de comprimento (verifique!). Esse é o chamado comprimento de onda Compton28 da partı́cula de massa
de repouso m0 . Assim, para qualquer partı́cula de massa de repouso m0 há uma escala de distância a
ela associada.
É parte da crença associada ao princı́pio da relatividade que as massas em repouso das partı́culas
elementares, como elétrons, quarks etc., são as mesmas quer na Terra quer em uma galáxia distante que
se move em relação a nós com velocidade constante. Até onde se sabe, essa hipótese tem corroboração
experimental, pois sua violação levaria a conseqüências observacionais em relação ao comportamento
da matéria que nunca foram verificadas quer em observações astronômicas quer em experimentos com
aceleradores de partı́culas feitos na Terra. Como ~ e c são constantes fı́sicas, devem também ser as
mesmas em quaisquer sistemas de referência inerciais e, portanto, o comprimento de onda Compton
de, digamos, um elétron em repouso deve ser o mesmo em qualquer sistema de referência inercial e com
ele poderı́amos estabelecer uma escala de distâncias universal.
Em um universo em que não houvessem escalas de distância ou de massa naturais, como por exemplo
no caso de universos em que todas as partı́culas elementares têm massa nula e não formam estados
26
A noção de “tamanho médio” de um átomo pode ser definida na mecânica quântica, mas não entraremos em detalhes
aqui.
27
Charles Augustin de Coulomb (1736-1806).
28
Arthur Holly Compton (1892-1962). Compton recebeu o prêmio Nobel de Fı́sica de 1927 “for his discovery of the
effect named after him”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 624/1195

ligados (como átomos) que possuam alguma escala de distância tı́pica, não haveria maneira de sistemas
de referência inerciais concordarem com escalas espaciais e temporais e, aı́, a inclusão de dilatações
seria inevitável nas transformações entre sistemas de referência. Esse não é o caso do universo em que
vivemos, pois nele sabidamente habitam partı́culas massivas.
Assim, apesar de as dilatações satisfazerem a condição de não violarem a estrutura causal do
espaço-tempo, as mesmas não devem ser consideradas como transformações legı́timas de coordenadas
espaço-temporais entre sistemas de referência inerciais no nosso universo, pois partimos da crença que
esses sistemas podem sempre concordar quanto a certas escalas básicas de certos objetos fı́sicos em
repouso, tais como as massas de repouso de certas partı́culas elementares e seus comprimentos de onda
Compton.

E. 10.62 Exercı́cio. Mais meditação. 6

• A Convenção que c = 1

Daqui por diante adotaremos a convenção simplificadora que c = 1. Isso pode ser obtido pela
escolha de um sistema de unidades métricas conveniente. Essa convenção, muito empregada atual-
mente em textos de fı́sica teórica29 , tem a vantagem de “limpar” as expressões matemáticas de fatores
que dependam de c. Admitidamente, há uma certa “preguiça” na adoção dessa convenção, mas a
mesma tráz vantagens. De qualquer forma, os fatores c omitidos podem ser facilmente recuperados por
considerações de análise dimensional.

• Notação Matricial. A Métrica de Minkowski

É muito conveniente escrever o intervalo entre dois eventos x e y com uso da seguinte notação
matricial:
I(x − y) = (x1 − y1 )2 + (x2 − y2 )2 + (x3 − y3 )2 − (x4 − y4 )2 = h(x − y), η(x − y)i , 

onde  
  0
1 0 0 0  
 0 1 0 0   0 
η := η(3, 1) = 
 0 0
 = 
  0 .
 (10.63)
1 0  
0 0 0 −1
0 0 0 −1

E. 10.63 Exercı́cio. Verifique. 6

A matriz η é freqüentemente denominada métrica de Minkowski.

10.6.2 A Invariância do Intervalo


No que vimos acima, aprendemos que o postulado da invariância da velocidade de propagação da luz
quando de uma transformação entre sistemas de referência inerciais implica que se x e y são dois eventos
29
Em textos teóricos de mecânica quântica e teoria quântica de campos, adota-se também ~ = 1.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 625/1195

tais que
I(x, y) = h(x − y), η(x − y)i 
= 0 (10.64)
então tem-se também
I(Lx, Ly) = hL(x − y), ηL(x − y)i 
= 0 (10.65)
para qualquer transformação linear L ∈ Mat ( , 4) que represente uma mudança entre sistemas de


referência inerciais.
Nesta seção iremos provar uma afirmação, o Teorema 10.7, adiante, que generaliza ainda mais o
descrito no último parágrafo, a saber, provaremos que se L ∈ Mat ( , 4) representa uma mudança 

entre sistemas de referência inerciais que preserva a estrutura causal e não envolve dilatações (definições
adiante) então I(x, y) = I(Lx, Ly) para quaisquer eventos x e y, mesmo aqueles para os quais
I(x, y) 6= 0. Esse fato releva a importância da noção de intervalo na teoria da relatividade: o mesmo
representa uma grandeza invariante por transformações de sistemas de referência do tipo descrito acima.
Dessa propriedade de invariância extrairemos todas as informações importantes sobre as transformações
de Lorentz.

• Transformações Lineares e a Estrutura Causal

Vamos aqui provar um teorema de importância central no entendimento da relação entre trans-
formações L ∈ Mat ( , 4) e sua relação com a estrutura causal do espaço-tempo.


Teorema 10.7 Seja L um elemento de Mat ( , 4) que representa uma mudança entre sistemas de


referência inerciais que preserva os intervalos de tipo luz. Então,



ηLT ηL = − LT ηL 44 = ±| det(L)|1/2 . (10.66)

Se além disso L preserva a estrutura causal, então,



ηLT ηL = − LT ηL 44 = | det(L)|1/2 . (10.67)

Por fim, se L preserva a estrutura causal e não envolve dilatações, então

ηLT ηL = . (10.68)
4
Uma conseqüência imediata dessa relação é que I(Lx, Ly) = I(x, y) para todos x, y ∈  . 2

4
Prova. Para x ∈  , sejam as formas quadráticas

I(x) := hx, ηxi 


e J(x) := hLx, ηLxi 
= hx, LT ηLxi . 

É bastante claro que


I(x) = −(x4 )2 + k~xk2 = − [x4 − k~xk] [x4 + k~xk] , (10.69)
p
onde ~x = (x1 , x2 , x3 ) e k~xk = x21 + x22 + x23 . Por outro lado,
 
J(x) = LT ηL 44 (x4 )2 + a(~x)x4 + b(~x) = LT ηL 44 [x4 − y1 (~x)] [x4 − y2 (~x)] , (10.70)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 626/1195

onde30
3
X 3
X
 
a(~x) := 2 LT ηL 4a
xa , e b(~x) := LT ηL ab
xa xb ,
a=1 a, b=1

sendo que
 
− LT ηL 44
(y1 (~x) + y2 (~x)) = a(~x) e LT ηL 44
y1 (~x)y2 (~x) = b(~x).

Sabemos por (10.64)-(10.65) (tomando y = 0) que se L preserva intervalos tipo luz, então se tivermos
I(x) = 0 para algum x ∈ 4 , valerá também J(x) = 0. Para ~x fixo qualquer, vemos por (10.69) e


(10.70) que tanto I(x) quanto J(x) são polinômios de segundo grau em x4 e, pelo que acabamos de
comentar, têm os mesmos zeros. Dessa forma, também por (10.69) e (10.70), podemos sem perda de
generalidade escolher y1 (~x) = k~xk e y2 (~x) = −k~xk.
Com isso teremos que
 
J(x) = LT ηL 44
(x4 − k~xk)(x4 + k~xk) = − LT ηL 44
I(x)
4
para todo x ∈  . Pela definição de I(x) e J(x) temos então

hLx, ηLxi = − LT ηL 44 hx, ηxi .
 
(10.71)
4
para todo x ∈  , ou seja
  
hx, LT ηL + LT ηL 44 η xi = 0 


para todo x ∈ 4 . Como LT ηL + LT ηL 44 η é uma matriz simétrica (verifique!), a Proposição 2.5,



página 125, implica LT ηL + LT ηL 44 η = 0. Como η 2 = , segue que



ηLT ηL = − LT ηL 44
. (10.72)

Como det(η) = −1 e det(L) = det(LT ), obtemos ao tomar o determinante de ambos os lados da


igualdade acima que
  4
det(L)2 = − LT ηL 44
de onde extraı́mos que 
− LT ηL 44
= ±| det(L)|1/2 . (10.73)
Com (10.72), isso prova (10.66).
Inserindo (10.73) em (10.71) terı́amos hLx, ηLxi = ±| det(L)|1/2 hx, ηxi para todo x ∈ 4 .  


Portanto, se L preserva a estrutura causal, apenas o sinal positivo é aceitável. Assim, por (10.72),
temos nesse caso LT ηLη = | det(L)|1/2 e isso completa a prova de (10.67).
Seja agora L o conjunto de todas as matrizes L0 ∈ Mat ( , 4) que satisfazem ηLT0 ηL0 = . 

Afirmamos que se L satisfaz (10.67) então L é da forma L = λL0 com λ ∈ e L0 ∈ L. De fato, 

se L 6= 0 satisfaz (10.67) teremos para qualquer λ 6= 0 que η(λ L) η(λ L) = λ−2 | det(L)|1/2 e
−1 T −1

escolhendo λ = | det(L)|1/4 concluı́mos que λ−1 L ∈ L.


30
  T
Aqui usou-se que LT ηL 4a
= LT ηL a4
pois LT ηL é simétrica, ou seja LT ηL = LT ηL.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 627/1195

Assim, se L satisfaz (10.67), L é produto de uma transformação de L com uma transformação


D(λ) = λ , λ ∈ , λ 6= 0. Se L não envolve dilatações então L ∈ L. Isso prova (10.68).


Como vemos, um papel especial é desempenhado pelas matrizes de L. Por toda nossa discussão
tais matrizes representam as transformações entre sistemas de referência que respeitam a imposição
fı́sica de preservar a estrutura causal e ignoram dilatações. Daqui por diante vamos nos concentrar
exclusivamente em tais transformações. Como veremos, o conjunto L introduzido acima tem a estrutura
de um grupo, um fato de grande importância. Trata-se do chamado grupo de Lorentz, um objeto de
importância central na teoria da relatividade.

10.6.3 O Grupo de Lorentz


O Teorema 10.7 acima diz-nos que se L ∈ Mat ( , 4) representa uma transformação entre sistemas de


referência inerciais que preserva a estrutura causal e não envolve dilatações, então ηL T ηL = , o que
equivale a dizer que L−1 = ηLT η. Isso também equivale a dizer que
hLx, ηLyi 
= hx, ηyi 

para todos x, y ∈ 4 . Esse fato e a particular forma da matriz η mostram que o conjunto de tais


matrizes L coincide com o grupo O(3, 1), que previamente definimos (vide página 582).
Devido à sua grande importância na fı́sica relativı́stica, o grupo O(3, 1) recebe denominação especial,
a saber, é denominado grupo de Lorentz31 , em honra ao grande fı́sico holandês, pioneiro nos estudos da
teoria da relatividade. O(3, 1) é também denotado pelo sı́mbolo L. Os elementos de L são denominados
transformações de Lorentz.
Equivalentemente, o grupo de Lorentz L = O(3, 1) é o grupo de todas as matrizes 4 × 4 que
satisfazem
L−1 = ηLT η.

Como todo elemento L do grupo de Lorentz satisfaz LηLT η = , tem-se det(LηLT η) = 1, ou


seja, det(L)2 = 1 pois det(LηLT η) = det(L) det(η)2 det(LT ), det(η) = −1 e det(L) = det(LT ). Assim,
det(L) = ±1. O subconjunto SO(3, 1) de O(3, 1), formado pelas matrizes L que satisfazem det(L) = +1
é um sub-grupo, denotado também por L+ .
A seguinte proposição sobre o grupo de Lorentz será usada adiante:
Proposição 10.14 Se L ∈ L então LT ∈ L. 2

Prova. Sabemos que para qualquer matriz M vale (M T )T = M e que para qualquer matriz invertı́vel
M vale (M T )−1 = (M −1 )T (por que?). Se L ∈ L, tem-se por definição que L−1 = ηLT η. Assim, como
η T = η, segue que
T
L−1 = ηLη,
ou seja,
−1 T
LT = η LT η,
31
Hendrik Antoon Lorentz (1853-1928).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 628/1195

que é o que se queria provar.

• O Grupo de Poincaré

Retornemos brevemente às transformações afins gerais que preservam intervalos e que, como vimos,
são da forma Lx + t, com t ∈ 4 sendo uma translação e L ∈ L. A composição de duas de tais


transformações L0 x + t0 e Lx + t, é a transformação L0 (Lx + t) + t0 = L0 Lx + L0 t + t0 .


Essa última expressão naturalmente conduz ao seguinte. Seja P := L × 4 o conjunto de todos os 

pares ordenados (L, t) com L ∈ L e t ∈ 4 . Então P é um grupo com o produto definido por


(L0 , t0 ) · (L, t) := (L0 L, L0 t + t0 ).


4
Como se vê, esse produto faz de P o produto semi-direto Ls  . O produto semi-direto de grupos foi
definido à página 73.

E. 10.64 Exercı́cio. Verifique que o produto acima é de fato associativo. Identifique o elemento neutro
e determine a inversa de cada par (L, t) ∈ P. 6

Esse grupo, que combina transformações de Lorentz e translações, é denominado grupo de Poin-
caré32 em homenagem ao eminente matemático francês que também foi um dos pioneiros da teoria da
relatividade33 . O grupo de Poincaré é o grupo mais geral de transformações afins do espaço-tempo que
mantêm os intervalos invariantes.
Mais adiante (página 640) vamos retornar ao grupo de Poincaré para analisar sua estrutura enquanto
grupo de Lie. Antes, porém, precisamos nos concentrar plenamente no grupo de Lorentz.

10.6.4 Alguns Sub-Grupos do Grupo de Lorentz


Antes de e com o propósito de estudarmos a estrutura do grupo de Lorentz, vamos identificar alguns
de seus sub-grupos mais importantes.

• Troca de Paridade e Reversão Temporal

As seguintes matrizes são elementos do grupo de Lorentz


     
−1 0 0 0 1 0 0 0 1 0 0 0
 0 1 0 0   0 −1 0 0   0 1 0 0 
P1 :=  0
,
 P2 :=  0 0 1 0 ,
 P3 := 
 0
, (10.74)
0 1 0 0 −1 0 
0 0 0 1 0 0 0 1 0 0 0 1
32
Jules Henri Poincaré (1854-1912).
33
Vários historiadores da ciência apontaram para o fato que Poincaré, assim como Lorentz, antecedeu Einstein em
alguns aspectos. Poincaré foi o primeiro (em 1905, o ano da publicação do trabalho seminal de Einstein, mas independente
deste) a estudar o caráter de grupo das transformações de Lorentz, tendo provado que toda transformação de Lorentz é
combinação de rotações com um “boost”, fato que estabeleceremos no Teorema 10.8, mais adiante.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 629/1195

e    
−1 0 0 0 1 0 0 0
 0 −1 0 0   0 1 0 0 
P := 
 0
, T :=  . (10.75)
0 −1 0   0 0 1 0 
0 0 0 1 0 0 0 −1

E. 10.65 Exercı́cio importante. Verifique que as cinco matrizes acima são membros do grupo de Lorentz,
ou seja, satisfazem LηLT η = . 6

As matrizes P , P1 , P2 e P3 implementam trocas de paridade, ou seja, reversão da orientação dos


eixos de coordenadas espaciais de pontos de 4 . A matriz T implementa uma reversão temporal, ou


seja, inversão da coordenada temporal de pontos de 4 . 

É bastante evidente que (T )2 = (P )2 = (P1 )2 = (P2 )2 = (P3 )2 = e que P = P1 P2 P3 . As matrizes


T, P1 , P2 , P3 geram um sub-grupo do grupo de Lorentz que implementa reversões temporais e de
paridade.

• Os Sub-grupos Rot e SRot

Se R é uma matriz 4 × 4 da forma


 
0
 r0 0 
 
R := 
 0 ,

 
0 0 0 1

onde r0 é uma matriz 3 × 3 pertencente a O(3), então é fácil verificar que R é um elemento do grupo
de Lorentz, ou seja, satisfaz RηRT η = .

E. 10.66 Exercı́cio. Verifique isso, usando os fatos que r0 r0T = e que


 
0
 (r0 )T 0 
 
R := 
T
 0  = R−1 .

 
0 0 0 1
6

É fácil constatar que o conjunto das matrizes da forma de R acima forma um sub-grupo do grupo
de Lorentz. Esse sub-grupo será designado aqui34 por Rot.

E. 10.67 Exercı́cio. Mostre que Rot é isomorfo ao grupo O(3): Rot ' O(3). 6
34
Essa notação não é uniforme na literatura.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 630/1195

Se R é da forma acima, é evidente também que det(R) = det(r0 ). Logo, Rot tem um sub-grupo
SRot de matrizes R com det(R) = 1 da forma
 
0
 r0 0 
 
R :=  0 ,
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a SO(3).

E. 10.68 Exercı́cio. Mostre que SRot é isomorfo ao grupo SO(3): SRot ' SO(3). 6

E. 10.69 Exercı́cio. Mostre que se R ∈ Rot mas R ∈ SRot então existe matriz R 0 ∈ SRot com
R = P R0 . 6

E. 10.70 Exercı́cio. Mostre que se R ∈ Rot mas R ∈ SRot então existe matriz R 00 ∈ SRot com
R = P1 R00 . 6

As matrizes de SRot implementam rotações puras (sem troca de paridade) nas coordenadas espaciais
4
de  .

• Os “Boosts” de Lorentz

Um conjunto muito importante de matrizes de Lorentz é formado pelos chamados “boosts 35 ” de


Lorentz na direção 1. Tais matrizes são da forma
 
γ(v) 0 0 −vγ(v)
 0 1 0 0 
B1 (v) :=  
,
 (10.76)
0 0 1 0
−vγ(v) 0 0 γ(v)
onde
1
γ(v) := √
1 − v2
e v ∈ (−1, 1).

E. 10.71 Exercı́cio muito importante. Verifique que as matrizes B1 (v) acima são membros do grupo
de Lorentz, ou seja, satisfazem B1 (v)ηB1 (v)T η = para todo v ∈ (−1, 1). 6

Outro fato de grande importância é o seguinte: o conjunto de todas as matrizes B 1 (v) com v ∈
(−1, 1) forma um sub-grupo do grupo de Lorentz, denominado sub-grupo dos boosts de Lorentz (na
direção 1) e que designaremos aqui por B1 . Isso decorre do seguinte:

1. Para v = 0
B1 (0) = .
35
Do inglês to boost: impulsionar, propelir, impelir, empurrar.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 631/1195

2. Para todo v ∈ (−1, 1)


B1 (v)−1 = B1 (−v).

3. Para todos v, v 0 ∈ (−1, 1)  


0 v0 + v
B1 (v )B1 (v) = B1 . (10.77)
1 + v0v

E. 10.72 Exercı́cio muito importante. Verifique essas três afirmações. 6

Observe-se que o item 3, acima, está intimamente associado à regra relativista de composição de
velocidades.
Segue também de (10.77) que B1 é um sub-grupo Abeliano: B1 (v 0 )B1 (v) = B1 (v)B1 (v 0 ) para todos
v 0 , v ∈ (−1, 1).

E. 10.73 Exercı́cio. Mostre que det(B1 (v)) = 1 para todo v ∈ (−1, 1) e, portanto, B1 ⊂ SO(3, 1).
6

Analogamente aos boosts de Lorentz na direção 1, há os boosts de Lorentz nas direções 2 e 3,
representados por matrizes como
   
1 0 0 0 1 0 0 0
 0 γ(v) 0 −vγ(v)   0 1 0 0 
B2 (v) := 
 0

 e B 3 (v) :=  
 0 0 γ(v) −vγ(v)  . (10.78)
0 1 0
0 −vγ(v) 0 γ(v) 0 0 −vγ(v) γ(v)
Todas as afirmações feitas sobre as matrizes B1 têm seu correspondente análogo para as matrizes B2 e
B3 . Os respectivos sub-grupos são aqui denotados por B2 e B3 .
Geometricamente as matrizes B2 (v) e B1 (v) estão relacionadas por uma matriz de rotação de SRot
que implementa uma rotação de π/2 em torno do eixo 3:
B2 (v) = RB1 (v)RT ,
onde  
0 −1 0 0
 1 0 0 0 
R =  
 0 0 1 0  ∈ SRot.
0 0 0 1

E. 10.74 Exercı́cio. Verifique. 6

Analogamente, é possı́vel obter a matriz B3 (v) a partir de B1 (v) ou de B2 (v) através de rotações.

E. 10.75 Exercı́cio. Boosts de Lorentz em direções distintas não comutam. Mostre, por exemplo, que
B1 (v)B2 (v 0 ) 6= B2 (v 0 )B1 (v), exceto se v = 0 ou v 0 = 0. 6

Adiante, em nosso estudo da estrutura geral do grupo de Lorentz, mostraremos o quão importantes
os boosts de Lorentz são. A saber, mostraremos que toda matriz de Lorentz é obtida por uma sucessão
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 632/1195

de uma rotação, um boost (na direção 1, por exemplo) e eventualmente uma outra rotação. Eventual-
mente trocas de paridade e inversões temporais podem ocorrer também. A afirmação precisa está no
Teorema 10.8.

10.6.5 A Estrutura do Grupo de Lorentz


Antes de iniciar a leitura desta seção o leitor poderá apreciar o estudo do grupo O(1, 1) iniciado à
página 586.
Vamos aqui tentar caracterizar a forma geral de um elemento do grupo de Lorentz O(3, 1). Como
já observamos, O(3, 1) possui um sub-grupo SRot ' SO(3) formado por matrizes da forma
 
0
 r0 0 
 
R :=   0 
,
 
0 0 0 1
onde r0 é uma matriz 3 × 3 pertencente a SO(3).
Vamos no que segue demonstrar o seguinte teorema, que nos fornece a forma geral de toda matriz
L ∈ L e que é de importância em todo estudo detalhado do grupo de Lorentz.
Teorema 10.8 Se L é um elemento do grupo de Lorentz O(3, 1). Como matriz 4 × 4, L é da forma
 
L11 L12 L13 L14
 L21 L22 L23 L24 
L =   L31 L32 L33 L34  .
 (10.79)
L41 L42 L43 L44
Então vale uma das quatro afirmações seguintes:
Ia. det(L) = +1, L44 ≥ +1 e L é da forma
L = Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot.
Ib. det(L) = +1, L44 ≤ −1 e L é da forma
L = T P Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot.
IIa. det(L) = −1, L44 ≤ −1 e L é da forma
L = T Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot.
IIb. det(L) = −1, L44 ≥ +1 e L é da forma
L = P Ra B1 (v) Rb ,
para algum v ∈ (−1, 1) e para Ra , Rb ∈ SRot. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 633/1195

A demonstração detalhada deste teorema encontra-se na Seção 10.A, página 652.

• Dois Resultados sobre o Grupo de Lorentz

Proposição 10.15 Se L é um elemento do grupo de Lorentz O(3, 1) e L−1 é sua inversa, então tem-se
que (L−1 )44 = L44 . 2

Prova. A prova é simples, pois sabemos que L−1 = ηLT η. Então, usando-se a representação (10.A.1) e
calculando-se explicitamente, tem-se
   
0 0
 0   l T
b

 0 
   
L −1
=  
0    0 
  
   
T
0 0 0 −1 a L44 0 0 0 −1
 
 lT −b 
 
 
=  ,
 
 
−aT L44

o que leva à constatação que (L−1 )44 = L44 .

Proposição 10.16 Se L e L0 são dois elementos quaisquer do grupo de Lorentz O(3, 1) então tem-se
que
sinal((LL0 )44 ) = sinal(L44 )sinal(L044 ).
2

Prova. Sejam L e L0 duas transformações de Lorentz que, como em (10.A.1), representamos na forma
de blocos    
 l a   l0 a0 
   
  0  
L =  , L =  , (10.80)
   
   
bT L44 b0 T L044

Vamos formar o produto L00 = LL0 e estudar o sinal do elemento L0044 da matriz resultante. Pela regra
de produto de matrizes teremos
L0044 = L44 L044 + bT a0 .

E. 10.76 Exercı́cio. Verifique. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 634/1195

O produto de matrizes bT a0 representa também o produto escalar b · a0 dos vetores b e a0 de 


3
(por
que?). Assim,

L0044 = L44 L044 + b · a0 . (10.81)


Há dois casos a considerar: o caso em que sinal(L44 ) = sinal(L044 ) e o caso em que sinal(L44 ) 6=
sinal(L044 ).
1. Caso em que sinal(L44 ) = sinal(L044 ).
Por (10.81) tem-se
L0044 ≥ L44 L044 − |b · a0 |.
Sabemos que b · a0 = kbk ka0 k cos θ, onde kbk é o comprimento de b, ka0 k é o comprimento de a0 e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a0 | ≤ kbk ka0 k (desigualdade
de Cauchy). Assim,
L0044 ≥ L44 L044 − kbk ka0 k. (10.82)
√ √
Pela Proposição 10.21, kbk = |α| e ka0 k = |α0 |. Além disso, L44 = 1 + α2 e L044 = 1 + α0 2 . Assim,
por (10.82), p

L0044 ≥ 1 + α2 1 + α0 2 − |α| |α0| > 0.
Portanto,
sinal(L0044 ) = +1 = sinal(L44 ) sinal(L044 ),
como querı́amos provar.
2. Caso em que sinal(L44 ) 6= sinal(L044 ).
Por (10.81) tem-se
L0044 ≤ L44 L044 + |b · a0 |.
Sabemos que b · a0 = kbk ka0 k cos θ, onde kbk é o comprimento de b, ka0 k é o comprimento de a0 e θ é o
ângulo que esses dois vetores formam entre si. É óbvio, portanto, que |b · a0 | ≤ kbk ka0 k (desigualdade
de Cauchy). Assim,
L0044 ≤ L44 L044 + kbk ka0 k. (10.83)
√ √
Pela Proposição 10.21, kbk = |α| e ka0 k = |α0 |. Além disso, L44 ± 1 + α2 e L044 = ∓ 1 + α0 2 (pois
sinal(L44 ) 6= sinal(L044 )). Assim, por (10.83),
√ p
L0044 ≤ − 1 + α2 1 + α0 2 + |α| |α0| < 0.
Portanto,
sinal(L0044 ) = −1 = sinal(L44 ) sinal(L044 ),
como querı́amos provar.

• Os Sub-grupos Próprio, Ortócrono e Restrito do Grupo de Lorentz

Os conjuntos de transformações de Lorentz que satisfazem as condições Ia, Ib, IIa ou IIb acima
são obviamente conjuntos disjuntos. Não é difı́cil mostrar (mas não o faremos aqui) que cada um é
um conjunto conexo. Portanto, o grupo de Lorentz L = O(3, 1) possui quatro componentes conexas.
Seguindo a convenção, detonaremos essas quatro componentes da seguinte forma:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 635/1195

1. L↑+ := {L ∈ L| det(L) = +1 e sinal(L44 ) = +1},

2. L↑− := {L ∈ L| det(L) = −1 e sinal(L44 ) = +1},

3. L↓+ := {L ∈ L| det(L) = +1 e sinal(L44 ) = −1},

4. L↓− := {L ∈ L| det(L) = −1 e sinal(L44 ) = −1}.

Note-se também que apenas L↑+ contem a identidade . L↑− contem a operação de troca de paridade
P . L↓+ contem a operação de troca de paridade e inversão temporal P T . L↓− contem a operação de
inversão temporal T .
Os conjuntos L↑− , L↓+ e L↓− não são subgrupos de L. Porém, pelas Proposições 10.15 e 10.16, é
muito fácil constatar as seguintes afirmações:

1. L↑+ é um sub-grupo de L, denominado grupo de Lorentz próprio ortócrono ou grupo de Lorentz


restrito.

2. L↑ := L↑+ ∪ L↑− é um sub-grupo de L, denominado grupo de Lorentz ortócrono.

3. L+ := L↑+ ∪ L↓+ é um sub-grupo de L, denominado grupo de Lorentz próprio.

4. L0 := L↑+ ∪ L↓− é um sub-grupo de L, denominado grupo de Lorentz ortócoro.

Note-se que os elementos de ambos os conjuntos L↑+ e L↓+ satisfazem det(L) = 1. Portanto, o grupo
de Lorentz próprio L+ := L↑+ ∪ L↓+ coincide com SO(3, 1). Em L↑ não ocorrem reversões temporais36 .
Note também que SRot é um sub-grupo de L↑+ .

• A Relevância de L+ , L↑ e L↑+ na Fı́sica

É uma crença da Fı́sica atual que L↑+ representa uma simetria da natureza (na ausência de campos
gravitacionais). Essa crença não se estende aos grupos L+ e L↑ . O problema com esses últimos grupos
é que os mesmos envolvem operações de troca de paridade (representada pela matriz P ) ou de reversão
temporal (representada pela matriz T ).
É um fato bem estabelecido experimentalmente que nas chamadas interações fracas da fı́sica das
partı́culas elementares a troca de paridade (representada por matrizes como P ou P 1 ) não é uma
transformação de simetria da natureza.
No contexto da teoria quântica de campos é um fato teórico bem estabelecido que a chamada trans-
formação CPT37 é uma transformação de simetria. Violações dessa simetria não foram empiricamente
observadas na fı́sica as partı́culas elementares. Por isso, a constatação que a simetria CP é violada,
fenômeno observado em certos processos da fı́sica das partı́culas elementares, indica fortemente que
36
Essa a razão da uso da flecha apontando para cima no sı́mbolo L↑ , indicando que o tempo corre na mesma direção
nos sistemas de referência inerciais transformados por L↑ .
37
A chamada transformação CPT envolve as operações sucessivas de troca de carga, ou partı́cula-antipartı́cula, (de-
notada por C), de paridade (denotada por P) e de reversão temporal (denotada por T).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 636/1195

a reversão temporal também não seria uma simetria da natureza. Entretanto, evidências experimen-
tais diretas de que a simetria de reversão temporal é violada não foram ainda encontradas, por serem
de difı́cil constatação. Para mais informações a respeito de simetrias e suas violações na fı́sica das
partı́culas elementares, vide por exemplo [80] ou outros livros introdutórios sobre a fı́sica das partı́culas
elementares.

• L↑+ é um Sub-grupo Normal de L

Vamos aqui provar a seguinte proposição sobre L↑+ :


Proposição 10.17 L↑+ é um sub-grupo normal do grupo de Lorentz. 2

Prova. Tudo o que temos que fazer é provar que se L ∈ L↑+ e G ∈ L, então G−1 LG ∈ L↑+ . Isso equivale
a provar que det(G−1 LG) = 1 e que sinal((G−1 LG)44 ) = 1.
Como det(L) = 1, tem-se obviamente que
det(G−1 LG) = det(G−1 ) det(L) det(G) = det(G−1 ) det(G) = det(G−1 G) = det( ) = 1.

Analogamente, pela Proposição 10.16 vale


sinal((G−1 LG)44 ) = sinal((G−1 L)44 ) sinal(G44 ) = sinal((G−1 )44 ) sinal(L44 ) sinal(G44 )

= sinal((G−1 )44 ) sinal(G44 ) = sinal(G44 )2 = 1,


onde usamos a Proposição 10.15 na penúltima igualdade. Isso completa a prova.

E. 10.77 Exercı́cio. Mostre que o grupo quociente L/L↑+ é isomorfo ao grupo gerado por P1 e T . 6

10.6.6 Os Geradores do Grupo de Lorentz

• Os Geradores dos Boosts de Lorentz

Vamos reparametrizar os boosts de Lorentz B1 , B2 e B3 , introduzindo um novo parâmetro z =


arctanh v, ou seja v = tanh z, com −∞ < z < ∞. Na literatura fı́sica, z é por vezes denominado
“rapidez”. Definindo Ba (z) = Ba (tanh z), a = 1, 2, 3, temos, explicitamente
   
cosh z 0 0 − senh z 1 0 0 0
   
B1 (z) = 
0 1 0 0  , B2 (z) := 0 cosh z 0 − senh z  ,
 0 0 1 0  0 0 1 0 
− senh z 0 0 cosh z 0 − senh z 0 cosh z
 
1 0 0 0
0 1 0 0 
B3 (z) := 
0
.
0 cosh z − senh z 
0 0 − senh z cosh z
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 637/1195

As relações de composição (10.77) ficam


Ba (z)Ba (z 0 ) = Ba (z + z 0 ), a = 1, 2, 3.

tanh(x)+tanh(y)
E. 10.78 Exercı́cio. Mostre isso usando (10.77) e a identidade bem conhecida tanh(x+y) = 1+tanh(x) tanh(y)
.
Alternativamente, use a forma explı́cita das matrizes B a (z) dada acima. 6

Como Ba (0) = , constatamos que {Ba (z), −∞ < z < ∞}, a = 1, 2, 3, são três subgrupos
uniparamétricos do grupo de Lorentz. Seus geradores são

d
Ma := Ba (z) , a = 1, 2, 3,
dz z=0

explicitamente dados por


     
0 0 0 −1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 −1 0 0 0 0
M1 =  0 0
, M2 =  , M3 =  . (10.84)
0 0 0 0 0 0 0 0 0 −1
−1 0 0 0 0 −1 0 0 0 0 −1 0

É também importante notar que


Ba (z) = exp(zMa )
para a = 1, 2, 3.

E. 10.79 Exercı́cio. Verifique isso usando as formas explı́citas dos geradores M a dadas acima. 6

• Os geradores de SRot

Além dos boosts de Lorentz, consideremos também os três sub-grupos uniparamétricos de SRot
dados por
   
1 0 0 0 cos φ2 0 sen φ2 0
 0 cos φ1 − sen φ1 0   0 1 0 0 
R1 (φ1 ) = 
 0 sen φ1 cos φ1 0  ,
 R2 (φ2 ) =  − sen φ2
,
0 cos φ2 0 
0 0 0 1 0 0 0 1

 
cos φ3 − sen φ3 0 0
 sen φ3 cos φ3 0 0 
R3 (φ3 ) = 

,
0 0 1 0 
0 0 0 1
que representam rotações por ângulos φ1 , φ2 e φ3 ∈ (−π, π] no sentido horário em torno dos eixos
espaciais 1, 2 e 3, respectivamente. Em completa analogia com o grupo SO(3), seus geradores são

d
Ja := Ra (φ) , a = 1, 2, 3.
dφ φ=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 638/1195

É óbvio que  
0
 Ja 0 
 
Ja = 
 0 ,

 
0 0 0 0
onde Ja são os geradores de SO(3) dados em (10.29)-(10.31), página 591. Explicitamente, tem-se
     
0 0 0 0 0 0 1 0 0 −1 0 0
0 0 −1 0    
J1 =   J2 =  0 0 0 0 , J3 = 1 0 0 0 . (10.85)
0 1 0 0  −1 0 0 0   0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0

E. 10.80 Exercı́cio muito importante. Todo estudante tem que fazê-lo ao menos uma vez na vida. Mos-
tre que os geradores, Ma e Jb , com a, b = 1, 2, 3, satisfazem as seguintes relações de comutação:
3
X
[Ja , Jb ] = εabc Jc , (10.86)
k=1

3
X
[Ma , Mb ] = − εabc Jc , (10.87)
k=1

3
X
[Ja , Mb ] = εabc Mc . (10.88)
k=1

É claro de (10.86)-(10.88) que os seis geradores Ma e Jb formam uma álgebra de Lie, a álgebra de
Lie do grupo de Lorentz. Sabemos que não há mais geradores independentes pois, como provamos,
todo elemento do grupo de Lorentz é produto de boosts e rotações.
De (10.87) percebemos o fato notável que os três geradores dos sub-grupos de boost por si só não for-
mam uma álgebra de Lie! Para tal, é preciso incluir os geradores dos sub-grupos de rotação! Isso releva
uma relação insuspeita, mas profunda, entre os boosts (que fisicamente representam transformações
entre sistemas de referência inerciais com velocidades relativas não-nulas) e as rotações espaciais, pois
indica que as rotações espaciais podem ser geradas a partir de boosts. Isso é uma caracterı́stica especial
da fı́sica relativista (vide a comparação com o grupo de Galilei, abaixo) e está relacionada a alguns
fenômenos fı́sicos, como a chamada precessão de Thomas, importante na discussão do chamado fator
giromagnético do elétron. Vide qualquer bom livro sobre Mecânica Quântica Relativista (por ex. [109]).

• Revisitando o Teorema 10.8

Como vimos no Teorema 10.8, página 632, toda L ∈ L↑+ é da forma L = Ra B1 (v)Rb , com
Ra , Rb ∈ SRot. Escrevendo v = tanh θ, ficamos com L = Ra B1 (θ)Rb ou, usando o gerador M1 , L =
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 639/1195

Ra exp(θM1 )Rb . Isso, por sua vez pode ser reescrito como L = Ra exp(θM1 )RaT R = exp(θRa M1 RaT )R,
onde R := Ra Rb ∈ SRot.
P
Vamos agora escrever Ra na forma Ra = exp(J), onde J = 3k=1 αk Jk para certos αk ’s reais. Pela
expressão (4.39), página 231 (vide também a série completa em (4.38)), teremos
1 1
Ra M1 RaT = exp(J)A exp(−J) = M1 + [J, M1 ] + [J, [J, M1 ]] + [J, [J, [J, M1 ]]] + · · · ,
2! 3!
sendo a série do lado direito convergente. O fato importante a notar é que, por (10.88), os comutadores
múltiplos [J, · · · [J, M1 ]] são combinações lineares de M1 , M2 e M3 . A conclusão disso está expressa
no seguinte teorema.
P P
Teorema 10.9 Toda L ∈ L↑+ é da forma L = exp(M) exp(J), onde J = 3k=1 βk Jk e M = 3k=1 γk Mk ,
sendo que os βk ’s e γk ’s são números reais. 2

A interpretação desse teorema é que toda transformação de Lorentz (de L ↑+ ) pode ser obtida como
uma rotação (definida por exp(J) ∈ SRot) seguida de um boost em uma certa direção (que é definida
pelas componentes de M).
Invertendo ordens na prova acima, o leitor se convence
P facilmente que Ptodo L ∈ L↑+ também pode
ser escrito como L = exp(J0 ) exp(M0 ), para outros J0 = 3k=1 βk0 Jk e M0 = 3k=1 γk0 Mk .
Por
P3fim, 0 advertimos
 o estudante do fato que, por (10.87), o conjunto das matrizes da forma
exp k=1 ak Mk , ak ∈ , não formam um subgrupo de L↑+ .


• O Grupo de Galilei

E. 10.81 Exercı́cio. Mostre que as transformações de Galilei38 da mecânica clássica podem ser repre-
sentadas como um grupo de matrizes 4 × 4, da forma
 
−v1
 r0 −v2 
 

G(r0 , ~v ) :=  −v3  ,
 
0 0 0 1

onde r0 é uma matriz 3 × 3 pertencente a O(3) e vj ∈ (−∞, ∞). Mostre que tais matrizes formam um
grupo de Lie, determinando também G(r0 , ~v )−1 e a regra de produto G(r0 , ~v )G(r00 , ~v 0 ). 6

Determine seus três sub-grupos de boost, seus três sub-grupos de rotação e os seis geradores desses
sub-grupos. Em seguida calcule as relações de comutação desses seis geradores. Compare com o que
ocorre com o grupo de Lorentz.
3
E. 10.82 Exercı́cio. Constate que o grupo de Galilei é isomorfo ao grupo O(3)s  . 6

38
Galileu Galilei (1564-1642).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 640/1195

10.7 O Grupo de Poincaré


O chamado grupo de Poincaré (em 3+1 dimensões) é definido como sendo o grupo P := O(3, 1)s 4 . 

Seus elementos são, portanto, pares ordenados (L, x) com L ∈ O(3, 1) e x ∈ 4 , sendo o produto

dado por (L, x) · (L0 , x0 ) = (LL0 , Lx0 + x). Sua ação no espaço-tempo 4 é interpretada como uma


transformação de Lorentz seguida de uma translação.


Há um subgrupo de GL( , 5) que é isomorfo a P. Sejam as matrizes reais 5 × 5


 
 
 L x 
  4
P (L, x) :=  , com L ∈ O(3, 1) e x ∈ .
 


 
0 1

Então, tem-se
P (L, x) P (L0 , x0 ) := P (LL0 , Lx0 + x) .

E. 10.83 Exercı́cio importante. Mostre isso. 6

4
Assim, o conjunto de matrizes {P (L, x) ∈ GL( , 5), com L ∈ O(3, 1) e x ∈
  } forma um sub-
grupo de GL( , 5) que é isomorfo a P. Também denotaremos esse grupo por P.


E. 10.84 Exercı́cio. Prove essa última afirmativa. 6

O chamado grupo de Poincaré próprio ortócrono, denotado por P ↑+ é o grupo P↑+ := L↑+ s 
4
.

• Os Geradores do Grupo de Poincaré

De maneira totalmente análoga ao que fizemos no grupo Euclidiano, podemos determinar os gera-
dores do grupo P↑+ . Este possui 10 geradores. Seis da forma
   
   
 Mk 0   Jk 0 
   
mk :=   ou jk :=   com k = 1, 2, 3,
   
   
0 0 0 0

onde Mk e Jk são as matrizes 4 × 4 definidas em (10.84) e (10.85), respectivamente, e quatro da forma


 
 
 0 xk 
 
pk :=   com k = 1, . . . , 4,
 
 
0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 641/1195

onde        
1 0 0 0
0  1  0  0 
x1 :=  
0  , x2 :=  
0  , x3 :=  
1  , x4 :=  
0  .
0 0 0 1
As relações de comutação associadas ao grupo de Poincaré são:
3
X
[ja , jb ] = εabc jc , (10.89)
k=1

3
X
[ma , mb ] = − εabc jc , (10.90)
k=1

3
X
[ja , mb ] = εabc mc , (10.91)
k=1

[pa , pb ] = 0, (10.92)
3
X
[ja , pb ] = (1 − δb4 ) εabc pc , (10.93)
k=1

[ma , pb ] = − (δab p4 + δb4 pa ) . (10.94)


Aqui, os ı́ndices dos m’s e j’s variam de 1 a 3 e os ı́ndices dos p’s variam de 1 a 4.

E. 10.85 Exercı́cio importante. Todo estudante deve fazê-lo uma vez na vida. Verifique isso. 6

As três primeiras relações acima seguem de (10.86)-(10.88), página 638. A relação (10.93) diz que
os j’s comutam com p4 e, nos demais casos, tem-se a última relação de (10.61).
Novamente constatamos que a sub-álgebra gerada pelos p’s é um ideal de álgebra de Lie do grupo
de Poincaré.

• O grupo P↑+ em 1+1-dimensões

Com base no nosso estudo do grupo O(1, 1) (vide Seção 10.3.1, em especial, página 586), sabemos
que o grupo P↑+ em 1+1-dimensões é isomorfo ao grupo de matrizes da forma
 
cosh z − senh z x1
− senh z cosh z x2 
0 0 1
com z, x1 , x2 ∈ . Seus geradores serão


     
0 −1 0 0 0 1 0 0 0
m1 := −1 0 0 , p1 := 0 0 0 , p2 := 0 0 1 .
0 0 0 0 0 0 0 0 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 642/1195

Como é fácil de verificar, as relações de comutação entre esses geradores são

[m1 , p1 ] = −p2 , [m1 , p2 ] = −p1 , [p1 , p2 ] = 0.

Um elemento genérico dessa álgebra de Lie é da forma


 
 M t 
 
I(M, t) := 



 
0 0 0

onde    
0 −z t1
M = zm1 = e t = t 1 p1 + t 2 p2 =
−z 0 t2
com z, t1 , t2 ∈  . É um exercı́cio fácil (faça-o) constatar que para todo k ∈  , k ≥ 1, tem-se

I(M, t)k = I Mk , Jk−1 t .

Conseqüentemente, vale que


 
∞ ∞  t0 
X 1 X 1   L 
exp (I(M, t)) = + I(M, t)k = + I M , M t = 
k k−1

 ,

k=1
k! k=1
k!  
0 0 1

onde  
cosh z − senh z
L := e M
= e t0 = f (M)t ,
− senh z cosh z
sendo f a função analı́tica inteira definida em (10.62). A matriz f (M) pode ser calculada facilmente
usando-se o fato que
 2k  2k+1  
0 −1 0 −1 0 −1
= e = , k∈ ,
−1 0 −1 0 −1 0

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 643/1195

de onde se extrai
X∞
1 k−1
f (M) := + J
k=2
k!


X X∞
1 2m−1 1
= + J + J2m
m=1
(2m)! m=1
(2m + 1)!

X∞   X ∞
z 2m−1 0 −1 z 2m
= +
m=1
(2m)! −1 0 m=0
(2m + 1)!
 
cosh z − 1 0 −1 senh z
= +
z −1 0 z
 
senh z cosh z − 1
 − 
 z z 
=   .
 cosh z − 1 senh z 

z z
Notemos que  
cosh z − 1
det f (M) = 2 6= 0
z2
 
x1
−1 2
para z ∈ . Assim, f (M) é invertı́vel e se escolhermos t = f (M) x, para qualquer x = ∈
x2
 

teremos
 
 
 L x  cosh z − senh z x
   1
exp I(M, f (M) x) = 
−1

 = − senh z cosh z x2  .

  0 0 1
0 0 1

Isso prova que todo elemento do grupo P↑+ em 1+1 dimensões pode ser escrito como exponencial de
um elemento da sua própria álgebra de Lie.

10.8 SL( , 2) e o Grupo de Lorentz


Nesta seção discutiremos com algum detalhe a relação entre SL( , 2) (introduzido na Seção 10.3.5,
página 602) e o Grupo de Lorentz em 3+1 dimensões, relação esta de grande importância em Fı́sica,
especialmente no estudo da equação de Dirac39 para o elétron e na Teoria Quântica de Campos.

• Automorfismos de SL( , 2)
39
Paul Adrien Maurice Dirac (1902-1984).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 644/1195

Com o propósito de preparar a discussão sobre a relação entre SL( , 2) e o Grupo de Lorentz,
vamos em primeiro lugar discutir alguns automorfismos do grupo SL( , 2).
 
0 −1
Seja τ := −iσ2 = ∈ SL( , 2). Definimos ϕτ : SL( , 2) → SL( , 2) por
1 0

ϕτ (A) := τ Aτ −1 .

Então, ϕτ é um automorfismo de SL( , 2). De fato, vê-se trivialmente que ϕτ é bijetora e que
ϕτ (AB) = ϕτ (A)ϕτ (B) para todos A, B ∈ SL( , 2) (prove isso!).
Para uma matriz M ∈ Mat ( , 2) denotamos
 por M a matriz obtida tomando-se o complexo
conjugado dos elementos de matriz de M : M ij = Mij . Sabe-se que det(M ) = det(M ), portanto, se
A ∈ SL( , 2) então A ∈ SL( , 2).
Assim, seja ϕ1 : SL( , 2) → SL( , 2) definida por

ϕ1 (A) := A.

Então, ϕ1 é também um automorfismo de SL( , 2). De fato, vê-se trivialmente que ϕ1 é bijetora e que
ϕ1 (AB) = ϕ1 (A)ϕ1 (B) para todos A, B ∈ SL( , 2) (prove isso!).
Note que ϕ1 (ϕ1 (A)) = A, ou seja, ϕ1 ◦ ϕ1 é a identidade.
O grupo SL( , 2) possui um outro automorfismo de interesse. Se det(A) = 1 é fácil ver que
igualmente tem-se det ((A∗ )−1 ) = 1. Definimos então ϕ2 : SL( , 2) → SL( , 2) por

ϕ2 (A) := (A∗ )−1 = (A−1 )∗ .

Novamente, é fácil ver que ϕ2 é bijetora e que e que ϕ2 (AB) = ϕ2 (A)ϕ2 (B) para todos A, B ∈ SL( ,
2) (prove isso!).
 
a b
Há uma relação entre os automorfismos ϕτ , ϕ1 e ϕ2 . Se A ∈ SL( , 2) é da forma A = ,
c d
 
d −c
uma conta simples (faça!) mostra que (A∗ )−1 = . Daı́, é fácil constatar que (A∗ )−1 = τ Aτ −1
−b a
(faça essa constatação!). Concluı́mos assim que ϕ2 = ϕτ ◦ ϕ1 . Portanto, vale também que

ϕ2 ◦ ϕ 1 = ϕ τ . (10.95)

Todos esses fatos serão usados na Seção 10.8, onde discutiremos em detalhe a importante e surpre-
endente relação entre SL( , 2) e o Grupo de Lorentz.

• SL( , 2) e o Espaço de Minkowski

Por Herm ( , 2) designamos o sub-espaço (real) de Mat ( , 2), formado por todas as matrizes
complexas 2 × 2 e Hermitianas: Herm ( , 2) := {M ∈ Mat ( , 2)| M ∗ = M }. É fácil ver que
existe uma correspondência biunı́voca entre Herm ( , 2) e 4 (e, portanto, entre Herm ( , 2) e o


espaço-tempo de Minkowski40 quadridimesional). De fato, como , σ1 , σ2 , σ3 formam uma base em


40
Hermann Minkowski (1864-1909).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 645/1195

Mat ( , 2), podemos escrever toda matriz M ∈ Herm ( , 2) na forma


 
m4 + m3 m1 − im2
M = m 4 + m 1 σ1 + m 2 σ2 + m 3 σ3 , = ,
m1 + im2 m4 − m3
com m4 , m1 , m2 , m3 ∈ . Porém, como as matrizes de Pauli e são auto-adjuntas, a condição de M
ser Hermitiana, ou seja, M ∗ = M , significa
m 4 + m 1 σ1 + m 2 σ2 + m 3 σ3 = m 4 + m 1 σ1 + m 2 σ2 + m 3 σ3 ,
ou seja, mk ∈ , k = 1, . . . , 4. Logo,


( 3   )
X m4 + m3 m1 − im2
Herm ( , 2) = m4 + m k σk , = com m1 , m2 , m3 , m4 ∈ .
m1 + im2 m4 − m3


k=1
(10.96)
Antes de prosseguirmos, façamos algumas observações sobre a relação entre Herm ( , 2) e SL( , 2).
Se A é uma matriz qualquer de Mat ( , 2) e M ∈ Herm ( , 2), é fácil constatar que AM A ∗ também
é um elemento de Herm ( , 2). De fato (AM A∗ )∗ = AM A∗ , provando que AM A∗ é Hermitiana. É
claro que isso também vale para A ∈ SL( , 2). Nesse caso, porém, tem-se a seguinte proposição.
Proposição 10.18 Se A ∈ SL( , 2) é tal que AM A∗ = M para toda M ∈ Herm ( , 2), então
A=± . 2

Prova. Como AM A∗ = M para toda M ∈ Herm ( , 2) e ∈ Herm ( , 2), segue que A∗ = A−1 . Logo,
AM A−1 = M para toda M ∈ Herm ( , 2), ou seja, AM = M A para toda M ∈ Herm ( , 2). Ocorre,
porém, que toda matriz Q ∈ Mat ( , 2) pode ser escrita como Q = Q1 + iQ2 com
1 1
Q1 := (Q + Q∗ ), Q2 := (Q − Q∗ )
2 2i
onde Q1 e Q2 são ambas Hermitianas (verifique!). Logo, como A comuta com todas as matrizes
Hermitianas, A comuta com todas as matrizes de Mat ( , 2). Isso só é possı́vel se A for um múltiplo
da matriz identidade: A = λ (vide Proposição 1.9, página 72). Como det(A) = 1, segue que λ 2 = 1,
ou seja, A = ± , que é o que querı́amos mostrar.

Essa proposição tem a seguinte conseqüência:


Proposição 10.19 Se A, B ∈ SL( , 2) são tais que AM A∗ = BM B ∗ para todas as matrizes M ∈
Herm ( , 2), então A = ±B. 2

Prova. A relação AM A∗ = BM B ∗ implica CM C ∗ = M , onde C = B −1 A ∈ SL( , 2). Pela proposição


anterior, C = ± , terminando a prova.
x 
1
4 x2
Seja x ∈  ,x= x3 , e seja
x4

M (x) := x4 + x1 σ1 + x2 σ2 + x3 σ3 (10.97)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 646/1195

o elemento correspondente de Herm ( , 2). É fácil ver que M : 4 → Herm ( , 2) é bijetora e linear:


M (αx + βy) = αM (x) + βM (y) para todos α, β ∈ e todos x, y ∈ 4 .


 

4
E. 10.86 Exercı́cio. Mostre que as quatro componentes do vetor x ∈  podem ser recuperadas de
M (x) pelas seguintes expressões:
1 1 1
x4 = Tr ( M (x)) = Tr (M (x)) e xi = Tr (σi M (x)), i = 1, 2, 3.
2 2 2
6

Em resumo, denotando σ4 = , tem-se


1
xµ = Tr (σµ M (x)), µ = 1, . . . , 4. (10.98)
2

É um exercı́cio fácil e importante para o que segue verificar que


 
x4 + x3 x1 − ix2
− det(M (x)) = − det = x21 + x22 + x23 − x24 = hx, ηxi ,
x1 + ix2 x4 − x3


onde η é a matriz 4 × 4 definida em (10.63). Como se vê, surge (milagrosamente!) a métrica do


espaço-tempo de Minkowski do lado direito, o que indica a existência de uma conexão insuspeita entre
a relatividade restrita e a teoria das matrizes Hermitianas 2 × 2. Vamos explorar as conseqüências
desse fato.
Em primeiro lugar, notemos que para dois vetores x, y ∈ 4 quaisquer tem-se a seguinte identi-


dade41 :
1
hx, ηyi = [h(x + y), η(x + y)i − h(x − y), η(x − y)i ] .
4
  

E. 10.87 Exercı́cio. Verifique isso expandindo o lado direito. 6

Assim, podemos escrever


1
hx, ηyi = − [det(M (x + y)) − det(M (x − y))] . (10.99)
4


Seja agora A um elemento de SL( , 2). Se M ∈ Herm ( , 2), como já observamos, AM A∗ também
é um elemento de Herm ( , 2). Como A(BM B ∗ )A∗ = (AB)M (AB)∗ é fácil ver (faça!) que

α : SL( , 2) × Herm ( , 2) → Herm ( , 2)

definida por
α(A, M ) := AM A∗
é uma ação à esquerda de SL( , 2) sobre Herm ( , 2).
41
Chamada de identidade de polarização.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 647/1195

Para quaisquer x ∈ 4 e A ∈ SL( , 2) teremos que α(A, M (x)) = AM (x)A∗ é Hermitiana. Como


o lado direito depende linearmente de x, existe uma matriz real 4 × 4 que denotaremos por L[A] tal
que
α(A, M (x)) = AM (x)A∗ = M (L[A]x). (10.100)
Formalmente podemos definir L[A] da seguinte forma. Como M : 4 → Herm ( , 2) é bijetora, 

definimos
L[A]x := M −1 ( α(A, M (x)) ) = M −1 ( AM (x)A∗ ), (10.101)
4
para todo x ∈  . Em componentes tem-se, usando (10.98),

X4
1 1
(L[A]x)µ = Tr (σµ AM (x)A∗ ) = Tr (σµ Aσν A∗ )xν ,
2 ν=1
2

(verifique!) e, portanto, L[A] é uma matriz 4 × 4 com elementos de matriz


1
L[A]µν = Tr (σµ Aσν A∗ ), (10.102)
2
µ, ν = 1, . . . , 4.

E. 10.88 Exercı́cio importante. Usando a Proposição 10.19, mostre que L[A] = L[B] se e somente se
A = ±B. 6

E. 10.89 Exercı́cio importante. Mostre que L[A]L[B] = L[AB] para todos A, B ∈ SL( , 2). Su-
gestão: use a definição (10.101), não (10.102). 6

4 4
E. 10.90 Exercı́cio. Mostre que l : SL( , 2)×  →  definida por l(A, x) = L[A]x é uma ação de
SL( , 2) sobre 4 .  6

O ponto importante de tudo isso, e que iremos mostrar agora, é que L[A] é uma matriz de Lorentz,
ou seja, é um elemento de O(3, 1)! Para isso, faremos uso de (10.99). De fato, temos por (10.99) que
1
hL[A]x, ηL[A]yi = − [det(M (L[A](x + y))) − det(M (L[A](x − y)))]
4


1 
= − det(M (M −1 ( AM (x + y)A∗ ))) − det(M (M −1 ( AM (x − y)A∗ )))
4
1
= − [det( AM (x + y)A∗ ) − det( AM (x − y)A∗ )]
4
det(A) det(A∗ )
= − [det(M (x + y)) − det(M (x − y))]
4
1
= − [det(M (x + y)) − det(M (x − y))]
4
= hx, ηyi .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 648/1195

Na penúltima igualdade usamos que det(A∗ ) = det(A) = 1, pois A ∈ SL( , 2).


Ficou estabelecido, então, que hL[A]x, ηL[A]yi = hx, ηyi e, portanto, L[A] ∈ O(3, 1), ou seja,
 

L[A] é uma transformação de Lorentz. Isso provou também que há um homomorfismo de SL( , 2) no
grupo de Lorentz O(3, 1), a saber, A → L[A]. É bom notar que não se trata de um isomorfismo, pois
L[A] = L[−A], como já observamos.
Não é difı́cil mostrar, mas não faremos aqui42 , que L[A] definida acima não é apenas um elemento
do grupo de Lorentz completo O(3, 1), mas de seu sub-grupo de Lorentz próprio ortócrono L ↑+ . É
trivial, por exemplo, constatar usando (10.102) que L[A]44 > 0 para qualquer A ∈ SL( , 2). Como o
conjunto de matrizes {L[A], A ∈ SL( , 2)} evidentemente contem a identidade , basta apenas provar
que o mesmo é conexo.

• Os Grupos SL( , 2)/{− , } e L↑+ são Isomorfos

Um fato muito importante é que a aplicação Φ1 : SL( , 2)/{− , } → L↑+ definida por

Φ1 (±A) := L[A] (10.103)

é um isomorfismo entre os grupos SL( , 2)/{− , } e L↑+ . A prova dessa afirmação, muito importante
na teoria dos spinores, é apresentada na Seção 10.B, página 662. Notemos que pelos exercı́cios da
página 647, acima, resta apenas provar que Φ1 é sobrejetora, o que é feito na Seção 10.B.
Φ1 não é o único isomorfismo relevante entre esses dois grupos e apresentaremos mais três logo
abaixo para em seguida discutir o significado de todos eles.
O fato de haver isomorfismos de SL( , 2)/{− , } no grupo de Lorentz próprio ortócrono L ↑+ é de
grande importância na fı́sica relativista, em particular na Teoria Quântica de Campos, por mostrar que
as transformações de Lorentz (próprias e ortócronas) podem ser implementadas para partı́culas de spin
1/2 (cujas funções de onda vivem em 2 ) através de elementos de SL( , 2). As rotações SRot ⊂ L↑+ ,
por exemplo, são implementadas pela imagem por Φ−1 1 dos elementos do sub-grupo SU(2)/{− , }
de SL( , 2)/{− , } (lembre-se que SU(2)/{− , } é isomorfo a SO(3), que é isomorfo a SRot).
O boost de velocidade v na direção ~η ∈ 3 é implementado pela imagem por Φ−1


1 dos elementos
± exp((tanh v) ~η · ~σ ) ∈ SL( , 2).

E. 10.91 Exercı́cio. Prove os fatos mencionados no parágrafo precedente. Sugestão: vide [94] ou [44].
6

• Outros Isomorfismos entre L↑+ e SL( , 2)/{− , }

Usando os automorfismos ϕ1 e ϕ2 de SL( , 2) definidos à página 644 podemos construir mais três
ações de SL( , 2) sobre Herm ( , 2) com o uso da ação α definida em (10.100). Essas ações são
42
Vide, por exemplo, [94] ou [44].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 649/1195

denotadas aqui por α̇, αc e α̇c e são definidas da seguinte forma:



α̇(A, M ) := α(ϕ1 (A), M ) = AM A , (10.104)

αc (A, M ) := α(ϕ2 (A), M ) = (A∗ )−1 M A−1 , (10.105)

α̇c (A, M ) := α(ϕ2 ◦ ϕ1 (A), M ) = α(ϕτ (A), M ) = τ Aτ −1 M τ A∗ τ −1 . (10.106)


Na última linha usamos (10.95). Do fato de ϕτ , ϕ1 e ϕ2 serem automorfismos, segue trivialmente que
essas são de fato ações de SL( , 2) sobre Herm ( , 2).
Analogamente à definição de L[A] em (10.101), definimos
L̇[A] x := M −1 ( α̇(A, M (x)) ), (10.107)

Lc [A] x := M −1 ( αc (A, M (x)) ), (10.108)

L̇c [A] x := M −1 ( α̇c (A, M (x)) ). (10.109)


É imediato constatar que
 
L̇[A] = L [ϕ1 (A)] = L A , (10.110)
 
Lc [A] = L [ϕ2 (A)] = L (A∗ )−1 , (10.111)
 
L̇c [A] = L [ϕτ (A)] = L τ Aτ −1 . (10.112)

Do fato de ϕτ , ϕ1 e ϕ2 serem automorfismos, segue igualmente que


Φ1 (±A) := L[A], (10.113)

Φ2 (±A) := L̇[A], (10.114)

Φ3 (±A) := Lc [A], (10.115)

Φ4 (±A) := L̇c [A] (10.116)


são isomorfismos de SL( , 2)/{− , } em L↑+ . Isso claramente significa que as inversas Φ−1
i : L↑+ →
SL( , 2)/{− , }, i = 1, . . . , 4, são representações de L↑+ em 2 .
A representação Φ−1 −1
2 é por vezes denominada complexo conjugada e a representação Φ 4 é por vezes
denominada contra-gradiente.

• Spinores

Em termos fı́sicos, se tivermos uma transformação de Lorentz L ∈ L↑+ podemos implementá-la em 2


de quatro formas, de acordo com cada uma das quatro representações Φ−1 i dadas acima. Quantidades
2
fı́sicas vivendo em e que se transformem por transformações de Lorentz de acordo com alguma
dessas quatro representações são denominadas spinores. Há, portanto, quatro tipos de spinores. De
acordo com uma convenção (que, segundo Haag [49], foi introduzida por Van der Waerden em [127])
costuma-se denotar suas componentes da seguinte forma:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 650/1195

1. As componentes de spinores Ψ ∈ 2
que se transformam de acordo com Φ−1
1 são denotados por
ı́ndices inferiores: Ψr , r = 1, 2.

2. As componentes de spinores Ψ ∈ 2 que se transformam de acordo com Φ−1


2 são denotados por
ı́ndices inferiores com um ponto: Ψṙ , r = 1, 2.

3. As componentes de spinores Ψ ∈ 2 que se transformam de acordo com Φ−1


3 são denotados por

ı́ndices superiores com um ponto: Ψ , r = 1, 2.

4. As componentes de spinores Ψ ∈ 2
que se transformam de acordo com Φ−1
4 são denotados por
ı́ndices superiores: Ψr , r = 1, 2.

Spinores com ponto e sem (em inglês: “dotted spinors” e “undotted spinors”, respectivamente)
podem ser relacionados por conjugação complexa.

E. 10.92 Exercı́cio. Justifique essa afirmativa. 6

Para U ∈ SU(2), vale U = τ U τ −1 (verifique), de modo que, no que concerne ao grupo de rotações,
a diferença entre “undotted spinors” e “dotted spinors” é uma rotação de π em torno do eixo 2. Para
um boost B(v, ~η ) = exp((tanh v) ~η · ~σ ) ∈ SL( , 2) com η~ = (η1 , η2 , η3 ) teremos B(v, η~) = B(v, ~η r ),
onde ~η r = (η1 , −η2 , η3 ). Isso pois σ1 = σ1 , σ3 = σ3 mas σ2 = −σ2 . Logo,

B(v, ~η ) = τ B(−v, ~η )τ −1 .

Assim, no que concerne aos boosts de Lorentz, a diferença entre “undotted spinors” e “dotted spinors”
é uma reversão temporal (representada aqui pela troca v → −v) seguida de rotação de π em torno do
eixo 2.
Todas as considerações acima sobre “undotted spinors” e “dotted spinors” são de relevância na
mecânica quântica relativista, particularmente para a célebre equação de Dirac para o elétron 43 .

• Formas invariantes de spinores

A seguinte proposição é freqüentemente empregada na teoria dos spinores.


 
0 −1
Proposição 10.20 Seja τ := −iσ2 = ∈ SL( , 2). Então, para todo A ∈ SL( , 2) tem-se
1 0
AT τ A = τ . 2

Prova. Seja A = exp(α1 σ1 +α2 σ2 +α3 σ3 ) ∈ SL( , 2), com αk ∈ , k = 1, 2, 3. Então, AT = exp(α1 σ1 −
α2 σ2 + α3 σ3 ), pois σ1T = σ1 , σ3T = σ3 mas σ2T = −σ2 . Assim, AT τ = −iAT σ2 = −iσ2 σ2 AT σ2 =
τ exp (σ2 [α1 σ1 − α2 σ2 + α3 σ3 ] σ2 ) = τ exp(−α1 σ1 −α2 σ2 −α3 σ3 ) = τ A−1 onde, na penúltima igualdade,
usamos as propriedades de anti-comutação das matrizes de Pauli. Isso completa a prova.
43
Para um artigo clássico sobre o assunto, vide: O. Laporte and G. E. Uhlenbeck. “Application of spinor analysis
for the Maxwell and Dirac equations”. Phys. Rev. 37, 1380 (1931). Outra referência clássica é [127]. Vide também
qualquer bom livro moderno sobre Teoria Quântica de Campos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 651/1195

Uma conseqüência dessa proposição é que se definirmos, para ψ, φ ∈ 2 , a forma bilinear (simplética)
ωτ (ψ, φ) := hψ, τ φi , teremos ωτ (Aψ, Aφ) = ωτ (ψ, φ) para todo A ∈ SL( , 2).


Apesar de invariante por SL( , 2), a forma bilinear ωτ acima não é interessante para a fı́sica
quântica, pois não é um produto escalar (tem-se, por exemplo, ωτ (ψ, ψ) = 0 ∀ψ ∈ 2 ) e, portanto,
não existe uma interpretação probabilı́stica associada à mesma. Para que a simetria L ↑+ implementada
por SL( , 2) represente uma simetria de um sistema quântico cujo espaço de Hilbert é 2 , devemos
procurar um produto escalar em 2 que seja invariante por SL( , 2). Veremos, porém, que um tal
produto escalar não existe.
Vamos estudar a forma mais geral de um produto escalar em 2 . Como já observamos à página
130 e anteriores, a forma mais geral de um produto escalar em 2 é hψ, M φi , onde M é autoadjunta 

e positiva. Toda matriz 2 × 2 autoadjunta é da forma M (p) para algum p ∈ 4 (M (p) foi definida 

em (10.97), página 645)). Vamos descobrir para quais p ∈ 4 tem-se M (p) > 0. Para que essa

condição seja satisfeita os dois autovalores λ1 e λ2 de M (p) devem ser positivos. Calculando por
(10.97) o traço e o determinante de M (p) , tem-se det(M (p)) = λ1 λ2 = (p4 )2 − (p1 )2 − (p2 )2 − (p3 )2 e
Tr (M (p)) = λ1 + λ2 = 2p4 . É fácil ver daı́ que λ1 = p4 + k~
pk e λ2 = p4 − k~
pk onde p~ = (p1 , p2 , p3 ).
Logo, M (p) > 0 se e somente se p4 > k~ pk.
Seja V+ := {p ∈ 
4
pk}. É fácil verificar (faça-o) que V+ é mantido invariante por L↑+ .
| p4 > k~
2
Para ψ, φ ∈ e p ∈ V+ , definamos o produto escalar

hψ, φip := hψ, M (p)φi  .

Teremos, para todo A ∈ SL( , 2),

hAψ, Aφip := hψ, A∗ M (p)Aφi  = hψ, M (L[A∗ ]p) φi  = hψ, φiL[A∗ ]p ,

onde, acima, usamos (10.101).


No caso do subgrupo SU(2), o produto escalar invariante corresponde a p ∈ V+ com Lp = p para
L ∈ SRot. Tais p’s são da forma p = (0, 0, 0, p4 ), p4 > 0. Assim, hψ, φi é, a menos de um múltiplo 

positivo, o único produto escalar invariante em 2 para SU(2). Mas vemos acima que que não há
produto escalar invariante para todo o grupo SL( , 2) em 2 , já que não há vetor em V+ que seja
invariante para todo L ∈ L↑+ . Fisicamante falando, a simetria de Lorentz L↑+ não pode, portanto, ser
implementada em espaços de Hilbert bidimensionais, apenas a simetria de rotação.
Adiante discutiremos como implementar a simetria de Lorentz (e a de Poincaré) em campos de
spinores, aumentando a dimensão do espaço de Hilbert dos estados.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 652/1195

Apêndices

10.A Prova do Teorema 10.8


Aqui a demonstração do Teorema 10.8 será apresentada.
Seja L um elemento do grupo de Lorentz O(3, 1), representada como matriz da forma (10.79).
Vamos definir vetores coluna (ou seja, matrizes 3 × 1) a e b por
   
L14 L41
a :=  L24  , b :=  L42  .
L34 L43

É evidente que podemos escrever L na forma de blocos


 
 l a 
 
 
L =  , (10.A.1)
 
 
bT L44

onde bT , a transposta de b, é o vetor linha (matriz 1 × 3) dado por bT = L41 , L42 , L43 e l é a
matriz 3 × 3 dada por  
L11 L12 L13
l :=  L21 L22 L23  .
L31 L32 L33

Vamos agora considerar duas matrizes Ra e Rb pertencentes a SRot, ou seja,


   
0 0
 ra 0   rb 0 
   
Ra :=   , R :=  0 
0  b  ,
   
0 0 0 1 0 0 0 1

com ra e rb matrizes 3 × 3 pertencentes a SO(3). Precisamos estudar a forma da matriz Ra LRbT . A


regra de produto de matrizes nos diz que
 
 Ra l ra a 
 
 
Ra L =  , (10.A.2)
 
 
bT L44
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 653/1195

e que, conseqüentemente,  
 ra lrb ra a 
 
 
Ra LRbT =  . (10.A.3)
 
 
(rb b)T L44

E. 10.93 Exercı́cio importante. Verifique essas afirmações. Se você não conseguir procure ajuda, pois
não será possı́vel entender o que segue. A maneira pedestre de provar (10.A.2) é escrever explicitamente R a
e L como matrizes 4 × 4, fazer o produto de ambas e então constatar a validade de (10.A.2). Para (10.A.3)
proceda de modo análogo. 6

As expressões acima são válidas de modo bastante geral, para quaisquer que sejam as matrizes de
rotação ra e rb . Vamos agora, porém, considerar matrizes de rotação ra e rb particulares. Escolhemos
ra da forma ra = sa ta , onde ta ∈ SO(3) é a matriz de rotação que roda o vetor a de modo que apenas
a primeira componente do vetor resultante seja não nula:
 
α
a
t a =  0 . (10.A.4)
0

A matriz sa ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa
o vetor 10 invariante. sa é da forma
0

   
1 0 0 1 0 0
a  a a   
s = 0 s22 s23 =:  0 a0 , (10.A.5)
0 sa32 sa33 s
0

com  
a0 sa22 sa23
s := ∈ SO(2).
sa32 sa33
Assim, temos também 
α
s a ta a =  0  .
0
Analogamente, escolhemos rb da forma rb = sb tb , onde tb ∈ SO(3) é a matriz de rotação que roda o
vetor b de modo que apenas a primeira componente do vetor resultante seja não nula:
 
β
b
tb =  0 . (10.A.6)
0

A matriz sb ∈ SO(3), por sua vez, é uma matriz de rotação em torno do eixo 1, e que, portanto, deixa
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 654/1195

 
1
o vetor 0 invariante. sb é da forma
0

   
1 0 0 1 0 0
 
s =  0 s22 s23  =:  0
b a a
b0 , (10.A.7)
0 sa32 sa33 s
0

com  
b0 sb22 sb23
s := ∈ SO(2).
sb32 sb33
Pela definição de sb acima, também temos
 
β
s b tb b =  0  .
0

Daqui por diante as matrizes ta e tb estarão fixas. As matrizes sa e sb são ainda arbitrárias, mas serão
fixadas mais adiante.
Com essas escolhas temos agora
 
α
 sa lt (sb )T 0 
 
Ra LRbT = 
 0 ,
 (10.A.8)
 
β 0 0 L44

onde lt := ta l(tb )T .
A matriz L0 = Ra LRbT é certamente um elemento do grupo de Lorentz O(3, 1), pois Ra , L e RbT o
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 655/1195

são. Assim, L0 satisfaz L0 η(L0 )T η = . Calculemos o lado esquerdo dessa igualdade:


    
α 0 β 0
 sa l (sb )T 0   0   sb lT (sa )T 0   0 
 t     t   
L0 η(L0 )T η =  0 
 0 
 0 
 0 

    
β 0 0 L44 0 0 0 −1 α 0 0 L44 0 0 0 −1
   
α 0 −β
 sa lt (sb )T 0  0  sb ltT (sa )T 0 
   
= 
 0 
 0 
 0 

   
β 0 0 L44 0 0 0 −1 α 0 0 −L44
  
α −β
 sa lt (sb )T 0  sb ltT (sa )T 0 
  
= 
 0 
 0 

  
β 0 0 L44 −α 0 0 L44
 
 f g 
 
 
=  ,
 
 
−g T L244 − β 2

onde  
−α2 0 0
f = sa lt (lt )T (sa )T +  0 0 0 
0 0 0
e   
1 1
b T  
a
g = −βs lt (s ) 0 + L44 α 0  .

0 0

E. 10.94 Exercı́cio importante. Verifique as expressões acima. Sugestão: exerça a virtude da Paciência.
6

Como mencionamos, L0 η(L0 )T η = . Portanto, devemos ter

f = , (10.A.9)

g = 0 e (10.A.10)

L244 − β 2 = 1 (10.A.11)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 656/1195

(por que?). Logo,  


1 + α2 0 0
sa lt (lt )T (sa )T =  0 1 0 , (10.A.12)
0 0 1
   
1 1
b T  
a
βs lt (s ) 0 = L44 α 0  .
 (10.A.13)
0 0
Devido à forma de sa e sb em (10.A.5) e (10.A.7) essas relações implicam
 
1 + α2 0 0
lt (lt )T =  0 1 0 , (10.A.14)
0 0 1
   
1 1
βlt  0  = L44 α 0  .
 (10.A.15)
0 0

E. 10.95 Exercı́cio. Certo? 6

Das relações acima extrairemos várias conclusões sobre a estrutura do grupo de Lorentz. A primeira
é a seguinte proposição:
Proposição 10.21 Para qualquer transformação de Lorentz L vale

L244 − β 2 = 1, (10.A.16)

L244 − α2 = 1 (10.A.17)

e, conseqüentemente,
α2 = β 2 . (10.A.18)
Fora isso,
a2 = α 2 = β 2 = b 2 ,
onde a2 e b2 são os módulos ao quadrado dos vetores a e b, respectivamente, ou seja,

a2 = (L14 )2 + (L24 )2 + (L34 )2 e b2 = (L41 )2 + (L42 )2 + (L43 )2 .

Portanto,
L244 = 1 + (L14 )2 + (L24 )2 + (L34 )2 = 1 + (L41 )2 + (L42 )2 + (L43 )2 .
2

Prova. (10.A.16) é o mesmo que (10.A.11). Para provar (10.A.17), notemos que, pela Proposição 10.14,
LT é também uma transformação de Lorentz. Logo, para LT a relação (10.A.16) significa L244 − α2 = 1,
pois ao passarmos de L para LT o elemento L44 não muda, mas ocorre a troca α ↔ β. (10.A.18) segue
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 657/1195

 
de (10.A.16) e (10.A.17). Para provar que a2 = α2 , notemos que, por (10.A.4), o vetor α0 é obtido
0
de a por uma rotação ta ∈ SO(3), que não altera o comprimento de vetores. De modo análogo prova-se
que b2 = β 2 .

Segue dessa proposição que, para prosseguirmos, teremos que considerar dois casos: o caso α = β =
0 e o caso em que α 6= 0 e β 6= 0.
Caso α = β = 0
Como comentamos, nesse caso temos a = b = 0. Podemos adotar sa = sb = ta = tb = e, portanto,
L é simplesmente da forma  
0
 l 0 
 
L =   0  .
 
0 0 0 L44
Com α = 0 e sa = sb = ta = tb = , a relação (10.A.14) reduz-se a ll T = , ou seja, l ∈ O(3). Como
det(L) = ±1 e det(l) = ±1 há quatro situações a considerar:
Ia. det(L) = 1 e det(l) = 1.
Nessa situação tem-se l ∈ SO(3) e L44 = 1. Portanto, L ∈ SRot.
Ib. det(L) = 1 e det(l) = −1.
Nessa situação l ∈ O(3) mas l 6∈ SO(3) e L44 = −1. Assim L é da forma L = P1 T R com R ∈ SRot.
(Justifique).
IIa. det(L) = −1 e det(l) = 1.
Nessa situação l ∈ SO(3) e L44 = −1. Assim L é da forma L = T R com R ∈ SRot. (Justifique).
IIb. det(L) = −1 e det(l) = −1.
Nessa situação l ∈ O(3) mas l 6∈ SO(3) e L44 = 1. Assim L é da forma L = P1 R com R ∈ SRot.
(Justifique).
Resumindo, vimos para o caso a = b = 0 que nas quatro situações possı́veis L consiste apenas
de uma simples rotação, seguida eventualmente de uma inversão de paridade (Ib e IIb) e/ou de uma
reversão temporal (Ib e IIa.). Como veremos, o caso α 6= 0 e β 6= 0 envolve também um “boost de
Lorentz”, ou seja, uma mudança de entre dois sistemas de referência inerciais com uma velocidade
relativa eventualmente não-nula.
Caso α 6= 0 e β 6= 0
Como β 6= 0, (10.A.15) pode ser escrita como
   
1 1
  L44 α  
lt 0 = 0 , (10.A.19)
β
0 0
 
ou seja, 10 é um autovetor de lt com autovalor ω := L44 α
. De (10.A.19) podemos extrair uma
0  β
informação importante sobre a forma da matriz lt . Como 10 é um vetor da base canônica de 3 , a 

0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 658/1195

matriz lt deve ser da forma


 
 
ω (lt )12 (lt )13 ω φT
 
lt =  0 (lt )22 (lt )23  = 
 0
,

0 (lt )32 (lt )33 lt0
0
   
(lt )12 (lt )22 (lt )23
onde φ é o vetor coluna φ = e lt0 é a matriz 2 × 2 dada por lt0 := .
(lt )13 (lt )32 (lt )33
E. 10.96 Exercı́cio. Por quê? 6

Ocorre que também vale que φ = 0. Para ver isso, notemos que (10.A.14) diz-nos que
    
ω φT ω 0 0 1 + α 2
0 0
  
lt (lt )T = 
 0

  =  0 1 0 ,
lt0 φ 0
lt 0 0 1
0

ou seja,    
ω 2 + φT φ (lt0 φ)T 1 + α2 0 0
 
  =  0 1 0 .
lt0 φ lt0 (lt0 )T 0 0 1
Logo,
lt0 (lt0 )T = , (10.A.20)
lt0 φ = 0 (10.A.21)
e
ω 2 + φT φ = 1 + α 2 . (10.A.22)
Agora, (10.A.20) afirma que lt0 é uma matriz ortogonal e (lt0 )−1 = (lt0 )T . Aplicando, portanto, (lt0 )−1 à
esquerda em (10.A.21) segue que φ = 0. Chegamos assim à conclusão que
   
ω 0 0 ω 0 0
lt =  0 (lt )22 (lt )23  =  0 ,
0 (lt )32 (lt )33 lt0
0

com ω 2 = 1 + α2 (por (10.A.22)). Segue daı́ que


 
ω 0 0
 
sa lt (sb )T =  0 0 ,
sa0 lt0 (sb )T
0
0
(sa0 e sb estão definidos em (10.A.5) e (10.A.7)). Neste momento vamos fixar sa e sb , adotando
0 0
sa0 = sb (lt0 )−1 = sb (lt0 )T .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 659/1195

Com isso, obviamente


0
sa0 lt0 (sb )T = .
Logo,  
ω 0 0
sa lt (sb )T =  0 1 0 .
0 0 1

Retornando a (10.A.8)  
ω 0 0 α
 0 1 0 0 
Ra LRbT = 
 0
 (10.A.23)
0 1 0 
β 0 0 L44
onde, recordando,
L44 α
ω = e ω 2 = 1 + α2 . (10.A.24)
β
Resta-nos mostrar que a matriz do lado direito de (10.A.23) tem a forma de um boost de Lorentz,
acompanhado eventualmente de uma operação de troca de paridade e/ou reversão temporal. É o que
faremos agora.
Como Ra LRbT é um elemento do grupo de Lorentz O(3, 1), tem-se que det(Ra LRbT ) = ±1. Calcu-
lando o determinante da matriz do lado direito (10.A.23) tem-se então

ωL44 − αβ = ±1.

Multiplicando-se por α/β teremos


L44 α α
ω − α2 = ± ,
β β
ou seja,
α
ω 2 − α2 = ± .
β
Pela segunda equação em (10.A.24) isso implica

β = ±α e L44 = ±ω,

os dois sinais ± acima sendo iguais ao sinal de det(Ra LRbT ). ω, porém, é dado por ± 1 + α2 ( por
(10.A.24)), mas a escolha do sinal dessa raiz quadrada é independente do sinal de det(R a LRbT ). Há,
portanto, quatro situações possı́veis que deveremos considerar separadamente:

Ia. Escolhendo det(Ra LRbT ) = +1 e ω = + 1 + α2 , (10.A.23) fica
 √ 
1 + α2 0 0 α
 0 1 0 0 
L = (Ra )T  
 Rb .
 (10.A.25)
0 0 1 √ 0
α 0 0 1 + α2

Ra e Rb são elementos de SRot ' SO(3), temos det(Ra ) = det(Rb ) = 1. Logo, neste caso temos
det(L) = 1. Fora isso L44 ≥ 1.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 660/1195

É conveniente escrever (10.A.25) de outra forma. Como α é um número real arbitrário, vamos
definir v ∈ (−1, 1) por
α v
v := − √ , de modo que α = −√ . (10.A.26)
1 + α2 1 − v2
Teremos  √   
1 + α2 0 0 α γ(v) 0 0 −vγ(v)
 0 1 0 0   0 1 0 0 
  =   =: B1 (v),
 0 0 1 √ 0   0 0 1 0 
α 0 0 1+α 2 −vγ(v) 0 0 γ(v)
onde
1
γ(v) := √ .
1 − v2
Como se vê, chegamos dessa forma aos boosts de Lorentz B1 (v) utilizando apenas as propriedades
definidoras do grupo de Lorentz. Compare com o estudo do grupo O(1, 1), página 586.
Com essa parametrização, (10.A.25) fica

L = (Ra )T B1 (v)Rb , (10.A.27)

para Ra , Rb ∈ SRot.

Ib. Escolhendo det(Ra LRbT ) = +1 e ω = − 1 + α2 , (10.A.23) fica
 √ 
− 1 + α2 0 0 α
 0 1 0 0 
Ra LRbT = 
.
 (10.A.28)
0 0 1 √ 0
α 0 0 − 1+α 2

Logo, usando-se as matrizes P1 e T definidas em (10.74) e (10.75), segue


 √ 
1 + α2 0 0 α
 0 1 0 0 
P1 Ra LRbT T = 
,
 (10.A.29)
0 0 1 √ 0
α 0 0 1 + α2

como facilmente se verifica. Daı́, lembrando que T e Rb comutam (por que?), concluı́-se que nesse caso
temos  √ 
1 + α2 0 0 α
 0 1 0 0 
L = (P1 Ra )T 
 Rb T.
 (10.A.30)
0 0 1 √ 0
α 0 0 1 + α2
Assim, com a parametrização (10.A.26),

L = (P1 Ra )T B1 (v)Rb T, (10.A.31)

para Ra , Rb ∈ SRot.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 661/1195

Por fim, note-se que neste caso temos det(L) = 1 com L44 ≤ −1 (por que?).

IIa. Escolhendo det(Ra LRbT ) = −1 e ω = + 1 + α2 , (10.A.23) fica
 √ 
1 + α2 0 0 α
 0 1 0 0 
Ra LRbT = 
.
 (10.A.32)
0 0 1 √ 0
−α 0 0 − 1 + α2

Assim,  √ 
1 + α2 0 0 α
 0 1 0 0 
T Ra LRbT = 

,
 (10.A.33)
0 0 1 √ 0
α 0 0 1 + α2
como facilmente se verifica. Nesse caso, então,
 √ 
1 + α2 0 0 α
 0 1 0 0 
L = T (Ra )T 
 Rb .
 (10.A.34)
0 0 1 √ 0
α 0 0 1+α 2

Assim, com a parametrização (10.A.26),

L = T (Ra )T B1 (v)Rb , (10.A.35)

para Ra , Rb ∈ SRot.
Por fim, note-se que neste caso temos det(L) = −1 com L44 ≤ −1 (por que?).

IIb. Escolhendo det(Ra LRbT ) = −1 e ω = − 1 + α2 , (10.A.23) fica
 √ 
− 1 + α2 0 0 α
 0 1 0 0 
Ra LRbT = 
.
 (10.A.36)
0 0 1 √ 0
−α 0 0 1+α 2

Assim,  √ 
1 + α2 0 0 α
 0 1 0 0 
Ra LRbT P1 = 

,
 (10.A.37)
0 0 1 √ 0
α 0 0 1+α 2

como facilmente se verifica. Nesse caso, então,


 √ 
1 + α2 0 0 α
 0 1 0 0 
L = (Ra )T 
 P1 R b .
 (10.A.38)
0 0 1 √ 0
α 0 0 1 + α2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 662/1195

Assim, com a parametrização (10.A.26),


L = (Ra )T B1 (v)P1 Rb , (10.A.39)
para Ra , Rb ∈ SRot.
Por fim, note-se que neste caso temos det(L) = −1 e L44 ≥ 1 (por que?).
A demonstração do Teorema 10.8 está assim completa.

10.B Um Isomorfismo entre SL( , 2)/{ , − } e L↑+


Esta seção é de autoria de Daniel A. Cortez

Vamos provar que a aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida por


Φ1 (±A) := L[A] (10.B.40)
é um isomorfismo entre os grupos SL( , 2)/{ , − } e L↑+ . Para isso, começaremos resolvendo dois
dos exercı́cios propostos à página 647. O primeiro deles afirma que L[A] = L[B] se e somente se
A = ±B. Isso pode ser visto facilmente a partir da Proposição 10.19. De fato, se L[A] = L[B],
então para qualquer x ∈ 4 , vale que L[A]x = L[B]x. Usando (10.101), resulta M −1 (AM (x)A∗ ) =


M −1 (BM (x)B ∗ ). Portanto, AM (x)A∗ = BM (x)B ∗ e, como M (x) ∈ Herm( , 2) para qualquer x ∈ 4 , 

segue da Proposição 10.19 que A = ±B. Por outro lado, é claro que se A = ±B, então L[A] = L[B],
como se pode constatar, por exemplo, a partir de (10.102). Note que o resultado desse exercı́cio implica
o fato da aplicação Φ1 definida em (10.B.40) ser injetora. Realmente, se Φ1 (A) = Φ1 (B), segue que
L[A] = L[B] e, portanto, A = ±B, que correspondem ao mesmo elemento em SL( , 2)/{ , − }. Dessa
forma, acabamos de estabelecer o seguinte resultado:
Proposição 10.22 A aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida em (10.B.40) é injetora. 2

Passemos agora a mostrar que vale a seguinte regra de composição: L[A]L[B] = L[A][B] para
quaisquer matrizes A, B, ∈ SL( , 2). De fato, para qualquer x ∈ 4 , usando (10.101), temos


L[A]L[B]x = L[A]M −1 (BM (x)B ∗ )


 
= M −1 AM M −1 (BM (x)B ∗ )) A∗

= M −1 ( ABM (x)B ∗ A∗ )

= M −1 ( ABM (x)(AB)∗ )

= L[AB]x . (10.B.41)
Como x é arbitrário, concluı́mos que L[A]L[B] = L[AB]. Desse resultado, segue que Φ 1 (±A)Φ1 (±B) =
Φ1 (±AB), ou seja, que Φ1 é um homomorfismo de SL( , 2)/{ , − } em L↑+ . Como Φ1 é uma aplicação
injetora, vale, em verdade, o seguinte:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 663/1195

Proposição 10.23 A aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida em (10.B.40) é um monomor-


fismo, ou seja, um homomorfismo injetor. 2

Note agora que para provarmos que Φ1 é um isomorfismo entre SL( , 2)/{ , − } e L↑+ , só precisamos
verificar que Φ1 é sobrejetor, isto é, que qualquer transformação de Lorentz do grupo L ↑+ é imagem por
Φ1 de alguma matriz em SL( , 2)/{ , − }. Como qualquer Λ ∈ L↑+ pode ser escrita em termos de uma
composição de rotações e de um boost ao longo da direção 1, só precisamos encontrar as matrizes em
SL( , 2)/{ , − } que correspondem a essas operações em L↑+ . De fato, seja Λ ∈ L↑+ , então, de acordo
com o Teorema 10.8, Λ é da forma RaT B1 Rb , onde Ra , Rb ∈ SRot e B1 é um boost apropriado ao longo
da direção 1. Se ±b1 ∈ SL( , 2)/{ , − } for tal que Φ1 [±b1 ] = B1 e ±r ∈ SL( , 2)/{ , − } for tal
que Φ1 [±r] = R, para qualquer R ∈ SRot, então terı́amos

Φ1 [±raT b1 rb ] = Φ1 [±raT ]Φ1 [±b1 ]Φ1 [±rb ] = RaT B1 R = Λ , (10.B.42)

uma vez que Φ1 é um homomorfismo. A relação (10.B.42) mostra que Φ1 é uma aplicação sobrejetora, já
que toda transformação de Lorentz Λ ∈ L↑+ pode ser obtida como imagem de alguma matriz apropriada
de SL( , 2)/{ , − }. Para que o nosso raciocı́nio seja válido, precisamos apenas encontrar as matrizes
±b1 e ±r em SL( , 2)/{ , − } com as propriedades mencionadas acima, ou seja, tais que Φ1 [±b1 ] =
L[b1 ] = B1 e que Φ1 [±r] = L[r] = R, para qualquer R ∈ SRot. Vamos fazer isso nos parágrafos
seguintes.
Em primeiro lugar, escrevemos v = tanh z em B1 (v), de maneira que
 
cosh z 0 0 − senh z
 0 1 0 0 
B1 (z) = B1 (tanh z) = 
.
 (10.B.43)
0 0 1 0
− senh z 0 0 cosh z

As matrizes de SRot, por sua vez, podem ser escritas como


 
0
 ~
0 
 eθ~η·J 
 0 
Rη~ (θ) =   ∈ SRot , (10.B.44)
 
0 0 0 1

com θ ∈ [−π, π] e ~η ∈ 3 tal que k~ηk = 1. Acima, J~ = (J1 , J2 , J3 ) são os geradores do grupo de


rotações SO(3). Com as observações acima, provaremos o seguinte resultado:


3
Proposição 10.24 Sejam z ∈  , θ ∈ [−π, π], ~η ∈  tal que |~η | = 1 e ~σ = (σ1 , σ2 , σ3 ) as três matrizes
de Pauli. Então,
 z 
(a) L e− 2 σ1 = B1 (z);
h θ i
(b) L e−i 2 η~·~σ = Rη~ (θ). 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 664/1195

z
Prova. Demonstraremos primeiramente (a). Observe que e− 2 σ1 pertence à SL( , 2) uma vez que

SL( , 2) = { exp (z~η · ~σ ) , onde z ∈ e ~η ∈ 3 com η12 + η22 + η32 = 1 } . (10.B.45)


 z 
Dessa forma L e− 2 σ1 está bem definido e podemos usar (10.102) para computar explicitamente seus
elementos de matriz. Esse cálculo será facilitado com o auxı́lio do seguinte
Lema 10.1 Sejam σ1 , σ2 , σ3 as três matrizes de Pauli. Então,

(a) Tr (σk σ` ) = 2δk` , onde δk` é o delta de Krönecker44 ;

(b) Tr (σj σk σ` ) = 2ijk` , onde jk` é o sı́mbolo totalmente anti-simétrico de Levi-Civita;

(c) Tr (σi σk σj σ` ) = 2δi` δkj − 2δij δk` + 2δik δj` . 2

Prova do lema. A demonstração consiste em usar repetidamente os fatos de que o traço de qualquer
matriz de Pauli é nulo (isto é, Tr σj = 0, j = 1, 2, 3) e que

σk σ` = δk` + ik`j σj ,

onde a convenção de soma implı́cita em ı́ndices repetidos foi usada. Assim, para provar (a), temos

Tr (σk σ` ) = Tr (δk` + ik`j σj )

= δk` Tr

= 2δk` .

Para provar (b), usamos o resultado acima e os fatos já mencionados. Conseqüentemente,

Tr (σj σk σ` ) = Tr [ σj (δk` + ik`m σm ) ]

= ik`m Tr (σj σm )

= 2ik`m δjm

= 2ik`j = 2ijk` .
44
Leopold Krönecker (1823-1891).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 665/1195

Finalmente, para provar (c), usamos novamente (a). Com efeito,

Tr (σi σk σj σ` ) = Tr [ (δik + iikm σm )(δj` + ij`n σn ) ]

= δik δj` Tr − ikm j`n Tr (σm σn )

= 2δik δj` − 2ikm j`n δmn

= 2δik δj` − 2ikm j`m .

Aplicando a bem conhecida identidade

ikm j`m = δij δk` − δi` δkj ,

obtemos
Tr (σi σk σj σ` ) = 2δik δj` − 2δij δk` + 2δi` δkj ,
completando a prova do lema.

Retornemos agora à prova do item (a) da Proposição 10.24. Como é bem sabido, podemos escrever
z z z
e− 2 σ1 = cosh − σ1 senh . (10.B.46)
2 2
 z 
Para calcular os elementos de matriz L e− 2 σ1 µν , com µ, ν = 1, 2, 3, 4, usamos a relação (10.102),
lembrando que σ4 ≡ . Assim, com o auxı́lio de (10.B.46), temos
 − z σ1  1 h z z z z ∗ i
L e 2
44
= Tr cosh − σ1 senh cosh − σ1 senh
2 2 2 2 2
1  z z z z 
= Tr cosh2 − 2 cosh senh σ1 + senh 2 σ12
2 2 2 2 2
1 2 z 2z

= cosh + senh Tr
2 2 2
z z
= cosh2 + senh 2 = cosh z , (10.B.47)
2 2
 z 
onde usamos que σ12 = , Tr σ1 = 0 e cosh2 x + senh 2 x = cosh 2x. Calculemos agora L e− 2 σ1 4j com
j = 1, 2, 3. Usando (10.102) e (10.B.46), obtemos
 z  1 h z z  z z ∗ i
L e− 2 σ1 4j = Tr cosh − σ1 senh σj cosh − σ1 senh
2 2 2 2 2
1  z z z z z 
= Tr − cosh senh σj σ1 − senh cosh σ1 σj + senh 2 σ1 σj σ1 .
2 2 2 2 2 2
Aplicando o Lema 10.1, resulta imediatamente que
 z  z z
L e− 2 σ1 4j = −2δj1 cosh senh = −δj1 senh z , (10.B.48)
2 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 666/1195

 z 
onde a identidade 2 senh (x) cosh(x) = senh (2x) foi usada. O cálculo de L e− 2 σ1 j4 , j = 1, 2, 3 é feito
de forma semelhante. Explicitamente,
 z  1 h  z z z z ∗ i
L e− 2 σ1 j4 = Tr σj cosh − σ1 senh cosh − σ1 senh
2 2 2 2 2
1 h  2 z 2z
 z z i
= Tr σj cosh + senh − 2 cosh senh σj σ1
2 2 2 2 2
z z
= −2δj1 cosh senh = −δj1 senh z . (10.B.49)
2 2
Observe
 − que  novamente utilizamos o Lema 10.1 para o cálculo do traço. Resta, finalmente, o cômputo
z
σ
de L e 2 ij , com i, j = 1, 2, 3. Esse também pode ser feito de forma simples com o auxı́lio do
1

Lema 10.1. De fato,


 z  1 h  z z  z z ∗ i
L e− 2 σ1 ij = Tr σi cosh − σ1 senh σj cosh − σ1 senh
2 2 2 2 2
  
1   z z z z 
= Tr σi cosh2 σj − cosh senh (σj σ1 + σ1 σj ) + senh 2 σ1 σj σ1 
2 2 2 2| {z } 2
2δj1

1 z 1 z
= cosh2 Tr (σi σj ) + senh 2 Tr (σi σ1 σj σ1 )
2 2 2 2| {z }
4δ1i δ1j −2δij

z z
= δij cosh2 + senh 2 (2δ1i δ1j − δij )
2 2
z
= δij + 2δ1i δ1j senh 2 , (10.B.50)
2
onde a identidade fundamental cosh2 x − senh 2 x = 1 foi utilizada na última igualdade. Observe da
relação acima que quando i = j = 1, obtém-se
 z  z
L e− 2 σ1 11 = 1 + 2 senh 2
2
 z z z
= cosh2 − senh 2 + 2 senh 2
2 2 2
z z
= cosh2 + senh 2 = cosh z , (10.B.51)
2 2
 z 
caso contrário, L e− 2 σ1 ij = δij .
Usando −asz σ expressões
 (10.B.47)-(10.B.51), podemos escrever explicitamente a forma completa da
matriz L e 2 1
µν
para µ, ν = 1, 2, 3, 4. Não é difı́cil constar (faça!) que
 
cosh z 0 0 − senh z
 z   0 1 0 0 
L e− 2 σ1 µν =  
.

0 0 1 0
− senh z 0 0 cosh z
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 667/1195

 z 
Comparando com (10.B.43), vemos que L e− 2 σ1 = B1 (z), provando o item (a) da proposição.
A prova da segunda parte da proposição segue, essencialmente, a mesma idéia da primeira, embora
−i θ2 η
~·~
σ
seja um pouco mais htrabalhosa.i Em primeiro lugar, observamos que e ∈ SL( , 2) em virtude de
θ
(10.B.45). Assim, L e−i 2 η~·~σ está bem definida e podemos calcular seus elementos de matriz usando a
θ
fórmula (10.102). Antes disso, porém, é conveniente expressarmos e−i 2 η~·~σ usando a identidade
θ θ θ
e−i 2 η~·~σ = cos − i~η · ~σ sen .
2 2
Assim, de acordo com (10.102), lembrando sempre que σ4 ≡ , temos
h θ i   ∗ 
−i 2 η
~·~
σ 1 θ θ θ θ
L e = Tr cos − i~η · ~σ sen cos − i~η · ~σ sen
44 2 2 2 2 2
 
1 2 θ 2 2θ
= Tr cos + (~η · ~σ ) sen .
2 2 2
Escrevendo ~η · ~σ = ηj σj e usando o Lema 10.1, resulta
h θ i 1 θ 1 θ
L e−i 2 η~·~σ = cos2 Tr + sen 2 ηk ηj Tr σk σj
44 2 2 2 2
θ θ
= cos2 + sen 2 ηk ηj δkj
2 2
θ θ
= cos2 + sen 2 ηk ηk = 1 , (10.B.52)
2 2
h θ i
uma vez que ηk ηk = ~η 2 = 1. Prosseguindo, devemos agora calcular os elementos de matriz L e−i 2 η~·~σ ,
4j
com j = 1, 2, 3. Como sempre, o cálculo é feito com base na expressão (10.102) e com o auxı́lio do
Lema 10.1. Assim,
h θ i    ∗ 
−i 2 η
~ ·~
σ 1 θ θ θ θ
L e = Tr cos − iηk σk sen σj cos − iη` σ` sen
4j 2 2 2 2 2

1 θ θ 1 θ θ
= i cos sen η` Tr (σj σ` ) − i cos sen ηk Tr (σk σj )
2 2 2 | {z } 2 2 2 | {z }
2δj` 2δkj

1 θ
+ sen 2 ηk η` Tr (σk σj σ` )
2 2 | {z }
2ikj`

θ θ θ θ θ
= i cos sen ηj − i cos sen ηj + i sen 2 ηk η` kj` = 0 , (10.B.53)
2 2 2 2 2
h θ i
uma vez que ηk η` é simétrico pela troca de k com ` e kj` é anti-simétrico. O cálculo de L e−i 2 η~·~σ
j4
é bastante análogo ao realizado acima e é deixado como exercı́cio para o leitor. O resultado obtido
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 668/1195

deverá ser h θ i
L e−i 2 η~·~σ = 0, (10.B.54)
j4
h θ i
assim como em (10.B.53). Resta, finalmente, calcularmos os elementos de matriz L e−i 2 η~·~σ para
ij
i, j = 1, 2, 3. Isso é feito de forma usual, a partir da expressão (10.102) e dos resultados do Lema 10.1.
Temos,
h θ i     ∗ 
−i 2 η
~·~
σ 1 θ θ θ θ
L e = Tr σi cos − iηk σk sen σj cos − iη` σ` sen
ij 2 2 2 2 2

1 θ i θ θ i θ θ
= cos2 Tr (σi σj ) + cos sen η` Tr (σi σj σ` ) − cos sen ηk Tr (σi σk σj )
2 2 | {z } 2 2 2 | {z } 2 2 2 | {z }
2δij 2iij` 2iikj

1 θ
+ sen 2 ηk η` Tr (σi σk σj σ` )
2 2 | {z }
2(δi` δkj −δij δk` +δik δj` )

θ θ θ θ
= cos2 δij − 2 cos sen η` ij` + sen 2 ηk η` (δi` δkj − δij δk` + δik δj` ) .
2 2 2 2
Usando no último termo que ηk η` δk` = ηk ηk = ~η 2 = 1 e que 2 sen x cos x = sen 2x; cos2 x − sen 2 x =
cos 2x, resulta
h θ i θ
L e−i 2 η~·~σ = δij cos θ − η` ij` sen θ + 2ηi ηj sen 2 .
ij 2
Observando ainda que 2 sen 2 x = 1 − cos 2x, ficamos com
h θ i
L e−i 2 η~·~σ = δij cos θ − η` ij` sen θ + ηi ηj (1 − cos θ) . (10.B.55)
ij

As expressões (10.B.52)-(10.B.55) devem ser diretamente comparadas com (10.B.44). Notamos que
todos os elementos da quarta linha e da quarta coluna são coincidentes. Resta saber se a expressão
(10.B.55) obtida acima é equivalente à (10.B.44) para as demais linhas e colunas. Isso pode ser verificado
calculando os elementos ij da matriz Rη~ (θ). Para tanto, usamos a identidade dada na Proposição 10.5
à página 593. Assim,
    2  
η ·J~
Rη~ (θ)ij = e θ~
= + (1 − cos θ) ~η · J~ + sen θ ~η · J~
ij ij

 2   
= δij + (1 − cos θ) ~
~η · J ~
+ sen θ ~η · J . (10.B.56)
ij ij

Agora, conforme visto em (10.41), página 593, tem-se


 
~η · J~ = −ijk ηk . (10.B.57)
ij
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 10 669/1195

Portanto,
 2     
~
~η · J = ~η · J~ η~ · J~
ij ik kj

= ik` η` kjm ηm = (δim δ`j − δij δ`m )η` ηm

= ηi ηj − δij η` η` = ηi ηj − δij , (10.B.58)

já que |~η | = 1. Inserindo (10.B.57) e (10.B.58) em (10.B.56), resulta

Rη~ (θ)ij = δij + (1 − cos θ)(ηi ηj − δij ) − sen θ(ijk ηk )

= δij cos θ − ijk ηk sen θ + ηi ηj (1 − cos θ) ,

que é justamente (10.B.55). Isso completa a demonstração do item (b) da proposição.

Conforme discutido nos parágrafos que precedem a Proposição 10.24, a existência de matrizes
±b1 e ±r em SL( , 2)/{ , − } tais que Φ1 [±b1 ] = B1 e Φ1 [±r] = R, para qualquer R ∈ SRot, é
suficiente para garantir que a aplicação Φ1 seja sobrejetora em L↑+ . Ocorre que a Proposição 10.24 nos
z θ
diz justamente que as matrizes procuradas em SL( , 2)/{ , − } são b1 = e− 2 σ1 e r = e−i 2 η~·σ , com
θ ∈ [−π, π] e ~η ∈ 3 tal que k~η k = 1. Dessa forma, para qualquer transformação de Lorentz Λ ∈ L ↑+ , a


relação (10.B.42) pode ser sempre satisfeita, evidenciando o fato de que Φ 1 é sobrejetora. Juntando à
essa conclusão o resultado da Proposição 10.23, temos demonstrado o seguinte teorema fundamental:
Teorema 10.10 A aplicação Φ1 : SL( , 2)/{ , − } → L↑+ definida em (10.B.40) é um isomorfismo,
ou seja, SL( , 2)/{ , − } ∼ ↑
= Φ1 L+ . 2
Capı́tulo 11
Grupos de Lie e Álgebras de Lie. Uma Breve
Introdução
Conteúdo
11.1 Variedades e Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . 671
11.2 Breves Considerações sobre Grupos Topológicos . . . . . . . . . . . . . . . 673
11.3 Grupos de Lie Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676
11.3.1 Uma Topologia Métrica em GL( , n) . . . . . . . . . . . . . . . . . . . . . . 676
11.3.2 O Grupo de Lie GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677
11.3.3 Sub-Grupos Uniparamétricos e seus Geradores . . . . . . . . . . . . . . . . . 680
11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie . . . . . . . . . . . . . . . . . 683
11.3.5 Subgrupos Fechados de GL( , n) . . . . . . . . . . . . . . . . . . . . . . . . . 688
11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras de Lie . . . . 692
11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples . . . . . . . . . 693
11.4.2 Questões sobre a Exponenciação de Álgebras de Lie . . . . . . . . . . . . . . 697
11.4.3 Alguns Exemplos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 700

ste capı́tulo tenciona ser uma modesta introdução ao estudo de grupos de Lie. Com particular
destaque discutiremos grupos de Lie matriciais. Algumas observações prévias são necessárias.
Para a discussão do conceito geral de grupo de Lie são indispensáveis algumas noções básicas
sobre espaços topológicos mas, de importância especial é a noção de variedade diferenciável.
Esse importante conceito, proveniente da geometria, desempenha um papel importante em várias áreas
de Fı́sica, tais como a Teoria da Relatividade Geral e as Teorias de Calibre. O conceito de variedade
diferenciável nasceu inspirado na noção mais familiar de superfı́cie em espaços n e não se desvincula


totalmente daquela. Não pressuporemos da parte do leitor conhecimento prévio do conceito de vari-
edade diferenciável e, por isso, vamos introduzı́-lo adiante. Não iremos, no entanto, desenvolver esse
assunto em detalhe e, para tal, remetemos o estudante aos (inúmeros) bons livros sobre Geometria
Diferencial, por exemplo [94].
Iremos nos concentrar em exemplificar o conceito de grupo de Lie tratando primordialmente de
grupos de Lie matriciais. Isso simplifica um pouco o tratamento e reduz um tanto o escopo destas notas
introdutórias. No entanto, a grande maioria dos grupos de Lie de interesse (especialmente em Fı́sica)
é formada por grupos de Lie matriciais. Para o tratamento de grupos de Lie matriciais discutiremos
com certo detalhe aspectos algébricos e topológicos de grupos de matrizes.
Mais de 100 anos de pesquisa intensa nos separam dos primórdios do estudo dos grupos e álgebras
de Lie e nossas pretensões aqui são a de uma modesta introdução a esse vastı́ssimo assunto. Para
tratamentos gerais e abrangentes de grupos de Lie recomendamos as referências [97], [93], [18], [71],
[124], [61] ou [114], . Para álgebras de Lie, recomendamos [67] e [110].

670
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 671/1195

Vários grupos de Lie são importantes na Fı́sica e seu tratamento é particularmente importante na
Mecânica Quântica e nas Teorias Quânticas de Campos. Exemplos de grupos de Lie importantes para
a Fı́sica são discutidos com certo detalhe no Capı́tulo 10, tais como os grupos SO(3), SU(2) e o grupo
de Lorentz.

11.1 Variedades e Grupos de Lie

• Variedades Diferenciáveis

Uma variedade diferenciável real de dimensão n é um espaço topológico Hausdorff V dotado de uma
famı́lia de abertos F = {Uα , α ∈ Λ} com as seguintes propriedades:
S
1. V = α∈Λ Uα .
n
2. Para cada Uα ∈ F existe um conjunto aberto Cα de  e uma bijeção contı́nua com inversa
contı́nua φα : Uα → Cα .

3. Para todo par Uα , Uβ ∈ F com Uα ∩ Uβ 6= ∅ a função

φα ◦ φ−1
β : φβ (Uα ∩ Uβ ) → φα (Uα ∩ Uβ )

n n
é infinitamente diferenciável como função de (um sub-conjunto de)  em  .

Uma variedade analı́tica complexa de dimensão n é definida analogamente, substituindo-se n por 

n
e substituindo-se a condição de diferenciabilidade infinita do item 3, acima, por analiticidade.

Observação 1. Acima, Λ é apenas um conjunto de ı́ndices usados para rotular os elementos de F


e não tem nenhum papel especial. Λ pode ser finito ou não, contável ou não.

Observação 2. As funções φα ◦ φ−1


β de acima são denominadas funções de transição. Em uma
variedade k-diferenciável exige-se apenas que as funções de transição sejam k-vezes diferenciáveis.
Esses objetos têm, porém, interesse relativamente limitado.

Observação 3. Os pares (φα , Uα ) são freqüentemente denominados cartas locais da variedade ou


simplesmente cartas. A coleção das cartas é freqüentemente denominada atlas.

Vamos à interpretação das condições acima. A condição 1 diz apenas que a famı́lia {U α , α ∈ Λ}
é um recobrimento de V , ou seja, todo elemento de V pertence a pelo menos um aberto Uα , podendo
naturalmente ocorrer que alguns pontos de V pertençam a vários elementos da famı́lia F, ou seja, os
elementos de F podem ter intersecções não-vazias. A condição 2 é importante e diz que os elementos
de cada Uα podem ser rotulados (univocamente) por uma n-upla de números reais (ou complexos).
Ou seja, podemos dotar cada Uα de um sistema de coordenadas. Note que esses sistemas podem ser
diferentes para Uα ’s diferentes. Como dissemos, pontos de V podem pertencer a vários Uα ’s e, portanto,
podem ter a si atribuı́das coordenadas diferentes, uma para cada Uα ao qual pertence. Assim, os pontos
de Uα ∩ Uβ têm a si atribuı́dos pelo menos dois sistemas de coordenadas: as coordenadas Cα de Uα e as
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 672/1195

coordenadas Cβ de Uβ . A condição 3 diz-nos como esses sistemas de coordenadas devem relacionar-se,


a saber, o que se deseja é que a passagem das coordenadas Cβ para as coordenadas Cα , a qual é definida
pela função φα ◦ φ−1
β , seja infinitamente diferenciável (ou analı́tica).

Como mencionamos, a conceito de variedade foi inspirado na noção de superfı́cie em conjuntos como
n
 e n . Sem entrarmos em detalhes técnicos, toda superfı́cie em n convenientemente definida (tais


como a superfı́cie da esfera e o toro, em 3 ) é uma variedade, ou seja, tem um sistema de coordenadas


local. Isso pode ser garantido, por exemplo, pelo conhecido teorema da função implı́cita da análise
real. Note-se porém que variedades não são apenas conjuntos de pontos, como as superfı́cies de n o 

são, podendo ser também conjuntos de outros tipos de objetos, como funções, curvas, vetores, matrizes
etc. A idéia intuitiva básica em torno da noção de variedade é que a mesma representa uma coleção
contı́nua de objetos que podem ser rotulados por sistemas de coordenadas e de tal forma que possamos,
ao menos localmente, manipular essas coordenadas de modo (infinitamente) diferenciável, como se faz
em n . 

 a b

E. 11.1 Exercı́cio. Mostre que o conjunto de matrizes R = −b a , a, b ∈ com det(R) = 1 é


uma variedade diferenciável de dimensão 1. 6

• Grupos Topológicos

Vamos agora apresentar a definição de grupo topológico, da qual precisaremos para discutir grupos
de Lie.
Seja G um grupo. Para cada g ∈ G podemos definir uma função λg : G → G por λg (h) = gh. Fora
isso tem-se também em G a função inv : G → G definida por inv(h) = h−1 .

Definição. Um grupo G é dito ser um grupo topológico em relação a uma topologia τ definida em G
se nessa topologia a função inv e todas as funções λg forem contı́nuas.

Comentário. Podemos definir também para cada g ∈ G a função µg : G → G por µg (h) = hg, que
representa a multiplicação à direita por g. É fácil de se ver, porém, que µg = inv ◦ λg−1 ◦ inv. Assim,
em um grupo topológico as funções µg são também contı́nuas.

Comentário. Um grupo pode ser topológico em relação a uma topologia mas não em relação a outra.
Veremos exemplos.
Informalmente, um grupo G é topológico se as operações de produto por elementos do grupo e
inversão forem contı́nuas.
Em termos mais precisos um grupo topológico é formado por um grupo G e uma coleção G de
subconjuntos de G, G ⊂ (G), satisfazendo as condições definidoras de um Espaço Topológico (vide
Capı́tulo 15):

1. ∅ ∈ G e G ∈ G,

2. Se A ∈ G e B ∈ G então A ∩ B ∈ G,
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ G para todo λ ∈ I então Aλ também é um
λ∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 673/1195

elemento de G,

e tais que para todo O ∈ G as imagens inversas inv −1 (O) e λ−1


g (O), para todo g ∈ G, são igualmente
elementos de G.
Os elementos de G são ditos ser os conjuntos abertos de G. Como em geral se faz em espaços
topológicos, um conjunto F ⊂ G é dito ser fechado se seu complementar G \ F for aberto.

• Grupos de Lie

Um grupo topológico que, enquanto espaço topológico, seja uma variedade diferenciável (analı́tica)
é dito ser um Grupo de Lie1 real (complexo) se as operações de multiplicação à direita e inversão forem
infinitamente diferenciáveis (analı́ticas).

E. 11.2 Exercı́cio. Verifique que ( , +) (o grupo aditivo dos reais) e ( \{0}, ·) (o grupo multiplicativo
 

dos reais não-negativos) são grupos de Lie reais. 6

 a b

E. 11.3 Exercı́cio. Verifique que R = −b a , a, b ∈  com det(R) = 1 é um grupo de Lie real.
6

Na Seção 11.3.2, página 677, mostraremos com detalhe que GL( , n) é um grupo de Lie. Para
mais exemplos, vide a discussão sobre os grupos SO(3), SU(2) etc. do Capı́tulo 10.

11.2 Breves Considerações sobre Grupos Topológicos


Nesta seção nos limitaremos a apresentar alguns poucos resultados sobre grupos topológicos, dos quais
faremos uso adiante ao tratarmos de grupos de Lie. O estudo de grupos topológicos gerais é bastante
vasto e para um texto clássico recomendamos fortemente [97].
Introduzimos aqui a seguinte notação. Seja G um grupo topológico. Se U é algum subconjunto de
G e g ∈ G definimos
gU = {x ∈ G| x = gu para algum u ∈ G}.
Analogamente,
U g = {x ∈ G| x = ug para algum u ∈ G}.

E. 11.4 Exercı́cio. Se U é um conjunto aberto de G mostre que para todo g ∈ G os conjuntos gU e


U g são também conjuntos abertos de G. 6

• Grupos Topológicos Conexos e Desconexos

1
Marius Sophus Lie (1842-1899). Lie introduziu esse conceito em cerca de 1870 em seus estudos de propriedades de
invariância de equações diferenciais parciais.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 674/1195

Um grupo topológico H é dito ser desconexo se for a união disjunta de dois conjuntos A e B, ambos
não-vazios e ambos simultaneamente abertos e fechados. Ou seja, H = A ∪ B, A ∩ B = ∅ com A 6= ∅,
B 6= ∅, onde A e B são abertos e fechados.
Um grupo topológico H é dito ser conexo se não for desconexo.

• Alguns Fatos sobre Grupos Topológicos

Vamos aqui provar alguns fatos básicos sobre grupos topológicos gerais. Faremos uso da Proposição
11.3 abaixo quando falarmos da relação entre álgebras de Lie matriciais e álgebras de Lie.
Seja H é um grupo topológico e G ⊂ H um subgrupo de H. Dizemos que G é um subgrupo aberto
de H se G for um subconjunto aberto de H. Analogamente, dizemos que G é um subgrupo fechado de
H se G for um subconjunto fechado de H. A seguinte proposição é relevante nesse contexto.
Proposição 11.1 Seja H um grupo topológico e G um subgrupo aberto de H. Então G é igualmente
um subgrupo fechado de H. 2

Prova. Seja g 0 ∈ G, onde G é o fecho de G. Então, se Ug0 é qualquer aberto de H que contém g 0 ,
tem-se Ug0 ∩ G 6= ∅ (Proposição 15.5, página 834). Vamos escolher cuidadosamente um tal aberto U g0 .
Seja Ue um aberto de H que contem a identidade. Como G é aberto, V = Ue ∩ G é igualmente aberto.
Escolhemos Ug0 = g 0 V := {x ∈ H, x = g 0 v para algum v ∈ V }. Então, como Ug0 ∩ G 6= ∅ existe algum
elemento g ∈ G que é também elemento de Ug0 , ou seja, g = g 0 v para algum elemento v ∈ V . Mas isso
implica que g 0 = gv −1 . Agora, v ∈ V = Ue ∩ G ⊂ G e, portanto, g 0 ∈ G por ser o produto de dois
elementos de G, que é um grupo.

Proposição 11.2 Seja H um grupo topológico conexo e G um subgrupo aberto de H. Então G = H.


2

Prova. Vamos supor que G 6= H, ou seja, H \ G 6= ∅. Como G é um conjunto aberto e fechado (pela
proposição anterior) H \ G = H ∩ Gc é um conjunto aberto e fechado. Assim, H é a união disjunta
de dois conjuntos abertos e fechados, a saber G e H \ G. Isso é uma contradição com o fato de H ser
conexo. Logo G = H.

Proposição 11.3 Seja H um grupo topológico conexo e U um aberto de H que contem a identidade e
que seja tal que para todo u ∈ U tem-se u−1 ∈ U . Então,

[
H = U n,
n=1

onde U 1 := U e

U n := {x ∈ H| x = un · · · u1 para ui ∈ U, i = 1, . . . , n}, n > 1.

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 675/1195

Prova. Todos os conjuntos U n são conjuntos abertos. Isso é fácil de se ver. De fato,
[
U2 = u2 U
u2 ∈U

e, assim, U 2 é aberto, pois é uma união de abertos (vide exercı́cio à página 673). Analogamente,
[
Un = un U n−1 , n > 2. (11.1)
un ∈U

Por indução, segue facilmente que todo U n é aberto.


S
Assim U := ∞ n
n=1 U é igualmente um conjunto aberto (por ser uma união de abertos). Se provarmos
que U é um grupo, a proposição anterior garante a prova desejada.
É evidente que U contem a identidade e (que está contida em U ). Fora isso, se g1 ∈ U n1 e g2 ∈ U n2 ,
então g1 = un1 · · · u1 e g2 = u0n2 · · · u01 para certos ui e u0i ∈ U. Logo, g1 g2 = un1 · · · u1 u0n2 · · · u01 ,
mostrando que g1 g2 ∈ U n1 +n2 ⊂ U. Finalmente, se g ∈ U n e g = un · · · u1 , então g −1 = u−1 −1
1 · · · un ∈
n
U ⊂ U. Isso completa a prova que U é um grupo.

Informalmente, essa proposição diz que se H é um grupo topológico conexo, então qualquer aberto
U que contem a identidade gera o grupo H, ou seja, todo elemento de H pode ser escrito como o
produto finito de elementos de U.
Observação. Como a identidade e é um elemento de U , segue facilmente de (11.1) que U n−1 ⊂ U n
para todo n ≥ 1.
Seja H um grupo topológico. Dizemos que uma coleção de conjuntos abertos A λ ∈ H, λ ∈ Λ, é um
recobrimento de H se [
H = Aλ .
λ∈Λ

Um grupo topológico é dito ser compacto se possuir a seguinte propriedade: para todo recobrimento
Aλ ∈ H, λ ∈ Λ, de H existir um subconjunto finito Aλ1 , . . . , Aλn de conjuntos abertos que também é
um recobrimento de H:
H = A λ1 ∪ · · · ∪ A λn .

A seguinte proposição é imediata:


Proposição 11.4 Seja H um grupo topológico conexo e compacto e seja U um aberto de H que contem
a identidade e que seja tal que para todo u ∈ U tem-se u−1 ∈ U . Então, existe um n tal que

H = U n.

S
Prova. Como H é conexo, pela Proposição 11.3 tem-se H = ∞ n
n=1 U . O lado direito é, portanto,
um recobrimento de H por abertos. Assim, como H é compacto, H tem um recobrimento finito pelos
abertos U n : existem n1 < n2 < · · · < nk tais que H = U n1 ∪ · · · ∪ U nk . Como U n1 ⊂ · · · ⊂ U nk , tem-se
H = U nk , como querı́amos provar.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 676/1195

Comentário. Na proposição acima, a igualdade H = U n afirma que todo elemento de H é obtido por
um produto de no máximo n elementos de U . O número n é dependente de U e é intuitivo dizer que
quanto “menor” for o aberto U que contem a identidade, maior será n.

11.3 Grupos de Lie Matriciais


Nosso objetivo nesta seção e nas que se seguem é introduzir os grupos de Lie matriciais e discutı́-los.
Trataremos de alguns exemplos ilustrativos com algum detalhe, começando com o grupo GL( , n).
Comentemos que essencialmente todas as nossas afirmações adiante sobre GL( , n) são também válidas
para o grupo real GL( , n). 

11.3.1 Uma Topologia Métrica em GL( , n)


Como preparação, façamos alguns comentários topológicos sobre GL( , n). A topologia métrica de
Mat ( , n) discutida na Seção 4.1, página 211, pode ser introduzida naturalmente em GL( , n), que
afinal é um subconjunto de Mat ( , n), ao definirmos para A, B ∈ GL( , n) a métrica d(A, B) =
kA − Bk, sendo k · k a norma operatorial de Mat ( , n). Mostremos que GL( , n) é um conjunto
aberto e denso de Mat ( , n).

• GL( , n) é um Conjunto Aberto de Mat( , n)

É relevante notarmos que GL( , n) não é um subconjunto fechado de


 Mat ( , n).
 Isso se vê tomando
1/m 0
o exemplo da seqüência de matrizes diagonais 2 × 2 da forma Am = , m ∈ , seqüência
0 1/m


essa formada por elementos de GL( , 2) mas que converge para a matriz nula, que obviamente não é
elemento de GL( , 2).
Em verdade, GL( , n) é um conjunto aberto Mat ( , n). Para mostrar isso temos que provar 2 que
se A ∈ GL( , n) e B é uma matriz tal que kB − Ak é suficientemente pequena, então B é invertı́vel e,


portanto, também pertence a GL( , n). Observemos que B = A ( + A−1 (B − A)). Se provarmos que
−1
+ A−1 (B − A) é invertı́vel então teremos que B −1 existe, sendo dada por ( + A−1 (B − A)) A−1 .
Escolhendo B próximo o suficiente de A de modo que kB − Ak < 1/kA−1 k então A−1 (B − A)  

terá norma menor que 1 e, portanto, + A−1 (B − A) tem uma inversa dada pela série de Neumann3
convergente4
X∞
−1
−1 m
+ A (B − A) = + (−1)m A−1 (B − A) .
m=1

Isso prova que B tem inversa e completa a prova que GL( , n) é um conjunto aberto.
2
Vide a definição de conjunto aberto em espaços métricos dada à página 743.
3
Karl Neumann (1832-1925).
4 1
A justificativa dessa expressão foi apresentada na Seção 4.2. Note que a expansão de Taylor da função analı́tica
P∞ 1+z
para |z| < 1 em torno de z = 0 é precisamente 1 + m=1 (−1)m z m .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 677/1195

E. 11.5 Exercı́cio. Há uma maneira alternativa “rápida” de provar que GL( , n) é um conjunto aberto.
Mostre que det(A) é contı́nua como função dos elementos de matriz de A. Mostre que isso implica que
det(A) é contı́nua na topologia induzida em Mat ( , n) pela norma operatorial (em, verdade, por qualquer
norma, pois são todas equivalentes). Conclua que GL( , n) é um conjunto aberto, observando para tal que
trata-se do conjunto de todas as matrizes complexas com determinante não-nulo e notando que \ {0} é
um conjunto aberto em . 6

• GL( , n) é denso em Mat( , n)

Provemos que todo elemento de Mat ( , n) pode ser aproximado em norma por uma matriz in-
vertı́vel. Isso equivale a dizer que GL( , n) é denso em Mat ( , n). Seja A ∈ Mat ( , n) e seja
σ(A) = {λ1 , . . . , λr } o conjunto de seus autovalores distintos (r ≤ n). É claro que se α 6∈ σ(A) então
det(α − A) 6= 0 e A − α tem inversa (recorde que os autovalores de A são os zeros do polinômio
caracterı́stico de A). Seja agora, αn , n ∈ , uma seqüência de números complexos tais que αn 6∈ σ(A)


para todo n, e tais que αn → 0 para n → ∞. Teremos que as matrizes An := A − αn são todas
invertı́veis e d(A, An ) = kA − An k = |αn | k k = |αn | → 0 para n → ∞. Isso prova nossa afirmação.

11.3.2 O Grupo de Lie GL( , n)


Nesta seção mostraremos que GL( , n) é um grupo de Lie. Para isso mostraremos primeiro que
GL( , n) é um grupo topológico e depois que é uma variedade analı́tica, para então mostrar que o
produto e a inversão são analı́ticos. Esses resultados, além de importantes em si, servem ao propósito
pedagógico de ilustrar os conceitos de grupo topológico e de variedade.

• GL( , n) é um Grupo Topológico

Para provarmos que GL( , n) é um grupo topológico precisamos mostrar que o produto em
GL( , n) e a inversão de matrizes em GL( , n) são operações contı́nuas.
Sejam G, G0 , H ∈ GL( , n). Temos que

kG0 H − GHk 

= k(G0 − G)Hk 

≤ kG0 − Gk kHk ,  

mostrando que kG0 H − GHk → 0 se kG0 − Gk → 0. Assim, o produto à esquerda é contı́nuo.


 

Sejam agora G, H ∈ GL( , n). Fixemos H e tomemos kG − Hk <  com  > 0 escolhido pequeno


o suficiente de modo que kH −1 k < 1. É claro que G = H + (G − H) = H( + H −1 (G − H)), de




−1
maneira que G−1 = [ + H −1 (G − H)] H −1 . Logo,
n −1 o
G−1 − H −1 = + H −1 (G − H) − H −1 .

Assim, como pela escolha de  temos kH −1 (G − H)k ≤ kH −1 k < 1, podemos escrever
 

" ∞ #
X  m
G−1 − H −1 = (−1)m H −1 (G − H) H −1 .
m=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 678/1195

A justificativa dessa expressão5 foi apresentada na Seção 4.2. Tem-se, então,


" ∞ #
X kH −1 k2
kG−1 − H −1 k ≤ kH −1 km kG − Hkm kH −1 k ≤ .


 

1 − kH −1 k
 

m=1

Portanto kG−1 − H −1 k → 0 quando kG − Hk → 0, provando a continuidade da operação de inversão


 

de matrizes. Isso completa a prova que GL( , n) é um grupo topológico.

E. 11.6 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é contı́nua:
use a “regra de Laplace6 ” (vide (10.7), página 572) para calcular a inversa de uma matriz e evoque o fato
que o determinante é contı́nuo. 6

• GL( , n) é uma Variedade Analı́tica

Vamos agora mostrar que GL( , n) é uma variedade analı́tica.


n2
Seja, para cada  > 0, o sub-conjunto C de definido por

n2
C := {(x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈

com |xij | <  para todos i, j = 1, . . . , n}.

Para x = (x11 , . . . , x1n , x21 , . . . , x2n , . . . , xn1 , . . . , xnn ) ∈ C , denotemos por X a matriz cujo
elemento ij é Xij = xij e denotemos + X por A(x). Obviamente A(x)ij = δij + xij , i, j = 1, . . . , n.
n2
É bem claro que cada C é um sub-conjunto aberto de . Seja também U := {A(x) ∈ Mat ( , n)| x ∈
C }.

E. 11.7 Exercı́cio. Mostre que cada U é um sub-conjunto aberto de Mat ( , n). 6

É bem claro que para toda matriz A(x) como acima tem-se det(A(x)) = 1 + p(x), onde p(x) é
um polinômio nas variáveis xij que se anula quanto todas as xij são nulas. Assim, se x ∈ C vê-se
que det(A(x)) 6= 0 caso  seja pequeno o suficiente, pois isso garante que |p(x)| < 1. Portanto, se
escolhermos  pequeno o suficiente, teremos que U é um sub-conjunto aberto de GL( , n), o que
suporemos daqui por diante.
Seja agora g uma matriz arbitrária de GL( , n) e seja
Ug = {gA(x), com A(x) ∈ U }.
Pela notação que apresentamos quando discutimos grupos topológicos, Ug = gU , e Ug é um aberto de
GL( , n). Fora isso, g ∈ Gg , pois = A(0) ∈ U . Concluı́mos que
[
GL( , n) = Ug ,
g∈GL( , n)

5 1
Note que a expansão de Taylor da função analı́tica − 1 para |z| < 1 em torno de z = 0 é precisamente
P∞ m m
1+z
m=1 (−1) z .
6
Pierre-Simon Laplace (1749-1827).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 679/1195

ou seja, GL( , n) possui um recobrimento por abertos.


n2
Vamos agora mostrar que a cada Ug é bijetivamente mapeado em um aberto de . Isso é bem
simples pois, se para cada g ∈ GL( , n) definirmos funções φgij : Ug → por

φgij (gA(x)) = φgij (g + gX)) := (gX)ij , i, j = 1, . . . , n,


ou seja,
n
X
φgij (gA(x)) := gik xkj , i, j = 1, . . . , n,
k=1
n2
vemos facilmente que todo h P ∈ Ug é da forma hij = gij + φgij (gA(x)). Assim, o conjunto Cg ⊂
formado pelas variáveis x0ij = nk=1 gik xkj com xij ∈ C é um sistema de coordenadas para Ug .
Por fim, para todo h ∈ Ug ∩ Ug0 , teremos h = gA(x) = g 0 A(x0 ), ou seja, A(x0 ) = (g 0 )−1 gA(x) e
n
X n
X
 0 −1    
x0ij = −δij + (g ) g ik (δkj + xkj ) = 0 −1
(g ) g − ij
+ (g 0 )−1 g ik
xkj ,
k=1 k=1

o que mostra que as coordenadas x0 são expressas em termos de polinômios nas variáveis x. Portanto, a
mudança nas coordenadas de Ug para as de Ug0 é expressa em termos de funções analı́ticas (em verdade,
polinômios). Isso provou que GL( , n) é uma variedade analı́tica.

• GL( , n) é Grupo de Lie

Para finalmente provarmos que GL( , n) é um grupo de Lie, resta-nos provar que a multiplicação
à direita e a inversão são analı́ticas. A primeira parte é elementar. Tomemos g, h ∈ GL( , n). Os
elementos de Uh são da forma hA(x) e os de gUh são da forma ghA(x) ∈ Ugh . Agora, as funções de C
em dadas por
n
X
C 3 x 7→ φgh
ij (ghA(x)) = (gh)ik xkj i, j = 1, . . . , n,
k=1

são polinômios nas variáveis xij e, portanto, analı́ticas. Assim, o produto é analı́tico.
Para provar que a inversão é analı́tica tomemos g ∈ GL( , n). Um elemento genérico de U g é da
forma gA(x) = g( + X). Agora,

X
−1 −1 −1 −1 −1
(gA(x)) = ( + X) g = g ( + gY (x)g ), com Y (x) := (−1)m X m .
m=1

Cada elemento de matriz de Y (x) é uma função analı́tica dos xij , pois a série de Neumann7 acima
converge absolutamente (claramente, temos que escolher  < 1). Agora, as funções
−1  −1  
C 3 x 7→ φgij (gA(x))−1 = φgij g −1 ( + gY (x)g −1 ) = gY (x)g −1 ij

são funções analı́ticas dos xij , provando que a aplicação de inversão é analı́tica. Isso estabelece final-
mente que GL( , n) é um grupo de Lie de dimensão n2 .
7
Karl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 680/1195

E. 11.8 Exercı́cio. Há uma maneira alternativa “rápida” de provar que a operação de inversão é analı́tica:
use a regra de Laplace para calcular a inversa de uma matriz e evoque o fato que o determinante é analı́tico.
6

11.3.3 Sub-Grupos Uniparamétricos e seus Geradores


Sub-grupos uniparamétricos são muito importantes na teoria dos grupos de Lie. Vamos apresentá-los
no caso de matrizes.

Definição. Um sub-grupo uniparamétrico de GL( , n) é um homomorfismo contı́nuo 8 do grupo ( , +) 

em GL( , n). Em outras palavras, é uma função que a cada t real associa continuamente uma matriz
invertı́vel γ(t) de modo que
γ(t)γ(t0 ) = γ(t + t0 ) (11.2)
para todos t, t0 ∈  . Note que de (11.2) segue automaticamente que γ(0) = (por que?).
A importância dos sub-grupos uniparamétricos reside na seguinte proposição, a qual também começa
a revelar a relevância das exponenciais de matrizes na teoria dos grupos de Lie.
Proposição 11.5 Seja γ : → GL( , n) um sub-grupo uniparamétrico. Então existe uma matriz


M ∈ Mat ( , n), univocamente definida, tal que γ(t) = exp(tM ) para todo t ∈ . Esse fato, em 

particular, mostra que γ é real-analı́tica (e, portanto, diferenciável) e que M = γ 0 (0). A matriz M é
dita ser o gerador do sub-grupo uniparamétrico γ. 2

Prova.9 Se supuséssemos que γ é uma matriz diferenciável próximo a t = 0, terı́amos que para qualquer
t  
1 1
0
γ (t) = lim (γ(t + s) − γ(t)) = γ(t) lim (γ(s) − γ(0)) = γ(t)γ 0 (0).
s→0 s s→0 s

Definindo M := γ 0 (0), concluirı́amos que γ satisfaz a equação diferencial γ 0 (t) = γ(t)M , cuja solução é
única (vide Capı́tulo 6) e dada por γ(t) = exp(tM ), como querı́amos provar.
A demonstração estaria completa, não fosse o fato de que no enunciado supomos apenas que γ é
contı́nua, o que em geral não implica que γ seja também diferenciável em t = 0. É, no entanto, possı́vel
provar que se γ é contı́nua, então pelo fato de ser um homomorfismo de ( , +) segue que γ é também


diferenciável próximo a t = 0! A idéia é construir a partir de γ uma função γ̃ infinitamente diferenciável


e posteriormente mostrar que γ pode ser recuperada de γ̃ por operações diferenciáveis.
Para tal seja θ uma função real, positiva infinitamente diferenciável, com suporte compacto contendo
t = 0 e tal que Z ∞
θ(s)ds = 1.
−∞

8
Vide nota à página 683.
9
Extraı́da de [61]. A observação de que no enunciado da Proposição 11.5 é suficiente supor-se que o sub-grupo
uniparamétrico γ é apenas contı́nuo (dispensando uma condição de diferenciabilidade) é devida a von Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 681/1195

Um exemplo de uma tal função seria (para a < 0 < b)


(  
K exp − (s−a)21(s−b)2 , para s ∈ (a, b)
θ(s) =
0, de outra forma,
R∞
que tem suporte [a, b] 3 0. Uma escolha conveniente da constante K garante que −∞
θ(s)ds = 1.
Assim, seja uma tal função θ desse tipo e com suporte em, digamos, [−a, a] para algum a > 0, e
seja Z ∞
γ̃(t) := θ(t − s)γ(s)ds.
−∞

É fácil (Exercı́cio!) ver que γ̃ assim definida é infinitamente diferenciável. Fora isso,

Z ∞ Z ∞ Z ∞
γ̃(t) = θ(t − s)γ(s)ds = θ(u)γ(t − u)du = θ(u)γ(t)γ(−u)du
−∞ −∞ −∞
Z ∞
= γ(t) θ(u)γ(−u)du = γ(t)Y,
−∞
R∞
com Y := −∞
θ(u)γ(−u)du. Temos que
Z ∞
Y − = θ(u)(γ(−u) − )du,
−∞
R∞
pois −∞
θ(u)du = 1, por hipótese. Logo

Z ∞ Z a
kY − k 

≤ θ(u) kγ(−u) − k du =

θ(u) kγ(−u) − k du 

−∞ −a
Z a Z ∞
≤ c θ(u) du = c θ(u) du = c ,
−a −∞

onde c := supu∈[−a, a] kγ(−u) − k . Como γ é contı́nua e γ(0) = , podemos fazer c arbitrariamente




pequena, escolhendoP∞a pequeno. Mas isso diz que Y = − ( − Y ) é invertı́vel, com Y −1 dado pela
série convergente m=0 ( − Y ) . Assim, com a pequeno teremos γ(t) = γ̃(t)Y −1 , o que prova que γ(t)
m

é infinitamente diferenciável.

Definição. O que essa proposição provou é que todo sub-grupo uniparamétrico de GL( , n) é da
forma exp(tM ) para alguma matriz M ∈ Mat ( , n). Essa matriz M é dita ser o gerador do sub-grupo
uniparamétrico em questão.
Comentemos brevemente que a Proposição 11.5, que acabamos de provar, tem generalizações im-
portantes na teoria dos espaços de Hilbert e de Banach, onde é conhecida como Teorema de Stone 10 .
Vide, por exemplo, [99].
10
Marshall Harvey Stone (1903-1989).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 682/1195

• A Coleção de todos os Geradores de Sub-grupos Uniparamétricos

Seja G um sub-grupo de GL( , n). Seja definido o seguinte conjunto:

L(G) := {M ∈ Mat ( , n)| exp(tM ) ∈ G, ∀t ∈  } .

Analogamente, seja G um sub-grupo de GL( , n). Seja definido o seguinte conjunto:




L(G) := {M ∈ Mat ( , n)| exp(tM ) ∈ G, ∀t ∈


  } .

Em palavras, L(G) é a coleção de todos os geradores de todos os sub-grupos uniparamétricos de


G. É claro, pela definição, que L(G) contem sempre pelo menos a matriz nula (pois exp(t0) = ∈ G,
∀t ∈ ), mas não é nem um pouco evidente que esse não seja o único elemento de L(G). Por exemplo,


se G for um grupo discreto então L(G) = {0}. Mesmo no caso de G ser um grupo contı́nuo não é nada
óbvio que G possua sub-grupos uniparamétricos não-triviais. Logo abaixo estudaremos essa questão
no caso do grupo GL( , n) e, um pouco mais adiante, no caso de sub-grupos fechados (não-discretos)
de GL( , n). Em tais casos veremos que L(G) não consiste apenas da matriz nula.
Chamamos a atenção do estudante para o fato que, para um grupo G genérico, não é necessariamente
verdade que todo elemento de G pode ser escrito na forma exp(tM ) para algum M ∈ L(G) e algum
t ∈ . Ou seja, existem grupos G nos quais encontram-se elementos que não pertencem a nenhum


sub-grupo uniparamétrico de G. Na Proposição 4.10, página 224, vimos que isso ocorre no grupo real
GL( , n), pois esse grupo não é conexo, mas esse fenômeno pode ocorrer mesmo em grupos conexos.


Um exemplo será discutido na página 701, adiante.

A coleção de todos os geradores de todos os sub-grupos uniparamétricos de um dado grupo G é um


objeto muito importante, especialmente na teoria dos grupos de Lie. Discutiremos esse fato adiante.
No caso do grupo GL( , n) podemos facilmente identificar o que é L(GL( , n)). Faremos isso agora.

• Sub-grupos Uniparamétricos de GL( , n) e a Álgebra de Lie Associada a GL( , n)

A coleção de todos os geradores de todos os subgrupos uniparamétricos do grupo GL( , n) será


denotada aqui por L(GL( , n)) ou por gl( , n). Vamos identificar esse conjunto.
Na Proposição 4.11, página 224, demonstramos que todo elemento A ∈ GL( , n) pode ser escrito
na forma A = exp(B) para algum B ∈ Mat ( , n). Conseqüentemente, A pertence ao subgrupo
uniparamétrico composto pelas matrizes da forma exp(tB), t ∈ . Assim, GL( , n) possui subgrupos


uniparamétricos não-triviais. Reciprocamente, para todo B ∈ Mat ( , n) o conjunto de matrizes


da forma exp(tB), t ∈ , forma um subgrupo uniparamétrico de GL( , n). Concluı́mos disso que


L(GL( , n)) = Mat ( , n).


Já discutimos por diversas vezes (vide página 56 e seguintes) que o conjunto Mat ( , n) é uma
álgebra de Lie com relação ao produto definido pelo comutador de matrizes. Um pouco mais adiante,
veremos que esse fato é geral: o conjunto de todos os geradores de um subgrupo fechado (não-discreto)
de um grupo de Lie é também uma álgebra de Lie. Esse fato é de importância central na teoria dos
grupos de Lie.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 683/1195

E. 11.9 Exercı́cio. Para a, b = 1, . . . , n e α ∈ , sejam γαab (t), matrizes definidas da seguinte forma:

 + αtE ab , para a 6= b
ab
γα (t) := , com t ∈ .



+ (eαt − 1)E aa , para a = b



Aqui E ab é a matriz cujos elementos ij são dados por E ab ij = δi a δj b , ou seja, E ab é a matriz cujos
elementos de matriz são todos nulos, exceto o elemento ab, que vale 1. Mostre que as matrizes γ αab são
subgrupos uniparamétricos de GL( , n), ou seja, que γαab (t) são contı́nuas e que γαab (t)γαab (t0 ) = γαab (t + t0 )
2
para todo a, b e todo α. (Sugestão: mostre que E ab = δab E ab e use esse fato). Mostre  que seus
geradores são as matrizes αE ab . Constate também explicitamente que γαab (t) = exp αtE ab . 6

Note que a coleção formada por todas combinações lineares reais dos geradores dos subgrupos
uniparamétricos γαab de GL( , n) coincide com Mat ( , n) (por que?).

E. 11.10 Exercı́cio. Como são as relações de comutação das matrizes E ab ? 6

• Homomorfismos Não-Contı́nuos de ( , +) 

Contemplando a definição de sub-grupo uniparamétrico que apresentamos acima, como sendo um


homomorfismo contı́nuo de ( , +) em um grupo G, o estudante pode legitimamente questionar se


existem, afinal, homomorfismos não-contı́nuos desse grupo que justifiquem a necessidade de evocar
a condição de continuidade na Proposição 11.5. Talvez um tanto surpreendentemente, a resposta é
positiva. Há até mesmo automorfismos não-contı́nuos de ( , +) em si mesmo, os quais foram apre-


sentados à página 97, onde discutimos a existência de funções descontı́nuas de em que satisfazem  

f (t) + f (t0 ) = f (t + t0 ) para todos t, t0 ∈ . Assim, com o uso de uma tal função f , é relativamente


fácil construir um homomorfismo não-contı́nuo de ( , +) em um grupo G dado, caso conheçamos um




homomorfismo contı́nuo de ( , +) em G. De fato, se γ(t), t ∈ , é um homomorfismo contı́nuo de


 

( , +) em G então γ(f (t)), t ∈ , é um homomorfismo de ( , +) em G, mas que não é contı́nuo.


  

Dada a “artificialidade” daquelas funções f , tais exemplos são um tanto patológicos, mas explicam
a necessidade de incluir a condição de continuidade na definição de sub-grupo uniparamétrico e na
Proposição 11.5.

11.3.4 Sub-Grupos Uniparamétricos e Álgebras de Lie

• Sub-Grupos Uniparamétricos em Sub-Grupos Fechados

Definição. Seja H um subgrupo fechado mas não discreto de GL( , n). Definimos

L(H) := X ∈ Mat ( , n) tais que etX ∈ H para todo t ∈ . 

Como se vê, trata-se do conjunto dos geradores de todos os subgrupos uniparamétricos de H. É claro,
pela definição acima, que L(H) possui pelo menos um elemento, a saber a matriz nula, pois, obviamente
et0 = ∈ H para todo t ∈ . Não é nem um pouco óbvio, porém, que haja outros elementos em L(H)

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 684/1195

que não o elemento nulo. Não é sequer óbvio que existam subgrupos uniparamétricos não-triviais 11 em
H. Na Proposição 11.6 adiante, provaremos que L(H), de fato, é não-trivial e que há, de fato, subgrupos
uniparamétricos não-triviais em H. Para demonstrarmos a Proposição 11.6 precisamos de algumas
definições e de alguns resultados preparatórios. Seguiremos muito proximamente a exposição de [93]
(vide todo o 2 do Capı́tulo XI daquela referência), mas com ligeiras correções e aperfeiçoamentos.
Para simplificar a notação denotaremos aqui o grupo GL( , n) por G e sua álgebra de Lie
Mat ( , n) por g.
Fixemos doravante um número r > 0, arbitrário mas conveniente, e seja wr a bola fechada de raio
r centrada na origem em g:
wr := {X ∈ g| kXk ≤ r} . (11.3)
Notemos que wr é simétrica, ou seja, se X ∈ wr então −X ∈ wr . Denotaremos por wO
r a bola aberta
de raio r centrada na origem em g:

wO
r := {X ∈ g| kXk < r} . (11.4)

Vamos denotar por Wr a imagem de wr pela exponenciação:

Wr := {exp(X), X ∈ wr } . (11.5)

É claro que Wr ⊂ G e é claro que Wr é simétrico, ou seja, se Y ∈ Wr então Y −1 ∈ Wr .


Como H é um subconjunto fechado de G, o conjunto H ∩ Wr é fechado. Seja fr o subconjunto de
wr formado pelos elementos cuja exponencial está em H ∩ Wr :

fr := {X ∈ wr | exp(X) ∈ H ∩ Wr }. (11.6)

Comentemos que, pela Proposição 4.11, página 224, todo elemento de H é uma exponencial de algum
elemento de g = Mat ( , n). Portanto, todo h ∈ H ∩ Wr é da forma h = exp(f ) para algum f ∈ fr .
Simbolicamente, podemos escrever
exp(fr ) = H ∩ Wr . (11.7)

É bastante claro que fr é também simétrico. Como exp é contı́nua, fr é também fechado (vide Seção
19.2, página 891). Fora isso, fr ⊂ wr , por definição. Logo, fr é limitado. Por ser fechado e limitado, fr
é compacto.
Definamos M(H, Wr ) ≡ Mr por

Mr := {X ∈ g tais que, para algum  > 0, tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < } . (11.8)

Alternativamente, é claro que

Mr = {X ∈ g tais que, para algum  > 0, tem-se tX ∈ fr sempre que |t| < } .

Note-se que Mr contem sempre ao menos um elemento, a saber, 0. Não é nada óbvio, porém, se
esse é o único elemento de Mr . No Corolário 11.1, adiante, provaremos que tal não é o caso, ou seja,
Mr não é trivial. Antes disso precisamos de dois lemas preparatórios.
11
Um subgrupo uniparamétrico γ(t) é trivial se γ(t) for igual ao elemento neutro para todo t ∈ .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 685/1195

Lema 11.1 Com as definições acima, valem as seguintes afirmações. I. Se X ∈ M r então λX ∈ Mr


para todo λ ∈ . II. wr ∩ Mr ⊂ fr .
 2

Prova do Lema 11.1. Se X ∈ Mr então, para algum  > 0 tem-se tX ∈ fr sempre que |t| < . Mas,
então, se λ 6= 0, vale t(λX) ∈ fr sempre |t| < /|λ|. Isso prova a afirmativa I.
Seja agora X ∈ wr ∩ Mr . Queremos provar que X ∈ fr . Como X ∈ Mr então, para algum  > 0
tem-se exp(tX) ∈ H ∩ Wr sempre que |t| < . Assim, para n ∈ grande o suficiente (n > −1 ) teremos


exp(n−1 X) ∈ H ∩ Wr o que, em particular, diz que exp(n−1 X) ∈ H. Como H é um grupo, tem-se que
(exp(n−1 X))n ∈ H. Mas o lado esquerdo é exp(X) e, portanto, concluı́mos que exp(X) ∈ H. Agora,
por hipótese, X ∈ wr , o que implica, pela definição de Wr , que exp(X) ∈ Wr . Logo, mostramos que
exp(X) ∈ H ∩ Wr , o que significa que X ∈ fr . Provamos, assim, que wr ∩ Mr ⊂ fr . Isso completa a
prova do Lema 11.1.

Podemos agora demonstrar o seguinte lema, de importância central no presente contexto e, talvez,
o resultado preparatório tecnicamente mais difı́cil.
Lema 11.2 Seja Xn , n ∈ , uma seqüência de elementos de fr tais que Xn 6= 0. Suponhamos que


Xn → 0 para n → ∞ e que Xn /kXn k → Y para algum Y ∈ Mat ( , n). Então12 Y ∈ Mr . 2

Prova do Lema 11.2. Notemos antes de mais nada que se Yn := Xn /kXn k → Y ∈ Mat ( , n) então
Y 6= 0. Em verdade, kY k = 1 pois, fazendo uso da desigualdade (2.19), página 122, temos | kY n k −
kY k | ≤ kYn − Y k. Como o lado direito vai a zero quando n → ∞, segue que kY k = 1, pois kYn k = 1.
Fixemos também um número m ∈  não nulo. Podemos escrever wr como a união
m
[
wr = sk
k=1

onde  
k−1 k
sk ≡ := X ∈ wr
srk r ≤ kXk ≤ r ,
m m
ou seja, podemos escrever wr como uma união de “fatias”, ou cascas esféricas, de vetores com normas
entre k−1
m
k
re m r. Note-se que s1 é a bola fechada de raio r/m centrada em 0:
n r o

s1 = X ∈ wr kXk ≤ .
m

Como Xn converge a 0, existe um número Nm (que pode depender de m) tal que Xn ∈ s1 para todo
n > Nm . Seja agora um k0 ∈ fixo, escolhido de modo que 1 < k0 ≤ m. Vamos mostrar que para


cada n > Nm podemos encontrar um número inteiro jn (eventualmente dependente de n) de modo que
jn Xn ∈ sk0 , ou seja, tal que
(k0 − 1)r k0 r
≤ kjn Xn k ≤ .
m m
12
Após a demonstração do Lema 11.2, discutiremos à página 687 que de fato existem seqüências satisfazendo essas
hipóteses.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 686/1195

Para isso, é suficiente escolhermos um jn inteiro satisfazendo

(k0 − 1)r k0 r
≤ |jn | ≤ .
mkXn k mkXn k
(k0 −1)r k0 r
Haverá inteiros no intervalo entre mkXn k
e mkXn k
? Para ver isso, notemos que o comprimento desse
intervalo é
k0 r (k0 − 1)r r
− = ≥ 1,
mkXn k mkXn k mkXn k
pois kXn k ≤ mr , dado que Xn ∈ s1 . Então, uma tal escolha de jn é sempre possı́vel para cada n (pois
todo intervalo fechado de comprimento igual ou maior que 1 contem ao menos um inteiro).
(k ) (k )
Vamos
 denominar
 jn Xn por Yn 0 (com k0 fixo). É evidente que Yn 0 ∈ sk0 ⊂ wr . Isso implica
(k ) (k )
que exp Yn 0 ∈ Wr . Fora isso, exp Yn 0 = exp(jn Xn ) = (exp(Xn ))jn . Como exp(Xn ) pertence ao
 
(k )
grupo H (pois xn ∈ fr ), segue pela propriedade de grupo que também tem-se exp Yn 0 ∈ H (é por
 
(k0 )
essa razão que escolhemos jn inteiro). Com isso, provamos que exp Yn ∈ H ∩ Wr , o que significa
(k0 )
que13 Yn ∈ fr .
O conjunto fr é fechado e limitado e, portanto, compacto. Isso significa que existe uma sub-
(k )
seqüência Ynl 0 , l ∈ , que é convergente em fr . Agora, como Yn = Xn /kXn k converge a Y , isso


(k ) (k )
significa que Ynl 0 converge a um múltiplo de Y , digamos λ(k0 ) Y , pois Ynl 0 é um múltiplo de Ynl , a
(k )
saber, Ynl 0 = jnl kXnl kYnl . Portanto, para um tal λ(k0 ) temos λ(k0 ) Y ∈ fr . Note que também tem-se
−λ(k0 ) Y ∈ fr , bastando para tal trocar Xn por −Xn na argumentação acima, o que é permitido pois fr
é simétrico.
Assim, λ(k0 ) = lim jnl kXnl k e, conseqüentemente,
l→∞

(k0 − 1)r k0 r
≤ λ(k0 ) ≤ .
m m

O que provamos acima vale para cada k0 ∈ com 1 < k0 ≤ m.h Resumindoi nossas conclusões,


provamos que para todo m ∈ não-nulo, cada intervalo Ik0 , m := (k0m−1) r, km0 r com 1 < k0 ≤ m


contem pelo menos um λ(k0 ) tal que ±λ(k0 ) Y ∈ fr .


m
[  
A união Ik0 , m é o conjunto m1 r, r . Esses intervalos Ik0 , m podem ser feitos mais finos e em
k0 =2
[ 1 
maior número, fazendo m → ∞, sendo que r, r = (0, r].
m∈
m 

Concluı́mos disso que existe um conjunto contável denso de números λ no intervalo (0, r] tais que
±λY ∈ fr . Como fr é fechado, isso implica que λY ∈ fr para todo λ ∈ [−r, r]. Agora, isso significa
precisamente que Y ∈ Mr , que é o que querı́amos provar.
A prova do Lema 11.2 está completa.
13 (k0 )
Em [93] o argumento que prova que Yn ∈ fr não está correto, lamentavelmente.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 687/1195

Podemos nos perguntar agora, será que existem seqüências Xn satisfazendo as hipóteses do Lema
11.2, ou seja, tais que Xn /kXn k convirja para algum Y ? É fácil ver que sim. Notemos para isso que
para qualquer seqüência Xn ∈ fr com Xn → 0 a seqüência Yn = Xn /kXn k está contida no conjunto
compacto formado pelos vetores de norma 1. Assim, Yn sempre tem uma sub-seqüência convergente
a algum Y , que também tem norma 1. A essa sub-seqüência aplica-se então o Lema 11.2 e tem-se
Y ∈ Mr . Isso, em particular, mostra-nos que Mr é não-trivial, ou seja, contem elementos não-nulos.
Provamos então:
Corolário 11.1 O conjunto Mr definido acima contem elementos diferentes de 0. 2

Esse simples corolário é crucial para o que segue14 , pois tem a seguinte conseqüência.
Proposição 11.6 Seja H um subgrupo fechado e não-discreto de GL( , n)). Então valem as seguintes
afirmativas. I. Mr = L(H) para qualquer r > 0. II. L(H) é não-trivial, ou seja, não consiste apenas
da matriz nula. Há, portanto, subgrupos uniparamétricos não-triviais em H. 2

Prova. Seja o conjunto Mr ≡ M(H, Wr ) definido em (11.8), com W definido em (11.3)-(11.5) para
algum r > 0. Provaremos que M(H, Wr ) = L(H).
Em primeiro lugar, é claro (por definição!) que se X ∈ L(H) teremos exp(tX) ∈ H. Se X = 0 então
X ∈ M(H, Wr ) trivialmente. Se X 6= 0 então, se escolhermos |t| < r/kXk, teremos que tX ∈ wr .
Logo, X ∈ M(H, Wr ). Isso mostra que L(H) ⊂ M(H, Wr ).
Seja X ∈ M(H, Wr ) com X 6= 0. Pelo Corolário 11.1, um tal X existe. Assim, existe um  > 0
tal que exp(t0 X) ∈ H para todo t0 ∈ (−, ). Seja agora t ∈ qualquer. Se escolhermos n ∈ 

com |n| grande o suficiente, teremos |t/n| < . Daı́, exp((t/n)X) ∈ H e, como H é um grupo,
exp(tX) = (exp((t/n)X))n ∈ H. Como isso vale para qualquer t ∈ provamos que X ∈ L(H). 

Com isso provamos que M(H, Wr ) ⊂ L(H) e, portanto, M(H, Wr ) = L(H). Assim, pelo Corolário
11.1, L(H) é não-trivial. Conseqüentemente existem em H subgrupos uniparamétricos não-triviais, a
saber aqueles que tem como geradores os elementos não-nulos de M(H, Wr ).

Chegamos agora ao ponto em que boa parte do que fizemos será unificado e revelaremos a im-
portância de sub-grupos uniparamétricos para os grupos de Lie matriciais.

• Sub-Grupos Uniparamétricos e Álgebras de Lie

Seja H um sub-grupo fechado e não-discreto de GL( , n). O seguinte teorema, o qual é uma con-
seqüência das fórmulas de Lie-Trotter e do comutador (vide Capı́tulo 4), é de importância fundamental:
14
Infelizmente, alguns textos como [114], [124] e mesmo (surpreendentemente) [97], não provam que M r é não-trivial, o
que torna suas demonstrações do Teorema 11.2 incompletas. Mesmo [93], que prova os Lemas 11.1 e 11.2, não menciona
o Corolário 11.1, embora o mesmo fique implı́cito pela sua análise. A referência [61], que segue outra e muito interessante
linha de raciocı́nio, é explı́cita quanto ao Corolário 11.1.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 688/1195

Teorema 11.1 Se H é um sub-grupo fechado e não-discreto de GL( , n) então L(H), definida acima,
é uma álgebra de Lie real15 . 2

Prova. Vamos primeiramente mostrar que L(H) é um espaço vetorial real. Para tal, precisamos mostrar
que se X e Y são geradores de dois sub-grupos uniparamétricos de H, então αX + βY também o é,
para quaisquer α, β ∈ . Comecemos observando que γ(t) := exp(t(αX + βY )) é um sub-grupo


uniparamétrico contı́nuo de GL( , n) cujo gerador é obviamente αX + βY . Tudo o que precisamos


fazer é mostrar que γ(t) ∈ H para todo t ∈ . Pela fórmula de Lie-Trotter (vide Capı́tulo 4),


    m
tα tβ
exp(t(αX + βY )) = lim exp X exp Y . (11.9)
m→∞ m m
 
Observemos então o seguinte. Pela hipótese, as matrizes exp tα m
X e exp tβm
Y pertencem ao grupo
H, pois supomos
 que
 X e Y são geradores de subgrupos uniparamétricos de H. Portanto os produtos

exp tαm
X exp m
Y são também elementos de H, pois H é um grupo. Ora, o lado direito de (11.9) é,
portanto, o limite de uma seqüência de elementos de H. Como supomos que H é fechado, segue que o
limite é igualmente um elemento de H, como querı́amos mostrar. Isso provou então que αX + βY ∈
L(H) para quaisquer α, β ∈ e, portanto, L(H) é um espaço vetorial real.


Vamos mostrar agora que L(H) é uma álgebra de Lie. Se X, Y ∈ L(H) temos, pela fórmula do
comutador (vide Capı́tulo 4), e usando [tX, Y ] = t[X, Y ], que
        m2
t 1 t 1
exp(t[X, Y ]) = lim exp X exp Y exp − X exp − Y . (11.10)
m→∞ m m m m

Raciocı́nio idêntico ao que empregamos acima concluı́ que exp(t[X, Y ]) ∈ H para todo t ∈ , mos- 

trando que [X, Y ] é o gerador de um sub-grupo uniparamétrico contı́nuo de H, ou seja, [X, Y ] ∈ L(H).
Isso provou que L(H) é uma álgebra de Lie.

Comentário. Se para todo X ∈ L(H) tivermos também αX ∈ L(H) para todo α ∈ , concluı́-se pela
demonstração acima que L(H) é uma álgebra de Lie complexa.

11.3.5 Subgrupos Fechados de GL( , n)


Nesta Seção provaremos o seguinte teorema:
Teorema 11.2 Se H é um subgrupo topologicamente fechado de GL( , n) (na topologia métrica in-
duzida de GL( , n)) e H não é discreto, então H é também um grupo de Lie (na topologia métrica
induzida de GL( , n)). 2

O Teorema 11.2 é particularmente importante pois muitos grupos encontrados em aplicações são
sub-grupos fechados (não discretos) de GL( , n) ou de GL( , n). Tal é o caso, por exemplo, dos


15
Álgebras de Lie foram definidas à página 56.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 689/1195

grupos U(n), U(p, q), SU(n), SU(p, q), O(n), SO(n) e outros. Assim, o Teorema 11.2 nos informa que
tais grupos são grupos de Lie.
A prova desse teorema será oferecida à página 691. Antes de chegarmos lá precisaremos apresentar
vários teoremas preparatórios. Chamamos a atenção do leitor para o fato que as demonstrações de
alguns desses resultados preparatórios são bastante técnicas e talvez devam ser omitidas em uma
primeira leitura.
Seja H subgrupo fechado não-discreto de G = GL( , n). Sabemos pelo Teorema 11.1 que L(H) é
um sub-espaço de L(G) = Mat ( , n). Seja L(H)⊥ seu complemento ortogonal (em relação a algum
produto escalar em Mat ( , n), por exemplo hA, Bi = Tr(A∗ B)). Todo elemento A ∈ Mat ( , n)
pode ser escrito de modo único na forma A = Ak + A⊥ , com Ak ∈ L(H) e A⊥ ∈ L(H)⊥ .
Seja assim a função ΦH : L(G) → G definida por
 
ΦH (A) := exp Ak exp A⊥ .

Lema 11.3 Para H, subgrupo fechado e conexo de GL( , n), existe r0 > 0 tal que a aplicação ΦH
0
definida acima é um homeomorfismo do aberto wO O
r0 em um aberto ΦH (wr0 ) ⊃ Wr00 para um certo r0 > 0.
2

Acima, wO
r0 é a bola aberta de raio r0 em torno da matriz nula. Vide (11.4).

Prova. Escolhamos r0 pequeno o suficiente para que valha a fórmula de Baker-Campbell-Hausdorff16 .


Considere-se a aplicação φH : L(G) → L(G) definida por φH (A) = ln (ΦH (A)), ou seja,
 
φH (A) := ln exp Ak exp A⊥ = Ak ∗ A⊥ = A + ϕH (A) ,

(lembre-se que Ak + A⊥ = A) onde


1  k ⊥ 1  k  k ⊥   ⊥  ⊥ k 
ϕH (A) := A, A + A, A , A + A , A , A +··· .
2 12
Como facilmente se constata, kϕkAkH (A)k
→ 0 para kAk → 0. Assim, ΦH é contı́nua e diferenciável em
uma vizinhança de 0 e e sua derivada em 0 é a identidade. Assim, pelo bem conhecido Teorema da
Aplicação Inversa (vide, por exemplo, [84]), φH é um homeomorfismo entre wO
r0 e sua imagem. Como
ΦH = exp ◦ φH e a exponencial é também um homeomorfismo local (Proposição 4.4, página 219), a
prova do Lema 11.3 está completa.

Seja H um subgrupo fechado de GL( , n). Vimos acima que L(H) ⊂ Mat ( , n) é uma álgebra
de Lie real e, como tal, um sub-espaço de Mat ( , n). É evidente que se A ∈ L(H) então exp(A) ∈
H. Vamos denotar por H e o subgrupo de H cujos elementos são produtos finitos de exponenciais de
elementos de L(H):
e := {h ∈ H, h = exp(A1 ) · · · exp(Am ) para algum m ∈
H  }.
e é de fato um grupo, pois
H
16
Vide Capı́tulo 4, página 210. A fórmula de Baker-Campbell-Hausdorff é dada em (4.46) à página 237.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 690/1195

1. e
∈ H,
e então h−1 = exp(−Am ) · · · exp(−A1 ) ∈ H
2. se h = exp(A1 ) · · · exp(Am ) ∈ H e e

e então tem-se, evidentemente, hh0 =


3. se h = exp(A1 ) · · · exp(Am ) e h0 = exp(A01 ) · · · exp(A0m0 ) ∈ H
0 0 e
exp(A1 ) · · · exp(Am ) exp(A1 ) · · · exp(Am0 ) ∈ H.
e é denominado subgrupo gerado por L(H). Vamos provar o seguinte teorema:
O grupo H
e = H.
Teorema 11.3 Se H é fechado e conexo então H 2

e ⊂ H, de modo que queremos apenas provar que H ⊂ H.


Prova. Já é evidente, pela definição, que H e
Seja r > 0, fixo. O que faremos é provar que fr ⊂ L(H) ∩ wr0 para algum r 0 > 0. Se isso for
verdadeiro, então, pela definição de fr em (11.6) e por (11.7), os elementos de H ∩ Wr são da forma
exp(A) com A ∈ L(H) ∩ wr0 . Agora, pelo fato de H ser conexo, sabemos pela Proposição 11.3, que
todo elemento de H pode ser escrito como um produto finito de elementos do interior de H ∩ Wr . Logo,
todo elemento de H pode ser escrito como um produto finito exp(A1 ) · · · exp(Am ), para algum m ∈ , 

com Ak ∈ L(H) ∩ wr0 . Ora, isso está precisamente dizendo que H ⊂ H, e que é o que querı́amos provar.
Vamos então mostrar que fr ⊂ L(H) ∩ wr0 para algum r 0 > 0. A demonstração será feita por
absurdo, ou seja, supondo que não existam r e r 0 > 0 tais que fr ⊂ L(H) ∩ wr0 e chegando-se daı́ a
uma contradição.

\ fácil ver pela definição dos conjuntos fr em (11.6) que fr1 ⊂ fr2 sempre que r1 ≤ r2 . Além
É muito
disso, fr = {0}.
r>0

Para um r 0 arbitrário, fixo, vamos então supor que não haja nenhum fr com fr ⊂ L(H) ∩ wr0 . Isso
implica que fr \ (L(H) ∩ wr0 ) 6= ∅ para todo r. Fixando r, poderı́amos escolher uma seqüência rn < r,
rn → 0 com frn \ (L(H) ∩ wr0 ) 6= ∅. Escolhendo para cada n um elemento Xn ∈ frn \ (L(H) ∩ wr0 ),
teremos que Xn ∈ fr \ (L(H) ∩ wr0 ) para todo n e Xn → 0 quando n → ∞.
Como Xn → 0, teremos exp(Xn ) ∈ Wr00 para para todo n grande o suficiente, onde r00 é referido
no enunciado do Lema 11.3. Assim, pelo mesmo lema, existirá para
 cada um de tais n’s um elemento
k ⊥ k ⊥

Zn ∈ wr0 , Zn = Zn + Zn , tal que exp (Xn ) = ΦH (Zn ) = exp Zn exp Zn .
k
Antes de prosseguirmos, façamos algumas observações sobre Zn e Zn⊥ . Como Xn → 0, deve valer
também Zn → 0 já que, pelo Lema 11.3, ΦH e sua inversa são contı́nuas. Assim, tem-se igualmente
k
Zn → 0 e Zn⊥ → 0. Pela parte II do Lema 11.1 e pela parte I da Proposição 11.6, segue que w r ∩L(H) ⊂
k
fr . Daı́, para n grande o suficiente, ter-se-á Zn ∈ fr . Note-se também que, como X n 6∈ L(H) para
⊥ k
n grande, teremos Zn 6= 0, pois, se assim não fosse, valeria exp (Xn ) = exp Zn e, tomando-se
k
o logaritmo (o que é permitido para n grande, já que kXn k e kZn k estão ambos próximos a zero),
k
obterı́amos Xn = Zn ∈ L(H), o que é impossı́vel.
  
⊥ k
Como conseqüência das observações acima, teremos que exp Zn = exp −Zn exp (Xn ). Sucede
   
k k
que exp (Xn ) ∈ H ∩ Wr e exp −Zn ∈ H ∩ Wr . Assim exp Zn ∈ H e, kZn⊥ k ≤ kZn k < r0 . Logo,

exp Zn⊥ ∈ H ∩ Wr0 . Portanto, Zn⊥ ∈ fr0 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 691/1195

Como conseqüência do Lema 11.2, da parte I da Proposição 11.6 e da compacidade de f r0 , a seqüência


de vetores de norma 1 dada por Zn⊥ /kZn⊥ k tem uma sub-seqüência que converge a um elemento de
Mr0 = L(H). Porém, como Zn⊥ ∈ L(H)⊥ , isso é impossı́vel e tem-se aı́ uma contradição. Logo, deve
valer fr ⊂ L(H) ∩ wr0 para certos r, r 0 > 0. Isso completa a prova do Teorema 11.3.

Podemos agora reunir os resultados que provamos acima e passar à

Prova do Teorema 11.2.


Seja H um subgrupo fechado de GL( , n). Como veremos, é suficiente provarmos o teorema
considerando apenas a componente de H que é conexa ao elemento neutro, componente essa que
denominaremos H0 . Isso pois se provarmos que H0 é uma variedade, a demonstração facilmente se
estenderá para todo H. Esse ponto será discutido com mais detalhe ao final da demonstração, de modo
que, por ora, nos limitamos a considerar o caso em que H é conexo (o que, no caso geral, equivale a
nos restringirmos a H0 ).
Pelo Teorema 11.3, basta provarmos que H e é um grupo de Lie. Pelo Teorema 4.4, podemos encontrar
uma vizinhança aberta de V de 0 em Mat ( , n) e uma vizinhança aberta W de em GL( , n) tais que
exp : V → W é um difeomorfismo. Seja VH a vizinhança de 0 em L(H) definida por VH = V ∩ L(H) e
seja WH sua imagem em H e pela exponencial. A aplicação exp : VH → WH é também um difeomorfismo,
pois é a restrição de um difeomorfismo (a saber exp : V → W ) por uma função suave (a projeção
V → VH ). Existe naturalmente um sistema de coordenadas em VH , pois L(H) é um espaço vetorial
e, portanto, isomorfo a k , k sendo a dimensão de L(H). Dessa forma como exp : VH → WH é
uma bijeção, exp−1 : WH → VH estabelece um sistema de coordenadas em WH . Para estabelecer um
sistema de coordenadas em todo H, e por exemplo, em torno de um elemento h ∈ H, e podemos transladar
o sistema de coordenadas de WH para uma vizinhança de h, a saber, hWH . As cartas locais assim
obtidas serão compatı́veis (infinitamente diferenciáveis ou analı́ticas) devido ao fato de exp : V H → WH
ser um difeomorfismo e pelo fato de a multiplicação por um h constante não alterar esse caráter. O
argumento de translação pode ser aplicado mesmo a elementos de H que não estão na componente
conexa à identidade, de modo que todo H se torna uma variedade de dimensão k. O produto e a
inversa são contı́nuas e infinitamente diferenciáveis por o serem em GL( , n) e também devido ao fato
de exp : VH → WH ser um difeomorfismo. A demonstração do Teorema 11.2 está então completa

Comentário. Segundo [93], o Teorema 11.2 é devido a Cartan17 . Demonstrações desse importante
teorema podem ser encontradas em vários livros-texto, como por exemplo [93] ou [97]. Devemos, porém,
notar ao leitor e advertir o estudante que alguns textos (inclusive alguns clássicos) apresentam certas
falhas tanto no enunciado do teorema quanto na sua demonstração, falhas essas que procuramos corrigir
e evitar nas demonstrações acima. Por exemplo, muitos autores esquecem-se de excluir do enunciado
o caso (trivial) em que H é fechado mas discreto (grupos discretos obviamente não podem ser grupos
de Lie), por vezes ressalvando isso apenas no correr da demonstração. Vários textos apresentam
demonstrações incompletas (por exemplo, [114], [124] e mesmo parcialmente [97]), pois deixam por
exemplo, de provar que o conjunto Mr , definido acima, não é apenas formado pelo elemento nulo, um
ponto crucial. A demonstração que apresentamos é essencialmente (mas não exatamente) a de [93]
(vide todo 2 do Capı́tulo XI daquela referência). Um outro tratamento excelente (mas talvez não
acessı́vel a todo estudante) é o de [61].
17
Elie Joseph Cartan (1869-1951). E. J. Cartan foi um dos mais importantes contribuidores à teoria de grupos de Lie.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 692/1195

Um ponto importante do Teorema 11.2 é que o subgrupo fechado H é um grupo de Lie com a
topologia induzida em H por G. Em verdade, vale para grupos de Lie um teorema mais ainda forte
que o Teorema 11.2:
Teorema 11.4 Todo subgrupo não-discreto H de um grupo de Lie G é também um grupo de Lie, mas
não necessariamente em relação à topologia induzida por G em H. 2

Como se vê, esse teorema generaliza o Teorema 11.2 pois não é necessário requerer que H seja um
subgrupo fechado de G. Porém, a topologia na qual H é um grupo de Lie pode não ser a topologia
induzida em H por G. Um exemplo ilustrativo será discutido na Seção 11.4.3. A demonstração do
Teorema 11.4 teorema está além dos limites dessas notas e pode ser encontrada em textos como [97]
ou [61].

O Teorema 11.1, página 688, revela um sentido da relação fundamental entre grupos de Lie e
álgebras de Lie. Ele mostra que é possı́vel construir uma álgebra de Lie a partir de um grupo de Lie
fechado. A teoria geral dos grupos de Lie revela que muitas propriedades importantes de grupos de Lie
podem ser estudadas a partir das álgebras de Lie associadas a seus sub-grupos uniparamétricos. Essa
relação se mostra particularmente relevante no estudo de representações de grupos de Lie. É possı́vel
provar (e faremos isso no exemplo do grupo SO(3) no Capı́tulo 12) que existe uma correspondência
um-a-um entre as representações de um grupo de Lie e as representações de sua álgebra de Lie. Sucede
que (devido à estrutura linear) é muito mais simples estudar as representações de uma álgebra de Lie
do que de um grupo de Lie. Infelizmente ainda está fora do modesto alcance destas notas explorar
completamente esse vasto terreno e remetemos o estudante aos bons livros supra-citados sobre grupos
e álgebras de Lie.
Iremos no que segue deste capı́tulo limitar-nos a discutir algumas questões as quais são importantes
para um estudo mais abrangente. Particularmente nos deteremos na questão de identificar algumas
situações nas quais podemos prosseguir no caminho inverso ao que apontamos acima, ou seja, na
questão de quando um grupo de Lie pode ser recuperado a partir da álgebra de Lie dos seus geradores
por aplicação da exponenciação.

11.4 A Relação entre Grupos de Lie Matriciais e suas Álgebras


de Lie
Vimos nos seções anteriores que se H é um subgrupo fechado de GL( , n) existe associada ao mesmo
uma álgebra de Lie a qual é (obviamente) uma sub-álgebra de da álgebra de Lie de GL( , n) que é
Mat ( , n). Será a recı́proca verdadeira, ou seja, se A é uma sub-álgebra de Lie de Mat ( , n) haverá
um grupo de Lie fechado associado a A? A reposta, em geral, é não. Um contra-exemplo (para n = 2)
é o seguinte:
 Seja  a um número real irracional e seja a álgebra de Lie formada pelas matrizes 2 × 2
it 0
dadas por com t ∈ R. Exponenciando os elementos dessa álgebra de Lie obtemos as matrizes
0 iat
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 693/1195

 
eit 0
com t ∈ R. Esse conjunto de matrizes forma certamente um grupo. Sucede, porém, que
0 eiat
não se trata de um sub-grupo topologicamente fechado de GL( , 2), como veremos com um pouco
mais de detalhe na Seção 11.4.3 (a qual o leitor poderá passar sem perdas). Felizmente é possı́vel dizer
um pouco mais se enfraquecermos a condição de H ser um subgrupo fechado. Tem-se, por exemplo, o
seguinte:
Proposição 11.7 Seja G um subgrupo fechado de GL( , n) cuja álgebra de Lie é L(G) e seja H um
subgrupo (não discreto) de G. Seja L(H) := {M ∈ Mat ( , n)| exp(tM ) ∈ H, ∀t ∈ } e suponha 

que se saiba que L(H) é um sub-espaço de L(G). Então L(H) é também uma sub-álgebra de L(G). 2

Prova. Sejam A, B ∈ L(H). Então é claro que para todos t e s ∈ teremos


 esA etB e−sA pois


H é um grupo e esA , etA ∈ H. Podemos escrever esA etB e−sA = exp tesA Be−sA e isso prova que
esA Be−sA ∈ L(H) para todo s ∈ . Como por hipótese L(H) é um sub-espaço de L(G), L(H) é


fechado (pois estamos em dimensão finita). Logo



1 sA −sA  d sA −sA 
L(H) 3 lim e Be −B = e Be = [A, B],
s→0 s ds s=0
completando a prova.

Comparando a demonstração acima com a do Teorema 11.1, vemos que a diferença é que não
supomos que H seja fechado. Podemos ir mais um pouco além e estabelecer o seguinte:
Teorema 11.5 Seja G um subgrupo fechado de GL( , n) cuja álgebra de Lie é L(G) e seja h uma
sub-álgebra de Lie real de L(G). Então existe um único sub-grupo conexo H de G cuja álgebra de Lie
é h. H é um grupo de Lie (em uma certa topologia). 2

Não apresentaremos a demonstração dessa afirmação aqui no caso geral, a qual é uma conseqüência
da fórmula de Baker-Campbell-Hausdorff. Mais adiante (página 697) discutiremos como H pode ser
construı́da a partir de h no caso dessa última ser uma álgebra de Lie nilpotente, o caso mais fácil de
tratar.

11.4.1 Álgebras de Lie Nilpotentes, Solúveis, Simples e Semi-Simples


Já comentamos anteriormente que se A e B são matrizes n × n reais ou complexas tais que AB = BA,
então exp(A) exp(B) = exp(A + B). O que ocorre caso A e B não comutem entre si? A resposta a
esta questão é dada por uma expressão conhecida como fórmula de Baker-Campbell-Hausdorff, a qual
foi discutida e demonstrada no Capı́tulo 4, página 210. Essa fórmula permite expressar o produto
exp(A) exp(B) para duas matrizes A e B ∈ Mat ( , n) (ou ∈ Mat ( , n)) novamente como uma


exponencial de matrizes:
exp(A) exp(B) = exp(A ∗ B),
onde A ∗ B é uma expressão um tanto complexa envolvendo somas de comutadores múltiplos das
matrizes A e B, e cujos primeiros termos são os seguintes:
1 1 1
A ∗ B = A + B + [A, B] + [A, [A, B]] + [B, [B, A]] + · · · .
2 12 12
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 694/1195

A expressão completa encontra-se em (4.46) à página 237.


Vamos agora fazer uma pausa e, antes de entrarmos na discussão das conseqüências da fórmula
de Baker-Campbell-Hausdorff e da exponenciação de álgebras de Lie e sua relação com grupos de
Lie, vamos nos dedicar a discutir alguns aspectos algébricos das álgebras de Lie (com o perdão do
pleonasmo).
A fórmula de Baker-Campbell-Hausdorff nos chama a atenção para a importância de comutadores
múltiplos de elementos de uma álgebra de Lie. Vamos aproveitar a oportunidade para introduzir
algumas noções algébricas muito empregadas no estudo de álgebras de Lie. Falaremos da sua relevância
adiante.
No que segue trataremos apenas de álgebras de Lie sobre o corpo dos números reais ou complexos.
Seja L uma álgebra de Lie e A, B dois subconjuntos de L. Por [A, B] denotamos o conjunto de
todos os elementos de L que são iguais ao comutador de algum elemento de A por algum elemento de
B. Em sı́mbolos:
[A, B] = {[a, b], a ∈ A, b ∈ B} . (11.11)

• Álgebras de Lie Nilpotentes

Seja uma álgebra de Lie L. Com a notação acima, denotaremos por L[n] , n = 0, 1, 2, . . ., a seqüência
de conjuntos obtida da seguinte forma: L[0] := L e L[n] = [L, L[n−1] ], n = 1, 2, . . .. Ou seja,
L[0] := L,

L[1] := [L, L[0] ] = [L, L],

L[2] := [L, L[1] ] = [L, [L, L]],

L[3] := [L, L[2] ] = [L, [L, [L, L]]],

..
.
etc.

Definição. Uma álgebra de Lie é dita ser nilpotente se L[m] = {0} para algum m.
O menor m para o qual L[m] = {0} é dito ser o grau ou ı́ndice da álgebra de Lie nilpotente. Note-se
0
que se L[m] = {0} então L[m ] = {0} para todo m0 > m.
Um exemplo de álgebra de Lie nilpotente é a álgebra de Heisenberg tri-dimensional gh3 , com
geradores p, q e ~, satisfazendo [p, ~] = 0, [q, ~] = 0 e [p, q] = −i~. Para ela vale (gh3 )[2] = {0}. Essa
álgebra foi apresentada e discutida na Seção 10.2.2 à página 574.
Há várias razões por que as álgebras de Lie nilpotentes são relevantes. Uma delas está no fato
de as álgebras de Lie nilpotentes serem igualmente álgebras de Lie solúveis (vide o que segue) e a
importância destas será discutida. O leitor pode reconhecer uma outra razão da importância das
álgebras de Lie nilpotentes na seguinte observação: para uma álgebra de Lie nilpotente a série de
Baker-Campbell-Hausdorff em (4.46) e (4.47) é uma série finita! Voltaremos a isso quando retomarmos
adiante a discussão da fórmula Baker-Campbell-Hausdorff.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 695/1195

• Álgebras de Lie Solúveis

Em paralelo à noção de álgebra de Lie nilpotente que apresentamos acima, existe a noção de álgebra
de Lie solúvel.
Para uma álgebra de Lie L, denotaremos por L(n) , n = 0, 1, . . ., a seqüência de conjuntos obtida
da seguinte forma: L(0) := L e L(n) := [L(n−1) , L(n−1) ], n = 1, 2, . . .. Ou seja,

L(0) := L,

L(1) := [L(0) , L(0) ] = [L, L],

L(2) := [L(1) , L(1) ] = [[L, L], [L, L]],

..
.

etc.

Definição. Uma álgebra de Lie é dita ser solúvel se L(m) = {0} para algum m.
Para qualquer álgebra de Lie L é bastante evidente, pelas definições, acima que L (n) ⊂ L[n] . De
fato, L(0) = L[0] e L(1) = L[1] e, se L(n) ⊂ L[n] para algum n, segue que L(n+1) = [L(n) , L(n) ] ⊂
[L, L(n) ] ⊂ [L, L[n] ] = L[n+1] , provando a afirmativa por indução.
Segue dessa observação que toda álgebra de Lie nilpotente é também solúvel.
A recı́proca dessa última afirmação é falsa: nem toda álgebra de Lie solúvel é nilpotente. Considere-
se com exemplo a álgebra de Lie bidimensional com geradores λ1 e λ2 satisfazendo [λ1 , λ2 ] = λ2 . Essa
álgebra não é nilpotente, pois [λ1 , [λ1 , [· · · , [λ1 , λ2 ]]]] = λ2 . Porém, essa álgebra é solúvel, pois
[[λ1 , λ2 ], [λ1 , λ2 ]] = [λ2 , λ2 ] = 0. Essa álgebra aparecerá concretamente no exemplo discutido à
página 701.
Há várias razões por que as álgebras de Lie solúveis são relevantes. Uma delas será discutida após
apresentarmos o Teorema de Levi, abaixo.

• Álgebras de Lie Simples e Semi-Simples

Se L é uma álgebra de Lie, dizemos que é um sub-espaço vetorial J de L é uma sub-álgebra (de Lie)
se
[J, J] ⊂ J.

Se L é uma álgebra de Lie, dizemos que um sub-espaço vetorial I de L é um ideal se

[L, I] ⊂ I.

Pela definição, todo ideal de L é uma sub-álgebra de Lie de L.


As álgebras de Lie nilpotentes e as solúveis possuem “muitos” ideais. Contrapostas às mesmas estão
as chamadas álgebras de Lie simples e semi-simples, que possuem “poucos” ideais.

Definição. Uma álgebra de Lie L é dita ser simples se seus únicos ideais forem {0} e a própria L.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 696/1195

Definição. Uma álgebra de Lie L é dita ser semi-simples se não possuir ideais solúveis (que não {0}).
É bem claro que toda álgebra de Lie simples é semi-simples.
Há várias razões por que as álgebras de Lie semi-simples são relevantes. Uma delas será discutida
após apresentarmos o Teorema de Levi, abaixo.

• Soma Direta e Soma Semi-Direta de Álgebras de Lie

Definição. Uma álgebra de Lie L é dita ser a soma direta de duas de suas sub-álgebras L 1 e L2 se

[L1 , L2 ] = 0

e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .


Se L for a soma direta de L1 e L2 denotamos isso por L = L1 ⊕ L2 .

Definição. Uma álgebra de Lie L é dita ser a soma semi-direta de duas de suas sub-álgebras L 1 e L2
se
[L1 , L2 ] ⊂ L1
e se todo elemento x ∈ L puder ser escrito de modo único da forma x = x1 + x2 com x1 ∈ L1 e x2 ∈ L2 .
Se L for a soma semi-direta de L1 e L2 denotamos isso por L = L1  L2 .
Note que L2 deve ser um ideal de L.
Nesse contexto é importante o seguinte teorema, cuja demonstração está além das pretensões destas
notas (vide e.g. [93, 67]):
Teorema 11.6 (Teorema de Levi) Toda álgebra de Lie L de dimensão finita é uma soma semi-
direta
L = SR
onde S é semi-simples e R solúvel. 2

A sub-álgebra R acima é denominada radical de L.


Exemplos. O chamado grupo Euclidiano18 em três dimensões E3 possui seis geradores J1 , J2 , J3
(geradores de rotações) e P1 , P2 , P3 (geradores de translações), satisfazendo as relações
3
X 3
X
[Ji , Jj ] = ijk Jk [Ji , Pj ] = ijk Pk [Pi , Pj ] = 0,
k=1 k=1

onde ijk é o sı́mbolo anti-simétrico de Levi-Civita definido em (10.33), página 591. Se denominarmos
por P a sub-álgebra gerada por P1 , P2 , P3 e por J a sub-álgebra gerada por J1 , J2 , J3 , veremos que
P é solúvel (pois é Abeliana) e que J é simples (e, portanto, semi-simples). É também imediato que
L = P  J.

*
18
Euclides, de Alexandria (ci. 325 A.C., ci. 265 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 697/1195

O teorema de Levi nos diz que o estudo geral de álgebras de Lie, e conseqüentemente, de grupos de
Lie, reduz-se ao estudo das álgebras de Lie solúveis (dentre as quais estão as nilpotentes) e das álgebras
de Lie semi-simples. Um dos resultados mais importantes da teoria das álgebras de Lie é uma célebre
classificação completa de todas as álgebras de Lie semi-simples, feito devido a Killing 19 e a Cartan20 .
Para o caso das álgebras solúveis uma classificação completa está ainda longe de ser alcançada.

11.4.2 Questões sobre a Exponenciação de Álgebras de Lie


Apesar de sua importância, a fórmula de Baker-Campbell-Hausdorff apresenta uma restrição quanto à
norma das matrizes A e B, necessária para garantir a convergência da série que ocorre em (4.46). Há,
porém, uma classe de álgebras de Lie para a qual essa questão não é importante, as chamadas álgebras
de Lie nilpotentes, das quais trataremos agora.

• Grupos de Lie Nilpotentes

A importância das álgebras de Lie nilpotentes no contexto da fórmula de Baker-Campbell-Hausdorff


(4.46), página 237, é a seguinte. Se L ⊂ Mat ( , n) é uma álgebra de Lie nilpotente de grau m de
matrizes, então para quaisquer A, B ∈ L teremos que A ∗ B definida em (4.46) é uma soma finita,
contendo no máximo comutadores múltiplos de ordem m.
Com isso, vemos que para uma álgebra de Lie nilpotente de matrizes L ⊂ Mat ( , n) não existe
o problema da convergência da série de (4.46), e a mesma vale para todo A, B ∈ L, independente da
norma desses elementos. Fora isso A ∗ B ∈ L, já que é dado por uma soma finita de elementos de L.
Uma conseqüência é a seguinte proposição.
Proposição 11.8 Seja G um subgrupo de Lie de GL( , n) e LG ⊂ Mat ( , n) sua álgebra de Lie.
Vamos supor que LG seja nilpotente. Então o produto ∗ definido pela fórmula de Baker-Campbell-
Hausdorff é associativo. Fora isso, a álgebra de Lie LG é, ela mesma, um grupo com o produto ∗.
2

Prova. Sejam P A1 , A2 e A3 três elementos de LG . Se L1 , . . . , Lm formam uma base em LG podemos


escrever A = m
i i i
k=1 αk Lk , onde αk são números complexos. Como a soma de comutadores que ocorre
na fórmula de Baker-Campbell-Hausdorff é finita, concluı́mos que
m
X m
X
1 2 3 1 2 3
(A ∗ A ) ∗ A = pk (α)Lk e A ∗ (A ∗ A ) = qk (α)Lk ,
k=1 k=1

onde pk (α) e qk (α) são polinômios nas variáveis αji , i = 1, 2, 3, j = 1, . . . , m. Desejamos provar
que para cada k tem-se pk = qk . Como ambos são polinômios, é suficiente provar isso para quando as
variáveis αji estão restritas a algum aberto de .
Sejam Gi = exp(Ai ), i = 1, 2, 3, elementos de G. Como o produto do grupo é associativo, temos
(G1 G2 )G3 = G1 (G2 G3 ) e, portanto, exp((A1 ∗ A2 ) ∗ A3 ) = exp(A1 ∗ (A2 ∗ A3 )). Se escolhermos as
19
Wilhelm Karl Joseph Killing (1847-1923).
20
Elie Joseph Cartan (1869-1951).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 698/1195

variáveis αji suficientemente próximas de zero, teremos pk (α) e qk (α) igualmente próximas de zero
(convença-se disso checando a fórmula de Baker-Campbell-Hausdorff) e, portanto, k(A 1 ∗ A2 ) ∗ A3 k e

kA1 ∗ (A2 ∗ A3 )k podem ser ambas feitas menores que ln 2. Pela Proposição 4.5, página 219, podemos


tomar o logaritmo das exponenciais acima e concluir que (A1 ∗ A2 ) ∗ A3 = A1 ∗ (A2 ∗ A3 ). Assim,
m
X m
X
pk (α)Lk = qk (α)Lk
k=1 k=1

pelo menos para αji pequenos o suficiente. Como os elementos Lk da base são linearmente independentes,
concluı́mos que pk (α) = qk (α) para todo k = 1, . . . , m, pelo menos quando os αji são pequenos o
suficiente. Como pk e qk são polinômios, isso vale para todos αji ∈ . Isso provou a associatividade.
Para provar que LG é um grupo, devemos mostrar que há um elemento neutro em LG para o produto
∗ e que para cada elemento de LG existe uma inversa. Pela fórmula de Baker-Campbell-Hausdorff é
fácil constatar que
A∗0 = 0∗A = A
para todo A ∈ LG . Assim o zero é o elemento neutro procurado. Fora isso, também pela fórmula de
Baker-Campbell-Hausdorff é fácil constatar que

A ∗ (−A) = A + (−A) + comutadores de A com − A = 0.

Logo, (LG , ∗) é um grupo.

Esses fatos têm ainda uma conseqüência importante. Seja L ⊂ Mat ( , n) uma álgebra de Lie
nilpotente de matrizes. Definamos por exp(L) o conjunto de todas as matrizes que são exponenciais
de elementos de L:

exp(L) = {G ∈ Mat ( , n)| G = exp(A) para algum A ∈ L} .

Afirmamos que exp(L) é um grupo (em relação ao produto usual de matrizes), em verdade um subgrupo
de GL( n). De fato, ∈ exp(L), pois, 0 ∈ L. Se G = exp(A) com A ∈ L, então sua inversa
é G−1 = exp(−A), que também pertence a exp(L) pois −A ∈ L. Por fim, se G1 = exp(A1 ) e
G2 = exp(A2 ) com A1 e A2 dois elementos quaisquer de ∈ L, então, pela fórmula de Baker-Campbell-
Hausdorff, G1 G2 = exp(A1 ∗ A2 ) ∈ exp(L), pois A1 ∗ A2 ∈ L.
A conclusão é que a partir de uma álgebra de Lie nilpotente L podemos construir um grupo,
denominado grupo de Lie associado à álgebra L pelo procedimento de exponenciação. É importante
notar que L é um conjunto conexo. Portanto, como a exponencial é contı́nua, o grupo exp(L) é
igualmente conexo.
Interessantemente vale também a recı́proca. Seja G um grupo de Lie conexo fechado (de matri-
zes) e LG sua álgebra de Lie e vamos supor que LG seja nilpotente. Considere, para algum  > 0
suficientemente pequeno, o subconjunto V de LG definido por
( m )
X
V := λk Lk , com |λi | <  para todo i = 1, . . . , m ,
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 699/1195

e o subconjunto U de G definido por


( m
! )
X
U := exp λk Lk , com |λi | <  para todo i = 1, . . . , m ,
k=1

onde L1 , . . . , Lm formam uma base em LG .


Note-se
Pm que V é um subconjunto aberto
Pmde LG . Note-se também que ∈ U e que se g =
−1
exp ( k=1 λk Lk ) ∈ U então g = exp (− k=1 λk Lk ) ∈ U . Assim, se provarmos que U é aberto
poderemos usar a Proposição 11.3, página 674.
P
Se  for pequeno o suficiente poderemos garantir que k m k=1 λk Lk k < ln
P2msempre que |λP


i | <  para
todo i = 1, . . . , m e, pela Proposição 4.5, página 219, teremos ln (exp ( k=1 λk Lk )) = m k=1 λk Lk .
Logo U é a imagem inversa pela função ln do conjunto aberto V . Como ln é uma função contı́nua
(Proposição 4.3, página 217) concluı́mos que U é igualmente aberto.
Logo, pela Proposição 11.3, cada elemento g de G pode ser escrito como um produto de n ele-
mentos de U : g = g1 · · · gn , onde gi = exp(li ) com li ∈ V . Agora, como a álgebra é nilpotente, vale
exp(l1 ) · · · exp(ln ) = exp(l1 ∗ · · · ∗ ln ). Com isso, fica demonstrada a seguinte afirmação: se G é um
subgrupo conexo fechado de GL( , n) e se sua álgebra de Lie LG é nilpotente, então todo elemento
de G pode ser escrito como exponencial de um elemento de LG . Um exemplo dessa situação é o grupo
de Heisenberg GH3 , tratado à página 575.
Observação 1. O número n mencionado no último parágrafo pode não ser o mesmo para todo g ∈ G
(vide o enunciado da Proposição 11.3), podendo eventualmente crescer arbitrariamente quando g varia
no grupo. Porém, como a álgebra LG é nilpotente, o produto l1 ∗ · · · ∗ ln está sempre definido para
qualquer n.
Observação 2. Nas circunstâncias descritas acima, é fácil constatar que a função exponencial exp :
LG → G é um isomorfismo do grupo (LG , ∗) em G.
Grupos de Lie com álgebras de Lie nilpotentes não são os únicos grupos de Lie para os quais vale que
todo seu elemento pode ser escrito como exponencial de um elemento da sua álgebra de Lie. É possı́vel
mostrar que grupos de Lie compactos com álgebras de Lie semi-simples também têm essa propriedade.
Para uma demonstração vide, por exemplo, [114]. Vimos isso de modo explı́cito quando tratarmos dos
grupos SO(3), SU(2), SL( , 2), SU(n) e SO(n) no Capı́tulo 10.
Para grupos de Lie não-conexos tipicamente ocorre que não se pode escrever todos os seus elementos
como exponenciais de elementos de sua álgebra de Lie. Tal é, por exemplo, o caso do grupo de Lie
GL( , 2), cuja álgebra de Lie é Mat ( , 2). A exponencial de matrizes reais 2 × 2 é sempre formada
 

por matrizes com determinante positivo (pela Proposição 4.7, página 222), enquanto que GL( , 2) 

possui também matrizes com determinante negativo. Vide Proposição 4.10, página 224.
Porém, como veremos no exemplo discutido em detalhe à página 701, não basta que um grupo de
Lie seja conexo para que todos os seus elementos possam ser escritos como exponenciais de elementos
de sua álgebra de Lie. Em vários casos, todavia, os elementos do grupo podem ser escritos como um
produto finito de exponenciais. Tal também ocorre no exemplo da página 701.
Para um grupo de Lie conexo G é possı́vel, sob hipóteses adequadas que não discutiremos aqui,
construir um grupo de Lie simplesmente conexo a partir de sua álgebra de Lie, usando um procedi-
mento semelhante ao que empregamos quando discutimos acima o caso de álgebras de Lie nilpotentes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 700/1195

Constrói-se primeiramente uma vizinhança U da identidade que seja simétrica (ou seja, se g ∈ U então
g −1 ∈ U ) –por exemplo a vizinhança na qual a fórmula de Baker-Campbell-Hausdorff converge, no caso
de matrizes– e em seguida considera-se o conjunto formado por produtos finitos de elementos de U , o
chamado grupo gerado por U . Esse conjunto é em geral um grupo de Lie simplesmente conexo que é
um recobrimento do grupo original G.

11.4.3 Alguns Exemplos Especiais

• Um subgrupo conexo não-fechado de GL( , 2)

Exibiremos aqui um exemplo de um sub-grupo conexo não-fechado de GL( , 2) o qual é um grupo


de Lie mas não é um subgrupo de Lie de GL( , 2). Isso significa que a topologia que faz desse subgrupo
Ha um grupo de Lie não é a topologia induzida por GL( , 2) em Ha .
Esse exemplo é bastante instrutivo e ilustra o porquê de haverem certas dificuldades sutis de natureza
topológica na teoria dos grupos de Lie (e na geometria diferencial, em geral).
O grupo em questão é o seguinte grupo de matrizes a um parâmetro real:
 it  
e 0
Ha := , t∈ ,
0 eiat


onde a é um número real irracional fixo arbitrário. Para mostrar que esse grupo não é fechado, vamos
exibir uma seqüência convergente de matrizes de Ha que não converge a um elementode Ha . Considere 
−1 0
tn = (2n+1)π com n ∈ . As matrizes de Ha correspondentes a esses valores de t são .
0 ei2πa(2n+1)


Sucede que, como a é irracional, os números complexos da forma ei2πa(2n+1) , com n ∈ , formam um 

conjunto denso em todo o cı́rculo unitário do plano complexo21 . Assim, existe uma sub-seqüência nk
tal que ei2πa(2nk +1) converge a −1 quando k → ∞. Isso mostra que a matriz − está no fecho de
Ha . Sucede, porém, que − 6∈ Ha pois, para a irracional, não existe nenhum t real tal que valham
simultaneamente eit = −1 e eiat = −1 (prove isso). Isso mostra que Ha não é fechado.
 it 
e 0
Por outro lado, é claro que há uma aplicação bijetora de em Ha dada por 3 t 7→ ,a
0 eiat
 

qual induz a topologia usual de em Ha , topologia essa na qual Ha é um grupo de Lie, como facilmente


se vê. Essa topologia não coincide com a topologia induzida em Ha pela norma de matrizes em Ha .
Há uma maneira geométrica de entender o que está acontecendo nesse grupo. Considere o seguinte
grupo de Lie de matrizes 2 × 2:
 it  
e 0
T := , t, s ∈ .
0 eis


Esse grupo de Lie (a dois parâmetros reais) pode ser visualizado como um toro bidimensional (pois é
o produto cartesiano de dois cı́rculos: o cı́rculo eit com t ∈ e o cı́rculo eis com s ∈ ). Cada grupo
 

21
O leitor para o qual esse fato não é familiar poderá encontrar demonstrações em bons livros sobre teoria de números,
por exemplo [53].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 701/1195

Ha é um subgrupo de T e, nessa imagem, corresponde a uma curva (pois cada Ha é unidimensional)


que preenche densamente o toro sem auto-cruzamentos. Dessa forma entende-se que o fecho de H a na
topologia da norma das matrizes é o grupo T .
Se imaginarmos um aberto no toro, veremos que este intercepta a curva que corresponde a H a em
infinitos segmentos. Assim, Ha não é uma sub-variedade de T e, portanto, apesar de ser um subgrupo
de T , Ha não pode ser um subgrupo de Lie de T na topologia de T .

• Exponenciação e álgebras de Lie matriciais. Um contra-exemplo

Vamos agora apresentar um exemplo de um grupo de Lie conexo no qual não podemos escrever
todos os seus elementos como exponenciais de elementos de sua álgebra de Lie, ou seja, a exponencial
de sua álgebra de Lie não é sobrejetora no grupo.
Seja α um número real irracional22 fixo. Vamos considerar o seguinte conjunto de matrizes comple-
xas 2 × 2:
Hα := {h(t, z), t ∈ , z ∈ } , 

onde  
eit z
h(t, z) := . (11.12)
0 eiαt
Afirmamos que Hα é um sub-grupo de GL( , 2). De fato,

= h(0, 0) ∈ Hα ,
0
h(t, z)h(t0 , z 0 ) = h(t + t0 , zeiαt + z 0 eit ) ∈ Hα e

h(t, z)−1 = h(−t, −ze−i(1+α)t ) ∈ Hα .

E. 11.11 Exercı́cio. Verifique! 6

Hα é um grupo de Lie conexo parametrizado por t ∈ e z ∈ . De fato, o grupo Hα é homeomorfo




à variedade conexa × . O homeomorfismo de × em Hα é dado pela função h definida em


 

(11.12), isto é, h : × → Hα ,




 it 
e z
(t, z) 7→ h(t, z) := .
0 eiαt

Claramente, h é contı́nua (certo?). Vamos mostrar que h é bijetora. Suponha que existam (t, z) e
(t0 , z 0 ) ∈ × tais que h(t, z) = h(t0 , z 0 ), ou seja,


 it   it0 
e z e z0
= 0 .
0 eiαt 0 eiαt
22
Como veremos abaixo, é crucial para a construção desejada que α não seja racional.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 702/1195

Isso implica as três seguintes condições simultâneas:


0
eit = eit (11.13)
0
eiαt = eiαt (11.14)

z = z0 . (11.15)

As relações (11.13) e (11.14) implicam

t = t0 + 2πk e αt = αt0 + 2πl,

respectivamente, para k, l ∈ . Assim, multiplicando-se a primeira igualdade por α e subtraindo-se


da segunda, terı́amos
αk = l
para k, l ∈ . Mas isso é impossı́vel se α for um número irracional, a menos que k = l = 0. Com isso,
concluı́mos que t = t0 , fato esse que, juntamente com (11.15), prova que h é uma bijeção. Mais ainda,
é bem claro que h é infinitamente diferenciável e, portanto, é um difeomorfismo.
Vamos determinar os geradores de Hα , que denotaremos por λ1 , λ2 :
 
∂ i 0
λ1 =
h(t, z) = ,
∂t t=z=0
0 iα
 
∂ 0 1
λ2 =
h(t, z) = .
∂z t=z=0
0 0

E. 11.12 Exercı́cio. Verifique! 6

Um elemento genérico da álgebra de Lie L(Hα ) associada a Hα é, portanto, da forma


 
iτ w
h(τ, w) := τ λ1 + wλ2 = ,
0 iατ
com τ ∈  ew∈ .

E. 11.13 Exercı́cio. Constate que [λ1 , λ2 ] = i(1 − α)λ2 . Conclua daı́ que a álgebra de Lie L(Hα )
associada a Hα não é nilpotente, não é simples e não é semi-simples, mas é solúvel. 6

Vamos nos dedicar agora a calcular exp(h(τ, w)). É muito fácil provar que
 
(iτ )2 w(iτ )(1 + α)
h(τ, w)2 =  
2
0 (iατ )
e que  
(iτ )3 w(iτ )2 (1 + α + α2 )
h(τ, w)3 =  .
3
0 (iατ )
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 703/1195

Por indução, vê-se também que


 n−1
!   
X 1 − αn
n n−1 p n n−1
(iτ ) w(iτ ) α  (iτ ) w(iτ )
  1−α 
h(τ, w) n
=  p=0  = 

,

 
n
0 (iατ )n 0 (iατ )

para todo n ≥ 1. Na última igualdade usamos a bem conhecida fórmula da progressão geométrica.

E. 11.14 Exercı́cio importante. Mostre isso! 6

Dessa forma, obtemos


X∞
1
exp(h(τ, w)) = + h(τ, w)n
n=1
n!
 X∞ X∞  
1 1 1 − αn
1 + (iτ )n w (iτ ) n−1

 n=1
n! n=1
n! 1−α  
 
=  
 ∞
X 1 
 n 
0 1+ (iατ )
n=1
n!
 
eiτ wf (τ )
=  ,
iατ
0 e

onde ∞  
X 1 1 − αn
n−1
f (τ ) := (iτ ) .
n=1
n! 1−α

Vamos agora expressar melhor a função f (τ ). Note-se que f (0) = 1 e que, para τ = 6 0,
∞   ∞ ∞
!
X 1 1 − α n
1 X 1 X 1
(iτ )n−1 = (iτ )n−1 − α (iατ )n−1
n=1
n! 1 − α 1 − α n=1
n! n=1
n!
   
1 eiτ − 1 eiατ − 1
= −
1−α iτ iτ
 
1 eiτ − eiατ
=
1−α iτ
 
eiατ ei(1−α)τ − 1
= .
1−α iτ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 704/1195

Assim, 

 1, para τ = 0,

f (τ ) =  

 eiατ ei(1−α)τ − 1
 , para τ 6= 0
1−α iτ
e, finalmente,  
eiτ wf (τ )
exp(h(τ, w)) =  . (11.16)
iατ
0 e

A questão que agora se põe é: será o conjunto de matrizes exp(L(H α )) := {exp(h(τ, w)), τ ∈ , w ∈ } 


igual a Hα ? A resposta é não! Para provar isso mostraremos que as matrizes h 1−α , z com z 6= 0
não são elementos do conjunto exp(L(Hα )). Se tal não fosse o caso, existiriam τ ∈ e w ∈ tais que 

 

h , z = exp(h(τ, w)),
1−α

ou seja,  
2π  
ei 1−α z eiτ wf (τ )
 
  =  .
2πα iατ
0 ei 1−α 0 e
Isso só é possı́vel se as seguintes três condições forem satisfeitas simultaneamente:

ei 1−α = eiτ , (11.17)
2πα
ei 1−α = eiατ , (11.18)

z = wf (τ ). (11.19)

As condições (11.17) e (11.18) implicam



τ = + 2πk
1−α
e
2πα
ατ = + 2πl,
1−α
respectivamente, com k, l ∈ . Das duas concluı́-se (multiplicando a primeira por α) que

2πkα = 2πl, ou seja, kα = l.

Porém, como α foi suposto ser um número irracional, isso só é possı́vel se k = l = 0. Portanto

τ = .
1−α
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 11 705/1195

Ocorre agora, porém, que inserindo-se esse valor de τ no lado direito de (11.19) obtemos
  2πα 2π
!  2πi 
2π ei 1−α ei(1−α) 1−α − 1 2πα
i 1−α e −1
wf = w 2π = we = 0
1−α 1−α i 1−α 2πi

e, conseqüentemente, (11.19) não pode ser satisfeita para z 6= 0.


Esse exemplo ilustra bem o fato mencionado de haver situações nas quais a imagem pela exponen-
ciação da álgebra de Lie L(G) associada a um grupo de Lie G não coincide com o grupo G.

E. 11.15 Exercı́cio. Seja um grupo de Lie simplesmente conexo G, cuja álgebra de Lie é L. Um
teorema devido a Dixmier [61] afirma, entre outras coisas, que exp(L) = G se exp for injetora. Mostre que
(τ, w) 7→ exp(h(τ, w)) definida em (11.16) não é injetora. 6

No exemplo acima vale, porém, a seguinte afirmação: todo elemento de Hα pode ser escrito como
produto de duas exponenciais de elementos da álgebra de Lie L(Hα ), a saber, da forma

exp(h(τ, 0)) exp(h(0, w)) .

De fato, é bem fácil ver que


 it   it  
e z e 0 1 e−it z
h(t, z) = = = exp(h(t, 0)) exp(h(0, e−it z)).
0 eiαt 0 eiαt 0 1
Capı́tulo 12
Uma Breve Introdução à Teoria das
Representações de Grupos
Conteúdo

12.1 Representações de Grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706


12.2 Representações Irredutı́veis de SO(3) . . . . . . . . . . . . . . . . . . . . . 713
12.3 A Medida de Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
12.4 Representações de Grupos Compactos . . . . . . . . . . . . . . . . . . . . . 719
12.5 O Teorema de Peter-Weyl . . . . . . . . . . . . . . . . . . . . . . . . . . . . 720

rupos desempenham um papel importante na Fı́sica em geral devido a sua relação com trans-
formações de simetria. Na Fı́sica Quântica (na Mecânica Quântica ou na Teoria Quântica de
Campos), onde o conjunto de estados puros de um sistemas fı́sicos é descrito por um espaço
linear, torna-se particulamente relevante estudar a ação de grupos de simetria em espaços
vetoriais. Essa é a motivação básica do estudo de representações de grupos.

12.1 Representações de Grupos


Uma representação de um grupo G em um espaço vetorial V é uma aplicação que a cada g ∈ G associa
um operador linear invertı́vel Π(g) : V → V de modo que as seguintes condições sejam satisfeitas:

1. Π(e) = .

2. Π(g)Π(h) = Π(gh), ∀g, h ∈ G.

3. Π(g −1 ) = Π(g)−1 , ∀g ∈ G.

Acima e é a unidade de G e o operador identidade em V .


Há outras formas equivalentes de caracterizar ou definir o conceito de representação de um grupo.
Podemos dizer que uma representação de um grupo em um espaço vetorial V é um homomorfismo de
G no grupo dos operadores lineares invertı́veis de V em V , ou ainda, que é uma ação à esquerda de G
em V através de operadores lineares invertı́veis.

• A Representação Trivial

A representação que associa todo g ∈ G ao operador identidade em V , ou seja, tal que π(g) = ,
∀g ∈ G, é denominada representação trivial.

706
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 707/1195

• Intertwiners

Seja G um grupo e V1 , V2 dois espaços vetoriais (sobre o mesmo corpo) onde atuem duas repre-
sentações de G: Π1 e Π2 , respectivamente em V1 e V2 . Um operador U : V1 → V2 tal que
U Π1 (g) = Π2 (g)U,
para todo g ∈ G, é dito ser um operador de entrelaçamento de Π1 e Π2 . Operadores de entrelaçamento
são mais freqüentemente designados intertwiners.
Voltaremos a falar sobre intertwiners quando tratarmos do importante Lema de Schur adiante.

• Representações Equivalentes

As duas representações são ditas equivalentes se existir um operador invertı́vel U : V 1 → V2 tal que
U Π1 (g) = Π2 (g)U
para todo g ∈ G, ou seja, se Π1 e Π2 possuı́rem um intertwiner invertı́vel.
É muito fácil mostrar que a equivalência de duas representações é uma relação de equivalência (no
sentido usual) e que, portanto, a classe de todas as representações de um grupo pode ser quebrada em
classes de representações equivalentes.
Um grupo pode ter várias representações distintas (e inequivalentes) em um mesmo espaço vetorial.

E. 12.1 Exercı́cio. Seja G = ( , +) e V = 2 . Mostre que


 

     
1 x 1 0 cos x − sen x
T1 (x) := , T2 (x) := e R(x) := ,
0 1 x 1 sen x cos x
x ∈ , são três representações de G. Mostre que T1 e T2 são equivalentes (sugestão: tome U = ( 01 10 )).


Mostre que R e T1 (ou T2 ) não são equivalentes (sugestão: se o fossem, veja o que ocorreria para x = 2π).
6

• Sub-Espaços Invariantes

Seja G um grupo, V um espaço vetorial e Π uma representação de G em V . Seja V 0 um sub-espaço


de V . V 0 é dito ser um sub-espaço invariante por Π se Π(g)v 0 ∈ V 0 para todo v 0 ∈ V 0 e todo g ∈ G, ou
seja, se Π(G)V 0 ⊂ V 0 .
Qualquer representação possui sempre pelo menos dois sub-espaços invariantes: aquele formado
apenas pelo vetor nulo V 0 = {0} e aquele formado pelo espaço todo V 0 = V . Esses sub-espaços
invariantes são ditos triviais.

E. 12.2 Exercı́cio. 1. Mostre que a representação T1 , definida acima, tem um sub-espaço invariante de
dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( a0 ), a ∈ . Mostre que nenhum outro


sub-espaço de dimensão 1 de 2 é invariante por T1 . 2. Mostre que a representação T2 , definida acima,




tem um sub-espaço invariante de dimensão 1, a saber, o sub-espaço formado pelos vetores da forma ( 0b ),
b ∈ . Mostre que nenhum outro sub-espaço de dimensão 1 de 2 é invariante por T2 . 3. Mostre que a
 

representação R, definida acima, não tem nenhum sub-espaço invariante não-trivial. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 708/1195

4
E. 12.3 Exercı́cio. Verifique que as expressões abaixo definem representações de G = ( , +) em V =
 

e identifique seus sub-espaços invariantes.


     
1 x 0 0 1 x 0 0 cos x − sen x 0 0
0 1 0 0 0 1 0 0   sen x cos x 0 0 
Π1 (x) = 
0
, Π2 (x) =  , Π3 (x) =  .
0 1 x 0 0 cos x − sen x  0 0 cos x − sen x
0 0 0 1 0 0 sen x cos x 0 0 sen x cos x

• Representações Irredutı́veis

De grande importância é o conceito de representação irredutı́vel de um grupo G em um espaço


vetorial V . Uma representação Π de um grupo G em um espaço vetorial V é dita ser irredutı́vel se os
seus únicos sub-espaços invariantes forem os triviais.
Uma representação que não é irredutı́vel é dita ser redutı́vel.

E. 12.4 Exercı́cio. Mostre que as representações T1 e T2 , definidas à página 707, são redutı́veis. Mostre
que a representação R é irredutı́vel. 6

Vamos supor que V seja um espaço de dimensão finita, digamos n, e que Π seja uma representação
de um grupo G em V que possua um sub-espaço invariante não-trivial V 0 (ou seja, Π é redutı́vel).
Seja m ≤ n a dimensão de V 0 . Então é possı́vel encontrar uma base em V tal que Π(g) possui a
representação matricial em blocos  
π1 (g) α(g)
Π(g) =
0 π2 (g)
para todo g ∈ G, onde π1 (g) é uma matriz m × m, π2 (g) é uma matriz (n − m) × (n − m), e α(g) é
uma matriz m × (n − m).
Mostrar isso é bem simples, basta representar cada v ∈ V em uma base e1 , . . . , en , onde e1 . . . , em
formam uma base de V 0 .
O seguinte exercı́cio revela uma propriedade importante dos blocos π1 e π2 :

E. 12.5 Exercı́cio. Mostre que π1 e π2 definidos acima são também representações de G. 6

Uma representação Π de um grupo G em um espaço vetorial V é dita ser totalmente redutı́vel


se for redutı́vel e se V puder ser escrita como uma soma direta de sub-espaços invariantes por Π:
V = V1 ⊕ · · · ⊕ Vk . Em tal caso Π(g) pode ser escrita em uma base conveniente na forma de blocos
 
π1 (g)
 .. 
Π(g) =  . 
πk (g)

para todo g ∈ G, onde cada πi (g) é uma representação de G agindo no espaço invariante Vi de Π. Em
um tal caso denotamos Π da forma Π = π1 ⊕ · · · ⊕ πk .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 709/1195

Particularmente importante é a situação em que Π é totalmente redutı́vel e cada π i é irredutı́vel.


Em tal caso dizemos que Π é maximalmente redutı́vel ou completamente redutı́vel.

E. 12.6 Exercı́cio. Sejam as representações T1 e T2 definidas à página 707. Mostre que T1 e T2 não são
totalmente redutı́veis. 6

E. 12.7 Exercı́cio. Sejam as representações Π1 , Π2 e Π3 definidas à página 708. Mostre que Π1 e Π2


são totalmente mas não maximalmente redutı́veis. Mostre que Π 3 é maximalmente redutı́vel. 6

Nesse contexto a seguinte proposição é importante:


Proposição 12.1 Seja V um espaço vetorial complexo de dimensão finita e Π uma representação de
um grupo G por operadores unitários. Então ou Π é irredutı́vel ou é maximalmente redutı́vel. 2

Para provar essa proposição, vamos antes demonstrar o seguinte lema, o qual tem importância por
si só, como veremos mais adiante.
Lema 12.1 Seja V um espaço vetorial complexo e Π uma representação de um grupo G por operadores
unitários. Se W é um sub-espaço invariante por Π então seu complemento ortogonal W ⊥ também o é.
2

Prova. Como Π é unitário, vale Π(g)∗ = Π(g)−1 = Π(g −1 ) para todo g ∈ G. Seja w 0 ∈ W ⊥ e w ∈ W .
Então, para qualquer g ∈ G

hΠ(g)w 0 , wi = hw 0 , Π(g)∗ wi = hw 0 , Π(g −1 )wi = 0

pois Π(g −1 )w ∈ W , já que W é invariante, e w 0 é ortogonal e todo elemento de W . Como w é um


elemento arbitrário de W , isso mostrou que Π(g)w 0 ∈ W ⊥ para todo g ∈ G, provando assim que W ⊥ é
invariante.

Vamos agora provar a proposição. Se Π é unitária e é redutı́vel, então V possui um sub-espaço


invariante não trivial V1 e, pelo lema acima, V2 = V1⊥ é também invariante. Logo, Π é totalmente
redutı́vel, V = V1 ⊕ V2 e Π = π1 ⊕ π2 . Agora, é fácil ver que cada π1 é também uma representação
unitária (por quê?). Assim, podemos aplicar a mesma conclusão a cada πi e, se πi for redutı́vel,
podemos tornar a quebrar o sub-espaço Vi em sub-espaços invariantes ainda menores e πi em uma
soma de representações unitárias menores. Como a dimensão de V é finita, esse procedimento terá
forçosamente um fim e cada representação menor a que se chegar será forçosamente irredutı́vel.

E. 12.8 Exercı́cio. Mostre que as mesmas conclusões valem para representações ortogonais em espaços
vetoriais reais. 6

• Representações Irredutı́veis para Operadores


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 710/1195

Um outro conceito importante é o seguinte. Uma representação Π de um grupo G em um espaço


vetorial V é dita ser irredutı́vel para operadores se valer a seguinte propriedade: os únicos operadores
A : V → V tais que
AΠ(g) = Π(g)A
para todo g ∈ G são da forma A = λ , ou seja, são múltiplos da identidade.
Podemos nos perguntar qual a relação entre essa noção e a de representação irredutı́vel. Vamos
demonstrar adiante os seguintes fatos: 1) toda representação irredutı́vel complexa de dimensão finita
é irredutı́vel para operadores. 2) toda representação unitária que seja irredutı́vel para operadores é
também irredutı́vel.
Várias das conseqüências mais importantes da teoria das representações de grupos são extraı́das
dessas observações. Como vemos elas nos dizem que para representações unitárias complexas e de
dimensão finita (de particular interesse na fı́sica quântica) os conceitos de representação irredutı́vel e
representação irredutı́vel para operadores são coincidentes.
Vamos começar demonstrando a afirmação 2).
Proposição 12.2 Se Π é uma representação unitária que é irredutı́vel para operadores, então Π é
também irredutı́vel. 2

Prova. Vamos supor W seja um sub-espaço invariante por Π. Seja P o projetor sobre W . Então, − P
é o projetor sobre W ⊥ , que é também invariante, pois Π é unitária. É evidente que

Π(g)P x = P Π(g)P x,

pois Π(g)P x ∈ W . Por outro lado, como x = P x + ( − P )x, então

P Π(g)x = P Π(g)P x + P Π(g)( − P )x = P Π(g)P x,

pois P Π(g)( − P )x = 0, já que W ⊥ é invariante. Comparando-se, concluı́mos que Π(g)P x = P Π(g)x
para todo x e todo g ∈ G, ou seja,
Π(g)P = P Π(g)
para todo g ∈ G. Porém, como Π é irredutı́vel para operadores, isso só é possı́vel se P = λ . Como
P 2 = P , tem-se λ = 0 ou λ = 1. No primeiro caso P = 0, no segundo, P = , ou seja, no primeiro
caso W = {0} e no segundo W é o espaço todo. Ora, isso diz precisamente que Π é irredutı́vel.

Vamos agora passar a demonstração da afirmação 1), acima. A mesma é corolário de um lema
algébrico de grande importância. O chamado lema de Schur1 .

• Lema de Schur

Lema 12.2 (Schur) Se Π1 e Π2 são duas representações irredutı́veis de um grupo G em espaços


vetoriais V1 e V2 , respectivamente, e A : V1 → V2 é um intertwiner de Π1 e Π2 , ou seja, AΠ1 (g) =
Π2 (g)A para todo g ∈ G, então ou A é invertı́vel ou A = 0. Caso A seja invertı́vel e V 1 e V2 sejam
1
Issai Schur (1875-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 711/1195

espaços vetoriais complexos de dimensão finita, então A e único, a menos de multiplicação por escalar.
2

Prova. Sejam
M1 := Ker(A) ⊂ V1

M2 := Ran(A) ⊂ V2
o núcleo e a imagem de A, respectivamente2 . É fácil ver que M1 e M2 são sub-espaços invariantes de Π1
e Π2 , respectivamente. De fato, se x ∈ M1 tem-se Ax = 0. Logo, AΠ1 (g)x = Π2 (g)Ax = 0, provando
que Π1 (g)x ∈ M1 para todo g ∈ G, ou seja, M1 é invariante por Π1 . Analogamente, se y ∈ M2 temos
que y = Ax para algum x ∈ V1 . Assim, Π2 (g)y = Π2 (g)Ax = AΠ1 (g)x ∈ Ran(A), mostrando, assim,
que M2 é invariante por Π2 .
Pelas hipóteses do lema, Π1 e Π2 são irredutı́veis e só possuem sub-espaços invariantes triviais.
Valem, portanto, os seguintes quatro casos apenas:

1. M1 = V1 e M2 = V2 .
2. M1 = {0} e M2 = V2 .
3. M1 = V1 e M2 = {0}.
4. M1 = {0} e M2 = {0}.

Os casos 1 e 4 são impossı́veis: se Ker(A) = V1 não se pode ter Ran(A) = V2 ; se Ker(A) = {0} não se
pode ter Ran(A) = {0}. Assim, valem apenas os casos 2 e 3. No caso 2 tem-se que A é invertı́vel. No
caso 3, tem-se que A = 0.
Resta-nos provar que, caso A seja invertı́vel e V1 e V2 sejam espaços vetoriais complexos de dimensão
finita, então A é único, a menos de multiplicação por escalar. Se A é invertı́vel, então a dimensão de
V1 é igual a de V2 e A pode ser visto como uma matriz quadrada. Seja B um outro intertwiner de Π1 e
Π2 . Então, para qualquer λ ∈ tem-se (A − λB)Π1 (g) = Π2 (g)(A − λB). Portanto, ou (A − λB) = 0
ou é invertı́vel. Podemos, porém, escolher λ de modo que det(A − λB) = 0. Isso é sempre possı́vel, pois
det(A − λB) é um polinômio em λ e polinômios sempre têm raı́zes complexas. Para uma tal escolha
de λ, a matriz A − λB não é invertı́vel e, portanto, é nula e A = λB.

O Lema de Schur tem várias conseqüências importantes. A primeira é o seguinte:


Corolário 12.1 Se Π é uma representação irredutı́vel complexa de dimensão finita de um grupo G
então Π é irredutı́vel para operadores. 2

Prova. Seja A tal que AΠ(g) = Π(g)A para todo g ∈ G. Sabemos também que Π(g) = Π(g) ,
trivialmente. Pela unicidade afirmada no Lema de Schur, A = λ .

Outro corolário importante é o seguinte:


2
Para os esquecidos, Ker(A) := {x ∈ V1 | Ax = 0}. Ran(A) := {y ∈ V2 | y = Ax para algum x ∈ V1 }.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 712/1195

Corolário 12.2 As representações irredutı́veis complexas de dimensão finita de um grupo Abeliano


são unidimensionais. 2

Prova. Se G é Abeliano e Π uma representação de G, vale Π(h)Π(g) = Π(g)Π(h) para quaisquer


g, h ∈ G. Assim, se Π é irredutı́vel complexa e de dimensão finita, segue do corolário anterior que
Π(h) = λ(h) , ou seja, Π(h) é uma matriz diagonal com λ(h) na diagonal. Como Π é irredutı́vel, a
dimensão do espaço só pode ser igual a 1.

• Exemplos

E. 12.9 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
N , N ≥ 2, são  
2πik
Πk (a) = exp a ,
N
a∈ N, k = 0, , . . . N − 1. 6

E. 12.10 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
SO(2) são
Πp (φ) = exp (ipφ) ,
φ ∈ [0, 2π), p ∈ . 6

Note que o grupo SO(2) tem representações irredutı́veis reais que não são unidimensionais. Por
cos(φ) − sen (φ)
exemplo, aquela que define o próprio grupo SO(2): R(φ) = , φ ∈ [0, 2π).
sen (φ) cos(φ)
E. 12.11 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
( , +) são


Πz (x) = exp (zx) ,


x∈  ,z∈ . 6

E. 12.12 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
( , +) são


Πk (x) = exp (ikx) ,


x∈  ,k∈  . 6

E. 12.13 Exercı́cio. Mostre que as representações irredutı́veis complexas de dimensão finita do grupo
( 

+ , ·) são
Πz (x) = exp (z ln(x)) =: xz ,
x∈ 

+, z∈ . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 713/1195

E. 12.14 Exercı́cio. Mostre que as representações irredutı́veis unitárias de dimensão finita do grupo
( 

+ , ·) são
Πk (x) = exp (ik ln(x)) = xik ,
x∈ 

+, k∈  . 6

12.2 Representações Irredutı́veis de SO(3)


Um capı́tulo importante das aplicações da teoria de grupos à Fı́sica envolve a classificação das repre-
sentações irredutı́veis de dimensão finita (unitárias ou ortogonais) do grupo de rotações SO(3).
Como já vimos, o grupo SO(3) é formado por matrizes da forma R(θ, ~η) = exp(θ~η · J), ~ onde
3
θ ∈ [0, 2π), ~η ∈ é um vetor unitário e J1 , J2 , J3 são matrizes 3 × 3 tais que [Ja , Jb ] = abc Jc . As


matrizes Ja são geradores de sub-grupos uniparamétricos R1 , R2 e R3 de SO(3), representando rotações


em torno dos eixos 1, 2 e 3, respectivamente.
É fácil concluir que se Π é uma representação de dimensão finita de SO(3), Π é da forma
~
Π(R(θ, η~)) = exp(θ~η · Π(J)),

onde Π(J1 ), Π(J2 ), Π(J3 ) são matrizes tais que [Π(Ja ), Π(Jb )] = abc Π(Jc ) e que são os geradores da
representação por Π dos sub-grupos uniparamétricos R1 , R2 e R3 .
Vamos definir La = iΠ(Ja ). Ficamos com
~
Π(R(θ, ~η )) = exp(−iθ~η · L), (12.1)

com [La , Lb ] = iabc Lc .


É importante notar que se Π(g) é unitária para todo g ∈ SO(3), então cada L a é auto-adjunta:
L∗a = La .

E. 12.15 Exercı́cio. Prove isso. 6

• Operador de Casimir

Um fato muito importante, válido para qualquer representação de SO(3) como acima, é que a matriz
denotada por L2 e definida por
L2 = L21 + L22 + L23
comuta com todos os três geradores La : [L2 , La ] = 0, para todo a = 1, 2, 3.

E. 12.16 Exercı́cio muito importante. Verifique essa afirmação. Sugestão: prove (e use) a identidade
[A2 , B] = A[A, B] + [A, B]A, válida para quaisquer matrizes n × n A e B. 6

Um operador com essa propriedade, a de comutar com todos os geradores de uma álgebra de Lie, é
dito ser um operador de Casimir. Por um teorema devido a Racah, L2 é o único operador de Casimir
de SO(3) (os demais são combinações lineares de potências de L2 ). A importância dos operadores de
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 714/1195

Casimir é a seguinte. Como L2 comuta com cada La , segue facilmente de (12.1) que L2 Π(g) = Π(g)L2
para todo g ∈ SO(3). Assim, pelo Lema de Schur, se Π é uma representação irredutı́vel, L 2 deve ser um
múltiplo da identidade. Isso abre o caminho para classificar as representações irredutı́veis de SO(3):
estudando os possı́veis autovalores de L2 . Em cada sub-espaço formado por autovetores com um dado
autovalor fixo, teremos uma representação irredutı́vel.

• Autovalores de L2

Sejam La , a = 1, 2, 3, matrizes complexas auto-adjuntas agindo em um espaço vetorial de dimensão


finita, satisfazendo [La , Lb ] = iabc Lc e L2 definida como acima. Vamos estudar os possı́veis autovalores
de L2 .
Comecemos mostrando que os autovalores de L2 são números reais não-negativos. Seja Ψ um
autovetor de L2 com autovalor λ: L2 Ψ = λΨ. Então,

λhΨ, Ψi = hΨ, L2 Ψi = hΨ, L21 Ψi + hΨ, L22 Ψi + hΨ, L23 Ψi = hL1 Ψ, L1 Ψi + hL2 Ψ, L2 Ψi + hL3 Ψ, L3 Ψi.

Na última igualdade usamos o fato que L∗a = La . Como hLa Ψ, La Ψi ≥ 0, concluı́mos que λ ≥ 0, como
querı́amos.
Todo número λ ≥ 0 pode ser escrito na forma λ = l(l + 1) com l ≥ 0. Por futura conveniência,
escreveremos doravante os autovalores de L2 na forma l(l + 1) com l ≥ 0.
Recordemos agora o fato que, como [L2 , L3 ] = 0, podemos escolher uma base ortogonal formada
por vetores que são simultaneamente autovetores de L2 e L3 . Denotaremos esses vetores por Ψl,m ,
tendo-se L2 Ψl,m = l(l + 1)Ψl,m e L3 Ψl,m = mΨl,m . Iremos em breve fazer uso desse base.
É conveniente definir L± = L1 ± iL2 . Tem-se que L∗± = L∓ . Como L1 = (L+ + L− )/2 e L2 =
(L+ − L− )/(2i), podemos reescrever as relações algébricas [La , Lb ] = iabc Lc em termos de L± e L3 .
Obtemos

[L3 , L± ] = ±L± , (12.2)

[L+ , L− ] = 2L3 . (12.3)

Fora isso,

L2 = L+ L− + L3 (L3 − ) , (12.4)

L2 = L− L+ + L3 (L3 + ) . (12.5)

E. 12.17 Exercı́cio muito importante. Prove as relações acima. 6

Vamos usar essas relações para provar vários fatos sobre os autovalores de L 2 e L3 . De (12.5) tem-se

L− L+ ψl,m = [l(l + 1) − m(m + 1)]ψl,m = (l − m)(l + m + 1)ψl,m . (12.6)

De (12.4) tem-se

L+ L− ψl,m = [l(l + 1) − m(m − 1)]ψl,m = (l + m)(l − m + 1)ψl,m . (12.7)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 715/1195

Assim,
hψl,m , L− L+ ψl,m i = (l − m)(l + m + 1)kψl,m k2 (12.8)
e
hψl,m , L+ L− ψl,m i = (l + m)(l − m + 1)kψl,m k2 . (12.9)
Porém, como L∗± = L∓ , segue que

hψl,m , L− L+ ψl,m i = hL+ ψl,m , L+ ψl,m i ≥ 0 e hψl,m , L+ L− ψl,m i = hL− ψl,m , L− ψl,m i ≥ 0.

Logo, concluı́mos de (12.8) e de (12.9) que

(l − m)(l + m + 1) ≥ 0, (12.10)

(l + m)(l − m + 1) ≥ 0. (12.11)

De (12.10), segue que


a) l − m ≥ 0 e l + m + 1 ≥ 0, ou
b) l − m ≤ 0 e l + m + 1 ≤ 0.
No caso b) se somarmos ambas as desigualdades teremos 2l + 1 ≤ 0. Isso é impossı́vel, pois l ≥ 0.
Assim, vale a) que, em particular, diz que m ≤ l. Por (12.11), isso implica l + m ≥ 0, ou seja, m ≥ −l.
Concluı́mos então que
−l ≤ m ≤ l. (12.12)
Assim, para cada l, os valores de m não podem ser maiores que l nem menores que −l.
Vamos agora provar a seguinte proposição, que utilizaremos logo abaixo.
Proposição 12.3 Seja ψl,m um autovetor de L2 e de L3 com autovalores l(l + 1) e m, respectivamente.
Então se L+ ψl,m = 0 segue que m = l. Analogamente, se L− ψl,m = 0 segue que m = −l. 2

Prova. Se L+ ψl,m = 0 segue, evidentemente, que L− L+ ψl,m = 0. Por (12.6) isso implica (l − m)(l + m +
1) = 0. Assim, ou m = l ou m = −(l + 1). Esse último caso é proibido por (12.12) e, portanto, m = l.
Se L− ψl,m = 0 segue, evidentemente, que L+ L− ψl,m = 0. Por (12.7) isso implica (l + m)(l − m + 1) = 0.
Assim, ou m = −l ou m = l + 1. Esse último caso é proibido por (12.12) e, portanto, m = −l.

Vamos agora prosseguir tentando estabelecer mais alguns fatos sobre os possı́veis valores de l e m.
Usando as relações de comutação entre L3 e L+ , é fácil ver que

L3 L+ ψl,m = [L3 , L+ ]ψl,m + L+ L3 ψl,m = (m + 1)L+ ψl,m .

Analogamente, usando as relações de comutação entre L3 e L− , tem-se

L3 L− ψl,m = [L3 , L− ]ψl,m + L− L3 ψl,m = (m − 1)L− ψl,m .

Essas duas relações dizem-nos que L± ψl,m é um autovetor de L3 com autovalor m ± 1. Note-se que,
como L2 comuta com L± , tem-se também L2 L± ψl,m = l(l + 1)L± ψl,m . Assim, aplicar o operador L± a
ψl,m aumenta (diminui) de uma unidade o autovalor de L3 sem alterar o de L2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 716/1195

Percebemos disso que caso m = l teremos L3 L+ ψl, l = (l + 1)L+ ψl, l o que, em função de (12.12), só
é possı́vel se L+ ψl, l = 0. Analogamente, caso m = −l teremos L3 L− ψl, −l = −(l + 1)L− ψl, −l o que, em
função de (12.12), só é possı́vel se L− ψl, −l = 0. Junto com a Proposição 12.3 isso conduz ao
Corolário 12.3 Seja ψl,m um autovetor não-nulo de L2 e de L3 com autovalores l(l + 1) e m, respec-
tivamente. Então tem-se L+ ψl,m = 0 se e somente se m = l. Analogamente, L− ψl,m = 0 se e somente
se m = −l. 2

Precisamos mostrar que existem autovetores não-nulos de L3 com autovalores ±l. Certamente
existe um autovetor não-nulo ψl,m para algum m satisfazendo (12.12). Pelo que vimos acima, Lp+ ψl,m
é um autovetor de L3 com autovalor m + p. Suponhamos que m < l e seja p0 ≥ 0 o maior inteiro
não-negativo tal que m + p0 ≤ l. Então m + p0 + 1 > l, o que implica que 0 = Lp+0 +1 ψl,m = L+ Lp+0 ψl,m .
Pelo corolário 12.3 isso implica que ou Lp+0 ψl,m é nulo ou é autovetor de L3 com autovalor l. Se p0 = 0
então ψl,m 6= 0, por hipótese. Se p0 > 0, então, caso Lp+0 ψl,m = 0, concluirı́amos também pelo corolário
12.3 que Lp+0 −1 ψl,m é autovetor não-nulo de L3 com autovalor l. A repetição desse argumento conduz à
conclusão que há um autovetor não-nulo de L3 com autovalor l. Analogamente, concluı́-se que existe
autovetor não-nulo de L3 com autovalor −l.
Estamos agora preparados para chegar a uma importante conclusão sobre os possı́veis valores de l,
a saber, que l só pode assumir valores inteiros ou semi-inteiros.
Ao aplicarmos repetidamente o operador L+ , ao vetor não-nulo ψl,−l obtemos sucessivos vetores
Lp+ ψl,−l com autovalores −l + p de L3 . Chegará um momento em que a desigualdade −l ≤ m ≤ l será
violada, ou seja, existe p tal que Lp+1
+ ψl,−l seria o primeiro autovetor de L3 com autovalor maior que
l. Como isso é impossı́vel, segue que Lp+1 p
+ ψl,−l = 0 e L+ ψl,−l deve ser autovetor de L3 com autovalor
máximo l. Mas o autovalor de L3 em Lp+ ψl,−l é −l + p. Logo −l + p = l, ou seja, 2l = p. Como p é um
número inteiro, segue que l é ou um inteiro (caso p seja par) ou um semi-inteiro (caso p seja ı́mpar).
Como os autovalores m são da forma −l + p, para p inteiro, segue que m será inteiro se l o for ou
semi-inteiro, caso l o seja.
A conclusão importante é que os autovalores de L2 são números da forma l(l + 1) com l ≥ 0 inteiro
ou semi-inteiro. Cada representação irredutı́vel de SO(3) é caracterizada por um autovalor de L 2 e
podemos, portanto, classificar as representações irredutı́veis de SO(3) pelo ı́ndice l: Π l . Esse fato é de
grande importância na Fı́sica Quântica pois os números l(l + 1) e m são associados aos autovalores dos
operadores de momento angular L2 e L3 .

• Elementos de Matriz dos Geradores L1 , L2 e L3

É possı́vel fixar a forma dos geradores La em cada representação irredutı́vel Πl . Para isso, escolhemos
como base os 2l +1 vetores ψl,m com −l ≤ m ≤ l. Nessa base L3 é diagonal tendo elemento de matriz m
na m-ésima posição da diagonal. Para obter os elementos de matriz de L1 e L2 , obtemos primeiramente
os elementos de matriz de L± . Os mesmos podem ser fixados a partir de (12.8)-(12.9), que nos dizem
que,
kL+ ψl,m k2 = (l − m)(l + m + 1) = [l(l + 1) − m(m + 1)] (12.13)
e
kL− ψl,m k2 = (l + m)(l − m + 1) = [l(l + 1) − m(m − 1)] (12.14)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 717/1195

para kψl,m k = 1. Sabemos que L± ψl,m deve ser múltiplo de ψl,m±1 . Com as relações acima, podemos
convencionar (fixando os fatores de fase como sendo iguais a 1)
p
L+ ψl,m = l(l + 1) − m(m + 1) ψl, m+1 ,
p
L− ψl,m = l(l + 1) − m(m − 1) ψl, m−1 .
Isso fornece os elementos de matriz de L± na base ψl,m e com os mesmos podemos obter os elementos
de matriz de L1 e L2 .

E. 12.18 Exercı́cio. Obtenha explicitamente as matrizes L1 , L2 e L3 nos casos l = 1/2, l = 1 e l = 3/2.


No primeiro caso, obtêm-se, a menos de um fator 1/2, as matrizes de Pauli. 6

Com as expressões acima,é até mesmo possı́vel escrever de modo mais explı́cito a forma das repre-
~ .
sentações Πl (R(θ, ~η)) = exp −iθ~η · L

12.3 A Medida de Haar


Seja G um grupo finito e seja f : G → uma função que a cada elemento g do grupo associa um
número complexo f (g). Podemos definir a média de f em G por
1 X
µ(f ) := f (g),
#G g∈G

onde #G é o número de elementos de G.


Essa noção de média de uma função em um grupo finito possui algumas propriedades importantes.
Seja h um elemento fixo mas arbitrário de G e definamos as funções fhe (g) := f (hg), fhd (g) := f (gh) e
f i (g) = f (g −1 ). Então vale que para qualquer h ∈ G

µ(fhe ) = µ(fhd ) = µ(f i ) = µ(f ),

ou seja, a média é invariante por multiplicação à direita ou à esquerda por elementos de G ou pela
inversão do argumento de f .

E. 12.19 Exercı́cio. Mostre isso. 6

Note-se também que a média acima foi normalizada de modo que se f (g) = 1 para todo g ∈ G,
então µ(f ) = 1. Por fim, note-se também que a média acima é positiva: se f ≥ 0 então µ(f ) ≥ 0. Fora
isso, se f ≥ 0 e µ(f ) = 0, então f (g) = 0 para todo g ∈ G.
Grupos finitos não são os únicos a possuir médias invariantes positivas. Vamos a alguns exemplos.
Para o grupo SO(2) podemos definir
Z 2π
1
µ(f ) = f (θ)dθ,
2π 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 718/1195

caso a integral seja finita. É fácil ver que as propriedades de invariância observadas no caso de grupos
finitos são válidas aqui também, inclusive a normalização e a positividade. Para o grupo ( , +) 

podemos definir Z ∞
µ(f ) = f (x)dx,
−∞

caso a integral seja finita. Como se vê essa média é positiva, invariante por translações f (x) → f (x + y)
e pela troca do argumento da f por seu inverso: f (x) → f (−x), em analogia ao caso de grupos finitos.
Note-se, porém, que essa média não pode ser normalizada, pois o grupo não é compacto. Outro exemplo
é o grupo ( + , ·). Aqui a média invariante é


Z ∞
1
µ(f ) = f (x) dx,
0 x
caso a integral seja finita.

E. 12.20 Exercı́cio. Mostre que essa média é invariante por f (x) → f (xy), y ∈ 

+, e por f (x) →
f (1/x). 6

Novamente, note-se que essa média não é normalizada, pois 

+ não é compacto.
Podemos nos perguntar, quais grupos possuem médias invariantes positivas como nos exemplos
acima? Uma resposta parcial foi dada por Haar3 . O teorema de Haar afirma que se G é um grupo
compacto então existe uma medida de integração dµ(g) em G, denominada medida de Haar, tal que se
a média Z
µ(f ) = f (g)dµ(g)
G
é bem definida, então tem-se
Z Z Z Z
f (g)dµ(g) = f (hg)dµ(g) = f (gh)dµ(g) = f (g −1 )dµ(g)
G G G G
R R
para todo h ∈ G. ForaR isso, a média é normalizada: G dµ(g) = 1 e positiva: se f ≥ 0 então G
f dµ ≥ 0
sendo que se f ≥ 0 e G f dµ = 0, então f (g) = 0 para quase todo g ∈ G.
O teorema de Haar pode ser parcialmente extendido para grupos localmente compactos (como
( , +) e ( + , ·)): Se G é localmente compacto existem medidas positivas de integração dµe (g) e
 

dµd (g) em G tais que


Z Z Z
e
f (g)dµ (g) = e
f (hg)dµ (g) = f (g −1 )dµe (g)
G G G

e Z Z Z
d
f (g)dµ (g) = f (gh)dµ (g) =d
f (g −1 )dµd (g),
G G G
para quaisquer h ∈ G. Ou seja, existem uma medida invariante à esquerda e uma outra invariante
à direita. Em alguns casos essas medidas coincidem (por exemplo, para grupos Abelianos), mas tal
nem sempre é o caso para grupos não-Abelianos. Note que no caso de grupos compactos a medida
3
Alfréd Haar (1885-1933).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 719/1195

invariante à esquerda e a medida invariante à direita também coincidem. No caso de grupos localmente
compactos nem sempre se pode normalizar as medidas invariantes.
Na presente versão destas notas não iremos nos estender mais no estudo da medida de Haar. O
estudante é convidado aqui a procurar os clássicos do assunto (p.e. “The Haar Measure”, de Leopoldo
Nachbin4 ). Como veremos, a medida de Haar de grupos compactos desempenha um papel muito
importante no estudo das representações desses grupos.

12.4 Representações de Grupos Compactos


Seja G um grupo compacto e seja dµ sua medida invariante. Vamos supor que Π seja uma representação
de G em um espaço vetorial complexo V no qual esteja definido um produto escalar h·, ·i. Com o uso
de Π e dµ podemos definir em V um outro produto escalar h·, ·iG por
Z
hx, yiG := hΠ(g)x, Π(g)yi dµ(g),
G

x, y ∈ V .
O fato importante sobre esse produto escalar é o seguinte: para todo h ∈ G e todo x, y ∈ V

hΠ(h)x, Π(h)yiG = hx, yiG .

E. 12.21 Exercı́cio. Mostre isso. 6

No caso de V ser um espaço vetorial complexo de dimensão finita, essa última igualdade afirma que
cada Π(h) é um operador unitário em relação ao produto escalar h·, ·iG .
Como conseqüência, temos a seguinte
Proposição 12.4 Toda representação de um grupo compacto em um espaço vetorial complexo de di-
mensão finita é equivalente a uma representação unitária e, conseqüentemente, é ou irredutı́vel ou
maximalmente redutı́vel. 2

Mais forte é o seguinte teorema, que não provaremos aqui:


Teorema 12.1 Toda representação de um grupo compacto é equivalente a uma soma direta de repre-
sentações irredutı́veis de dimensão finita.

Esse teorema nos diz que no caso de grupos compactos as representações irredutı́veis de dimensão
finita são os tijolos com os quais se constroem todas as representações.
Note-se que o teorema acima afirma que toda representação de um grupo compacto Abeliano é
equivalente a uma soma direta de representações de dimensão 1.
4
Leopoldo Nachbin (1922-1993). Vide http://www.dmm.im.ufrj.br/doc/nachbin.htm
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 720/1195

12.5 O Teorema de Peter-Weyl


Um dos resultados mais profundos da teoria de representações de grupos compactos é um teorema sobre
a ortogonalidade das representações irredutı́veis unitárias que em vários aspectos generaliza o célebre
teorema de Fourier5 da Análise Harmônica. Como veremos, esse teorema é também um corolário do
Lema de Schur.

• O Teorema de Peter-Weyl. Relações de Ortogonalidade

Dentro da coleção de todas as representações unitárias de dimensão finita de um grupo compacto


(ou finito) G podemos estabelecer uma relação de equivalência, como já observamos, dizendo que duas
representações são equivalentes se possuı́rem um intertwiner invertı́vel. Podemos tomar em cada classe
um representante Πα e formar assim uma coleção {Πα , α ∈ Λ}, de todas as representações unitárias de
dimensão finita não-equivalentes entre si do grupo compacto (ou finito) G. Acima Λ designa o conjunto
de ı́ndices que rotulam as representações.
Cada Πα age em um espaço vetorial complexo Vα . No que segue designaremos por dα a dimensão
de Vα .
O importante teorema de Peter6 e Weyl7 afirma que os elementos de matriz Πα (g)ij , i, j = 1, . . . , dα
são ortogonais entre si em relação ao produto escalar definido pela medida de Haar do grupo compacto
(ou finito) G. Mais que isso, elas formam uma base ortogonal completa no espaço de Hilbert L 2 (G, dµ).
Teorema 12.2 Seja {Πα , α ∈ Λ} a coleção de todas as representações unitárias irredutı́veis de di-
mensão finita não-equivalentes entre si de um grupo compacto (ou finito) G. Sejam Π α (g)ij , i, j =
1, . . . , dα seus elementos de matriz. Seja dµ a medida de Haar de G. Então
Z
1
Πα (g)ij Πβ (g)kl dµ(g) = δαβ δik δjl . (12.15)
G dα
Por fim, as funções Πα (g)ij , i, j = 1, . . . , dα formam uma base ortogonal completa no espaço de Hilbert
L2 (G, dµ). Com isso, toda função f ∈ L2 (G, dµ) pode ser escrita na forma

X X
f (g) = aαij Πα (g)ij ,
α∈Λ i, j=1

onde Z
aαij = dα Πα (g)ij f (g) dµ(g).
G
Finalmente, para f ∈ L (G, dµ) vale a identidade de Parseval8 :
2

Z X 1 X dα
α 2
2
|f (g)| dµ(g) = a .
ij
G α∈Λ
d α i, j=1

5
Jean Baptiste Joseph Fourier (1768-1830).
6
F. Peter (?).
7
Hermann Klaus Hugo Weyl (1885-1955).
8
Marc-Antoine Parseval des Chênes (1755-1836). Parseval deduziu esta identidade no contexto das séries de Fourier,
que correspondem aqui ao caso do grupo SO(2).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 721/1195

As relações acima afirmam que as funções Πα (g)ij , i, j = 1, . . . , dα são ortogonais em relação ao


produto
R escalar
P definido pela medida de Haar. No caso de G ser um grupo finito devemos substituir
1
G
dµ → #G g∈G , de modo que, por exemplo, as relações de ortogonalidade ficam

1 X α 1
Π (g)ij Πβ (g)kl = δαβ δik δjl .
#G g∈G dα

Prova. Demonstraremos aqui as relações de ortogonalidade. Como veremos a prova das mesmas faz
belo uso do Lema de Schur.

Seja E [i, j] a matriz dα × dβ tal que seu elemento de matriz ab seja E [i, j] ab = δia δjb . Aqui i ∈
{1, . . . , dα } e j ∈ {1, . . . , dβ }. Considere-se a matriz
Z
A [i, j]
:= Πα (g −1 ) E [i, j] Πβ (g) dµ(g)
G
Z
= Πα (g)∗ E [i, j] Πβ (g) dµ(g).
G

Usando as propriedades de invariância da medida dµ, é fácil provar que

Πα (h) A[i, j] = A[i, j] Πβ (h)

para todo h ∈ G. (Exercı́cio!). Pelo Lema de Schur, ou A[i, j] = 0 ou A[i, j] é invertı́vel. No caso de
termos α 6= β, sabemos, por construção, que Πα e Πβ são inequivalentes. Portanto, nesse caso temos
forçosamente A[i, j] = 0. Isso obviamente implica que todos os elementos de matriz de A[i, j] são nulos,
ou seja,
 XZ 
0 = A [i, j]
ab
= Πα (g)∗ak E [i, j] kl Πβ (g)lb dµ(g)
k, l G

XZ
= Πα (g)∗ak δik δjl Πβ (g)lb dµ(g)
k, l G

Z
= Πα (g)∗ai Πβ (g)jb dµ(g)
G
Z
= Πα (g)ia Πβ (g)jb dµ(g).
G

Note que essa relação vale para α 6= β mas i, j, a, b arbitrários. Isso provou (12.15) para α 6= β.
Vamos agora tratar o caso em que α = β. Nesse caso, como vimos Πα (h) A[i, j] = A[i, j] Πα (h) para
todo h ∈ G. Aqui A[i, j] são matrizes dα × dα . Pelo Corolário 12.1, A[i, j] = λ[i, j] . Vamos determinar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 722/1195

as constantes λ[i, j] . Por um lado, tomando-se o traço de A[i, j] tem-se Tr(A[i, j] ) = dα λ[i, j] . Por outro
lado, pela definição de A[i, j] tem-se
Z
 
Tr A [i, j]
= Tr Πα (g −1 ) E [i, j] Πα (g) dµ(g)
G
Z

= Tr Πα (g)Πα (g −1 ) E [i, j] dµ(g)
G
Z

= Tr E [i, j] dµ(g)
G
Z
= δij dµ(g)
G

= δij ,

pois Tr E [i, j] = δij . Logo,
1
λ[i, j] = δij .

Assim, Z
1
δij = A [i, j]
= Πα (g)∗ E [i, j] Πα (g) dµ(g).
dα G
Considerando-se o elemento de matriz ab de ambos os lados da última expressão, tem-se
1 XZ 
δij δab = Πα (g)∗ak E [i, j] kl Πα (g)lb dµ(g)
dα k, l G

XZ
= Πα (g)∗ak δik δjl Πα (g)lb dµ(g)
k, l G

Z
= Πα (g)∗ai Πα (g)jb dµ(g)
G
Z
= Πα (g)ia Πα (g)jb dµ(g).
G

Isso prova (12.15) para α = β, completando a prova das relações de ortogonalidade.


A demonstração que as funções Πα (g)ij formam uma base ortogonal completa em L2 (G, dµ) não
será apresentada na presente versão destas notas. As demais afirmações são conseqüência das relações
de ortogonalidade.

• Caráteres e Funções Centrais


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 723/1195

Dada uma representação Π de dimensão finita de um grupo G, define-se o caráter de Π como sendo
a função
χΠ (g) := Tr (Π(g)) , g∈G
Um fato relevante sobre caráteres é a seguinte identidade:
  
χΠ (hgh−1 ) = Tr Π(hgh−1 ) = Tr Π(h)Π(g)Π(h−1 ) = Tr Π(h−1 )Π(h)Π(g) = Tr (Π(g)) = χΠ (g)

para quaisquer g, h ∈ G. Isso sugere a seguinte definição: uma função f : G → é dita ser central
se f (g) = f (hgh−1 ) para todos g, h ∈ G. Equivalentemente, podemos definir funções centrais como
sendo as funções tais que f (gh) = f (hg) para todos g, h ∈ G.

E. 12.22 Exercı́cio. Mostre a equivalência dessas definições. 6

Caráteres são funções centrais. Das relações (12.15), tomando-se i = j, k = l e somando-se nesses
ı́ndices, obtêm-se facilmente que os caráteres χα das representações irredutı́veis unitárias de dimensão
finita Πα satisfazem as seguintes relações de ortogonalidade:
Z
χα (g)χβ (g) dµ(g) = δαβ .
G

E. 12.23 Exercı́cio. Verifique. 6

Como conseqüência do Teorema de Peter-Weyl podemos igualmente provar que os caráteres das
representações irredutı́veis unitárias de dimensão finita formam uma base ortogonal no espaço de Hilbert
das funções centrais de quadrado integrável de um grupo finito ou compacto. Não apresentaremos a
demonstração aqui. Notemos apenas que no caso do grupo SO(2) os caráteres das representações
irredutı́veis unitárias de dimensão finita são χp (θ) = eipθ , p ∈ . Assim, a afirmação de acima, que os
caráteres formam uma base no espaço das funções centrais de quadrado integrável, é nesse contexto
um bem conhecido resultado da teoria das séries de Fourier.

• Classe de Conjugação

Seja G um grupo. Podemos estabelecer uma relação de equivalência em G da seguinte forma. Se


x, y ∈ G, dizemos que x ∼ y se existir algum elemento h ∈ G tal que x = hyh−1 .

E. 12.24 Exercı́cio. Verifique que isso, de fato, define uma relação de equivalência. 6

As classes de equivalência de G por essa relação são denominadas classe de conjugação, ou classes
de elementos conjugados.

E. 12.25 Exercı́cio. Verifique que a identidade é o único elemento de sua classe de equivalência. 6

O fato importante sobre funções centrais e classes conjugadas é a seguinte afirmação: toda função
central de um grupo G é constante nas classes conjugadas de G. A prova é elementar: se x, y pertencem
à mesma classe então existe h tal que x = hyh−1 . Logo, f (x) = f (hyh−1 ) = f (y).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 724/1195

Assim, para determinar uma função central, como um caráter de uma representação, por exemplo,
basta determinar seus valores nas classes de conjugação. Essa observação desempenhará um papel
abaixo.

• Caráteres de Grupos Finitos

Caráteres desempenham um papel especial no caso de grupos finitos. Se G é finito, as relações de


ortogonalidade acima ficam
1 X α
χ (g)χβ (g) = δαβ . (12.16)
#G g∈G
No caso e grupos finitos os caráteres possuem uma propriedade de ortogonalidade adicional que é muito
útil no estudo de propriedades desses grupos. Vamos apresentá-la.
Se f é uma função central de um grupo finito, então f é automaticamente de quadrado integrável
(pois o grupo é finito) e, pelo teorema de Peter-Weyl, podemos escrevê-la como
X
f (h) = cα χα (h),
α∈Λ

onde
1 X α
cα = χ (g)f (g).
#G g∈G
Como tanto χα quanto f são constantes nas classes de equivalência Ck , k = 1, . . . , K, de G, podemos
escrever essa última expressão como
K
1 X
cα = (#Ck )χα (Ck )f (Ck ),
#G k=1

onde #Ck é o número de elementos do grupo que pertencem à classe Ck e f (Ck ) é o valor de f em Ck .
Assim,
X 1 X K
f (h) = (#Ck )χα (Ck )f (Ck )χα (h)
α∈Λ
#G k=1

K
" #
X #Ck X α
= f (Ck ) χ (Ck )χα (h)
k=1
#G α∈Λ

Tomando h ∈ Cj , teremos
K
" #
X #Ck X α
f (Cj ) = f (Ck ) χ (Ck )χα (Cj ) .
k=1
#G α∈Λ

Como f é arbitrária, segue que


 X
#Ck
χα (Ck )χα (Cj ) = δjk . (12.17)
#G α∈Λ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 12 725/1195

Essa relação de ortogonalidade especial tem várias conseqüências relevantes para o estudo de repre-
sentações irredutı́veis unitárias de grupos finitos. Uma delas é a seguinte:
Proposição 12.5 Se G é um grupo finito, o número de representações irredutı́veis unitárias de G é
igual ao número de de classes de conjugação de G. 2

Prova. Seja G um grupo finito e Ck , k = 1, . . . , K suas classes de conjugação. Sabemos que as funções
centrais são constantes nas classes de conjugação e, portanto, vale para toda função central f a seguinte
identidade
XK
f (g) = fk δCk (g),
k=1
onde fk é o valor que f assume em Ck e

1, se g ∈ Ck
δCk (g) := .
0, se g 6∈ Ck
Isso significa que o espaço vetorial C(G) das funções centrais de G tem uma base formada pelas funções
δCk , k = 1, . . . , K, e, portanto, tem dimensão K.
Por (12.16) as funções χα , α ∈ Λ, formam uma base ortogonal no espaço C(G). Portanto, o número
#Λ de representações irredutı́veis de G é menor ou igual à dimensão de C(G), que é K, como acabamos
de ver: #Λ ≤ K.
Por outro lado, (12.17) diz-nos que o espaço vetorial de todas as funções Λ → , o qual tem dimensão
#Λ (por que?), possui um conjunto de K funções ortogonais, a saber, as funções hk (α) = χα (Ck ), α ∈ Λ.
Logo, K ≤ #Λ. Isso completa a prova que K = #Λ

À luz desta proposição podemos rescrever (12.17) como


  K
#Ck X a
χ (Ck )χa (Cj ) = δjk . (12.18)
#G a=1
j, k = 1, . . . , K.
Outra conseqüência de (12.18) é a seguinte. Tomando-se Cj = Ck = C1 , onde C1 é a classe de
conjugação da identidade, a qual só possui um elemento, concluı́mos que
K
X
d2a = #G, (12.19)
a=1
a a
pois χ (C1 ) = Tr(Π (e)) = da .
Essa curiosa expressão nos mostra uma relação entre as dimensões das representações irredutı́veis de
G e a ordem de G. Em muitos casos é possı́vel extrair informações sobre as representações irredutı́veis
do grupo a partir da mesma. Isso pois (12.19) não pode ser satisfeita por quaisquer números inteiros
K, da e #G. Por exemplo, um grupo que possua 6 elementos e 3 classes de conjugação só pode ter
duas representações irredutı́veis unidimensionais e uma bidimensional, pois 6 = 12 + 12 + 22 e não
há outra forma de escrever o número 6 como soma de três quadrados. Esse, aliás, é precisamente o
caso do grupo de permutações de 3 elementos, S3 , o qual possui 6 elementos e 3 classes de conjugação
(identifique-as!).
Parte V

Topologia Geral, Teoria da Medida e


Integração

726
Capı́tulo 13
Espaços Métricos
Conteúdo

13.1 Métricas e Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 729


13.2 Topologia de Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . 743
13.3 Pseudo-Métricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 746
13.4 Espaços de Banach e de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . 748
13.4.1 Espaços de Seqüências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 750
13.A Algumas Desigualdades Básicas . . . . . . . . . . . . . . . . . . . . . . . . . 764
13.B Números reais e p-ádicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 766
13.C Aproximações para π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773

odos estamos familiarizados com a noção usual e intuitiva de distância entre pontos da reta
real , do plano bidimensional 2 ou do espaço tridimensional 3 . O estudante há de
  

reconhecer que boa parte do material tratado em cursos de cálculo de funções de uma ou
várias variáveis, reais ou complexas, como as noções de derivação e integração, assenta-se
sobre noções como as de convergência e limite, as quais, por suas vez, assentam-se sobre a noção
intuitiva de distância entre pontos. Assim, por exemplo, dizemos que uma seqüência xn de pontos na
reta real converge a um ponto x se a distância |xn − x| entre xn e x torna-se menor e menor à medida
que n cresce. Mais adiante faremos essas idéias mais precisas e gerais.
Ao longo do seu desenvolvimento, especialmente após o século XIX, a Matemática reconheceu
a importância de abstrair e generalizar a noção intuitiva de distância de modo a aplicá-la a outros
tipos de conjuntos que não os familiares espaços de dimensão finita , 2 ou 3 . Esse desenvolvimento
  

conduziu às noções de métrica, de espaços métricos e de espaços métricos completos, as quais definiremos
mais adiante, e permitiu aplicar muitas das noções geométricas e instrumentos analı́ticos, originalmente
desenvolvidos em espaços mais familiares, para conjuntos menos acessı́veis à intuição, como por exemplo
espaços vetoriais de dimensão infinita, tais como espaços de funções ou de seqüências. Uma importante
aplicação dessas idéias e noções à teoria das equações diferenciais e integrais será vista no Capı́tulo 14,
quando trataremos do Teorema do Ponto Fixo de Banach.
Lembramos ao estudante que o estudo de espaços de dimensão infinita não é uma mera abstração
desprovida de uso ou interesse prático. Ao se decompor uma função f , contı́nua, diferenciável e
periódica de perı́odo 2π, em sua série de Fourier1 ,

X eint
f (t) = an √
n=−∞

1
Jean Baptiste Joseph Fourier (1768-1830).

727
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 728/1195

tal como ocorre, por exemplo, no problema da corda vibrante, o que estamos fazendo é precisamente
expressar uma tal função em termos de componentes em uma base de um espaço de dimensão infinita,
eint
no caso a base formada pelas infinitas funções √ 2π
com n ∈ .
Para o estudo de espaços de dimensão infinita, como o desse exemplo, seria muito importante
se pudéssemos reter algumas das noções geométricas familiares em espaços de dimensão finita. O
emprego de idéias geométricas análogas àquelas encontradas nos espaços , 2 ou 3 é de grande
  

importância na tarefa de explorar espaços de dimensão infinita, como o espaço das funções contı́nuas
periódicas de perı́odo 2π, justamente por trazerem tais espaços para mais perto da nossa intuição.
Por razões evolutivas, o cérebro humano só é capaz de produzir e desenvolver imagens em uma, duas
ou três dimensões e, portanto, para o estudo de espaços com mais dimensões faz-se necessário dispor
de instrumentos abstratos que permitam desenvolver raciocı́nios o mais próximo possı́vel daqueles
empregados em espaços de dimensão 1, 2 ou 3.
Devido às bem-conhecidas “relações de ortogonalidade”
Z 2π
1
ei(n−m)t dt = δn, m
2π 0
sabemos que, as constantes an da decomposição de Fourier acima são dadas por
Z 2π −int
e
an = √ f (t) dt ,
0 2π
e podem ser interpretadas geometricamente como as projeções, ou componentes, da função f na
−int
“direção” das funções e√2π . (A noção de projeção, ou componente, de um vetor é familiar em 2 

ou em 3 ). Como é bem sabido (para a teoria das séries de Fourier, vide [31]), vale também a relação,


conhecida como Identidade de Parseval2 ,


s v
Z 2π u ∞
u X
|f (t)| dt = t
2 |an |2 .
0 n=−∞

Sendo o lado direito a raiz quadrada da soma do quadrado das componentes ortogonais de f , podemos
interpretar o lado esquerdo como o “módulo” ou “comprimento” da função f (entendida como vetor no
espaço de dimensão infinita das funções periódicas de perı́odo 2π), tal como no Teorema de Pitágoras 3
em 2 ou 3 .
 

Se levada adiante, essa analogia geométrica nos permite definir uma possı́vel noção de distância
entre duas funções contı́nuas periódicas f e g, que denotaremos por4 d2 (f, g), como o módulo (ou
“comprimento”) da diferença entre duas funções, tal como se faz em espaços de dimensão finita:
s
Z 2π
d2 (f, g) := |f (t) − g(t)|2 dt .
0

2
Marc-Antoine Parseval des Chênes (1755-1836).
3
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
4
A razão de empregarmos o sub-ı́ndice “2” na definição de d2 (f, g) será esclarecida mais adiante.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 729/1195

Com esse instrumento em mãos podemos agora empregar conceitos como o de convergência e limite de
seqüências no espaço de dimensão infinita das funções contı́nuas periódicas e, eventualmente, prosseguir
desenvolvendo em tais espaços outros ingredientes do Cálculo e da Análise.
Para implementar tais desenvolvimentos, vamos no presente capı́tulo introduzir algumas importan-
tes noções gerais, como as de métrica, de espaço métrico, de seqüências de Cauchy em espaços métricos,
de completamento de espaços métricos e de topologia de espaços métricos, noções essas que provaram
ser de grande importância na tarefa de levar os instrumentos familiares de abordagem matemática de
espaços de dimensão finita a espaços de dimensão infinita e outros.

13.1 Métricas e Espaços Métricos

• Métricas

Uma questão importante que se coloca é a de identificar quais propriedades básicas a noção intuitiva
de distância possui para permitir seu emprego em várias instâncias. O desenvolvimento da Matemática
conduziu a uma identificação desses ingredientes em um conjunto de quatro propriedades, as quais
resumem tudo o que é essencialmente necessário na demonstração de resultados nos quais a noção de
distância é empregada. Surgiu da identificação dessas propriedades a noção matemática de métrica, a
qual abstrai e generaliza a noção intuitiva de distância. Vamos a essa definição.
Seja X um conjunto (entendido doravante como não-vazio). Uma função d : X × X →  é dita
ser uma métrica em X se possuir as seguintes propriedades:

1. Positividade: d(a, b) ≥ 0 para todos a, b ∈ X.

2. Condição de distância nula: d(a, b) = 0 se e somente se a = b.

3. Simetria: para todos a e b ∈ X vale d(a, b) = d(b, a).

4. Desigualdade triangular: para todos a, b e c ∈ X vale d(a, b) ≤ d(a, c) + d(c, b).

A quarta propriedade acima é particularmente importante e é denominada desigualdade triangular


devido a seu significado geométrico nos espaços 2 e 3 com a métrica usual. (Justifique!)
 

As quatro propriedades listadas acima são aquelas identificadas como essenciais na noção intuitiva
de distância e qualquer função d que as satisfaça, ou seja, qualquer métrica, pode potencialmente ser
empregada como equivalente à noção intuitiva de distância.
Um ponto importante da definição de métrica é a condição que afirma que d(x, y) = 0 se e somente
se x e y forem iguais. Compare com a definição de pseudo-métrica à página 746.
Mencionamos en passant que a condição de positividade acima é, em verdade, conseqüência da
desigualdade triangular e da condição de simetria. De fato, usando essas duas condições, pode-se
provar o seguinte fato mais forte: para todos x, y, z ∈ M vale

d(x, y) ≥ |d(x, z) − d(z, y)|, (13.1)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 730/1195

o que, em particular, garante que d(x, y) ≥ 0. Para provar isso, note-se que pela desigualdade triangular
d(x, z) ≤ d(x, y) + d(y, z). Logo,
d(x, y) ≥ d(x, z) − d(y, z). (13.2)
Trocando-se x por y e usando-se a condição de simetria, obtemos também
d(x, y) = d(y, x) ≥ d(y, z) − d(x, z). (13.3)
Ambas as relações (13.2) e (13.3) dizem que d(x, y) ≥ |d(x, z) − d(y, z)|, como querı́amos mostrar.
O exemplo mais básico de uma métrica é oferecido, no caso X = , pela função d(x, y) = |y − x|,


x, y ∈ . Outro exemplo essencialmente idêntico em X = , é oferecido pela função d(z, w) = |z − w|,




z, w ∈ . Essas são as chamadas métricas usuais em e , respectivamente. Deixamos ao leitor a




tarefa simples de verificar que essas funções satisfazem a definição de métrica.

• Espaços métricos e outros exemplos básicos

Se X é um conjunto e d é uma métrica em X, dizemos que o par (X, d) é um espaço métrico. Ou


seja, um espaço métrico vem a ser um conjunto munido de uma métrica.

Nota. A noção de Espaço Métrico foi introduzida por Fréchet5 em sua dissertação de 1906. A expressão
“espaço métrico”, no entanto, não foi sua invenção, tendo sido cunhada por Hausdorff 6 em 1914.
Como mencionamos, as quatro propriedades requeridas na definição de métrica, acima, foram enun-
ciadas sob inspiração do exemplo familiar do próximo exercı́cio.
p
E. 13.1 Exercı́cio. Verifique que a função d2 (x, y) := (y1 − x1 )2 + · · · + (yn − xn )2 , onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em n (chamada de métrica Euclidiana).
 6

É importante que o estudante familiarize-se desde cedo com o fato que um conjunto X pode ter
várias métricas. O exemplo anterior e os dois abaixo ilustram isso.

E. 13.2 Exercı́cio. Verifique que a função d∞ (x, y) := max{|y1 − x1 |, . . . , |yn − xn |}, onde x =
(x1 , . . . , xn ) e y = (y1 , . . . , yn ), é uma métrica em n .
 6

E. 13.3 Exercı́cio. Verifique que a função d1 (x, y) := |y1 − x1 | + · · · + |yn − xn |, onde x = (x1 , . . . , xn )
e y = (y1 , . . . , yn ), é uma métrica em n .  6

Mais adiante mostraremos que todas as funções


dp (x, y) := [|y1 − x1 |p + · · · + |yn − xn |p ]1/p ,
n
com p ≥ 1 são métricas em  .
Uma caracterı́stica importante da noção abstrata de métrica é que a mesma aplica-se também a
espaços outros que não os familiares espaços n . Os exercı́cios abaixo ilustram isso no caso do conjunto


X = C0 ([0, 1]), que vem a ser o conjunto das funções contı́nuas reais definidas no intervalo [0, 1].
5
Maurice René Fréchet (1878-1973). Fréchet também introduziu a noção de compacidade.
6
Felix Hausdorff (1868-1942).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 731/1195

E. 13.4 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d∞ : X × X → : 

d∞ (f, g) = sup |f (x) − g(x)|.


x∈[0, 1]

Mostre que d∞ uma métrica em X. 6

E. 13.5 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d1 : X × X → : 

Z 1
d1 (f, g) = |f (x) − g(x)| dx.
0

Mostre que d1 uma métrica em X. 6

E. 13.6 Exercı́cio. Seja X = C0 ([0, 1]) o conjunto de todas as funções reais contı́nuas definidas em
[0, 1]. Considere a seguinte função d2 : X × X → : 

s
Z 1
d2 (f, g) = |f (x) − g(x)|2 dx.
0

Mostre que d2 uma métrica em X. 6

Mais adiante mostraremos que em C0 ([0, 1]) todas as funções


Z 1 1/p
p
dp (f, g) = |f (x) − g(x)| dx .
0

com p ≥ 1 são igualmente métricas.

• Seqüências

Antes de prosseguirmos, lembremos uma definição básica.


Se X é um conjunto, uma função a : → X é dita ser uma seqüência em X. Como é familiar ao


estudante, o valor de a em n ∈ é freqüentemente denotado por an ao invés de a(n). Analogamente,




uma seqüência a : → X é freqüentemente denotada por {an }n∈ , por {an , n ∈ }, ou ainda, com um





certo abuso de linguagem, simplesmente por an . Essa última notação é, talvez, a mais freqüente, mas
pode, em certas ocasiões, causar alguma confusão pois, como mencionamos, a n designa, estritamente
falando, o valor de a em n, não a seqüência toda.
Vamos agora introduzir várias noções fundamentais, as quais provêm de definições bem conhecidas
no contexto da reta real.

• Sub-seqüências
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 732/1195

Seja X um conjunto e seja a : → X uma seqüência em X. Seja também κ :


 → uma  

função estritamente crescente (ou seja, k(m) < k(n) se m < n). Então a ◦ κ : → X é dita ser uma


subseqüência de a.

• Convergência em espaços métricos

Seja (X, d) um espaço métrico. Dizemos que uma seqüência a em X converge para um elemento
x ∈ X em relação à métrica d se para todo  > 0 existir um número natural N () (eventualmente
dependente de ) tal que d(x, an ) <  para todo n > N ().
A seguinte proposição é fundamental, pois nos diz que, em um espaço métrico, uma seqüência, se
for convergente, só pode convergir a um ponto:
Proposição 13.1 Seja (X, d) um espaço métrico e seja b uma seqüência em X. Suponha que b
converge a um elemento x ∈ X e a um elemento y ∈ X. Então x = y. 2

Prova. Pela desigualdade triangular, temos que


d(x, y) ≤ d(x, bn ) + d(bn , y)
para qualquer n. Agora, como b converge a x sabemos que, para qualquer  > 0 teremos d(x, b n ) < 
para todo n grande o suficiente, ou seja, para todo n maior que um certo inteiro Nx (). Analogamente,
como bn converge a y sabemos que, para qualquer  > 0 teremos d(y, bn ) <  para todo n grande
o suficiente, ou seja, para todo n maior que um certo inteiro Ny (). Assim, para todo n maior que
max{Nx (), Ny ()} teremos d(x, y) < 2. Ora, como  é um número positivo arbitrário, uma tal
desigualdade só pode ser válida se d(x, y) = 0. Como d é uma métrica, isso implica x = y.

O estudante pode constatar que a demonstração acima faz uso de todas as propriedades definidoras
da noção de métrica, o que ilustra a importância de noções abstratas como aquela.
Um pouco de notação. Se uma seqüência a em X converge a x ∈ X em relação à métrica d então x é
dito ser o d-limite de a, ou simplesmente o limite de a, se a métrica d estiver subentendida. Denotamos
esse fato escrevendo x = d−lim
n→∞
an , ou simplesmente x = lim an (se a métrica d estiver subentendida).
n→∞
d
Outra notação freqüentemente empregada para dizer que x é o d-limite de a é a n −→ x.

• Seqüências de Cauchy

Seja um espaço métrico X com uma métrica d. Uma seqüência a de elementos de X é dita ser
uma seqüência de Cauchy7 em relação à métrica d se para todo  > 0 existir um número natural N ()
(eventualmente dependente de ) tal que d(ai , aj ) <  para todo i e j tais que i > N () e j > N ().
A seguinte proposição é fundamental:
Proposição 13.2 Seja um espaço métrico X com uma métrica d e seja b uma seqüência convergente
em relação à métrica d a um elemento x ∈ X. Então b é uma seqüência de Cauchy em relação à
métrica d.
7
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 733/1195

Prova. Sejam m e n arbitrários. Pela desigualdade triangular, vale


d(bn , bm ) ≤ d(bn , x) + d(x, bm ).
Agora, como b converge a x sabemos que para todo  > 0 teremos d(bn , x) < /2 e d(bm , x) < /2
desde que ambos m e n sejam maiores que algum N (/2). Nesse caso, então, d(bn , bm ) ≤ /2 + /2 = .
Isso completa a prova.

Uma questão de fundamental importância que agora se coloca é a seguinte: será válida a recı́proca
da proposição acima, ou seja, será toda seqüência de Cauchy em um espaço métrico uma seqüência
convergente? A importância dessa questão é a seguinte. Dada uma seqüência concreta x n em um
espaço métrico X, não sabemos a priori se xn convergirá ou não a menos que encontremos um elemento
x em X com a propriedade desejada (para todo  > 0, existe N () tal que d(xn , x) <  sempre que
n > N ()). Nem sempre pode ser fácil ou possı́vel encontrar explicitamente tal x, e gostarı́amos de
possuir um critério baseado apenas em propriedades verificáveis da seqüência x n que nos permita dizer
se ela converge ou não. A propriedade de uma seqüência ser de Cauchy é uma propriedade cuja validade
ou não depende apenas da seqüência e, portanto, em face à Proposição 13.2, é um ótimo candidato a
ser um tal critério de convergência.
Sucede, porém, que, em geral, a resposta à pergunta acima é negativa: existem espaços métricos nos
quais há seqüências de Cauchy que não convergem. Isso é ilustrado pelos seguintes exemplos. Considere-
se o conjunto X = dos números racionais e adotemos em a métrica usual: d(r, s) = |r − s|, com
r, s ∈ . Há, sabidamente, exemplos de seqüências de que são de Cauchy em relação à métrica d
que convergem em . Um exemplo é encontrado no exercı́cio seguinte.

E. 13.7 Exercı́cio. Seja r um número racional com r > 1. Prove que a seqüência de números racionais
Xn
1 r
sn = a
, n ∈ , é uma seqüência de Cauchy e que a mesma converge ao número racional 6
r r − 1


a=0

O ponto, porém, é que há também exemplos de seqüências de que são de Cauchy em relação à
métrica d mas que não convergem em . Um exemplo famoso, e que pode ser tratado com detalhe, é
o da seqüência
1 1 1
sn = 1 + + + · · · + ,
1! 2! n!
que é uma seqüência de Cauchy de racionais, mas que não converge a um número racional 8 . Tratamos
esse exemplo com detalhe no próximo tópico. A leitura do mesmo pode ser dispensada pelo estudante
já familiarizado com esses fatos, mas pode ser instrutiva para os demais. Por um teorema de Lambert 9
(vide [53]), sabe-se que se r é um número racional não-nulo então er não é racional. Assim, as seqüências
2 n
de racionais sn = 1 + 1!r + r2! + · · ·+ rn! convergem a irracionais. Analogamente, esse teorema de Lambert
P∞ (−1)n rn+1
implica que ln(r) não pode ser racional se r o for, Assim, para −1 < r < 1, a série n=0 n+1
converge ao irracional ln(1 + r).
P k
Outro exemplo é a seqüência pn = 4 nk=0 (−1) 2k+1
, que converge ao irracional π. Uma prova que π é
irracional pode ser encontrada em [118] ou em [53]. Vide página 41 para mais comentários. Para uma
8
O estudante bem sabe que essa seqüência converge no conjunto dos reais ao número e. Abaixo provaremos que esse
número não é racional.
9
Johann Heinrich Lambert (1728-1777).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 734/1195

breve discussão sobre aproximações para π recheada de digressões históricas, vide Seção 13.C, página
773.
Esses exemplos, que estão longe de ser únicos, ilustram um fato muito importante: existem espaços
métricos nos quais não vale a recı́proca da Proposição 13.2, ou seja, existem espaços métricos nos quais
seqüências de Cauchy não são necessariamente convergentes.
De grande importância são os espaços métricos onde vale a recı́proca da Proposição 13.2. Tais
espaços métricos são denominados completos e deles falaremos no pós-próximo tópico, à página 736.

• O número e é um número irracional

Seja a seqüência de números racionais


1 1 1
sn = 1 + + +···+ ,
1! 2! n!
Vamos provar que essa seqüência é de Cauchy em relação à métrica usual em , mas que a mesma não
converge a um número racional.
Primeiro provemos que esta seqüência é de Cauchy. Vamos supor j > i. Como a seqüência s n é
crescente, segue que d(si , sj ) = |si − sj | = sj − si (por que?). Temos, então,
1 1
d(si , sj ) = sj − si = +···+
(i + 1)! j!
 
1 1 1 (i + 1)!
= 1+ + +···+
(i + 1)! i + 2 (i + 2)(i + 3) j!
 
1 1 1 1
≤ 1+ + 2
+···+
(i + 1)! (i + 2) (i + 2) (i + 2)j−i−1

X∞
1 1
<
(i + 1)! a=0 (i + 2)a

1 i+2 2
= < para i > 0. (13.4)
(i + 1)! i + 1 (i + 1)!
2
Como o número pode ser feito arbitrariamente pequeno tomando-se i grande, fica provado que
(i + 1)!
a seqüência sn é de Cauchy.

E. 13.8 Exercı́cio. Justifique cada passagem acima. 6

Vamos agora provar que essa seqüência não converge a um número racional. Para isso vamos supor
o contrário e constatar que isso leva a um absurdo. Vamos então supor que a seqüência converge a um
racional e. Como e é suposto ser racional, e seria da forma e = p/q onde p e q são números inteiros
primos entre si. Da desigualdade triangular segue que
2
d(e, si ) ≤ d(si , sj ) + d(e, sj ) < + ,
(i + 1)!
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 735/1195

para qualquer  > 0, desde que j seja escolhido grande o suficiente (pois sj converge a e). Assim, como
a desigualdade vale para qualquer  > 0, concluı́-se que
2
d(e, si ) ≤ .
(i + 1)!

Como si é uma seqüência crescente e si 6= sj para i 6= j, segue que d(e, si ) = e − si . Logo,


p 2
0 < e − si = − si ≤
q (i + 1)!
e, portanto,
p 2
si < ≤ si + (13.5)
q (i + 1)!
para todo i ∈  . Para i = 2 a relação (13.5) fica (verifique!)
5 p 17
< ≤ . (13.6)
2 q 6
Como 17/6 < 3, concluı́mos que 5/2 < p/q < 3. Esse fato mostra que p/q não é inteiro. Disso, segue
que q ≥ 2, fato que usaremos logo abaixo10 .
Como (13.5) vale para todo i, tomemos em particular i = q. A relação (13.5) diz, então, que
1 1 p 1 1 2
1+ +···+ < ≤ 1+ +···+ + .
1! q! q 1! q! (q + 1)!
Multiplicando-se ambos os lados por q! concluı́mos que
2
A < p(q − 1)! ≤ A + < A + 1, pois q ≥ 2,
q+1
onde  
1 1 q! q! q!
A := q! 1 + + · · · + = q! + q! + + + · · · +
1! q! 2! 3! q!
é um número inteiro positivo, pois é, claramente, uma soma de inteiros positivos. Assim, o que provamos
é que A < p(q − 1)! < A + 1. Agora, como A é um inteiro, essas últimas desigualdades dizem que o
número inteiro p(q − 1)! está contido no intervalo aberto entre dois inteiros (A e A + 1) e, portanto,
não pode ser um é inteiro: uma contradição. Isso prova, então, que e não pode ser da forma p/q e,
portanto, não pode ser racional.

E. 13.9 Exercı́cio. A chamada constante de Euler11 -Mascheroni12 é o número definido13 por


 
1 1
γ := lim 1 + + · · · + − ln(n) ' 0, 5772156649 . . . .
n→∞ 2 n
10
É possı́vel extrair um pouco mais de (13.6). A primeira desigualdade em (13.6) diz-nos que p > 5q/2. Como q ≥ 2,
segue que p > 5. A segunda desigualdade em (13.6) diz-nos que q ≥ 6p/17. Como p ≥ 6, segue que q ≥ 36/17 > 2.
Assim, concluı́-se que q ≥ 3.
11
Leonhard Euler (1707-1783).
12
Lorenzo Mascheroni (1750-1800).
13
Essa constante foi introduzida por Euler em 1735, o qual calculou seus 16 primeiros dı́gitos decimais. Em 1790,
Mascheroni calculou seus 32 primeiros dı́gitos decimais, dos quais apenas os primeiros 19 estavam corretos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 736/1195

A constante γ surge em várias situações, por exemplo na definição das funções de Bessel de segundo tipo.
A prova que o limite acima existe pode ser encontrada em qualquer bom livro de Cálculo, por exemplo em
[118]. Até hoje não é conhecido se γ é um número racional ou irracional. Resolva essa questão. 6

• Completeza

Dizemos que o espaço métrico X é completo em relação à métrica d se toda seqüência de Cauchy
em X convergir a um elemento de X.
Assim, em um espaço métrico completo, para garantirmos que uma seqüência converge basta veri-
ficarmos que a mesma é de Cauchy. Como comentamos à página 733, a propriedade de uma seqüência
ser de Cauchy pode ser verificada analisando apenas propriedades da mesma, daı́ sua vantagem. Dessa
forma, dada uma seqüência concreta {xn } em um espaço métrico completo X, para sabermos se {xn }
converge não é necessário adivinhar o elemento ao qual converge, mas bastar constatar a propriedade
de Cauchy, o que pode ser feito apenas estudando a distância entre elementos de {xn }.

Nota. O estudante mais adiantado deve ser advertido que a noção de completeza de um espaço métrico
não é uma noção topológica. Vide discussão à página 745.
Pelo que vimos nas últimas páginas, o espaço métrico formado pelos números racionais com a
métrica usual não é um espaço métrico completo. Vale, porém a seguinte afirmação:
Proposição 13.3 O conjunto dos números reais  é um espaço métrico completo em relação à métrica
usual: d(x, y) = |x − y|, x, y ∈ .  2

A demonstração dessa proposição pode ser encontrada em todos os bons livros de Cálculo ou Análise
Real. Discutiremos com detalhe esse fato ao apresentarmos uma “construção” dos números reais, devida
a Cantor14 (seguindo idéias de Weierstrass15 ), na Seção 13.B, da qual a proposição acima é um corolário
imediato.
O mesmo vale para o conjunto dos números complexos:
Proposição 13.4 O conjunto dos números complexos é um espaço métrico completo em relação à
métrica d(z, w) = |z − w|, z, w ∈ . 2

Vale também a seguinte afirmação, cuja demonstração será apresentada como caso particular de
uma outra afirmação mais geral na Seção 13.4.1:
Proposição 13.5 Para todo n ≥ 1, o conjunto n é um espaço métrico completo em relação às


métricas d∞ , d1 , d2 e dp com p ≥ 1, definidas à página 730. 2

Vamos a outros exemplos.


14
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
15
Karl Theodor Wilhelm Weierstrass (1815-1897).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 737/1195

E. 13.10 Exercı́cio. Vamos mostrar que C0 ([0, 1]) não é completo em relação à métrica d1 :
Z 1
d1 (f, g) = |f (x) − g(x)| dx.
0

Considere a seguinte seqüência de funções contı́nuas em [0, 1]:



 0, se x ∈ [0, 1/2 − 1/n]
fn (x) = n(x − 1/2 + 1/n), se x ∈ (1/2 − 1/n, 1/2) ,

1, se x ∈ [1/2, 1]

onde n ∈  .
a) Trace o gráfico dessas funções para se convencer que são todas contı́nuas e, portanto, elementos de
C0 ([0, 1]).
b) Calcule d1 (fn , fm ) e mostre que essa seqüência é uma seqüência de Cauchy em relação à métrica d 1 .
c) Seja agora função f definida por

0, se x ∈ [0, 1/2],
f (x) =
1, se x ∈ (1/2, 1].
Z 1
Calcule |fn (x) − f (x)| dx e mostre que o limite dessa integral é zero quando n → ∞. Como f não é
0
contı́nua, isso indica que a seqüência de Cauchy {f n }n∈ não converge a uma função contı́nua e, portanto,


C0 ([0, 1]) não é um espaço métrico completo em relação à métrica d 1 . 6

Vamos agora mostrar o seguinte fato importante:


Proposição 13.6 Seja [a, b] com −∞ < a ≤ b < ∞ um intervalo fechado e seja C 0 ([a, b]) conjunto
das funções contı́nuas (reais ou complexas) definidas em [a, b]. Então C 0 ([a, b]) é completo em relação
à métrica d∞ (f, g) := sup |f (x) − g(x)|, f, g ∈ C0 ([a, b]). 2
x∈[a, b]

Prova. Seja fn uma seqüência de Cauchy em C0 ([a, b]). Então para todo  > 0 existe um inteiro
positivo N () tal que supx∈[a, b] |fn (x) − fm (x)| < , sempre que m e n sejam maiores que N (). Isso
significa que para cada x ∈ [a, b] tem-se |fn (x) − fm (x)| <  sempre que m e n sejam maiores que N ().
Assim, para cada x ∈ [a, b] fixo, a seqüência numérica fn (x) é uma seqüência de Cauchy. Como (ou 

, conforme o caso) é completo, segue que cada seqüência fn (x) é convergente. Vamos denominar por
f (x) seu limite.
Claramente [a, b] 3 x 7→ f (x) é uma função (certo?). Essa função f é um forte candidato a ser
o limite da seqüência {fn }n∈ na métrica d∞ . Colocamo-nos, então, as seguintes questões: 1. Será a


função f também um elemento de C0 ([a, b]), ou seja, contı́nua? 2. Se a resposta à pergunta anterior for
positiva, será que a seqüência fm converge à função f na métrica d∞ ? Se a resposta a essas perguntas
for positiva, estará provado que C0 ([a, b]) é completo na métrica d∞ .
Precisamos agora mostrar que a seqüência {fm }m∈ aproxima essa função f na métrica d∞ .

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 738/1195

Seja  > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos N k (),
k = 1, 2, 3, . . . com Nk+1 () > Nk (), da seguinte forma: Nk () é tal que d∞ (fm , fn ) < /2k para
todos m, n > Nk (). Note que uma tal seqüência Nk () sempre pode ser encontrada pois, por hipótese,
fm é uma seqüência de Cauchy em d∞ . Vamos agora escolher uma seqüência crescente de ı́ndices
n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (). A essa seqüência está associada a sub-seqüência
{fnk }k∈ . Note que, pela definição, tem-se



d∞ (fnl+1 , fnl ) < ,
2l
pois nl e nl+1 são maiores que Nl ().
Com essas definições, teremos que, para todo k > 1,
k−1
X  
fnk (x) − fn1 (x) = fnl+1 (x) − fnl (x) .
l=1

(Justifique!). Logo,
k−1
X
|fnk (x) − fn1 (x)| ≤ |fnl+1 (x) − fnl (x)|
l=1

k−1
X k−1
X
≤ sup |fnl+1 (x) − fnl (x)| = d∞ (fnl+1 , fnl )
l=1 x∈[a, b] l=1

k−1
X  
1 1
<  =  1 − k−1 .
l=1
2l 2

Daqui, concluı́mos que para cada x ∈ [a, b],


|f (x) − fn1 (x)| = |f (x) − fnk (x) + fnk (x) − fn1 (x)|

≤ |f (x) − fnk (x)| + |fnk (x) − fn1 (x)|


 
1
< |f (x) − fnk (x)| +  1 − k−1 ,
2
ou seja,  
1
|f (x) − fn1 (x)| < |f (x) − fnk (x)| +  1 −
.
2k−1
O lado esquerdo desta expressão independe de k. Tomando-se o limite k → ∞ e lembrando que a
seqüência numérica fnk (x) converge a f (x), concluı́mos que
|f (x) − fn1 (x)| ≤  .
Como isso vale para todo x, segue que
d∞ (f, fn1 ) = sup |f (x) − fn1 (x)| ≤ . (13.7)
x∈[a, b]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 739/1195

Vamos agora provar que a função f é contı́nua. Para tal, notemos que para quaisquer x, y ∈ [a, b],

|f (x) − f (y)| = |f (x) − fn1 (x) + fn1 (x) − fn1 (y) + fn1 (y) − f (y)|

≤ |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + |fn1 (y) − f (y)|

≤ sup |f (x) − fn1 (x)| + |fn1 (x) − fn1 (y)| + sup |fn1 (y) − f (y)|
x∈[a, b] y∈[a, b]

= 2d∞ (f, fn1 ) + |fn1 (x) − fn1 (y)|

≤ 2 + |fn1 (x) − fn1 (y)| .

Notemos agora que fn1 ∈ C0 ([a, b]) e é, portanto, uma função contı́nua. Logo, pela definição de
continuidade de funções, para x fixo, existe um número positivo δ tal que |fn1 (x) − fn1 (y)| <  para
todo y tal que |y − x| < δ.
Assim, concluı́mos que para todo  > 0 existe δ > 0 tal que para todo y tal que |y − x| < δ tem-se
|f (x) − f (y)| < 3. Isso nos diz precisamente que f é contı́nua, como querı́amos provar. Note que
(13.7) diz-nos que fn converge a f em relação à métrica d∞ .

• Conjuntos Densos em Espaços Métricos

Se M é um conjunto dotado de uma métrica d, dizemos que um conjunto S é d-denso em M (ou


simplesmente denso em M ) se todo x ∈ M puder ser aproximado por elementos de S no sentido da
métrica d, ou seja, se para todo x ∈ M e todo  > 0 existir sempre pelo menos um elemento s ∈ S
(dependente de x e de ) tal que d(x, s) < .

• Espaços Métricos. O Completamento Canônico

Dado um conjunto X dotado de uma métrica d e que não seja completo em relação a esta métrica,
é muito importante, por vezes, identificar um conjunto X 0 , dotado de uma métrica d0 que possua as
seguintes propriedades:

a. X 0 contem X como subconjunto.

b. X é denso em X 0 em relação à métrica d0 .

c. d0 quando restrita a X é idêntica a d.

d. X 0 é completo em relação a d0 .

Em um tal caso, dizemos que o espaço métrico (X 0 , d0 ) é um completamento do espaço métrico (X, d).
Como exemplo, mencionamos que o conjunto dos números reais é um completamento do conjunto


dos números racionais, caso adotemos neste a métrica d(r, s) = |r − s|, r, s ∈ . A métrica d 0 em 

seria também d0 (x, y) = |x − y|, x, y ∈ .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 740/1195

Dado um espaço métrico (X, d), que eventualmente não é completo em relação a uma métrica
d dada, podemos completá-lo usando um procedimento padrão devido a Cantor16 , conhecido como
completamento canônico de espaços métricos. Isso é o conteúdo do seguinte teorema:
Teorema 13.1 (Completamento canônico) Dado um conjunto X, dotado de uma métrica d, existe
um outro conjunto X, e e uma aplicação injetora E : X → X
e dotado de uma métrica d, e tais que:

e
1. d(E(x), E(y)) = d(x, y) para todo x, y ∈ X.
e
2. O conjunto E(X), a imagem de X por E, é um conjunto d-denso e
em X.

3. X e
e é completo em relação à métrica d. 2

Nota. Comentemos que E é uma bijeção entre X e E(X) (por ser injetora). Nesse sentido, podemos
também, com um pequeno abuso de linguagem, dizer que Xe é um completamento de X.
Na Seção 13.B ilustramos uma aplicação importante do Teorema 13.1 (mais precisamente, da de-
monstração do Teorema 13.1) ao delinearmos como podemos “construir” os números reais a partir dos
racionais. Em seguida, adotando métricas especiais no conjunto , mostraremos como construir um
conjunto especial de números, os chamados números p-ádicos.

Prova do Teorema 13.1. Consideremos o conjunto Cd (X) formado por todas as seqüências em X que
sejam de Cauchy em relação à métrica d. Vamos introduzir em Cd (X) a seguinte relação de equivalência:
para duas seqüências de Cauchy a = {an }n∈ e b = {bn }n∈ dizemos que a é equivalente a b, a ∼ b, se
 

e somente se lim d(an , bn ) = 0.


n→∞

E. 13.11 Exercı́cio. Prove que esta é, de fato, uma relação de equivalência. Sugestão: use a desigualdade
triangular. 6

A conjunto Cd (X) é, então, a união disjunta de suas classes de equivalência pela relação acima 17 .
Vamos denotar por X e o conjunto de todas essas classes de equivalência. Como usualmente se faz,
denotaremos por [x] a classe de equivalência de um elemento x ∈ Cd (X), ou seja, [x] é o conjunto de
todas as seqüências de Cauchy em X que são equivalentes à seqüência de Cauchy x.
Podemos fazer de X e um espaço métrico definindo uma métrica de : X
e ×X e → da seguinte forma: 

e
d([x], [y]) = lim d(xn , yn ), (13.8)
n→∞


e
para duas seqüências de Cauchy x = {xi }i∈ e y = {yi }i∈ ∈ X. 

A respeito da definição (13.8) há alguns pontos a comentar, o que faremos com os três exercı́cios
que seguem. O primeiro exercı́cio mostra que o limite no lado direito de (13.8) de fato existe e esclarece
por que é importante o uso de seqüências de Cauchy na construção, e não seqüências quaisquer. O
segundo exercı́cio esclarece que de é de fato uma função de classes de equivalência (independente dos
16
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
17
Para as noções de relação de equivalência e classes de equivalência, vide página 28.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 741/1195

representantes x e y tomados em [x] e [y], respectivamente). O terceiro exercı́cio estabelece que de é, de
fato, uma métrica.

E. 13.12 Exercı́cio. Mostre que o limite em (13.8) existe. Para tal, note que, pela desigualdade
triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi )
e, portanto,
|d(xi , yi ) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi ).
Como x e y são seqüências de Cauchy o lado direito pode ser feito ≤  para qualquer  > 0, desde que i e
j sejam feitos grandes o suficiente. Complete os detalhes faltantes. 6

E. 13.13 Exercı́cio. Mostre que se x0 ∈ Cd (X) e x0 ∈ [x] (ou seja x0 é uma seqüência de Cauchy
equivalente a x ∈ Cd (X)) então

lim d(x0n , yn ) = lim d(xn , yn ) (13.9)


n→∞ n→∞

para toda y ∈ Cd (X). Sugestão: Usando a desigualdade triangular, tem-se que

d(xn , yn ) ≤ d(xn , x0n ) + d(x0n , yn ) .

Prove daı́ que |d(xn , yn ) − d(x0n , yn )| ≤ d(xn , x0n ) e conclua (13.9) disso.
6

Esse exercı́cio estabelece que a definição (13.8) independe do particular elemento x de [x] adotado.
Analogamente, (13.8) independe do particular elemento y de [y] adotado e, portanto, de é legitimamente
uma função de classes de equivalência.

E. 13.14 Exercı́cio. Mostre que de é uma métrica em X. e Sugestão: positividade e simetria são evidentes.
e
É também fácil ver que d([x], [y]) = 0 se e somente se x ∼ y, o que implica [x] = [y]. Por fim, a desigualdade
e
triangular para d segue facilmente da desigualdade triangular para d. Complete os detalhes faltantes. 6

Vamos agora mostrar que X e é completo18 em relação a d. e Seja {[xa ], a ∈ }, uma seqüência de


Cauchy em X. e Cada elemento xa é, ele mesmo, uma seqüência de Cauchy em X: {xa , xa , xa , . . .}.
1 2 3
Como [xa ], a ∈ , é uma seqüência de Cauchy em X

e vale que, para todo  > 0, existe A() ∈ 

e a ], [xb ]) <  desde que a e b ≥ A(). Daı́ segue que, pela definição
suficientemente grande tal que d([x
de limite, existe I() ∈ tal que


d(xai , xbi ) < ,


desde que a e b ≥ A() e que i ≥ I(). Fora isso, como {xai }i∈ é uma seqüência de Cauchy para cada


a, existe para todo  > 0 um Ja () tal que

d(xai , xaj ) < ,


18
Advertimos o estudante iniciante que a prova de completeza que segue é um tanto delicada e complexa e pode ser
dispensada em uma primeira leitura.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 742/1195

desde que i, j ≥ Ja ()


Defina-se então para n ∈ 

α(n) := A(1/n) e β(n) := max{I(1/n), Jα(n) (1/n)} .

α(n)
Defina-se também a seqüência x em X dada por xn = xβ(n) , n ∈  . Como
     
α(n) α(m) α(n) α(m) α(m) α(m)
d(xn , xm ) = d xβ(n) , xβ(m) ≤ d xβ(n) , xβ(n) + d xβ(n) , xβ(m) < 2/n < 20 ,

desde que m > n > 1/0 , segue que x é uma seqüência de Cauchy.
A classe de equivalência [x] é um candidato a ser o limite em X e da seqüência [xa ].
e (na métrica d)
Provemos que isso é de fato verdade. Temos que
 
e a ], [x]) = lim d xa , xα(n) .
d([x n β(n)
n→∞

Porém,    
α(n)  α(n)
d xan , xβ(n) ≤ d xan , xaβ(n) + d xaβ(n) , xβ(n) .
  
α(n)
Para  > 0, escolhendo a ≥ A() e n > 1/, tem-se que d xβ(n) , xβ(n) < . Assim, como lim d xan , xaβ(n) =
a
n→∞
0 (pois xa é uma seqüência de Cauchy), segue que
e a ], [x]) <  ,
d([x
e na métrica de e,
válido, como dissemos, tomando a ≥ A(). Isso diz-nos que [xa ] converge a [x] ∈ X
portanto, Xe é completo.
Para cada x ∈ X, podemos associar uma seqüência de Cauchy constante x
ei = x, ∀i ∈  . Seja
e
E : X → X definida por
X 3 x 7→ E(x) := [e e.
x] ∈ X
É fácil provar que E é injetora. De fato, se x, y ∈ X são tais que E(x) = E(y), então [e x] = [e
y] e
isso implica x e ∼ ye. Isso, por sua vez, significa que d(e
xi , yei ) = 0, Porém, x
ei = x e yei = y e, portanto,
provou-se que d(x, y) = 0, o que implica x = y, como querı́amos.
Há então uma bijeção E de X sobre o subconjunto E(X) := {E(x) ∈ X, e x ∈ X} ⊂ X. e Temos
também que
e
d(E(x), e x], [e
E(y)) = d([e xn , yen ) = lim d(x, y) = d(x, y) .
y ]) = lim d(e
n→∞ n→∞

Assim, aprendemos que a bijeção E preserva distâncias (é, portanto, o que se chama de uma isometria
entre X e E(X)).
Resta-nos mostrar que o conjunto E(X) é denso em X, e ou seja, qualquer elemento de Xe pode ser
e por elementos de E(X). Seja então [x] um elemento de X.
aproximado (no sentido da distância d) e
Como x é uma seqüência de Cauchy, vale que para cada  > 0 tem-se

d(xi , xj ) <  (13.10)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 743/1195

desde que i e j sejam maiores que um certo N (). Seja a seqüência de Cauchy constante igual ao
elemento xN ()+1 , ou seja, x^
N ()+1 . Teremos

  
e
d([x], N ()+1 ) = d([x], E(xN ()+1 )) = lim d(xn , x^
x^ e N ()+1 n ) = lim d(xn , xN ()+1 )
n→∞ n→∞

Agora, por (13.10),


lim d(xn , xN ()+1 ) < 
n→∞

e
Logo, d([x], e pode
E(xN ()+1 )) <  para todo  > 0, o que precisamente afirma que qualquer [x] ∈ X
ser arbitrariamente aproximado no sentido da métrica de por elementos de E(X). Isso completa a
demonstração do Teorema 13.1.

13.2 Topologia de Espaços Métricos

• Conjuntos Abertos em Espaços Métricos

Um espaço métrico possui, naturalmente, muitos subconjuntos. Há, porém, uma classe de subcon-
juntos que tem uma importância destacada, os chamados conjuntos abertos.
Seja X um espaço métrico com uma métrica d. Um subconjunto A de X é dito ser aberto (em
relação à métrica d) se tiver a seguinte propriedade: Para todo x ∈ A podemos achar um número
real δ(x) > 0 (eventualmente dependente de x) tal que para todo x0 ∈ X com a propriedade que
d(x, x0 ) < δ(x) (ou seja, que dista de x menos que δ(x)) vale que x0 também é um elemento de A.

E. 13.15 Exercı́cio. Mostre explicitamente que, para a, b ∈ com a < b, o conjunto (a, b) = {x ∈


 | a < x < b} é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6

E. 13.16 Exercı́cio. Mostre explicitamente que, para a, b ∈ com a < b, o conjunto [a, b) = {x ∈


 | a ≤ x < b} não é um conjunto aberto em relação à métrica d(x, y) = |x − y|. 6

E. 13.17 Exercı́cio. Mostre explicitamente que, para r > 0 a bola de raio r em 3 centrada na origem


em relação à métrica Euclidiana, Br = {x ∈ 3 | dE (x, 0) < r}, é um conjunto aberto na topologia definida


por essa métrica. 6

Seja I um conjunto arbitrário de ı́ndices e {Aλ , λ ∈ I} uma coleção de subconjuntos abertos de


um espaço métrico X. Os dois exercı́cios seguintes são muito importantes.
[
E. 13.18 Exercı́cio. Mostre que Aλ é também um conjunto aberto em X. 6
λ∈I

E. 13.19 Exercı́cio. Mostre que se A e B são abertos em X então A ∩ B também o é. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 744/1195

As afirmativas contidas nesses dois últimos exercı́cios são importantes pois inspiram a definição de
um outro conceito muito importante: o de espaço topológico. Espaços topológicos serão estudados com
mais detalhe e generalidade no Capı́tulo 15, página 812.

E. 13.20 Exercı́cio. Seja X é um conjunto não-vazio. Mostre que a expressão



0, se x = y ,
d(x, y) =
1, se x 6= y ,

com x, y ∈ X, define uma métrica em X, denominada métrica trivial.


Mostre que todo subconjunto de X é aberto em relação a essa métrica. 6

• Bolas Abertas em Espaços Métricos

Seja X um espaço métrico com uma métrica d e seja x ∈ X. Define-se a bola aberta de raio r > 0
centrada em x como sendo o conjunto

B(x, r) = {y ∈ X, tal que d(x, y) < r}.

Bolas abertas desempenham um papel importante no estudo de espaços métricos.

E. 13.21 Exercı́cio. Prove que toda bola aberta em um espaço métrico é um conjunto aberto na
topologia métrica desse espaço. 6

Ao contrário do que o nome sugere, bolas abertas em espaços métricos não têm necessariamente
um formato “redondo”. Para ver isso, faça os exercı́cios abaixo.
2
E. 13.22 Exercı́cio. Seja o conjunto  com a métrica d∞ definida acima:

d∞ (x, y) = max{|x1 − y1 |, |x2 − y2 |},

onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6

2
E. 13.23 Exercı́cio. Seja o conjunto  com a métrica d1 definida acima:

d1 (x, y) = |x1 − y1 | + |x2 − y2 |,

onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). 6

2
E. 13.24 Exercı́cio. Seja o conjunto  com a métrica dp definida acima com p > 1:

dp (x, y) = (|x1 − y1 |p + |x2 − y2 |p )1/p ,

onde x = (x1 , x2 ) e y = (y1 , y2 ). Desenhe a bola de raio 1 centrada em torno do ponto (0, 0). Considere
os casos 1 < p < 2 e p > 2. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 745/1195

• Métricas equivalentes. Métricas que geram a mesma topologia

Seja M um conjunto e sejam d1 e d2 duas métricas em M . As métricas d1 e d2 são ditas equivalentes,


em sı́mbolos d1 ∼ d2 , se existirem dois números c1 e c2 com 0 < c1 ≤ c2 tais que para todos x, y ∈ M
valha
c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y) .

E. 13.25 Exercı́cio. Mostre que a relação d1 ∼ d2 define uma relação de equivalência no conjunto de
todas as métricas em M . 6

E. 13.26 Exercı́cio. Sejam d1 e d2 duas métricas equivalentes em M . Mostre, que todo conjunto
d1 -aberto de M é d2 -aberto e vice-versa. Isso significa que se d1 e d2 são equivalentes, ambas geram a
mesma topologia. 6

Os exercı́cios que seguem mostram que a recı́proca não é geralmente verdadeira: métricas que geram
a mesma topologia não são necessariamente equivalentes (no sentido da definição acima).

E. 13.27 Exercı́cio. Seja M um espaço métrico com uma métrica d(x, y), x, y ∈ M . Prove que
d(x, y)
d0 (x, y) :=
1 + d(x, y)
também define uma métrica em M . Sugestão: para demonstrar a desigualdade triangular será útil provar
antes que a função
x
l(x) =
1+x
é crescente na região x ≥ 0. Outra sugestão: dê uma olhada na página 747. 6

E. 13.28 Exercı́cio. Mostre que as métricas d e d0 do exercı́cio E. 13.27 só são equivalentes (no sentido
da definição acima) se d for limitada, ou seja, se existir D > 0 tal que d(x, y) ≤ D para todos x, y ∈ M .
Sugestão: tem-se que l(x) ≤ x para todo x ≥ 0, mas mostre que não existe nenhuma constante c > 0 tal
que cx ≤ l(x) para todo x ≥ 0. Todavia, uma tal constante pode ser achada se nos limitarmos a x ∈ [0, D].
6

E. 13.29 Exercı́cio. Mostre que, mesmo não sendo equivalentes, as métricas d e d 0 do exercı́cio E.
13.27 definem a mesma topologia, ou seja, que todo conjunto d-aberto de M é d 0 -aberto e vice-versa. 6

• Completeza de Espaços Métricos e sua Topologia

Vamos neste ponto retornar à nossa discussão sobre a topologia de espaços métricos e discutir sua
relação com a noção de completeza. A verdade é que os dois conceitos não são totalmente relacionados.
O fato de um espaço métrico ser completo não é diretamente relacionado à topologia adotada mas sim
à métrica usada.
Para ver isso trataremos de exibir um exemplo de um espaço M dotado de duas métricas que
geram as mesmas topologias, sendo M completo em relação à primeira métrica mas não em relação à
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 746/1195

segunda métrica. No exemplo19 em questão


M = {x ∈  , x ≥ 1}. Em M adotaremos duas métricas:
1 1
d1 (x, y) = |y − x| e d2 (x, y) = − .
y x
E. 13.30 Exercı́cio. Mostre que d2 é de fato uma métrica em M . 6

O fato é que d1 e d2 geram a mesma topologia em M . Para ver isso notemos que d2 (x, y) =
d1 (x, y)/(xy) ≤ d1 (x, y) e, portanto, para todo x ∈ M e todo r > 0 vale Bd1 (x, r) ⊂ Bd2 (x, r). Se A
é aberto em τd2 (a topologia associada à métrica d2 ), então para todo x ∈ A há uma bola Bd2 (x, r(x, A))
inteiramente contida em A e, pelo que acabamos de ver, há também uma bola Bd1 (x, r(x, A)) inteira-
mente contida em A. Daqui se conclui que todo aberto de τd2 é também aberto de τd1 . Logo τd2 ⊂ τd1 .
Igualmente é claro que para todo y da bola aberta Bd1 (x, r) de τd1 podemos achar um r 0 suficiente-
mente pequeno tal que Bd2 (y, r 0 ) ⊂ Bd1 (x, r) (como?). Como as bolas abertas Bd1 geram τd1 isso
implica τd1 ⊂ τd2 , provando a igualdade das duas topologias.
O fato que queremos ressaltar é que M é completo em relação a d1 mas não em relação a d2 . Que
M é completo em relação a d1 pode ser provado diretamente ou pelo seguinte argumento topológico:
M é completo em relação a d1 pois M é um subconjunto fechado de na topologia usual τ , induzida



por d1 (vide discussão à página 835 e, em particular a Proposição 15.7, página 835).
Para ver que M não é completo em relação a d2 observe que a seqüência an = n, n ∈ , é de Cauchy


em relação a d2 mas não há nenhum elemento em M ao qual ela converge. Assim, M é completo em
relação a d1 mas não em relação a d2 , embora ambas as métricas gerem a mesma topologia.
As considerações acima dizem-nos que completeza não é uma noção de natureza topológica.

Nota. Não se pode argumentar, como fizemos com a métrica d1 , que M é completo em d2 por ser um
subconjunto fechado de na topologia induzida em por d2 , pois tal topologia não existe! d2 é uma
 

métrica em M , mas não em , ao contrário do que ocorre com d1 . Poder-se-ia, então, argumentar


que d2 é uma métrica em X = (0, ∞) (de fato é, verifique!) e que M é um subconjunto fechado de
X = (0, ∞) nessa topologia (de fato é, verifique!). Sucede, porém, que X = (0, ∞) não é completo em
relação a d2 , pelo mesmo exemplo de acima, e isso viola uma das condições da Proposição 15.7, página
835.

13.3 Pseudo-Métricas
Seja M um conjunto não-vazio. Uma função d : M × M →  que satisfaz

1. Positividade: para todos x, y ∈ M vale d(x, y) ≥ 0.

2. Simetria: para todos x, y ∈ M vale d(x, y) = d(y, x).

3. Desigualdade triangular: para todos x, y, z ∈ M vale d(x, y) ≤ d(x, z) + d(z, y).

4. Para todo x ∈ M vale d(x, x) = 0.


19
Extraı́do de [17].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 747/1195

é dita ser uma pseudo-métrica em M .


Como já provamos à página 729, a condição de positividade segue da desigualdade triangular e da
condição de simetria.
O seguinte fato é evidente: toda métrica é uma pseudo-métrica e uma pseudo-métrica d é uma
métrica somente se d(x, y) = 0 implicar x = y. Assim, em uma pseudo-métrica pode haver pontos
distintos x e y tais que d(x, y) = 0.
Passemos agora a discutir uma outra propriedade de pseudo-métricas de particular importância na
teoria dos chamados espaços localmente convexos. Seja d : M × M → uma pseudo-métrica. Então


f : M × M → definida por


d(a, b)
f (a, b) =
1 + d(a, b)
é também uma pseudo-métrica.
Em primeiro lugar, é claro que f (a, a) = 0 para todo a ∈ M . Como a simetria de f é também óbvia,
precisamos apenas mostrar que f satisfaz a desigualdade triangular. Para demonstrar isso, notemos
em primeiro lugar que a função
x
l(x) =
1+x
é crescente para x ≥ 0. De fato, se y > x ≥ 0, então
y−x
l(y) − l(x) = > 0.
(1 + y)(1 + x)

Assim, como pela desigualdade triangular para d vale que d(a, b) ≤ d(a, c) + d(c, b), teremos

d(a, b)
f (a, b) =
1 + d(a, b)

d(a, c) + d(c, b)
≤ .
1 + d(a, c) + d(c, b)

d(a, c) d(c, b)
= +
1 + d(a, c) + d(c, b) 1 + d(a, c) + d(c, b)

d(a, c) d(c, b)
≤ +
1 + d(a, c) 1 + d(c, b)

= f (a, c) + f (c, b), (13.11)

provando a desigualdade triangular para f . Acima, na passagem da terceira para a quarta linha usamos
os fatos óbvios que

1 + d(a, c) + d(c, b) ≥ 1 + d(a, c) e 1 + d(a, c) + d(c, b) ≥ 1 + d(c, b),

pois d é positiva.
Uma conseqüência disso é que se d é uma métrica então f também o é.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 748/1195

E. 13.31 Exercı́cio. Por quê? 6

• Famı́lias de Pseudo-Métricas

Em muitas situações são definidas em um conjunto M não uma mas toda uma famı́lia de pseudo-
métricas: D = {dα , α ∈ Λ}, Λ sendo um conjunto arbitrário não-vazio de ı́ndices, onde todas as dα
são pseudo-métricas.
Diz-se que uma famı́lia de pseudo-métricas: D = {dα , α ∈ Λ} separa pontos se para quaisquer dois
pontos distintos x, y ∈ M existir um α0 ∈ Λ tal que dα0 (x, y) 6= 0.
Tem-se a seguinte proposição, que mostra que a toda famı́lia contável de pseudo-métricas que separa
pontos vem naturalmente associada uma métrica:
Proposição 13.7 Seja M um conjunto e seja D = {dn , n ∈ } uma famı́lia contável de pseudo-


métricas em M que separa pontos. Então D : M × M → definida por 

X∞
1 dn (x, y)
D(x, y) =
n=1
2n 1 + dn (x, y)

é uma métrica em M . 2

Prova. Em primeiro lugar notemos que a soma infinita do lado direito é bem definida pois
dn (x, y)
0 ≤ ≤ 1
1 + dn (x, y)
e o fator 2−n garante a convergência. Que D é uma pseudo-métrica é evidente pelo fato que cada termo
dn (x, y)/(1 + dn (x, y)) o é, como vimos acima. Resta mostrar que D(x, y) = 0 implica x = y. Como
a soma contem apenas termos positivos, D(x, y) = 0 só é possı́vel se dn (x, y) = 0 para todo n ∈ . 

Como D separa pontos, se tivéssemos x 6= y haveria pelo menos um m para o qual dm (x, y) 6= 0. Como
tal não é o caso, tem-se forçosamente x = y.

13.4 Espaços de Banach e de Hilbert


Nesta seção suporemos que o leitor está familiarizado com os conceitos de produto escalar e norma em
espaços vetoriais, conceitos esses introduzidos na Seção 2.2.3, página 116, e, respectivamente, na Seção
2.3, página 120 (vide, em particular, página 116). Por simplicidade, trataremos também apenas de
espaços vetoriais sob o corpo dos complexos.

• Espaços de Banach

Se E é um espaço vetorial dotado de uma norma k · kE , podemos definir uma métrica em E através
da seguinte expressão: para u, v ∈ E,
dE (u, v) = ku − vkE .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 749/1195

Essa métrica é dita ser a métrica induzida pela norma k · kE .

E. 13.32 Exercı́cio. Prove que essa expressão de fato satisfaz as propriedades definidoras de métrica.
Sugestão: para demonstrar a desigualdade triangular, use a propriedade de norma ka + bk ≤ kak + kbk para
provar que ku − vkE = ku − w + w − vkE ≤ ku − wkE + kw − vkE para todos u, v, w ∈ E. 6

Como vimos, se E é um espaço vetorial normado, então é também um espaço métrico com a métrica
induzida pela norma, definida acima. Com isso em mente, introduzimos então a seguinte importante
definição:

Definição. Espaços de Banach. Um espaço vetorial B é dito ser um espaço de Banach 20 em relação
a uma norma nele definida se for um espaço métrico completo em relação à métrica induzida por essa
norma.

• Espaços de Hilbert

Seja E é um espaço vetorial dotado de um produto escalar h·, ·iE . Como discutimos à página
p 122 e
seguintes, podemos com o uso desse produto escalar definir uma norma em E por kukE := hu, uiE .
Essa norma é dita ser a norma induzida pelo produto escalar h·, ·iE . Caı́mos, assim, no caso de acima,
pois, sendo E um espaço vetorial normado, podemos definir uma métrica em E através da seguinte
expressão: para u, v ∈ E,
q
dE (u, v) = ku − vkE = h(u − v), (u − v)iE .

Essa métrica é dita ser a métrica induzida pelo produto escalar h·, ·i E .
Assim, se E é um espaço vetorial dotado de um produto escalar, então é também um espaço métrico
com a métrica induzida pelo produto escalar definida acima. Com isso em mente, introduzimos então
a seguinte importante definição:

Definição. Espaços de Hilbert. Um espaço vetorial H é dito ser um espaço de Hilbert 21 em relação
a um produto escalar nele definido se for um espaço métrico completo em relação à métrica induzida
por esse produto escalar.

Nota histórica. A noção abstrata de Espaço de Hilbert foi introduzida por Schmidt 22 , por volta de 1905,
inspirado em idéias de Hilbert sobre equações integrais, notadamente sobre a equação de Fredholm 23 ,
discutida no Capı́tulo 9. A noção abstrata de Espaço de Banach é posterior, tendo sido introduzida
por Banach em 1920. O termo “espaço de Banach” foi cunhado por Fréchet24 .
O estudante deve notar que todo espaço de Hilbert é naturalmente um espaço de Banach. A
recı́proca não é necessariamente verdadeira, pois um espaço de Banach não é necessariamente dotado
20
Stefan Banach (1892-1945).
21
David Hilbert (1862-1943).
22
Erhard Schmidt (1876-1959). Schmidt é conhecido por várias contribuições, como o Teorema de Hilbert-Schmidt
sobre operadores compactos e, mais popularmente, pelo método de ortogonalização de Gram-Schmidt (Jørgen Pedersen
Gram (1850-1916)).
23
Erik Ivar Fredholm (1866-1927).
24
Maurice Renés Fréchet (1878-1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 750/1195

de um produto escalar. Para tal é necessário (e suficiente) que a norma satisfaça a identidade do
paralelogramo. Vide página 124 e seguintes.
Também ressaltamos ao estudante que não apenas a existência de um produto escalar é importante
na definição de um espaço de Hilbert, mas também a propriedade de completeza, a qual é fundamental
para a demonstração de várias propriedades importantes dos espaços de Hilbert.

Exemplos 13.13.1 Os espaços vetoriais de dimensão finita n são espaços de Banach em relação
à norma kxkp := [|x1 |p + · · · + |xn |p ]1/p para todo p ≥ 1. O caso p = 2 é importante. n
é um
espaço de Hilbert em relação ao produto escalar hx, yi := x1 y1 + · · · xn yn O mesmo vale para os


espaços vetoriais reais n . Esses fatos serão provados logo adiante quando considerarmos os espaços


de seqüências tipo `p , p ≥ 1, os quais, como veremos, são exemplos de espaços de Banach (de dimensão
infinita). O espaço `2 é um espaço de Hilbert. Outro exemplo importante de espaço de Banach é o
espaço vetorial C0 ([0, 1]). Provamos na Proposição 13.6, página 737, que C0 ([0, 1]) é completo na
norma kf k∞ := supx∈[0, 1] |f (x)|. Portanto, C0 ([0, 1]) é um espaço de Banach em relação a essa norma.
Espaços de Hilbert têm uma importância fundamental na Mecânica Quântica e na Teoria Quântica
de Campos. Na Matemática, espaços de Banach e de Hilbert são também fundamentais em áreas como
a teorias das equações diferenciais parciais (e outras). O estudo de espaços de Hilbert e de Banach, e
de operadores lineares agindo nos mesmos, é uma área da Matemática denominada Análise Funcional.
Nestas Notas, estudaremos com mais detalhe as propriedades gerais de espaços de Hilbert no
Capı́tulo 22. No restante desta seção apresentaremos exemplos de espaços de Hilbert e de Banach
estudando espaços de seqüências.

13.4.1 Espaços de Seqüências


Vamos denotar por S( ) (por S( )) a coleção de todas as seqüências de números complexos (reais).


Um fato simples, mas importante de se comentar, é que S( ) é um espaço vetorial complexo (e,
respectivamente, S( ) é um espaço vetorial real). De fato, se a e b são duas seqüências de números


complexos podemos, para quaisquer α, β ∈ definir αa + βb como sendo a seqüência (αa + βb) n :=
αan + βbn , n ∈ . (Para S( ), o caso é análogo).
 

Por simplicidade, iremos daqui para frente discutir apenas o espaço S( ), das seqüências complexas,
mas tudo o que falaremos tem seu análogo para o espaço S( ). 

O espaço vetorial S( ) possui vários sub-espaços, alguns de interesse especial, como os espaços ` p ,
com p ≥ 1, e o espaço `∞ , os quais serão definidos mais adiante. O seguinte exercı́cio exibe um dos
sub-espaços de S( ).

E. 13.33 Exercı́cio. Denotemos por c( ), ou simplesmente c, a coleção de todas as seqüências de


Cauchy de números complexos com relação à métrica usual d(z, w) = |w − z|, ∀z, w ∈ . Mostre
que c( ) é um sub-espaço de S( ), ou seja, mostre que se {an }n∈ e {bn }n∈ são duas seqüências de
 

Cauchy de números complexos, então para quaisquer α, β ∈ a seqüência {αa n + βbn }n∈ é também 

uma seqüência de Cauchy de números complexos. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 751/1195

Outros exemplos de conjuntos de seqüências são os seguintes25 :


 

`∞ := 

{an }n∈ ∈ S( ) sup |an | < ∞ .
n∈ 

( )


c := {an }n∈ ∈ S( ) an converge na métrica usual .



( )


c0 := {an }n∈ ∈ S( ) lim |an | = 0 .


n→∞

( )

X

`p := {an }n∈ ∈ S( ) |an |p < ∞ .



n=1
( )


s := {an }n∈ ∈ S( ) lim nk |an | = 0 para todo k > 0 .


n→∞

( )


j := {an }n∈ ∈ S( ) lim exp(rn)|an | = 0 para todo r > 0 .
n→∞


( )


d := {an }n∈ ∈ S( ) an = 0, exceto para um conjunto finito de n’s .



Acima, c coincide com a coleção de todas as seqüências de Cauchy de complexos com relação à métrica
usual d(z, w) = |w − z|, ∀z, w ∈ pois é completo nessa métrica. Note que c0 ⊂ c. (Por quê?).
Em um exercı́cio à página 752, discutiremos as relações de pertinência entre os conjuntos de seqüências
acima e provaremos que d ⊂ j ⊂ s ⊂ `p ⊂ c0 ⊂ c ⊂ `∞ .

E. 13.34 Exercı́cio. Prove que os conjuntos d, j, s, c0 , c e `∞ são espaços vetoriais. 6

Mais adiante provaremos que os conjuntos `p também são espaços vetoriais. As provas para 0 <
p < 1 e p ≥ 1 são diferentes.

E. 13.35 Exercı́cio. Mostre que as seqüências an = exp(−n) e an = exp(−n2 ), n ∈  , pertencem a s.


1
Mostre que nenhuma seqüência an = r , n = 1, 2, . . ., com r > 0, pertence a s. 6
n

• Seqüências `∞ e `p

`∞ é o subconjunto de S( ) definido por


 

`∞ := {an }n∈ ∈ S( ) 
sup |an | < ∞ .
n∈ 

25
A ordenação dessa lista de exemplos é inspirada em [99].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 752/1195

Em palavras, `∞ é o conjunto formado por todas seqüências limitadas, ou seja, uma seqüência {a n }n∈ 

é do tipo `∞ se existir algum M ≥ 0 tal que, para todo n, tem-se |an | < M .
Note que as seqüências limitadas não são de Cauchy, mas toda a seqüência de Cauchy é limitada
(por que?). Assim, c( ) ⊂ `∞ .
Exemplo 13.2 As seqüências an = α, an = α/n2 , an = β + α/n an = β + αe−n , an = α(−1)n ,
an = α sen (nβ), ∀n ∈ , n ≥ 1 são, para todo α, β ∈ , elementos de `∞ . As seqüências an = α(−1)n


e an = α sen (nβ) não são de Cauchy. ◊

E. 13.36 Exercı́cio importante. Mostre que se {an }n∈ e {bn }n∈ são duas seqüências do tipo `∞
 

então, para quaisquer α β ∈ a seqüência {αan + βbn }n∈ é também do tipo `∞ .



6

Esse exercı́cio diz-nos que `∞ não é apenas um subconjunto, mas também um sub-espaço vetorial de
S( ). Mais adiante, mostraremos que `∞ é um espaço de Banach em relação a uma norma conveniente,
a saber, a norma definida no próximo exercı́cio.

E. 13.37 Exercı́cio importante. Seja a ≡ {an }n∈ ∈ `∞ . Mostre que




kak∞ := sup |an |


n∈ 

define uma norma em `∞ . 6

Outra famı́lia importante de sub-conjuntos de S( ) é formada pelas chamadas seqüências ` p , com


p ∈ , p > 0:


( )
X ∞

`p := {an }n∈ ∈ S( ) |an |p < ∞ .



n=1

1
E. 13.38 Exercı́cio. Seja p > 0. Mostre que para δ > 0 a seqüência a n = , n = 1, 2, 3, . . ., é do
1

n p
1
tipo `p . O que acontece se δ = 0? Mostre que an = , n = 1, 2, 3, . . ., é do tipo `p para todo p > 1 mas
n
não é do tipo `1 . Mostre que a seqüência an = exp(−n), n = 1, 2, 3, . . ., pertence a todos os espaços `p
com p > 0. 6
P
Pela definição, se {an }n∈ é uma seqüência de tipo `p , então a série ∞

p
n=1 |an | é convergente. Isso
só é possı́vel se limn→∞ |an | = 0. Isso, por sua vez, significa que para todo n grande o suficiente,
0
digamos, maior que um certo N0 ∈ , tem-se |an | ≤ 1. Se p0 ≥ p segue então que |an |p ≤ |an |p para


todo n > N0 .

E. 13.39 Exercı́cio. Use esses fatos para concluir que

` p ⊂ ` p0

para todos p, p0 com 0 < p ≤ p0 . 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 753/1195

E. 13.40 Exercı́cio. Conclua também que

d ⊂ j ⊂ s ⊂ ` p ⊂ ` p0 ⊂ c 0 ⊂ c ⊂ ` ∞ ,

para todos p, p0 com 0 < p ≤ p0 . 6

E. 13.41 Exercı́cio. Dê exemplos de elementos de `∞ que não pertencem a nenhum dos demais conjuntos
acima. 6

E. 13.42 Exercı́cio. Dê exemplos de elementos de c0 que não pertencem a nenhum `p com p > 0.
X∞
1 1
Sugestão: considere a seqüência an = com n = 2, 3, 4, . . .. Mostre que = ∞ para
ln(n) (ln(n))p
Z ∞ Z ∞ u n=2
1 e
todo p > 0. Para isso, use o fato (e prove-o!) que p
dx = p
du = ∞ para todo b > 1 e
b (ln(x)) ln(b) u
p∈ . 6

Vamos agora estabelecer um fato importante sobre os conjuntos de seqüências: combinações lineares
de seqüências `p são também seqüências `p .

• A estrutura linear dos conjuntos `p

Proposição 13.8 Os conjuntos `p , com p > 0, são espaços vetoriais complexos. 2

A prova faz uso da Proposição 13.9, página 765, do Apêndice 13.A.

Prova. Há dois casos a considerar em separado: 0 < p < 1 e p ≥ 1.


Caso 0 < p < 1. Sejam a, b ∈ . Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (13.A.2)
implica
|a + b|p ≤ (|a| + |b|)p ≤ |a|p + |b|p .
Assim, se an e bn são duas seqüências do tipo `p com 0 < p < 1, teremos

X ∞
X ∞
X
p p p p
|αan + βbn | ≤ |α| |an | + |β| |bn |p < ∞
n=1 n=1 n=1

para quaisquer α, β ∈ . Isso provou que a seqüência αan + βbn também é uma seqüência do tipo `p
com 0 < p < 1. Assim, `p com 0 < p < 1 é um espaço vetorial complexo.
Caso p ≥ 1. Sejam a, b ∈ . Como |a + b| ≤ |a| + |b|, a segunda desigualdade em (13.A.2) implica

|a + b|p ≤ (|a| + |b|)p ≤ 2p−1 (|a|p + |b|p ) .

Assim, se an e bn são duas seqüências do tipo `p com p ≥ 1, teremos



X ∞
X ∞
X
p p−1 p p p−1 p
|αan + βbn | ≤ 2 |α| |an | + 2 |β| |bn |p < ∞
n=1 n=1 n=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 754/1195

para quaisquer α, β ∈ . Isso provou que a seqüência αan + βbn também é uma seqüência do tipo `p
com p ≥ 1. Isso é o que querı́amos provar.

Mais adiante demonstraremos o seguinte fato muito importante: para todo p ≥ 1 os conjuntos ` p
não são meramente espaços vetoriais, mas também espaços vetoriais normados, com a norma
"∞ # p1
X
kakp := |an |p , (13.12)
n=1

para a ≡ {an }n∈ ∈ `p , p ≥ 1. Que essa expressão de fato define uma norma em `p , p ≥ 1, não é nada


óbvio e será provado mais adiante. Mais que isso, cada espaço `p , p ≥ 1, é um espaço de Banach em
relação à norma acima.
Veremos também que `2 é um espaço de Hilbert com produto escalar

X
ha, bi := a n bn ,
n=1

onde a ≡ {an }n∈ , b ≡ {bn }n∈ ∈ `2 .


 

Para p < 1 a situação é diferente. Nesse caso, os conjuntos `p ainda são espaços vetoriais, mas
para p < 1 a expressão (13.12) não representa uma norma. Esse fato reduz um tanto o interesse nesses
espaços.

• As desigualdades de Hölder e Minkowski para seqüências

Vamos aqui enunciar e demonstrar em um caso particular duas desigualdades importantes que
tornaremos a encontrar quando tratarmos da teoria da integração e de espaços de Banach, as quais são
conhecidas como desigualdades de Hölder26 e de Minkowski27 .
Teorema 13.2 Desigualdades de Hölder e de Minkowski para seqüências

I. Desigualdade de Hölder.
Sejam x = {xi }i∈ ∈ `p e y = {yi }i∈ ∈ `q com 0 < p < ∞ e 0 < q < ∞ e seja r > 0 definido
 

1 1 1
por + = . Então, vale
p q r

!1/r ∞
!1/p ∞ !1/q
X X X
|xi |r |yi |r ≤ |xi |p |yi |q . (13.13)
i=1 i=1 i=1

Para todo p > 0 (incluindo p = 1) e para todos x = {xi }i∈ ∈ `p e y = {yi }i∈ ∈ `∞ vale
 

"∞ #1/p ∞
!1/p  
X X
p p p
|xi | |yi | ≤ |xi | sup |yi | . (13.14)
i∈
i=1 i=1


26
Otto L. Hölder (1859-1937).
27
Hermann Minkowski (1864-1909). O nome de Minkowski surge também na Teoria da Relatividade.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 755/1195

II. Desigualdade de Minkowski.


Sejam x = {xi }i∈ e y = {yi }i∈ , ambas do tipo `p com p ≥ 1. Então, vale
 


!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p . (13.15)
i=1 i=1 i=1

As desigualdades de Hölder e Minkowski serão demonstradas nas páginas seguintes. Vamos antes a
alguns comentários.
O caso particular mais relevante da desigualdade de Hölder acima se da para 1 < p < ∞ e 1 < q < ∞
1 1
com + = 1. Nesse caso, a desigualdade de Hölder afirma que
p q
∞ ∞
!1/p ∞ !1/q
X X X
|xi | |yi | ≤ |xi |p |yi |q . (13.16)
i=1 i=1 i=1

Um fato importante que extraı́mos da desigualdade de Minkowski é o seguinte: se as seqüências


{xi }i∈ e {yi }i∈ são ambas do tipo `p , p ≥ 1, então a seqüência {xi + yi }i∈ também o é (pois o lado
  

direito de (13.15) é finito). Fora isso, é claro também que se {xi }i∈ é do tipo `p então a seqüência


{αxi }i∈ também é do tipo `p para qualquer α ∈ . Esses dois fatos juntos dizem-nos que as seqüências


do tipo `p , p ≥ 1, formam um espaço vetorial sobre os complexos. Por isso passaremos a chamar a
coleção de todas as seqüências do tipo `p , p ≥ 1, de espaço `p , sempre entendido como um espaço
vetorial sobre os complexos.
Mais ainda, a desigualdade de Minkowski afirma que

!1/p
X
kxkp := |xi |p
i=1

é uma norma nos espaços `p , p ≥ 1, pois afirma que


kx + ykp ≤ kxkp + kykp , ∀x, y ∈ `p ,
as demais condições que definem norma sendo elementares de se provar. Mostraremos logo adiante
(página 761) que os espaços `p , p ≥ 1, são exemplos de espaços de Banach em relação às normas acima
e que o espaço `2 é, em particular, um espaço de Hilbert.
Com essa definição de norma, podemos reescrever a desigualdade de Hölder (13.13) na forma
kxykr ≤ kxkp kykq ,
onde xy é a seqüência produto (xy)i := xi yi , i ∈
. Note que a desigualdade de Hölder (13.13) afirma


1 1 1
que se x ∈ `p e y ∈ `q então xy ∈ `r com 0 < p < ∞ e 0 < q < ∞, sendo + = . A desigualdade
p q r
(13.14) fica
kxykp ≤ kxkp kyk∞ .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 756/1195

para todos x ∈ `p e y ∈ `∞ e todo p > 0, incluindo p = 1. Concluı́mos analogamente que se x ∈ `p e


y ∈ `∞ então xy ∈ `p , p > 0.

• A Desigualdade de Hölder. Demonstração

Vamos agora então provar a desigualdade de Hölder (13.13). Para começar, notemos que a desigual-
dade de Hölder (13.13) para r > 0 é conseqüência do caso particular r = 1. De fato, sejam {x i }i∈ ∈ `p 

e {yi }i∈ ∈ `q com




1 1 1
+ = ,
p q r
sendo 0 < p < ∞ e 0 < q < ∞. Definindo novas seqüências {ai }i∈ e {bi }i∈ tais que |ai | = |xi |r e  

|bi | = |yi |r e definindo p0 = p/r e q 0 = q/r, teremos



X ∞
X ∞
X ∞
X
p0 p q0
|ai | = |xi | < ∞, e |bi | = |yi |q < ∞
i=1 i=1 i=1 i=1

o que prova que {ai }i∈ ∈ `p0 e {bi }i∈ ∈ `q0 . Como
 

1 1
0
+ 0 = 1,
p q
então, supondo válida a desigualdade de Hölder (13.13) no caso r = 1, teremos

!1/r "∞ #1/r
X X
|xi |r |yi |r = |ai ||bi |
i=1 i=1

 !1/p0 !1/q0 1/r



X ∞
X
(13.13) com r=1 0 0
≤  |ai |p |bi |q 
i=1 i=1

 !r/p !r/q 1/r



X ∞
X
=  |xi |p |yi |q 
i=1 i=1


!1/p ∞
!1/q
X X
= |xi |p |yi |q
i=1 i=1

que é a desigualdade de Hölder (13.13) no caso geral r > 0. Por causa disso, basta demonstrarmos
(13.13) para o caso r = 1, que é o que faremos.
Nossa estratégia será provar primeiro a desigualdade de Hölder (13.13), com r = 1, para seqüências
finitas e depois generalizar para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈  ). A
desigualdade de Hölder afirma que
n n
!1/p n
!1/q
X X X
|xi ||yi | ≤ |xi |p |yi |q ,
i=1 i=1 i=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 757/1195

1 1
para quaisquer p, q com 1 < p < ∞ e 1 < q < ∞ e tais que + = 1. Vamos a isso. Em primeiro
p q
lugar, note que a desigualdade é trivialmente verdadeira caso todos os xi ou todos os yi sejam nulos,
pois nesse caso tanto o lado direito quanto o lado esquerdo da desigualdade são iguais a zero.
Vamos então considerar o caso em que os xi e os yi não são todos identicamente nulos. Seja, para
um j fixo
|xj |p |yj |q
a = n e b = n .
X X
p q
|xi | |yi |
i=1 i=1

Usando a desigualdade de Young (13.A.1), tratada no Apêndice 13.A, página 764, temos que
|xj ||yj | 1 |xj |p 1 |yj |q
!1/p !1/q ≤ n + n .
n
X X n p X p
q X q
|xi | p
|yi | q |xi | |yi |
i=1 i=1
i=1 i=1

Somando ambos os lados da desigualdade para todo j entre 1 e n, teremos


n
X n
X n
X
p
|xj ||yj | |xj | |yj |q
j=1 1 j=1 1 j=1 1 1
!1/p !1/q ≤ n + n = + = 1, (13.17)
n
X n
X p X p
q X q
p q
|xi |p |yi |q |xi | |yi |
i=1 i=1
i=1 i=1

que é o que querı́amos provar.


Vamos agora generalizar a desigualdade de Hölder para seqüências infinitas.
Seja {xi }i∈ uma seqüência do tipo `p e seja {yi }i∈ uma seqüência do tipo `q com 1 < p < ∞,
 

1 < q < ∞ e 1/p + 1/q = 1. Como vimos, temos para qualquer n ∈ a desigualdade 

n n
!1/p n
!1/q
X X X
|xi ||yi | ≤ |xi |p |yi |q ,
i=1 i=1 i=1

Assim, segue que


n ∞
!1/p ∞
!1/q
X X X
p q
|xi ||yi | ≤ |xi | |yi | < ∞.
i=1 i=1 i=1
n
X
Essa desigualdade vale para todo n e diz, em particular, que a seqüência sn = |xi ||yi |, n ∈  , é
i=1
monótona crescente e limitada. Assim, existe lim sn e vale
n→∞

∞ ∞
!1/p ∞
!1/q
X X X
|xi ||yi | ≤ |xi |p |yi |q < ∞.
i=1 i=1 i=1

Essa última relação é a de Hölder (13.13), com r = 1. Isso provou (13.13) para todo r > 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 758/1195

A desigualdade de Hölder (13.16) envolve seqüências dos tipos `p e `q com 1/p + 1/q = 1, sendo que
1 < p < ∞ e 1 < q < ∞. É de se notar que os casos p = 1 ou q = 1 foram excluı́dos. Há também uma
desigualdade como a de Hölder envolvendo a seqüências do tipo `p e `∞ , incluindo o caso p = 1. Sejam
{xi }i∈ uma seqüência do tipo `p com p > 0 e {yi }i∈ uma seqüência do tipo `∞ . Então, é bem fácil
 

de se verificar que
"∞ #1/p ∞
!1/p  
X X
p p p
|xi | |yi | ≤ |xi | sup |yi | .
i∈
i=1 i=1


Essa é a desigualdade de Hölder (13.14).


A desigualdade de Hölder pode ser generalizada ainda mais, como veremos quando tratarmos da
teoria da integração. Vamos agora provar uma das conseqüências da desigualdade de Hölder, conhecida
como desigualdade de Minkowski.

• A Desigualdade de Minkowski. Demonstração

Novamente, nossa estratégia será considerar primeiro seqüências finitas e depois estender o obtido
para seqüências infinitas.
Sejam x1 , . . . , xn e y1 , . . . , yn duas seqüências finitas arbitrárias de números complexos (n ∈  ). A
desigualdade de Minkowski afirma que
n
!1/p n
!1/p n
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p
i=1 i=1 i=1

para qualquer p ≥ 1. Vamos demonstrá-la. O caso p = 1 é trivial (por que?). Consideremos então
p > 1. Teremos que
n
X n
X
p
|xi + yi | = |xi + yi ||xi + yi |p−1
i=1 i=1

n
X n
X
p−1
≤ |xi ||xi + yi | + |yi ||xi + yi |p−1 . (13.18)
i=1 i=1

Usando a desigualdade de Hölder (caso r = 1) podemos dizer que


n n
!1/p n
!1/q
X X X
|xi ||xi + yi |p−1 ≤ |xi |p |xi + yi |q(p−1) ,
i=1 i=1 i=1

onde 1/p + 1/q = 1, ou seja, p = q(p − 1). A última desigualdade diz então que
n n
!1/p n
!1/q
X X X
p−1 p p
|xi ||xi + yi | ≤ |xi | |xi + yi |
i=1 i=1 i=1

e, analogamente,
n n
!1/p n
!1/q
X X X
|yi ||xi + yi |p−1 ≤ |yi |p |xi + yi |p .
i=1 i=1 i=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 759/1195

Substituindo estas duas últimas relações em (13.18), teremos


 !1/p !1/p  n !1/q
X n Xn Xn X
|xi + yi | ≤ 
p
|xi | p
+ |yi | p  |xi + yi | p
,
i=1 i=1 i=1 i=1

donde tiramos que


n
!1/p n
!1/p n
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p , (13.19)
i=1 i=1 i=1
que é o que querı́amos provar.
Assim como a desigualdade de Hölder, a desigualdade de Minkowski pode ser generalizada para
seqüências infinitas. Sejam {xi }i∈ e {yi }i∈ seqüências infinitas de de números complexos, ambas do
 

tipo `p . Temos que, para qualquer n ∈ , 

n
!1/p n
!1/p n
!1/p ∞
!1/p ∞
!1/p
X X X X X
|xi + yi |p ≤ |xi |p + |yi |p ≤ |xi |p + |yi |p <∞
i=1 i=1 i=1 i=1 i=1

n
!1/p
X
Como a desigualdade vale para qualquer n, segue que a seqüência sn = |xi + yi |p ,n∈  , é
i=1
monótona crescente e limitada e, portanto, converge. Fora isso, vale

!1/p ∞
!1/p ∞
!1/p
X X X
|xi + yi |p ≤ |xi |p + |yi |p < ∞.
i=1 i=1 i=1

Essa é a desigualdade de Minkowski para seqüências infinitas de números complexos {x i }i∈ 


e
{yi }i∈ , ambas do tipo `p com p ≥ 1. Isso completa a prova do Teorema 13.2.


• A Desigualdade de Cauchy para Seqüências. Um produto escalar para `2

A desigualdade de Hölder tem um caso particular bastante especial. Sejam {xi }i∈ e {yi }i∈ duas  

seqüências de números complexos complexos do tipo `2 . Então a desigualdade de Hölder nos diz que
∞ ∞
!1/2 ∞ !1/2
X X X
|xi ||yi | ≤ |xi |2 |yi |2 . (13.20)
i=1 i=1 i=1

Essa desigualdade é conhecida como desigualdade de Cauchy (para seqüências) e é, sem exagero, uma
das desigualdades mais importantes. Muitos resultados importantes são extraı́dos dela, alguns dos
quais iremos tratar adiante.
A expressão (13.20) mostra-nos que para quaisquer {xi }i∈ , {yi }i∈ ∈ `2 a série  


X
xi yi =: hx, yi`2 (13.21)
i=1

é absolutamente convergente e, portanto, finita. Com isso, o lado esquerdo define um produto escalar
em `2 , que denotamos por hx, yi`2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 760/1195

E. 13.43 Exercı́cio. Prove essas últimas afirmações, ou seja, prove que hx, yi`2 é um produto escalar
em `2 . 6

Como veremos adiante, `2 é completo na norma relacionada a esse produto escalar, que é a norma
k · k2 . Isso prova que `2 é um espaço de Hilbert.
Veremos agora uma aplicação da desigualdade de Minkowski.

n
• As Métricas dp em
n n
Seja X = (ou  ) para algum n ∈  e seja a seguinte função em X × X:
1
dp (x, y) = (|x1 − y1 |p + · · · + |xn − yn |p ) p ,
n n
onde p ∈  , p ≥ 1, x = (x1 , . . . , xn ) ∈ e y = (y1 , . . . , yn ) ∈ .
Mostrar que, para p ≥ 1, dp define uma métrica em X é bem simples. A única dificuldade está em
demonstrar a desigualdade triangular, o que pode ser feito facilmente com o uso da desigualdade de
Minkowski mostrada acima.

E. 13.44 Exercı́cio. Usando a desigualdade de Minkowski, mostre que d p satisfaz a desigualdade


triangular, ou seja, que dp (x, y) ≤ dp (x, z) + dp (z, y) para p ≥ 1 e quaisquer x = (x1 , . . . , xn ),
y = (y1 , . . . , yn ) e z = (z1 , . . . , zn ) ∈ n . 6

Para o caso particular p = 2 a métrica d2 é idêntica à métrica Euclidiana dE introduzida anterior-


mente. Nesse sentido as métricas dp são um tipo de generalização da métrica Euclidiana usual.

• Semi-normas em `p , p ≥ 1

Para cada n ∈  podemos definir em `p , p ≥ 1, a semi-norma (o conceito de semi-norma encontra-se


à página 121)
" n
#1/p
X
kxkp, n = |xj |p . (13.22)
j=1

Note que kxkp, n é de fato uma semi-norma em `p , p ≥ 1, pois satisfaz kλxkp, n = |λ|kxkp, n para todo
λ∈ e
kx + ykp, n ≤ kxkp, n + kykp, n (13.23)
para todos x, y ∈ `p , p ≥ 1, devido à desigualdade de Minkowski para seqüências finitas (13.19).
Note também que
kxkp, n ≤ kxkp < ∞ (13.24)
para todo x ∈ `p , p ≥ 1 e todo n ∈  . Por fim, para qualquer x ∈ `p , vale

kxkp = lim kxkp, n .


n→∞

• O Teorema de Riesz-Fischer para seqüências. Completeza dos espaços ` ∞ e `p , p ≥ 1


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 761/1195

Vamos agora mostrar que os espaços `p , p ≥ 1, e `∞ são completos em relação às suas respectivas
normas. Essa afirmação, especialmente na sua forma mais geral, em espaços de funções mensuráveis
(tratada na Seção 20.4.2, página 945), é conhecida como Teorema de Riesz 28 -Fischer29 e data de 1907.
Seja p ≥ 1, fixo, e seja {am }m∈ , uma seqüência de elementos de `p . Como cada am é uma seqüência


de números complexos, indicaremos seus elementos por am i , i ∈ . Assim, convencionamos que o ı́ndice


superior indexa a seqüência e o inferior é o ı́ndice de cada elemento da seqüência.


Suponhamos que {am }m∈ seja uma seqüência de Cauchy em `p na métrica induzida pela norma


k · kp . Isso significa que para todo  > 0 existe um inteiro N () > 0 tal que kan − am kp <  sempre que
m, n > N (). Assim, se m, n > N (), é fácil ver que, para os elementos am n
i e ai isso significa que

" ∞
#1/p
X
|am n
i − ai | ≤ |am n p
j − aj | = kan − am kp < 
j=1

Isso diz-nos que, para cada i fixo, a seqüência de números {ani }n∈ é uma seqüência de Cauchy em


e, portanto, converge (pois é completo). Seja αi ∈ o limite dessa seqüência.


A seqüência α = {αi }i∈ é um forte candidato a ser o limite da seqüência {an }n∈ na métrica
 

definida pela norma k · kp . Colocamo-nos, então, as seguintes questões: 1. Será a seqüência α também
um elemento de `p ? 2. Se a resposta à pergunta anterior for positiva, será que a seqüência a m converge
à seqüência α = {αi }i∈ na norma de `p ? Se a resposta a essas perguntas for positiva, estará provado


que `p é completo.
Seja  > 0 arbitrário. Vamos definir uma seqüência crescente de números inteiros e positivos N k (),
k = 1, 2, 3, . . . com Nk+1 () > Nk (), da seguinte forma: Nk () é tal que kam − an kp < /2k para
todos m, n > Nk (). Note que uma tal seqüência Nk () sempre pode ser encontrada pois, por hipótese,
{am }m∈ é uma seqüência de Cauchy em k · kp . Vamos agora escolher uma seqüência crescente de


ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk (). A essa seqüência está associada a
sub-seqüência {ank }k∈ . Para simplificar a notação, denotaremos bk ≡ ank , k = 1, 2, 3, . . .. Tem-se



kbl+1 − bl kp < . (13.25)
2l
pois nl e nl+1 são maiores que Nl (). Note que para cada i, bki converge a αi quando k → ∞.
Com essas definições, teremos para todo k > 1 que (verifique!)
k−1
X
k 1
 
b −b = bl+1 − bl .
l=1

28
Frigyes Riesz (1880-1956).
29
Ernst Sigismund Fischer (1875-1954).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 762/1195

Utilizando as semi-normas k · kp, n , definidas em (13.22), e usando (13.23) e (13.24) e (13.25), teremos

Xk−1
 
k 1 l+1 l
kb kp, n = b + b −b

l=1 p, n

k−1
X
(13.23) l+1
≤ 1
kb kp, n + b − b l
p, n
l=1

k−1
X
(13.24) l+1
≤ 1
kb kp + b − b l
p
l=1

k−1
X ∞
X
(13.25)  
< kb1 kp + l
≤ kb 1
k p + l
= kb1 kp +  .
2 2
l=1 l=1

Assim,
kbk kp, n < kb1 kp + . (13.26)
P n 
p 1/p
Note que o lado esquerdo é k
i=1 |bi | e envolve uma soma finita de |bki |0 s. Assim, como cada bki
converge a αi quando k → ∞ temos, tomando o limite k → ∞,
" n #1/p " n #1/p
X X
lim |bki |p = |αi |p = kαkp, n .
k→∞
i=1 i=1

Como o lado direito de (13.26) não depende de k, concluı́mos que kαkp, n ≤ kb1 kp +  para todo n ∈  .
Agora, isso diz que
Xn
p
|αi |p ≤ kb1 kp + 
i=1

para todo n ∈ . O lado direito não depende de n. Como o lado esquerdo é uma seqüência crescente e


limitada
P∞ (pelo lado direito), segue que o lado esquerdo converge quando n → ∞. Isso prova então que
p
i=1 |αi | < ∞, ou seja, α ∈ `p .

Resta-nos agora responder à segunda pergunta colocada à página 761 e mostrar que a seqüência a m
converge a α em relação à norma k · kp .
Repetindo o mesmo raciocı́nio que conduziu a (13.26), apenas mantendo b1 do lado esquerdo,
concluı́mos que kbk − b1 kp, n < . Novamente, usando o mesmo argumento de acima, podemos tomar
o limite k → ∞ e obter kα − b1 kp, n ≤  Como o lado direito independe de n, segue novamente pelo
mesmo raciocı́nio de acima que kα − b1 kp ≤  Isso significa30 que para todo  > 0 existe b1 ∈ `p tal
que kα − b1 kp ≤ . Como b1 é escolhido na seqüência am , isso prova que α = limm→∞ am na topologia
definida por k · kp .
Com isso, provamos que todo `p com p ≥ 1 é completo na norma definida por k · kp e é, portanto,
um espaço de Banach nessa norma. Como comentamos, isso também implica que `2 é um espaço de
Hilbert com relação ao produto escalar definido em (13.21).
30
O estudante aqui talvez tenha que recordar a maneira como b1 = an1 foi definido no parágrafo que antecede (13.25).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 763/1195

A demonstração que `∞ é um espaço de Banach em relação à norma k · k∞ é idêntica, adotando-se


nesse caso as semi-normas kxk∞, n := sup |xi |.
1≤i≤n

E. 13.45 Exercı́cio. Complete os detalhes da prova que `∞ é um espaço de Banach em relação à norma
k · k∞ . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 764/1195

Apêndices

13.A Algumas Desigualdades Básicas


Demonstraremos aqui algumas desigualdades numéricas básicas que foram usadas no presente capı́tulo
e serão também empregadas em outros.

• A desigualdade de Young

A demonstração da desigualdade de Hölder faz uso de uma desigualdade numérica conhecida como
desigualdade de Young31 . Como essa desigualdade tem interesse por si só e outras aplicações, vamos
apresentar sua demonstração.
Sejam a e b dois números reais, ambos maiores ou iguais a zero e sejam p e q ambos tais que
1 1
1 < p < ∞ e 1 < q < ∞, mas tais que + = 1. Vamos então mostrar que para todo a, b ≥ 0
p q
a b
a1/p b1/q ≤ + , (13.A.1)
p q

sendo que a igualdade só é válida caso a = b. A desigualdade (13.A.1) é denominada desigualdade de
Young.
Para prová-la, notemos em primeiro lugar note que se a = 0 ou b = 0 a (13.A.1) acima é trivialmente
satisfeita pois o lado esquerdo é sempre zero, enquanto que o lado direito é sempre maior ou igual a zero.
a b
Vamos estão supor que a e b são ambos não nulos. Tudo o que queremos é provar que −a 1/p b1/q + +
  p q
α 1
é sempre maior ou igual a zero. Podemos escrever a última expressão como b −t + αt + q , onde
α = 1/p e t = a/b. Como 1 < p < ∞, temos que 0 < α < 1 enquanto que t ≥ 0. Note-se que a função
1
f (x) = −xα + αx + ,
q

é contı́nua para x ∈ [0, ∞) e que, para x > 0, tem-se



f 0 (x) = α 1 − xα−1 e f 00 (x) = α(1 − α)xα−2 > 0.

Assim, f (x) tem um único mı́nimo local em x = 1, onde f (1) = 0 (verifique). Fora isso, f (0) = 1q > 0
e lim f (x) = +∞. Desses fatos concluı́mos facilmente que f (x) ≥ 0 para todo x ≥ 0, a igualdade só
x→∞
se dando caso x = 1. Isso fecha o que querı́amos provar.

E. 13.46 Exercı́cio. Mostre que no caso 0 < p < 1 a desigualdade (13.A.1) se reverte (≤ deve ser
substituı́do por ≥). Nesse caso 1/q < 0. 6
31
William Henry Young (1863-1942).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 765/1195

• Desigualdades envolvendo somas de potências

As desigualdades apresentadas na seguinte proposição são muito úteis, especialmente no propósito


de demonstrar que os conjuntos de seqüências `p são espaços vetoriais, o mesmo se dando com os
conjuntos de funções Lp (M, dµ) dos quais trataremos no Capı́tulo 20.
Proposição 13.9 Sejam a ≥ 0 e b ≥ 0 dois números reais não-negativos.
I. Para todo p tal que 0 < p < 1 tem-se
ap + b p
1−p
≤ (a + b)p ≤ ap + bp . (13.A.2)
2

II. Para todo p tal que p ≥ 1 tem-se

ap + bp ≤ (a + b)p ≤ 2p−1 (ap + bp ) . (13.A.3)

Prova.
Caso I. Tomemos 0 < p < 1 fixo. Vamos primeiramente provar a seguinte desigualdade: para
quaisquer a, b ≥ 0 vale
(a + b)p ≤ ap + bp . (13.A.4)
Para a = 0 isso é óbvio. Seja, então, a > 0. Nesse caso, podemos fatorar a p e a desigualdade acima
ficaria,  p  p
b b
1+ ≤ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x) p − 1 − xp satisfaz f (x) ≤ 0 para
todo x ≥ 0. De fato, tem-se,
" #
1
f 0 (x) = −pxp−1 1 − 1−p . (13.A.5)
1 + x1

Como 1 + x1 ≥ 1 e 1 − p > 0, segue que f 0 (x) ≤ 0 para todo x ≥ 0. Com isso, provamos que f é
não-crescente. Como f (0) = 0, segue que f (x) ≤ 0 para todo x ≥ 0. Isso provou (13.A.4).
Vamos agora provar que
ap + b p
≤ (a + b)p .
21−p
Para x ≥ 0 e 0 < p < 1 a função ϕ(x) = xp é côncava. Portanto, para qualquer λ com 0 ≤ λ ≤ 1,
tem-se
λϕ(a) + (1 − λ)ϕ(b) ≤ ϕ (λa + (1 − λ)b) .
Para λ = 1/2, isso fica  p
ap + b p a+b

2 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 766/1195

e a prova de (13.A.2) está completa.


Caso II. Para o caso p = 1 a desigualdade (13.A.3) é evidente. Tomemos, então, p > 1 fixo. Vamos
primeiramente provar a seguinte desigualdade: para quaisquer a, b ≥ 0 vale
ap + bp ≤ (a + b)p . (13.A.6)
Para a = 0 isso é óbvio. Seja, então, a > 0. Nesse caso, podemos fatorar a p e a desigualdade acima
ficaria,  p  p
b b
1+ ≥ 1+ .
a a
Para provar isso, tudo o que desejamos é provar que f (x) := (1 + x) p − 1 − xp satisfaz f (x) ≥ 0 para
todo x ≥ 0. Agora, por (13.A.5),
"  p−1 #
1
f 0 (x) = −pxp−1 1 − 1 + .
x

Como 1 + x1 ≥ 1 e p − 1 > 0, segue que f 0 (x) ≥ 0 para todo x ≥ 0. Com isso provamos que f é
crescente. Como f (0) = 0, segue que f (x) ≥ 0 para todo x ≥ 0, provando o que querı́amos.
Vamos agora provar que
(a + b)p ≤ 2p−1 (ap + bp ) .
Para x ≥ 0 e p > 1 a função ϕ(x) = xp é convexa. Portanto, para qualquer λ com 0 ≤ λ ≤ 1, tem-se
ϕ (λa + (1 − λ)b) ≤ λϕ(a) + (1 − λ)ϕ(b) .
Para λ = 1/2, isso fica  p
a+b ap + b b

2 2
e a prova de (13.A.3) está completa.

13.B Números reais e p-ádicos


Neste apêndice ilustraremos a construção do completamento canônico de espaços métricos, desenvolvida
a partir da página 739, apresentando brevemente uma construção do conjunto dos números reais a partir
dos racionais que é também devida a Cantor. O mérito dessa construção não é apenas ilustrativo, pois o
mesmo conjunto de idéias permite a construção de outros conjuntos “exóticos” de números, os chamados
números p-ádicos (p, aqui, sendo um número primo).
A estudo desta seção não é essencial ao que segue e pode ser dispensado em uma primeira leitura.
A demonstração de completeza de , em particular, é um tanto delicada e complexa.


• Uma Métrica no Conjunto dos Racionais

Considere o conjunto dos números racionais. e considere a função d : × → + dada por


d(r, s) = |r − s|. Esta função tem as seguintes propriedades
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 767/1195

1. d(r, s) ∈ + para todo r, s ∈ .

2. d(r, s) = 0 se e somente se r = s.

3. Para todo a e b ∈ vale d(a, b) = d(b, a).

4. Para todo a, b e c ∈ vale d(a, b) ≤ d(a, c) + d(c, b).

A função d define o que se chama de uma métrica em . A desigualdade d(a, b) ≤ d(a, c) + d(c, b) é
chamada desigualdade triangular.

Nota. Como a princı́pio desejamos “construir” o conjunto dos números reais , devemos tomar o 

cuidado de definir a métrica d assumindo valores em + , o conjunto dos racionais ≥ 0, não em + , 

como fizemos até agora. Por essa razão, algumas adaptações ao que fizemos ate agora serão necessárias.
Uma seqüência de números racionais é uma função  → . Para uma seqüência a denota-se
freqüentemente seu valor a(i) por ai para i ∈ . 

• Seqüências de Cauchy de Números Racionais

Uma seqüência a de números racionais é dita ser uma seqüência de Cauchy 32 em relação à métrica
d se para todo  ∈ + existir um número natural N () (eventualmente dependente de ) tal que
d(ai , aj ) = |ai − aj | <  para todo i e j tais que i > N () e j > N ().
Uma seqüência de números racionais a converge para um número racional r no sentido da métrica
d se para todo  ∈ + existir um número natural N () (eventualmente dependente de ) tal que
d(r, ai ) <  para todo i > N ().

E. 13.47 Exercı́cio. Prove que se uma seqüência a converge a um número racional r então a é uma
seqüência de Cauchy. Sugestão: use a desigualdade triangular. 6

• Números Reais. A Construção de Cantor. Completamento

Como já discutimos em páginas anteriores, há seqüências de Cauchy de números racionais que não
convergem a números racionais. Esse fato é a motivação de uma construção muito importante: a dos
números reais.
Para mostrar como essa construção é feita (o que faremos aqui com o objetivo de ilustrar ou-
tras construções análogas futuras) vamos primeiramente considerar o conjunto C ≡ C( ) de todas as
seqüências de Cauchy de números racionais e construir em C uma relação de equivalência da seguinte
forma. Dizemos que duas seqüências de Cauchy a e b são equivalentes se a seqüência c i = ai − bi ,
i ∈  converge a zero. Ou seja, a ∼ b se para todo racional  > 0 existir inteiro N > 0 tal que
d(ai , bi ) = |ai − bi | <  para todo i > N .

E. 13.48 Exercı́cio. Mostre que se a e b são seqüências de Cauchy então a seqüência c i = ai − bi , i ∈ 

também o é. Sugestão: use a desigualdade triangular. 6

32
Augustin Louis Cauchy (1789-1857).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 768/1195

E. 13.49 Exercı́cio. Prove que a relação acima é de fato uma relação de equivalência. 6

Isto posto, sabemos que o conjunto C pode ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. O conjunto dos números reais é então definido como sendo o conjunto


formado por essas classes de equivalência ou, se quiserem, como o conjunto formado escolhendo-se um
elemento de cada classe de equivalência, ou seja, por uma seqüência de Cauchy de números racionais
em relação à métrica d.
Assim, uma seqüência de Cauchy como a seqüência ai = 1 + 1/1! + 1/2! + · · · + 1/i! acima define
um número real (no caso o número e).
Se x é uma seqüência de Cauchy de racionais em relação à métrica d denotaremos sua classe de
equivalência por [x]. Pela definição, [x] é um número real.
É possı́vel definir em  uma relação de ordem total da seguinte forma: dizemos que [x] < [y] se
existirem seqüências de racionais x0 ∈ [x] e y 0 ∈ [y] e um inteiro I tais que x0i < yj0 para todo i, j > I e
se [x0 − y 0 ] 6= [0], onde [0] é a classe que contem a seqüência identicamente nula. (Essa última condição
é para evitar seqüências com x0i < yi0 mas que se aproximem no limite i → ∞).

E. 13.50 Exercı́cio. Mostre que isso define uma relação de ordem total em  . 6

Poderı́amos tentar fazer de um espaço métrico, definindo, por analogia com o que fizemos ante-


riormente na construção do completamento canônico, uma métrica em por 

e
d([x], [y]) = lim d(xn , yn ) .
n→∞

Isso não pode ser feito dessa forma, porém, pois o a seqüência de racionais d(x n , yn ) = |xn − yn | pode
não ter limite nos racionais, mas sim nos reais. É fácil provar, porém, que a seqüência de racionais
d(xn , yn ), n ∈ , é uma seqüência de Cauchy na métrica d. Para tal, note que, pela desigualdade


triangular,
d(xi , yi ) ≤ d(xi , xj ) + d(xj , yj ) + d(yj , yi )
e, portanto,
|d(xi , yi ) − d(xj , yj )| ≤ d(xi , xj ) + d(yj , yi ).
Como o x e y são seqüências de Cauchy o lado direito pode ser feito ≤  ∈ + para qualquer  > 0,
desde que i e j sejam feitos grandes o suficiente.
Com isso, sabemos que a seqüência d(xn , yn ), n ∈ , pertence a alguma classe de equivalência que


denotaremos por [d(x, y)]. Com isso, podemos agora definir uma métrica em por 

e
d([x], [y]) = [d(x, y)] .

E. 13.51 Exercı́cio. Mostre que essa definição não depende dos particulares representantes x e y que
tomarmos nas classes [x] e [y]. 6

E. 13.52 Exercı́cio. Mostre que de define uma métrica em  . 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 769/1195

Com os ingredientes de acima (a definição de , de ordem em e da métrica de em ), podemos


  

definir as noções de convergência em e de seqüência de Cauchy em de modo análogo ao que fizemos


 

anteriormente: Uma seqüência de reais [x]n ≡ [xn ], n ∈ , converge ao real [x] se para todo [] > 0


e n , [x]) < [] sempre que n > N . Uma seqüência de reais [x]n é dita
existir um inteiro N tal que d([x]
ser uma seqüência de Cauchy em relação à métrica de se para todo [] > 0 existir um inteiro N tal que
e m , [x]m ) < [] sempre que m > N e n > N .
d([x]
Coloca-se então a grande questão, será  completo? Ou seja, será toda a seqüência de Cauchy de
reais convergente a um número real?
e
Provemos que sim. Seja [x]n ≡ [xn ], n ∈ , uma seqüência de Cauchy em relação à métrica d.


Então para qualquer [] ∈ existirá inteiro N ()




e m , [x]m ) = [|xm − xn |] < []


d([x] (13.B.7)

sempre que m > N () e n > N (). Vamos tomar [] um racional ou seja, suporemos que exista em []
uma seqüência constante i =  ∈ + .
A condição (13.B.7) significa que existem seqüências de racionais |xm n
i − xi | e um inteiro I() tais
que |xm n
i − xi | <  para todos m > N () e n > N () e i > I().

Como cada xm é uma seqüência de Cauchy de racionais, existe para todo  ∈ + um inteiro Jm ()
tal que |xm m
i − xj | <  sempre que i, j > Jm ().

Vamos então tomar  = 1/k, k ∈  e definir

a(k) := N (1/k) + 1, e b(k) := max{I(1/k), Ja(k) (1/k)} + 1


a(k)
e xk = xb(k) . Teremos,

a(k) a(k 0 ) a(k) a(k) a(k) a(k 0 )
|xk − xk0 | = xb(k) − xb(k0 ) ≤ xb(k) − xb(k0 ) + xb(k0 ) − xb(k0 ) ≤ 2 max{1/k, 1/k 0 }.

Isso prova que {xk }k∈ é uma seqüência de Cauchy de racionais. Portanto a ela está associado o número


real [x]. Resta-nos provar que [xm ] converge a [x] em de quando m → ∞.


e
De fato d([x], [xm ]) = [d(x, xm )] e
a(k) a(k) a(k) a(k)
d(xk , xm m m
k ) = |xk − xk | = |xb(k) − xk | ≤ |xb(k) − xk | + |xk − xm
k | < 2/l

para qualquer l ∈ , desde que m > a(l) e k > b(l). Isso prova que para m > a(l) tem-se



e Isso demonstrou que é completo.
[{d(x, xm )}m∈ ] = [0], demonstrando que [xm ] converge a [x] em d. 

É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. Por exemplo,
a soma de duas seqüências de Cauchy a e b é a seqüência de Cauchy c dada por c i = ai + bi , i ∈ e é 

fácil provar que essa seqüência é de Cauchy, assim como é possı́vel provar que , se trocarmos a ou b por
um outro elemento da mesma classe de equivalência, obteremos uma outra seqüência de Cauchy d da
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 770/1195

mesma classe de equivalência da seqüência c. Fora isso o conjunto dos reais assim definido é provido
de uma relação de ordem total x ≤ y.
Como essas propriedades são conhecidas não entraremos nos detalhes de sua demonstração (mas não
é difı́cil para o estudante entender como se faz). Gostarı́amos apenas de enfatizar, recordando, como
a construção dos reais foi feita: partimos do conjunto dos racionais, definimos uma métrica sobre os
mesmos e definimos os conceitos de seqüências e de seqüências de Cauchy (em relação à métrica dada).
Definimos também o conceito de convergência e constatamos que seqüências de Cauchy de racionais
não convergem sempre a racionais. Definimos então no espaço de todas as seqüências de Cauchy (em
relação à métrica dada) uma relação de equivalência e assim o conjunto de classes de equivalência define
uma nova classe de objetos com os quais, como afirmamos, podemos operar como números. Esses são
os números reais.
O procedimento de completar os racionais através da criação das classes de equivalência de suas
seqüências de Cauchy é chamado de completamento canônico doa racionais e foi inventado por Can-
tor33 (seguindo idéias de Weierstrass34 ). A construção de números reais acima é devida a Cantor (há
uma outra construção “equivalente” devida a Dedekind35 , a dos chamados “cortes de Dedekind”). O
completamento de Cantor é importante, pois seu método pode ser estendido a qualquer espaço métrico
não completo para a obtenção de uma classe de objetos ainda maior.

• Outros Completamentos dos Racionais. Números p-ádicos

A construção acima indicou um procedimento de completamento dos racionais a partir de suas


seqüências de Cauchy. É importante frisar, porém, que o conceito de seqüência de Cauchy depende de
uma função métrica especı́fica dada previamente. Assim, toda a construção do completamento depende
da métrica usada. O que acontece se trocarmos a métrica usada nos racionais? Podemos, ao proceder
o completamento de Cantor, obter uma classe de objetos diferente da dos reais? A resposta é positiva.
Como curiosidade vamos mostrar que há outros completamentos possı́veis dos números racionais se
mudarmos a métrica usada. Seguiremos aqui parcialmente [38], onde uma outra construção poderá ser
encontrada.
Sabemos do teorema fundamental da aritmética que todo número natural não nulo pode ser es-
crito de forma única como um produto de números primos. Para todo número racional r 6= 0 temos
conseqüentemente a decomposição única em fatores primos
Y wp (r)
r = (±1) pi i
i

onde os pi são números primos e wp (r) ∈ é o expoente do primo p na recomposição do racional r. O


produto acima envolve todos os primos, porém, apenas para um número finito deles tem-se w pi (r) 6= 0
(por que?).
Para um número racional r 6= 0 e para um primo p (que fixamos daqui por diante), seja a função
wp (r) que dá o exponente de p na decomposição (única) de r em fatores primos dada acima. Vamos
33
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
34
Karl Theodor Wilhelm Weierstrass (1815-1897).
35
Julius Wilhelm Richard Dedekind (1831-1916).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 771/1195

com o uso de wp definir a seguinte função φp : → +:


 −w (s)
p p , se s 6= 0, s ∈ ,
φp (s) :=
0, se s = 0.

A função φp tem as seguintes propriedades:

1. φp (s) ≥ 0 para todo s ∈ .


2. φp (s) = 0 se e somente se s = 0.
3. φp (rs) = φp (r)φp (s) para dois racionais quaisquer r e s.
4. Para dois racionais quaisquer r e s tem-se φp (r + s) ≤ max{φp (r), φp (s)} e portanto φp (r + s) ≤
φp (r) + φp (s).

Demonstraremos apenas o item 4, deixando os demais como exercı́cio (fácil). O item 4 é uma
conseqüência imediata da seguinte propriedade, que provaremos abaixo: para qualquer primo p e
quaisquer racionais r e s vale
wp (r + s) ≥ min{wp (r), wp (s)}.
Para provar essa desigualdade escrevemos r e s em sua decomposição em fatores primos:
Y wp (r) Y wp (s)
r = (±1) pi i , s = (±1) pi i .
i i

Assim,
Y wpi (r)
Y wpi (s)
r + s = (±1) pi + (±1) pi
i i

(13.B.8)
Multiplicando e dividindo por Y min{wpi (r), wpi (s)}
pi
i

ficamos com
" #
Y min{wpi (r), wpi (s)}
Y wpi (r)−min{wpi (r), wpi (s)}
Y wpi (s)−min{wpi (r), wpi (s)}
r+s = pi (±1) pi + (±1) pi .
i i i

Como obviamente (por que?) wpi (r) − min{wpi (r), wpi (s)} ≥ 0 e wpi (s) − min{wpi (r), wpi (s)} ≥ 0,
segue que o número entre colchetes é um inteiro, tendo uma decomposição em fatores primos da forma
Y γ
(±) pj j ,
j

onde os γi são positivos ou nulos (pois o número é inteiro). Assim,


Y min{wp (r), wp (s)}+γi
r+s = ± pi i i
,
i
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 772/1195

provando que
wpi (r + s) = min{wpi (r), wpi (s)} + γi ≥ min{wpi (r), wpi (s)},
para todo primo pi , o que completa a prova que querı́amos.
Em função das propriedades demonstradas no último exercı́cio, podemos, com o uso dessa função
φp , construir uma métrica em , que denotaremos por dp , dada por

dp (a, b) = φp (a − b)

para racionais a e b.

E. 13.53 Exercı́cio. Demonstre, usando as propriedades 1-4 de φ p mencionadas acima, que esta função
é de fato uma métrica, ou seja, que satisfaz

1. dp (r, s) ∈ + para todo r, s ∈ .

2. dp (r, s) = 0 se e somente se r = s.

3. Para todo a e b ∈ vale dp (a, b) = dp (b, a).

4. Para todo a, b e c ∈ vale dp (a, b) ≤ dp (a, c) + dp (c, b).

Também aqui podemos definir a noção de seqüência de Cauchy em relação à métrica d p . Uma
seqüência a de elementos de é dita ser uma seqüência de Cauchy (em relação à métrica d p ) se
para todo  ∈ + ,  > 0, existir um número natural N () (eventualmente dependente de ) tal que
dp (ai , aj ) <  para todo i e j tais que i > N () e j > N ().
Uma seqüência a em converge para um elemento b ∈ no sentido da métrica dp se para todo
 ∈ + existir um número natural N () (eventualmente dependente de ) tal que dp (b, ai ) <  para
todo i > N ().
Também neste caso podem ser exibidas seqüências de Cauchy de racionais que não convergem no
sentido da métrica dp a um outro racional. O conjunto , assim, não é completo em relação à métrica
dp . Podemos então completá-lo usando o procedimento de completamento de Cantor: tomamos o
conjunto Cp de todas as seqüências de Cauchy de números racionais em relação à d p e construı́mos em
Cp uma relação de equivalência da seguinte forma. Dizemos que duas seqüências de Cauchy a e b são
equivalentes se a seqüência dp (ai , bi ), converge a zero quando i → ∞.
Sabemos que o conjunto Cp pode então ser escrito como uma união disjunta de suas classes de
equivalência pela relação acima. Define-se então uma nova classe de números, denominados números
p-ádicos, como sendo o conjunto dessas classes de equivalência ou, se quiserem, como sendo o conjunto
formado escolhendo-se um elemento de cada classe de equivalência, ou seja, por uma seqüência de
Cauchy de números racionais em relação à métrica dp .
É possı́vel provar que podemos operar com esse novo conjunto de números da mesma forma como
operamos com os racionais, ou seja, podemos definir sua soma, seu produto, sua razão etc. (os mesmos
formam um corpo). Para a definição de corpo vide Seção 1.2.2, página 50.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 773/1195

Para cada primo p, o conjunto dos números p-ádicos, denominado p , é distinto do conjunto dos
reais. Possui, porém, em comum com os reais o fato de ambos terem os racionais como sub-conjunto
denso.
Note, por exemplo, que a seqüência de números racionais an = pn , n ∈ , diverge na reta real mas,


no conjunto p a mesma seqüência converge a zero (no sentido de dp ), sendo que precisamente o oposto
ocorre em relação à seqüência bn = p−n , n ∈ . 

E. 13.54 Exercı́cio. Constate a veracidade das afirmativas do último parágrafo. 6

n
X
E. 13.55 Exercı́cio. Verifique que, em relação a d3 , a seqüência de números positivos sn = 2 · 3a
a=0
converge ao número −1 (!). Sugestão: mostre que sn = 3n+1 − 1. Após isso mostre que d3 (sn , −1) =
φ3 (sn + 1) = 3−(n+1) , e conclua que sn → −1. 6

De um certo ponto de vista, os números p-ádicos formam uma classe “razoável” de números que
poderiam, em princı́pio, “substituir” os reais em aplicações, dado que ambos podem ser aproximados
por racionais (no sentido da métrica d no caso dos reais e da métrica dp no caso dos p-ádicos). Os
conjuntos p possuem propriedades extremamente curiosas, tanto do ponto de vista algébrico quando
do ponto de vista topológico, algumas das quais vimos nos exercı́cios acima. Aplicações significativas
dos números p-ádicos em Fı́sica são, no momento, desconhecidas. Sugestões de seu uso, porém, já
foram apresentadas na teoria das super-cordas.

13.C Aproximações para π


Métodos para calcular aproximações para o valor de π são procurados desde a Antigüidade. Comentam
os historiadores da Matemática que a mais antiga referência ao assunto talvez seja encontrada em um
papiro egı́pcio, denominado papiro de Rhind, de cerca de 1650 A.C., o qual fornecia a aproximação
4(8/9)2 ' 3.1605 para π. Arquimedes36 foi provavelmente o primeiro a propor um procedimento
sistemático de aproximação, que consistia em aproximar um cı́rculo de diâmetro 1, e perı́metro π, por
polı́gonos regulares inscritos e circunscritos. O perı́metro de um polı́gono regular pode ser computado
com o uso de considerações geométricas simples37 . Os perı́metros dos polı́gonos regulares inscritos
fornecem limites inferiores para π, enquanto que os perı́metros dos polı́gonos regulares circunscritos
fornecem limites
√ superiores. Usando hexágonos (vide Figura 13.C.1), por exemplo, chega-se facilmente
a 3 < π < 2 3, o que fornece as aproximações 3 < π < 3, 46, as quais são ainda um tanto grosseiras.
10
Usando polı́gonos regulares de 96 lados, Arquimedes concluiu que 3 71 < π < 3 17 , o que fornece as
aproximações 3, 0140845 < π < 3, 1428571 em base decimal. Como se observa, o limite superior fornece
π com o valor correto das duas primeiras casas decimais após a vı́rgula. Fragmentos incompletos de
sua obra indicam que Arquimedes teria chegado a determinar a aproximação 3, 1416 para o valor de π,
usando polı́gonos regulares ainda maiores.
O método de Arquimedes foi empregado na Europa até meados do século XVII para aproximar
36
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
37
Vide [27], onde uma descrição, mais detalhada do método de Arquimedes pode ser encontrada.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 774/1195

Figura 13.C.1: Cı́rculo, hexágono inscrito e circunscrito.

o valor de π. Ludolph van Ceulen38 empreendeu boa parte da sua vida aperfeiçoando o método de
Arquimedes, chegando, pouco antes de sua morte, a estimar o valor de π com o uso de polı́gonos
regulares de 262 lados, o que fornece π com 32 casas decimais de precisão.
Várias outras aproximações foram empregadas para aproximar π. Listemos algumas.

1. Aproximação de Wallis39 , ou Fórmula de Produto de Wallis, para π, de 1665:


n
Y 4k 2 24n+1 (n!)4 2 × 2 4 × 4 6 × 6 8 × 8 10 × 10
π = lim 2 2
= lim 2 = 2× ··· .
n→∞
k=1
4k − 1 n→∞ (2n + 1) [(2n)!] 1 × 3 3 × 5 5 × 7 7 × 9 9 × 11

Para uma demonstração simples dessa fórmula usando integrais, vide [118].
2. Aproximação de Gregory40 -Leibniz41 para π, de 1671:
Xn  
(−1)k 1 1 1 1
π = lim 4 = 4 1− + − + ··· ,
n→∞
k=0
2k + 1 3 5 7 9

Essa série provem do fato que π = 4 arctan(1). O arco-tangente pode ser calculado pela série de
Taylor42
X∞
(−1)n x2k+1
arctan(x) = .
k=0
2k + 1
fornecendo, assim, a aproximação dada acima para π.

Um comentário histórico é que a identidade π = 4 1 − 13 + 15 − 17 + 91 · · · é por vezes atribuı́da
a Leibniz, que a divulgou em 1674, três anos após a descoberta por Gregory da série de Taylor
da função arco-tangente. Historiadores comentam que Gregory provavelmente já a conhecia.
Todavia, essa identidade já seria conhecida por matemáticos hindus séculos antes.
38
Ludolph van Ceulen (1539-1610).
39
John Wallis (1616-1703). Wallis foi um dos pioneiros do Cálculo Diferencial e Integral e, uma curiosidade, foi o
inventor do sı́mbolo ∞.
40
James Gregory (1638-1675).
41
Gottfried Wilhelm von Leibniz (1646-1716).
42
Brook Taylor (1685-1731). A série de Taylor da função arco-tangente foi, em verdade, descoberta por Gregory em
1671.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 775/1195

3. Aproximação de Newton43 . Usando uma identidade como por exemplo π = 6 arcsen (1/2), Newton
empregou a série de Taylor da função arco-seno

X [(2n − 1)!!]2
arcsen (x) = x + x2n+1
n=1
(2n + 1)!

para determinar aproximações para π. Disso resulta a identidade (prove-a!)



X 3 (2n − 1)!
π = 3+ . (13.C.9)
n=1
24n−1 n(2n + 1) [(n − 1)!]2

Newton calculou as primeiras 15 casas decimais de π (em data incerta), para o que é necessário
somar cerca de 20 termos da série (13.C.9). Newton o fez, segundo confessou, “por não ter muito
o que fazer à época”.
Como, para n grande, (2n − 1)! ≈ 22n n2n e [(n − 1)!]2 ≈ n2n , os termos da série (13.C.9) decaem
como 2−2n . Machin encontrou uma outra identidade que permite uma convergência mais rápida.

4. Aproximação de Machin44 para π, de 1706:


Xn  
(−1)n 16 4
π = lim 2k+1
− 2k+1
.
n→∞
k=0
2k + 1 5 239

Essa série provem do fato, demonstrado por Machin, que

π = 16 arctan(1/5) − 4 arctan(1/239) .

Usando-se a série de Taylor da função arco-tangente dada acima, obtem-se a série de Machin para
π.

5. Aproximação de Euler45 para π por frações contı́nuas. Euler demonstrou que


4
π = .
12
1+
32
2+
52
2+
72
2+
92
2+
112
2+
..
.
43
Isaac Newton (1643-1727).
44
John Machin (1680-1751).
45
Leonhard Euler (1707-1783).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 776/1195

Mencionamos en passant que Euler também obteve a seguinte expressão para e em termos de
frações contı́nuas:
1
e = 2+ ,
1
1+
2
2+
3
3+
4
4+
5
5+
6
6+
..
.
que é também uma aproximação para e por racionais.
Note que as aproximações de Wallis, Gregory, Newton, Machin e Euler acima são aproximações
a π por números racionais.

6. Euler também obteve (no ano de 1735) uma série de identidades envolvendo séries infinitas do
X∞
1
tipo , com m = 1, 2, 3 etc., as quais podem ser usadas para calcular π. As primeiras
k=1
k 2m
identidades são
X∞ X∞ X∞ X∞ X∞
π2 1 π4 1 π6 1 π8 1 π 10 1
= 2
, = 4
, = 6
, = 8
, =
6 k=1
k 90 k=1
k 945 k=1
k 9450 k=1
k 93555 k=1
k 10

etc. Tais relações são bem conhecidas da teoria das séries de Fourier (vide [31]). Como o lado
esquerdo das igualdades acima envolve potências de π, essas séries não fornecem aproximações
a π por racionais. As últimas séries à direita convergem de modo relativamente rápido. Apenas
com os cinco primeiros termos da última série à direita obtem-se a aproximação 3, 141592647 para
π, cujos primeiros sete dı́gitos após a vı́rgula estão corretos. Para obter-se uma precisão análoga
com a primeira série à esquerda, é preciso somar cerca de cem milhões de termos, como é fácil de
verificar usando um programa de computador (faça!).
A fórmula geral para as somas acima46 é a seguinte:
X∞
1 (−1)m+1 22m−1 B2m 2m
= π , m = 1, 2, 3, . . . , (13.C.10)
k=1
k 2m (2m)!

onde Bn são os chamados números de Bernoulli47 , definidos pela série de Taylor


X∞
x Bn n
x
= x .
e −1 n=0
n!

Essa definição é também de Euler (a definição original de Bernoulli, publicada postumamente


em 1713, era outra (vide [118])). Os números de Bernoulli satisfazem Bn = 0 para n ı́mpar,
46
P∞ 1
Até a presente data, não são conhecidas expressões fechadas para somas como k=1 kn para o caso em que n é
ı́mpar, n ≥ 3.
47
Jacob Bernoulli (1654-1705).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 777/1195

exceto para n = 1, sendo B0 = 1 e B1 = −1/2. Os números de Bernoulli podem ser calculados


recursivamente pela identidade
n−1  
X n
Bj = 0, n>1.
j=0
j

Os primeiros são B0 = 1, B1 = −1/2, B2 = 1/6, B4 = −1/30, B6 = 1/42, B8 = −1/30. O leitor


interessado poderá encontrar mais detalhes sobre os fatos acima envolvendo números de Bernoulli
em vários textos, por exemplo em [118] e [31]. Nesse último texto, a relação (13.C.10) é provada
usando séries de Fourier.
Como os termos da série do lado esquerdo de (13.C.10) decaem muito rapidamente quando n →
∞, exceto o termo com k = 1, inferimos que
  2n1
(−1)n+1 (2n)!
π = lim .
n→∞ 22n−1 B2n

7. Aproximação de Ramanujan48 para π, de 191449 :


9.801
π = lim n .
n→∞ √ X (4k)! [1.103 + 26.390 k]
8
k=0
(k!)4 3964n

Devido à presença do fator 8, esta não
√é uma aproximação a π por racionais. Isso, porém, pode
ser facilmente√remediado substituindo 8 acima por an , sendo an alguma seqüência de racionais
aproximando 8.
1
8. Aproximação de Borwein e Borwein50 para π, de 1987: π = lim , onde
n→∞ pn

h √ “ √ ”i
Xn (−1)k (6k)! 212.175.710.912 61 + 1.657.145.277.365 + k 13.773.980.892.672 61 + 107.578.229.802.750
pn := 12 h “ √ ”i3k+3/2 .
k=0 (k!)3 (3k)! 5.280 236.674 + 30.303 61


Aqui aplica-se o mesmo comentário de acima: devido à presença do número 61 e do número
 √ 3/2
5.280 236.674 + 30.303 61 , a aproximação acima não é uma aproximação a π por racionais.
Isso, porém, pode ser remediado substituindo esses números por aproximações racionais.

A aproximação de Borwein e Borwein converge a π de modo impressionantemente rápido. Já


a primeira aproximação, 1/p0 , fornece corretamente os primeiros 24 dı́gitos de π na base decimal!
Cada termo seguinte da seqüência acrescenta aproximadamente 25 dı́gitos corretos ao valor de π na
48
Srinivasa Aiyangar Ramanujan (1887-1920).
49
A aproximação de Ramanujan surgiu em “Modular Equations and Approximations to π”. S. Ramanujan. The
Quarterly Journal of Pure and Applied Mathematics. 45, 350-372 (1914).
50
Jonathan M. Borwein e Peter B. Borwein são irmãos. Para mais detalhes sobre seu trabalho sobre a aproximação de
π, vide “Pi and the AGM. A Study in Analytic Number Theory and Computational Complexity”. Jonathan M. Borwein
e Peter B. Borwein. Editora John Willey and Sons. inc. 1986.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 13 778/1195

base decimal. No caso da aproximação de Ramanujan a convergência é um pouco mais lenta: cada
termo da seqüência acrescenta aproximadamente 8 dı́gitos corretos ao valor de π na base decimal. As
aproximações de Wallis e Gregory são extremamente lentas. Usando-as, um super-computador do inı́cio
dos anos 1990 levaria cerca de 100 anos para computar apenas os primeiros 100 dı́gitos corretos de π
na base decimal. A aproximação de Borwein e Borwein baseia-se em trabalhos de Ramanujan sobre as
chamadas equações modulares.
A fórmula de Machin (e ligeiras variantes da mesma) converge mais rapidamente que as de Wallis e
Gregory (por que?) e foi usada desde o século XVIII até a década de 1970 para cálculos de π (manuais
ou com computadores).
Em 1844, Dase51 calculou corretamente, usando a fórmula de Machin, as primeiras 205 casas deci-
mais de π. O cálculo foi feito à mão (!) e durou alguns meses. O feito de Dase foi superado em 1853 por
Shanks52 , que calculou 607 casas decimais de π. O cálculo também foi feito à mão e custou-lhe alguns
anos de trabalho. Infelizmente, porém, Shanks cometeu erros que resultaram em que seus últimos
80 dı́gitos estavam incorretos. Isso só foi percebido 92 anos depois (!), em 1946, por Ferguson, que
computou corretamente os primeiros 620 dı́gitos decimais de π.
Com o advento dos computadores eletrônicos tais cálculos deixaram de ser feitos por meios românticos.
Em 1987, usando a aproximação de Borwein e Borwein, π foi calculado por um super-computador com
uma precisão de cem milhões de casas decimais. Essa precisão foi aumentada desde então. Em 1999, π
era conhecido com 3 × 236 = 206.158.430.208 (cerca de duzentos bilhões) de dı́gitos decimais. O feito é
de Y. Kanada e D. Takahashi. Este ainda é o recorde atual (2003) e foi alcançado com dois algoritmos
distintos (para comparação), o dos irmãos Borwein e outro denominado Gauss-Legendre. O primeiro
consumiu 46 horas de computação em um super-computador e o segundo 37 horas.
Em 1996 Bailey, Borwein e Plouffe publicaram um algoritmo que permite determinar o n-ésimo
dı́gito hexadecimal de π sem o conhecimento dos precedentes. Em 1997 Plouffe descobriu um algoritmo
para determinar o n-ésimo dı́gito de π em qualquer base.
Outras informações históricas, especialmente sobre esses desenvolvimentos mais recentes, podem
ser encontradas em “The quest for Pi”, de D. H. Bailey, J. M. Borwein, P. B. Borwein e S. Plouffle.
The Mathematical Intelligencer 19, 50-57 (1997).
Ainda que no passado a determinação de valores aproximados de π tivesse importância em áreas
como a Fı́sica, a Astronomia e a Engenharia, dificilmente cálculos ultra-precisos de π podem ter re-
levância em aplicações: com apenas 37 dı́gitos decimais é possı́vel computar o perı́metro de um cı́rculo
com o raio do universo conhecido (cerca de 1, 3 × 1026 m) com uma precisão equivalente ao diâmetro
do um átomo de hidrogênio (cerca de 1, 0 × 10−10 m). Há, porém, um certo interesse matemático em
tais cálculos, envolvendo conjecturas sobre a distribuição dos dı́gitos decimais de π. Valores precisos
de π são também úteis em simulações numéricas. Ainda assim, hoje em dia a prática de cálculos
ultra-precisos de π tem motivação predominantemente esportiva.

51
Zacharias Dase (1824-1861).
52
Willian Shanks (1812-1882).
Capı́tulo 14
O Teorema do Ponto Fixo de Banach e Algumas de
Suas Conseqüências
Conteúdo
14.1 O Teorema de Ponto Fixo de Banach . . . . . . . . . . . . . . . . . . . . . 780
14.1.1 Aplicação a Equações Numéricas. O Método de Newton . . . . . . . . . . . . 782
14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach . . . . . . . . . . . 786
14.2 As Equações Integrais de Fredholm e de Volterra . . . . . . . . . . . . . . 787
14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias . . . . . . . . . 795
14.3.1 O Teorema de Picard-Lindelöf . . . . . . . . . . . . . . . . . . . . . . . . . . 795
14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais . . . . . . . . 800
14.3.3 Um Teorema de Comparação de Soluções de EDO’s . . . . . . . . . . . . . . 801
14.4 O Teorema da Função Implı́cita e o Teorema da Função Inversa . . . . . 805
14.4.1 O Teorema da Função Implı́cita . . . . . . . . . . . . . . . . . . . . . . . . . . 805
14.4.2 O Teorema da Função Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . 810
14.A O Lema de Grönwall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 811

eja X um conjunto qualquer e f : X → X uma função de X em X. Muitas vezes, em


problemas práticos e teóricos, estamos interessados em encontrar os pontos x que são levados
em si mesmos pela função f , ou seja, os pontos x tais que

x = f (x).

Os pontos que satisfazem essa equação são chamados de pontos fixos da transformação f e a equação
acima é denominada equação de ponto fixo. Veremos vários exemplos abaixo de equações desse tipo,
tanto no contexto de equações numéricas quanto no de equações integrais e diferenciais.
Na prática, dada uma função f , pode afigurar-se difı́cil saber se sequer existe um ponto fixo para ela.
Muitas vezes estamos interessados em saber quantos pontos fixos há e, freqüentemente, gostarı́amos de
garantir que há um e apenas um ponto fixo de uma dada função (a chamada “unicidade da solução”).
Teoremas que nos garantem existência e, por vezes, unicidade de soluções de equações de ponto fixo
são chamados de teoremas de ponto fixo. Há vários teoremas de tal tipo na literatura matemática, como
por exemplo, o Teorema de Ponto Fixo de Banach1 , o Teorema de Ponto Fixo Brouwer2 , o teorema do
ponto fixo de Schauder3 e vários outros, todos com pressupostos distintos sobre o conjunto X e sobre
a função f .
1
Stefan Banach (1892-1945).
2
Luitzen Egbertus Jan Brouwer (1881-1966).
3
Juliusz Pawel Schauder (1899-1943).

779
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 780/1195

Seja por exemplo o disco fechado Dn de n : 

 q 

Dn := (x1 , . . . , xn ) ∈ n 2 2
x1 + · · · + x n ≤ 1 .


O chamado Teorema do Ponto Fixo de Brouwer afirma que toda função contı́nua (na topologia usual)
de Dn em Dn tem pelo menos um ponto fixo. Aqui a unicidade nem sempre pode ser garantida: pense
no exemplo das rotações em 3 em torno de um eixo que passa pela origem. Todo ponto ao longo do


eixo de rotação é levado em si mesmo pela rotação e é, portanto, um ponto fixo da mesma.
O Teorema do Ponto Fixo de Schauder afirma que se X é um subconjunto convexo e compacto de
um espaço de Banach então toda função contı́nua (na topologia da norma) de X em X tem um ponto
fixo.
Aqui trataremos de um teorema de ponto fixo extremamente útil conhecido como Teorema de Ponto
Fixo de Banach, que funciona em espaços métricos completos. De fato, este é de longe o teorema de
ponto fixo com mais aplicações práticas, sendo que sua influência se estende aos domı́nios das equações
integrais, das equações diferenciais, das equações numéricas em , da Análise Numérica e de muitas
outras áreas da Matemática pura e aplicada.
Uma das razões de sua importância reside no fato de o Teorema de Ponto Fixo de Banach fornecer,
junto com seu enunciado, um método aproximativo para a determinação do ponto fixo, método este
que é muito eficiente. Vamos ao seu enunciado.

14.1 O Teorema de Ponto Fixo de Banach


Teorema 14.1 (Teorema de Ponto Fixo de Banach) Seja M um conjunto dotado de uma métrica
d e suponha M completo em relação a d. Seja A um subconjunto fechado de M e seja T uma função
de A em A, T : A → A. Vamos então supor que exista um número q com 0 ≤ q < 1 tal que para todos
os pontos x e y de A valha
d(T (x), T (y)) ≤ q d(x, y). (14.1)
Então, a equação de ponto fixo
x = T (x), (14.2)
tem solução em A e essa solução é única. Além disso, para qualquer x 0 ∈ A, a seqüência xn = T (xn−1 ),
n ≥ 1, obtida aplicando-se repetidamente T a partir de x0 , converge (rapidamente) ao ponto fixo x na
métrica d. A saber, tem-se que
qn
d(xn , x) ≤ d(x1 , x0 ). (14.3)
1−q
2

Uma função T : A → A tal que existe um número q com 0 ≤ q < 1 e tal que para todos os pontos x
e y de A valha a desigualdade (14.1) é dita ser uma contração. O teorema acima afirma então que toda
contração em um espaço métrico completo tem um e somente um ponto fixo. Esse teorema fornece um
método iterativo de determinar aproximadamente o ponto fixo, sendo que, por (14.3), a aproximação
é tanto melhor quanto mais iterações forem feitas.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 781/1195

Vamos primeiro provar o teorema e depois veremos vários exemplos de seu uso.

Prova do Teorema 14.1. Como A é um subconjunto fechado de um espaço métrico completo, então A é
também completo em relação à mesma métrica (vide Proposição 15.7, página 835).
Para simplificar a notação denotaremos por T n a n-ésima composição de T consigo mesma: T
| ◦ ·{z
· · ◦ T}.
n
Definimos então para um x0 ∈ A arbitrário xn = T n (x0 ), n ∈  , n > 0.
Vamos agora provar que {xn } é uma seqüência de Cauchy em A. Para isso sejam m e n dois
números naturais quaisquer tais que m < n. Então, usando a desigualdade triangular n − m vezes
temos o seguinte:
d(xm , xn ) ≤ d(xm , xm+1 ) + d(xm+1 , xn )
≤ d(xm , xm+1 ) + d(xm+1 , xm+2 ) + d(xm+2 , xn )
..
.
≤ d(xm , xm+1 ) + d(xm+1 , xm+2 ) + · · · + d(xn−1 , xn ).
Pela propriedade de contração, temos que
d(xa , xa+1 ) = d(T (xa−1 ), T (xa )) ≤ q d(xa−1 , xa ) ≤ · · · ≤ q a d(x0 , x1 ).
Daı́ 
d(xm , xn ) ≤ q m + q m+1 + . . . + q n−1 d(x0 , x1 )
e, portanto,

!
 X qm
m n−1−m m a
d(xm , xn ) ≤ q 1+q +...+q d(x0 , x1 ) ≤ q q d(x0 , x1 ) = d(x0 , x1 ).
a=0
1−q

Isso prova que {xn } é uma seqüência de Cauchy, pois q m pode ser feito arbitrariamente pequeno
tomando m grande, para qualquer n > m.
Como {xn } é uma seqüência de Cauchy em A e A é completo, deve haver x em A único ao qual a
seqüência converge. Temos sempre, usando a desigualdade triangular, que
d(x, xm ) ≤ d(x, xn ) + d(xn , xm ).
Tomando n > m, temos
qm
d(x, xm ) ≤ d(x, xn ) + d(x0 , x1 ).
1−q
Como xn se aproxima de x para n grande, podemos fazer o termo d(x, xn ) arbitrariamente pequeno,
tomando n grande, sem alterar os demais. Daı́, concluı́mos que
qm
d(x, xm ) ≤ d(x0 , x1 ). (14.4)
1−q
Essa última desigualdade mostra que xm de fato se aproxima exponencialmente rápido de x.
Vamos agora provar que x, o limite da seqüência {xn }, é um ponto fixo. Para isso calculemos
d(x, T (x)). Teremos, pela desigualdade triangular
d(x, T (x)) ≤ d(x, xm+1 ) + d(xm+1 , T (x)),
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 782/1195

para todo m. Usando (14.4) e a contratividade de T teremos,

q m+1 q m+1 q m+1 q m+1


d(x, T (x)) < d(x0 , x1 ) + q d(xm , x) < d(x0 , x1 ) + d(x0 , x1 ) = 2 d(x0 , x1 ).
1−q 1−q 1−q 1−q

Como m é arbitrário podemos fazer m → ∞ e obtemos d(x, T (x)) = 0, o que implica que x = T (x).
Por fim, resta-nos provar que x é o único ponto fixo de T . Para tal, vamos supor que haja um
outro: x0 = T (x0 ). Terı́amos, usando a contratividade, que

d(x, x0 ) = d(T (x), T (x0 )) ≤ q d(x, x0 ),

ou seja, (1 − q)d(x, x0 ) ≤ 0. Como q < 1 isso implica d(x, x0 ) = 0, que implica x = x0 . Isso completa
a prova do Teorema de Ponto Fixo de Banach.

Observação. A condição que q < 1 é crucial, sem ela as conclusões do teorema podem não mais ser
válidas. Vejamos o seguinte exemplo4 . Seja M = [1, ∞) com a métrica usual d(x, y) = |x − y| e seja
T : M → M dada por T (x) = x + x−1 . Então vale para todo x e y ∈ M , x 6= y,

d(T (x), T (y)) < d(x, y) .

De fato, para 1 ≤ x < y,


Z y Z y   Z y
0 1
T (y) − T (x) = T (t)dt = 1− 2 dt < dt = y − x,
x x t x

pois 1 − t−2 < 1 para t > 1, sendo essa a melhor estimativa possı́vel. Assim,

|T (y) − T (x)| < |y − x| ,

como querı́amos provar. Note agora, porém, que T não tem nenhum ponto fixo. De fato, T (x) = x
significa x + x−1 = x, ou seja, x−1 = 0, o que não é possı́vel se x ∈ [1, ∞).

14.1.1 Aplicação a Equações Numéricas. O Método de Newton

• Equações Numéricas

Vamos a alguns exemplos simples de aplicações do Teorema de Ponto Fixo de Banach. Seja a reta
real e a seguinte equação de ponto fixo em : 

x = λ cos(x),

onde 0 < λ < 1 é uma constante dada. Terá essa equação uma solução? Será ela única? Como
T (x) := λ cos(x) é uma função de em , podemos adotar em a métrica usual em relação à qual
  

4
Agradeço a D. A. Cortez por mostrar-me esse exemplo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 783/1195

 é completo. Em face do Teorema de Ponto Fixo de Banach a questão natural é saber se T é uma
contração. Vamos provar que isso é verdade.
Z y

d(T (x), T (y)) = λ | cos(x) − cos(y)| = λ sen (t) dt ≤ λ |x − y| = λ d(x, y),
x

pois | sen (t)| ≤ 1. Assim, vemos que T é uma contração com q = λ.


O Teorema de Ponto Fixo de Banach nos afirma então que, partindo-se de qualquer número real
x0 , as iteradas sucessivas de T convergem ao número x, ponto fixo de T :
xn = λ cos (λ cos (λ cos (· · · λ cos(x0 ) · · · ))) .
| {z }
n vezes

No caso λ = 1/2, o estudante que tenha uma simples calculadora é estimulado a determinar que o
ponto fixo é x ' 0, 45018311 . . ..

E. 14.1 Exercı́cio. Nesse caso, tomando por exemplo x0 = 0, estime o erro da aproximação se pararmos
após 30 iterações. 6

E. 14.2 Exercı́cio. O que acontece na equação de ponto fixo acima se λ > 1? A solução permanece
única? Faça gráficos das funções a(x) = x e b(x) = λ cos(x) para esclarecer essa questão. 6

E. 14.3 Exercı́cio. Use o Teorema de Ponto Fixo de Banach para mostrar que, em , a equação x = e −x 

tem uma e somente uma solução. Qual é ela, aproximadamente? Estime o erro após 40 iterações. 6

• O método de Newton para zeros de funções

O bem conhecido método de Newton de determinação de zeros de funções reais 5 pode ser estudado
sob a luz do Teorema de Ponto Fixo de Banach. Seja f : → uma função da qual desejamos
 

determinar um zero, ou seja, uma solução da equação f (χ) = 0. Notemos que essa equação equivale
(trivialmente) à equação χ = χ − ff0(χ)
(χ)
, pelo menos se f 0 (χ) 6= 0. Colocado dessa forma o problema
torna-se um problema de ponto fixo para a aplicação T : → definida por  

f (x)
T (x) := x − .
f 0 (x)
Isso motiva a seguinte proposição.
Proposição 14.1 Se f for pelo menos duas vezes diferenciável então f possuirá um zero χ, único,
num dado intervalo [a, b] se existir λ com 0 ≤ λ < 1 tal que

f (x)f 00 (x)

(f 0 (x))2 ≤ λ , para todo x ∈ [a, b] , (14.5)

e se
f (x)

f 0 (x) ≤ (1 − λ)α , (14.6)

5
Para a motivação geométrica do método de Newton, vide discussão à página 785 sobre a Figura 14.1.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 784/1195

onde x := a+b
2
e α := b−a
2
. Nesse caso, tem-se χ = limn→∞ xn , onde a seqüência xn ∈ [a, b] é
determinada iterativamente por
f (xn )
xn+1 = xn − , n≥0,
f 0 (xn )
sendo x0 ∈ [a, b], arbitrário. Ter-se-á,
λn λn
|χ − xn | ≤ |T (x0 ) − x0 | ≤ (b − a) , n ≥ 0. (14.7)
1−λ 1−λ
Se adotarmos x0 = x teremos ainda |χ − xn | ≤ αλn , n ≥ 0, por (14.6). 2

Nota. A condição (14.5) pressupõe f 0 (x) 6= 0 em [a, b]. Como veremos abaixo, a condição (14.5) é
importante por garantir a contratividade de T , enquanto que (14.6) é suficiente para garantir que T
leve pontos de [a, b] em [a, b], podendo ser eventualmente substituı́da por outra condição que garanta
o mesmo. Notemos, por fim, que o método de Newton funciona mesmo sob condições mais fracas sobre
a função f , nesse caso fora do contexto do Teorema de Ponto Fixo de Banach. A convergência das
iterações pode, então, ser mais lenta que aquela garantida em (14.7). Vide para tal qualquer bom livro
de Cálculo Numérico.

Prova. Sejam x, y ∈ [a, b]. Tem-se


f (y) f (x)
T (y) − T (x) = y − 0
−x+ 0
f (y) f (x)
Z y   Z y
d f (t) f (t)f 00 (t)
= t− 0 dt = dt .
x dt f (t) x (f 0 (t))2
Assim, (14.5) garante que
|T (y) − T (x)| ≤ λ|y − x| .
Isso estaria dizendo-nos que T é um contração. Precisamos, porém, garantir que T leve pontos de [a, b]
em [a, b]. Isso equivale a garantir que |T (x) − x| ≤ α para todo x ∈ [a, b], ou seja, para todo x tal que
|x − x| ≤ α. Uma maneira de impor isso usando (14.5) é supor válida a condição (14.6). De fato,

f (x) f (x)
|T (x) − x| = T (x) − T (x) + 0 ≤ |T (x) − T (x)| + 0
f (x) f (x)

por (14.5) f (x)
≤ λ|x − x| + 0
f (x)
por (14.6)
≤ λ|x − x| + (1 − λ)α
pois x ∈ [a, b]
≤ λα + (1 − λ)α

= α.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 785/1195

Com isso, provamos que T é uma contração que mapeia o espaço métrico completo [a, b] em si mesmo.
O Teorema de Ponto Fixo de Banach garante o resto.


E. 14.4 Exercı́cio-Exemplo. Usando o método de Newton determine um valor aproximado para 2
da seguinte forma: determine o zero positivo de f (x) = x2 − 2. As iterações serão xn+1 = T (xn ) com
2
T (x) = x 2x+2 . Que intervalo [a, b] é conveniente adotar? O que ocorre próximo a x = 0 e por que?
Partindo-se,√por exemplo, de x0 = 2 obtem-se os valores sucessivos 3/2, 17/12, 577/408. Esse√último
valor aproxima 2 com um erro de 2 × 10−6 . Note que esse procedimento fornece aproximações de 2 por
números racionais. 6


E. 14.5 Exercı́cio-Exemplo. Faça o mesmo para 3. 6

O método de Newton pode ser motivado geometricamente pela Figura 14.1. A linha reta que passa
pelo ponto (xn , f (xn )) tangencia o gráfico da função f . Sua inclinação é, portanto, f 0 (xn ). Assim,
o ponto xn+1 indicado na figura vale xn+1 = xn − ff0(x n)
(xn )
(verifique!). Repetindo-se o procedimento a
partir do ponto xn+1 aproximamo-nos mais ainda do zero χ de f .

f(x)

f(x n)

χ x n+1 xn

Figura 14.1: Iteração no método de Newton. O ponto χ é um zero de f . A linha reta tangencia o
gráfico de f no ponto (xn , f (xn )) e sua inclinação é f 0 (xn ). O ponto em que essa reta corta o eixo
horizontal determina xn+1 .

No método de Newton usual, a reta tangente tem uma inclinação diferente a cada passo: f 0 (xn ).
Um método alternativo, por vezes denominado método de Newton simplificado, consiste em usar retas
de inclinação fixa, tal como na Figura 14.2. Nessa situação, o problema de determinar o zero χ de f
equivale ao problema de ponto fixo x = T (x) com
1
T (x) = x − f (x) .
γ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 786/1195

f(x)

f(x n)

f(xn+1 )
f(xn+2 )
arctan γ

χ xn+2 xn+1 xn

Figura 14.2: Alternativa ao método de Newton. As linhas retas não são tangentes ao gráfico de f , são
todas paralelas, todas com inclinação fixa γ. Os pontos em que essas retas cortam o eixo horizontal
são os pontos da iteração.

E. 14.6 Exercı́cio. Usando o Teorema de Ponto Fixo de Banach estude esse problema de ponto fixo e
determine condições suficientes sobre a função f e sobre a inclinação γ para garantir a existência de um
zero único de f em um intervalo [a, b]. 6

E. 14.7 Exercı́cio-desafio. Generalize o método de Newton usando parábolas tangentes, ao invés de


retas tangentes. 6

n n
O método de Newton descrito acima pode ser generalizado para funções de  em  , mas não
trataremos disso aqui.

14.1.2 Uma Generalização do Teorema de Ponto Fixo de Banach


Antes de tratarmos das importantes aplicações do Teorema de Ponto Fixo de Banach a equações
integrais vamos a uma pequena generalização do mesmo. Esta nos será útil, por exemplo, quando
tratarmos da equação integral de Volterra. Ocorre por vezes que uma aplicação T , como discutida
acima, não é uma contração, mas alguma de suas potências o é. Nesse caso, podemos também garantir
os mesmos resultados do Teorema de Ponto Fixo de Banach. Temos o seguinte:
Proposição 14.2 Seja M um conjunto dotado de uma métrica d e suponha M completo em relação
a d. Seja A um subconjunto fechado em M e seja T uma função de A em A, T : A → A. Vamos
supor que exista um número m ∈ tal que a aplicação T m seja uma contração, cujo ponto fixo único


é x ∈ A. Então, T também tem um ponto fixo único, a saber, o mesmo x. 2


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 787/1195

Prova. Para provar que x é também ponto fixo de T , notemos que, como x = T m (x), temos também
que
T (x) = T m+1 (x) = T m (T (x)).
Isso diz que T (x) é ponto fixo de T m . Pelo Teorema de Ponto Fixo de Banach este último é x e é único.
Daı́ T (x) = x. Ora, isso diz precisamente que x é ponto fixo de T .
Provemos agora que x é também o único ponto fixo de T . Para tal, suponha que haja um outro:
y. Então y = T (y). Daqui tiramos que T (y) = T 2 (y). Juntando as duas vemos que y = T (y) = T 2 (y).
Repetindo esse procedimento, chegamos a y = T (y) = T 2 (y) = · · · = T m (y). Isso diz que y é ponto
fixo de T m . Agora, pelas hipóteses, o único ponto fixo de T m é x. Logo y = x.

14.2 As Equações Integrais de Fredholm e de Volterra


Vamos aqui tratar de dois tipos de equações integrais, as chamadas equações integrais de Fredholm 6 e
as equações integrais de Volterra7 . Ambas surgem em problemas de Fı́sica-Matemática e trataremos
de exemplos de aplicações adiante. A razão de tratarmos das mesmas aqui está na possibilidade de
utilizar o Teorema de Ponto Fixo de Banach para estudar a existência de soluções. O mesmo teorema
fornece, também neste caso, um poderoso método iterativo de solução, de grande importância prática.
Para uma introdução à teoria das equações integrais, vide [98] e [123]. Para um tratamento extensivo
da equação integral de Volterra, vide [88].
Antes de tratarmos dessas equações integrais, vamos discutir uma condição que estaremos usando
adiante.

• A condição de Lipschitz

Seja f : →
 uma função. f é dita satisfazer a condição de Lipschitz8 em toda a reta real se


existir uma constante M ≥ 0 tal que, para todos x e x0 em tenhamos 

|f (x0 ) − f (x)| ≤ M |x0 − x|.

Note que toda função que satisfaz a condição de Lipschitz para algum M é necessariamente uma
função contı́nua (por que?).
Para que uma função satisfaça a condição de Lipschitz há uma condição suficiente que é útil. Seja
f :  →  uma função diferenciável e tal que |f 0 (y)| ≤ M , para algum M ≥ 0 e para todo y ∈ . 

Então f satisfaz a condição de Lipschitz. Para provar isso, notemos que, pelo teorema fundamental do
cálculo vale Z 0 x
0
f (x ) − f (x) = f 0 (y)dy.
x
6
Erik Ivar Fredholm (1866-1927).
7
Vito Volterra (1860-1940).
8
Rudolf Otto Sigismund Lipschitz (1832-1903).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 788/1195

Daı́, Z 0
x Z x0 Z x0
0 0 0
|f (x ) − f (x)| = f (y)dy ≤ |f (y)|dy ≤ M dy = M |x0 − x|.
x x x

(Aqui tomamos x < x0 , sem perda de generalidade).

E. 14.8 Exercı́cio. Mostre que as funções sen e cos satisfazem a condição de Lipschitz. Qual M pode
ser adotado para ambas? 6

E. 14.9 Exercı́cio. Mostre que a função f (y) = y 2 não pode satisfazer a condição de Lipschitz em toda
a reta real. Sugestão: tome x0 = 0 e note que a relação |x2 | ≤ M |x| não pode ser válida para todo x ∈ 

com M ≥ 0 fixo qualquer. 6

Uma função que satisfaz a condição de Lipschitz é dita ser Lipschitz contı́nua. Para a demonstração
de resultados é muito útil, por vezes, (veremos exemplos adiante) mostrar-se que uma função dada é
Lipschitz contı́nua.
A condição discutida acima tem, aliás, uma generalização da qual não faremos uso aqui. Uma
função f : → é dita ser γ-Lipschitz contı́nua se existirem M ≥ 0 e γ > 0 tais que para todos x e
 

x0 em valha


|f (x0 ) − f (x)| ≤ M |x0 − x|γ .

A condição anterior é o caso particular deste onde γ = 1.

• As Equações Integrais de Fredholm

Seja I o intervalo [a, b] da reta real (com a e b dados e a < b) e sejam duas funções f : I →  e
K : I × I × → que consideraremos contı́nuas em seus domı́nios de definição.
 

A chamada equação integral de Fredholm é a seguinte equação integral:


Z b
u(x) = f (x) + K(x, y, u(y)) dy.
a

Acima u : I → é a função incógnita. Note que K, que é chamada de núcleo da equação integral,


é uma função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento,
dentro da integral.
Seja C0 (I) a coleção de todas as funções contı́nuas de I em . Já vimos anteriormente (Proposição


13.6, página 737) que C0 (I) é um espaço métrico completo em relação à métrica

d∞ (h, l) = sup |h(x) − l(x)|,


x∈I

onde h e l pertencem a C0 (I).


Seja T a aplicação que leva C0 (I) em si mesmo dada por
Z b
T (h)(x) = f (x) + K(x, y, h(y)) dy.
a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 789/1195

Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Fredholm pode ser então entendida como a equação de ponto fixo em C 0 (I) dada por
u = T (u).
É natural, portanto, procurar condições que façam de T uma contração no espaço métrico completo
C0 (I), pois assim poderemos evocar o Teorema de Ponto Fixo de Banach. É neste momento que a
condição de Lipschitz se faz útil. Vamos supor que a função K satisfaça a condição de Lipschitz para
a terceira variável: vamos supor que existe M ≥ 0 tal que para todo x, y ∈ I e todos z e z 0 ∈ valha 

|K(x, y, z 0 ) − K(x, y, z)| ≤ M |z 0 − z|. (14.8)


Então, pelo menos no caso em que M (b − a) < 1, a aplicação T é uma contração em C 0 (I) com relação
à métrica d∞ dada. Para provar isso, usamos que, para duas funções h, l ∈ C0 (I) temos
Z b
T (h)(x) − T (l)(x) = (K(x, y, h(y)) − K(x, y, l(y))) dy,
a

donde tiramos que


Z b
|T (h)(x) − T (l)(x)| ≤ |K(x, y, h(y)) − K(x, y, l(y))| dy
a

Z b
≤ M |h(y) − l(y)| dy
a

≤ M (b − a) sup |h(y) − l(y)| = M (b − a) d∞ (h, l) . (14.9)


y∈I

Logo,
d∞ (T (h), T (l)) = sup |T (h)(x) − T (l)(x)| ≤ M (b − a) d∞ (h, l).
x∈I

Assim, vimos que, sob as hipóteses acima, T é uma contração se M (b − a) < 1. Essa condição,
se satisfeita, garante, pelo Teorema de Ponto Fixo de Banach, que há uma e somente uma função u
em C0 (I) que é solução da equação integral de Fredholm. Com isso, a solução pode ser aproximada
(exponencialmente, na métrica d∞ ) partindo-se de qualquer u0 ∈ C0 (I) através da seqüência iterada
un = T (un−1 ), n ∈ , n ≥ 1.


A condição suficiente para termos contratividade M (b − a) < 1 é, em suma, uma condição sobre a
função K e sobre o intervalo I. Note-se que não há qualquer restrição à função f , além da que seja
contı́nua.

E. 14.10 Exercı́cio. Mostre que a equação integral de Fredholm


Z 1  
yu(y)
u(x) = 2 cos(x) + sen x + dy , x ∈ [0, 1] ,
0 2
 yz 
tem uma solução única em C0 ([0, 1]). Sugestão: neste caso a função K é K(x, y, z) = sen x +
2
(certo?). Mostre que a mesma é Lipschitz contı́nua em relação a z com M = 1/2. Para tal estude a
derivada parcial de K em relação a z e mostre que |∂z K(x, y, z)| ≤ 1/2 para todo x, y ∈ I e todo z ∈ . 

6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 790/1195

• As Equações Integrais de Volterra

A chamada equação integral de Volterra é a seguinte equação integral:


Z x
u(x) = f (x) + K(x, y, u(y)) dy.
a

Acima u : I → , I := [a, b] com b > a é a função incógnita e f e K são definidas tal como no caso


das equações integrais de Fredholm. Note que K, que é chamada de núcleo da equação integral, é uma
função de três variáveis e que a incógnita u(y) aparece na posição de seu terceiro argumento, dentro da
integral. Note também que a equação integral de Volterra difere da equação integral de Fredholm pelo
aparecimento de mais uma dependência em x, a saber, no limite superior do intervalo de integração.
Seja T a aplicação que leva C0 (I) em si mesmo dada por
Z x
T (h)(x) = f (x) + K(x, y, h(y)) dy.
a

Note que se h é uma função contı́nua em I então T (h) também é uma função contı́nua em I. A equação
integral de Volterra pode ser então entendida como a equação de ponto fixo em C 0 (I) dada por

u = T (u).

Como no caso da equação integral de Fredholm, poderı́amos procurar condições que façam de T uma
contração no espaço métrico completo C0 (I) pois, assim, poderı́amos novamente evocar o Teorema de
Ponto Fixo de Banach. Todavia, como veremos, podemos aqui proceder de um modo diferente do caso
da equação de Fredholm e obter condições mais fracas para garantir a existência de solução. O que
faremos não é procurar condições que garantam que T seja uma contração, mas provaremos que T m o
é, para algum m > 0. Assim, poderemos evocar a generalização do Teorema de Ponto Fixo de Banach
fornecida na Proposição 14.2, página 786.
Para tal, procedemos como antes e assumimos ser a função K Lipschitz contı́nua em relação à
terceira variável, ou seja, que valha a condição descrita em (14.8). Daqui tiramos, para x ∈ I,
Z x
T (h)(x) − T (l)(x) = (K(x, y, h(y)) − K(x, y, l(y))) dy,
a

donde segue que


Z x
|T (h)(x) − T (l)(x)| ≤ |K(x, y, h(y)) − K(x, y, l(y))| dy
a
Z x
≤ M |h(y) − l(y)| dy
a

≤ M (x − a) sup |h(y) − l(y)| = M (x − a) d∞ (h, l) .


y∈I

A diferença entre essa última expressão e a expressão correspondente (14.9) para a equação de Fredholm
é que aqui surge o fator (x − a), que ainda depende de x, ao invés do fator constante (b − a). Como se
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 791/1195

verá no que segue, essa diferença é importante. Vamos agora provar por indução que para todo n ∈ 

tem-se
(x − a)n
|T n (h)(x) − T n (l)(x)| ≤ M n d∞ (h, l), ∀x ∈ I. (14.10)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z x
n+1
T (h)(x) − T n+1
(l)(x) ≤ |K(x, y, T n (h)(y)) − K(x, y, T n (l)(y))| dy
a
Z x
≤ M |T n (h)(y) − T n (l)(y)| dy
a
Z x 
n (y − a)n
≤ M M dy d∞ (h, l)
a n!

(x − a)n+1
= M n+1 d∞ (h, l) ,
(n + 1)!

o que prova (14.10) para todo n ∈  , por indução. Assim, temos também que

(b − a)n
d∞ (T n (h), T n (l)) ≤ M n d∞ (h, l), ∀n ∈ .
n!


Note-se agora que, para quaisquer M , a e b fixos, existe n grande o suficiente tal que

[M (b − a)]n
< 1
n!
(por que?). Assim, para um tal n, T n será uma contração. Pela generalização do Teorema de Ponto
Fixo de Banach fornecida pela Proposição 14.2, página 786, vemos que T tem também um ponto fixo
único. Isso garante existência e unicidade das soluções da equação de Volterra em C 0 (I). Note-se que,
aqui, foi suficiente assumir que K satisfaça a relação descrita em (14.8), não havendo restrições ao valor
do produto M (b − a), ao contrário do que ocorreu no caso da equação de Fredholm.

• Equações Diferenciais de Segunda Ordem e as Equações Integrais de Volterra

Vamos aqui tratar de mostrar algumas aplicações das equações integrais de Volterra à resolução de
problemas, muito freqüentemente encontrados em Fı́sica, envolvendo equações diferenciais de segunda
ordem com certas condições iniciais dadas.
Para tal, faremos uso da seguinte identidade, válida para qualquer função φ que seja pelo menos
duas vezes diferenciável em :

Z t
φ(t) = φ(t0 ) + φ̇(t0 )(t − t0 ) + (t − t0 )φ̈(t0 ) dt0 . (14.11)
t0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 792/1195

E. 14.11 Exercı́cio. Prove essa identidade. Sugestão: use as identidades


Z t Z t0
0 0 0
φ(t) = φ(t0 ) + φ̇(t ) dt e φ̇(t ) = φ̇(t0 ) + φ̈(t00 ) dt00
t0 t0

e use integração por partes. 6

Para ilustrar o uso que podemos fazer da identidade (14.11), vamos considerar a bem conhecida
equação do pêndulo simples
g
θ̈(t) = − sen (θ(t))
l
(para g > 0 e l > 0) com condições iniciais θ(0) = θ0 e θ̇(0) = ω0 . Substituindo o lado direito em
(14.11) temos Z
g t
θ(t) = θ0 + ω0 t − (t − t0 ) sen (θ(t0 )) dt0 , (14.12)
l 0
que é uma equação integral de Volterra não-linear para θ.

E. 14.12 Exercı́cio. Constate que o núcleo dessa equação integral


g
K(t, t0 , z) = − (t − t0 ) sen (z)
l
satisfaz a condição de Lipschitz para t e t0 contidos em qualquer intervalo finito [−T, T ], 0 < T < ∞. 6

Deste último exercı́cio concluı́mos que a equação do pêndulo simples, com as condições iniciais
dadas, tem solução única em qualquer intervalo finito [−T, T ], 0 < T < ∞.

E. 14.13 Exercı́cio. Calcule as duas primeiras aproximações para a solução da equação integral (14.12)
seguindo o procedimento iterativo. Tome como ponto de partida a função identicamente nula: θ 0 (t) ≡ 0.
Você consegue, olhando o resultado do cômputo das duas primeiras aproximações, interpretar fisicamente o
que elas representam? 6

E. 14.14 Exercı́cio de meditação. Pode-se obter soluções oscilantes para a equação do pêndulo simples
acima pelo procedimento iterativo que advem do Teorema de Ponto Fixo de Banach? 6

E. 14.15 Exercı́cio. Seja a conhecida equação do pêndulo simples no limite de pequenas oscilações:
g
θ̈(t) = − θ(t),
l

com condições iniciais θ(0) = φ0 e θ̇(0) = ω0 . Usando (14.11) transforme-a em uma equação integral de
Volterra e resolva-a pelo método iterativo, tomando como ponto de partida a função identicamente nula:
θ0 (t) ≡ 0. Para tal, determine a n-ésima iterada θn exatamente
r e mostre que a mesma converge a uma
g
certa combinação linear de cos(ωt) e sen (ωt), onde ω = . Para tal você precisará lembrar-se da série
l
de Taylor das funções sen e cos. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 793/1195

Uma outra ilustração do uso das equações integrais de Volterra, e sua resolução via Teorema de
Ponto Fixo de Banach, pode ser encontrada no estudo das equações diferenciais lineares de segunda
ordem não-homogêneas com coeficientes não necessariamente constantes
ü(t) + a(t)u̇(t) + b(t)u(t) = c(t), (14.13)
com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 . Tais equações são muito freqüentemente
encontradas em problemas de Fı́sica-Matemática e o estudante certamente já as viu surgir, por exemplo,
em Mecânica Clássica.
Nosso objetivo é transformar o problema de determinar a solução u da equação diferencial com
condições iniciais acima no problema de resolver uma equação integral de Volterra equivalente.
Há mais de uma maneira de se obter uma tal equação integral a partir de (14.13). Para o propósito
de demonstrar existência e unicidade da solução, com condições pouco exigentes sobre as funções a, b
e c, vamos considerar primeiro uma equação integral para ü. Uma outra equação integral diretamente
para u será vista depois.
Vamos supor aqui que haja um intervalo fechado finito I = [−T, T ], 0 < T < ∞, onde as funções
a, b e c que aparecem acima sejam contı́nuas. Pelo teorema fundamental do cálculo e pela identidade
(14.11), temos que
Z t
u̇(t) = v0 + ü(t0 ) dt0 , (14.14)
0
Z t
u(t) = u0 + v0 t + (t − t0 ) ü(t0 ) dt0 . (14.15)
0

Substituindo-se em (14.13) u e u̇ pelo lado direito de (14.14) e (14.15), respectivamente, teremos


Z t
ü(t) = f (t) + K(t, t0 ) ü(t0 )dt0 , (14.16)
0

onde
f (t) := c(t) − (b(t)t + a(t))v0 − b(t)u0 (14.17)
e
K(t, t0 ) := −a(t) − b(t)(t − t0 ). (14.18)

E. 14.16 Exercı́cio. Verifique tudo isso. 6

A equação (14.16) é claramente uma equação de Volterra linear para ü que, pelas hipóteses de
continuidade sobre as funções a, b e c, possui solução única no intervalo I, dado que nesse intervalo
K é limitado (por que?). A função u pode ser então obtida integrando-se duas vezes a solução ü da
equação (14.16) ou usando-se novamente a identidade (14.11).
O que vimos acima pode ser então resumido no seguinte teorema:
Teorema 14.2 Sejam as funções a, b e c contı́nuas no intervalo I = [−T, T ]. Então, nesse intervalo,
a solução da equação diferencial linear de segunda ordem não-homogênea
ü(t) + a(t)u̇(t) + b(t)u(t) = c(t), (14.19)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 794/1195

com condições iniciais dadas do tipo u(0) = u0 e u̇(0) = v0 , existe e é única. 2

É notável que seja suficiente exigir tão pouco (só continuidade dos coeficientes) para garantir-se
existência e unicidade da equação acima. Há funções contı́nuas que não são diferenciáveis em parte
alguma (você conhece um exemplo?) ou mesmo algumas que são crescentes mas têm derivada nula
quase em toda parte (a função de Cantor tratada no capı́tulo de teoria da medida é um exemplo) e
mesmo com tais funções nos coeficientes de (14.13) tem-se garantida existência e unicidade da solução.
Para um outro tratamento da equação (14.13) usando a chamada série de Dyson, vide Capı́tulo 6.
A equação integral (14.16) é uma equação para ü. O leitor pode estar se perguntando se não
podemos ter uma equação integral diretamente para u. A resposta é positiva. Fazendo mais uma vez
uso da identidade (14.11), temos
Z t
u(t) = u0 + v0 t + (t − t0 ) [−a(t0 )u̇(t0 ) − b(t0 )u(t0 ) + c(t0 )] dt0 . (14.20)
0

Integrando-se por partes obtemos


Z t
u(t) = f (t) + K(t, t0 )u(t0 ) dt0 , (14.21)
0

onde agora Z t
f (t) := u0 + t(v0 + a(0)u0 ) + (t − t0 )c(t0 )dt0 (14.22)
0
e
K(t, t0 ) := −a(t0 ) + (t − t0 )(a0 (t0 ) − b(t0 )). (14.23)

E. 14.17 Exercı́cio. Verifique isso. 6


Z t
0
Novamente, se a, a e b forem contı́nuas no intervalo I, assim como a função (t − t0 )c(t0 )dt0 , então
0
a existência e a unicidade da solução da equação tratada estarão garantidas no mesmo
Z t intervalo I.
Note-se que aqui podemos admitir também casos em que c não é contı́nua, desde que (t − t0 )c(t0 )dt0
0
o seja.

E. 14.18 Exercı́cio. Seja a equação do pêndulo simples forçado no limite de pequenas oscilações

θ̈(t) + ω02 θ(t) = f (t)

onde f representa (a menos de uma constante) uma força externa dependente do tempo. Considere o caso
em que f é periódica de perı́odo T > 0, f (t) = f (t + nT ), ∀n ∈ , com f dada no intervalo [0, T ) por

f0 , se 0 ≤ t ≤ T /2,
f (t) = .
0, se T /2 < t < T,

Transforme essa equação em uma equação integral de Volterra equivalente e mostre como a mesma pode
ser resolvida iterativamente. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 795/1195

E. 14.19 Exercı́cio. O mesmo para a equação do pêndulo simples forçado

θ̈(t) + ω 2 sen θ(t) = f (t)

com a mesma f dada acima. 6

14.3 Aplicações à Teoria das Equações Diferenciais Ordinárias


Iremos agora tratar de algumas das mais importantes aplicações do Teorema de Ponto Fixo de Banach,
a saber, à teoria das equações diferenciais ordinárias (EDO’s). O principal resultado que obteremos
é o célebre Teorema de Picard-Lindelöf que fornece condições suficientes para existência e unicidade
de soluções de EDO’s. Obteremos também resultados sobre a dependência de soluções com relação a
condições iniciais e a parâmetros. Trataremos de equações diferenciais de uma classe bastante geral, a
saber, equações diferenciais em espaços de Banach, de modo a incluir sistemas de equações diferenciais
ordinárias definidas em n e n . O leitor é convidado a uma leitura prévia do Capı́tulo 5, página 248,


que trata de tais assuntos de forma introdutória.

14.3.1 O Teorema de Picard-Lindelöf


Esta subseção foi originalmente escrita por Daniel A. Cortez

Uma das principais aplicações do Teorema de Ponto Fixo de Banach dá-se, talvez, no contexto de
espaços de funções, mais precisamente, quando o mesmo é empregado na teoria das equações diferenciais
ordinárias (EDOs). Como veremos, o Teorema de Ponto Fixo de Banach é crucial para a demonstração
de um famoso teorema sobre existência e unicidade de soluções para EDOs devido a Picard 9 e Lindelöf10 .
Antes de entrarmos nos detalhes técnicos, gostarı́amos de fazer uma pequena nota histórica: original-
mente, a demonstração de existência e unicidade de soluções para EDOs se deve a Lindelöf. Entretanto,
o método que aplicaremos aqui para a sua demonstração, fazendo uso explı́cito do Teorema de Ponto
Fixo de Banach, deve-se a Picard11 . Esses trabalhos datam da década de 90 do Século XIX.
No que segue procuraremos apresentar uma versão bastante geral do teorema sobre existência e uni-
cidade de soluções para EDOs válido para equações definidas em espaços de Banach B. Consideremos,
a saber, o seguinte tipo de equação diferencial de primeira ordem

ẋ(t) = f (t, x(t)) , (14.24)

onde t ∈ e x : → B representa uma função de uma variável real assumindo valores em um espaço
 

de Banach B. Acima, f : × B → B é uma função de t ∈ e x ∈ B sobre a qual suporemos certas


 

hipóteses convenientes de continuidade etc.


O leitor deve ter em mente o caso em que B = (ou B = ), quando a equação acima representa


uma equação de primeira ordem de uma função real (complexa) desconhecida x(t), ou o caso em que
9
Charles Émile Picard (1856-1941).
10
Ernst Leonard Lindelöf (1870-1946).
11
Chamado de Método das aproximações sucessivas.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 796/1195

B = n (ou B = n ), quando a equação acima representa um sistema de equações de primeira ordem




de um vetor real (complexo) desconhecido de n componentes: x(t) = (x1 (t), . . . , xn (t)). Tais sistemas
foram discutidos no Capı́tulo 5, página 248.
Um problema de valor inicial consiste de uma equação diferencial ordinária, como a dada acima,
mais uma condição inicial
x(t0 ) = x0 , (14.25)
onde t0 ∈ e x0 ∈ B são dados. Com essa pequena definição, estamos prontos para enunciar o teorema


de existência e unicidade de Picard-Lindelöf:


Teorema 14.3 (Teorema de Picard-Lindelöf. Existência e unicidade de soluções de EDO’s)
Seja f : × B → B não-identicamente nula e contı́nua na região fechada


R ≡ Ra, b, t0 , x0 := { (t, x) ∈  × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (14.26)

para certos valores a > 0 e b > 0, onde k · k representa a norma do espaço de Banach B. Claro é que
f é limitada em R. Seja c > 0 definida por

c := sup kf (t, x)k . (14.27)


(t, x)∈R

Suponha ainda que f seja Lipschitz contı́nua em R com relação ao seu segundo argumento, ou seja,
existe uma constante k ≥ 0 tal que para todos (t, x) e (t, y) ∈ R valha

kf (t, x) − f (t, y)k ≤ k kx − yk . (14.28)

Então, pelo menos no intervalo fechado [t0 − β, t0 + β], onde


 
b
β := min a, , (14.29)
c

o problema de valor inicial descrito pelas relações ẋ(t) = f (t, x(t)) com x(t 0 ) = x0 apresenta uma
solução, a qual é única.
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista em
todo R e lá seja limitada, em cujo caso a constante de Lipschitz seria dada por k := sup k∂y f (t, y)k.
(t, y)∈R
2

Antes de apresentarmos a demonstração, gostarı́amos de notar o seguinte: embora de importante


aplicação na maioria das situações práticas na teoria das EDOs, o Teorema de Picard-Lindelöf não é o
mais forte que existe em sua categoria. Para uma lista completa dos diversos teoremas sobre existência
e/ou unicidade de solução para EDOs, vide [1]. Na Seção 5.4, página 280, apresentamos exemplos
de aplicação do Teorema de Picard-Lindelöf e exemplos nos quais o mesmo não se aplica, tendo por
conseqüência a inexistência ou não-unicidade da solução.
Descrevamos agora a técnica a ser utilizada em nossa demonstração. O primeiro passo consiste
em convertermos a equação diferencial (14.24) em uma equação integral, definindo-se para isso uma
transformação T . Em seguida, sob as hipóteses do teorema, mostraremos que existe uma certa potência
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 797/1195

da transformação T , digamos T m , m ≥ 1, tal que T m é uma contração. Feito isso, utilizando o Teorema
de Ponto Fixo de Banach em sua versão generalizada (Proposição 14.2, página 786), concluiremos a
existência e a unicidade do ponto fixo para a transformação T , o qual será justamente a solução de
nosso problema. Faremos uso nessa demonstração, de dois resultados prévios, que escrevemos sob a
forma de dois lemas. O primeiro deles, é a Proposição 13.6, página 737, que recordamos aqui.
Lema 14.1 Seja C([a, b], B) o espaço das funções contı́nuas definidas no compacto [a, b] ⊂ 

assumindo valores no espaço e Banach B. Então, C([a, b], B) é um espaço de Banach em relação à
métrica do supremo, definida por

d∞ (f, g) := sup kf (t) − g(t)k ,


t∈[a, b]

para f, g ∈ C([a, b], B). 2

A demonstração é idêntica à da Proposição 13.6, página 737, e não precisa se repetida aqui. O
segundo lema que utilizaremos é o seguinte.
e ⊂ C([a, b], B) o sub-espaço de C([a, b], B)
Lema 14.2 Sejam [a, b] ⊂ e para κ > 0 fixo, seja C


formado pelas funções x : [a, b] → B tais que

kx(t) − x0 k ≤ κ , ∀t ∈ [a, b] . (14.30)


e é um sub-espaço fechado de C([a, b], B).
Então, C 2

Prova. Tudo o que precisamos fazer é mostrar que qualquer seqüência convergente (x n ) de elementos de
e converge para um x∗ que também está em C
C e (se você não entendeu a razão dessa afirmação, confira
a Proposição 15.7 da página 835). De fato, como xn ∈ C e para todo n ∈ , temos 

kxn (t) − x0 k ≤ κ , ∀t ∈ [a, b] .

Já que essa expressão não depende de t, podemos escrever

d∞ (xn , x0 ) = sup kxn (t) − x0 k ≤ κ . (14.31)


t∈I

Por outro lado, como por hipótese a seqüência (xn ) converge para x∗ , então, dado ε > 0, existe Nε > 0
tal que para todo n > Nε vale:
d∞ (xn , x∗ ) ≤ ε . (14.32)
Vamos agora utilizar a desigualdade triangular:

d∞ (x∗ , x0 ) ≤ d∞ (x∗ , xn ) + d∞ (xn , x0 ) ≤ ε + κ , (14.33)

onde, na última desigualdade, fizemos uso das relações (14.31) e (14.32). Uma vez que (14.33) é
verdadeira para qualquer ε > 0, concluı́mos então que

kx∗ (t) − x0 k ≤ sup kx∗ (t) − x0 k = d∞ (x∗ , x0 ) ≤ κ , ∀t ∈ [a, b] ,


t∈[a, b]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 798/1195

e
mostrando que x∗ também pertence a C.

Prova do Teorema 14.3. Seja J o intervalo [t0 − β, t0 + β] ⊂ e considere o espaço C(J, B) das


funções contı́nuas em J assumindo valores em B, dotado com a métrica do supremo. Considere ainda
o sub-espaço C e ⊂ C(J, B) formado pelo conjunto das funções x(t) tais que

kx(t) − x0 k ≤ cβ , ∀t ∈ J . (14.34)

Pelo Lema 14.1, sabemos que C(J, B) é um espaço de Banach. Por outro lado, do Lema 14.2 vemos
que o subespaço Ce é fechado em C(J, B). Logo, da Proposição 15.7 da página 835, concluı́mos
imediatamente que C e também é um espaço de Banach. Essa é uma conclusão importante da qual
faremos uso adiante.
Definamos agora uma transformação T pela seguinte relação:
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (14.35)
t0

Vamos mostrar que T é uma aplicação que leva C e em C,e ou seja, T : Ce → C.


e De fato, para τ ∈ J e
e como cβ ≤ b, concluı́mos de (14.26) que (τ, x(τ )) ∈ R. Logo a curva J 3 τ 7→ (τ, x(τ )) ∈
x(τ ) ∈ C,
 × B é contı́nua e está inteiramente contida na região R, onde f é contı́nua por hipótese. Assim,
J 3 τ 7→ f (τ, x(τ )) ∈ B é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode
e Agora vamos mostrar que T x é novamente um elemento em C.
ser aplicada a funções de C. e
Utilizando a relação (14.27) de limitação da função f no retângulo R, tem-se para x ∈ C,e
Z t Z t

k(T x)(t) − x0 k =
f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ c|t − t0 | ≤ cβ ,
t0 t0

provando que T x dista de x0 menos que cβ, uma das condições definidores do conjunto C. e Resta-nos
e Para tal, já vimos que para x ∈ C
provar que T x é contı́nua caso x ∈ C. e fixo, J 3 τ 7→ f (τ, x(τ )) ∈ B
é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t0 ∈ J, com t0 ≥ t
Z 0 Z t0
t
0
k(T x)(t ) − (T x)(t)k = f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ Nx |t0 − t| .
t t

Como o lado direito vai a zero para t → t0 provou-se que (T x)(t) é contı́nua como função de t ∈ J.
e se x ∈ C.
Assim, T x ∈ C e
Chegamos agora ao ponto crucial de nossa demonstração. Observe que se x(t) ∈ C e satisfaz o nosso
problema de valor inicial (relações (14.24) e (14.25)), então certamente x(t) pode ser escrita como
Z t
x(t) = (T x)(t) = x0 + f (τ, x(τ )) dτ . (14.36)
t0

Para tal, procedemos como no tratamento da equação integral de Volterra, página 791, assumindo
que a função f seja Lipschitz contı́nua em relação à segunda variável, ou seja, que valha a condição
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 799/1195

e
descrita em (14.28). Para t ∈ J, e h, l ∈ C,
Z t 
(T h)(t) − (T l)(t) = f (τ, h(τ )) − f (τ, l(τ )) dτ,
t0

donde segue que (assumimos sem perda de generalidade que t ≥ t0 )


Z t
k(T h)(t) − (T l)(t)k ≤ kf (τ, h(τ )) − f (τ, l(τ ))k dτ
t0

Z t
≤ κ kh(τ ) − l(τ )k dτ
t0

≤ κ|t − t0 | sup kh(τ ) − l(τ )k = κ|t − t0 | d∞ (h, l) .


τ ∈J

Vamos agora provar por indução que para todo n ∈  tem-se


|t − t0 |n
k(T n h)(x) − (T n l)(x)k ≤ κn d∞ (h, l), ∀t ∈ J. (14.37)
n!
Como já vimos que isso é verdade para n = 1, assumamos que essa relação é válida para um certo n
genérico. Então,
Z t
n+1
(T h)(t) − (T n+1
l)(t) ≤ kf (τ, (T n h)(τ )) − f (τ, (T n l)(τ ))k dτ
t0

Z t
≤ κk(T n h)(τ ) − (T n l)(τ )k dτ
t0

Z t 
n |τ − t 0 |n
≤ κ κ dτ d∞ (h, l)
t0 n!

|t − t0 |n+1
= κn+1 d∞ (h, l) ,
(n + 1)!
o que prova (14.37) para todo n ∈  e todo t ∈ J, por indução. Assim, temos também que
(κβ)n
d∞ (T n h, T n l) ≤ d∞ (h, l), ∀n ∈ . (14.38)
n!


n
Note-se agora que, para quaisquer κ e β fixos, existe n grande o suficiente tal que [κβ]
n!
< 1. Assim,
n e
para um tal n, T será uma contração do espaço completo C e si mesmo (a afirmativa de que C e é um
espaço completo, baseia-se no fato já provado de que C e é um espaço de Banach). Nessas condições,
podemos certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela
e satisfazendo (14.36).
Proposição 14.2, página 786, garantindo a existência e a unicidade de x(t) ∈ C,
Mas isso implica justamente a existência e unicidade de solução em C(J, B) do problema de valor
inicial considerado, demonstrando o Teorema 14.3.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 800/1195

No Capı́tulo 5, especialmente na Seção 5.4.1, página 283 e seguintes, são discutidos exemplos de
equações diferenciais ordinárias que violam as condições do Teorema de Picard-Lindelöf.

14.3.2 Generalizando o Teorema de Picard-Lindelöf. Soluções Globais


Nesta sub-seção demonstraremos um teorema que fornece condições suficientes para a existência de
soluções globais de problemas de valor inicial. O primeiro teorema abaixo é um resultado preparatório
que estende o Teorema de Picard-Lindelöf, Teorema 14.3, página 796.
Em toda esta seção, B denota um espaço de Banach com norma k · k e, para a > 0 e t 0 ∈  ,
denotamos por Fa, t0 ⊂ × B a faixa de largura a centrada em t0 definida por


Fa, t0 := { (t, y) ∈  × B : |t − t0 | ≤ a , y ∈ B arbitrário} .

Teorema 14.4 Suponhamos que para um certo a > 0 e para t0 ∈ tenhamos uma função f : Fa, t0 →


B que seja contı́nua. Suponhamos também que f é Lipschitz contı́nua em relação à segunda variável,
ou seja, existe uma constante ka (denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈
Fa, t0 vale kf (t, y) − f (t, v)k ≤ ka ky − vk. Então, para qualquer = x0 ∈ B, o problema de valor inicial
ẋ(t) = f (t, x(t)) com x(t0 ) = x0 apresenta uma solução única válida para todo t ∈ [t 0 − a, t0 + a].
Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista
em todo ponto de Fa, t0 e lá seja limitada, em cujo caso a constante de Lipschitz pode ser escolhida
como ka := sup k∂y f (t, y)k. 2
(t, y)∈Fa, t0

O leitor deve notar que esse teorema difere do Teorema de Picard-Lindelöf primeiro na hipótese de
que f seja Lipschitz contı́nua em uma faixa infinita Fa, t0 de largura 2a centrada no instante inicial t0 ,
e não apenas em uma região compacta como o R do Teorema 14.3; segundo na conclusão, que afirma
que a solução existe em todo intervalo [t0 − a, t0 + a] e não em um intervalo eventualmente menor.

Prova. A demonstração segue passos semelhantes aos da prova do Teorema de Picard-Lindelöf. Seja J
o intervalo fechado [t0 − a, t0 + a]. Considere o espaço C(J, B) das funções contı́nuas em J assumindo
valores em B, dotado com a métrica do supremo. Pelo Lema 14.1, sabemos que C(J, B) é um espaço
de Banach. Como na prova do Teorema de Picard-Lindelöf, definimos a transformação
Z t
(T x)(t) := x0 + f (τ, x(τ )) dτ . (14.39)
t0

Vamos mostrar que T é uma aplicação que leva C(J, B) em C(J, B). De fato, para τ ∈ J e x ∈ C(J, B)
tem-se obviamente que (τ, x(τ )) ∈ Fa, t0 . Logo, a curva J 3 τ 7→ (τ, x(τ )) ∈ × B é contı́nua e está


inteiramente contida na região Fa, t0 , onde f é contı́nua por hipótese. Assim, J 3 τ 7→ f (τ, x(τ )) ∈ B
é contı́nua e a sua integral estará bem definida. Concluı́mos daı́ que T pode ser aplicada a funções de
C(J, B). Agora vamos mostrar que T x é novamente um elemento em C(J, B) e para tal é preciso
provar que T x é contı́nua caso x ∈ C(J, B). Para x ∈ C(J, B) fixo, vimos que J 3 τ 7→ f (τ, x(τ )) ∈ B
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 801/1195

é igualmente contı́nua e, portanto, limitada, ou seja, existe Nx > 0 tal que kf (τ, x(τ ))k ≤ Nx para
todo τ ∈ J. Logo, para t, t0 ∈ J, com t0 ≥ t
Z 0 Z t0
t
0
k(T x)(t ) − (T x)(t)k = f (τ, x(τ )) dτ ≤ kf (τ, x(τ ))k dτ ≤ Nx |t0 − t| .
t t

Como o lado direito vai a zero para t → t0 provou-se que (T x)(t) é contı́nua como função de t ∈ J.
Assim, T x ∈ C(J, B) se x ∈ C(J, B).
Para provar que T possui um ponto fixo único em C(J, B) segue-se os mesmos passos da de-
monstração do Teorema de Picard-Lindelöf que conduziram à (14.38), que no presente caso assume a
forma
(aκa )n
d∞ (T n h, T n l) ≤ d∞ (h, l), ∀n ∈ . (14.40)
n!


n
Note-se agora que, para quaisquer a e κa fixos, existe n grande o suficiente tal que [aκn!a ] < 1. Assim,
para um tal n, T n será uma contração do espaço completo C(J, B) e si mesmo. Nessas condições,
podemos certamente evocar a versão generalizada do Teorema de Ponto Fixo de Banach fornecida pela
Proposição 14.2, página 786, garantindo a existência e a unicidade de x(t) ∈ C(J, B), satisfazendo
(14.36). Mas isso implica justamente a existência e unicidade de solução em C(J, B) do problema de
valor inicial considerado, demonstrando o Teorema 14.4.

Chegamos finalmente ao
Teorema 14.5 (Existência e unicidade de soluções globais) Seja f : × B → B contı́nua em


todo × B. Suponhamos também que para todo a > 0, f seja Lipschitz contı́nua em relação à segunda


variável na faixa Fa, t0 , ou seja, para cada a > 0 existe uma constante ka (eventualmente dependente de a
e denominada constante de Lipschitz) tal que para todos (t, y), (t, v) ∈ Fa, t0 vale kf (t, y)−f (t, v)k ≤
ka ky − vk. Então, para qualquer x0 ∈ B, o problema de valor inicial ẋ(t) = f (t, x(t)) com x(t0 ) = x0
apresenta uma solução única válida para todo t ∈ .

Uma condição suficiente para que a condição de Lipschitz acima se cumpra é que ∂ y f (t, y) exista
em todo × B e seja limitada em cada faixa Fa, t0 , a > 0, em cujo caso as constantes de Lipschitz


podem ser escolhidas como ka := sup k∂y f (t, y)k. 2


(t, y)∈Fa, t0

Prova. A prova é imediata pelo Teorema 14.4.

Sugerimos aqui os exercı́cios da página 289 e os comentários que se lhe seguem.

14.3.3 Um Teorema de Comparação de Soluções de EDO’s


Nesta seção estabeleceremos um resultado fundamental para a análise da dependência de soluções de
EDO’s para com as condições iniciais e para com os parâmetros que definem a equação, duas questões
importantes em aplicações. Esse resultado está expresso no Teorema 14.6 que permite comparar a
evolução de soluções de equações diferenciais distintas, com condições iniciais distintas. Após seu
enunciado e demonstração faremos alguns comentários relevantes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 802/1195

Teorema 14.6 Seja B um espaço de Banach, f1 , f2 :  ×B → B duas funções e sejam y1 , y2 : I → B


soluções dos problemas de valor inicial
ẋ(t) = f1 (t, x(t)) , x(t0 ) = x1 ,

ẋ(t) = f2 (t, x(t)) , x(t0 ) = x2 ,


respectivamente, válidas em um intervalo I que contem o ponto t0 ∈  .
Seja R ⊂  × B uma região fechada da forma
R = { (t, x) ∈  × B : |t − t0 | ≤ a, kx − x0 k ≤ b } , (14.41)
para certos a > 0, b > 0 e x0 ∈ B, onde k · k representa a norma do espaço de Banach B. Vamos supor
que R que satisfaça as seguintes condições:

1. I ⊂ [t0 − a, t0 + a].
2. (t0 , x1 ) ∈ R e (t0 , x2 ) ∈ R.
3. f1 e f2 são contı́nuas em R.
4. f1 é Lipschitz contı́nua em R com constante κ1 > 0, ou seja, para todos (t, u) e (t, v) ∈ R vale
kf1 (t, u) − f1 (t, v)k ≤ κ1 ku − vk . (14.42)

5. Os gráficos de y1 e y2 estão ambos contidos em R, ou seja,


ky1 (t) − x0 k ≤ b e ky2 (t) − x0 k ≤ b
para todo t ∈ I ⊂ [t0 − a, t0 + a].

Então, para todo t ∈ I vale a desigualdade


" #
1 
ky1 (t) − y2 (t)k ≤ kx1 − x2 k eκ1 |t−t0 | + sup kf1 (t, x) − f2 (t, x)k eκ1 |t−t0 | − 1 . (14.43)
κ1 (t, x)∈R

Prova. Como vimos, podemos sob as hipóteses escrever, para t ∈ I,


Z t Z t
y1 (t) = x1 + f1 (τ, y1 (τ )) dτ e y2 (t) = x2 + f2 (τ, y2 (τ )) dτ .
t0 t0

Disso segue que


Z th i
y1 (t) − y2 (t) = x1 − x2 + f1 (τ, y1 (τ )) − f2 (τ, y2 (τ )) dτ
t0

Z th i Z th i
= x1 − x2 + f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ + f1 (τ, y2 (τ )) − f2 (τ, y2 (τ )) dτ .
t0 t0

(14.44)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 803/1195

Na última igualdade acima fizemos uso da hipótese 5 do Teorema 14.6, de modo que f 1 (τ, y2 (τ )) está
bem definido para τ ∈ I. Supondo, sem perda de generalidade, que t ≥ t0 , temos pela condição de
Lipschitz para f1 ,
Z t h i Z t Z t

f1 (τ, y1 (τ )) − f1 (τ, y2 (τ )) dτ
≤ f1 (τ, y1 (τ ))−f1 (τ, y2 (τ )) dτ ≤ κ1 ky1 (τ )−y2 (τ )kdτ .
t0 t0 t0

Definindo-se
C := sup kf1 (t, x) − f2 (t, x)k ,
(t, x)∈R

tem-se Z t h i

f (τ, y (τ )) − f (τ, y (τ )) dτ ≤ C (t − t0 ) .
1 2 2 2
t0

Definindo-se também D := kx1 − x2 k, segue de (14.44) que


Z t
ky1 (t) − y2 (t)k ≤ D + κ1 ky1 (τ ) − y2 (τ )k dτ + C (t − t0 ) , (14.45)
t0

desigualdade essa que pode ser trivialmente escrita na forma


    Z t 
C C C
ky1 (t) − y2 (t)k + ≤ D+ + κ1 ky1 (τ ) − y2 (τ )k + dτ . (14.46)
κ1 κ1 t0 κ1

Nessa forma, vemos pelo Lema 14.3, página 811, que podemos aplicar a desigualdade de Grönwall,
expressão (14.A.2), obtendo
   
C C
ky1 (t) − y2 (t)k + ≤ D+ eκ1 (t−t0 ) ,
κ1 κ1
ou seja
C  κ1 (t−t0 ) 
ky1 (t) − y2 (t)k ≤ Deκ1 (t−t0 ) + e −1 .
κ1
O caso t < t0 é análogo. Isso completa a prova.

Passemos a alguns comentários sobre o Teorema 14.6.

• Comentário ao Teorema 14.6. Continuidade em relação às condições iniciais

No caso em que f1 = f2 , tem-se C = 0 e a desigualdade (14.43) reduz-se a

ky1 (t) − y2 (t)k ≤ kx1 − x2 k eκ1 |t−t0 | . (14.47)

Essa desigualdade informa-nos que em intervalos finitos de tempo, sob as condições do Teorema 14.6,
as soluções do problema de valor inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente da
condição inicial x1 . A desigualdade acima informa-nos também que variando-se as condições iniciais as
soluções da equação diferencial acima pode no máximo divergir exponencialmente para curtos intervalos
de tempo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 804/1195

• O Expoente de Lyapunov

O chamado expoente de Lyapunov12 no ponto x1 associado ao problema de valor inicial acima é


definido por13  
1 ky1 (t) − y2 (t)k
λx1 := lim lim ln ,
t→t0 x2 →x1 |t − t0 | kx1 − x2 k
caso esses limites existam14 . De (14.47) vê-se que 0 ≤ λx1 ≤ κ1 . A noção de expoente de Lyapunov tem
uma certa relevância no estudo equações diferenciais com comportamento “caótico” (vide, por exemplo,
[63] para uma introdução à teoria dos sistemas dinâmicos), por fornecer uma indicação qualitativa
de quão rápida se dá a divergência das soluções para curtos intervalos de tempo por mudanças nas
condições iniciais, pois permite-nos a aproximação

ky1 (t) − y2 (t)k ≈ kx1 − x2 keλx1 |t−t0 |

para |t − t0 | pequeno e kx1 − x2 k pequeno. Alguns autores caracterizam a presença de caos no sistema
definido pela equação diferencial que tratamos através da presença de um expoente de Lyapunov
positivo (não-nulo). Essa caracterização, ainda que popular em certos cı́rculos, não é geral o suficiente
e é substituı́da por outras caracterizações melhores, notadamente em textos matemáticos (vide, por
exemplo, [63]).

• Comentário ao Teorema 14.6. Continuidade por mudanças de parâmetros

No caso em que x1 = x2 , tem-se D = 0 e a desigualdade (14.43) reduz-se a


" #
1 
ky1 (t) − y2 (t)k ≤ sup kf1 (t, x) − f2 (t, x)k eκ1 |t−t0 | − 1 .
κ1 (t, x)∈R

Essa desigualdade informa-nos que em intervalos finitos de tempo, as soluções do problema de valor
inicial ẋ(t) = f1 (t, x(t)), x(t0 ) = x1 dependem continuamente de deformações da função f1 (por exem-
plo, deformações por mudanças dos parâmetros que definem a função f1 ) que respeitem as condições
do Teorema 14.6. Essas deformações podem, inclusive, ser tais que f1 seja levada a uma função não-
Lipschitz contı́nua f2 (note que no enunciado do Teorema 14.6 assumimos a continuidade de Lipschitz
apenas para a função f1 ).
A continuidade em relação a parâmetros também pode ser inferida do seguinte argumento elegante.
Seja o problema de valor inicial ẋ(t) = f1 (t, x(t), p0 ), x(t0 ) = x1 , onde f1 depende de um parâmetro
p0 , como indicado. Como p0 é constante, esse problema equivale ao sistema de equações diferenciais

ẋ(t) = f1 (t, x(t), p(t)) ,

ṗ(t) = 0 ,
12
Aleksandr Mikhailovich Lyapunov (1857-1918). O nome de Lyapunov é grafado de diversas outras formas: Liapunov,
Liapounov, Liapounoff etc.
13
O leitor deve ser advertido do fato de haver outras definições de expoente de Lyapunov na literatura, nem todas
totalmente equivalentes a essa.
14
Pode ser necessário substituir os limites por lim sup’s e lim inf’s.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 805/1195

com condições iniciais x(t0 ) = x1 , p(t0 ) = p0 . A esse sistema aplicam-se também os teoremas anteriores
sobre existência, unicidade e continuidade em relação a condições iniciais, o que nos permite inferir a
continuidade desejada caso, adicionalmente, f1 (t, x, p) seja Lipschitz contı́nua na sua dependência com
o parâmetro p em uma vizinhança de p0 .

14.4 O Teorema da Função Implı́cita e o Teorema da Função


Inversa
O Teorema de Ponto Fixo de Banach pode ser utilizado para demonstrar dois teoremas importantes:
o Teorema da Função Implı́cita e o Teorema da Função Inversa. Esses teoremas são bem-conhecidos
da Análise em n e iremos apresentá-los e demonstrá-los aqui no contexto bastante geral de espaços


de Banach. Nessa forma geral esses teoremas desempenham um papel relevante em áreas tais como a
teoria das equações diferenciais (ordinárias e parciais), na geometria diferencial e na teoria dos sistemas
dinâmicos, como no célebre Teorema KAM15 . A importância do Teorema da Função Implı́cita reside
no fato de o mesmo garantir condições suficientes para a solubilidade de uma classe bastante geral de
equações funcionais.
Como veremos, a demonstração do Teorema da Função Implı́cita faz também uso do Teorema
do Valor Médio e da noção de derivada de Fréchet, ambas discutidas na Seção 20.2.2, página 909 (o
Teorema do Valor Médio é o Teorema 20.1, página 912). Familiaridade com aquela seção é recomendada
ao leitor. Para o estudante é também interessante notar que a demonstração do Teorema da Função
Implı́cita que apresentaremos guarda forte semelhança com as idéias por trás do método de Newton,
o qual discutimos páginas acima. Isso não é por acaso, mas deixamos ao leitor como exercı́cio de
meditação entender por quê. Para uma discussão geral, com notas históricas, sobre o Teorema da
Função Implı́cita e suas aplicações, vide [74]16 .

14.4.1 O Teorema da Função Implı́cita


Para o enunciado e demonstração do Teorema da Função Implı́cita abaixo faremos uso da noção de
derivada parcial introduzida à página 913 e seguintes e da notação correspondente.
Teorema 14.7 (Teorema da Função Implı́cita em Espaços de Banach) Sejam X e Y espaços
de Banach, A ⊂ X e B ⊂ Y dois abertos e seja F : A × B → Y contı́nua e diferenciável com derivada
contı́nua (ou seja, de classe C1 ). Suponhamos ainda que existam x0 ∈ A e y0 ∈ B tais que F (x0 , y0 ) = 0
e que a aplicação linear D2 F (x0 , y0 ) = F 0 (x0 , y0 )ΛY : Y → Y seja invertı́vel. Então, existem abertos
A0 ⊂ A e B0 ⊂ B contendo x0 e y0 , respectivamente, e uma função contı́nua f : A0 → B0 satisfazendo
f (x0 ) = y0 e F (x, f (x)) = 0 para todo x ∈ A0 . Para cada x ∈ A0 o ponto f (x) ∈ B0 é o único que
satisfaz F (x, y) = 0. A função f é contı́nua e diferenciável com derivada contı́nua, sendo
 −1
f 0 (x) = − D2 F (x, f (x)) D1 F (x, f (x)) . (14.48)
2

15
Andrey Nikolaevich Kolmogorov (1903-1987); Vladimir Igorevich Arnol’d (1937-); Jürgen Moser (1928-1999).
16
Agradecemos a D. A. Cortez por essa referência.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 806/1195

Prova. Para simplificar a notação denotemos o operador linear D2 F (x0 , y0 ) : Y → Y por L. A idéia
da prova é usar o Teorema do Ponto Fixo de Banach para mostrar que para cada x suficientemente
próximo de x0 a aplicação Tx : B → Y dada por Tx (y) ≡ T (x, y) := y − L−1 F (x, y) tem um ponto
fixo único (que denotaremos por f (x)) em uma vizinhança suficientemente pequena de y0 . Assim
f (x) = Tx (f (x)), ou seja, L−1 F (x, f (x)) = 0, o que implica F (x, f (x)) = 0. Para provar os fatos
delineados acima, provaremos que existe um aberto B1 ⊂ B que contem y0 e que é levado em si mesmo
por Tx , desde que x esteja próximo o suficiente de x0 . Em seguida provaremos que Tx é uma contração
quando restrito ao fecho de B1 . O Teorema do Ponto Fixo de Banach garante, então, a existência e
unicidade do ponto fixo. As demais afirmações do enunciado (continuidade e diferenciabilidade de f )
seguem de certas estimativas que encontraremos no caminho.
Para x fixo em A, a derivada de Tx (y) em relação a y é a derivada parcial
D2 T (x, y) = Y − L−1 D2 F (x, y) . (14.49)
Trata-se de um operador linear e limitado de Y em Y. Analogamente,
D1 T (x, y) = L−1 D1 F (x, y) . (14.50)
Trata-se de um operador linear e limitado de X em Y.
Tomemos 0 < q < 1 fixo. O fato que D2 F (x0 , y0 ) = L implica que Y − L−1 D2 F (x, y) anula-se no
ponto (x0 , y0 ). Assim, a continuidade de D2 F (x, y) como função de x e y garante que existe 1 > 0
tal que se kx − x0 kX ≤ 1 e ky − y0 kY ≤ 1 então
k Y − L−1 D2 F (x, y)k < q . (14.51)

Como veremos logo abaixo, é importante sabermos estimar a norma de diferenças como T (x, y) −
T (x0 , y 0 ). Com uso do Teorema 20.1, página 912, podemos escrever17
Z 1  
0 0 0 0 0
 x − x0
T (x, y) − T (x , y ) = T τ (x, y) + (1 − τ )(x , y ) dτ . (14.52)
0 y − y0
Usando a representação (20.14) e escrevendo
T 0 (x, y) = D1 T (x, y) ΠX + D2 T (x, y) ΠY ,
ficamos com
Z 1  
0 0 0 0
 x − x0
T (x, y) − T (x , y ) = D1 T τ (x, y) + (1 − τ )(x , y ) ΠX dτ
0 y − y0
Z 1  
0 0
 x − x0
+ D2 T τ (x, y) + (1 − τ )(x , y ) ΠY dτ
0 y − y0
Z 1 
0 0

= D1 T τ (x, y) + (1 − τ )(x , y ) dτ (x − x0 )
0
Z 1 
0 0

+ D2 T τ (x, y) + (1 − τ )(x , y ) dτ (y − y 0 ) .
0
17
Para sermos estritos quanto à notação, deverı́amos escrever a combinação linear convexa que surge no argumento de
 0
T em (14.52) na forma de vetores-coluna: τ xy + (1 − τ ) xy0 . Renunciamos a esse preciosismo, porém.
0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 807/1195

Assim,
kT (x, y) − T (x0 , y 0 )k ≤ γ1 kx − x0 kX + γ2 ky − y 0 kY , (14.53)
onde 
γj := sup Dj T τ (x, y) + (1 − τ )(x0 , y 0 ) , j = 1, 2 .
τ ∈[0, 1]

Observe-se que se tivermos x, x0 ∈ A1 e y, y 0 ∈ B1 , onde

A1 := {x00 ∈ X| kx00 − x0 kX < 1 } e B1 := {y 00 ∈ Y| ky 00 − y0 kY < 1 } ,

poderemos estimar

γ1 = sup D1 T τ (x, y) + (1 − τ )(x0 , y 0 )
τ ∈[0, 1]


= sup L−1 D1 F τ (x, y) + (1 − τ )(x0 , y 0 )
τ ∈[0, 1]

−1
≤ sup L D1 F (x00 , y 00 ) =: β ,
x00 ∈A1 , y 00 ∈B1

e

γ2 = sup D2 T τ (x, y) + (1 − τ )(x0 , y 0 )
τ ∈[0, 1]

≤ sup kD2 T (x00 , y 00 )k


x00 ∈A1 , y 00 ∈B1


≤ sup Y − L−1 D2 F (x00 , y 00 )
x00 ∈A1 , y 00 ∈B1

(14.51)
< q. (14.54)

Podemos escolher um número 2 > 0 satisfazendo simultaneamente 2 < 1 e β2 < (1 − q)1 (se
β ≥ 1 a segunda condição implica a primeira) e definir

A2 := {x00 ∈ X| kx00 − x0 kX < 2 } .

É evidente que A2 ⊂ A1 e que as estimativas γ1 ≤ β e γ2 < q permanecem válidas se tivermos x, x0 ∈ A2


e y, y 0 ∈ B1 .
Isto posto, tomemos x ∈ A2 , y ∈ B1 e consideremos a diferença Tx (y) − y0 = T (x, y) − y0 . Como
T (x0 , y0 ) = y0 (pois F (x0 , y0 ) = 0), temos que Tx (y) − y0 = T (x, y) − T (x0 , y0 ). Por (14.53), teremos

kTx (y) − y0 k = kT (x, y) − T (x0 , y0 )k ≤ γ1 kx − x0 kX + γ2 ky − y0 kY ≤ β2 + q1 < 1 , (14.55)

a última desigualdade devendo-se a β2 < (1 − q)1 . A expressão (14.55) ensina-nos que se x ∈ A2
então Tx é uma aplicação de B1 em si mesmo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 808/1195

Também para x ∈ A2 e y, y 0 ∈ B1 teremos


(14.53) (14.54)
kTx (y) − Tx (y 0 )k = kT (x, y) − T (x, y 0 )k ≤ γ2 ky − y 0 k < q ky − y 0 k ,

provando que Tx é uma contração. Como B1 é um espaço métrico completo, podemos agora evocar o
Teorema de Ponto Fixo de Banach e assim estabelecer que para cada x ∈ A2 a aplicação Tx : B1 → B1
tem um único ponto fixo em B1 , que denotaremos por f (x). A equação de ponto fixo f (x) = Tx (f (x))
significa F (x, f (x)) = 0, como comentamos no inı́cio da demonstração.
Para x, x0 ∈ A2 e pela equação de ponto fixo tem-se f (x) − f (x0 ) = Tx (f (x)) − Tx0 (f (x0 )) =
T (x, f (x)) − T (x0 , f (x0 )) e, novamente por (14.53) com γ1 ≤ β, γ2 < q, segue que

kf (x) − f (x0 )kY < βkx − x0 kX + qkf (x) − f (x0 )kY ,

ou seja, kf (x) − f (x0 )kY < β(1 − q)−1 kx − x0 kX , o que implica que f é contı́nua em A2 .
Pela unicidade, tem-se também que f (x0 ) = y0 .
A diferenciabilidade de f pode ser estabelecida, sob as hipóteses dadas, escrevendo-se

f (x + h) − f (x) = S(x, h) + T(x, h) + D1 T (x, f (x)) h + D2 T (x, f (x)) f (x + h) − f (x) , (14.56)

onde,
h i
S(x, h) := T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h
h i
+ T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x)

T(x, h) := (D1 T (x, f (x + h)) − D1 T (x, f (x))) h .

E. 14.20 Exercı́cio. Verifique a validade da expressão (14.56) observando que os termos do lado direito
simplesmente se cancelam para dar o lado esquerdo. 6

Disso obtem-se que


h i−1   h i−1
f (x+h)−f (x) = Y −D2 T (x, f (x)) S(x, h)+T(x, h) + Y −D2 T (x, f (x)) D1 T (x, f (x)) h ,

o que, por (14.49) e (14.50), simplifica-se para


h i−1 h i−1  
f (x + h) − f (x) + D2 F (x, f (x)) D1 F (x, f (x)) h = L−1 D2 F (x, f (x)) S(x, h) + T(x, h) .

E. 14.21 Exercı́cio. Verifique! 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 809/1195

h i−1
Observe-se, de passagem, que da continuidade de D2 F (x, y), da hipótese que D2 F (x, y) existe
no ponto (x0 , y0 ) e do fato de f ser contı́nuo com f (x0 ) = y0 , segue que D2 F (x, f (x)) é igualmente
invertı́vel em uma vizinhança suficientemente pequena de x0 , pois o conjunto de elementos invertı́veis
em uma álgebra de Banach com unidade (como a álgebra dos operadores lineares limitados de Y em
Y, da qual D2 F (x, f (x)) faz parte) é aberto (Corolário 23.4, página 1058). Isso justifica a expressão
acima.
Do hipótese que F (e, portanto, T ) é diferenciável em relação a seus dois argumentos segue que
1 h i
lim T (x + h, f (x + h)) − T (x, f (x + h)) − D1 T (x, f (x + h)) h = 0
h→0 khkX

e que
1 h i
lim T (x, f (x + h)) − T (x, f (x)) − D2 T (x, f (x)) f (x + h) − f (x) = 0 .
h→0 khkX

Portanto,
1
lim S(x, h) = 0 .
h→0 khkX

Da continuidade de f e da hipótese que D1 T (x, y) é contı́nua, segue também que

1   h
lim T(x, h) = lim D1 T (x, f (x + h)) − D1 T (x, f (x)) = 0.
h→0 khkX h→0 khkX

Provamos, assim, que


!
1 h i−1
lim f (x + h) − f (x) + D2 F (x, f (x)) D1 F (x, f (x)) h = 0,
h→0 khkX

o que prova que f é diferenciável e que (14.48) é verdadeira.

• Exemplos e contra-exemplos

E. 14.22 Exercı́cio. Seja a função F (x, y) = x2 + y com x, y ∈ . No ponto (x0 , y0 ) = (0, 0) a




função F se anula. Verifique que as condições do Teorema da Função Implı́cita são satisfeitas nesse caso e
que f (x) = −x2 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0 em todo . Cheque a validade de (14.48).
 6

Os exercı́cios a seguir exibem algumas patologias.

E. 14.23 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual não existe nenhuma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja a função F (x, y) = x2 + y 2 com x, y ∈ . No ponto 

(x0 , y0 ) = (0, 0) a função F se anula, mas não existe nenhuma f tal que f (x 0 ) = y0 e F (x, f (x)) = 0 em
uma vizinhança de x0 , pois (0, 0) é o único zero de F . Quais hipóteses do Teorema da Função Implı́cita
falham nesse caso? 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 810/1195

E. 14.24 Exercı́cio-exemplo. Esse exercı́cio mostra uma situação na qual existe mais de uma função f
satisfazendo f (x0 ) = y0 e F (x, f (x)) = 0. Seja F definida por F (x, y) = x2 − y 2 com x, y ∈ . No 

ponto (x0 , y0 ) = (0, 0) a função F se anula e f± (x) = ±x satisfazem f± (x0 ) = y0 e F (x, f± (x)) = 0.
Quais hipóteses do Teorema da Função Implı́cita falham nesse caso? A relação (14.48) vale para ambas as
funções f± ? 6

E. 14.25 Exercı́cio-exemplo. Seja a função F (x, y) = x2 + y 3 com x, y ∈ . No ponto (x0 , y0 ) =




(0, 0) a função F se anula e f (x) = −x2/3 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0 em . No entanto, f

não é diferenciável em (x0 , y0 ). Note, porém, que D2 F não é invertı́vel em (x0 , y0 ). Isso mostra que as
condições do Teorema da Função Implı́cita são condições suficientes mas não necessárias para a existência
de solução contı́nua. Cheque também a validade de (14.48). 6

E. 14.26 Exercı́cio-exemplo. Seja a função F (x, y) = x4 + y 3 com x, y ∈ . No ponto (x0 , y0 ) =




(0, 0) a função F se anula e f (x) = −x4/3 satisfaz f (x0 ) = y0 e F (x, f (x)) = 0. f é contı́nua com
derivada contı́nua. D2 F , porém, não é invertı́vel em (x0 , y0 ). Isso mostra que as condições do Teorema
da Função Implı́cita são condições suficientes mas não necessárias para a existência de solução contı́nua e
diferenciável. Cheque também a validade de (14.48). 6

14.4.2 O Teorema da Função Inversa


Uma das conseqüências diretas do Teorema da Função Implı́cita é um teorema que garante condições
suficientes para que uma função entre espaços de Banach seja localmente invertı́vel. Esse é o importante
Teorema da Função Inversa.
Teorema 14.8 (Teorema da Função Inversa) Sejam X e Y dois espaços de Banach e A ⊂ X um
aberto onde encontra-se definida uma função g : A → Y. Seja x0 ∈ A e seja g(x0 ) = y0 . Vamos
supor que g seja contı́nua e diferenciável com derivada contı́nua em A, de forma que a aplicação linear
g 0 (x0 ) : X → Y tenha inversa limitada. Então existem um aberto B ∈ Y contendo y 0 e uma função
h : B → X, contı́nua e diferenciável, tal que h(y0 ) = x0 e g(h(y)) = y para todo y ∈ B. Vale também
 −1
h0 (y) = g 0 (h(y)) . 2

Prova. Defina-se F : Y × A → Y por F (y, x) = g(x) − y. Teremos D1 F (y, x) = − Y e D2 F (y, x) =


g 0 (x). Assim, F é diferenciável com derivada contı́nua. Verifica-se que F (y0 , x0 ) = 0 e, por hipótese,
D2 F (y0 , x0 ) = g 0 (x0 ) tem inversa limitada. Portanto, vale para F o Teorema da Função Implı́cita, que
nos garante a existência de um aberto B ∈ Y contendo y0 e uma função h : B → X tal que h(y0 ) = x0
e tal que para todo y ∈ B vale F (y, h(y)) = 0. Essa última expressão significa que g(h(y)) − y = 0,
 −1
que é o que querı́amos provar. h é contı́nua e diferenciável e, por (14.48), vale h 0 (y) = g 0 (h(y)) .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 14 811/1195

Apêndices

14.A O Lema de Grönwall


O Lema de Grönwall18 , que apresentamos abaixo, é de demonstração muito simples mas possui várias
aplicações na teoria das equações diferenciais ordinárias ou parciais. Usamo-lo, por exemplo, na de-
monstração do Teorema 14.6, página 802, teorema esse que, sob hipóteses, estabelece a continuidade
de soluções de equações diferenciais ordinárias em relação a mudanças nas condições iniciais e a de-
formações de parâmetros.
Lema 14.3 (Lema de Grönwall, ou Desigualdade de Grönwall) Seja u : [t0 , T ] → [0, ∞),
uma função contı́nua e não-negativa definida em algum intervalo [t 0 , T ], T > t0 , e suponha que
existam duas constantes α ≥ 0 e β ≥ 0 tais que valha
Z t
u(t) ≤ α + β u(τ ) dτ (14.A.1)
t0

para todo t ∈ [t0 , T ]. Então,


u(t) ≤ α eβ(t−t0 ) (14.A.2)
para todo t ∈ [t0 , T ]. 2

A desigualdade (14.A.2) é denominada desigualdade de Grönwall. Note que (14.A.2) implica que u
é identicamente nula, caso α = 0. Para generalizações do Lema de Grönwall, vide [90].

Prova. No caso β = 0 as desigualdades (14.A.1) Rt e (14.A.2) equivalem e não há o que se demonstrar,
Assumamos então β > 0. A função v(t) := t0 u(τ ) dτ é contı́nua e diferenciável e dtd v(t) = u(t). Assim,
a relação (14.A.1) afirma-nos
 que dtd v(t)−βv(t) ≤ α. Multiplicando essa expressão por e−β(t−t0 ) ficamos
com dtd e−β(t−t0 ) v(t) ≤ αe−β(t−t0 ) . Integrando ambos os lados dessa desigualdade  entre t0 e t (sendo
−β(t−t0 ) α −β(t−t0 )
t0 ≤ t ≤ T ) e usando que v(t0 ) = 0, obtem-se e v(t) ≤ β 1 − e Multiplicando ambos os
+β(t−t0 )
lados por e , obtem-se
α  β(t−t0 ) 
v(t) ≤ e −1 . (14.A.3)
β
A expressão (14.A.1) afirma que u(t) ≤ α + β v(t). Com a desigualdade (14.A.3), segue disso que
u(t) ≤ αeβ(t−t0 ) , como querı́amos provar.

18
Thomas Hakon Grönwall (1877-1932).
Capı́tulo 15
Espaços Topológicos e Espaços Mensuráveis.
Definições e Propriedades Básicas
Conteúdo

15.1 Definições, Propriedades Elementares e Exemplos . . . . . . . . . . . . . . 813


15.2 Algumas Construções Especiais e Exemplos . . . . . . . . . . . . . . . . . 818
15.2.1 Topologias e σ-álgebras Geradas . . . . . . . . . . . . . . . . . . . . . . . . . 818
15.2.2 Bases de Espaços Topológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 822
15.2.3 Topologias e σ-álgebras Induzidas . . . . . . . . . . . . . . . . . . . . . . . . 828
15.2.4 Topologias e σ-álgebras Produto . . . . . . . . . . . . . . . . . . . . . . . . . 830
15.3 Interior e Fecho de Conjuntos em Espaços Topológicos . . . . . . . . . . . 830
15.3.1 Fecho de Conjuntos em Espaços Métricos . . . . . . . . . . . . . . . . . . . . 834

ntroduziremos neste capı́tulo dois conceitos de importância fundamental em Matemática, o


conceito de Espaço Topológico e o conceito de Espaço Mensurável. O primeiro conceito é
uma generalização do conceito de Espaço Métrico, introduzido no Capı́tulo 13, e o segundo
é moldado de forma a permitir uma definição consistente do conceito intuitivo de medida
(como comprimento, área, volume etc.) de um conjunto. De modo muito simplificado, podemos dizer
que Topologias desempenham um papel quando se faz necessário o emprego de noções como as de con-
vergência e continuidade, enquanto que Espaços Mensuráveis são especialmente relevantes na teoria da
integração e na teoria de probabilidades. As noções de Espaço Topológico e Espaço Mensurável pene-
tram áreas da Matemática tão variadas quanto a Análise a Análise Funcional a Geometria Diferencial,
a Teoria das Equações Diferenciais, a Teoria de Grupos, a Teoria de Probabilidades e outras, através
das quais exercem também sua influência sobre praticamente toda a Fı́sica. Falaremos um pouco mais
sobre o significado e sobre a importância de cada conceito adiante.
Dado um conjunto X (doravante considerado não-vazio), denota-se por (X) a coleção de todos
os sub-conjuntos de X. Assim, em sı́mbolos, podemos expressar o fato de um conjunto A ser um
sub-conjunto de X escrevendo A ⊂ X ou A ∈ (X). É natural que X ∈ (X) e convenciona-se que
∅ ∈ (X).
Estamos muitas vezes interessados em estudar propriedades de certas coleções de sub-conjuntos de
X (ou seja de sub-conjuntos de (X)) que possuem certas caracterı́sticas de interesse. Há dois tipos
de coleções de sub-conjuntos que merecem particular atenção: as chamadas topologias e as chamadas
σ-álgebras. Vamos às definições.

812
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 813/1195

15.1 Definições, Propriedades Elementares e Exemplos

• Topologia

Uma coleção τ de subconjuntos de X, ou seja, τ ⊂ (X), é dito ser uma topologia em X se os


seguintes requisitos forem satisfeitos:

1. ∅ ∈ τ e X ∈ τ .
2. Se A ∈ τ e B ∈ τ então A ∩ B ∈ τ .
[
3. Se I é um conjunto arbitrário de ı́ndices e Aλ ∈ τ para todo λ ∈ I então Aλ também é um
λ∈I
elemento de τ .

• σ-álgebra

Uma coleção M de subconjuntos de X, ou seja, M ⊂ (X), é dita ser uma σ-álgebra em X se os


seguintes requisitos forem satisfeitos:

1. ∅ ∈ M e X ∈ M.
2. Se A ∈ M então Ac = X \ A ∈ M.
[
3. Se {An , n ∈  } é uma coleção enumerável arbitrária de elementos de M, então An também
n∈ 

é um elemento de M.

• Comentários e Nomenclatura

Um conjunto X dotado de uma topologia τ é dito ser um espaço topológico. De um modo um


pouco mais técnico, um espaço topológico é um par (X, τ ) onde X é um conjunto não-vazio e
τ ⊂ (X) é uma topologia em X.
Um conjunto X dotado de uma σ-álgebra M é dito ser um espaço mensurável. De um modo um
pouco mais técnico, um espaço mensurável é um par (X, M) onde X é um conjunto não-vazio e
M ⊂ (X) é uma σ-álgebra em X.
Idéias relacionadas à de Topologia já habitam a Matemática há muito, mas foi nas duas primeiras
décadas do século XX que as mesmas começaram a ser sistematizadas e abstraı́das, como resultado
do trabalho de vários indivı́duos, como Cantor1 , Fréchet2 , Riesz3 e Hausdorff4 . A noção de
1
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
2
Maurice René Fréchet (1878-1973).
3
Frigyes Riesz (1880-1956).
4
Felix Hausdorff (1868-1942). Hausdorff foi um dos criadores da Topologia e da moderna Teoria dos Conjuntos.
Perseguido pelo nacional-socialismo, suicidou-se em 1942 para evitar ser enviado a um campo de concentração.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 814/1195

conjuntos abertos e fechados (na topologia usual da reta real) foi introduzida por Cantor. Fréchet
percebeu sua conexão com a noção de métrica (a qual introduziu). A noção moderna de Espaço
Topológico foi introduzida pela primeira vez por Hausdorff em 1914. Hausdorff também cunhou
a expressão “espaço métrico”, noção criada por Fréchet em 1906, e foi o primeiro a introduzir a
noção de medida, entre outras coisas.

A palavra “álgebra” na designação “σ-álgebra” tem origem histórica em uma analogia observada
por Felix Hausdorff entre certas operações envolvendo conjuntos, tais como união e intersecção
e operações algébricas de soma e multiplicação. Apesar disso o conceito de σ-álgebra não deve
ser confundido de forma alguma com o conceito usual de álgebra (um espaço vetorial com um
produto entre seus elementos). A analogia a que nos referimos é a de que a operação de união de
conjuntos disjuntos pode ser entendida como uma “soma” de conjuntos com um elemento neutro,
a saber, o conjunto vazio (pois A ∪ ∅ = A para qualquer conjunto A). O papel de “multiplicação”
entre conjuntos seria exercido pela intersecção, onde novamente o conjunto vazio seria o elemento
neutro (pois sempre A ∩ ∅ = ∅).
Ainda sobre a nomenclatura, o “σ” do nome “σ-álgebra” é usado em função da propriedade 3 da
definição, que se refere ao fato de σ-álgebras serem fechadas em relação a operações envolvendo
uniões (“σomas”) enumeráveis de conjuntos. Aqui o ponto importante é a enumerabilidade e,
daı́, usar-se essa nomenclatura com o sı́mbolo σ em outras áreas da matemática onde a enume-
rabilidade desempenha algum papel (como na topologia chamada de σ-fraca, por exemplo).

Os subconjuntos A ⊂ X que são membros de uma topologia τ são chamados de conjuntos abertos
(em relação à topologia τ ). Se um subconjunto F ⊂ X é tal que F c ∈ τ , então F é dito ser um
conjunto fechado. Note que há conjuntos que podem ser simultaneamente abertos e fechados em
relação à mesma topologia. Por exemplo, ∅ e X são ao mesmo tempo abertos e fechados (por
que?). Além destes conjuntos pode haver outros também. Veremos exemplos.

Os subconjuntos A ⊂ X que são membros de uma σ-álgebra M são chamados de conjuntos


mensuráveis (em relação à σ-álgebra M). Será para conjuntos mensuráveis que se definirá o
conceito de medida.

Note que, pela definição, se A1 , . . . , An é uma coleção de n conjuntos abertos de uma topologia τ
então A1 ∩ · · · ∩ An é também um conjunto aberto (por que?).

Note que, no item 3 da definição de topologia, nenhuma restrição é feita em relação ao conjunto
de ı́ndices I, podendo o mesmo ser até um conjunto não-contável.

Note que se A1 , . . . , An é uma coleção (finita) de n elementos de uma σ-álgebra M então A1 ∪


· · · ∪ An é também um elemento de M. Para ver[isso note que, se definı́ssemos Am = ∅ para todo
m > n terı́amos claramente A1 ∪ · · · ∪ An = Aa que é um elemento de M pelo item 3 da
a∈ 

definição de σ-álgebra.

Se M é uma σ-álgebra em X e A, B ∈ M então A ∩ B ∈ M. Isso é fácil de ver, pois A ∩ B =


(Ac ∪ B c )c . Pelo item 2 da definição de σ-álgebra, Ac e B c são também elementos de M. Pela
observação acima, sua união Ac ∪ B c também o é. Por fim, o complemento de Ac ∪ B c pertence
a M, novamente pelo item 2 da definição de σ-álgebra.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 815/1195

A última afirmação estende-se facilmente para intersecções


T contáveis de conjuntos mensuráveis:
se M é uma σ-álgebra em X e An ∈ M, n ∈ , então n∈ An ∈ M. Isso segue facilmente de


!c
\ [
An = (An )c
n∈  n∈ 

e dos itens 2 e 3 da definição de σ-álgebra.

• Exemplos básicos de topologias

Seja X um conjunto não-vazio.

Considere τ o conjunto, formado por apenas dois elementos, dado por τ = {∅, X}. Então τ é
uma topologia (verifique!). É chamada de topologia indiscreta ou trivial e é a menor topologia
que se pode formar em X.
Seja τ a coleção e todos os subconjuntos de X: τ = (X). Então τ é uma topologia (verifique!).
É chamada de topologia discreta e é a maior topologia que se pode formar em X. Pelo Exercı́cio
E. 13.20, página 744, (X) é uma topologia métrica.
Seja X um espaço métrico com uma métrica d e seja τd o coleção de todos os seus subconjuntos
abertos em relação a d. Um subconjunto A de X é dito ser aberto (em relação à métrica d) se tiver
a seguinte propriedade: para todo x ∈ A podemos achar um número real δ(x) > 0 (eventualmente
dependente de x) tal que para todo x0 ∈ X com a propriedade que d(x, x0 ) < δ(x) (ou seja, que
dista de x menos que δ(x)) vale que x0 também é um elemento de A. Então, conforme já vimos
vimos em exercı́cios na Seção 13.2, página 743, τd é, de fato, uma topologia, chamada de topologia
induzida pela métrica d.

No caso do conjunto dos reais, podemos introduzir a topologia métrica definida pela métrica
d(x, y) = |x − y|. Essa topologia é denominada de topologia usual da reta e para designá-la usa-
remos aqui o sı́mbolo τ . Esse nome é auto-explicativo: quase toda a Análise Real é feita com o uso


dessa topologia. Conforme o costume de toda a literatura, sempre que falarmos de uma topologia
nos reais pensaremos nessa topologia usual, salvo menção explı́cita em contrário. Fique claro porém
que sobre os números reais podem ser definidas outras topologias além τ (e da topologia trivial e da


topologia discreta). Exemplos serão vistos adiante.

E. 15.1 Exercı́cio. Mostre, seguindo as definições, que todo intervalo (a, b) com a < b ∈  é um
elemento de τ e que todo intervalo [a, b] com a ≤ b é um conjunto fechado em relação a τ .
 

• Exemplos básicos de σ-álgebras

Seja X um conjunto não-vazio.

Considere M o conjunto, formado por apenas dois elementos, dado por M = {∅, X}. Então M
é uma σ-álgebra (verifique!) e é a menor σ-álgebra que se pode formar em X. Essa σ-álgebra é
chamada de σ-álgebra indiscreta ou trivial.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 816/1195

Seja M a coleção e todos os subconjuntos de X: M = (X). Então M é uma σ-álgebra (verifique!)


e é a maior σ-álgebra que se pode formar em X. Essa σ-álgebra é chamada de σ-álgebra discreta.

Seja X um conjunto e A ⊂ X. Então a coleção M = {∅, A, Ac , X} é uma σ-álgebra (verifique!).

Outros exemplos menos triviais de σ-álgebras serão vistos adiante. Exemplos realmente interessantes
de σ-álgebras requerem construções elaboradas, como a da σ-álgebra de Lebesgue 5 , a qual trataremos
com certo detalhe no Capı́tulo 17.

E. 15.2 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que  
M = ∅, {α, β}, {γ}, {α, β, γ}

é uma σ-álgebra em X = {α, β, γ}. 6

E. 15.3 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
 
M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}

é uma σ-álgebra em X = {α, β, γ}. 6

• Abertos e Fechados

Sejam X um conjunto e τ uma topologia em X. Denotemos por F(τ ) a coleção de todos os conjuntos
fechados de X em relação à τ , ou seja, a coleção de todos os conjuntos F de X tais que F c é um aberto,
ou seja, um elemento de τ .
É muito importante o estudante notar que F(τ ) pode conter elementos que não são elementos de τ .
Porém F(τ ) e τ nunca são conjuntos disjuntos, pois ambos sempre têm elementos em comum. Sempre
se tem, por exemplo, que {∅, X} ⊂ F(τ ) ∩ τ .

E. 15.4 Exercı́cio. Mostre que se F(τ ) ⊂ τ então F(τ ) = τ . 6

E. 15.5 Exercı́cio. Mostre que se τ ⊂ F(τ ) então τ = F(τ ). 6

Exemplos de topologias onde τ = F(τ ) são a topologia trivial e a topologia discreta (por que?). Há,
porém, muitos outros exemplos, como mostra o próximo exercı́cio.

E. 15.6 Exercı́cio. Seja a reta real e X o seguinte subconjunto de : X = (0, 1) ∪ (1, 2). Mostre


que a coleção τ de subconjuntos de X dada por τ = {∅, (0, 1), (1, 2), X} é uma topologia em X e que
F(τ ) = τ . Note que τ não é nem a topologia trivial nem a discreta de X. 6
5
Henri Léon Lebesgue (1875-1941).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 817/1195

A coleção F(τ ) de todos os conjuntos fechados em relação a uma topologia τ em X possui uma
série de propriedades especiais:

1. ∅ ∈ F(τ ) e X ∈ F(τ ).

2. Se F ∈ F(τ ) e G ∈ F(τ ) então F ∪ G ∈ F(τ ).


\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F(τ ) para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F(τ ).

E. 15.7 Exercı́cio muito importante. Justifique as afirmativas acima. 6

E. 15.8 Exercı́cio. Sejam as seguintes coleções de conjuntos fechados na reta real (na topologia usual):
{Fn = \
[−1/n, 1 + 1/n], n ∈ , n > 0} e {Gn = [1/n,


[ 1 − 1/n], n ∈ , n > 1}. Mostre explicitamente




[
que Fn é um conjunto fechado mas que Gn é um conjunto aberto. Note que Gn
n∈ , n>0
 n∈ , n>1
 n∈ , n>1


não é uma união finita! 6

Seja agora (reciprocamente) uma coleção F de subconjuntos de um conjunto X tal que as seguintes
condições (que chamaremos de “axiomas de conjuntos fechados”) são verdadeiras:

1. ∅ ∈ F e X ∈ F.

2. Se F ∈ F e G ∈ F então F ∪ G ∈ F.
\
3. Se I é um conjunto arbitrário de ı́ndices e Fλ ∈ F para todo λ ∈ I então Fλ também é um
λ∈I
elemento de F.

Então, a coleção τ (F) = {A ⊂ X, tais que Ac ∈ F} é uma topologia em X.

E. 15.9 Exercı́cio muito importante. Justifique essa última afirmativa. 6

• Mais Exemplos de Topologias: a Topologia Co-contável e a Co-finita

Vamos ilustrar o que acabamos de ver com dois exemplos (importantes, pois deles se extraem alguns
exemplos e contra-exemplos de propriedades de topologias, como veremos adiante).
Seja X um conjunto e Cc a coleção de todos os conjuntos contáveis de X. Então vamos mostrar
que a coleção C = {∅, X} ∪ Cc satisfaz os axiomas de conjuntos fechados.
As propriedades que ∅ ∈ C e X ∈ C são óbvias por definição. Se F e G são elementos de C então
F ∪ G também é um elemento de C, basicamente pois a união de dois conjuntos contáveis é também um
conjunto contável. Finalmente a intersecção arbitrária de conjuntos contáveis é também um conjunto
contável (pois, como vimos acima, qualquer subconjunto de um conjunto contável também é contável)
e, com isso, fica também verificado o axioma 3.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 818/1195

Com isso, e com o que dissemos anteriormente, vemos que a coleção τ (C) é uma topologia em X.
Todo elemento de τ (C) é então ∅, X ou da forma X \ C, onde C é um conjunto contável. Chamaremos
a topologia τcc ≡ τ (C) de topologia co-contável de X.

E. 15.10 Exercı́cio. Seja X um conjunto e τcf a coleção

τcf = {A ⊂ X, A = X \ U onde U ⊂ X é um conjunto finito} ∪ {∅}.

Mostre que τcf é uma topologia em X (chamada de topologia co-finita de X). Como são os conjuntos
fechados em relação a τcf ? 6

E. 15.11 Exercı́cio. Verifique que τcf ⊂ τcc . Para que tipo de conjunto X podemos ter τcf = τcc ? 6

A topologia co-contável tem a seguinte propriedade incomum. Sejam A e B dois abertos não vazios
quaisquer da topologia co-contável de um conjunto X e suponha que X não seja um conjunto contável.
Então A∩B sempre é um conjunto não vazio. Para provar isso, notemos que, pelas hipóteses, A = X \C 1
e B = X \ C2 , para dois subconjuntos contáveis C1 e C2 de X. Daı́, A ∩ B = (X \ C1 ) ∩ (X \ C2 ) =
C1c ∩ C2c = (C1 ∪ C2 )c . Agora, como C1 ∪ C2 é também um conjunto contável, seu complemento é não
vazio pois X não é contável.
Assim, provamos que dois abertos não-vazios quaisquer da topologia co-contável de um conjunto
não contável (como, por exemplo, o conjunto dos reais) sempre se interceptam. Como veremos, isso
significa que tais espaços topológicos não são do tipo Hausdorff (a definição de espaço Hausdorff virá
à página 878).

E. 15.12 Exercı́cio. Sejam A e B dois abertos não vazios quaisquer da topologia co-finita de um
conjunto X e suponha que X não seja um conjunto finito. Mostre, então, que A ∩ B sempre é um conjunto
não vazio. 6

15.2 Algumas Construções Especiais e Exemplos

15.2.1 Topologias e σ-álgebras Geradas

• A Noção de Topologia Gerada

Vamos agora discutir um método importante de gerar topologias e σ-álgebras.


Seja X um conjunto e {τλ , λ ∈ I} uma coleção de topologias em X (cada uma indexada por um
elemento λ de um conjunto de ı́ndices I arbitrário). Como cada topologia é por si um subconjunto de
(X), podemos considerar uniões e intersecções de topologias.
Em particular para uma coleção genérica de topologias como {τλ , λ ∈ I}, temos o seguinte resultado
importante:
\
Proposição 15.1 O subconjunto τI de (X) dado por τI = τλ é também uma topologia em X. 2
λ∈I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 819/1195

Prova. Em primeiro lugar é claro pelas definições que ∅ ∈ τI e que X ∈ τI .


Vamos agora mostrar que se A e B são elementos de τI então A ∩ B também o é. Para tal, note que
se A e B são elementos de τI então A e B são elementos de toda topologia τλ com λ ∈ I. Assim, como
para cada λ particular tem-se A e B ∈ τλ , segue que A ∩ B ∈ τλ (pois τλ é uma topologia). Assim,
mostramos que A ∩ B pertence a toda topologia τλ com λ ∈ I e, portanto, A ∩ B ∈ τI .
Por fim, temos que provar que se {Aµ , µ ∈[J} é uma coleção de elementos de τI (onde J é uma
coleção arbitrária de ı́ndices), então segue que Aµ é também um elemento de τI .
µ∈J

Para tal, note-se que se {Aµ , µ ∈ J} é uma coleção


[ de elementos de τI então cada Aµ é um elemento
de cada τλ . Daı́, para cada λ particular segue que Aµ é também um elemento de τλ (pois τλ é uma
µ∈J
[
topologia). Como isso vale para todo λ ∈ I, segue que Aµ ∈ τI , como querı́amos provar.
µ∈J

Este resultado tem um uso de grande importância: fornecer um método de gerar topologias. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as topologias que contém A
como um subconjunto. Como vimos, a intersecção de todas essas topologias é também uma topologia
que denotaremos por τ [A]. A topologia τ [A] é chamada de topologia gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma topologia
associada a si: a topologia gerada pela coleção. Muitas topologias podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.

E. 15.13 Exercı́cio. Mostre que A ⊂ τ [A] e que τ [A] é a menor topologia que contém A como
subconjunto, ou seja, se houver uma topologia τ 0 ⊂ τ [A] que contém A, então τ 0 = τ [A]. 6

E. 15.14 Exercı́cio. Mostre que se A é uma topologia então τ [A] = A. 6

E. 15.15 Exercı́cio. Seja X um conjunto e A ⊂ X. Mostre que τ [{A}] = {∅, A, X}. 6

E. 15.16 Exercı́cio. Seja X um conjunto e A = {{x}, x ∈ X} a coleção de subconjuntos de X


formada apenas por todos os conjuntos de um elemento de X. Mostre então que τ [A] é a topologia discreta
de X. Sugestão: use o item 3 da definição de topologia para mostrar que todo subconjunto de X é um
elemento de τ [A]. 6

E. 15.17 Exercı́cio. Seja X um conjunto e A = {{x, y}, x, y ∈ X e x 6= y} a coleção de subconjuntos


de X formada apenas por todos os conjuntos de dois elementos distintos de X. Mostre então que τ [A] é a
topologia discreta de X. 6

O método de gerar topologias descrito acima é muito usado e será reencontrado adiante em outros
exemplos.

• Mais Sobre a Topologia Usual de 


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 820/1195

Já definimos a topologia usual da reta como sendo a topologia induzida pela métrica d(x, y) =
|y − x|. Vamos mostrar aqui que há uma outra caracterização da mesma topologia.
Seja A a coleção de todos os intervalos abertos (a, b) de com a < b. Vamos provar que τ = τ [A],



ou seja, que a topologia usual é idêntica à topologia gerada pela coleção de todos os intervalos abertos
de .


Já sabemos que A ⊂ τ , pois todo intervalo do tipo (a, b), a < b, é aberto de τ . Como por
 

definição τ [A] é a menor topologia que contém A, tem-se que τ [A] ⊂ τ . Tudo o que precisamos fazer,


então, é provar que τ ⊂ τ [A].




Seja τ 0 uma topologia qualquer que contenha A. Isso significa que uniões arbitrárias de elementos
de A são também elementos de τ 0 (pois τ 0 é uma topologia e pelo item 3 da definição de topologia).
Se B é um elemento de τ isso significa que para cada x ∈ B existe δ(x) > 0 tal que y ∈ B desde que


|y − x| < δ(x). Não é difı́cil ver então que isso significa que podemos escrever
[
B = (x − δ(x), x + δ(x)).
x∈B

Como todo intervalo do tipo (x − δ(x), x + δ(x)) é um elemento de A, segue que B ∈ τ 0 . Como isso
vale para todo B ∈ τ isso significa que τ ⊂ τ 0 . Esse último fato vale, porém, para qualquer que seja
 

a topologia τ 0 , desde que contenha a coleção A. Portanto, concluı́-se que τ ⊂ τ [A], como querı́amos 

mostrar.

• A Topologia de Sorgenfrey de 

Seja S a coleção de todos os intervalos semi-abertos de do tipo [a, b) com a < b, a, b ∈


  . A
topologia τ [S] é denominada topologia de Sorgenfrey6 dos reais.

E. 15.18 Exercı́cio. Mostre que τ é um subconjunto próprio de τ [S]. Sugestão: mostre que todo


intervalo aberto (a, b), a < b, é um elemento de τ [S] e conclua a partir daı́ que τ ⊂ τ [S]. Para ver que 

τ [S] \ τ não é vazio, note apenas que um um intervalo semiaberto [a, b), a < b é um elemento de τ [S],


mas não de τ . 

Note ainda que τ [S] é menor que a topologia discreta ( ) pois intervalos fechados [a, b], a ≤ b


não são elementos de τ [S].

E. 15.19 Exercı́cio. Justifique esta última afirmativa. 6

Assim, vimos nos dois últimos exercı́cios que τ 

⊂ τ [S] ⊂ ( ), onde todas essas inclusões são




próprias.
A topologia τ [S] é rica em conjuntos que são simultaneamente abertos e fechados.

E. 15.20 Exercı́cio. Mostre que na topologia de Sorgenfrey de  todo intervalo do tipo [a, b) com
a < b é simultaneamente aberto e fechado. 6

6
Robert Sorgenfrey (1915 - 1996).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 821/1195

E. 15.21 Exercı́cio. O último exercı́cio inspira a seguinte questão. Será que em τ [S] todo conjunto aberto
é também fechado? Verifique que isso não é verdade mostrando que o conjunto A = (−∞, a) ∪ (b, ∞),
com a ≤ b, é aberto segundo τ [S] mas que seu complemento A c = [a, b] não é aberto segundo τ [S]. 6

• A Noção de σ-Álgebra Gerada

O método de construção de topologias descrito acima tem um análogo quase literal entre as σ-
álgebras.
Seja X um conjunto e {Mλ , λ ∈ I} uma coleção de σ-álgebras em X (cada uma indexada por um
elemento λ de um conjunto de ı́ndices I arbitrário). Como cada σ-álgebra é por si um subconjunto de
(X) podemos considerar uniões e intersecções de σ-álgebras.
Em particular, para uma coleção genérica de σ-álgebras como {Mλ , λ ∈ I}, temos o seguinte
resultado importante:
\
Proposição 15.2 O subconjunto MI de (X) dado por MI = Mλ é também uma σ-álgebra em X.
λ∈I
2

Prova. Em primeiro lugar é claro pelas definições que ∅ ∈ MI e que X ∈ MI .


Vamos agora mostrar que se A ⊂ X é um elemento de MI então Ac = X \ A também o é. Se
A ∈ MI então A ∈ Mλ para todo λ ∈ I e, portanto Ac ∈ Mλ para todo λ ∈ I pois cada Mλ é uma
σ-álgebra. Assim, segue que Ac ∈ MI .
[
Por fim, vamos provar que se {An , n ∈ } é uma coleção contável de elementos de MI então
 An
n∈ 

também o é. Se {An , n ∈ } é uma coleção contável de [


 elementos de MI então cada An pertence a
cada Mλ e, portanto, para cada λ particular segue que An também é um elemento de Mλ . Daı́
[ n∈ 

segue imediatamente que An ∈ MI , que é o que querı́amos provar.


n∈ 

Este resultado tem um uso de grande importância: fornecer um método de gerar σ-álgebras. Seja A
uma coleção qualquer de subconjuntos de X. Considere a coleção de todas as σ-álgebras que contem A
como um subconjunto. Como vimos, a intersecção de todas essas σ-álgebras é também uma σ-álgebra
que denotaremos por M[A]. A σ-álgebra M[A] é chamada de σ-álgebra gerada por A.
Assim, cada coleção A de subconjuntos de um conjunto X tem automaticamente uma σ-álgebra
associada a si: a σ-álgebra gerada pela coleção. Muitas σ-álgebras podem ser produzidas dessa forma,
como sendo geradas por uma coleção conveniente de subconjuntos de X.

E. 15.22 Exercı́cio. Mostre que A ⊂ M[A] e que M[A] é a menor σ-álgebra que contem A como
subconjunto, ou seja, se houver uma σ-álgebra M0 ⊂ M[A] que contem A, então M0 = M[A]. 6

E. 15.23 Exercı́cio. Mostre que se A é uma σ-álgebra então M[A] = A. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 822/1195

• A σ-álgebra de Borel

Dentre os muitos tipos de σ-álgebras existentes particular destaque têm as σ-álgebras geradas por
topologias.
Seja X um conjunto e τ uma topologia em X. Como τ é uma coleção de subconjuntos de X podemos
considerar a σ-álgebra M[τ ] gerada pela topologia τ . Essa σ-álgebra é chamada de σ-álgebra de Borel 7
associada à topologia τ em X e seus elementos são chamados de conjuntos de Borel ou Borelianos.

E. 15.24 Exercı́cio. Considere a reta real . Mostre que intervalos como (a, b), [a, b), (a, b] com


a < b e [a, b] com a ≤ b são elementos da σ-álgebra de Borel M[τ ]. Que outros elementos de M[τ ] você
 

poderia identificar? 6

Como veremos, as σ-álgebras de Borel desempenham um papel importante na Teoria da Medida.

15.2.2 Bases de Espaços Topológicos

• Base de uma Topologia

Seja X um espaço com uma topologia τ . Uma coleção de abertos B ⊂ τ é dita ser uma base da
[ τ se todo aberto de τ puder ser escrito como união de elementos de B: se A ∈ τ então
topologia
A= Bλ , onde todos os Bλ são elementos de B. Note que a união não necessita ser finita ou mesmo
λ
contável.
Um fato básico é o seguinte: se B é uma base de uma topologia τ então τ = τ [B].
Provar isso é bem simples. Primeiramente note-se que, como τ é uma topologia que contem B e
τ [B] é, por definição, a menor topologia com essa propriedade, então segue que τ [B] ⊂ τ . Por outro
lado, como vimos, se A ∈ τ então A é a união de elementos de B e, portanto, A é um elemento de τ [B].
Logo τ ⊂ τ [B], completando a prova.
Para evitar confusões e ao mesmo tempo clarificar idéias, o estudante deve notar, porém, o seguinte
fato. Se A é uma coleção de subconjuntos de um conjunto X então não é em geral verdade que A ou
mesmo A ∪ X sejam uma base de τ [A]. Tome-se o seguinte exemplo: X = e A = {(i/2, i/2 + 1), i ∈ 

}. Então o intervalo (1/2, 1) é um elemento de τ [A] pois é intersecção dos intervalos (0, 1) e
(1/2, 3/2) mas não pode ser escrito como união de elementos de A.

E. 15.25 Exercı́cio. Seja X um espaço métrico e B a coleção de todas as bolas abertas de X:


{B(x, r), x ∈ X, r > 0}. Mostre que B é uma base da topologia métrica de X. 6

• Produzindo Bases de Topologias

A discussão do último parágrafo pode ser usada para introduzir e motivar mais um modo importante
de se produzir bases de topologias, o qual será usado quando discutirmos o conceito de topologia gerada
7
Félix Édouard Justin Émile Borel (1871-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 823/1195

por famı́lias de funções, um tópico importante, por exemplo, em estudos mais avançados de propriedades
de espaços de Banach e de Hilbert.
Como já vimos, se X é um conjunto e A é uma coleção arbitrária de subconjuntos de X não podemos
em geral garantir que A é uma base de τ [A]. Há, porém, uma maneira de se produzir uma base a partir
de A que discutiremos a seguir.
Considere a coleção AI formada por todos os conjuntos que podem ser escritos como um intersecção
finita de elementos de A ∪ X ∪ ∅. Ou seja, A ⊂ X pertence a AI se puder ser escrito da forma
A = B1 ∩ B2 · · · ∩ Bn , para algum n finito, onde cada Bi ou é igual a X ou ∅ ou é um elemento de A.
É claro pela definição que A ⊂ AI (por que?) e também que AI ⊂ τ [A] (por que?). Assim, temos
que A ⊂ AI ⊂ τ [A].
Notemos agora que se B e C são duas coleções de subconjuntos de X com B ⊂ C, então τ [B] ⊂ τ [C]
(por que?).
Daı́ segue, pelo que vimos, que τ [A] ⊂ τ [AI ] ⊂ τ [τ [A]]. Como τ [A] é uma topologia temos, por
um exercı́cio anterior que τ [τ [A]] = τ [A]. Assim, provamos que τ [A] = τ [AI ] e vamos agora explorar
conseqüências desse fato.
Vamos mostrar que AI é uma base de τ [AI ] e, portanto, de τ [A].
Para isso consideremos a coleção U formada por todas as possı́veis uniões de elementos de A I : se
A ∈ U então [
A = Aλ ,
λ∈Λ

com Aλ ∈ AI para todo λ.


Vamos agora provar que U é uma topologia em X.
Pela definição é claro que ∅ ∈ U e que X ∈ U (por que?). É claro também que uniões arbitrárias
de elementos de U são novamente elementos de U . Resta-nos provar que se A e B são elementos de U
então A ∩ B também o é.
Sejam então A e B da forma
[ [
A = Aλ , B = Bλ ,
λ∈Λ λ∈Λ

onde todo Aλ e todo Bλ são elementos de AI . Note que podemos acima, sem perda de generalidade,
usar o mesmo conjunto de ı́ndices Λ tanto para A quanto para B, pois podemos fazer alguns A λ e/ou
alguns Bλ iguais ao conjunto vazio se necessário, de modo a igualar ambos os conjuntos de ı́ndices.
Com isso temos, então, que
! !
[ \ [ [
A∩B = Aλ B λ0 = (Aλ ∩ Bλ0 ) ,
λ∈Λ λ0 ∈Λ λ, λ0 ∈Λ

que claramente é um elemento de U , pois os conjuntos Aλ ∩ Bλ0 são elementos de AI .


Dado que provamos que U é uma topologia, vamos ver as conseqüências desse fato. Em primeiro
lugar, é claro pela definição de U que AI ⊂ U . Como U é uma topologia, segue que τ [AI ] ⊂ U .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 824/1195

Por outro lado, temos também que os elementos de U são uniões de elementos de A I e, portanto,
são elementos de qualquer topologia que contenha AI , como, em particular, a topologia τ [AI ]. Assim,
U ⊂ τ [AI ]. Com isso, vimos que τ [A] = τ [AI ] = U . Pela definição de U , isso diz que todos os elementos
de τ [A] podem ser escritos como uniões de elementos de AI e, assim, fica provado que AI é uma base
para τ [A].

• Espaços Topológicos Separáveis e Espaços Topológicos Segundo-Contáveis

Seja um espaço X dotado de uma topologia τ . Dizemos que um conjunto A ⊂ X é denso em X se


o fecho de A for igual a X, ou seja, se não houver outro conjunto fechado que não X contendo A.
Um espaço topológico X é dito ser separável se possuir um subconjunto denso contável.
Exemplo. A reta real com a topologia usual é separável pois , o conjunto dos racionais é contável
e denso em . Vide abaixo.


Um espaço topológico X é dito ser segundo-contável (“second countable”) se possuir uma base
contável.
Pelo que vimos, se A for uma coleção contável de subconjuntos de X então a topologia gerada por
A possui uma base também contável e é, portanto, segundo-contável.
Vamos mostrar a seguinte afirmativa:
Proposição 15.3 Todo espaço segundo-contável é separável. 2

Prova. Seja X segundo-contável e Bn , n ∈ , uma base em τX . Vamos formar conjuntos An , n ∈ ,


 

da seguinte forma: A0 é formado por um elemento escolhido arbitrariamente em B0 e[ An , n ≥ 1, é


formado por um elemento escolhido arbitrariamente em Bn \ A0 ∪ · · · ∪ An−1 . Seja A := An . Vamos
n∈ 

mostrar que A é denso em X. Suponha que haja um conjunto fechado F que contem A e que seja
menor que X. Então C = X \ F é aberto e A ∩ C = ∅. Ou seja, An ∩ C = ∅ para todo n. Isso significa
que Bn ∩ C = ∅ para todo n (por que?). Mas isso não é possı́vel se os Bn ’s formam uma base e C é
aberto, pois nesse caso deve haver uma sub-coleção contável de Bn ’s cuja união é C. Logo A é denso
em X.

É interessante notar que a recı́proca do proposição acima não é verdadeira: há espaços separáveis
que não são segundo-contáveis. Como exemplo, mostraremos que a topologia de Sorgenfrey é separável
mas não é segundo-contável (página 827). Tal, porém, não é verdade para espaços métricos em geral.
Proposição 15.4 Um espaço métrico é separável se e somente se for segundo-contável. 2

Prova. Pela proposição anterior resta-nos apenas mostrar que se X é um espaço métrico separável então
tem uma base enumerável. Seja A um conjunto contável denso em X e seja o conjunto de todas as
bolas centradas em elementos de A com raio racional positivo: B(a, r), a ∈ A e r ∈ + . O coleção de
todas essas bolas é contável (por que?). Vamos provar que é uma base em X. Seja C um aberto contido
em X. Para cada ponto a em A ∩ C podemos achar um raio ra tal que B(a, ra ) está inteiramente
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 825/1195

contido em C (pela definição de conjunto aberto em um espaço métrico). Vamos mostrar que
[
C = B(a, ra ).
a∈C∩A

S
Suponha que haja z ∈ C que não esteja em a∈C∩A B(a, ra ). Como A é denso em X, toda bola
aberta B(z, ) contem elementos de A (doutra forma seu complemento seria fechado e conteria A, o
que não é possı́vel se A é denso). Em particular se  for suficientemente pequeno B(z, ) e B(z, /4)
estarão inteiramente contidas em C. Logo, para um racional r com /4 < r < /2 teremos z ∈ B(a 0 , r)
para algum a0 ∈ B(z, /4) ∩ A sendo que B(a0 , r) ⊂ B(z, ) ⊂ C. Lembrando que 0
S a ∈ C ∩ A e que
0 0 0
podemos escolher /2 < ra0 , teremos B(a , r) ⊂ B(a , ra0 ). Assim, z ∈ B(a , r) ⊂ a∈C∩A B(a, ra ).

• A Topologia τ é Separável


Vamos mostrar que τ é separável mostrando explicitamente que τ é segundo-contável e para isso
 

vamos mostrar que τ pode ser gerada por uma coleção contável de subconjuntos de . Esse fato é


importante por várias razões, uma delas conectada à σ-álgebra de Borel e sua relação com a σ-álgebra
de Lebesgue, que introduziremos quando falarmos da Teoria da Medida (vide Capı́tulo 17).
Para a ∈ e b > 0 vamos denotar por B(a, b) a bola aberta de raio b centrada em a que, neste


caso, é o intervalo aberto (a − b, a + b) centrado em a com largura 2b.


Vamos primeiramente ver que qualquer intervalo B(a, b), a ∈ , b > 0, pode ser escrito como


uma união contável de intervalos abertos. Para isso considere uma seqüência s i de números racionais
positivos tais que si < b mas tais que a seqüência si converge a b quando i → ∞. Então é claro que
[
B(a, b) = B(a, si ),
i∈ 

que é uma união contável.


Pela definição, se A é um aberto não-vazio em τ , A 6= , então para cada x ∈ A podemos encontrar


um número δ(x) > 0 (que eventualmente depende de x) de forma que B(x, δ(x)) ⊂ A. Para A aberto
e x ∈ A vamos denotar por δA (x) o maior número com essa propriedade, ou seja,

δA (x) = sup{b > 0, tal que B(x, b) ⊂ A}.

Como A 6=  , δA (x) é sempre finito para x ∈ A. (Por quê?).


É bem claro então que [
A = B(x, δA (x)).
x∈A

E. 15.26 Exercı́cio. Por quê? 6

Vamos provar a seguinte afirmativa:


[
A = B(r, δA (r)).
r∈A∩
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 826/1195

Para tal, seja [


A0 = B(r, δA (r)),
r∈A∩

suponha que A \ A0 6= ∅ e seja w ∈ A \ A0 . Considere então o conjunto aberto B(w, δA (w)). Tomemos
s ∈ B(w, δA (w)) ∩ de tal forma que |s − w| < δA (w)/2 (isso é sempre possı́vel. Por quê?). Então
teremos que δA (w)/2 < δA (s) < δA (w) e, portanto w ∈ B(s, δA (s)), mostrando que w ∈ A0 : um
contradição. Portanto A = A0 .
Caso A =  podemos sempre escrever
[
 = B(r, p),
r∈

para qualquer p > 0.


O que acabamos de provar é que todo aberto não vazio A de τ pode ser escrito como uma união 

contável de intervalos abertos. Por outro lado, vimos também que cada intervalo aberto B(r, δ A (r))
pode ser escrito ele mesmo como uma união contável de intervalos abertos do tipo B(r, s) onde r e
s > 0 são números racionais.
Seja R a coleção de todos os intervalos abertos do tipo B(r, s) com r, s ∈ e s > 0. A coleção R
é claramente uma coleção contável e R ⊂ τ (pois todos esses intervalos são abertos). Logo τ [R] ⊂ τ ,
 

pois τ [R] é, por definição, a menor topologia que contém R. Por outro lado, qualquer topologia que
contenha R contém também qualquer elemento que possa ser escrito como união de elementos de R
e, como vimos, todo aberto de τ pode ser escrito como uma união (contável) de elementos de R e é,


conseqüentemente, um elemento de qualquer topologia que contenha R. Logo τ ⊂ τ [R]. 

Vemos, portanto, que


τ 

= τ [R]
e, assim, τ é o que se chama de uma topologia segundo-contável, pois tem uma base contável obtida


tomando-se intersecções finitas de elementos de R, como vimos acima.


Para finalizar, vamos mostrar a seguinte identidade:

M[τ ] = M[R],


(15.1)

ou seja, vamos mostrar que a σ-álgebra de Borel da reta real e a σ-álgebra gerada por R coincidem.
Como R ⊂ τ , é claro que R ⊂ M[τ ]. Daı́ segue que M[R] ⊂ M[τ ], dado que M[R] é, por
  

definição, a menor σ-álgebra que contém R. Por outro lado, M[R] contém (pela definição de σ-álgebra)
qualquer conjunto que seja uma união contável de elementos de R. Vimos acima que qualquer elemento
de τ tem essa propriedade. Logo τ ⊂ M[R] e, assim, M[τ ] ⊂ M[R], provando que M[τ ] = M[R].
   

Os fatos aqui discutidos serão importantes quando apresentarmos a chamada σ-álgebra de Lebesgue
no Capı́tulo 17.

• A Topologia de Sorgenfrey não é uma Topologia Métrica

Mostraremos agora que a Topologia de Sorgenfrey é separável mas não é segundo-contável e, por-
tanto, não é métrica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 827/1195

Para mostrar que a topologia de Sorgenfrey τ [S] é separável, provemos que é denso em segundo 

τ [S]. Suponha que não seja. Então existiria z ∈ e aberto em τ [S] contendo z que não contém nenhum


número racional. Como um tal aberto é união de intersecções finitas de intervalos semi-abertos de S,
isso é impossı́vel.
Vamos agora mostrar que τ [S] não é segundo-contável. Suponhamos que B seja uma base para τ [S]
e seja x ∈ . Pela hipótese existe um subconjunto B0 = {Bλ , λ ∈ Λ} de B tal que


[
τ [S] 3 [x, ∞) = Bλ ,
λ∈Λ

com Bλ ∈ B0 . Mas isso só é possı́vel se existir pelo menos um conjunto de B0 que contém x. Denotemo-
lo Bλ(x) . É claro que Bλ(x) não pode conter nenhum y ∈ com y < x (por que?). Logo, a aplicação


 3 x 7→ Bλ(x) ∈ B é injetora, o que nos diz que a cardinalidade de B é pelo menos a cardinalidade de
 . Isso mostra que B não pode ser contável.
Como vimos acima (página 824), um espaço métrico é separável se e somente se for segundo-contável.
Isso mostra que a topologia de Sorgenfrey não é uma topologia métrica!

• A Topologia Gerada por um Ordenamento Total

Seja X um conjunto no qual está definida uma relação de ordem total “≤”. Se a, b ∈ X dizemos
que a < b se a ≤ b mas a 6= b. Fixados a, b ∈ X com a < b definamos

(a, b) := {x ∈ X| a < x e x < b},

(a, →) := {x ∈ X| a < x},

(←, b) := {x ∈ X| x < b}.

Seja A a coleção
A := Alim ∪ A→ ∪ A← ,
com

Alim := {(a, b), para todos a, b ∈ X com a < b} ,

A→ := {(a, →), para todo a ∈ X} ,

A← := {(←, b), para todo b ∈ X} .

A topologia τ [A] é denominada topologia gerada pelo ordenamento total “≤”.

E. 15.27 Exercı́cio. Mostre que a topologia gerada pelo ordenamento usual da reta real coincide com a
topologia usual da reta. 6

2
E. 15.28 Exercı́cio. Mostre que a topologia gerada pelo ordenamento lexicográfico de  (vide página
31) é uma topologia Hausdorff. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 828/1195

15.2.3 Topologias e σ-álgebras Induzidas

• A Topologia Induzida (ou “Relativa”)

Vamos agora estudar mais uma maneira de produzir topologias que também tem seu análogo para
as σ-álgebras.
Seja X um conjunto e τ uma topologia em X. Seja também Y um subconjunto arbitrário de X
(Y não precisa ser um elemento de τ ). Podemos construir uma topologia no conjunto Y usando a
topologia de X da seguinte forma. Definimos a seguinte coleção τY de subconjuntos de Y :

τY = {A ⊂ Y, tal que A = Y ∩ T para algum T ∈ τ }.

Em palavras, τY é formado por todos os subconjuntos de Y que podem ser escritos como intersecção
de Y com algum aberto de τ .
Então afirmamos que τY é uma topologia em Y . Vamos provar isso. Primeiro é claro que ∅ ∈ τY
pois ∅ = Y ∩ ∅ e ∅ ∈ τ . Em segundo lugar é também claro que Y ∈ τY pois Y = Y ∩ X (dado que
Y ⊂ X) e X ∈ τ .
Vamos então agora mostrar que se A e B ∈ τY então A ∩ B ∈ τY . Para isso note que, como
A e B ∈ τY então existem A0 e B 0 ∈ τ de forma que A ∈ Y ∩ A0 e B ∈ Y ∩ B 0 . Logo A ∩ B =
(Y ∩ A0 ) ∩ (Y ∩ B 0 ) = Y ∩ (A0 ∩ B 0 ) (por que?) e, como A0 ∩ B 0 ∈ τ , segue que A ∩ B ∈ τY .
Para finalizar, falta-nos mostrar que se {Aλ , λ[
∈ I} é uma coleção de elementos de τY (indexados
por um conjunto arbitrário de ı́ndices I), então Aλ ∈ τY . Pelas hipóteses, cada Aλ é da forma
λ∈I
Aλ = Y ∩ Tλ com Tλ ∈ τ e portanto
!
[ [ [
Aλ = (Y ∩ Tλ ) = Y ∩ Tλ (por que?).
λ∈I λ∈I λ∈I
[ [
Assim, como Tλ ∈ τ fica provado que Aλ ∈ τY como querı́amos demonstrar.
λ∈I λ∈I

Vimos então que τY é uma topologia em Y . Essa topologia é chamada de topologia induzida (pela
topologia τ ).

E. 15.29 Exercı́cio. Verifique que, usando a mesma notação usada acima, τ X = τ . 6

E. 15.30 Exercı́cio. Seja Y = [0, 1] ⊂ e seja τ a topologia usual de . Mostre que conjuntos da



forma [0, x) com 0 < x ≤ 1 são abertos na topologia τY induzida em Y por τ . Mostre que conjuntos da 

forma (x, 1] com 0 ≤ x < 1 são abertos na topologia τY induzida em Y por τ . 6 

Para o estudante é importante ver que, no exercı́cio acima, nem [0, x) nem (x, 1] são abertos em
τ ! Isso mostra que topologias induzidas podem trazer elementos novos ao jogo.


E. 15.31 Exercı́cio. Mostre que a topologia τY do exercı́cio anterior é igual à topologia induzida em Y
pela métrica d(x, y) = |y − x|. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 829/1195

E. 15.32 Exercı́cio. Seja Y = ⊂ e seja τ a topologia induzida em


 por τ . Mostre que todo


conjunto de um elemento {r} com r ∈ é um conjunto fechado segundo τ . 6

Essa topologia τ do último exercı́cio tem propriedades curiosas. Seja x um número irracional e
seja o conjunto χ = (−∞, x) ∩ ⊂ . Então χ é ao mesmo tempo aberto e fechado em τ . O fato
que χ é aberto é evidente pois (−∞, x) é aberto em τ . O fato que χ é fechado segue da constatação


que o complemento de χ em é o conjunto χc = [x, ∞) ∩ e que [x, ∞) ∩ = (x, ∞) ∩ pois x é


irracional. Assim, χc é aberto em τ pois (x, ∞) é aberto em τ . Logo χ, que é o complemento de χc


nos racionais, é fechado por τ .

E. 15.33 Exercı́cio. Seja Y = ⊂ e seja τ a topologia induzida em


 por τ . Mostre que o


intervalo aberto de racionais {x ∈ , e < x < π} é um conjunto aberto e fechado em τ . 6

E. 15.34 Exercı́cio. Seja X um conjunto com uma topologia τ e considere Y ⊂ X e a topologia


induzida por τ em Y : τY . Considere agora um terceiro conjunto Z com Z ⊂ Y ⊂ X. Podemos, em
princı́pio, construir duas topologias induzidas em Z: 1) a topologia induzida por τ em Z e 2) a topologia
induzida por τY em Z. Mostre que essas topologias são na verdade idênticas. 6

E. 15.35 Exercı́cio. Seja Y = (0, 1) ∪ (1, 2) munido da topologia τ Y induzida pela topologia τ . 

Mostre que os subconjuntos (0, 1) e (1, 2) são ambos simultaneamente abertos e fechados nessa topologia
τY . 6

• A σ-Álgebra Induzida

Seja X um conjunto e seja M uma σ-álgebra em X. Seja também Y um subconjunto genérico de


X. Podemos fazer de Y um espaço mensurável construindo com o auxı́lio de M uma σ-álgebra entre
os subconjuntos de Y . A construção á análoga àquela da topologia induzida.
Seja MY a seguinte coleção de subconjuntos de Y :

MY = {A ⊂ Y, A = Y ∩ M para algum M ∈ M}.

Vamos mostrar que MY é uma σ-álgebra em Y . Os fatos que ∅ ∈ MY e que Y ∈ MY podem ser
provados tal como no caso da topologia induzida. Queremos agora provar que se A ∈ M Y então seu
complemento em Y , Ac = Y \ A, também é um elemento de MY . Por hipótese A é da forma A = Y ∩ M
com M ∈ M e, portanto,
Ac = Y \ (Y ∩ M ) = Y ∩ (X \ M ).

Assim, como X \ M é um elemento de M, segue que Ac = Y \ A é um elemento de MY .


Finalmente
[ queremos provar que se {An , n ∈  } é uma famı́lia enumerável de elementos de MY
então An também o é.
n∈ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 830/1195

Pelas hipóteses cada An é da forma Y ∩ Mn com Mn ∈ M. Daı́


!
[ [ [
An = (Y ∩ Mn ) = Y ∩ Mn .
n∈  n∈  n∈ 

[
Como Mn é também um elemento de M, a afirmativa está provada.
n∈ 

A σ-álgebra MY á chamada de σ-álgebra induzida em Y pela σ-álgebra M.

15.2.4 Topologias e σ-álgebras Produto

• A Topologia Produto de Espaços Topológicos

Uma construção muito importante é a da chamada topologia produto de espaços topológicos. Muito
pode ser dito sobre essa topologia (para mais detalhes vide, por exemplo, [16]), mas vamos nos restringir
por ora somente à sua definição para o caso de produtos cartesianos finitos.
Seja {X1 , . . . , Xn } umaQcoleção finita de conjuntos e seja, para cada a ∈ In = {1, . . . , n}, τa uma
topologia em Xa . Seja X = na=1 Xa o produto cartesiano
Q de todos os Xa , a ∈ In e seja B a coleção de
todos os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto
em Xa segundo a topologia τa . Então a topologia gerada por B, τ [B] é chamada de topologia produto
dos espaços topológicos Xa , τa .

E. 15.36 Exercı́cio. Seja o espaço 2 = × e considere que cada fator


   é munido da topologia 

2
usual τ . Mostre que a topologia produto obtida em


é idêntica à topologia métrica usual de 2 definida


 

pela métrica usual p


d(x, y) = (y1 − x1 )2 + (y2 − x2 )2 ,
onde x = (x1 , x2 ) e y = (y1 , y2 ). 6

• A σ-Álgebra Produto

Há uma construção análoga para σ-álgebras. Seja Xa , a ∈ In umaQcoleção finita de conjuntos e
seja, para cada a ∈ In , Ma uma σ-álgebra em Xa . Seja como antes X = a∈In Xa o produto cartesiano
Q todos os Xa , a ∈ In . Definimos D a coleção de todos os subconjuntos de X que sejam da forma
de
a∈In Ma onde Ma ∈ Ma , ou seja, cada Ma é mensurável em Xa segundo a σ-álgebra Ma . Então a
σ-álgebra gerada por D, M[D] é chamada de σ-álgebra produto das σ-álgebras M a .

15.3 Interior e Fecho de Conjuntos em Espaços Topológicos


Seja X um espaço dotado de uma topologia τ . Podemos associar a cada subconjunto genérico B de X
três conjuntos importantes, o chamado fecho de B, o chamado interior de B e a chamada fronteira ou
bordo de B. Vamos discutir agora esses conceitos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 831/1195

• Fecho

Para B ⊂ X genérico, definamos a coleção


FB := {F ⊂ X, F é fechado e tal que F contem B: F ⊃ B}

A coleção FB é então a coleção de todos os conjuntos fechados (segundo a topologia τ ) que contem
o conjunto B. Sabemos que a intersecção arbitrária de conjuntos fechados é também um conjunto
fechado. Isso motiva a seguinte definição:
\
B := F.
F ∈FB

O conjunto B é chamado de fecho do conjunto B na topologia τ e é, pela própria definição, um conjunto
fechado.

E. 15.37 Exercı́cio. Pode-se dizer que o fecho de um conjunto B é o menor conjunto fechado que
contém B. Justifique isso em face da definição dada acima de B. 6

E. 15.38 Exercı́cio importante. Um conjunto B é fechado se e somente se B = B. Prove isso. 6

Conclui-se desse exercı́cio que em qualquer espaço topológico X tem-se ∅ = ∅ e X = X.

E. 15.39 Exercı́cio. Seja X = . A tabela abaixo mostra o fecho dos conjuntos (a, b), [a, b), [a, b] e


{a}, com −∞ < a < b < ∞, em várias topologias. Mostre cada um dos casos.
τI : (a, b) =  , [a, b) =  , [a, b] =  , {a} =  .

τcf ( ) : (a, b) =
  , [a, b) =  , [a, b] =  , {a} = {a}.

τcc ( ) : (a, b) =
  , [a, b) =  , [a, b] =  , {a} = {a}.

τ : (a, b) = [a, b],




[a, b) = [a, b], [a, b] = [a, b], {a} = {a}.

τ [S] : (a, b) = [a, b), [a, b) = [a, b), [a, b] = [a, b], {a} = {a}.

( ) : (a, b) = (a, b), [a, b) = [a, b), [a, b] = [a, b], {a} = {a}.


Acima, τI = {∅, } é a topologia indiscreta de , τcf ( ) é a topologia co-finita de


    , τcc ( ) é a topologia


co-contável de , τ é a topologia usual de , τ [S] é a topologia de Sorgenfrey de





  (página 820) e ( )

é a topologia discreta de .  6

Note no exercı́cio acima que as topologias escolhidas estão postas em ordem crescente de inclusão:
τI ⊂ τcf ( ) ⊂ τcc ( ) ⊂ τ ⊂ τ [S] ⊂ ( ).
 


O caso do conjunto (a, b) (e os outros) ilustra claramente um fato importante, a saber, que quanto
maior a topologia menor é o fecho de um dado conjunto.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 832/1195

τ
E. 15.40 Exercı́cio muito importante. Seja B o fecho de um conjunto qualquer B, segundo uma
τ0 τ
topologia τ . Seja τ 0 uma outra topologia tal que τ ⊂ τ 0 . Mostre que B ⊂ B . 6

• Interior

Para B ⊂ X genérico, definamos a coleção

AB := {A ⊂ X, A é aberto e tal que A está contido em B: A ⊂ B}

A coleção AB é então a coleção de todos os conjuntos abertos (segundo a topologia τ ) contidos no


conjunto B. Sabemos que a união arbitrária de conjuntos abertos é também um conjunto aberto. Isso
motiva a seguinte definição: [
B 0 := A.
A∈AB

O conjunto B 0 é chamado de interior do conjunto B na topologia τ e é, pela própria definição, um


conjunto aberto.

E. 15.41 Exercı́cio. Pode-se dizer que o interior de um conjunto B é o maior conjunto aberto contido
em B. Justifique isso em face da definição dada acima de B 0 . 6

E. 15.42 Exercı́cio. Um conjunto B é aberto se e somente se B = B 0 . Prove isso. 6

E. 15.43 Exercı́cio. Seja X = . A tabela abaixo mostra o interior dos conjuntos (a, b), [a, b), [a, b]


e {a}, com −∞ < a < b < ∞, em várias topologias. Mostre cada um dos casos.

τI : (a, b)0 = ∅, [a, b)0 = ∅, [a, b]0 = ∅, {a}0 = ∅.

τcf ( ) : (a, b)0 = ∅,


 [a, b)0 = ∅, [a, b]0 = ∅, {a}0 = ∅.

τcc ( ) : (a, b)0 = ∅,


 [a, b)0 = ∅, [a, b]0 = ∅, {a}0 = ∅.

τ : (a, b)0 = (a, b), [a, b)0 = (a, b), [a, b]0 = (a, b), {a}0 = ∅.


τ [S] : (a, b)0 = (a, b), [a, b)0 = [a, b), [a, b]0 = [a, b), {a}0 = ∅.

( ) : (a, b)0 = (a, b), [a, b)0 = [a, b), [a, b]0 = [a, b],
 {a}0 = {a}.
6

O caso do conjunto [a, b] ilustra claramente um fato importante, a saber, que quanto maior a
topologia maior é o interior de um dado conjunto.

E. 15.44 Exercı́cio. Seja (B 0 )τ o interior de um conjunto qualquer B, segundo uma topologia τ . Seja
0
τ 0 uma outra topologia tal que τ ⊂ τ 0 . Mostre que (B 0 )τ ⊂ (B 0 )τ . 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 833/1195

Por fim, note que para qualquer conjunto B ⊂ X vale sempre, em qualquer topologia τ , que

B 0 ⊂ B ⊂ B.

• Fronteira ou Bordo

Para B ⊂ X genérico, definamos a sua fronteira ou bordo (na topologia τ ) como sendo o conjunto

∂B := B \ B 0 = B ∩ (B 0 )c .

Dessa definição é claro que ∂B é sempre um conjunto fechado (por que?).

E. 15.45 Exercı́cio. Seja X = . A tabela abaixo mostra o bordo dos conjuntos (a, b), [a, b) [a, b]


{a}, com −∞ < a < b < ∞, em várias topologias. Mostre cada um dos casos.

τI : ∂(a, b) =  , ∂[a, b) =  , ∂[a, b] =  , ∂{a} =  .

τcf ( ) : ∂(a, b) =
  , ∂[a, b) =  , ∂[a, b] =  , ∂{a} = {a}.

τcc ( ) : ∂(a, b) =
  , ∂[a, b) =  , ∂[a, b] =  , ∂{a} = {a}.

τ : ∂(a, b) = {a, b}, ∂[a, b) = {a, b}, ∂[a, b] = {a, b}, ∂{a} = {a}.


τ [S] : ∂(a, b) = {a}, ∂[a, b) = ∅, ∂[a, b] = {b}, ∂{a} = {a}.

( ) : ∂(a, b) = ∅,
 ∂[a, b) = ∅, ∂[a, b] = ∅, ∂{a} = ∅.
6

E. 15.46 Exercı́cio. Seja ∂ τ B o fecho de um conjunto qualquer B, segundo uma topologia τ . Seja τ 0
0
uma outra topologia tal que τ ⊂ τ 0 . Mostre que ∂ τ B ⊂ ∂ τ B. 6

Note que a afirmativa do último exercı́cio é confirmada pela tabela do penúltimo.

• Outra Caracterização do Fecho de um Conjunto

O conceito de fecho de um conjunto é de grande importância. Uma das razões, como veremos,
é que no caso de espaços métricos o fecho de um conjunto B caracteriza o conjunto de todos os
limites de seqüências de elementos de B. Em particular um conjunto só é fechado em um espaço
métrico se contiver todos os limites de seqüências de seus elementos. Muitos resultados importantes
em Matemática decorrem dessa observação.
Vamos nos preparar para apresentar esse fato, assim como outros em espaços topológicos gerais.
Seja X um conjunto e τ uma topologia em X (não necessariamente métrica). Seja também B um
subconjunto qualquer não-vazio de X.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 834/1195

Proposição 15.5 Seja B ⊂ X, sendo X dotado de uma topologia τ . Um ponto x ∈ X é um elemento


de B se e somente se a seguinte propriedade for válida: todo aberto A x que contem o ponto x tem uma
intersecção não-vazia com B, ou seja,

B = {x ∈ X| Ax ∩ B 6= ∅, ∀Ax ∈ τ com x ∈ Ax }.

Prova. Suponha que x ∈ B e que haja aberto Ax que contem x e tal que Ax ∩ B = ∅. Isso implica que
B ∩ Acx ⊃ B, pois
B ∩ Acx ⊃ B ∩ Acx = B.
Assim, B ∩ Acx é um conjunto fechado que contém B e, portanto, B ⊂ B ∩ Acx , dado que o fecho de B
é o menor fechado que contem B. Isso, por sua vez, diz que B ⊂ Acx , o que significa que B ∩ Ax = ∅.
Mas isso contradiz as hipóteses de partida que diziam que x ∈ B e x ∈ Ax . Portanto, se x ∈ B então
Ax ∩ B 6= ∅ para todo aberto Ax que contem x.
Suponhamos agora que para um ponto x ∈ X valha que Ax ∩B 6= ∅ para todo aberto Ax que contem
c
x. Se supormos que x 6∈ B então x ∈ B , que é um aberto. Assim, deverı́amos ter, pelas hipóteses que
c
B ∩ B 6= ∅. Como B ⊃ B isso é impossı́vel. Assim, supor que Ax ∩ B 6= ∅ para todo aberto Ax que
contem x implica que x ∈ B. Isso completa a demonstração da proposição.

15.3.1 Fecho de Conjuntos em Espaços Métricos

• Fecho de Conjuntos em Espaços Métricos

Seja X um espaço métrico com métrica d e τd a topologia induzida em X por essa métrica. Seja
B ⊂ X. Vamos apresentar agora uma caracterização importante do fecho de B, que anunciamos acima.
Uma seqüência {xn , n ∈ } de elementos de X é dita convergir na métrica d a um elemento x ∈ X


se para todo  > 0 existir N () ∈ tal que xn ∈ Bd (x, ) para todo n > N ().


Se uma seqüência converge a um ponto x, este é dito ser um limite da seqüência.


Mais sobre o conceito de convergência de seqüências em espaços métricos será visto na seção sobre
continuidade e convergência em espaços topológicos.
Temos então a seguinte proposição:
Proposição 15.6 Um ponto x ∈ X pertence ao fecho na topologia τd de um subconjunto B de X se e
somente se existir uma seqüência de elementos de B que converge a x na métrica d. 2

Prova. Suponha que x seja um limite de uma seqüência xn de elementos de B. Seja Ax um aberto que
contem x. Como Ax é um aberto de um espaço métrico, existe uma bola aberta centrada em x com
um raio positivo suficientemente pequeno, que chamaremos de , tal que Bd (x, ) ⊂ Ax . Daı́, como a
seqüência converge a x, vale que B 3 xn ∈ Bd (x, ), desde que n seja grande o suficiente. Mas isso diz
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 15 835/1195

que, para tais xn ’s tem-se xn ∈ Ax também. Logo Ax ∩ B 6= ∅, pois pelo menos esses xn ’s pertencem
aos dois conjuntos. Note que isso vale para qualquer aberto Ax que contem x. Daı́, pelo que vimos na
Proposição 15.5, concluı́mos que x ∈ B.
Assim, vimos que se uma seqüência de elementos de B converge a um ponto x em um espaço
métrico, então esse ponto x é um elemento do fecho de B. Vamos agora provar a recı́proca.
Vamos agora supor que x ∈ B e vamos provar que existe uma seqüência de elementos de B que
converge a x.
Como x ∈ B vale que Bd (x, 1/n) ∩ B 6= ∅ para todo n ∈ , n > 0. Daı́, podemos escolher, para


cada n ∈ , n > 0, um elemento xn do conjunto Bd (x, 1/n) ∩ B. Com isso formamos uma seqüência


{xn } de elementos de B que converge a x, completando a prova.

• Conjuntos Fechados em Espaços Métricos e Completeza

Seja M um espaço métrico em relação a uma métrica d. Qualquer subconjunto não-vazio de M é


também um espaço métrico com métrica d (por que?). Porém, se M é completo em relação a d e se
F ⊂ M é um conjunto fechado, então F é também um espaço métrico completo em relação a d.
Provar isso é bem simples. Se fn ⊂ F é uma seqüência de Cauchy em relação a d em F então fn é
também uma seqüência de Cauchy em relação a d em X. Como X é completo existe f ∈ X ao qual a
seqüência converge. Mas, devemos ter, pelo que vimos, f ∈ F = F . Assim, toda seqüência de Cauchy
em relação a d em F converge a um elemento de F . Isso prova completeza de F .
A recı́proca é também verdadeira. Seja M completo em relação a d e seja B ⊂ X também completo
em relação a d. Então B é fechado. Para ver isso note que toda seqüência de elementos de B que
converge em X é uma seqüência de Cauchy em X e, portanto, é também uma seqüência de Cauchy
em B. Logo, uma tal seqüência converge a um elemento de B, pois B é completo. Mas isso equivale a
dizer que B ⊃ B, o que implica B = B.
Provamos então o seguinte:
Proposição 15.7 Se X é um espaço métrico completo em relação a uma métrica d, então F ⊂ X é
fechado na topologia induzida por essa métrica se e somente se F for igualmente completo em relação
à métrica d. 2
Capı́tulo 16
Medidas
Conteúdo

16.1 O Problema da Teoria da Medida . . . . . . . . . . . . . . . . . . . . . . . 836


16.2 Medidas de Conjuntos. Definição, Exemplos e Propriedades Básicas . . 839
16.3 Construindo Medidas. A Medida Exterior e o Teorema de Caratheodory 843

presente capı́tulo visa apresentar ao estudante a noção de medida de conjuntos, algumas


de suas propriedades básicas e exemplos elementares e, por fim, discutir uma construção
importante de medidas devida a Caratheodory1 . O caso importante da chamada medida
de Lebesgue2 é discutido com essa base no Capı́tulo 17. Começaremos com uma discussão
parcialmente informal sobre os problemas básicos por trás da noção intuitiva de medida de conjuntos.

16.1 O Problema da Teoria da Medida


Em uma primeira instância, o objetivo da área da Análise conhecida como Teoria da Medida é dar
fundamento às idéias intuitivas de comprimento, área, volume etc. de sub-conjuntos de n . Grandezas


como comprimento, área, volume etc. de subconjuntos de n são referidas genericamente como medidas


de tais conjuntos e à Teoria da Medida cabe não só apresentar definições precisas de tais conceitos mas
também cabe determinar que classes de conjuntos são mensuráveis, ou seja, a quais conjuntos tais
conceitos são aplicáveis.
Talvez surpreenda ouvir pela primeira vez que tais conceitos não possam ser aplicados a qualquer
conjunto e que os mesmos, se usados sem o devido cuidado, possam envolver situações paradoxais.
Entretanto, como mostra o exemplo do conjunto de Vitali, tratado na próxima seção, existem, já no
simples caso da reta real, conjuntos para os quais o conceito de comprimento não pode ser definido. A
dificuldade que temos de sequer imaginar como devem ser tais conjuntos reside, talvez, no fato que os
mesmos serem de construção incomum (a construção, como veremos, faz uso explı́cito do Axioma da
Escolha).
A Teoria da Medida não se restringe, porém, a tratar de conceitos geométricos como comprimento,
área etc., sendo que o conceito formal de medida de um conjunto extrapola em muito esse campo de
aplicações, como veremos. Fora isso, a Teoria da Medida não se limita apenas ao estudo do conceito
de medida e de conjuntos mensuráveis, mas tem como seu mais importante objetivo formalização da
teoria da integração. Que os conceitos de medida e de integral são conectados diz-nos já a velha noção
de integral como “área sob o gráfico” de uma função. De fato, a teoria da medida fornece material
poderoso para um tratamento mais profundo do conceito de integral e de suas extensões.
1
Constantin Caratheodory (1873-1950).
2
Henri Léon Lebesgue (1875-1941).

836
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 837/1195

Todos esses conceitos serão tratados de modo cuidadoso adiante, mas achamos por bem começar
mostrando ao estudante a origem de toda a problemática: a existência de conjuntos não mensuráveis.

• O Exemplo de Vitali

Considere-se o conjunto dos números reais e seus subconjuntos. Temos uma noção intuitiva clara


do que seja o comprimento de intervalos da reta real como (a, b) ou [a, b] ou [a, b) ou (a, b]. Em
todos esses casos o comprimento é o número positivo (ou nulo) b − a. Para um intervalo I como os de
acima, denotemos por m(I) o seu comprimento. Assim, por exemplo, m([a, b]) = b − a, para todo a e
b com b ≥ a.
Se um conjunto A ⊂ for formado pela união disjunta de dois intervalos I e J como os de acima,


é também intuitivo que o comprimento de A seja dado por m(A) = m(I) + m(J), ou seja, pela soma
dos comprimentos dos intervalos disjuntos que formam A. Se A for formado por uma união disjunta
contável de intervalos Ia , a ∈ , então, igualmente, é natural dizer que o comprimento total de A é


dado por
X∞
m(A) = m(Ia ).
a=1

Note-se que não excluı́mos a possibilidade de A ser um conjunto com comprimento infinito, como é
o caso da semi-reta [0, ∞), que, aliás pode ser escrita como a união contável disjunta de intervalos de
comprimento 1 do tipo [n, n + 1) com n ∈ . Conjuntos com comprimento zero, como conjuntos com


um só elemento {x} também podem existir.


Dessas noções extraı́mos o seguinte princı́pio: se um conjunto A puder ser escrito como uma união
disjunta contável de outros conjuntos Ba , a ∈ , que possuem um comprimento bem definido (finito


ou não), então o comprimento de A deve ser dado pela soma dos comprimentos de cada B a , seja essa
soma finita ou não: !
[ X
m Ba = m(Ba ) .
a∈  a∈ 

Outra propriedade razoável que devemos supor do conceito de comprimento de um conjunto é que
se A e B são conjuntos e A ⊂ B então m(A) ≤ m(B). Note que podemos ter a igualdade mesmo que A
seja um subconjunto próprio de B. Esse é, por exemplo, o caso dos conjuntos A = (1, 3) e B = [1, 3]
onde tanto A quanto B têm o mesmo comprimento, a saber 2.
Por fim, uma última condição razoável que o comprimento de subconjuntos da reta deve satisfazer
é o de invariância por translações. Seja E ⊂ . Denotaremos por Ex , ou por E + x, o conjunto E


transladado por um número x ∈ , ou seja:




Ex = {y ∈  , com y = a + x para algum a ∈ E}.

Então, o que dizemos é que é razoável supor que m(Ex ) = m(E) para qualquer x ∈  .
O que vamos agora fazer é mostrar que existem subconjuntos da reta real para os quais não há a
menor possibilidade de definir um comprimento m que satisfaça os requerimentos razoáveis delineados
acima.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 838/1195

O exemplo que construiremos é conhecido como exemplo de Vitali3 . Vamos supor que a todo
subconjunto E da reta real possamos associar um comprimento m(E) com as condições mencionadas
acima. Seja então o intervalo I = [0, 1]. Vamos construir em I uma relação de equivalência da seguinte
forma. Dois pontos x e y, ambos elementos de I, são ditos ser equivalentes, x ∼ y, se e somente se
x − y for um número racional.

E. 16.1 Exercı́cio. Prove que isso define de fato uma relação de equivalência. 6

O fato de termos assim criado uma relação de equivalência em I significa que I pode ser escrito
como uma união disjunta das classes de equivalência por essa relação. Usando o Axioma da Escolha
podemos construir um conjunto, que chamaremos de V , tomando um e somente um elemento arbitrário
de cada classe de equivalência de I. Obviamente temos V ⊂ I.
Seja agora Vr o conjunto obtido transladando-se o conjunto V por um número r ∈ . Vamos
mostrar que Vr ∩ Vs = ∅ se r 6= s com r, s ∈ , ou seja, que Vr e Vs são disjuntos se r e s forem
elementos distintos de . Para ver isso suponhamos o contrário, ou seja, que exista um elemento
u ∈ Vr ∩ Vs . Como u ∈ Vr então u = v + r, para algum elemento v ∈ V . Por outro lado, como u ∈ Vs
então u = v 0 + s, para algum elemento v 0 ∈ V . Portanto v + r = v 0 + s e v − v 0 = s − r. Como s − r
é um racional então v ∼ v 0 . Mas isso só é possı́vel se v = v 0 pois, ao construirmos V , tomamos um e
somente um elemento de cada classe de equivalência de I, o que significa dizer que elementos distintos
de V não podem ser equivalentes. Por outro lado, se v = v 0 a relação v − v 0 = s − r diz que s = r, o
que contraria as hipóteses. Logo Vr ∩ Vs = ∅ se r, s ∈ com r 6= s.
Vamos denotar por 1 o conjunto de todos os números racionais contidos no intervalo [−1, 1]:
1 = ∩ [−1, 1]. Afirmamos que as seguintes relações de inclusão são válidas:
[
[0, 1] ⊂ Vr ⊂ [−1, 2].
r∈ 1

[
Vamos provar isso. A relação Vr ⊂ [−1, 2] é óbvia pois V é um subconjunto do intervalo
r∈ 1
[0, 1] e, ao transladarmos V por um número r do conjunto 1 podemos no máximo cair dentro de
[−1, 2].
[
A relação [0, 1] ⊂ Vr pode ser vista da seguinte forma. Se x ∈ [0, 1] então x pertence a
r∈ 1
uma classe de equivalência V. Seja v o elemento de V que foi escolhido para comparecer em V como
o representante de V. Como x e v são membros da mesma classe de equivalência, então x − v é um
racional s. Como x e v são elementos de [0, 1], então sua diferença deve ser um elemento de [−1, 1].
[ que s ∈ 1 . Logo, x ∈ Vs com s ∈ 1 . Como isso vale para todo x ∈ [0, 1], segue que
Assim, vemos
[0, 1] ⊂ Vr como querı́amos mostrar.
r∈ 1

Que conseqüências isso tudo tem? Pela hipótese que se A ⊂ B então m(A) ≤ m(B), segue que
!
[
m([0, 1]) ≤ m Vr ≤ m([−1, 2]),
r∈ 1

3
Giuseppe Vitali (1875-1932).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 839/1195

ou seja, !
[
1 ≤ m Vr ≤ 3,
r∈ 1

[
Pelo que vimos acima a união Vr é uma união disjunta e contável (pois os racionais são
r∈ 1
contáveis). Logo, pelas nossas hipóteses sobre m, temos que
!
[ X
m Vr = m(Vr ).
r∈ 1 r∈ 1

A desigualdade acima fica então X


1 ≤ m(Vr ) ≤ 3.
r∈ 1

Por fim, pela hipótese que m é invariante por translações, segue que m(Vr ) = m(V ) e, portanto,
X
1 ≤ m(V ) ≤ 3.
r∈ 1

Agora, essa relação é absurda pois não pode ser nunca satisfeita para m(V ) ≥ 0. Se m(V ) = 0 a
primeira desigualdade é violada e se m(V ) > 0 (ou infinito) a segunda o é pois a soma é infinita.
O que está errado? O erro está em supor que se possa atribuir ao conjunto V um comprimento
m(V ). O conjunto V , que é chamado conjunto de Vitali, é um exemplo de um conjunto não-mensurável.
A ele não é possı́vel atribuir um comprimento, nem nulo, nem finito, nem infinito.
Para finalizar essa discussão fazemos notar que fizemos uso de modo crucial do Axioma da Escolha
na construção do conjunto V acima. Em outros esquemas axiomáticos sobre a teoria dos conjuntos
subjacente à Matemática o Axioma da Escolha pode ser substituı́do por um outro axioma que impeça
a construção de conjuntos como V .

16.2 Medidas de Conjuntos. Definição, Exemplos e Proprie-


dades Básicas

• A Definição de Medida

Uma vez visto que problemas com a mensurabilidade de conjuntos podem existir, vemo-nos forçados
a tratar o problema reunindo instrumentos mais sólidos para sua abordagem.
Seja X um conjunto e M uma σ-álgebra em X. Vamos definir o conceito formal de medida. Uma
medida em M é uma função µ que associa a cada elemento da σ-álgebra M um número real ≥ 0 ou
infinito, ou seja, µ : M → + ∪ {∞} e de tal forma que as seguintes condições sejam satisfeitas:


1. µ(∅) = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 840/1195

2. Se Ai , i ∈  , é uma coleção contável e disjunta de elementos de M então


!
[ X
µ An = µ(An ). (16.1)
n∈  n∈ 

A propriedade 2 é por vezes denominada aditividade contável, ou ainda σ-aditividade.


Uma palavra tem que ser dita aqui sobre o significado dessa definição. Conforme vimos, há conjuntos
em aos quais não podemos atribuir uma noção razoável de comprimento. O problema consiste então


em identificar classes de conjuntos para os quais esta definição pode fazer sentido sem que venhamos
a cair em paradoxos como os envolvendo o conjunto de Vitali. A experiência mostrou que σ-álgebras
são justamente o ambiente ideal para desenvolver a noção de medida de conjuntos, sem que se recaia
em dificuldades sérias. Daı́ restringirmos a definição de medida à σ-álgebras. A propriedade (16.1) é
de importância crucial para o desenvolvimento da teoria de medida (e como tal, um achado histórico)
e é chamada de propriedade de σ-aditividade.

• Exemplos

Vamos a alguns exemplos básicos de medidas.

1. A Medida de Contagem. Seja X um conjunto não-vazio e M = (X). Para E ∈ M definimos



 o número de elementos de E, caso E seja um conjunto finito,
µc (E) :=

∞, caso E não seja um conjunto finito.

Então, µc define uma medida em M (verifique!), a qual “conta” o número de elementos de cada
conjunto E, daı́ sua designação.

2. A Medida de Dirac4 em x0 . Seja X um conjunto não-vazio, seja M = (X) e seja x0 um elemento


de X. Para E ∈ M definimos

 1, caso x0 ∈ E,
δx0 (E) := (16.2)

0, caso x0 6∈ E.

Então, δx0 é uma medida (verifique!) que diz se o ponto x0 fixado é um elemento de E ou não.

3. A Medida de Dirac Sobre Um Conjunto Contável C. Seja X um conjunto não-vazio, seja M =


(X) e seja C um subconjunto contável de X. Para E ∈ M definimos

 o número de elementos de E ∩ C, caso E ∩ C seja um conjunto finito,
δC (E) :=

∞, caso E ∩ C não seja um conjunto finito.

Então, δC é uma medida (verifique!) que generaliza a medida δx0 acima.


4
Paul Adrien Maurice Dirac (1902-1984).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 841/1195

4. Sejam α, β ≥ 0 e seja X um conjunto não-vazio que possua um sub-conjunto próprio não-vazio A


(para isso basta que X tenha mais de um elemento). Considere a σ-álgebra M = {∅, A, Ac , X}.
Se definirmos µ(∅) = 0, µ(A) = α, µ(Ac ) = β e µ(X) = α + β, então µ será uma medida em M.
Mostre isso!

Por estes exemplos vemos que a noção de medida extrapola a noção geométrica de comprimento,
área, volume etc. de um conjunto, conceitos esses que, ademais, só se aplicam a certos sub-conjuntos de
n
 . Outros exemplos mais elaborados de medidas serão vistas adiante, em especial aqueles referentes
justamente às noções geométricas de comprimento, área etc. de subconjuntos de n . Tais medidas são


conhecidas como medidas de Lebesgue e serão discutidas adiante.

E. 16.2 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que  
M = ∅, {γ}, {α, β}, {α, β, γ}

é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M → 

+, definida por

µ(∅) = 0, µ({γ}) = 1, µ({α, β}) = 0, µ({α, β, γ}) = 1

é uma medida em M. 6

E. 16.3 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que  
M = ∅, {γ}, {α, β}, {α, β, γ}

é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M → 

+, definida por

µ(∅) = 0, µ({γ}) = 2, µ({α, β}) = 1, µ({α, β, γ}) = 3

é uma medida em M. 6

E. 16.4 Exercı́cio. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do alfabeto
grego). Mostre que
 
M = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ}

é uma σ-álgebra em X = {α, β, γ}. Mostre que µ : M → 

+ definida por

µ(∅) = 0, µ({α}) = 0, µ({β}) = 0, µ({γ}) = 1,

µ({α, β}) = 0, µ({α, γ}) = 1, µ({β, γ}) = 1, µ({α, β, γ}) = 1

é uma medida em M. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 842/1195

• Propriedades Básicas de Medidas

Vamos agora extrair algumas conseqüências básicas da definição de medida [105]. Abaixo, seja X
um conjunto não-vazio, M uma σ-álgebra em X e µ uma medida em M.

1. Se A1 , . . . , An é uma coleção finita de elementos disjuntos de M então µ(A1 ∪ · · · ∪ An ) = µ(A1 ) +


· · · + µ(An ).
[
Prova. Defina-se Am = ∅ para m > n. Então, A1 ∪ · · · ∪ An = Aj e, portanto,
j∈ 

!
[ X
µ(A1 ∪ · · · ∪ An ) = µ Aj = µ(Aj ) = µ(A1 ) + · · · + µ(An ),
j∈  j∈ 

pois µ(∅) = 0.

2. Se A e B são elementos de M e A ⊂ B então µ(A) ≤ µ(B).


Prova. Como A ⊂ B, segue que B = A ∪ (Ac ∩ B), uma união disjunta de elementos de M (por
que?). Logo, pelo item anterior segue que µ(B) = µ(A) + µ(Ac ∩ B). Como µ(Ac ∩ B) ≥ 0, segue
que µ(B) ≥ µ(A).

3. Se Aj , j ∈  , são elementos de M com Aj ⊂ Aj+1 para todo j ∈  , então lim µ(An ) = µ(A),
[ n→∞
onde A = An .
n∈ 

Prova. Defina-se B1 = A1 e Ba = Aa \ Aa−1 para a ≥ 2. Então, pelas hipóteses,

An = B 1 ∪ · · · ∪ B n

e [
A = Ba ,
a∈N

onde, em ambos os casos, as uniões são disjuntas. Assim,

µ(An ) = µ(B1 ) + · · · + µ(Bn )

e X
µ(A) = µ(Ba ).
a∈ 

Portanto, µ(A) = lim µ(An ), como querı́amos provar.


n∈ 

4. Se Aj , j ∈ , são elementos de\M com Aj+1 ⊂ Aj para todo j ∈


  , e se µ(A1 ) for finito, então
lim µ(An ) = µ(A), onde A = An .
n→∞
n∈ 

Prova. Seja Ca = A1 \ Aa . Então, pelas hipóteses, Cj ⊂ Cj+1 . Como vimos no item anterior, isso
diz que
lim µ(Cn ) = µ(C),
n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 843/1195

[
onde C = Ca = A1 \ A. Temos agora que A1 = An ∪ Cn e A1 = A ∪ C, duas uniões disjuntas.
a∈ 

Portanto µ(An ) + µ(Cn ) = µ(A) + µ(C). Assim, lim µ(An ) + lim µ(Cn ) = µ(A) + µ(C) e,
n→∞ n→∞
então,
lim µ(An ) + µ(C) = µ(A) + µ(C).
n→∞

Como µ(A1 ) é finito, então µ(C) e µ(A) também são finitos (pois são subconjuntos de A1 ). Logo,
podemos cancelar µ(C) da última igualdade e obtemos o desejado.

Os dois primeiros itens acima são resultados desejados pela noção intuitiva de medida. O penúltimo
diz que a medida de um conjunto A pode ser aproximada “por dentro” pelas medidas de conjuntos
mensuráveis que convergem a A e o último item diz que se um conjunto A tem medida finita e se
há conjuntos An também com medida finita que contém A e convergem a A então também podemos
aproximar a medida de A pela dos aproximantes externos An .

16.3 Construindo Medidas. A Medida Exterior e o Teorema


de Caratheodory
Há muitos processos que permitem construir medidas com certas propriedades desejadas. Vamos aqui
delinear um processo que será particularmente importante para a construção da chamada medida de
Lebesgue da reta real.
A construção a que nos referimos exige que introduzamos mais um conceito. O de medida exterior.
Uma medida exterior µ em um conjunto não-vazio X é uma função que associa a cada subconjunto
de X um número real maior ou igual a zero ou infinito e de tal forma que:

1. µ(∅) = 0.

2. Se A ⊂ B então µ(A) ≤ µ(B).

3. Para qualquer coleção contável Aj , j ∈ , de subconjuntos de X tem-se que




!
[ X
µ Aj ≤ µ(Aj ).
j∈  j∈ 

Notas.

Um exemplo elementar de medida exterior, e que ilustrará o Teorema de Caratheodory, abaixo,


é encontrado no Exercı́cio E. 16.6 da página 849.

Enfatizamos que medidas exteriores são definidas sobre a totalidade dos subconjuntos de X ao
contrário de medidas, que são definidas apenas sobre σ-álgebras em X (e que podem ser menores
que (X)).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 844/1195

Uma outra distinção relevante entre medidas exteriores e medidas é a seguinte. Seja A um
conjunto e sejam A1 e A2 dois subconjuntos disjuntos próprios do conjunto A tais que A = A1 ∪A2 .
Então, há casos em que µ(A) 6= µ(A1 ) + µ(A2 ). Esse fato é contrario à intuição por trás da noção
de medida de um conjunto. Para uma medida µ isso nunca pode ocorrer se A, A1 e A2 forem
elementos da σ-álgebra dos conjuntos mensuráveis por µ, pela própria definição de medida dada
acima.

Se A1 e A2 são dois subconjuntos de X sempre temos que µ(A1 ∪ A2 ) ≤ µ(A1 ) + µ(A2 ). Isso é
[ pela definição de medida exterior pois, tomando-se Aj = ∅ para j > 2 temos que
fácil de se ver
A1 ∪ A 2 = Aj .
j∈ 

Vamos agora mostrar o seguinte resultado fundamental e que é a verdadeira razão de ser do conceito
de medida exterior.
Teorema 16.1 (Teorema de Caratheodory) 5 Seja Mµ a coleção de todos os subconjuntos A de
X que tenham a seguinte propriedade: Para todo E ⊂ X vale que

µ(E) = µ(E ∩ A) + µ(E ∩ Ac ),

onde Ac = X \ A. Então, Mµ é uma σ-álgebra. Fora isso, µ é uma medida em Mµ . 2

Antes de provarmos esse teorema, façamos algumas observações sobre o mesmo. Apesar de o
teorema acima não ser, admitidamente, muito intuitivo, o mesmo fornece um método importante de
construção de medidas. A razão é que, como veremos no caso da construção da medida de Lebesgue,
é em muitos casos mais fácil construir-se primeiro uma medida exterior sobre um conjunto X que
uma medida, o que exigiria a identificação prévia de uma σ-álgebra conveniente. O teorema acima já
permite exibir uma tal σ-álgebra, no caso Mµ , para a qual µ é uma medida. Historicamente o teorema
acima representou também uma simplificação importante, especialmente na construção da medida de
Lebesgue, dado que a mesma era originalmente alcançada por vias mais trabalhosas (identificando-se
a medida exterior com o que se chama de medida interior, da qual não trataremos aqui).
Um exemplo elementar que ilustra o Teorema de Caratheodory é encontrado no Exercı́cio E. 16.6
da página 849. O estudante poderá estudá-lo antes de mergulhar na demonstração do teorema.
A prova do do Teorema de Caratheodory é um pouco longa e precisamos de um resultado prepa-
ratório.
Lema 16.1 Sejam A e B dois elementos de Mµ . Então, A ∪ B é também um elemento de Mµ . 2

Prova. Tudo o que queremos provar é que

µ(E) = µ(E ∩ (A ∪ B)) + µ(E ∩ (A ∪ B)c )

para um subconjunto E ⊂ X genérico.


5
Em sua forma original esse teorema é devido ao matemático Constantin Caratheodory (1873-1950) e por isso vamos
denominá-lo dessa forma, ainda que tal nomenclatura não seja comum.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 845/1195

Seja E 0 o conjunto E 0 = (A ∪ B) ∩ E. Então, como A ∈ Mµ , segue que

µ(E 0 ) = µ(E 0 ∩ A) + µ(E 0 ∩ Ac ),

ou seja,
µ((A ∪ B) ∩ E) = µ((A ∪ B) ∩ E ∩ A) + µ((A ∪ B) ∩ E ∩ Ac ).
É fácil de se ver agora (faça!) que

(A ∪ B) ∩ E ∩ A = A ∩ E

e que
(A ∪ B) ∩ E ∩ Ac = Ac ∩ E ∩ B.
Assim,
µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(Ac ∩ E ∩ B).
Vamos fazer uso dessa última igualdade logo abaixo.
Notemos agora que, como A e B são elementos de Mµ , temos que

µ(E) = µ(A ∩ E) + µ(Ac ∩ E)

= µ(A ∩ E) + µ(Ac ∩ E ∩ B) + µ(Ac ∩ E ∩ B c ).

Acabamos de ver que a soma dos dois primeiros termos da última igualdade vale µ((A ∪ B) ∩ E) e
para o último termo vale µ(Ac ∩ B c ∩ E) = µ((A ∪ B)c ∩ E), pois Ac ∩ B c = (A ∪ B)c . Assim, provamos
que
µ(E) = µ(E ∩ (A ∪ B)) = µ(E ∩ (A ∪ B)c ),
que é o que querı́amos provar.

Note que o resultado acima também diz que se A1 , . . . , An são elementos de Mµ então o conjunto
A1 ∪ · · · ∪ An também é elemento de Mµ para qualquer n finito.
Passemos agora à prova do Teorema de Caratheodory.

• Prova do Teorema de Caratheodory

Parte I. Vamos nesta parte I provar que o conjunto Mµ é de fato uma σ-álgebra.
Em primeiro lugar, note-se que se A ∈ Mµ então Ac também é um elemento de Mµ pois (Ac )c = A
e portanto, para todo E ⊂ X,

µ(E ∩ (Ac )) + µ(E ∩ (Ac )c ) = µ(E ∩ (Ac )) + µ(E ∩ A) = µ(E),

por hipótese. Assim, podemos também ver que tanto ∅ quanto X são elementos de Mµ pois, claramente,
para qualquer E ⊂ X
µ(E) = µ(E ∩ ∅) + µ(E ∩ (∅)c )
dado que ∅c = X, que E ∩ X = E, que E ∩ ∅ = ∅ e que µ(∅) = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 846/1195

Vimos no Lema 16.1 que se A e B são elementos de Mµ então A ∪ B também o é. Como A ∩ B =
(Ac ∪ B c )c então concluı́mos que A ∩ B também é elemento de Mµ , o mesmo valendo para A \ B pois
A \ B = A ∩ B c.
[
Resta-nos provar que se {Aj , j ∈ } é uma coleção contável de elementos de Mµ então A =
 Aj
j∈ 

também o é.
Seja E um subconjunto genérico de X. Claramente temos que E = (E ∩ A) ∪ (E ∩ Ac ), o que,
pelo que observamos acima, significa que µ(E) ≤ µ(E ∩ A) + µ(E ∩ Ac ). Tudo o que precisamos
fazer, então, é provar que µ(E) ≥ µ(E ∩ A) + µ(E ∩ Ac ) o que significaria então que A ∈ Mµ , como
queremos provar.
Para provar esta desigualdade, observemos primeiro que, para qualquer conjunto E 0 e qualquer
elemento A de Mµ vale, por definição, µ(E 0 ) = µ(E 0 ∩ A) + µ(E 0 ∩ Ac ). Daı́, tomando-se E 0 da forma
E 0 = (A ∪ B) ∩ E, com E ⊂ X e A, B ∈ Mµ com A ∩ B = ∅, temos

µ((A ∪ B) ∩ E) = µ(A ∩ E) + µ(B ∩ E),

pois, como A ∩ B = ∅, tem-se que (A ∪ B) ∩ E ∩ A = A ∩ E e (A ∪ B) ∩ E ∩ Ac = B ∩ E.

E. 16.5 Exercı́cio. Verifique estas últimas afirmativas. 6

Isso significa, em particular que, se B1 , . . . , Bn são elementos disjuntos de Mµ , então

µ(E ∩ (B1 ∪ · · · ∪ Bn )) = µ(E ∩ B1 ) + · · · + µ(E ∩ Bn ).

Vamos definir B1 = A1 , Bn = An \ (A1 ∪ · · · ∪ An−1 ) para n ≥ 2. Então, pelo que já observamos,
cada Bj é elemento de Mµ e Bi ∩ Bj = ∅ se i 6= j. Fora isso,
[ [
Bi = Ai .
i∈  i∈ 

n
[
Como cada Bi é elemento de Mµ , então já vimos que para cada n finito Bi ∈ Mµ , ou seja,
i=1

n
!! n
!c !
[ [
µ(E) = µ E ∩ Bi +µ E∩ Bi
i=1 i=1

para todo E ⊂ X. Agora !!


n
[ n
X
µ E∩ Bi = µ(Bi ∩ E)
i=1 i=1

pois os Bi ’s são disjuntos.


Por outro lado !c ! !c !
n
[ [
µ E∩ Bi ≥ µ E∩ Bi
i=1 i∈ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 847/1195

dado que !c !c
[ n
[
Bi ⊂ Bi . (Por quê?)
i∈ 
i=1

Logo, vimos que !c !


n
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈ 

Como essa desigualdade vale para qualquer n, segue que



!c !
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈ 

Por fim, pela própria definição de medida exterior, temos que



!!
X [
µ(Bi ∩ E) ≥ µ E ∩ Bi (por que?)
i=1 i∈ 

e, portanto,
!! !c !
[ [
µ(E) ≥ µ E ∩ Bi +µ E ∩ Bi
i∈  i∈ 

!! !c !
[ [
= µ E∩ Ai +µ E ∩ Ai
i∈  i∈ 

Isso é exatamente o que querı́amos provar. Assim, mostramos que Mµ é de fato uma σ-álgebra e a
prova da parte I do teorema está completa.
Parte II. Vamos nesta parte II provar a medida exterior é de fato uma medida quando restrita aos
elementos da σ-álgebra Mµ .
Tudo o que queremos provar é a propriedade seguinte: se Bi , i ∈  , são elementos disjuntos de Mµ ,
então !
[ X
µ Bi = µ(Bi ).
i∈  i∈ 

Pelo que já vimos na parte I, temos que



!c !
X [
µ(E) ≥ µ(Bi ∩ E) + µ E ∩ Bi
i=1 i∈ 

!! !c !
[ [
≥ µ E∩ Bi +µ E ∩ Bi
i∈  i∈ 

= µ(E)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 848/1195

onde a última igualdade é precisamente a afirmativa que foi provada na parte I. Assim, como µ(E)
aparece no começo e no fim da cadeia de desigualdades, todos os sı́mbolos de “≥” podem ser substituı́dos
por sı́mbolos de igualdade “=” (por que?). Ou seja, temos que

!c !
X [
µ(E) = µ(Bi ∩ E) + µ E ∩ Bi .
i=1 i∈ 

[
Como isso vale para todo E ⊂ X, tomemos, em particular, E = Bi . A última fórmula fica
i∈ 

! ∞
[ X
µ Bi = µ(Bi )
i∈ 
i=1

que é exatamente o que querı́amos provar. Isso completa a prova do Teorema de Caratheodory.

*
No Capı́tulo 17 vamos ilustrar o uso do Teorema de Caratheodory na construção de uma medida
muito importante: a medida de Lebesgue da reta real. O Teorema de Caratheodory pode ser utilizado
em várias outras construções de medidas, as mais notáveis talvez sejam medidas em conjuntos fractais,
conjuntos que não possuem dimensão inteira, tais como o conjunto de Cantor6 , a curva de Koch7 (Fig.
16.1) e outras.

Figura 16.1: A curva de Koch.

• Uma ilustração elementar do Teorema de Caratheodory

O seguinte exercı́cio-exemplo ilustra o Teorema de Caratheodory.


6
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
7
Niels Fabian Helge von Koch (1870-1924).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 849/1195

E. 16.6 Exercı́cio-exemplo. Sejam α, β e γ três objetos distintos (por exemplo, três letras distintas do
alfabeto grego). Seja X = {α, β, γ} e seja
 
(X) = ∅, {α}, {β}, {γ}, {α, β}, {α, γ}, {β, γ}, {α, β, γ} .

Mostre que µ : (X) → 

+, definida por

µ(∅) = 0, µ({α}) = 1, µ({β}) = 1, µ({γ}) = 2,

µ({α, β}) = 1, µ({α, γ}) = 3, µ({β, γ}) = 3, µ({α, β, γ}) = 3,

é uma medida exterior em (X). Podemos, então, nos perguntar: quais conjuntos A ⊂ X têm a propriedade
de Caratheodory
µ(E) = µ(E ∩ A) + µ(E ∩ Ac )
para todo E ∈ (X)? Mostre explicitamente (ou seja, analisando caso-a-caso) que os elementos de
 
M = ∅, {γ}, {α, β}, {α, β, γ}

possuem essa propriedade. Tem-se porém que

1. Para A = {α} a propriedade falha com E = {α, β, γ} e com E = {α, β}.

2. Para A = {β} a propriedade falha com E = {α, β, γ} e com E = {α, β}.

3. Para A = {α, γ} a propriedade falha com E = {α, β, γ} e com E = {α, β}.

4. Para A = {β, γ} a propriedade falha com E = {α, β, γ} e com E = {α, β}.

Constate tudo isso. Assim, apenas os elementos de M, acima, possuem a propriedade de Caratheodory.
Os fatos, garantidos pelo Teorema de Caratheodory, que M é uma σ-álgebra e que µ restrita a M, ou
seja
µ(∅) = 0, µ({γ}) = 2, µ({α, β}) = 1, µ({α, β, γ}) = 3
é uma medida em M, podem ser facilmente verificados diretamente e, de fato, já o fizemos no Exercı́cio E.
16.3, página 841. 6

• Medidas Completas

Uma medida µ em uma σ-álgebra M é dita ser completa se para todo A ∈ M com a propriedade que
µ(A) = 0 valer que todo B ⊂ A é também elemento de M. Em palavras mais simples, µ é completa se
qualquer subconjunto de um conjunto de medida nula for também mensurável.
Um exemplo de uma medida não-completa é o aquele encontrado no Exercı́cio E. 16.2 da página 841.
Aquela medida não é completa pois {α, β} é um conjunto de medida nula, mas possui sub-conjuntos,
{α} e {β}, que não são elementos de M.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 850/1195

Esse exemplo, ainda que um tanto elementar, ilustra que para uma medida ser completa deve estar
definida em uma σ-álgebra rica o suficiente para poder conter todos os sub-conjuntos dos conjuntos de
medida nula. O Exercı́cio seguinte ilustra isso.

E. 16.7 Exercı́cio. Mostre que a medida definida no Exercı́cio E. 16.4, página 841, é completa. Compare
com a medida do Exercı́cio E. 16.2, página 841, em particular, compare as σ-álgebras desses dois exercı́cios.
6

A medida do Exercı́cio E. 16.3, página 841, é completa pois lá ∅ é o único conjunto de medida
nula. A razão profunda daquela medida ser completa, porém, está relacionada ao fato, estudado no
Exercı́cio E. 16.6, página 849, que aquela medida provem de uma medida exterior. Esse é o nosso
próximo assunto.

• Medidas Completas e o Teorema de Caratheodory

Mostraremos que qualquer medida construı́da pelo procedimento de Caratheodory, ou seja, a partir
de uma medida exterior, é completa. Isso é o conteúdo do seguinte teorema:
Teorema 16.2 Seja µ uma medida exterior em um conjunto não-vazio X e sejam Mµ e µ a σ-álgebra
e a medida associadas a µ pela construção de Caratheodory. Então, µ é completa, ou seja, se A é
um conjunto µ-mensurável e µ(A) = 0 segue que todo B ⊂ A é também µ-mensurável (um fato não
trivial!) e µ(B) = 0 2

Prova. Para provar a afirmativa note que, se E ⊂ X e B ⊂ A com A sendo µ-mensurável, então

µ(E ∩ B) ≤ µ(E ∩ A) ≤ µ(A) = µ(A) = 0, (16.3)

µ(E ∩ B c ∩ A) ≤ µ(A) = µ(A) = 0, (16.4)

µ(E ∩ A) ≤ µ(A) = µ(A) = 0, (16.5)

pois E ∩ B c ∩ A e E ∩ A são ambos subconjuntos de A e, para medidas exteriores, vale que se M ⊂ N


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 16 851/1195

então µ(M ) ≤ µ(N ). Logo,


(16.3)
µ(E ∩ B) + µ(E ∩ B c ) = µ(E ∩ B c )
A é µ-mensurável
= µ(E ∩ B c ∩ Ac ) + µ(E ∩ B c ∩ A)

= µ(E ∩ (B ∪ A)c ) + µ(E ∩ B c ∩ A)


B⊂A
= µ(E ∩ Ac ) + µ(E ∩ B c ∩ A)

(16.4)
= µ(E ∩ Ac )

(16.5)
= µ(E ∩ Ac ) + µ(E ∩ A)
A é µ-mensurável
= µ(E) .

Assim, estabeleceu-se que para todo E ⊂ X vale µ(E) = µ(E ∩ B) + µ(E ∩ B c ) e, portanto, B é
µ-mensurável. O fato que µ(B) = 0 é agora trivial pois B ⊂ A e, portanto, µ(B) ≤ µ(A) = 0.

Nota. Não poderı́amos logo de partida ter concluı́do que µ(B) = 0 do fato que B ⊂ A e, portanto,
µ(B) ≤ µ(A) = 0, pois não estava ainda estabelecido que B era µ-mensurável e que µ(B) estivesse
definido.
A medida de Lebesgue, que construiremos no Capı́tulo 17, é completa, pois é também construı́da
por uma medida exterior, seguindo Caratheodory. Já a medida de Borel-Lebesgue, também tratada
naquele capı́tulo, não é completa.
Capı́tulo 17
A Medida de Lebesgue
Conteúdo

17.1 A Construção da Medida de Lebesgue . . . . . . . . . . . . . . . . . . . . . 852


17.1.1 A σ-álgebra de Borel em  e a Medida de Borel-Lebesgue . . . . . . . . . . . 855
17.1.2 A Medida Produto e a Medida de Lebesgue em 
n . . . . . . . . . . . . . . . 858
17.2 Conjuntos de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859
17.3 Bases de Hamel e a Medida de Lebesgue . . . . . . . . . . . . . . . . . . . 871

medida de Lebesgue1 em é o nome dado à medida de comprimento usual de certos subcon-




juntos adequados da reta real. O termo “adequado” é crucial aqui pois, como discutimos no
inı́cio do Capı́tulo 16, não é para qualquer subconjunto de que o conceito de comprimento


está definido. É, portanto, essencial determinar σ-álgebras para cujos elementos a noção de
comprimento não envolva paradoxos como os que encontramos quando tratamos do comprimento do
conjunto de Vitali (página 837). Fora isso, desejamos que essa medida de comprimento satisfaça certas
condições adicionais, a mais importante sendo a invariância por translações. Desejamos também que
os intervalos (a, b), [a, b], (a, b] e [a, b) sejam todos mensuráveis e com medida b − a.
Para construir a medida de Lebesgue seguiremos a estratégia sugerida pelo Teorema de Caratheo-
dory (Teorema 16.1, página 844): vamos primeiro construir uma medida exterior sobre os subconjuntos
de que seja conveniente aos nossos propósitos. O Teorema de Caratheodory, então, afirma que
existe uma σ-álgebra Mµ sobre a qual a medida exterior é uma medida. Essa σ-álgebra é denominada
σ-álgebra de Lebesgue e a medida correspondente é denominada medida de Lebesgue.

17.1 A Construção da Medida de Lebesgue


Seja Ia, b o intervalo aberto (a, b) com −∞ < a < b < ∞ e sigamos a convenção que I a, b = ∅ caso
a = b. Como a e b são finitos, Ia, b é dito ser um intervalo aberto finito. Para cada intervalo desse tipo
definamos o comprimento l(Ia, b ) = b − a ≥ 0. Para duas seqüências de números reais {ai , i ∈ } e 

{bi , i ∈ } satisfazendo −∞ < ai ≤ bi < ∞ para todo i ∈ , vamos definir


 

I{ai }, {bi } := {Iai , bi , i ∈  },

que é uma coleção contável formada por intervalos abertos finitos ou pelo conjunto vazio. O conjunto
de todas as coleções I{ai }, {bi } será denotado por I.
Doravante, para não sobrecarregar a notação, denotaremos as coleções I {ai },{bi } apenas por I, quando
não houver perigo de confusão.
1
Henri Léon Lebesgue (1875-1941).

852
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 853/1195

Seja I uma coleção contável de intervalos abertos finitos Iai , bi , i ∈  , como acima. Definamos o
comprimento total L(I) de I por X
L(I) := l(Iai , bi ).
i∈ 

Note que os intervalos Iai , bi podem sobrepor-se. Assim, L(I) é apenas a soma do comprimento dos
intervalos de I, não a medida de comprimento da união de todos os Iai , bi em I.
Seja agora E um sub-conjunto arbitrário de . Denotemos por IE a coleção


( )
[
IE = I ∈ I, tal que E ⊂ Iai , bi com Iai , bi ∈ I .
i∈ 

Em palavras, IE é a coleção de todas as coleções de intervalos abertos (ou conjunto vazio) cuja união
contém E. Se I ∈ IE , dizemos que a coleção de intervalos I “cobre” E.
Definamos então
µL (E) := inf L(I). (17.1)
I∈IE

Vamos provar que µL é uma medida exterior.


Em primeiro lugar, é fácil ver pela definição que µL (∅) =[0. Em segundo lugar, se A ⊂ B então
IB ⊂ IA pois se uma coleção de intervalos I é tal que B ⊂ Iai , bi com Iai , bi ∈ I então obviamente
[ i∈ 

A⊂ Iai , bi pois A ⊂ B. Portanto, µL (A) ≤ µL (B) dado que


i∈ 

inf L(I) ≤ inf L(I)


I∈IA I∈IB

pois IB ⊂ IA (é claro para você a razão disso?).


!
[ X
Falta-nos apenas provar que µL Ai ≤ µL (Ai ) onde Ai são subconjuntos de  . Observemos
i∈  i∈ 

em primeiro lugar o seguinte. Seja A um subconjunto qualquer da reta real e seja o conjunto I A de
todas as coleções contáveis de intervalos cuja união contém A. Afirmamos que, para qualquer número
real positivo r dado podemos encontrar pelo menos uma coleção I em IA tal que L(I) = µL (A) + r.
Provar isso é simples. Se pela definição µL (A) = inf L(I) então para qualquer δ > 0 deve haver
I∈IA
uma coleção Iδ ∈ IA tal que L(Iδ ) − µL (A) < δ. Vamos escolher δ < r e consideremos a coleção
I0 = Iδ ∪ {(−a, a)}, onde
r − L(Iδ ) + µL (A)
a = .
2
Como L(Iδ ) − µL (A) < δ e r > δ, temos que a > 0. Fora isso é óbvio que I0 ∈ IA , pois se a coleção Iδ
já cobre A então I0 também deve fazê-lo. Finalmente, é claro pela construção que
L(I0 ) = L(Iδ ) + l((−a, a)) = L(Iδ ) + r − L(Iδ ) + µL (A) = µL (A) + r.

Isto posto, seja para cada b ∈  a coleção de intervalos Ib ∈ IAb tal que

L(Ib ) = µL (Ab ) +
2b
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 854/1195

[
para  > 0. A coleção J = Ib é também uma coleção contável de intervalos que cobrem o conjunto
[ b∈ 

Ai . Fora isso,
i∈
∞ 



X X
L(J) = µL (Ab ) + = µL (Ab ) + .
b=1
2b b∈ 

[
Como J cobre Ai , segue que
i∈ 

!
[ X
µL Ai ≤ L(J) = µL (Ab ) + .
i∈ 
b∈ 

Como isso vale para qualquer  > 0, segue que


!
[ X
µL Ai ≤ µL (Ab ).
i∈  b∈ 

Isso completa então a prova que µL é uma medida exterior.


Com isso em mãos, temos agora permissão para evocar o Teorema de Caratheodory e afirmar que
a coleção MµL formada por todos os subconjuntos A de X que tenham a propriedade que para todo
E ⊂ X vale que
µL (E) = µL (E ∩ A) + µL (E ∩ Ac ),
é uma σ-álgebra e que µL é uma medida em MµL , que denotaremos por µL . A medida µL assim definida
é chamada de medida de Lebesgue e MµL é chamada de σ-álgebra de Lebesgue. Os elementos de MµL
são chamados de conjuntos mensuráveis por Lebesgue.
Antes de mostrarmos que a coleção MµL é de fato não-trivial (um fato que não é óbvio até aqui), o
que faremos na Seção 17.1.1, vamos exibir duas propriedades básicas da medida de Lebesgue: invariância
por translações e regularidade.

• Invariância de µL por translações

A medida e Lebesgue da reta real satisfaz um requerimento básico associado à noção usual de
comprimento de conjuntos da reta real: invariância por translações. Mais precisamente, tem-se que
para todo A ∈ MµL e todo x ∈ o conjunto transladado Ax é também elemento de MµL e tem-se


µL (Ax ) = µL (A). A demonstração desses fatos é simples e é deixada como exercı́cio ao estudante.

E. 17.1 Exercı́cio. Prove que para todo A ∈ MµL e todo x ∈ tem-se Ax ∈ MµL e que µL (Ax ) = 

µL (A). Sugestão: Prove primeiro que para todo E ⊂ e todo x ∈ tem-se µ L (Ex ) = µL (E). Para isso,
 

use a definição (17.1) e o fato evidente que l(Ia+x, b+x ) = l(Ia, b ). Em seguida, use esse fato para mostrar
que se A é mensurável por Lebesgue então Ax também o é (para qualquer x ∈ ), ou seja, mostre que se 

µL (E) = µL (E ∩ A) + µL (E ∩ Ac ) para todo E ⊂ então µL (E) = µL (E ∩ Ax ) + µL (E ∩ Acx ) para todo




E ⊂ . Conclua dos fatos acima que µL (Ax ) = µL (A) para todo A ∈ MµL e todo x ∈ .
 6 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 855/1195

• Regularidade de µL

A medida µL possui as seguintes propriedades. Para todo B ∈ MµL vale

µL (B) = sup{µL (C), C compacto com C ⊂ B} (regularidade interior)


. (17.2)
µL (B) = inf{µL (A), A aberto com A ⊃ B} (regularidade exterior)

Aqui, a topologia considerada é a topologia usual de  ,τ .




As propriedades acima são também válidas em n . Não apresentaremos as demonstrações aqui e




o leitor poderá encontrá-las nos bons livros. Mencionamos que as propriedades de regularidade acima
são importantes em vários desenvolvimentos.

Uma questão muito importante agora é saber se MµL não é uma σ-álgebra trivial e se certos conjun-
tos “razoáveis”, tais como intervalos abertos, fechados e semi-abertos, são mensuráveis por Lebesgue.
A resposta a esta questão é dada na próxima seção, onde discutiremos a relação entre a σ-álgebra de
Lebesgue em e a σ-álgebra de Borel.


17.1.1 A σ-álgebra de Borel em  e a Medida de Borel-Lebesgue


A chamada σ-álgebra de Borel2 em é, por definição, a menor σ-álgebra que contem a topologia usual


de , τ . Ou seja, é a σ-álgebra M[τ ] gerada pela topologia τ . Vide definição à página 822. Como

  

veremos, essa σ-álgebra está relacionada à σ-álgebra de Lebesgue definida acima, sendo um subconjunto
da mesma (vide abaixo). Historicamente essa relação foi estudada por Hausdorff, que provou também
que a cardinalidade de M[τ ] é a de , enquanto que a de MµL é maior.


Vamos primeiramente mostrar que qualquer intervalo aberto (a, b) é um elemento da σ-álgebra
MµL . Sem perda de generalidade, vamos considerar o intervalo aberto I = (0, 1). Tudo o que queremos
provar é que, para todo E ⊂ , tem-se µL (E) = µL (I ∩ E) + µL (I c ∩ E). Como E = (I ∩ E) ∪ (I c ∩ E)


temos sempre que µL (E) ≤ µL (I ∩ E) + µL (I c ∩ E), pela propriedade 3 da definição de medida exterior.
Desejamos então provar que também vale µL (E) ≥ µL (I ∩ E) + µL (I c ∩ E).
Vamos aqui adotar a seguinte convenção. Se A é uma união finita de intervalos disjuntos: A =
I1 ∪ · · · ∪ In , então definimos l(A) := l(I1 ) + · · · + l(In ). Para três conjuntos A, B e C quaisquer
formados por uniões finitas de intervalos disjuntos temos sempre que

l(A ∪ B ∪ C) = l(A) + l(B) + l(C) − l(A ∩ B) − l(A ∩ C) − l(B ∩ C) + l(A ∩ B ∩ C). (17.3)

E. 17.2 Exercı́cio. Prove isso. Sugestão: verifique primeiro que, se A 0 e C são uniões finitas de intervalos
disjuntos, vale que sempre que l(A0 ∪ C) = l(A0 ) + l(C) − l(A0 ∩ C) e então adote A0 = A ∪ B para dois
conjuntos A e B, também formados por uniões finitas de intervalos disjuntos. 6
2
Félix Édouard Justin Émile Borel (1871-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 856/1195

Seja I ∈ IE uma coleção [


contável de intervalos abertos finitos cuja união cobre E: I = {I j , j ∈
 , Ij = (ai , bi )} com E ⊂ Ij . Fixemos um  com 0 <  < 1 e definamos, para todo j ∈ , os 

j∈ 

intervalos

Jj := Ij ∩ I,
 
Kj := Ij ∩ −∞, j ,
2
  
Kj0 := Ij ∩ 1 − j , ∞ .
2
(17.4)

Como Ij = Jj ∪ Kj ∪ Kj0 , segue por (17.3) que

l(Ij ) = l(Jj ) + l(Kj ) + l(Kj0 ) − l(Jj ∩ Kj ) − l(Jj ∩ Kj0 )

pois Kj ∩ Kj0 = ∅. Como Jj ∩ Kj = Ij ∩ (0, /2j ) e Jj ∩ Kj0 = Ij ∩ (1 − /2j , 1) temos l(Jj ∩ Kj ) ≤ /2j
e l(Jj ∩ Kj0 ) ≤ /2j .
Assim,

l(Ij ) ≥ l(Jj ) + l(Kj ) + l(Kj0 ) − .
2j−1
Defina agora

J := {Jj , j ∈  }.

K := {Kj , j ∈  } ∪ {Kj0 , j ∈  }.

Pelas desigualdades acima sobre l(Jj ) e l(Kj ) temos

L(I) ≥ L(J) + L(K) − 2. (17.5)

Por outro lado, temos que a coleção de intervalos J cobre E ∩ I e K cobre E ∩ I c (por que?). Daı́
L(J) ≥ µL (E ∩ I) e L(K) ≥ µL (E ∩ I c ). Logo, (17.5) diz que

L(I) ≥ µL (E ∩ I) + µL (E ∩ I c ) − 2. (17.6)

Pela definição da medida exterior µL , sempre podemos escolher I de forma que L(I) ≤ µL (E) +  (está
claro para você o porquê disso?). Assim,

µL (E) ≥ µL (E ∩ I) + µL (E ∩ I c ) − 3. (17.7)

Como essa desigualdade vale para todo  com 0 <  < 1, segue que

µL (E) ≥ µL (E ∩ I) + µL (E ∩ I c ).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 857/1195

Isso é o que querı́amos provar, pois implica então que

µL (E) = µL (E ∩ I) + µL (E ∩ I c ),

que afirma que I é um conjunto mensurável por Lebesgue, de acordo com a definição de Caratheodory.
A demonstração acima não vale somente para o intervalo I = (0, 1), mas pode ser repetida para
todo intervalo aberto finito (a, b) com −∞ < a < b < ∞. Em verdade, uma simples inspeção mostra
que a mesma demonstração pode ser repetida para intervalos finitos como [a, b], [a, b) ou (a, b]. Sem
surpresa, verifica-se que µL ((a, b)) = b − a etc.
Isso tem a seguinte conseqüência: como MµL é uma σ-álgebra, MµL deverá conter todo conjunto
que puder ser escrito como uma união contável de intervalos abertos finitos. Vimos, quando mostramos
que τ é separável, que qualquer aberto da topologia usual pode ser escrito como uma união contável


de intervalos abertos finitos B(r, s) com r, s ∈ e s > 0. Portanto temos que τ ⊂ MµL , de onde 

segue que
M[τ ] ⊂ MµL .


(17.8)

Um fato importante, mas que não provaremos com todos os detalhes aqui, é que a σ-álgebra de
Borel M[τ ] é um subconjunto próprio3 de MµL , ou seja, que há conjuntos que são mensuráveis de


Lebesgue mas que não são elementos da σ-álgebra de Borel. Exemplos não são fáceis de exibir, mas
uma classe deles será discutido na Seção 17.3, página 871. Para discutirmos o fato de que a σ-álgebra
de Borel M[τ ] é um subconjunto próprio de MµL façamos primeiro notar o seguinte resultado (que,


ademais, tem importância por si só):


Proposição 17.1 A medida de Lebesgue µL é completa. Ou seja, se A é um conjunto mensurável por
Lebesgue e µL (A) = 0 então todo B ⊂ A é também mensurável de Lebesgue (um fato não trivial!) e
µL (B) = 0 4 . 2

Essa proposição é um mero corolário do Teorema 16.2, página 850.


Como veremos quando discutirmos o chamado conjunto de Cantor, há conjuntos na σ-álgebra de
Lebesgue que são não-contáveis, têm a cardinalidade de e têm medida de Lebesgue nula. Como


vimos, todos os subconjuntos de tais conjuntos são também mensuráveis e, portanto, a coleção de
todos esses subconjuntos tem a cardinalidade de ( ) (que é maior que a de ). Entretanto, sabe-se
 

(por um teorema de Hausdorff) que M[τ ] tem a cardinalidade de




e portanto M[τ ] deve ser um





subconjunto próprio de MµL .


Dada a relação (17.8) podemos considerar a restrição da medida de Lebesgue à σ-álgebra de Borel
M[τ ]. Essa restrição da medida de Lebesgue é denominada medida de Borel-Lebesgue. É importante


notar que a maioria dos resultados importantes da Análise, especialmente da teoria de integração,
pode ser obtida considerando-se apenas a medida de Borel-Lebesgue e muitos autores preferem tratá-la
preferencialmente à medida de Lebesgue. A medida de Borel-Lebesgue não é completa.

• Conjuntos contáveis da reta real têm medida de Lebesgue nula

3
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
4
Isso vale também para conjuntos mensuráveis de Lebesgue em n .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 858/1195

É bastante fácil de ser ver pela definição que se a ∈ então µL ({a}) = 0, ou seja, a medida de


Lebesgue de um conjunto constituı́do por apenas um ponto é nula. Pela aditividade da medida, é
evidente daı́ também que a medida de Lebesgue de qualquer sub-conjunto finito de é igualmente 

nula, pois se {a1 , . . . , an } ⊂ é um conjunto com n elementos distintos, tem-se




µL ({a1 , . . . , an }) = µL ({a1 } ∪ · · · ∪ {an }) = µL ({a1 }) + · · · + µL ({an }) = 0 ,


pois µL ({ak }) = 0, ∀k ∈ {1, . . . , n}.
Da mesma forma, pela aditividade contável (relação (16.1), página 840), verifica-se que a medida
de Lebesgue de qualquer sub-conjunto contável da reta é nula. De fato, se {an ∈ | n ∈ } ⊂ é   

contável, com todos os ak distintos, tem-se


!
[ X
µL ({an ∈ | n ∈ }) = µL
  {an } = µL ({an }) = 0 ,
n∈  n∈ 

também pois µL ({ak }) = 0, ∀k ∈ . Assim, concluı́mos, por exemplo, que o conjunto dos números


racionais e o conjunto 0 dos números algébricos são conjuntos de medida de Lebesgue nula.
Um ponto que não pode deixar mencionado é que há também sub-conjuntos não-enumeráveis de
 que também têm medida de Lebesgue nula. Veremos exemplos quando tratarmos dos chamados
conjuntos de Cantor na Seção 17.2, página 859.

• Quase em toda parte

Se X é um conjunto no qual está definida uma medida µ, uma afirmação a respeito dos elementos
de X que for falsa apenas em um conjunto de medida µ nula é dita valer quase em toda a parte em
relação a µ, ou µ-quase em toda parte. Abreviadamente, escreve-se também q.t.p. ou µ-q.t.p. 5 Nesse
espı́rito, dizemos que, em relação à medida de Lebesgue, quase todo número real é irracional, pois só
não são irracionais os números racionais, que formam um conjunto de medida nula. Analogamente, em
relação à medida de Lebesgue, quase todo número é transcendente.

n
17.1.2 A Medida Produto e a Medida de Lebesgue em 

Vamos aqui discutir uma construção geral de um espaço de medida em um espaço produto. Seja X um
conjunto com uma σ-álgebra M e uma medida µ e seja também Y um conjunto com uma σ-álgebra N
e uma medida ν. Considere o espaço produto Z = X × Y . Podemos construir em Z uma σ-álgebra e
uma medida da seguinte forma. Seja E um subconjunto arbitrário de Z e seja E a coleção de todas as
coleções da forma da forma C = {Ai × Bi , i ∈ } com Ai ∈ M e Bi ∈ N e tais que


[
E ⊂ Ai × B i .
i∈ 

Defina para cada coleção C dessa forma a grandeza


X
m(C) = µ(Ai )ν(Bi ).
i∈ 

5
Em lı́ngua inglesa usa-se a.e.: “almost everywhere”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 859/1195

Seja então
ω(E) = inf m(C).
C∈E

E. 17.3 Exercı́cio. Mostre que ω é uma medida exterior em Z. 6

Com o resultado do último exercı́cio e com o teorema de Caratheodory podemos construir uma
σ-álgebra Mω em Z com uma medida µ que é denominada medida produto de µ com ν.
n
Com esta construção podemos definir a medida produto da medida de Lebesgue em espaços  .

17.2 Conjuntos de Cantor

• O conjunto de Cantor ternário

Dentre os subconjuntos mais interessantes e curiosos da reta real encontram-se os chamados con-
juntos de Cantor6 . Há vários tipos de conjuntos ditos de Cantor (para uma definição técnica geral,
vide página 973). Iremos aqui apresentar alguns deles, começando pelo mais simples e tradicional, o
chamado conjunto de Cantor ternário, C1/3 , o qual será primeiramente definido de maneira informal.
Em seguida trataremos de modo mais preciso do mesmo, junto com suas generalizações.
O conjunto de Cantor ternário C1/3 é informalmente definido da seguinte forma. Começamos com o
conjunto fechado T0 = [0, 1] do qual subtraı́mos o conjunto aberto (1/3, 2/3) que consiste do conjunto
aberto de largura 1/3 da largura de T0 situado bem no meio de T0 . O que se obtemos é o conjunto
fechado T1 = [0, 1/3] ∪ [2/3, 1], formado pela união de dois intervalos fechados disjuntos. Em seguida,
subtraı́mos de cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e
cuja largura é 1/3 da largura de cada um desses intervalos. Esses abertos serão (1/9, 2/9) para o
intervalo [0, 1/3] e (7/9, 8/9) para o intervalo [2/3, 1]. O que resulta disso é o conjunto fechado
T2 = [0, 1/9] ∪ [2/9, 1/3] ∪ [2/3, 7/9] ∪ [8/9, 1]. O passo seguinte repete os anteriores: subtraı́mos de
cada um desses intervalos fechados os conjuntos abertos situados no meio de ambos e cuja largura é
1/3 da largura de cada um desses intervalos.
O processo é ilustrado na Figura 17.1. A linha de cima ilustra os intervalos abertos que vão sendo
sucessivamente subtraı́dos do intervalo fechado T0 = [0, 1] e a linha de baixo os vários intervalos
fechados que resultam dessa subtração. O primeiro conjunto aberto subtraı́do é (1/3, 2/3), indicado
por 1 na figura. O segundo conjunto aberto subtraı́do é (1/9, 2/9) ∪ (7/9, 8/9), indicado por 2 na
figura, e assim por diante.
O conjunto de Cantor C1/3 é o conjunto que resulta desse processo após infinitos passos. C1/3 não é
vazio, pois os pontos situados nas bordas dos intervalos fechados que vão sendo sucessivamente produzi-
dos sobrevivem ao processo de subtração. Isso se vê na Figura 17.1, pois os conjunto {0, 1}, que forma
a borda de T0 , surge novamente em T1 , T2 , T3 etc., assim como o conjunto {0, 1/3, 2/3, 1}, que forma a
borda de T1 , surge novamente em T2 , T3 etc., e como o conjunto {0, 1/9, 2/9, 1/3, 2/3, 7/9, 8/9, 1},
que forma a borda de T2 , surge novamente em T3 etc. C1/3 é um conjunto fechado por ser o comple-
mento em [0, 1] de uma união de abertos (aqueles que vão sendo sucessivamente subtraı́dos). Outra
6
Georg Ferdinand Ludwig Philipp Cantor (1845-1918).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 860/1195

3 2 3 1 3 2 3
1/27 2/27 7/27 8/27
19/27 20/27 25/27 26/27

( ) ( ) ( ) ( ) ( ) ( ) ( )
1/9 2/9 1/3 2/3 7/9 8/9
0 1

0 1/3 2/3 1

T1 [ ] [ ]

0 1/9 2/9 1/3 2/3 7/9 8/9 1

T2 [ ] [ ] [ ] [ ]

0 1/27 2/27 1/9 2/9 7/27 8/27 1/3 2/3 19/27 20/27 7/9 8/9 25/27 26/27 1

T3 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]

Figura 17.1: As três primeiras etapas da construção do conjunto de Cantor ternário C 1/3 .

forma de ver isso é notar que T1 ⊃ T2 ⊃ T3 ⊃ T4 ⊃ · · · , ou seja, Tm ⊂ Tn para todos m > n, o que nos
leva a concluir que
\∞
C1/3 = Tn . (17.9)
n=0

Como se sabe, uma intersecção de fechados é também um fechado.


Um aspecto um tanto surpreendente sobre C1/3 é que seu interior é vazio, ou seja, C1/3 não contem
nenhum aberto. Isso segue do fato que intervalos fechados que formam os conjuntos Tn têm, cada
um, largura (1/3)n e, portanto, seu interior vai “diminuindo” a medida que n cresce. A afirmação que
C1/3 não contem nenhum aberto pode ser provada da seguinte forma. Se C1/3 contivesse um aberto,
conteria algum intervalo aberto (a, b) (por que? Lembre-se da definição de conjuntos abertos em
espaços métricos). Assim, (a, b) = (a, b) ∩ C1/3 . Por (17.9), terı́amos
! ∞ 

\ \ 
(a, b) = (a, b) ∩ C1/3 = (a, b) ∩ Tn = (a, b) ∩ Tn . (17.10)
n=0 n=0

Agora, para todo n grande o suficiente tal que (1/3)n < b−a, os conjuntos (a, b)∩Tn são sub-conjuntos
próprios7 de (a, b), pois cada intervalo fechado que compõe Tn tem largura (1/3)n . Portanto, o lado
direito de (17.10) é um sub-conjunto próprio de (a, b) e a igualdade em (17.10) passa a ser absurda.
Um conjunto com a propriedade de não conter nenhum aberto é dito ser denso em parte alguma
(para tais definições, vide Seção 21.1).
Por ser fechado, C1/3 é um conjunto mensurável por Lebesgue, ou seja, possui um comprimento.
Um ponto importante é determinar a medida de Lebesgue de C1/3 . É fácil perceber que µL (Tn+1 ) =
7
Aos estudantes: um conjunto A é dito ser um sub-conjunto próprio de um conjunto B se A ⊂ B mas A 6= B.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 861/1195

(2/3)µL (Tn ), pois a cada etapa é eliminado um terço dos intervalos fechados de Tn . Assim, como
µL (T0 ) = 1, segue que µL (Tn ) = (2/3)n . Daı́8 µL (C1/3 ) = limn→∞ µL (Tn ) = limn→∞ (2/3)n = 0, ou seja,
o conjunto ternário de Cantor C1/3 é um conjunto de medida de Lebesgue nula.

• A cardinalidade de C1/3

Um outro fato importante sobre C1/3 é que o mesmo tem a cardinalidade de , sendo, portanto, 

um exemplo de um conjunto não-contável de medida de Lebesgue nula. Vamos mostrar isso e, para
tal, começaremos provando que C1/3 não é contável.
Para provar que C1/3 não é contável, demonstremos a seguinte afirmação, que apresentamos para
futura referência na forma de uma proposição. Essa proposição equivale a uma outra caracterização de
C1/3 (de fato, alguns autores definem C1/3 dessa forma):
Proposição 17.2 C1/3 é o subconjunto de [0, 1] composto por todos os números c que podem ser
X∞
tn
escritos na forma c = n
, sendo que cada tn pode apenas assumir os valores 0 ou 2. Isso equivale
n=1
3
a dizer que c ∈ C1/3 se e somente se for representado na base ternária na forma c = 0, t1 t2 t3 t4 . . . onde
cada “dı́gito” tn vale ou 0 ou 2. 2

Antes de entrar na prova dessa proposição, recomendamos ao estudante o seguinte exercı́cio.

E. 17.4 Exercı́cio. Sabemos que 1/3 pertence a C1/3 . Esse número pode ser representado na base
ternária por 0, 1, o que parece contradizer o que afirmamos acima sobre os elementos de C 1/3 . Porém, essa
não é a única forma de representar 1/3. Mostre que na base ternária 1/3 também pode ser escrito como
0, 0222222 . . .. 6

Prova da Proposição 17.2. Tentemos localizar onde, no intervalo [0, 1], encontram-se os números cujo
n-ésimo “dı́gito” na base ternária é 1, sendo que entre os seguintes pelo menos um é não-nulo. Tais
números são da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos tm com m ≥ n+1 é não-nulo.
Alguns segundos de meditação nos levam a concluir que esses números encontram-se no intervalo aberto
situado entre 0, t1 · · · tn−1 1 e 0, t1 · · · tn−1 2, ou seja, em ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ). Agora,
1 2
0, t1 · · · tn−1 1 = 0, t1 · · · tn−1 + e 0, t1 · · · tn−1 2 = 0, t1 · · · tn−1 +
3n 3n
 
1 2
Assim, o intervalo ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ) é o intervalo , transladado de 0, t1 · · · tn−1 .
3n 3n
 
1 2
Observe-se, então, que esse intervalo , é um dos intervalo abertos subtraı́do de Tn−1
3n 3n
quando do processo de construção do conjunto C1/3 , a saber, o mais próximo de 0 (vide
 Figura  17.1).
1 2
Devemos então nos perguntar: quais são os outros intervalos obtidos transladando n
, n por
3 3
8
O por quê de valer µL (C1/3 ) = limn→∞ µL (Tn ) é intuitivo, mas será justificado com base em uma propriedade geral
de medidas ao discutirmos sua generalização, a equação (17.18), página 867.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 862/1195

todos números da forma 0, t1 · · · tn−1 ? Como todos os números da forma 0, t1 · · · tn−1 podem ser obti-
1
dos somando repetidamente o número n−1 (certo?) concluı́mos que os intervalos podem ser obtidos
  3
1 2 1
transladando-se , sucessivamente por à direita. Mais uma curta meditação nos leva
3n 3n 3n−1
a concluir que os intervalos assim obtidos ou são precisamente aqueles subtraı́dos de T n−1 quando do
processo de construção do conjunto C1/3 ou estão contidos nos intervalos subtraı́dos anteriormente dos
conjuntos Tm com m < n − 1.
Concluı́mos, assim, que os números da forma 0, t1 · · · tn−1 1tn+1 . . ., sendo que pelo menos um dos
tm com m ≥ n + 1 é não-nulo, não pertencem a C1/3 .
O que fizemos não exclui ainda de C1/3 números que sejam da forma 0, t1 · · · tn−1 1, com tj ∈ {0, 2},
j = 1, . . . , n − 1. Tais números também pertencem a C1/3 , pois formam uma das bordas de alguns
conjuntos abertos ( 0, t1 · · · tn−1 1, 0, t1 · · · tn−1 2 ) que tratamos acima. Porém, o Exercı́cio E. 17.4,
acima, nos ensina que tais números podem ser também representados como 0, t1 · · · tn−1 022222 . . ., com
o n-ésimo dı́gito igual a 0 seguido de infinitos 2’s.

E. 17.5 Exercı́cio. Certo? 6

Com isso a prova da Proposição 17.2 está concluı́da.

A afirmação da Proposição 17.2 conduz diretamente à conclusão que C 1/3 não é enumerável. Por
aquela proposição, todo c ∈ C1/3 é (fatorando o número 2) da forma c = 2×0, d1 d2 d3 . . . com dn ∈ {0, 1}
para todo n. Assim, a demonstração que C1/3 não é enumerável é, mutatis mutantis, idêntica à
demonstração que  não é contável fornecida no Capı́tulo 1 na prova do Teorema 1.4, página 38.
Deixamos os detalhes como exercı́cio.

E. 17.6 Exercı́cio. Faça-o! 6

E. 17.7 Exercı́cio. Mostre que 1/4 e 1/13 pertencem a C1/3 pois, na base ternária, 1/4 pode ser
representado como 0, 02020202 . . . e 1/13 como 0, 002002002002 . . .. Note que 1/4 e 1/13 não pertencem
à borda de nenhum Tn ! 6

O seguinte fato será usado em outros lugares.


Lema 17.1 Todo elemento x ∈ [0, 1] pode ser escrito na forma x = c1 + c2 /2 com c1 , c2 ∈ C1/3 . 2

X∞
tn
Prova. Todo elemento x ∈ [0, 1] pode ser representado na forma x = , onde tn ∈ {0, 1, 2}
n=1
3n
(representação na base ternária). A soma acima pode ser quebrada em duas, uma contendo apenas
X tn 1 X 2
termos onde cada tn vale 0 ou 2 e outra onde tn = 1: x = + , onde Nx := {n| tn ∈
3n 2 3n
n∈Nx n6∈Nx
{0, 2}}. Agora, os elementos de C1/3 são precisamente aqueles cujos dı́gitos na representação na base
ternária são 0 ou 2 (Proposição 17.2). Logo, vimos que todo x ∈ [0, 1] pode ser escrito na forma
x = c1 + c2 /2, com c1 , c2 ∈ C1/3 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 863/1195

Chegamos agora à
Proposição 17.3 C1/3 tem a cardinalidade de  . 2

Prova. Pelo Lema 17.1 todo elemento x ∈ [0, 1] pode ser escrito como x = c1 + c2 /2 com c1 , c2 ∈ C1/3 .
Isso mostra que [0, 1] (e, portanto, ) tem a cardinalidade de um subconjunto de C1/3 × C1/3 , cuja


cardinalidade é menor ou igual a de 2 que, por sua vez, tem a cardinalidade de


 (Proposição 1.7, 

página 39). Logo C1/3 × C1/3 tem a cardinalidade de . Paralelamente, o mesmo argumento usado na


prova da Proposição 1.7 conduz à conclusão que C1/3 e C1/3 × C1/3 têm a mesma cardinalidade. Isso
completa a prova.

• O conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo

Vamos provar agora que o conjunto de Cantor ternário é denso em si mesmo e totalmente desconexo.
Para as definições e fatos básicos que usaremos, recomenda-se a leitura prévia da Seção 21.1, página
968.
Para mostrar que C1/3 é um conjunto denso em si mesmo, sejam c, c0 ∈ C1/3 e que, portanto,
tenham representações em base ternária 0, c1 c2 c3 . . . e 0, c01 c02 c03 . . ., respectivamente, com cn , c0n ∈ {0, 2}
para todo n (Proposição 17.2). Então, se os primeiros m dı́gitos de c e c0 forem idênticos, teremos
|c − c0 | ≤ 2/3m . Escolhendo m grande o suficiente isso pode ser feito menor que qualquer  > 0 dado.
Isso mostra que qualquer aberto contendo c ∈ C1/3 contem outros elementos de C1/3 diferentes de c,
provando que C1/3 é um conjunto denso em si mesmo.
O mesmo tipo de argumento também mostra que arbitrariamente próximo a qualquer elemento
c ∈ C1/3 há elementos que não pertencem a C1/3 . Se c tem a representação ternária 0, c1 c2 c3 . . .,
escolhamos x ∈ [0, 1] da seguinte forma: seus m primeiros dı́gitos são iguais ao de c, o m-ésimo dı́gito
de x é 1 e dentre os seguintes pelo menos um é não-nulo. Um tal x não pertence a C1/3 , mas a distância
do mesmo a c é menor que 2/3m . Essa distância, porém, pode ser feita menor que qualquer  > 0 dado,
se escolhermos m grande o suficiente.
É fácil de se ver que C1/3 é um sub-conjunto desconexo de na topologia τ , pois um par de



abertos como A1 = (−1, 1/2) e A2 = (1/2, 2) desconecta C1/3 (verifique!). Pelo que acabamos de ver,
dados c, c0 ∈ C1/3 com c < c0 , existe x 6∈ C1/3 tal que c < x < c0 . Assim, os abertos A1, x = (−1, x)
e A2, x = (x, 2) também desconectam C1/3 . Dessa forma, não existe nenhum sub-conjunto conexo de
C1/3 que contenha c e c0 (um tal conjunto seria desconectado pelos abertos A1, x e A2, x ). Logo, c e
c0 pertencem a componentes conexas distintas. Como isso vale para todos c e c0 em C1/3 com c < c0 ,
concluı́mos que as componentes conexas de C1/3 possuem exatamente um elemento. Isso significa que
C1/3 é totalmente desconexo, como querı́amos mostrar.

Em resumo, concluı́mos que C1/3 é um sub-conjunto fechado e limitado de , mensurável de Lebes- 

gue, não-contável, com a cardinalidade de , denso em parte alguma, denso em si mesmo e totalmente


desconexo. Pelo fato de C1/3 ser fechado e limitado, C1/3 é um conjunto compacto. Pelo fato de C1/3
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 864/1195

ser fechado e denso em si mesmo, C1/3 é um conjunto perfeito. Por ser também totalmente desconexo,
C1/3 é um conjunto de Cantor segundo a definição geral da Seção 21.1.

• Mais exemplos de conjuntos de Cantor

Vamos agora generalizar e formalizar as idéias desenvolvidas na construção de C 1/3 e construir


outros conjuntos semelhantes.
Diremos que um intervalo fechado [a, b] é finito se −∞ < a < b < ∞. Note que excluı́mos a = b.
Denotaremos por F0 a coleção de todos os sub-conjuntos da reta real que sejam formados por uniões
finitas de intervalos fechados finitos e disjuntos. Assim, se F ∈ F0 , então F é da forma
F = F1 ∪ · · · ∪ Fk
para algum k ∈ , k ≥ 1, onde cada Fj é um intervalo fechado finito Fj = [aj , bj ] com −∞ < aj <


bj < ∞ e onde os Fj ’s são disjuntos dois-a-dois, ou seja, Fi ∩ Fj = ∅ caso i 6= j.


Por ser uma união finita de fechados, cada elemento de F0 é também um conjunto fechado.
Seja f ∈ tal que 0 < f < 1. Denominaremos um tal f uma fração9 . Para cada fração f


definiremos uma aplicação Tf : F0 → F0 da seguinte forma: Para um intervalo finito F = [a, b]


definimos
   
a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
Tf (F ) = Tf ([a, b]) := a, , b (17.11)
2 2
Para um elemento genérico F = F1 ∪ · · · ∪ Fk de F0 , definimos
Tf (F) = Tf (F1 ∪ · · · ∪ Fk ) := Tf (F1 ) ∪ · · · ∪ Tf (Fk ) . (17.12)

Note que para 0 < f < 1 tem-se


a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
a < < <b.
2 2
Portanto, para todo intervalo finito F , tem-se
Tf (F ) ⊂ F.
Em verdade, Tf (F ) é um sub-conjunto próprio de F . Segue facilmente disso que, para todo F ∈ F0 ,
Tf (F) ⊂ F.

E. 17.8 Exercı́cio. Verifique todas as afirmações acima. 6

Qual a interpretação geométrica de Tf ? Para isso, vamos descrever o que é Tf ([a, b]). Esse conjunto
é obtido subtraindo-se do intervalo fechado finito [a, b] o conjunto aberto de largura f (b − a) centrado
no ponto a+b 2
, que fica bem no centro de [a, b]. Como é fácil ver, esse intervalo aberto é
   
a + b f (b − a) a + b f (b − a) a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
− , + = , .
2 2 2 2 2 2
9
Excluı́mos os casos f = 0 e f = 1 pois, como poder-se-á constatar, eles levam a situações triviais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 865/1195

Assim,  
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
Tf ([a, b]) = [a, b] \ , .
2 2
Operando em F = F1 ∪ · · · ∪ Fk , a operação Tf subtrai de cada Fj o intervalo aberto de largura f
centrado no ponto intermediário de Fj .
É importante notar que se F ∈ F0 é composto por k intervalos fechados finitos disjuntos então,
Tf (F) é composto por 2k intervalos fechados finitos disjuntos.
Como Tf é uma aplicação de F0 em F0 , podemos compor Tf consigo mesma. Denotamos, para
n∈ ,

Tfn ≡ Tf ◦ · · · ◦ Tf .
| {z }
n vezes

Com isso, se F é um intervalo fechado finito, Tfn (F ) é um elemento de F0 composto por 2n intervalos
fechados finitos disjuntos, todos eles contidos em F .
Para o que segue é muito importante determinarmos a medida de Lebesgue dos conjuntos Tfn (F ),
que vem a ser a soma dos comprimentos dos 2n intervalos fechados finitos disjuntos que o compõe. Para
isso, é importante ver que se F = [a, b], então
   
a(1 + f ) + b(1 − f ) [ a(1 − f ) + b(1 + f )
µL (Tf (F )) = µL (Tf ([a, b])) = µL a, , b
2 2
   
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= µL a, + µL , b
2 2
    
a(1 + f ) + b(1 − f ) a(1 − f ) + b(1 + f )
= −a + b−
2 2

= (1 − f )(b − a)

= (1 − f )µL (F ) . (17.13)

É também claro que para todo F ∈ F0 da forma F = F1 ∪ · · · ∪ Fk , onde os Fj são intervalos fechados
finitos e disjuntos, tem-se
µL (F) = µL (F1 ) + · · · + µL (Fk ) .
Segue também de (17.12) que se F = F1 ∪ · · · ∪ Fk então

µL (Tf (F)) = µL (Tf (F1 ) ∪ · · · ∪ Tf (Fk )) = µL (Tf (F1 )) + · · · + µL (Tf (Fk ))

k
X
= (1 − f ) µL (Fj ) = (1 − f )µL (F) ,
j=1

ou seja,
µL (Tf (F)) = (1 − f )µL (F) . (17.14)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 866/1195

Desses fatos, é muito fácil provar por indução que

µL (Tfn (F )) = (1 − f )n µL (F ) . (17.15)

para todo n ∈  e todo intervalo fechado finito F .

E. 17.9 Exercı́cio. Prove isso! 6

É bastante evidente por (17.11) que os bordos a e b de um intervalo fechado finito F = [a, b]
satisfazem a ∈ Tf (F ) e b ∈ Tf (F ). Daı́, concluı́-se também que a e b são elementos de todos os
conjuntos Tfn (F ). Assim,

Un, f (F ) := F \ Tfn (F ) = F ∩ (Tfn (F ))c = F 0 ∩ (Tfn (F ))c .

Aqui F 0 := (a, b), o interior de F . Como os conjuntos Tfn (F ) são fechados, os conjuntos Un, f (F ) são
sub-conjuntos abertos de F , por serem a intersecção de dois abertos: F 0 e (Tfn (F ))c . Note-se que

Un, f (F ) ⊂ Un+1, f (F ), ∀n∈  , (17.16)

pois Tfn+1 (F ) = Tf (Tfn (F )) ⊂ Tfn (F ).


Teremos também que

µL (Un, f (F )) = µL (F ) − µL (Tfn (F )) = [1 − (1 − f )n ] µL (F ) .

Para um intervalo fechado finito para F = [a, b] e uma fração f , definimos o Cf (F ) por
\
Cf (F ) := Tfn (F ) .
n∈ 

O conjunto de Cantor ternário C1/3 , que definimos informalmente páginas acima, corresponde a C1/3 ([0, 1]).
Note que Cf (F ) não é vazio, pois contem pelo menos os pontos a e b, assim como os pontos
a(1+f )+b(1−f )
2
e a(1−f )+b(1+f
2
)
e, em verdade, todos os pontos que formam as bordas de cada intervalo
fechado finito que compõe os conjuntos Tfn (F ), pois, como observamos acima, cada aplicação Tf mantem
esses pontos no conjunto resultante.
A primeira observação que fazemos sobre Cf (F ) é que se trata de um sub-conjunto fechado de F ,
pois é uma intersecção de fechados. Definimos também

Uf (F ) := F \ Cf (F ) = F ∩ (Cf (F ))c = F 0 ∩ (Cf (F ))c , (17.17)

que é naturalmente um sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (Cf (F ))c .
Vemos que
!c !
\ [ c
[ c  [
Uf (F ) = F 0 ∩ Tfn (F ) = F0 ∩ Tfn (F ) = F 0 ∩ Tfn (F ) = Un, f (F ) .
n∈  n∈  n∈  n∈ 

É possı́vel também provar (mas não o faremos aqui) que Cf (F ) tem a mesma cardinalidade de . 

Fora isso, Cf (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte alguma
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 867/1195

e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 21.1, página
968). Assim, pela definição geral da página 973, Cf (F ) é um conjunto de Cantor.
Vamos agora determinar a medida de Lebesgue de Cf (F ) e de Uf (F ), começando pela segunda.
Por (17.16), podemos aplicar a propriedade geral de medidas 3 da página 842 e concluir que

µL (Uf (F )) = lim µL (Un, f (F )) = lim [1 − (1 − f )n ] µL (F ) = µL (F ), (17.18)


n→∞ n→∞

já que 0 < (1 − f ) < 1. Por (17.17) tem-se também que µL (Uf (F )) = µL (F ) − µL (Cf (F )) e concluı́mos
que
µL (Cf (F )) = 0 .

Cf (F ) é assim um sub-conjunto fechado, denso em parte alguma, denso em si mesmo e com a


cardinalidade de  mas com medida de Lebesgue nula! Seu complemento em F , que é o aberto Uf ,
tem a mesma medida que F !
Os conjuntos de Cantor Cf (F ) têm uma outra propriedade interessante: são conjuntos fractais. A
eles pode-se atribuir uma dimensão (chamada de dimensão de Hausdorff) que não é um número inteiro,
no caso, um número real positivo menor que 1 relacionado a f . Especificamente para o conjunto de
Cantor ternário C1/3 , a dimensão de Hausdorff é ln(2)/ ln(3) (vide e.g. [35]). Apesar de os mesmos
terem medida de Lebesgue nula, há uma outra medida (denominada medida de Hausdorff) que pode
ser definida em F e que não se anula em Cf (F ). Não trataremos de sua construção na presente versão
destas Notas, mas a mesma segue passos semelhantes à construção da medida de Lebesgue, através
de uma medida exterior e evocando o Teorema de Caratheodory. O leitor interessado poderá colher
informações mais técnicas sobre tais assuntos em textos como [51] e, especialmente, [35].

• Ainda mais exemplos de conjuntos de Cantor (com uma surpresa)

As idéias a a construção dos conjuntos de Cantor Cf (F ), acima, podem ser generalizadas ainda
mais. Seja {f } := {fj , j ∈ } uma seqüência de frações. Cada fj satisfaz 0 < fj < 1, mas não


precisam ser todos iguais. Para n ∈ , defina-se




n
T{f } ≡ T fn ◦ · · · ◦ T fn . (17.19)
n
Pelas mesmas razões que acima (confira!), cada T{f } é também uma aplicação de F0 em F0 .

n
Nota. O estudante deve atentar para o fato que o n que aparece no expoente de T {f } representa o
número de aplicações que aparecem compostas no lado direito de (17.19), não uma potência de uma
única aplicação.
Para um intervalo fechado e finito F = [a, b], tem-se também que
n
T{f } (F ) = Tfn ◦ · · · ◦ Tfn (F ) ⊂ F .

n n
Como antes, os conjuntos T{f } (F ) são compostos por 2 intervalos fechados e as bordas desses intervalos
m
estarão contidas em todos os conjuntos T{f } (F ) com m > n. Fora isso,

m n
T{f } (F ) ⊂ T{f } (F ), para todos m > n . (17.20)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 868/1195

m n
Em verdade os T{f } (F ) são sub-conjuntos próprios de T{f } (F ) para todos m > n. Temos também que

n n c 0 n c
Un, {f } (F ) := F \ T{f } (F ) := F ∩ (T{f } (F )) = F ∩ (T{f } (F )) .

n
Como os conjuntos T{f } (F ) são fechados, os conjuntos Un, {f } (F ) são sub-conjuntos abertos de F , por
serem a intersecção de dois abertos: F 0 e (T{f n c
} (F )) . Note-se novamente que

Un, {f } (F ) ⊂ Um, f (F ), ∀n<m, (17.21)

por (17.20).
Definimos então, em completa analogia com o apresentado acima, os conjuntos
\
n
C{f } (F ) := T{f } (F ) .
n∈ 

e
U{f } (F ) := F \ C{f } (F ) = F ∩ (C{f } (F ))c = F 0 ∩ (C{f } (F ))c .
C{f } (F ) é também um sub-conjunto fechado de F , pois é uma intersecção de fechados. U{f } (F ) é um
sub-conjunto aberto de F , por ser a intersecção de dois abertos: F 0 e (C{f } (F ))c . Vemos novamente
que
!c !
\ [  c
[ c  [
U{f } (F ) = F 0 ∩ n
T{f } (F ) = F 0∩ n
T{f } (F ) = F 0 ∩ T{fn
} (F ) = Un, {f } (F ) .
n∈  n∈  n∈  n∈ 

É possı́vel também provar (mas não o faremos aqui) que C{f } (F ) tem a mesma cardinalidade de
 . Fora isso, C{f } (F ) compacto (por ser fechado e limitado) totalmente desconexo, denso em parte
alguma e denso em si mesmo e, portanto, é perfeito. (Essas definições são apresentadas na Seção 21.1,
página 968). Assim, pela definição geral da página 973, Cf (F ) é um conjunto de Cantor.
Quanto à medida de Lebesgue de C{f } (F ), ocorre aqui uma surpresa. Como antes, temos que
µL (U{f } (F )) = µL (F ) − µL (C{f } (F )) e que

µL (U{f } (F )) = lim µL (Un, {f } (F )) .


n→∞

Vamos porém, calcular µL (Un, {f } (F )). Sabemos que


n
µL (Un, {f } (F )) = µL (F ) − µL (T{f } (F )) .

Agora,
n n−1 n−1
µL (T{f } (F )) = µL (Tfn ◦ T{f } (F )) = (1 − fn )µL (T{f } (F )) = (1 − fn ) · · · (1 − f1 )µL (F ) ,

onde, acima, usamos (17.14). Dessa forma,


" n
#
Y
µL (Un, {f } (F )) = 1− (1 − fj ) µL (F )
j=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 869/1195

e, portanto, usando novamente a propriedade geral de medidas 3 da página 842, tem-se


" n
# " n
#
Y Y
µL (U{f } (F )) = lim 1 − (1 − fj ) µL (F ) = 1 − lim (1 − fj ) µL (F ) .
n→∞ n→∞
j=1 j=1

O ponto, porém, é que, aoQcontrário do caso anterior quando todos os f j ’s eram iguais, não se pode
sempre concluir que limn→∞ nj=1 (1 − fj ) = 0 mesmo que 0 < (1 − fj ) < 1 para todo j. Tomemos, por
2
exemplo, a seqüência fj = 1 − e−1/j . Teremos
n n
! ∞
!
Y X 1 X 1 −π 2 /6
lim (1 − fj ) = lim exp − 2
= exp − 2
= e > 0
n→∞
j=1
n→∞
j=1
j j=1
j

e, com isso, h i
−π 2 /6
µL (U{f } (F )) = 1−e µL (F ) < µL (F )
e
2 /6
µL (C{f } (F )) = e−π µL (F ) > 0 .
O conjunto de Cantor C{f } (F ) com a seqüência {f } dada acima tem medida de Lebesgue não-nula.

• Condição para os conjuntos C{f } (F ) terem medida de Lebesgue não-nula

Voltando a seqüências {fj , j ∈ } gerais, concluı́mos do Lema 17.2, a seguir, que uma condição


necessária e suficiente para que C{f } (F ) tenha medida de P Lebesgue não-nula é que a seqüência de
frações {f } = {fj , 0 < fj < 1, j ∈ } seja somável, ou seja ∞


j=1 fj < ∞.
P
No caso do conjunto de Cantor ternário C1/3 , essa condição é violada, pois obviamente ∞j=1 1/3 =
∞, o mesmo se dando para os conjuntos Cf (com 0 < f ).
Lema 17.2 Se {fj , j ∈ } é uma seqüência de números tais que 0 < fj < 1 para todo j, então a


n
Y ∞
X
condição para que lim (1 − fj ) > 0 é equivalente à condição ln(1 − fj ) < ∞. Essa por sua vez
n→∞
j=1 j=1

X
é equivalente à condição fj < ∞. 2
j=1

Prova. Notemos primeiro que


n n
!
Y X
(1 − fj ) = exp − [− ln(1 − fj )] .
j=1 j=1
Qn P
Logo, limn→∞ j=1 (1 − fj ) > 0 se e somente se a série de números positivos ∞ j=1 [− ln(1 − fj )] for
finita. Estudemos uma condição necessária e suficiente para que isso ocorra. Para x ∈ [0, 1) tem-se
que x ≤ − ln(1 − x). Isso se vê notando que a função
x
f (x) := −x − ln(1 − x) satisfaz f 0 (x) = ≥ 0
(1 − x)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 870/1195

para x ∈ [0, 1), o que mostra que Pnf é crescente


Pn nesse intervalo. Como f (0) = 0, concluı́mos que
f (x) ≥ 0 para
P∞ x ∈ [0, 1). Assim, f
j=1 j ≤ P∞ j=1 ln(1 − fj ), mostrando que se a série de números

positivos − j=1 ln(1 − fj ) for finita, a série j=1 fj também o será.
P
Reciprocamente, suponhamos que ∞ j=1 fj converge. Seja M um número fixo tal que 0 < M < 1.
Vamos mostrar que existe um J tal que fj < M para todo j > J. Para isso, vamos supor o contrário
e assumir que
P P∞haja uma P∞coleção infinita fj1 , fj2 , . . . tal que fjl ≥ M para todo l ≥ 1. Terı́amos que

j=1 fj ≥ l=1 fjl ≥ l=1 M = ∞, uma contradição. Assim, a coleção fj1 , fj2 , . . . deve ser finita e
podemos tomar J como o maior dos ı́ndices jl . Podemos então escrever

X J
X ∞
X
fj = fj + fj
j=1 j=1 j=J+1

com a garantia que na, última soma, todo fj satisfaz 0 < fj < M para um certo 0 < M < 1 fixado.
Agora, observemos que no intervalo [0, M ] a função g(x) := − ln(1 − x) é contı́nua, limitada,
diferenciável e satisfaz g 00 (x) = 1/(1 − x)2 > 0. Assim, g é convexa10 naquele intervalo e, portanto,
tem-se
(g(M ) − g(0))
g(x) ≤ g(0) + x,
M
ou seja,
ln(1 − M )
− ln(1 − x) ≤ − x, (17.22)
M
desigualdade essa que pode ser constatada graficamente11 . Logo,

X J
X ∞
X J
X ∞
ln(1 − M ) X
− ln(1 − fj ) = − ln(1 − fj ) − ln(1 − fj ) ≤ − ln(1 − fj ) − fj .
j=1 j=1 j=J+1 j=1
M j=J+1

P∞ P∞
Todavia, a soma j=J+1 fj é finita, por hipótese, provando que − j=1 ln(1 − fj ) também o é.

Vimos assim que existem inúmeros conjuntos de Cantor C{f } (F ) com medida de Lebesgue não-
nula. A existência de conjuntos com tais propriedades é um dos fatos mais surpreendentes da Teoria
da Medida. Nenhuma intuição a justifica ou esclarece.
Conjuntos de Cantor e outros conjuntos fractais (como a curva de Koch da Figura 16.1, página
848) podem ser contruı́dos em várias dimensões e não são apenas uma curiosidade matemática, pois
podem ser observados na natureza. A Figura 17.2, página 873, mostra imagens dos anéis de Saturno, os
quais exibem uma complexa estrutura de lacunas em várias escalas, muito à semelhança dos conjuntos
C{f } (F ). As lacunas são causadas por ressonâncias dos perı́odos das órbitas das partı́culas que compõe
10
O estudante poderá encontrar um estudo detalhado das propriedades de funções convexas em vários textos, por
exemplo em [118].
11
O estudante poderá convencer-se da validade da desigualdade (17.22) se fizer um gráfico das funções − ln(1 − x) e
ln(1−M )
− M x no intervalo [0, M ].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 871/1195

os anéis com perı́odos das órbitas de alguns satélites de Saturno. Lacunas desse tipo ocorrem também
no cinturão de asteróides e são conhecidos como gaps de Kirkwood 12 . No caso do cinturão de asteróides,
as lacunas são causadas por ressonâncias com o perı́odo da órbita de Júpiter 13 . Vide Figura 17.3, página
874.
Conjuntos como os de Cantor e outros conjuntos fractais ocorrem também em diversos sistemas
dinâmicos e no espectro de certos operadores Hamiltonianos na Mecânica Quântica. A Figura 17.4,
página 875, exibe a chamada “borboleta de Hofstadter”14 , que representa o espectro quântico de um
elétron se movendo em um plano bidimensional sob a ação de um potencial periódico e de um campo
magnético constante perpendicular a esse plano. O eixo horizontal representa o espectro de energias
e o vertical o fluxo φ do campo magnético em cada célula do potencial periódico bidimensional (em
unidades de hc/e). Quando φ é um racional da forma φ = p/q (com p e q irredutı́veis) o espectro possui
q bandas e q + 1 lacunas. Quando φ é irracional, o espectro é um conjunto de Cantor.
Todos esses assuntos são objeto de pesquisa atual.

17.3 Bases de Hamel e a Medida de Lebesgue


Nesta seção discutiremos um exemplo de sub-conjunto da reta real que tem a propriedade de ser


Lebesgue-mensurável mas que não é Boreliano. A saber, mostraremos que existem bases de Hamel
da reta real (definidas à página 95 e seguintes) que são mensuráveis por Lebesgue sendo que, porém,
nenhuma base de Hamel é um conjunto Boreliano.
O primeiro resultado é o seguinte:
Proposição 17.4 Se B0 é um sub-conjunto do conjunto de Cantor C1/3 ⊂ [0, 1] que seja maximal-
mente linearmente independentes por racionais, então B = B0 + é uma Base de Hamel. 2

Notemos que B0 é mensurável por Lebesgue, por ser subconjunto de um conjunto de medida de
Lebesgue nula, a saber, C1/3 (vide Proposição 17.1, página 857). Portanto, µL (B) = µL (B0 ) = 0.
Naturalmente, B é uma base de Hamel mensurável por Lebesgue, por ser união contável de conjuntos
mensuráveis pode Lebesgue.

Prova. Pelo Lema 17.1, página 862, todo x ∈ [0, 1] pode ser escrito como uma combinação linear
por racionais de dois elementos do conjunto de Cantor ternário C1/3 . Por uma simples aplicação
do Lema de Zorn (faça!), pode-se facilmente provar que C1/3 possui pelo menos um subconjunto de
elementos linearmente independentes por racionais. Denotemos um tal sub-conjunto por B0 . Assim,
12
Daniel Kirkwood (1814-1895). Os gaps, ou lacunas, de Kirkwood foram descobertos no cinturão de asteróides em
1866.
13
Mais comentários e referências sobre o assunto podem ser encontrados em “Regular and Irregular Motion”. M. V.
Berry. Topics in Nonlinear Dynamics (ed. S. Jorna) Am. Inst. Phys. Conf. Proc. 46 16-120 (1978). Vide também
“Nature of the Kirkwood Gaps in the asteroid belt”, S. F. Dermott and C. D. Murray. Nature 301, 201-205 (1983).
Ambos os trabalhos encontram-se republicados em [85].
14
Douglas R. Hofstadter. “Energy levels and wave functions of Bloch electrons in rational and irrational magnetic
fields”. Phys. Rev. B 14, 2239 (1976).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 872/1195

todo elemento de C1/3 pode ser escrito como uma combinação linear finita por racionais de elementos
de B0 . Juntando isso à observação anterior, concluı́mos que todo elemento de [0, 1] pode ser escrito
como combinação linear finita por racionais de elementos de B0 . Repetindo-se isso em cada intervalo
[m, m + 1] com m ∈ a proposição está demonstrada.

Isso demonstrou que há bases de Hamel mensuráveis por Lebesgue. Tem-se porém, o seguinte fato,
devido a Sierpiński15 , cuja demonstração omitiremos:
Teorema 17.1 Nenhuma base de Hamel em  é Boreliana. 2

Com isso, a base de Hamel construı́da acima a partir de um sub-conjunto linearmente independentes
por racionais do conjunto de Cantor é um exemplo de um conjunto mensurável por Lebesgue mas não-
Boreliano.
Em verdade nem toda base de Hamel é mensurável por Lebesgue. Vale, todavia, o seguinte fato,
que provaremos abaixo: uma base de Hamel é mensurável por Lebesgue se e somente se sua medida de
Lebesgue for nula. Precisaremos da seguinte proposição:
Proposição 17.5 Se A ⊂ é um conjunto com medida de Lebesgue positiva, ou seja, µ L (A) > 0,


então existe um intervalo aberto Iα = (−α, α), α > 0, tal que todo elemento x de Iα pode ser escrito
na forma x = a1 − a2 , com a1 , a2 ∈ Iα . 2

A proposição acima tem uma generalização no contexto da medida de Haar em grupos topológicos
localmente compactos (como é o caso da medida de Lebesgue na reta real).
Proposição 17.6 Uma base de Hamel B da reta real é mensurável por Lebesgue se e somente se
µL (B) = 0. 2

Prova. Se B não for mensurável por Lebesgue não há o que se provar. Suponhamos então que B é
mensurável por Lebesgue. Então, ou µL (B) = 0 ou µL (B) > 0. Vamos supor que µL (B) > 0. Pela
Proposição 17.5 existem números racionais não-nulos r e s (ambos contidos em algum intervalo (−α, α)
conveniente) tais que r = b1 − b2 e s = b3 − b4 , com b1 , b2 , b3 , b4 ∈ B. Seja t = r/s, que obviamente
é racional. Concluı́mos de r = ts que b1 − b2 = t(b3 − b4 ). Mas isso é impossı́vel, pois essa expressão
contraria o fato de que os elementos de B são linearmente independentes por racionais. Logo, se B é
mensurável por Lebesgue só podemos ter µL (B) = 0.

A Proposição 17.4 mostrou que a proposição anterior não é vazia no seguinte sentido: existem bases
de Hamel mensuráveis por Lebesgue.

15
Waclaw Sierpiński (1882-1969). O Teorema 17.1 encontra-se em “Sur la question de la mesurabilité de la base de M.
Hamel”. Fund. Math. 1, 105-111 (1920).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 873/1195

Figura 17.2: As três imagens acima mostram trechos em diferentes escalas dos anéis de Saturno. As
imagens foram obtidas pelas sondas Voyager 1 e 2. A Voyager 1 fez sua melhor aproximação a Saturno
em 12 de novembro de 1980 e a Voyager 2 em 26 de agosto de 1981, a distâncias de 124.000 km e
101.000 km, respectivamente.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 874/1195

Figura 17.3: Histograma exibindo os Gaps de Kirkwood do cinturão de asteróides.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 17 875/1195

Figura 17.4: A “borboleta de Hofstadter”. O eixo horizontal representa o espectro quântico de energias
de um elétron movendo-se em um plano bidimensional sob a ação de um potencial periódico e de um
campo magnético constante perpendicular a esse plano. O eixo vertical representa o fluxo φ do campo
magnético em cada célula do potencial periódico bidimensional (em unidades de hc/e). Na figura, φ
varia entre 0 e 1.
Capı́tulo 18
Convergência, Pontos Limite e Pontos de
Acumulação em Espaços Topológicos
Conteúdo

18.1 Primeiras Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 876


18.2 Espaços Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 878
18.3 O Limite do Ínfimo e o Limite do Supremo . . . . . . . . . . . . . . . . . . 879
18.4 Redes e o Caso de Espaços Topológicos Gerais . . . . . . . . . . . . . . . . 884
18.4.1 Redes em Espaços Métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886

amos neste capı́tulo tratar de forma mais aprofundada o conceito de convergência, o qual
foi introduzido anteriormente para o caso especial de seqüências em espaços métricos (vide
Capı́tulo 13). Será dada particular atenção aos espaços do tipo Hausdorff, que serão definidos
abaixo, e à noção de rede em um espaço topológico geral.

18.1 Primeiras Definições


Dado um espaço topológico X, uma seqüência x é uma função x : → X. Por vezes estamos


interessados em considerar uma seqüência apenas através de seu conjunto imagem: Im x = {x(n) ∈
X, n ∈ }. Os elementos da seqüência são os valores x(n), que freqüentemente são denotados apenas


por xn . Com um certo abuso de linguagem é costume referir-nos à seqüência x como sendo {x(n) ∈
X, n ∈ }, ou denotamo-la por {xn , n ∈ } ou mesmo por {xn } ou até apenas por xn . Em geral,
 

essas notações são mais práticas e não causam confusão. A noção tradicional de convergência de uma
seqüência em um espaço métrico é a seguinte:
Seja M um espaço métrico com métrica d e seja {an } uma seqüência em M . Dizemos que {an }
converge a um elemento a ∈ M se para todo  > 0 existir N ≡ N () ∈ tal que d(a n , a) <  sempre


que n > N .
Abaixo vamos apresentar uma nova noção de convergência de seqüências em espaços topológicos
gerais que é equivalente àquela apresentada acima no caso de espaços métricos. Comecemos com duas
noções úteis. Seja x uma seqüência em X e A ⊂ X.

1. Dizemos que a seqüência x está eventualmente em A se existir um natural N ≡ N (A) (que pode
eventualmente depender de A) tal que xn ∈ A para todo n > N .

2. Dizemos que a seqüência x está freqüentemente em A se houver infinitos valores de n para os


quais xn ∈ A.

876
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 877/1195

Se uma seqüência x está eventualmente em A, então ela está freqüentemente em A, mas a recı́proca
não é necessariamente verdadeira. Por exemplo, a seqüência de números reais a n = (−1)n está freqüen-
temente no intervalo (0, 2), mas não eventualmente.

Nota. Nas definições aqui apresentadas estamos fazendo uso do ordenamento usual de  . Para o caso
geral vide a Seção 18.4 sobre redes em espaços topológicos.
Definamos agora as noções de ponto de acumulação e ponto limite de uma seqüência x em X, um
conjunto dotado de uma topologia τ .

1. Um ponto x em X é dito ser um ponto de acumulação da seqüência x em relação à topologia τ


de X se x está freqüentemente em todo aberto A ⊂ τ que contém x.

2. Um ponto x em X é dito ser um ponto limite, ou simplesmente limite, da seqüência x em relação


à topologia τ de X se x está eventualmente em todo aberto A ⊂ τ que contém x.

Note que todo limite é um ponto de acumulação, mas a recı́proca não é verdadeira.

E. 18.1 Exercı́cio. Mostre que {−1, +1} são os pontos de acumulação da seqüência x n := (−1)n +1/n,
n ∈ , n > 0 na topologia usual de . Essa seqüência tem limites nessa topologia? E a seqüência
 

xn := 1/n2 , n ∈ , n > 0?
 6

E. 18.2 Exercı́cio. Seja uma seqüência r : → tal que Im r = (tais seqüências existem pois
 

é contável). Mostre que é o conjunto de todos os pontos de acumulação de r na topologia usual de .


 

Mostre que r não tem limites na topologia usual de .  6

E. 18.3 Exercı́cio. Seja a seqüência do exercı́cio anterior, mas agora tome a topologia discreta ( ). 

Mostre que r não tem pontos de acumulação nessa topologia se a função r for injetora. 6

Se x é um limite da seqüência xn dizemos que xn converge a x e escrevemos x = lim xn .


n→∞

E. 18.4 Exercı́cio. Mostre que as duas noções de convergência que apresentamos acima são equivalentes
no caso de seqüências em espaços métricos. 6

O último exercı́cio nos afirma a equivalência, no caso de espaços métricos, dos dois conceitos de con-
vergência que apresentamos, mas é importante frisar que a convergência de uma seqüência é fortemente
dependente da topologia adotada. Isso pode ser claramente visto no exemplo discutido a seguir.
Uma seqüência {xn } em X é dita ser eventualmente constante se existir x ∈ X e N ∈  tais que
xn = x para todo n > N .
Seja, então, X um conjunto não-enumerável ( , por exemplo) e seja a topologia co-contável 1 em


X: τcc (X). Então, nenhuma seqüência que não seja eventualmente constante tem limites em X em
relação a τcc (X). Isso segue do seguinte. Seja x uma seqüência em X e seja x ∈ X um ponto qualquer
e seja ainda A := (Im x)c ∪ {x} = (Im x ∩ {x}c )c . Como Im x ∩ {x}c é contável, então A é aberto em
1
A topologia co-contável foi definida à página 817.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 878/1195

τcc (X) e contem x. Porém, x não está eventualmente em A se não for eventualmente constante, pois
Im x ∩ A = Im x ∩ {x}. Assim, para qualquer x ∈ X podemos achar um aberto que contem x onde x
não está eventualmente. Logo, nenhuma seqüência x tem limites na topologia considerada.
Um exemplo ilustrativo é o da seqüência xn = 1/n, n ∈ , n > 0, em . Na topologia co-contável
 

τcc ( ) essa seqüência não converge a zero, ao contrário do que ocorre na topologia usual, pois o conjunto


A := \ {1/n, n ∈ , n > 0} é aberto, contem x = 0, mas não contem nenhum elemento da seqüência
 

xn .
Em função de exemplos como esses, há pouca utilidade no conceito de convergência de seqüências
em certos espaços topológicos não-métricos. O que então normalmente se faz nesses casos é considerar
uma generalização do conceito de seqüência, conhecido como rede (“net” em inglês). Para esse novo
conceito há uma definição análoga de convergência que funciona de modo mais efetivo em espaços
topológicos gerais. Disso trataremos na Seção 18.4.

18.2 Espaços Hausdorff


Um espaço topológico X dotado de uma topologia τ é dito possuir a propriedade de Hausdorff 2 se para
quaisquer pontos distintos x, y ∈ X existirem dois abertos Ax e Ay em τ tais que x ∈ Ax , y ∈ Ay mas
Ax ∩ Ay = ∅.
Um espaço topológico que tem a propriedade Hausdorff é dito simplesmente ser um espaço Hausdorff,
ou do tipo Hausdorff. Vamos primeiro a alguns exemplos de espaços que não tem a propriedade
Hausdorff.
Seja X qualquer com a topologia indiscreta. Esse espaço não tem a propriedade de Hausdorff. Seja
X não finito com a topologia co-finita. Esse espaço não tem a propriedade de Hausdorff. Seja X
não-contável com a topologia co-contável. Esse espaço não tem a propriedade de Hausdorff. Para esses
dois últimos exemplos, vide página 818.

E. 18.5 Exercı́cio. Prove as afirmativas do último parágrafo. 6

Agora temos a seguinte proposição:


Proposição 18.1 Todo espaço métrico tem a propriedade de Hausdorff. 2

Demonstração. Seja M espaço métrico com métrica d, sejam x, y ∈ M distintos e seja r = d(x, y) > 0.
Sejam então os abertos Ax = Bd (x, r/3) e Ay = Bd (y, r/3). Suponha que exista um ponto z ∈ Ax ∩Ay .
Então, como z pertence ao mesmo tempo a Bd (x, r/3) e Bd (y, r/3), vale que d(x, z) < r/3 e
d(z, y) < r/3. Agora, pela desigualdade triangular tem-se r = d(x, y) ≤ d(x, z) + d(z, y) < 2r/3.
Porém, a desigualdade r < 2r/3 é absurda. Daı́, não pode existir qualquer ponto z em A x ∩ Ay .

Nem todo espaço Hausdorff é métrico. A topologia de Sorgenfrey3 τ [S] de (página 820) é Hausdorff


(prove isso!) mas não é métrica (vimos isso à página 827). O mesmo vale para a topologia ( ). 

2
Felix Hausdorff (1868-1942).
3
Robert Sorgenfrey (1915 - 1996).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 879/1195

Chegamos agora a uma propriedade importante de espaços Hausdorff, sejam eles espaços métricos
ou não.
Proposição 18.2 Uma seqüência em um espaço Hausdorff pode ter no máximo um ponto limite. 2

Prova. Suponha que uma seqüência a em um espaço Hausdorff X com topologia τ tenha dois limites
distintos x e y. Sejam Vx 3 x e Vy 3 y dois abertos disjuntos de τ contendo x e y, respectivamente. Que
tais abertos sempre existem é garantido pela propriedade de Hausdorff, que está sendo suposta. Então,
como a converge a x e a y, temos que an ∈ Vx para todo n > N (Vx ) e an ∈ Vy para todo n > N (Vy ).
Logo, an ∈ Vx ∩ Vy para todo n > max{N (Vx ), N (Vx )}. Isso contraria a hipótese que Vx ∩ Vy = ∅.

Corolário 18.1 Uma seqüência em um espaço métrico pode ter no máximo um limite. 2

Note que seqüências em espaços Hausdorff podem ter muitos pontos de acumulação.

E. 18.6 Exercı́cio. Seja A a coleção de todos os subconjuntos de 2 do tipo {(x, y) ∈ 2 , com a <
 

y < b para − ∞ < a < b < ∞} (faça um desenho de um tal conjunto). Seja τ [A] a topologia gerada por
tais conjuntos.

1. Mostre que τ [A] não é Hausdorff. Para tal, tente ver se é possı́vel encontrar dois abertos nessa
topologia que contenham os pontos x = (0, 0) e y = (1, 0), respectivamente, mas que não se
interceptem.
2. Mostre que a seqüência xn = (0, 1/n), n ∈ , n > 0 tem por limite todos os pontos da forma (x, 0)


para todo x ∈ . (Na topologia usual de 2 o único limite dessa seqüência é o ponto (0, 0)).
 

18.3 O Limite do Ínfimo e o Limite do Supremo


Recordemos a definição de conjunto dirigido. Um conjunto I é dito ser um conjunto dirigido se for
dotado de uma relação de ordem parcial, que denotaremos por “”, e se for dotado da seguinte
propriedade: para quaisquer dois elementos a e b de I existe pelo menos um terceiro elemento c ∈ I
tal que a  c e b  c.
Seja I um conjunto dirigido e α : I →  uma função de I em  . Denotaremos por αi o valor de α
no ponto i ∈ I.
Define-se o limite do ı́nfimo da função α como sendo
lim inf α = sup inf αk , (18.1)
I n∈I kn

ou, numa notação mais completa (e algo pedante),


lim inf α = sup ({inf ({αk , k  n, k ∈ I}) , n ∈ I}) . (18.2)
I
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 880/1195

Analogamente, define-se o limite do supremo da função α como sendo

lim sup α = inf sup αk , (18.3)


I n∈I kn

ou,
lim sup α = inf ({sup ({αk , k  n, k ∈ I}) , n ∈ I}) . (18.4)
I

As definições acima indicam que tanto o limite do supremo quanto o do ı́nfimo dependem da ordem
adotada . Omitiremos essa dependência para não carregar a notação.
É fácil provar que sempre se tem

lim inf α ≤ lim sup α. (18.5)


I I

Caso lim inf I α = lim supI α o limite de α é definido como sendo

lim α = lim inf α = lim sup α. (18.6)


I I I

• Invariância por Redução Inicial do Domı́nio

Que interesses há nas definições acima? Há vários. Um deles reside na seguinte propriedade.
Suponha que I possa ser escrito como uma união I = I0 ∪ J onde I0 e J têm as seguintes propriedades

1. Para todo i0 ∈ I0 existe pelo menos um j ∈ J tal que i0  j.

2. J é um conjunto dirigido pela mesma relação de ordem .

3. Para todo j ∈ J vale que se k  j então k ∈ J.

Então vale que


lim inf α = lim inf α
J I
e que
lim sup α = lim sup α,
J I

ou seja, os limites do ı́nfimo e do supremo de uma função em um conjunto dirigido não mudam se
subtrairmos de I um conjunto do “começo” de I (no caso, I0 ). Essa propriedade, que é uma das
principais razões de ser das definições de limite acima e que tem uma importância fundamental, será
denominada aqui invariância por redução inicial do domı́nio.
Vamos prová-la para o limite do ı́nfimo. O caso do limite do supremo é análogo. Como

sup(A ∪ B) = max{sup(A), sup(B)}

segue que

lim inf α = max {sup ({inf ({αk , k  n, k ∈ I}) , n ∈ I0 }) , sup ({inf ({αk , k  n, k ∈ I}) , n ∈ J})} .
I
(18.7)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 881/1195

Pelas hipóteses, existe para todo i0 ∈ I0 pelo menos um elemento j(i0 ) ∈ J com a propriedade que
j(i0 )  i0 . Logo, para cada i0 ∈ I0 tem-se

{ak , k  j(i0 ), k ∈ I} ⊂ {ak , k  i0 , k ∈ I}

e, assim,
inf({ak , k  j(i0 ), k ∈ I}) ≥ inf({ak , k  i0 , k ∈ I}).
Dado que
sup ({inf ({αk , k  j, k ∈ I}) , j ∈ J}) ≥ inf ({αk , k  j(i0 ), k ∈ I})
segue que para cada i0 ∈ I0 fixo

sup ({inf ({αk , k  j, k ∈ I}) , j ∈ J}) ≥ inf({ak , k  i0 , k ∈ I}).

Assim,

sup ({inf ({αk , k  j, k ∈ I}) , j ∈ J}) ≥ sup ({inf ({αk , k  n, k ∈ I}) , n ∈ I0 }) .

Como lim inf I α é o máximo entre os elementos de cada lado da última desigualdade (veja (18.7)),
provou-se que
lim inf α = sup ({inf ({αk , k  n, k ∈ I}) , n ∈ J}) .
I

Claramente, para cada n ∈ J

{αk , k  n, k ∈ I} = {αk , k  n, k ∈ J}

pois se k  n com n ∈ J então tem-se que k ∈ J (propriedade 3 da definição de I0 e J). Assim,

lim inf α = sup ({inf ({αk , k  n, k ∈ J}) , n ∈ J}) = lim inf α.


I J

• Limite do Supremo e Limite do Ínfimo de um Conjunto

Recordemos a seguinte definição. Seja X um conjunto com uma topologia τ . Seja A um subconjunto
de X. Um ponto x ∈ X é dito ser um ponto limite de A se todo aberto T ∈ τ que contiver x contiver
pelo menos um ponto de A distinto x. Ou seja, se x ∈ T então (T ∩ A) \ {x} 6= ∅.
Denotaremos por pt(A) o conjunto de pontos limite de de A.
Vamos supor que X seja parcialmente ordenado. Definimos então

lim sup A = sup(pt(A))


τ

e
lim inf A = inf(pt(A)).
τ

desde, é claro, que os supremos e ı́nfimos existam em X. Como antes essa definição depende do
ordenamento adotado em X.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 882/1195

• Advertência

Seja I como antes um conjunto dirigido e seja uma função α : I → . Denotemos por Im(α) a 

imagem de α. Adotemos em a topologia usual τ e o ordenamento usual.





É então tentador fazermos a seguinte pergunta: será verdade que lim inf I α = lim inf τ Im(α) e que
lim supI α = lim supτ Im(α)?
A resposta pode ser sim ou não dependendo do tipo de ordenamento adotado em I. Vejamos os
seguintes exemplos.
Exemplo 1. Adotemos I = e em  adotemos o ordenamento usual. Tomemos como função a
seqüência α definida da seguinte forma

−1 − 1/n, para n par
αn := .
1 + 1/n, para n ı́mpar

O conjunto Im(α) tem dois pontos limite, a saber, −1 e +1. Assim,

lim inf Im(α) = −1 e lim sup Im(α) = 1.


τ τ

É também fácil de provar que

lim inf α = −1 e lim sup α = 1.




E. 18.7 Exercı́cio. Verifique isso. 6

Exemplo 2. Adotemos X = e em adotemos o seguinte ordenamento : se n e m são ambos




pares ou ambos ı́mpares então n  m se n ≤ m. Entanto, se n é par e m é ı́mpar temos sempre que
n ≺ m.
Esse ordenamento coloca todos os pares como “menores” que todos os ı́mpares. Entre os pares e
entre os ı́mpares o ordenamento é o usual.
Tomemos a mesma seqüência α definida acima. Claramente continuamos tendo

lim inf Im(α) = −1 e lim sup Im(α) = 1.


τ τ

Porém, com o ordenamento dos naturais adotado, temos que

lim inf α = 1 e lim sup α = 1.


 ,  ,

E. 18.8 Exercı́cio. Verifique isso. 6

• Mais Sobre O Limite do Supremo e Sobre o Limite do Ínfimo


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 883/1195

Verificamos acima que não é verdadeira em geral a afirmativa que o limite do supremo de uma
seqüência coincide com o supremo dos pontos limite de sua imagem. Há porém uma relação entre o
limite do supremo e os pontos de acumulação da seqüência.
Tomemos I como sendo o conjunto dos naturais com o ordenamento usual e seja α : I →  uma
seqüência. Adotamos em a topologia usual e o ordenamento usual.


Seja Ac(α) o conjunto de todos os pontos de acumulação da seqüência α.


Tem-se então que
lim inf α = inf(Ac(α))
I
e que
lim sup α = sup(Ac(α)).
I

Não apresentaremos a prova aqui. Observamos, porém, que esse fato é verdadeiro qualquer que seja
o ordenamento adotado em . Para provar isso precisamos ainda introduzir o conceito de ponto de


acumulação para funções definidas em conjuntos dirigidos gerais, o que faremos na Seção 18.4 sobre
redes.

E. 18.9 Exercı́cio. Seja a seqüência cn = sen (1/n), n = 1, 2, 3, . . .. Determine seus pontos de


acumulação, lim sup cn e lim inf cn . 6

E. 18.10 Exercı́cio. Sejam cn e dn duas seqüências limitadas de números reais. Mostre as seguintes
desigualdades.

1. lim sup(cn + dn ) ≤ lim sup cn + lim sup dn .


n→∞ n→∞ n→∞

2. lim sup(cn dn ) ≤ (lim sup cn )(lim sup dn ).


n→∞ n→∞ n→∞

3. Para todo a > 0 vale lim sup(acn ) = a lim sup cn .


n→∞ n→∞

4. Para todo a < 0 vale lim sup(acn ) = a lim inf cn .


n→∞ n→∞

O estudante pode estar se perguntando por que não temos sempre simplesmente a igualdade
lim sup(cn + dn ) = lim sup cn + lim sup dn . Veja o que ocorre no exemplo simples onde cn = (−1)n
e dn = −(−1)n . Aqui temos lim sup(cn + dn ) = lim sup 0 = 0, mas lim sup cn = +1 e lim sup dn = +1.
Logo, lim sup(cn + dn )0 < 2 = lim sup cn + lim sup dn e a igualdade, portanto, não é válida nesse caso.

E. 18.11 Exercı́cio. Seja an uma seqüência de números reais. Mostre que

lim sup(−an ) = − lim inf an .


n→∞ n→∞

6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 884/1195

E. 18.12 Exercı́cio. Sejam cn e dn duas seqüências de números reais tais que cn ≤ dn para todo n ∈  .
Mostre que
lim sup cn ≤ lim sup dn e lim inf cn ≤ lim inf dn .
n→∞ n→∞ n→∞ n→∞

18.4 Redes e o Caso de Espaços Topológicos Gerais


Seja I um conjunto dirigido com respeito à uma relação de ordem parcial  (a noção de “conjunto
dirigido” foi introduzida à página 31). Se X é um conjunto não-vazio, uma função f : I → X é
denominada uma rede baseada no conjunto dirigido I com respeito a . O estudante deve observar
que uma seqüência é uma rede baseada em , que é um conjunto dirigido com respeito à ordem usual


dos naturais.
Redes são, portanto, generalizações da noção de seqüências e assumem em espaços topológicos gerais
um papel semelhante ao de seqüências em espaços métricos.
De modo análogo ao que costumeiramente se faz com seqüências, designaremos uma rede x : I → X
por {xλ }λ∈I , por {xλ , λ ∈ I}, ou simplesmente por xλ , sendo I e  subentendidos.
Vamos a algumas definições. Seja uma rede {xλ }λ∈I em X com I sendo dirigido por .

1. Dizemos que {xλ }λ∈I está freqüentemente em A ⊂ X se para todo λ ∈ I existir um λ0 ∈ I com
λ  λ0 tal que xλ0 ∈ A.
2. Dizemos que {xλ }λ∈I está eventualmente em A ⊂ X se existe λ0 ∈ I tal que xλ ∈ A para todo
λ  λ0 .
3. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto de acumulação de {x λ }λ∈I
com respeito a τ se {xλ }λ∈I estiver freqüentemente em qualquer τ -aberto que contem x. Nesse
caso, dizemos que {xλ }λ∈I acumula-se em x com respeito a τ .
4. Se (X, τ ) for um espaço topológico, dizemos que x ∈ X é um ponto limite de {xλ }λ∈I com
respeito a τ se {xλ }λ∈I estiver eventualmente em qualquer τ -aberto que contem x. Nesse caso,
dizemos que {xλ }λ∈I converge a x com respeito a τ .

O estudante deve notar que essas definições correspondem perfeitamente àquelas introduzidas para
seqüências à página 876 e seguinte.
Se (X, τ ) for um espaço topológico e x ∈ X, seja Ix a coleção de todos os τ -abertos que contem x.
Então, Ix é um conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.

E. 18.13 Exercı́cio. Prove essa afirmação. 6

Seja (X, τ ) um espaço topológico, x ∈ X e B ⊂ X. A coleção Ix, B := {A ∩ B, A ∈ Ix } é um


conjunto dirigido pelo ordenamento parcial definido pela inclusão de conjuntos ⊆.

E. 18.14 Exercı́cio. Prove essa afirmação. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 885/1195

Esses dois exercı́cios nos preparam para as seguintes proposições relevantes.


Proposição 18.3 Sejam (X, τ ) um espaço topológico, x ∈ X e Ix a coleção de todos os τ -abertos que
contem x. Seja {xA }A∈Ix uma rede em X com base no conjunto dirigido Ix . Se a rede {xA }A∈Ix tiver
a propriedade que xA ∈ A para todo A ∈ Ix , então {xA }A∈Ix converge a x. 2

A prova é quase imediata pelas definições e deixada ao leitor como exercı́cio.


Proposição 18.4 Se (X, τ ) for um espaço topológico e B ⊂ X, então x ∈ B se e somente se existir
uma rede em B que converge a x. 2

Prova. Precisamos primeiro provar que se x ∈ B então existe uma rede {xλ }λ∈I que converge a x com a
propriedade que xλ ∈ B para todo λ ∈ I. Sabemos que todo elemento de Ix tem intersecção não-vazia
com B, pela definição de fecho de um conjunto. Assim o conjunto Ix, B definido em exercı́cio acima
é não vazio, é um subconjunto de B e é um conjunto dirigido pelo ordenamento parcial definido pela
inclusão de conjuntos ⊆. Por uma ligeira variação da proposição anterior, é fácil ver que qualquer rede
baseada em Ix, B e que a cada A ∈ Ix, B associe xA ∈ A converge a x e está, claramente, contida em B.
Vamos agora provar que se uma rede {xλ }λ∈I com xλ ∈ B para todo λ ∈ I converge a x, então
x ∈ B. Se {xλ }λ∈I converge a x, então {xλ }λ∈I está eventualmente em cada aberto A que contém x.
Isso implica que cada aberto A que contém x contem elementos de {xλ }λ∈I , que estão em B. Logo,
A ∩ B 6= ∅, provando que x ∈ B.

O conceito de rede permite mais uma caracterização de espaços Hausdorff. A proposição abaixo
generaliza um fato bem conhecido de espaços métricos.
Proposição 18.5 Um espaço topológico (X, τ ) é do tipo Hausdorff se e somente se toda rede em X
que for convergente tiver apenas um ponto limite. 2

Prova. Seja (X, τ ) é do tipo Hausdorff e seja {xλ }λ∈I uma rede em X que converge a a e a b com
a 6= b. Podemos encontrar A ∈ τ contendo a e B ∈ τ contendo b tais que A ∩ B = ∅. Mas isso é
impossı́vel, pois se {xλ }λ∈I converge a a e a b, então {xλ }λ∈I está eventualmente em A e B, o que
contradiz A ∩ B = ∅.
Vamos agora supor que o espaço topológico (X, τ ) tem a propriedade que toda rede em X que
for convergente tem apenas um ponto limite. Se (X, τ ) não é do tipo Hausdorff então existem a e b,
elementos distintos de X, tais que cada elemento de Ia tem intersecção não-vazia com cada elemento
de Ib .
Então, para cada par (A, B) com A ∈ Ia e B ∈ Ib podemos escolher um elemento em x(A, B) ∈ A∩B
a com isso, construir uma aplicação Ia × Ib → X. Gostarı́amos agora de identificar uma relação de
ordem parcial que faça de Ia × Ib um conjunto dirigido. Essa relação é a seguinte: (A, B)  (A0 , B 0 )
se A0 ∩ B 0 ⊆ A ∩ B.

E. 18.15 Exercı́cio. Verifique que isso faz de Ia × Ib um conjunto dirigido. Para tal, constate que se
a = (A, B) e b = (C, D) ∈ Ia × Ib , então c = (A ∩ C, B ∩ D) ∈ Ia × Ib e valem a  c e b  c. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 886/1195

Note agora que se A ∈ Ia então x(A, B) ∈ A ∩ B ⊆ A e se (A0 , B 0 )  (A, B) então x(A0 , B 0 ) ∈


A ∩ B 0 ⊆ A ∩ B ⊆ A. Isso significa que a rede {x(A, B) , (A, B) ∈ Ia × Ib } está eventualmente em
0

A. Como isso vale para todo A ∈ Ia , então a rede {x(A, B) , (A, B) ∈ Ia × Ib } converge a a. Mutatis
mutantis, constata-se analogamente que a rede {x(A, B) , (A, B) ∈ Ia × Ib } converge a b. Como a 6= b,
isso contradiz a hipótese e, portanto, (X, τ ) é do tipo Hausdorff.

A noção de rede é também importante por permitir uma caracterização do conceito de continuidade
de funções em espaços topológicos. Trataremos disso na Seção 19.2.1 e à página 893.

18.4.1 Redes em Espaços Métricos


Seja M um conjunto dotado de uma métrica d e seja I um conjunto dirigido com respeito a uma relação
de ordem parcial . Uma rede f : I → M é dita ser uma rede de Cauchy em relação à métrica d se
para todo  > 0 existir um n() ∈ I (possivelmente dependente de ) tal que d(f (i), f (j)) <  para
todos i e j tais que i  n() e j  n().
É bastante claro que essa definição generaliza a noção de seqüência de Cauchy encontrada à página
732. Naquele caso o conjunto dirigido é o conjunto dos naturais com a relação de ordem usual.


Lembremos que um conjunto M dotado de uma métrica d é dito ser completo (ou seqüêncialmente
completo) em relação a essa métrica se vale a afirmação que uma seqüência converge em M se e somente
ser for uma seqüência de Cauchy.
Para entendermos a relação entre as noções de seqüências de Cauchy e redes de Cauchy em espaços
métricos completos a seguinte proposição é essencial.
Proposição 18.6 Seja M completo em relação à métrica d, ou seja, tal que uma seqüência converge
em M se e somente ser for uma seqüência de Cauchy. Então vale a afirmação que uma rede converge
em M se e somente ser for uma rede de Cauchy. 2

Prova. Se uma rede f : I → M é convergente, então existe m ∈ M tal que para todo  > 0 existe
n() ∈ I tal que d(f (i), m) <  para todo i ∈ I com a propridade i  n(). Assim, se i e j ∈ I são tais
que i  n() e j  n(), vale pela desigualdade triangular d(f (i), f (j)) ≤ d(f (i), m) + d(m, f (j)) ≤
 + , o que prova que f é uma rede de Cauchy.
Provemos agora a recı́proca. Seja f : I → M uma rede de Cauchy. Então para todo k ∈ , k > 0, 

existe n(1/k) ∈ I tal que d(f (i), f (j)) ≤ 1/k para todos i e j tais que i  n(1/k) e j  n(1/k). Seja
definido z1 := n(1) e escolhamos indutivamente para cada k ∈ , k ≥ 2, um elemento zk ∈ I tal que


zk  zk−1 e zk  n(1/k). É claro que

z1  z 2  z 3  z 4  · · · com n(1/k)  zk para todo k ∈  .

Logo,
n(1/k)  zk  zk+1  zk+2  · · · .
Assim, para todos n > m > k vale d(f (zm ), f (zn )) < 1/k. Portanto, {f (zl ), l ∈ } é uma seqüência de


Cauchy em M e como M é (seqüêncialmente) completo, segue que {f (zl ), l ∈ } converge a um certo



JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 18 887/1195

elemento m ∈ M , o que equivale a dizer que para todo  > 0 existe N () ∈  tal que d(f (z n ), m) < 
sempre que n > N ().
Seja agora  > 0 fixo e escolhamos k ∈ de forma que 1/k < . Se i ∈ I satisfaz i  n(1/k), vale


d(f (i), m) ≤ d(f (i), f (zn )) + d(f (zn ), m). Tomando n > max{N (), k} teremos d(f (i), f (zn )) < 
pois i  n(1/k) e zn  n(1/k) e também teremos d(f (zn ), m) <  pois n > N (). Logo, d(f (i), m) ≤
2, provando que f converge (a m ∈ M ). Isso completa a prova.
Capı́tulo 19
Continuidade de Funções em Espaços Topológicos
Conteúdo

19.1 Funções Contı́nuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 888


19.2 Outras Caracterizações do Conceito de Continuidade em Espaços To-
pológicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 891
19.2.1 Continuidade e Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . 892

odo estudante possui uma noção mais ou menos clara do conceito usual de continuidade
de funções reais da reta real. Aqui, vamos estender este conceito a funções entre espaços
topológicos gerais. A possibilidade de se estender o conceito de continuidade das situações
mais comuns e familiares, encontradas na topologia usual da reta real, para situações mais
gerais é, em verdade, uma das principais razões pelas quais topologias mais gerais que aquelas produ-
zidas por métricas são definidas e estudadas. Percebeu-se que, tomados os devidos cuidados, muitos
dos resultados passı́veis de demonstração no caso métrico estendem-se também para topologias não
deriváveis de uma métrica. Fora isso, aprenderemos, ao elevar o nı́vel de abstração com que o conceito
de continuidade é apresentado, que muitas caracterizações distintas, gerais e úteis do mesmo podem
ser apresentadas. Uma conseqüência desse alargamento de horizontes é uma maior facilidade para a
demonstração de resultados importantes.

19.1 Funções Contı́nuas


Sejam M e N dois conjuntos, o primeiro dotado da topologia τM e o segundo da topologia τN . Seja f
uma função f : M → N . Vamos a uma definição de continuidade, que chamaremos de definição de
continuidade número 1.
DC 1. Uma função f : M → N , como acima, é dita ser uma função contı́nua em relação às topologias
τM e τN se f −1 (A) ∈ τM para todo aberto A de τN .
Em outras palavras, uma função é dita ser contı́nua se a imagem inversa de qualquer conjunto
aberto na topologia do conjunto imagem for igualmente um conjunto aberto na topologia do conjunto
domı́nio.
A seguinte afirmação é uma conseqüência imediata da definição acima.
Proposição 19.1 Sejam M1 , M2 e M3 espaços topológicos com topologias τM1 , τM2 e τM3 , respectiva-
mente. Seja f : M1 → M2 , contı́nua em relação às topologias τM1 e τM2 , e g : M2 → M3 , contı́nua em
relação às topologias τM2 e τM3 . Então g ◦ f : M1 → M3 é contı́nua em relação às topologias τM1 e τM3 .
2

888
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 19 889/1195

Prova. ←→ Exercı́cio.
Uma série de questões vêm à mente de qualquer estudante que se depara com a definição acima
pela primeira vez. Por exemplo, as seguintes: 1) No caso de funções reais definidas na reta real o que a
definição acima tem a ver com a noção de continuidade tão bem conhecida e ensinada? 2) Na definição
acima, o conceito de continuidade parece ser fortemente dependente das topologias τM e τN escolhidas
no domı́nio e na imagem da função. Pode acontecer de uma função dada ser contı́nua em relação a
algumas topologias mas não em relação a outras? 3) É estranho que na definição acima a noção de
continuidade seja apresentada em termos de uma propriedade da imagem inversa f −1 da função f . Isso
tem mesmo que ser assim? 4) Será possı́vel caracterizar a propriedade de continuidade diretamente em
termos de propriedades da f ?
Todas essas questões são muito pertinentes e serão respondidas uma a uma no que segue.
Fazemos notar que, na definição nova de continuidade que apresentamos acima, as topologias τ M e
τN são genéricas, não necessitando ser, por exemplo, topologias métricas em M ou N , respectivamente.
Vamos, porém, discutir agora o caso tradicional em que M e N são iguais à reta real dotada da topologia
métrica usual τ .


• A Noção Usual de Continuidade na Reta Real

Seja f :  → uma função. A noção usual de continuidade diz que f é contı́nua em se e somente
 

se para todo x ∈ e para todo número  > 0 existir um número δ = δ(x, ) > 0 (eventualmente


dependente de x e ) tal que, sempre que para algum y tivermos |y−x| < δ(x, ) então |f (y)−f (x)| < .
Essa definição pode ser facilmente generalizada para o caso de espaços métricos gerais.
DCEM 1. Sejam M1 e M2 dois espaços métricos com métricas d1 e d2 , respectivamente. Seja f :
M1 → M2 uma função entre estes dois espaços métricos. A função f é dita ser contı́nua (no sentido
usual) se para todo x ∈ M1 e para todo número  > 0 existir um número δ(x, ) > 0 tal que se
y ∈ Bd1 (x, δ(x, )) então f (y) ∈ Bd2 (f (x), ). Acima Bdi (a, r), i = 1, 2, é a bola aberta de raio r
centrada em torno de a segundo a métrica di .
Vejamos um exemplo de uma função real que não é contı́nua segundo a definição acima. Seja a
função 
1, se t ≥ 0
H(t) := . (19.1)
0, se t < 0
Então, para x = 0 e para  = 1/10 (por exemplo) não é possı́vel achar um número δ tal que se
|y − x| = |y| < δ tenhamos |H(y) − H(x)| = |H(y) − 1| < 1/10. A razão é que para qualquer y ≥ 0
temos |H(y) − 1| = 0 que é menor que 1/10, mas para qualquer y < 0 temos |H(y) − 1| = 1 que,
obviamente, é sempre maior que 1/10.

E. 19.1 Exercı́cio. Seja a função g(t) = t2 . Mostre explicitamente que g é contı́nua pela definição
acima. Como pode ser δ(x, ) como função de x e  nesse caso? Determine explicitamente δ(x, ). 6

As linhas acima recordam-nos a definição usual de continuidade, tal como aprendida nos cursos
iniciais de Cálculo. Qual a conexão com a nova noção de continuidade (DC 1) que apresentamos acima?
Vamos esclarecer este ponto agora, provando que as duas definições são equivalentes, se adotarmos a
topologia usual da reta (definida pela métrica d(x, y) = |y − x|) no domı́nio e na imagem da função f .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 19 890/1195

Seja uma função f :  → tal que f −1 (A) é um aberto em τ para todo A ∈ τ . Sejam então

 

um ponto x no domı́nio da f e f (x) sua imagem. Seja A = (f (x) − , f (x) + ) um aberto em τ (com 

 > 0). Assim, pelas hipóteses, o conjunto f −1 (A) é um aberto em que deve conter o ponto x (pois


f (x) ∈ A). Deve haver assim uma bola aberta, de raio não nulo, centrada em x inteiramente contida
no aberto f −1 (A). Chamemos seu raio de δ = δ(x, ) (em geral, o raio deve depender de A e, portanto,
de x e ). Em essa bola é o intervalo B = (x − δ, x + δ). Note-se que, como B ⊂ f −1 (A), segue
que f (B) ⊂ A = (f (x) − , f (x) + ). Isso, finalmente, é exatamente a afirmação que f é contı́nua no
sentido usual.
Vamos agora supor que f é uma função contı́nua no sentido usual e provar que ela também é
contı́nua no sentido novo (DC 1). Isso, junto com o visto no último parágrafo, mostra que as duas
noções são equivalentes.
Seja A ∈ τ um aberto qualquer em e vamos supor, sem perder a generalidade (por que?), que A


contem elementos da imagem de f . Seja x ∈ f −1 (A). Seja, para algum  > 0, B(f (x), ) a bola aberta
de raio  centrada em f (x). Como A é aberto e f (x) ∈ A teremos B(f (x), ) ⊂ A se escolhermos
 pequeno o suficiente (ainda com  > 0). Pela hipótese que f é contı́nua no sentido usual, existe
δ(x, ) tal que se y ∈ B(x, δ(x, )) então f (y) ∈ B(f (x), ) ⊂ A. Assim, y ∈ f −1 (A). Mas isso
significa dizer que para todo x no conjunto f −1 (A) somos capazes de identificar um raio δ = δ(x, )
(para o  escolhido) tal que todo elemento que dista de x menos que δ é também elemento do conjunto
f −1 (A). Isso é afirmar que f −1 (A) é um conjunto aberto, pela própria definição de conjuntos abertos
na topologia métrica usual da reta.
Isso demonstrou a equivalência que querı́amos estabelecer e respondeu a pergunta 1) acima.

• Continuidade por partes

Uma outra noção importante é a de continuidade por partes.

Definição. Sejam M e N não-vazios e dotados de topologias τM e τN , respectivamente. Uma função


f : M → N é dita ser uma função contı́nua por partes em relação às topologias τ M e τN se existir um
[m
conjunto finito de abertos disjuntos A1 , . . . , Am em M satisfazendo M = Ak e tais que:
k=1

1. Para todo k vale que (f  Ak ) : Ak → N , a restrição de f ao aberto Ak , é contı́nua, em relação à


topologia induzida por τM sobre Ak e em relação à τN .

2. Para todo k existe uma extensão de f  Ak sobre o fechado Ak a qual é contı́nua em relação à
topologia induzida por τM sobre Ak e em relação à τN .

Alguns autores dispensam a condição de que a coleção de abertos Ak seja finita.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 19 891/1195

19.2 Outras Caracterizações do Conceito de Continuidade


em Espaços Topológicos
A caracterização DC 1 do conceito de continuidade de uma função entre dois espaços topológicos que
apresentamos no inı́cio da sub-seção anterior é equivalente a uma série de outras caracterizações que
discutiremos agora, as quais podem, eventualmente, ser mais úteis que descrita acima.
Vamos a uma outra definição de continuidade, que chamaremos de definição de continuidade número
2. Sejam M e N dois conjuntos, o primeiro dotado da topologia τM e o segundo da topologia τN . Seja
f uma função f : M → N .
DC 2. Uma função f : M → N , como acima, é dita ser uma função contı́nua em relação às topologias
τM e τN se f −1 (F ) for um conjunto fechado para a topologia τM para todo conjunto fechado F segundo
τN .
Em outras palavras, uma função é dita ser contı́nua se a imagem inversa de qualquer conjunto
fechado na topologia do conjunto imagem for igualmente um conjunto fechado na topologia do conjunto
domı́nio.
Desejamos provar a equivalência das definições DC 1 e DC 2. Para tal, notemos que, para qualquer
conjunto C ⊂ N , vale f −1 (C) = f −1 (C c )c , ou seja,

f −1 (C) = M \ f −1 (N \ C).

E. 19.2 Exercı́cio (fácil). Demonstre essa relação. 6

Com essa relação em mãos fica fácil provar que se f for contı́nua segundo DC 1 então a imagem
inversa de qualquer conjunto C fechado em N é fechado em M . Mutatis mutantis, se f e contı́nua
segundo DC 2 então a imagem inversa de qualquer aberto C em N é aberto em M . Isso estabelece
que as duas definições são equivalentes.
Vamos agora a uma terceira definição de continuidade que será útil quando tratarmos do conceito
de continuidade em espaços métricos.

 f : M → N como acima é dita ser uma função contı́nua em relação às topologias
DC 3. Uma função
τM e τN se f D ⊂ f (D) para qualquer conjunto D ⊂ M . Aqui, D é o fecho de D ⊂ M .
Note-se aqui dois fatos: 1) nesta nova definição a continuidade é caracterizada em termos de propri-
edades das imagens da função f e não em termos das suas imagens inversas; 2) acima D é um conjunto
qualquer de M , não apenas um aberto ou um fechado.
Vamos provar agora que a definição DC 3 é equivalente à definição DC 2 (e, portanto, à definição
DC 1). Para tal, notemos que as seguintes afirmativas são verdadeiras: sejam X ⊂ M e Y ⊂ N dois
conjuntos quaisquer. Então
f (f −1 (Y )) ⊂ Y e f −1 (f (X)) ⊃ X.

E. 19.3 Exercı́cio (fácil). Mostre isso. 6

Fora isso, é também claro que se X ⊂ M e Y ⊂ N são tais que f (X) ⊂ Y , então f −1 (Y ) ⊃ X.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 19 892/1195

Seja então f contı́nua segundo DC 3 e seja F ⊂ N , fechado. Teremos que


 
f f −1 (F ) ⊂ f (f −1 (F )) ⊂ F = F,

ou seja,  
f f −1 (F ) ⊂ F.
Logo,
f −1 (F ) ⊃ f −1 (F ).
Como um conjunto qualquer é sempre subconjunto e seu fecho, essa última relação diz que f −1 (F ) =
f −1 (F ), que é o mesmo que dizer que f −1 (F ) é fechado. Assim, se f é contı́nua segundo DC 3 é
também segundo DC 2.
Seja agora f contı́nua segundo DC 2. E seja D ⊂ M , qualquer. Tomando Y = f (D), vimos acima
que   
f f −1 f (D) ⊂ f (D). (19.2)
Agora,  
−1 −1
D ⊂ f (f (D)) ⊂ f f (D) .
   
−1 −1
Mas f f (D) é fechado, pois f é contı́nua segundo DC 2 e f (D) é fechado. Assim, D ⊂ f f (D) ,
   
pois D é o menor fechado que contém D. Disso segue que f D ⊂ f f −1 f (D) . Juntando-se isso

à (19.2), concluı́mos que f D ⊂ f (D), provando a equivalência desejada.

19.2.1 Continuidade e Convergência

• Continuidade e Convergência em Espaços Métricos

Vamos agora tratar de mais uma caracterização do conceito de continuidade de funções, carac-
terização esta especializada ao caso de funções entre espaços métricos. Uma primeira definição do
conceito de continuidade de funções entre espaços métricos é a definição DCEM 1, que encontra-se
à página 889. O ponto importante da caracterização que aqui descreveremos é que a mesma trata a
noção de continuidade em termos de convergência de seqüências, sendo por isso de especial importância
prática.
Sejam M e N dois espaços métricos dotados de métricas dM e dN , respectivamente. Sejam τdM e
τdN as topologias induzidas por essas métricas em M e N , respectivamente. Seja f : M → N uma
função entre esses dois espaços métricos. Temos a seguinte definição:
DCEM 2. Uma função f : M → N , como a descrita acima, é contı́nua se para todo x ∈ M e para
toda seqüência {xn , n ∈ } que converge a x em relação à métrica dM tivermos


f (x) = lim f (xn ),


n→∞

ou seja,  
f lim xn = lim f (xn ),
n→∞ n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 19 893/1195

onde a convergência de f (xn ) se dá em relação à métrica dN .


Vamos mostrar que esta última definição de continuidade é, no caso de espaços métricos, equivalente
às definições DC 1, 2 e 3. No caso de espaços topológicos não métricos tal equivalência pode não ser
válida. Lembramos o comentário que fizemos na Seção 18 que há espaços topológicos não-métricos nos
quais nenhuma seqüência é convergente, fora as seqüências eventualmente constantes. Um exemplo é
o de um conjunto X não contável dotado da topologia co-contável. Essa é a raiz da dificuldade em se
estender a definição DCEM 2 para espaços topológicos não-métricos.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DCEM 2 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial). Então,
como M é um espaço métrico existe uma seqüência xn ∈ D que converge a x. Pelas hipóteses então,
f (x) = lim f (xn ). Como x pode ser qualquer elemento de D e como os pontos f (xn ) são elementos
n→∞ 
do conjunto f (D), isso significa que f D ⊂ f (D), o que prova que f é contı́nua segundo DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela então o é segundo DCEM
2. Suponha que para x ∈ M haja uma seqüência xn em M convergindo a x segundo dM e suponha
que f (xn ) não converge a f (x). Então existe um aberto A de N contendo f (x) e tal que f (x n ) não
está eventualmente em A. Isso significa que xn não está eventualmente em f −1 (A) (por que?). Como
pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A) (por que?), isso diz que xn não converge a x, uma
contradição. Logo lim f (xn ) = f (x) e a equivalência está provada.
n→∞

E. 19.4 Exercı́cio. Seja a função H definida em (19.1). Adotando a topologia usual de tanto na 

6
imagem quanto no domı́nio de H, exiba seqüências x n em convergindo a x = 0 tais que lim H(xn ) =


n→∞
H(0). 6

• Continuidade e Convergência em Espaços Topológicos Gerais

Como observamos acima, a definição de continuidade DCEM 2 não pode ser diretamente trans-
posta a espaços topológicos gerais, pois nesses casos ocorrem dificuldades especiais concernentes à
convergência de seqüências. Como aprendemos e discutimos na Seção 18.4, página 884, essas dificulda-
des podem ser superadas com o emprego da noção mais geral de rede, como alternativa às seqüências.
De fato, é possı́vel apresentar mais uma definição do conceito de continuidade, equivalente às anteriores,
nas mesmas linhas de DCEM 2, mas com a noção de rede substituindo a de seqüência.
Para uma melhor compreensão do que segue, recomendamos uma re-leitura da Seção 18.4, página
884.
Sejam M e N dois espaços topológicos e sejam τM e τN as topologias em M e N , respectivamente.
Seja f : M → N uma função entre esses dois espaços topológicos. Temos a seguinte definição:
DC 4. Uma função f : M → N , como a descrita acima, é contı́nua se para todo x ∈ M e para toda
rede {xλ , λ ∈ I} em M que tem x como ponto limite na topologia τM , a rede {f (xλ ), λ ∈ I} em N
tiver f (x) como ponto limite na topologia τN .
Note que, acima, as redes {xλ , λ ∈ I} e {f (xλ ), λ ∈ I} podem tem outros pontos limite além de x
e f (x), respectivamente, pois M e N não são necessariamente do tipo Hausdorff nas suas respectivas
topologias.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 19 894/1195

Vamos mostrar que esta última definição de continuidade equivale às definições DC 1, 2 e 3.
Prova da equivalência. Vamos supor que f seja contı́nua segundo DC 4 e provar que f é então
contı́nua segundo DC 3. Seja D ⊂ M genérico e não-vazio e seja x ∈ D (o caso D = ∅ é trivial).
Então, pela Proposição 18.4, página 885, existe uma rede {xλ , λ ∈ I} em D tem x como ponto limite
em τM . Pelas hipóteses então, f (x) é ponto limite de {f (xλ ), λ ∈ I} em τN . Como x pode ser qualquer
elemento de D e como os pontos f (xλ) são elementos do conjunto f (D), isso significa, também pela
Proposição 18.4, página 885, que f D ⊂ f (D), o que prova que f é contı́nua segundo DC 3.
Vamos agora supor f contı́nua segundo DC 1 e vamos mostrar que ela, então, o é segundo DC
4. Suponha que para x ∈ M haja uma rede {xλ , λ ∈ I} em M que tem x como ponto limite em τM
e suponha que f (x) não é ponto limite de {f (xλ ), λ ∈ I} em τN . Então existe um aberto A de N
contendo f (x) e tal que {f (xλ ), λ ∈ I} não está eventualmente em A. Isso significa que {xλ , λ ∈ I}
não está eventualmente em f −1 (A) (por que?). Como pelas hipóteses f −1 (A) é um aberto e x ∈ f −1 (A)
(por que?), isso diz que x não é ponto limite de {xλ , λ ∈ I} em τM , uma contradição. Logo f (x) é
ponto limite de {f (xλ ), λ ∈ I} em τN e a equivalência está provada.
Capı́tulo 20
Elementos da Teoria da Integração
Conteúdo

20.1 Comentários Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896


20.2 A Integração no Sentido de Riemann . . . . . . . . . . . . . . . . . . . . . 898
20.2.1 A Integral de Riemann Imprópria . . . . . . . . . . . . . . . . . . . . . . . . . 907
20.2.2 Diferenciação e Integração em Espaços de Banach . . . . . . . . . . . . . . . 909
20.3 A Integração no Sentido de Lebesgue . . . . . . . . . . . . . . . . . . . . . 914
20.3.1 Funções Mensuráveis e Funções Simples . . . . . . . . . . . . . . . . . . . . . 915
20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis . . . . . . . . . 921
20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann . . . . . . . . . . . 930
20.3.4 Teoremas Básicos sobre Integração e Convergência . . . . . . . . . . . . . . . 933
20.3.5 Alguns Resultados de Interesse . . . . . . . . . . . . . . . . . . . . . . . . . . 936
20.4 Os Espaços Lp e Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 938
20.4.1 As Desigualdades de Hölder e de Minkowski . . . . . . . . . . . . . . . . . . . 941
20.4.2 O Teorema de Riesz-Fischer. Completeza . . . . . . . . . . . . . . . . . . . . 945
20.A Demonstração da Proposição 20.3 . . . . . . . . . . . . . . . . . . . . . . . 946
20.B Caracterizações e Propriedades de Funções Mensuráveis . . . . . . . . . . 947
20.C Prova do Lema 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953
20.D Demonstração de (20.22) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954
20.E A Equivalência das Definições (20.23) e (20.24) . . . . . . . . . . . . . . . 955
20.F Prova do Teorema da Convergência Monótona . . . . . . . . . . . . . . . . 957
20.G Prova do Lema de Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 958
20.H Prova do Teorema da Convergência Dominada . . . . . . . . . . . . . . . . 959
20.I Prova dos Teoremas 20.2 e 20.3 . . . . . . . . . . . . . . . . . . . . . . . . . 960
20.J Prova das Desigualdades de Hölder e Minkowski . . . . . . . . . . . . . . 963
20.K Prova do Teorema de Riesz-Fischer . . . . . . . . . . . . . . . . . . . . . . 965

presentaremos neste capı́tulo ingredientes básicos da chamada teoria da integração, centrada


na noção de integral de funções definidas em espaços mensuráveis, a integral de Lebesgue
sendo uma de suas instâncias de particular importância. Iniciaremos com uma breve digressão
sobre o desenvolvimento histórico e recordaremos a noção de integrabilidade no sentido de
Riemann, passando a seguir à noção mais geral de integração em espaços de medida. Advertimos o
leitor que os assuntos tratados neste capı́tulo envolvem por vezes noções e problemas matematicamente
muito sutis, sendo difı́cil apresentá-los de modo resumido ou simplificado. Por essa razão, optamos

895
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 896/1195

por apresentar certas demonstrações mais técnicas não no texto principal, mas nos apêndices que se
iniciam à página 946. Nossa intenção é, antes de tudo, guiar o leitor, apontando-lhe os ingredientes de
maior importância e de modo a eventualmente motivar seu interesse em um estudo mais aprofundado.
Como referências gerais para a teoria da medida e da integração, recomendamos [105] (fortemente),
e também [91], [72], [104], [39] ou ainda [83, 84]. Um texto clássico é [51]. Para estas Notas também
coletamos material de [57, 58], [56] e de [8].

20.1 Comentários Preliminares


É parte essencial da formação de todo fı́sico ou matemático aprender as noções básicas do Cálculo,
como os conceitos de limite, de derivada e de integral de funções. Nos passos iniciais dessa formação é
importante dar ênfase a métodos de cálculo de derivadas e integrais de funções e, conseqüentemente, e
é natural que assim seja, pouco se discute sobre certas sutilezas ocultas por trás de tais conceitos.
A noção de integral de uma função é uma das idéias fundamentais de toda a Matemática e originou-
se no século XVII com os trabalhos de Newton1 e Leibniz2 , ainda que tenha raı́zes muito mais antigas,
remontando pelo menos a Arquimedes3 . Intuitivamente, a integral de uma função real em um intervalo
compacto [a, b] é entendida como a área descrita sob o gráfico dessa função nesse intervalo. Essa
noção simples é suficiente para motivar e sustentar os primeiros passos de qualquer aluno iniciante e,
mesmo em um plano histórico, satisfez as mentes matemáticas até cerca de meados do século XIX,
pois as aplicações almejadas pela Fı́sica e pela Matemática de então pouco requeriam além dessa noção
intuitiva.
Mesmo hoje, pode ser difı́cil a um estudante, acostumado com o cálculo de integrais de funções
“elementares”, entender que a noção de integral envolve questões sutis, principalmente pois essas suti-
lezas envolvem primordialmente a questão de caracterizar para quais funções o conceito de integral se
aplica. Considere-se, por exemplo, as seguintes funções:
 
 1, se x for irracional  sen (x), se x for transcendente
f (x) = , ou f (x) = . (20.1)
 
0, se x for racional x2 , se x for algébrico

Terão essas funções uma integral em um dado intervalo compacto [a, b]? Como essas funções são
descontı́nuas em todos os pontos, é fácil reconhecer que a noção de integral como “área sob o gráfico”
de uma função é aqui muito problemática (o leitor não convencido deve tentar desenhar os gráficos
dessas funções e se perguntar qual a “área” sob os mesmos).
Na grande maioria das aplicações com as quais nos acostumamos, funções como essas não ocorrem,
mas sim funções contı́nuas e suficientemente diferenciáveis, para as quais a noção intuitiva de integral
dificilmente é problemática. No entanto, uma série de desenvolvimentos teóricos na Matemática con-
duziram à necessidade de estender a noção de integral a classes mais abrangentes de funções, como as
do exemplo acima. Seria precipitado enumerar neste ponto quais foram precisamente esses desenvol-
vimentos que pressionaram por um aprofundamento da noção de integral, pois para tal uma série de
1
Isaac Newton (1643-1727).
2
Gottfried Wilhelm von Leibniz (1646-1716).
3
Arquimedes de Siracusa (ci. 287 A.C. - ci. 212 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 897/1195

comentários e definições teria que ser antecipada. Discutiremos isso no devido momento. Menciona-
mos, porém, que esse avanço foi possibilitado pelo desenvolvimento concomitante da Teoria da Medida,
que, como já discutimos alhures, fundamentou e estendeu noções como comprimento, área, volume etc.,
de conjuntos. A área da Matemática que surgiu desse desenvolvimento é usualmente conhecida como
Teoria da Integração.
Um outro avanço importante obtido através da Teoria da Integração foi o seguinte. As noções
de integração que aprendemos nos cursos de Cálculo aplicam-se a integrais de funções definidas em
conjuntos como , n , etc. Uma das conseqüências mais importantes do desenvolvimento da teoria da
 

integração foi a possibilidade de definir a noção de integral mesmo para funções definidas em conjuntos
mais “exóticos” que os supra-citados, tais como conjuntos fractais, conjuntos de curvas, de funções e
outros.
Esse desenvolvimento relevou-se de grande importância para a Fı́sica também. Na Mecânica
Quântica, por exemplo, ocorrem as chamadas integrais funcionais, que são integrais de funções de-
finidas em conjuntos de curvas contı́nuas. Dados dois pontos x e y no espaço, um método importante
desenvolvido por Feynman4 permite expressar certas funções de Green G(x, y) de sistemas quânticos
em termos de integrais sobre o conjunto Cx, y de todas as curvas contı́nuas no espaço que conectam
x a y. Na Teoria Quântica de Campos, o análogo das integrais de Feynman é ainda mais abstrato e
envolve integrais sobre conjuntos de distribuições 5 . Como se percebe, tais aplicações requerem muito
mais que definir a noção de integral como “área” ou “volume sob um gráfico”.
Tentativas informais de caracterizar a noção de integral são tão antigas quanto o Cálculo. Leibniz
tentou definir integrais e derivadas a partir da noção de infinitésimos. A noção de infinitésimos carece
de respaldo matemático mas, como outras idéias filosófico-especulativas infelizes do passado, estende
sua perversa influência até o presente, causando em alguns, especialmente em cursos de fı́sica e en-
genharia, uma falsa percepção de compreensão da noção de integral que impede o entendimento de
outros desenvolvimentos. A noção de limite, que acabou por expurgar os infinitésimos da linguagem
matemática, era praticamente desconhecida dos fundadores do Cálculo, tendo sido usada pela primeira
vez em 1754 por d’Alembert6 para definir a noção moderna de derivada.
Um dos primeiros passos importantes no sentido de dotar a noção de integral definida de fundamen-
tos mais sólidos foi dado por Riemann7 em 1854, em sua famosa tese de livre-docência8 . A motivação de
Riemann foi o estudo das séries de Fourier. Ao estudar condições que garantam um rápido decaimento
dos coeficientes de Fourier de funções periódicas, Riemann deparou-se com a necessidade de carac-
terizar mais precisamente a noção de integrabilidade de funções ou, melhor dizendo, de caracterizar
quais funções podem ser dotadas de uma integral. Um dos problemas com que Riemann se debateu foi
demonstrar
Z o que hoje em dia é conhecido como Lema de Riemann-Lebesgue: a afirmação que o limite
b
lim f (x) sen (λx)dx vale zero se f for contı́nua por partes. Esse fato é importante para a teoria
λ→∞ a
4
Richard Phillips Feynman (1918-1988). A formulação da Mecânica Quântica em termos das integrais funcionais de
Feynman surgiu em cerca de 1942.
5
Para uma exposição introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo,
[95], ou bons livros de Mecânica Quântica. Para a integração funcional de Feynman-Kac, definida no espaço-tempo
Euclidiano, vide e.g. [46] ou [99, 100, 101, 102].
6
Jean Le Rond d’Alembert (1717-1783).
7
Georg Friedrich Bernhard Riemann (1826-1866).
8
“Über die Darstellbarkeit einer Function durch eine trigonometrische Reihe”. Publidada em 1867.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 898/1195

das séries de Fourier e sua demonstração (que pode ser acompanhada, por exemplo, em [31]), requer
compreender a integral como limite de somas de Riemann (a serem definidas abaixo).
A noção de integrabilidade de Riemann, que será recordada abaixo, é a primeira a ser ensinada em
(bons) cursos de Cálculo mas, como discutiremos mais adiante, também não é plenamente satisfatória.
Para a grande maioria dos propósitos modernos, a noção mais satisfatória de integrabilidade é a de
Lebesgue, que também apresentaremos adiante. É dessa noção de integral que emergem os desenvol-
vimentos mais importantes, na teoria das séries de Fourier, dos espaços de Banach e de Hilbert etc.
Adiantamos que no caso de funções limitadas reais definidas em conjuntos compactos da reta real, as
integrais de Riemann e de Lebesgue coincidem. Nesse sentido, a integração de Lebesgue estende a de
Riemann. Trataremos disso de modo mais preciso nos Teoremas 20.2 e 20.3, da Seção 20.3.3, página
930.
Nesse momento é conveniente que encerremos esse palavreado preliminar e elevemos a discussão a
um nı́vel mais sólido.

20.2 A Integração no Sentido de Riemann


Na presente serão recapitularemos um pouco, mas em um nı́vel talvez mais avançado, da teoria da
integração de Riemann no intuito de preparar a discussão, que lhe seguirá, concernente a noção de
integral de Lebesgue. Apresentaremos apenas as definições e os resultados estruturais mais relevantes.
Tendo em vista outras aplicações (vide, por exemplo, o tratamento do Teorema da Função Implı́cita
em espaços de Banach da Seção 14.4, página 805), nosso intuito é também o de apresentar a noção de
integral de Riemann de modo a permitir sua extensão para funções de uma variável real assumindo
valores em um espaço de Banach. Essa preocupação, ainda que sem maior importância para a aborda-
gem da teoria de integração de Lebesgue, sub-jaz boa parte dos tratamento da integração de Riemann
que se segue.
Por simplicidade, restringiremos nossa discussão aqui a funções de uma variável real. A definição
de integral de Riemann é feita inicialmente em intervalos fechados [a, b] finitos, ou seja, com −∞ <
a < b < ∞. Integrais de Riemann em intervalos não-finitos são definidas posteriormente (Seção 20.2.1,
página 907), tomando-se limites de integrais em intervalos finitos, caso esses limites existam.

• Partições

Importante para a definição da integral de Riemann é a noção de partição de um intervalo compacto


[a, b]. Trata-se de um conjunto finito de pontos {x1 , . . . , xn } satisfazendo a = x1 < x2 < · · · < xn−1 <
xn = b, o número n podendo ser arbitrário, com n ≥ 2.
O conjunto de todas as partições possı́veis (com número de pontos arbitrário) de um intervalo
compacto [a, b] será denotado por P([a, b]), ou simplesmente P, se [a, b] estiver sub-entendido. Uma
partição particular será denotada por P ∈ P([a, b]).
A cada partição P = {x1 , . . . , xn } ∈ P([a, b]), com n pontos, estão associados n − 1 intervalos
fechados I1 , . . . , In−1 , sendo Ik = [xk , xk+1 ]. Denotaremos por |Ik | o comprimento do k-ésimo
intervalo: |Ik | := xk+1 − xk .
Outra noção útil é a de fineza de uma partição P, denotada por |P|. Se P = {x1 , . . . , xn } ∈ P([a, b])
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 899/1195

definimos |P| := max{|I1 |, . . . , |In−1 |}. Assim, |P| é o máximo comprimento dos intervalos definidos
por P em [a, b].
Podemos fazer de P([a, b]) um conjunto dirigido9 , definindo a seguinte relação de ordem parcial:
P  P0 se P ⊂ P0 . Assim, dizemos que uma partição P0 é mais fina que uma partição P se P for um
sub-conjunto de P0 . Note-se que se P  P0 então |P| ≥ |P0 |.

E. 20.1 Exercı́cio. Mostre que isso define uma relação de ordem parcial em P([a, b]) e que isso faz de
P([a, b]) um conjunto dirigido. 6

Se P e P0 são duas partições de [a, b] dizemos que P0 é um refinamento de P se P  P0 , ou seja, se


P ⊂ P0 . Se P1 e P2 são duas partições de [a, b] então é evidente que P1 ∪ P2 é um refinamento de P1 e
de P2 .
Dada uma partição P = {x1 , . . . , xn } ∈ P([a, b]) com n pontos, podemos associar à mesma um
conjunto χ de n − 1 pontos distintos χ = {χ1 , . . . , χn−1 }, com a ≤ χ1 < · · · < χn−1 ≤ b, escolhendo
χk ∈ Ik , k = 1, . . . , n − 1, ou seja, escolhendo cada χk no k-ésimo intervalo da partição P. Se χ
é associado a P da forma descrita acima, denotamos esse fato em sı́mbolos por χ ∝ P. Considere-se
cada par (P, χ) e denotemos por X([a, b]) coleção formada por todos esses pares (P, χ), para todas
as partições P ∈ P([a, b]) e todas os conjuntos χ possı́veis associados a cada P:

X([a, b]) := {(P, χ) com P ∈ P([a, b]) e χ ∝ P} .

Tal como P([a, b]), o conjunto X([a, b]) é também um conjunto dirigido se definirmos a relação de
ordem (P, χ)  (P0 , χ0 ) se P  P0 , ou seja, se P ⊂ P0 (independentemente de χ e χ0 !).

• Somas de Riemann. Integrabilidade de Riemann

Dada uma função real limitada f , definida em [a, b], e dado um par (P, χ) ∈ X([a, b]), com
P = {x1 , . . . , xn } e χ = {χ1 , . . . , χn−1 }, χk ∈ Ik , k = 1, . . . , n − 1, distintos, definimos a soma de
Riemann de f associada ao par (P, χ), denotada por S[(P, χ), f ], como
n−1
X
S[(P, χ), f ] := f (χk )|Ik | .
k=1

Vide Figura 20.1.


Para f fixa, a aplicação X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ é uma rede10 . Podemos, assim,


perguntar-nos se essa rede possui pontos de acumulação e pontos limite. Notemos que, como é do 

tipo Hausdorff, se essa rede possuir um ponto limite, o mesmo é único (pela Proposição 18.5, página
885). Essa questão nos conduz à seguinte definição:

Definição. Integrabilidade de Riemann I. Uma função limitada f : [a, b] → é dita ser integrável 

por Riemann no intervalo compacto [a, b] se a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ possuir um 

ponto limite S(f ) ∈ . 

9
Para a definição, vide página 31.
10
A definição de rede encontra-se à página 884. Note que X([a, b]) é um conjunto dirigido, pelo comentado acima.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 900/1195

f(x)
f(χ 6)

f(χ5 )

f(χ 1)

a=x 1 x2 x3 x4 x5 x6 b=x
7

χ1 χ2 χ3 χ4 χ5 χ6

Figura 20.1: Representação da soma de Riemann de uma função f no intervalo [a, b] com a partição
P = {a = x1 , x2 , x3 , x4 , x5 , x6 , x7 = b}, com os pontos intermediários χ = {χ1 , χ2 , χ3 , χ4 , χ5 , χ6 }.
O k-ésimo retângulo tem altura f (χk ) e largura |Ik | = xk+1 − xk . A soma das áreas desses retângulos
fornece S[(P, χ), f ].

Se f : [a, b] → for integrável por Riemann no intervalo compacto [a, b] o limite S(f ) é denominado


integral de Riemann de f em [a, b]. Como é bem conhecido, a integral de Riemann de f em [a, b] é
Rb
mais freqüentemente denotada11 por a f (x) dx, ou seja,
Z b
S(f ) ≡ f (x) dx .
a

Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de uma rede da Seção 18.4, página 884. Dizemos que S(f ) ∈ é um 

ponto limite da rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ , se para todo  > 0 existir um par

(P0 , χ0 ) ∈ X([a, b]) tal que S[(P, χ), f ] pertence ao intervalo aberto (S(f ) − , S(f ) + ) para todo
par (P, χ) ∈ X([a, b]) tal que (P, χ)  (P0 , χ0 ).
Assim, f : [a, b] → é dita ter uma integrável por Riemann S(f ) ∈
  se para todo  > 0 existir
um par (P0 , χ0 ) ∈ X([a, b]) tal que


S[(P, χ), f ] − S(f ) < 
Rb
para todo par (P, χ) tal que (P, χ)  (P0 , χ0 ). O número S(f ) é denotado por a
f (x) dx.
11
R
O sı́mbolo foi introduzido por Leibniz, sendo uma estilização da letra S, de “soma”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 901/1195

Em palavras, uma função f é integrável no sentido de Riemann se o processo de “refinamento” de


partições, fazendo-as incluir mais e mais pontos com espaçamentos cada vez menores, conduzir a um
limite único das somas de Riemann. A integral de Riemann de f é então esse limite das somas das
áreas dos retângulos descritos na Figura 20.1, para quando as partições são feitas cada vez mais finas.

• Integrabilidade de Riemann. Critérios alternativos

Pela Proposição 18.6, página 886, a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ possui um ponto 

limite se e somente se for uma rede de Cauchy12 . Assim, o critério de Integrabilidade de Riemann I
pode ser equivalentemente reformulado da seguinte forma:

Definição. Integrabilidade de Riemann I’. Uma função limitada f : [a, b] → é dita ser integrável


por Riemann no intervalo compacto [a, b] se a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ for uma 


rede de Cauchy, ou seja, se para todo  > 0 existir (P , χ ) tal que S[(P, χ), f ] − S[(P0 , χ0 ), f ] < 
para todos P, P0 com P  P e P0  P e todos χ, χ0 .

• Funções contı́nuas são integráveis por Riemann

Até o momento não apresentamos exemplos de funções integráveis por Riemann. Vamos agora
fechar parcialmente essa lacuna, exibindo uma classe importante de funções que satisfazem o critério
de integrabilidade de Riemann I’. Uma visão completa de quais funções são integráveis por Riemann é
fornecida pelo critério de Lebesgue, discutido brevemente à página 905.
Proposição 20.1 Toda função real contı́nua definida em um intervalo compacto [a, b] é integrável por
Riemann. 2

Para a demonstração, necessitamos do seguinte lema:


Lema 20.1 Seja f real contı́nua definida em um intervalo compacto [a, b]. Seja P = {x 1 , . . . , xn } ∈
P([a, b]) uma partição de [a, b] com n pontos à qual estão associados n − 1 intervalos fechados
I1 , . . . , In−1 , com Ik = [xk , xk+1 ]. Se P0 é um refinamento de P, então


S[(P, χ), f ] − S[(P0 , χ0 ), f ] ≤ W(f, P) |b − a| (20.2)

para quaisquer χ e χ0 , onde


 
W(f, P) := max sup |f (x) − f (y)| .
k=1, ..., n−1 x, y∈Ik

Prova. À partição P0 = {x01 , . . . , x0m } ∈ P([a, b]), com m pontos, estão associados m − 1 intervalos
fechados I10 , . . . , Im−1
0
, sendo Ik0 = [x0k , x0k+1 ]. Como P ⊂ P0 , o intervalo I1 é a união de, digamos, l
12
Isso é sempre verdade se f assume valores em um espaço métrico completo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 902/1195

l
X
intervalos de P0 : I1 = I10 ∪ · · · ∪ Il0 . Assim, |I1 | = |Ia0 | e
a=1

l
X l
X 
f (χ1 )|I1 | − f (χ0a )|Ia0 | = f (χ1 ) − f (χ0a ) |Ia0 | ,
a=1 a=1

o que evidentemente implica

 X
l
X l
X l
0 0 0 0
f (χ1 )|I1 | − f (χa )|Ia | ≤ f (χ1 ) − f (χa ) |Ia | ≤ sup |f (x) − f (y)| |Ia0 |
x, y∈I1
a=1 a=1 a=1
 
= sup |f (x) − f (y)| |I1 | ≤ W(f, P) |I1 | .
x, y∈I1

Na segunda desigualdade usamos simplesmente o fato que cada χa pertence a I1 . Como o mesmo
raciocı́nio aplica-se aos demais sub-intervalos de P, segue imediatamente a validade de (20.2).

Prova da Proposição 20.1. Por um teorema bem conhecido, toda função contı́nua f definida em um
intervalo compacto [a, b] é uniformemente contı́nua, ou seja, para todo  > 0 existe δ > 0 tal que
|f (y) − f (x)| <  sempre que x e y encontrem-se ambos em algum sub-intervalo de [a, b] que tenha
largura menor que δ.
Fixado um  > 0, escolhamos uma partição P tal que |P | < δ. Seja P um refinamento de P Todos
os intervalos de P têm largura menor ou igual a δ e isso implica W(f, P ) < . Assim, o Lema 20.1
diz-nos que

S[(P  , χ  ), f ] − S[(P, χ), f ] ≤ W(f, P ) |b − a| ≤  |b − a| .
Com isso vemos que o critério I’ de integrabilidade de Riemann é satisfeito, que é o que querı́amos
demonstrar.

O seguinte corolário é imediato e sua prova é deixada como exercı́cio.


Corolário 20.1 Toda função real contı́nua por partes13 definida em um intervalo compacto [a, b] é
integrável por Riemann. 2

Esse fato é importante, pois a grande parte, se não a totalidade, das funções encontradas na prática
das ciências naturais e da engenharia é formada por funções contı́nuas ou contı́nuas por partes. No
Exercı́cio E. 20.5, página 905, adiante, exibimos um exemplo de uma função que não é contı́nua por
partes mas é integrável por Riemann.

• Funções com valores em espaços de Banach. Integrabilidade de Riemann

13
Para a definição geral de continuidade por partes, vide página 890.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 903/1195

Até o momento tratamos apenas de caracterizar a noção de integral de Riemann para funções
definidas em conjuntos compactos [a, b] assumindo valores reais. O estudante é convidado a constatar,
no entanto, que as construções acima (incluindo a Proposição 20.1) permanecem inalteradas se as
funções consideradas assumirem valores em espaços de Banach.
Se B é um espaço de Banach e f : [a, b] → B é uma função assumindo valores em B, a soma de
Riemann de f associada ao par (P, χ) é analogamente definida por
n−1
X
S[(P, χ), f ] := f (χk )|Ik | ∈ B. (20.3)
k=1

Temos, assim:

Definição. Integrabilidade de Riemann para espaços de Banach. Seja B um espaço de Banach


com norma k · kB . Uma função limitada f : [a, b] → B é dita ser integrável por Riemann no intervalo
compacto [a, b] se a rede X([a, b]) 3 (P, χ) 7→ S[(P, χ), f ] ∈ B for uma rede de Cauchy, ou seja, se

para todo  > 0 existir P tal que S[(P, χ), f ] − S[(P , χ0 ), f ] <  para todo P com P  P.
B
Tem-se, analogamente, a importante
Proposição 20.2 Toda função contı́nua definida em um intervalo compacto [a, b] e assumindo valores
em um espaço de Banach é integrável por Riemann. 2

A demonstração repete os mesmos passos da demonstração da Proposição 20.1 se substituirmos os


módulos das funções e das somas de Riemann por normas em espaços de Banach.
Alguns desenvolvimentos sobre a integração e diferenciação de funções assumindo valores em espaços
de Banach serão apresentados na Seção 20.2.2, página 909.

• Somas de Darboux

Os critérios de integrabilidade que apresentamos acima são essencialmente aqueles apresentados


por Riemann em 1854. Da maneira como os formulamos, podemos aplicá-los para definir a noção de
integral (de Riemann) mesmo para funções definidas em intervalos compactos [a, b] ⊂ mas que 

assumam valores em espaços de Banach. Uma desvantagem dos critérios de integrabilidade acima é
a de fazerem o uso da noção de rede e pontos limite de redes, que talvez não sejam intuitivas para
todos. Felizmente, no caso de funções reais, há uma outra caracterização da noção de integrabilidade
de Riemann, devida a Darboux14 , que é mais transparente e prescinde dessas noções. Trataremos disso
agora.
Dada uma função real limitada f , definida em [a, b] e dada uma partição P ∈ P([a, b]), com
P = {x1 , . . . , xn }, definimos as somas de Darboux (inferior e superior) de f no intervalo [a, b],
associadas à P por
Xn−1   n−1 
X 
Di [P, f ] := inf f (y) |Ik | e Ds [P, f ] := sup f (y) |Ik | , (20.4)
y∈Ik y∈Ik
k=1 k=1

respectivamente. Vide Figura 20.2.


14
Jean Gaston Darboux (1842-1917). O trabalho de Darboux sobre a integral de Riemann data de 1875.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 904/1195

f(x) f(x)
sup f(y)
yε Ι
6
inf f(y)
y ε Ι6

sup f(y)
inf f(y) y ε Ι1
yε Ι
1

a=x 1 x2 x3 x4 x5 x6 b=x a=x 1 x2 x3 x4 x5 x6 b=x


7 7

Figura 20.2: Representação das somas de Darboux da mesma função e da mesma partição da Fig.
20.1. A soma das áreas dos retângulos à esquerda fornece Di [P, f ] e a soma das áreas dos retângulos
à direita fornece Ds [P, f ].

É evidente pela definição que Di [P, f ] ≤ Ds [P, f ] para qualquer partição P. Fora isso, tem-se
também os fatos compreendidos nos seguintes exercı́cios:

E. 20.2 Exercı́cio. Mostre que para quaisquer partições P e P0 ∈ P([a, b]) com P  P0 tem-se
Di [P, f ] ≤ Di [P0 , f ] e Ds [P, f ] ≥ Ds [P0 , f ]. Sugere-se provar isso por indução no número de pon-
tos da partição. 6

E. 20.3 Exercı́cio. Mostre que para quaisquer partições P e P0 ∈ P([a, b]) tem-se Di [P, f ] ≤ Ds [P0 , f ].
6

E. 20.4 Exercı́cio. Mostre que para quaisquer partições P e P0 ∈ P([a, b]) com P  P0 tem-se
Ds [P0 , f ] − Di [P0 , f ] ≤ Ds [P, f ] − Di [P, f ]. Sugestão: isso segue dos dois exercı́cios anteriores.
6

O exercı́cio E. 20.2 sugere a seguinte definição. Definimos as integrais de Darboux (inferior e supe-
rior) de f no intervalo [a, b] por
Z b Z b
f (x) dx := sup Di [P, f ] e f (x) dx := inf Ds [P, f ] ,
a P∈P([a, b]) a P∈P([a, b])

respectivamente. O fato estabelecido no exercı́cio E. 20.3 acima que Di [P, f ] ≤ Ds [P0 , f ] para
quaisquer partições P e P0 ∈ P([a, b]) implica (por que?)
Z b Z b
f (x) dx ≤ f (x) dx .
a a

Tudo isso sugere a seguinte definição.

Definição. Integrabilidade de Riemann II. Uma função limitada f é dita ser integrável por Rie-
Rb Rb
mann no intervalo compacto [a, b] se a f (x) dx = a f (x) dx. Nesse caso a integral de Riemann de f
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 905/1195

no intervalo [a, b] é definida por


Z b Z b Z b
f (x) dx = f (x) dx = f (x) dx .
a a a

Sobre a relação entre as definições I e II, acima, tem-se o seguinte:


Proposição 20.3 Se uma função real f é integrável no sentido da definição I então também o é no
sentido da definição II, e vice-versa. 2

Por ser bastante técnica e sem relevância especial para o que segue, apresentamos a demonstração
dessa proposição não aqui, mas no Apêndice 20.A, página 946.

• Critério de Lebesgue para integrabilidade de Riemann

Há uma caracterização da integrabilidade de Riemann, devida a Lebesgue, que permite precisar
quais funções são integráveis no sentido de Riemann:
Critério de Lebesgue para integrabilidade de Riemann. Uma função limitada f : [a, b] → é integrável 

no sentido de Riemann se e somente se for contı́nua quase em toda parte (em relação à medida de
Lebesgue), ou seja, se a coleção de pontos onde f é descontı́nua tiver medida de Lebesgue nula.
Não apresentaremos a demonstração desse fato aqui (vide [57]). Uma conseqüência desse critério
(que também pode ser obtida por meios mais diretos, como vimos acima) é que toda função limitada
e contı́nua por partes15 é integrável no sentido de Riemann.
É curioso e relevante observar também que não são apenas as funções contı́nuas por partes que são
integráveis no sentido de Riemann. O seguinte exercı́cio ilustra isso.

E. 20.5 Exercı́cio-desafio. Aqui vamos designar números racionais r na forma r = p/q, supondo p e q
primos entre si. Seja a seguinte função:


 1 p
 1 + , se x = for racional
q q
f (x) = .


 1, se x for irracional
Mostre que f é contı́nua em x se x for irracional mas que f é descontı́nua em x se x for racional. Sugestão:
lembre que se x é irracional, então para toda seqüência p n /qn de racionais que aproxima x tem-se que
qn → ∞ para n → ∞.
Como os racionais têm medida de Lebesgue zero, segue pelo critério de Lebesgue que f é integrável de
Rb Rb
Riemann. Prove diretamente da definição que a f (x) dx = a f (x) dx = b − a para todos a < b. Note que
Rb Rb
o fato que a f (x) dx = b − a é evidente, a dificuldade está em provar que a f (x) dx = b − a. 6

• Deficiências da integral de Riemann


15
Lembremos: uma função é dita ser contı́nua por partes se for descontı́nua apenas em um número finito de pontos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 906/1195

As noções de função integrável no sentido de Riemann e de integral de Riemann que apresentamos


acima são a base de todo o Cálculo elementar e delas se extrai uma série de conseqüências bem
conhecidas e que não repetiremos aqui, tais como a linearidade da integral, o teorema fundamental do
cálculo, métodos de integração (como a integração por partes) etc. Para uma ampla exposição, vide
e.g. [83]-[84]. A integral de Riemann, porém, possui algumas deficiências que ilustraremos abaixo.
Essas deficiências conduziram à procura de uma noção mais forte de integrabilidade, da qual falaremos
posteriormente.
Seja [a, b], a < b, um intervalo compacto e considere-se a seguinte função D : [a, b] →  :

 0, se x for racional
D(x) = . (20.5)

1, se x for irracional

Será essa função integrável em [a, b] sentido de Riemann? A resposta é não, pois como facilmente se
constata,
Z b Z b
D(x) dx = 0 mas D(x) dx = b − a,
a a

já que, para qualquer sub-intervalo Ik = [xk , xk+1 ] de qualquer partição de [a, b] teremos

inf D(y) = 0 mas sup D(y) = 1 ,


y∈Ik y∈Ik

pois Ik sempre conterá números racionais e irracionais. Assim, aprendemos que há funções limitadas
que não são integráveis no sentido de Riemann. Esse exemplo, porém, ilustra um outro problema de
conseqüências piores.
Seja o conjunto Q = ∩ [a, b] de todos os racionais do intervalo [a, b]. Como esse conjunto é
contável, podemos representá-lo como Q = {r1 , r2 , r3 , r4 , . . .} = {rk , k ∈ }, onde 3 k → rk ∈ Q
 

é uma contagem de Q. Seja definida agora a seguinte seqüência de funções:



 0, se x ∈ {r1 , . . . , rn }
Dn (x) = .

1, de outra forma

É fácil ver que para todo x ∈ [a, b] tem-se D(x) = lim Dn (x), onde D está definida em (20.5).
n→∞
Cada função Dn é integrável no sentido de Riemann, pois é contı́nua por R bpartes, sendo descontı́nua
apenas nos pontos do conjunto finito {r1 , . . . , rn }. É muito fácil ver que a Dn (x) dx = b − a e assim,
Z b Z b 
lim Dn (x) dx = b−a. Entretanto, trocar a integral pelo limite lim Dn (x) dx não faz sentido,
n→∞ a a n→∞
pois a função D(x) = lim Dn (x) não é integrável no sentido de Riemann.
n→∞
A lição que se aprende disso é que a integração de Riemann não pode ser sempre cambiada com o
limite pontual de funções16 . Esse é um fato desagradável, que impede manipulações onde gostarı́amos
de poder trocar de ordem integrais e limites. O problema reside no fato de o critério de integração
16
A troca de ordem de integrais de Riemann e limites de seqüências de funções é permitida, porém, se o limite for
uniforme.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 907/1195

de Riemann não ser suficientemente flexı́vel de modo a permitir integrar um conjunto suficientemente
grande de funções ou, melhor dizendo, o conjunto das funções integráveis no sentido de Riemann não
é grande o suficiente. Como vimos no critério de Lebesgue, só são integráveis no sentido de Riemann
as funções que são contı́nuas quase em toda parte. Esse conjunto, que exclui funções como D, acaba
sendo pequeno demais para dar liberdade a certas manipulações de interesse.

E. 20.6 Exercı́cio. Por que D não é contı́nua quase em toda parte? Para responder isso, mostre que D
não é contı́nua em nenhum ponto. Sugestão: recorde que todo x irracional pode ser aproximado por uma
seqüência de racionais e que todo x racional pode ser aproximado por uma seqüência de irracionais. Mostre
então que para qualquer x existem seqüências xn com lim xn = x, mas com lim D(xn ) = D(x). 6
n→∞ n→∞

Um outro problema, de outra natureza, diz respeito à propriedade de completeza da coleção das
funções integráveis por Riemann.
Rb Tais conjuntos não formam espaços métricos completos em relação à
métricas como d1 (f, g) = a |f (x) − g(x)|dx. Como a propriedade de completeza é muito importante,
faz-se necessário aumentar o conjunto de funções integráveis para obter essa propriedade. De fato, como
veremos, o conjunto de funções integráveis no sentido de Lebesgue é completo e esse fato é importante
na teoria dos espaços de Hilbert e de Banach.

20.2.1 A Integral de Riemann Imprópria


Z ∞
Vamos aqui tratar de definir a integral de Riemann imprópria f (x) dx de uma função f definida
−∞
em toda a reta real . De maneira intuitiva, essa integral deve ser definida como o limite de integrais
Z 

b
f (x) dx tomando a indo a −∞ e b indo a ∞ de diversas formas, sem afetar o resultado.
a
Uma possibilidade provisória seria a seguinte definição. Se f : → é uma função integrável por
 

Riemann em cada intervalo [a, b], poderı́amos definir a integral de Riemann imprópria de f por
Z ∞ Z A
f (x) dx := lim f (x) dx , (20.6)
−∞ A→∞ −A

caso o limite exista. A definição provisória (20.6) apresenta, porém, um problema que requer alguns
Z A
comentários. Em certos casos, pode ocorrer que o limite lim f (x) dx exista, mas não, por exemplo,
A→∞ −A
Z A2 Z A
o limite lim f (x) dx, ou outros. Tal é o caso da função f (x) = x. Tem-se aqui que lim x dx =
A→∞ −A A→∞ −A
Z A2
0 mas lim x dx diverge.
A→∞ −A
Por causa disso é insatisfatório tomar (20.6) como definição das integrais de Riemann impróprias.
É prudente elaborar uma definição mais conservadora e que leve em conta o que pode acontecer em
todos as integrais em intervalos [a, b] quando a → −∞ e b → ∞, independentemente. Isso é feito da
seguinte forma.
Denotemos por C a coleção de todos os intervalos finitos [a, b] ⊂ . Notando que os intervalos


[a, b] podem ser ordenados por inclusão, percebemos facilmente que C é um conjunto dirigido (vide
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 908/1195

definição à página 31).


Seja f : →   uma função fixa, integrável por Riemann em cada intervalo [a, b]. A aplicação
C → dada por

Z b
F[a, b] := f (x) dx (20.7)
a
forma uma rede. O conceito de limite em relação a uma rede é bem definido (a noção de rede, limites
de redes e suas propriedades foram estudadas na Seção 18.4, página 884). Isso nos permite estabelecer
a definição precisa de integral de Riemann imprópria.
Dizemos, que uma função f : → , integrável por Riemann em cada intervalo [a, b], possui uma
 

integral de Riemann imprópria se a rede F[a, b] , [a, b] ∈ C possuir um ponto limite (o qual será único,
pois é um espaço Hausdorff na topologia usual. Vide Proposição 18.5, página 885).


Assim, f possui uma integral de Riemann imprópria se


Z b
lim F[a, b] = lim f (x) dx
[a, b]∈C [a, b]∈C a

existir, o limite acima sendo o da rede, com os intervalos ordenados por inclusão. Se f tiver essa
propriedade, definimos a integral de Riemann imprópria de f por
Z ∞ Z b
f (x) dx := lim F[a, b] = lim f (x) dx .
−∞ [a, b]∈C [a, b]∈C a

Para tornar essa definição um pouco mais palpável, vamos reformulá-la um pouco lembrando a
definição de ponto limite de uma rede da Seção 18.4, página 884. Dizemos que F ∈ é um ponto limite 

da rede F[a, b] , [a, b] ∈ C, se para todo  > 0 existir um intervalo [A, B] tal que F[a, b] ∈ (F − , F + )
para todo [a, b] ⊃ [A, B].
Assim, f : → , integrável por Riemann em cada intervalo finito, é dita ter uma integral de
 

Riemann imprópria F ∈ se para todo  > 0 existir um intervalo [A, B] ∈ C tal que


Z b

f (x) dx − F < 

a
R∞
para todo [a, b] ⊃ [A, B], [a, b] ∈ C. O número F é denotado por f (x)dx. −∞
Z ∞ Z a
De maneira análoga definem-se as integrais de Riemann impróprias f (x) dx e f (x) dx, para
a −∞
Z A Z a
a ∈ , finito, como os limites lim
 f (x) dx e lim f (x) dx, respectivamente, caso existam.
A→∞ a A→∞ −A

Notemos en passant, que na definição da integral de Riemann em intervalos finitos [a, b], que
apresentamos na Seção 20.2, página 898, faz-se
R ∞necessário supor que a função f seja limitada. Para
a definição da integral de Riemann imprópria −∞ f (x) dx isso não é necessário, e f pode divergir em
 
3
±∞, desde que o limite da integral exista! Um exemplo é a função f (x) = x2 sen ex , que não é
3
limitada para x → +∞. Como facilmente se vê com a mudança de variáveis u = ex ,
Z ∞  3 Z
2 x 1 ∞ sen (u) π
x sen e dx = du = .
−∞ 3 0 u 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 909/1195

A última igualdade pode ser obtida pelo método


R∞ dos resı́duos. Um outro exemplo do mesmo tipo é a
função x cos(x4 ), que não é limitada mas a x cos(x4 )dx < ∞ para qualquer a finito.

No sentido da definição acima, a função f (x) = x não possui uma integral de Riemann imprópria
Z A2
bem definida pois, como observamos, limites como lim x dx divergem. Para funções que possuem
A→∞ −A
uma integral de Riemann imprópria bem definida vale, obviamente, a expressão (20.6) e para elas vale
também Z ∞ Z A Z A2
f (x) dx = lim f (x) dx = lim f (x) dx etc.
−∞ A→∞ −A A→∞ −A
Rb
ou seja, o limite de a f (x) dx pode ser tomado com a indo a −∞ e b indo a ∞ de diversas formas,
sem afetar o resultado.
Para iniciarmos a discussão precisamos de definições adequadas das noções de derivação e integração
(de Riemann) de funções entre espaços de Banach.

20.2.2 Diferenciação e Integração em Espaços de Banach


Vamos na presente seção (cuja leitura é dispensável para o desenvolvimento da teoria de integração de
Lebesgue que se lhe segue) aprofundar um pouco mais a teoria da integração de funções com valores
em espaços de Banach no sentido de reproduzir, nesse contexto geral, alguns dos resultados básicos do
Cálculo Diferencial e Integral17 .
A noção de integral de Riemann para funções de uma variável real com valores em um espaço de
Banach foi apresentada na Seção 20.2, em especial à página 902. Nosso principal propósito agora é
demonstrar o Teorema do Valor Médio e obter outros resultados preparatórios para a demonstração
do Teorema da Função Implı́cita, tratado na Seção 14.4, página 805. O primeiro passo é apresentar a
noção geral de diferenciação de funções entre espaços de Banach.

• Aplicações diferenciáveis em espaços de Banach. A derivada de Fréchet

Sejam M e N dois espaços de Banach. Seja M um aberto em M e g : M → N uma aplicação (não-


necessariamente linear). Dizemos que g é diferenciável em um ponto x ∈ M se existir uma aplicação
linear limitada Gx : M → N tal que
   
g(x + y) − g(x) − Gx y g(x + y) − g(x) − Gx y
N
lim = 0, ou seja, lim = 0.
y→0 kykM y→0 kykM

Se g é diferenciável em x, ou seja, se um tal Gx existir, então é unicamente definido. De fato,


suponhamos que exista H : M → N linear e limitado tal que
 
g(x + y) − g(x) − Hy
N
lim = 0.
y→0 kykM
17
Seguiremos proximamente a exposição de [58].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 910/1195

y
Seja v ∈ M com kvkM = 1 e seja y ∈ M tal que lim = v. Então,
y→0 kykM

k(H − Gx )ykN
k(H − Gx )vkN = lim
y→0 kykM
     

[g(x + y) − g(x) − Gx y − [g(x + y) − g(x) − Hy
N
= lim
y→0 kykM
 
[g(x + y) − g(x) − Gx y [g(x + y) − g(x) − Hy
N N
≤ lim + lim
y→0 kykM y→0 kykM

= 0.

Logo, H − Gx anula-se em todo vetor norma 1 e, portanto, anula-se em todo M.


O estudante pode facilmente convencer-se que a definição acima corresponde à noção bem-conhecida
de diferenciabilidade de funções de n → m . O operador linear limitado Gx pode ser interpretado
 

como a “melhor aproximação linear” à função g na vizinhança de x.


Se g é diferenciável em todo ponto x do aberto M e se a aplicação M 3 x 7→ Gx ∈ B(M, N) for
contı́nua em norma, dizemos que g é uma aplicação de classe C 1 .
Para manter uma familiaridade notacional, denotaremos os operadores lineares limitados G x defi-
nidos acima por (Dg)(x) ou mesmo por g 0 (x). O operador linear limitado (Dg)(x) representa, assim,
a derivada de g no ponto x, também denominada derivada de Fréchet18 de g em x.

E. 20.7 Exercı́cio. Mostre que se g é diferenciável no ponto x de acordo com a definição acima então
é também contı́nua em x. 6

• Diferenciação e integração de funções de uma variável real

De particular interesse é o caso em que M =  e M = (a, b) ⊂  , um intervalo aberto finito da


reta real. Aqui, tem-se o seguinte:
Proposição 20.4 Seja N um espaço de Banach e seja g : [a, b] → N uma função contı́nua. Seja
G : [a, b] → N definida por Z x
G(x) := g(t)dt , x ∈ [a, b] . (20.8)
a

Então G é diferenciável em todo intervalo (a, b) e (DG)(x) ≡ G0 (x) = g(x). 2

Prova. Pela definição da integral de Riemann é evidente que


Z t2 Z t3 Z t3
g(t) dt + g(t) dt = g(t) dt (20.9)
t1 t2 t1

18
Maurice René Fréchet (1878-1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 911/1195

para todos t1 , t2 , t3 ∈ [a, b]. É também fácil ver que


Z b Z b

g(t) dt
≤ kg(t)kN dt (20.10)
a N a

n−1
X
pois para as somas de Riemann (20.3) tem-se kS[(P, χ), g]kN ≤ kg(χk )kN |Ik | , o que implica
k=1
(20.10), tomando-se os limites. De (20.10) obtem-se trivialmente a estimativa
Z b

g(t) dt ≤ |b − a| max kg(t)k (20.11)
t∈[a, b]
N
a N

que usaremos logo abaixo. Seja G definida em (20.8). Tem-se por (20.9) que G(x + y) − G(x) =
Z x+y
g(t)dt para todo x, y ∈ (a, b) com x + y ∈ (a, b). Logo,
x
Z x+y 
G(x + y) − G(x) − g(x)y = g(t) − g(x) dt .
x

Assim, por (20.11),



G(x + y) − G(x) − g(x)y ≤ |y| max kg(t) − g(x)kN ,
N t∈[x, x+y]

donde segue que



G(x + y) − G(x) − g(x)y continuidade
N
lim ≤ lim max kg(t) − g(x)kN = 0.
y→0 |y| y→0 t∈[x, x+y]

Isso provou que G é diferenciável em todo x ∈ (a, b) com (DG)(x) ≡ G0 (x) = g(x).

Na demonstração do Teorema do Valor Médio faremos uso do lema a seguir (cujo enunciado e
demonstração foram extraı́dos de [58]). O estudante deve cuidadosamente observar que, ao contrário
do que uma primeira impressão pode sugerir, esse lema não é conseqüência da Proposição 20.4.
Lema 20.2 Seja N um espaço de Banach e f : [a, b] → N contı́nua e diferenciável em todo (a, b) mas
de modo que f 0 (x) = 0 para todo x ∈ (a, b). Então f é constante. 2

Prova.19 Sejam s e t ∈ (a, b), arbitrários, com s < t. Desejamos mostrar que f (s) = f (t). Como s e t
são arbitrários e f é contı́nua, isso implica que f é constante em todo intervalo fechado [a, b]. Vamos
definir uma seqüência de intervalos (sn , tn ) ∈ (s, t), n ∈ , satisfazendo


(sn , tn ) ⊂ (sn−1 , tn−1 ) e |tn − sn | = 2−n |t − s|


19
De [58].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 912/1195

dados da seguinte forma: (s0 , t0 ) = (s, t) e para n ≥ 1,


 sn−1 +tn−1 
 
 s , , caso f (sn−1 ) − f sn−1 +tn−1 ≥ f sn−1 +tn−1 − f (tn−1 ) ,


n−1 2 2 2

(sn , tn ) :=

   
 sn−1 +tn−1
2
, tn−1 , caso f sn−1 +t 2
n−1
− f (tn−1 ) ≥ f (sn−1 ) − f sn−1 +t
2
n−1
.
Em palavras, quebramos a cada passo o intervalo (sn−1 , tn−1 ) ao meio e escolhemos (sn , tn ) como
sendo a metade na qual a variação de f em norma foi maior. É claro por essa escolha que
   
s + t s + t
kf (sn−1 ) − f (tn−1 )k ≤ + f
n−1 n−1 n−1 n−1
f (s n−1 ) − f − f (t n−1 )
2 2

≤ 2 kf (sn ) − f (tn )k
e, portanto, tem-se para todo n ∈  ,
kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k . (20.12)
Pela construção, sn é uma seqüência não-decrescente e limitada superiormente por t, enquanto que t n
é uma seqüência não-crescente e limitada inferiormente por s. Assim, ambas convergem a pontos no
intervalo [s, t]. Como, porém, |tn − sn | = 2−n |t − s|, segue que ambas as seqüências sn e tn convergem
e a um mesmo ponto ξ ∈ [s, t]. Fora isso, é também claro que ξ ∈ [sn , tn ] para todo n.
Pela hipótese, vale f 0 (ξ) = 0. Pela definição de f 0 , isso significa que para todo  > 0 existe δ > 0 tal
que kf (x) − f (ξ)k/|x − ξ| <  sempre que |x − ξ| ≤ δ. Como sn e tn convergem a ξ, podemos escolher
n grande o suficiente de modo que |sn − ξ| ≤ δ e |tn − ξ| ≤ δ. Teremos, assim, para tais n’s,

kf (sn ) − f (tn )k ≤ kf (sn ) − f (ξ)k + kf (ξ) − f (tn )k ≤  |sn − ξ| + |ξ − tn | .
Como ξ ∈ [sn , tn ] para todo n, segue que |sn − ξ| + |ξ − tn | = |tn − sn | = 2−n |t − s|. Logo, obtivemos
kf (sn ) − f (tn )k ≤ 2−n |t − s| .
Voltando a (20.12) isso implica kf (s) − f (t)k ≤ 2n kf (sn ) − f (tn )k ≤ |t − s|. Como  > 0 é arbitrário,
segue disso que kf (s) − f (t)k = 0, completando a prova.

Com esse lema e com a Proposição 20.4 a prova do Teorema do Valor Médio torna-se elementar.

• O Teorema do Valor Médio

Teorema 20.1 (Teorema do Valor Médio) Sejam M e N espaços de Banach e M ⊂ M um con-


junto aberto e conexo de M. Seja g : M → N contı́nua e diferenciável. Então, para todos x, y ∈ M
vale Z 
1
g(x) − g(y) = g 0 (τ x + (1 − τ )y) dτ (x − y)
0
assim como a estimativa
kg(x) − g(y)kN ≤ Kx, y kx − ykM ,
0
onde Kx, y := max kg (tx + (1 − t)y)k. 2
t∈[0, 1]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 913/1195

Prova. Para x, y ∈ M fixos, seja h : [0, 1] → N definida por h(t) := g(tx + (1 − t)y). Pela regra da
cadeia, h0 (t) = g 0 (tx + (1 − t)y)(x − y). Defina-se também
Z t
H(t) := g 0 (τ x + (1 − τ )y)(x − y) dτ , t ∈ [0, 1] .
0

Pela Proposição 20.4, H é diferenciável e H 0 (t) = g 0 (tx + (1 − t)y)(x − y). Assim, H 0 (t) = h0 (t), o
que implica, pelo Lema 20.2, que a diferença H(t) − h(t) é constante para todo t ∈ [0, 1]. Como
H(0) = 0, segue que H(t) − h(t) = −h(0) = −g(y) para todo t ∈ [0, 1]. Para t = 1 essa igualdade fica
H(1) − h(1) = −g(y) e como h(1) = g(x) concluı́mos que
Z 1
g(x) − g(y) = g 0 (τ x + (1 − τ )y)(x − y) dτ .
0

Usando (20.11), segue disso que


 
0 0
kg(x) − g(y)kN ≤ max kg (tx + (1 − t)y)(x − y)kN ≤ max kg (tx + (1 − t)y)k k(x − y)kM ,
t∈[0, 1] t∈[0, 1]

o que completa a demonstração.

• Derivadas parciais

Sejam X e Y dois espaços normados com normas k · kX e k · kY , respectivamente. Podemos fazer


do produto cartesiano X × Y = {(x, y), x ∈ X, y ∈ Y} um espaço vetorial normado declarando as
operações de soma e produto por escalares por α1 (x1 , y1 ) + α2 (x2 , y2 ) := (α1 x1 + α2 x2 , α1 y1 + α2 y2 )
e definindo a norma k(x, y)kX×Y := kxkX + kykY . Mais que isso, se X e Y forem espaços de Banach
em relação às suas respectivas normas, é fácil constatar que X × Y também o é em relação a norma
k(x, y)kX×Y .

E. 20.8 Exercı́cio. Prove que k · kX×Y é de fato uma norma e que X × Y é um espaço de Banach em
relação à mesma se X e Y o forem em relação às suas respectivas normas. 6

Para distinguirmos a estrutura de espaço


 vetorial de X × Y definida acima, denotaremos os vetores
x
(x, y) ∈ X × Y como vetores-coluna: y .
Definamos as projeções ΠX : X × Y → X e ΠY : X × Y → Y por
   
x x
ΠX := x , ΠY := y ,
y y
respectivamente, e definamos ΛX : X → X × Y e ΛY : Y → X × Y por
   
x 0
ΛX x := , ΛY y := ,
0 y
respectivamente. É um exercı́cio elementar (mas importante) mostrar que ΠX , ΠY , ΛX e ΛY são lineares
e contı́nuas se dotarmos X, Y e X × Y das topologias das normas k · kX , k · kY e k · kX×Y , respectivamente.
É igualmente elementar constatar que
Π X ΛX = X , Π Y ΛY = Y e Λ X ΠX + Λ Y ΠY = X×Y . (20.13)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 914/1195

Seja Z um terceiro espaço de Banach com norma k · kZ . Para A ⊂ X e B ⊂ B dois abertos convexos,
seja F : A × B → Z uma função contı́nua e diferenciável, sendo F 0 : A × B → Z sua derivada. Para
cada (x, y) ∈ A × B a expressão F 0 (x, y) define um operador linear e contı́nuo X × Y → Z.
Para y fixo em B podemos considerar também a função A 3 x 7→ F (x, y), assim como para
x fixo em A podemos considerar a função B 3 y 7→ F (x, y). Se essas funções forem diferenciáveis
denotaremos suas derivadas por D1 F e D2 F , respectivamente. Note-se que D1 F é uma aplicação linear
X → Z e D2 F é uma aplicação linear Y → Z.
Vamos mostrar que se F 0 existe então essas duas funções são também diferenciáveis e vamos esta-
belecer relações entre D1 F , D2 F e F 0 . De fato, da existência de F 0 sabemos que
 
0 a kR(a, b)kZ
F (x + a, y + b) − F (x, y) = F (x, y) + R(a, b) , com lim = 0.
b (a, b)→0 k(a, b)kX×Y

para todos (a, b) ∈ X × Y. Em particular, para b = 0 teremos


 
0 a kR(a, 0)kZ
F (x + a, y) − F (x, y) = F (x, y) + R(a, 0) , com lim = 0,
b a→0 k(a, 0)kX×Y

ou seja, escrevendo R(a, 0) ≡ R(a) e lembrando que k(a, 0)kX×Y = kakX , tem-se
  kR(a)kZ
0
F (x + a, y) − F (x, y) = F (x, y) ΛX a + R(a) , com lim = 0,
a→0 kakX

o que nos permite concluir que


D1 F (x, y) = F 0 (x, y)ΛX .
Analogamente, podemos concluir que

D2 F (x, y) = F 0 (x, y)ΛY .

Dessas expressões extrai-se facilmente a continuidade de D1 F (x, y) e D2 F (x, y) como funções de


(x, y) ∈ A × B. Da última das relações em (20.13) obtemos

F 0 (x, y) = D1 F (x, y) ΠX + D2 F (x, y) ΠY . (20.14)

As últimas três expressões valem para todo (x, y) ∈ A × B.


D1 F e D2 F definem as derivadas parciais de F em relação a seu primeiro e segundo argumentos,
respectivamente.

20.3 A Integração no Sentido de Lebesgue


A presente seção é dedicada à teoria da integração de funções definidas em espaços mensuráveis. A
noção de integração da qual trataremos foi introduzida por Lebesgue entre 1901 e 1902 20 e redescoberta
20
O trabalho de Lebesgue sobre a teoria da integração, intitulado “Intégrale, longueur, aire” foi apresentado como
dissertação à Universidade de Nancy em 1902.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 915/1195

independentemente por Young21 dois anos mais tarde. A teoria de integração introduzida por Lebes-
gue representa uma importante extensão da teoria de integração de Riemann e desde cedo encontrou
aplicações em diversas áreas da Matemática (como, para ficar em um único exemplo, na teoria das
séries de Fourier), com reflexos também na Fı́sica.
A teoria da integração de Lebesgue faz amplo uso de noções da teoria da medida e necessita, em
particular, da noção de função mensurável, que iremos discutir antes de passarmos à definição geral da
integral de Lebesgue propriamente dita.

20.3.1 Funções Mensuráveis e Funções Simples


Comecemos com uma definição que será amplamente empregada no que segue, a de função caracterı́stica
de um conjunto.

• A função caracterı́stica de um conjunto

Seja M é um conjunto não-vazio e A ⊂ M . A função χA : M →  definida por



1, se x ∈ A
χA (x) :=
0, se x 6∈ A

é denominada função caracterı́stica do conjunto A, ou função indicatriz do conjunto A.

E. 20.9 Exercı́cio. Seja M um conjunto não-vazio e A, B ⊂ M . Mostre que

χA (x)χB (x) = χA∩B (x) , ∀x ∈ M . (20.15)

• Funções mensuráveis. Definição e comentários

Apresentemos uma importante definição, a de função mensurável. Sejam (M, M) e (N, N) dois
espaços mensuráveis, sendo M e N dois conjuntos não-vazios e M ⊂ (M ) e N ⊂ (N ) σ-álgebras em
M e N , respectivamente.
Uma função f : M → N dita ser uma função mensurável em relação às σ-álgebras M e N, ou
[M, N]-mensurável, se f −1 (A) ∈ M para todo A ∈ N, ou seja, se a pré-imagem de todo conjunto
mensurável segundo N for um conjunto mensurável segundo M.
O estudante deve comparar essa definição com a definição de função contı́nua DC 1, página 888.
Devido ao seu seu papel preponderante na teoria da integração (de Lebesgue), vamos primeiro estudar
algumas das propriedades básicas das funções mensuráveis, especialmente das funções numéricas, ou
seja, aquelas cuja imagem está em ou em .

A primeira propriedade elementar é bastante geral: se (M1 , M1 ), (M2 , M2 ) e (M3 , M3 ) são três
espaços mensuráveis e se f : M1 → M2 e g : M2 → M3 são duas funções mensuráveis (f sendo
21
William Henry Young (1863-1942).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 916/1195

[M1 , M2 ]-mensurável e g sendo [M2 , M3 ]-mensurável) então g ◦ f : M1 → M3 é mensurável em relação


a M1 e M3 (ou seja, [M1 , M3 ]-mensurável). A prova é imediata pela definição.
Dado um espaço mensurável (M, M) estaremos, como dissemos, primordialmente interessados em
funções f : M → . Qual σ-álgebra adotar em ? As duas possibilidades mais importantes são a
 

σ-álgebra de Lebesgue22 MµL , dos conjuntos mensuráveis pela medida de Lebesgue µL , e a σ-álgebra
de Borel23 M[τ ] que, por definição, é a menor σ-álgebra que contem a topologia usual da reta τ . A
 

σ-álgebra de Borel foi estudada no Capı́tulo 15 (vide especialmente a página 822). Vimos na Seção
17.1.1, página 855, que M[τ ] ⊂ MµL . 

Para a grande maioria dos propósitos da teoria da integração é suficiente considerar em a σ- 

álgebra de Borel M[τ ]. Assim, dado um espaço mensurável (M, M) estaremos interessados em


funções f : M → , dotando da σ-álgebra de Borel M[τ ].


 


Os conjuntos que compõe M[τ ] são denominados conjuntos Borelianos. Que conjuntos são estes?


Recordando o que aprendemos nos capı́tulos supra-citados, todos os conjuntos abertos ou fechados de
 (na topologia usual τ ) são Borelianos. São também Borelianos intervalos semi-abertos como [a, b)


ou (a, b], assim como uniões contáveis dos mesmos e seus complementos.
Há em , além dos intervalos semi-abertos, outros conjuntos S
 Borelianos que não são nem abertos
nem fechados. O conjunto dos racionais, , é Boreliano, pois = r∈ {r}, uma união contável de con-
juntos Borelianos {r} (que contem apenas um ponto e são Borelianos por serem fechados). O conjunto
dos irracionais é Boreliano por ser o complemento de , que é Boreliano. Analogamente o conjunto
dos números reais algébricos é Boreliano, assim como o conjunto dos números reais transcendentes.
Generalizando o raciocı́nio, todo conjunto finito ou contável de é Boreliano e seu complemento 

também.
Se f : M → é mensurável em relação às σ-álgebras M e M[τ ], f dita ser uma função Boreliana.



Se f : M → é mensurável em relação às σ-álgebras M e MµL , f dita ser mensurável de Lebesgue.




Como M[τ ] ⊂ MµL , toda função mensurável de Lebesgue é Boreliana. Que funções são Borelianas?


É difı́cil dar uma descrição geral, mas no caso importante de funções f : → onde adotamos M[τ ]  


como a σ-álgebra tanto do domı́nio quando da imagem, é relativamente fácil provar que toda função
contı́nua é Boreliana. A prova é apresentada no Apêndice 20.B, página 947, quando tratarmos de
funções mensuráveis entre espaços topológicos.
São também Borelianas as funções contı́nuas por partes, ou seja, aquelas que possuem um número
finito de descontinuidades. Há ainda outras funções que são Borelianas mas que não são nem contı́nuas
nem contı́nuas por parte. Exemplos são as funções de (20.1).

E. 20.10 Exercı́cio. Justifique! 6

Um exemplo de uma função não-mensurável, mais especificamente, de uma função f : →  

que não é Boreliana, é a função caracterı́stica de um conjunto não-mensurável (ou não Boreliano),
como a função caracterı́stica χV (x) do conjunto de Vitali V que introduzimos no Capı́tulo 16 (vide
especialmente a página 837). Funções não-mensuráveis são praticamente desconsideradas na teoria da
integração.
22
Henri Léon Lebesgue (1875-1941).
23
Félix Édouard Justin Émile Borel (1871-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 917/1195

No Apêndice 20.B, página 947, estuda-se com mais profundidade a noção de função mensurável.
Para os nossos propósitos, o principal resultado que lá obtemos é o seguinte:
Proposição 20.5 Se (M, M) é um espaço de medida, então o conjunto de todas as funções f : M → 

que sejam [M, M[τ ]]-mensuráveis forma uma álgebra real. Mais precisamente, se f : M →


e 

g : M → são ambas [M, M[τ ]]-mensuráveis, então





1. Para todos α, β ∈  vale que αf + βg é [M, M[τ ]]-mensurável. 

2. O produto f · g é [M, M[τ ]]-mensurável.




• Funções mensuráveis complexas

Uma função f : M → é [M, M[τ ]]-mensurável se e somente se suas partes real e imaginária


forem [M, M[τ ]]-mensuráveis. Isso é demonstrado nas Proposições 20.14 e 20.15, das páginas 952 e


seguintes.
Usando a Proposição 20.5 é fácil ver que o conjunto de todas as funções complexas mensuráveis é
também uma álgebra complexa. Vide Proposição 20.16, página 953.

• Funções definidas por sup’s e inf’s

Se {fn } é uma seqüência de funções definidas em M assumindo valores em  , então as funções


sup fn , inf fn , lim sup fn e lim inf fn são definidas para cada x ∈ M por
n n n n
 
sup fn (x) := sup (fn (x)) ,
n n

 
inf fn (x) := inf (fn (x)) ,
n n
 
lim sup fn (x) := lim sup (fn (x)) ,
n n

 
lim inf fn (x) := lim inf (fn (x)) .
n n

Se (M, M) for um espaço de medida e as funções fn forem todas [M, M[τ ]]-mensuráveis, então 

todas as funções definidas acima são também [M, M[τ ]]-mensuráveis. 

Por exemplo, para provar que a função f := sup fn é mensurável, notamos que para qualquer a ∈ 


[
−1
f ((a, ∞)) = fn−1 ((a, ∞)).
n=1

E. 20.11 Exercı́cio. Certo? Sugestão: Seção 1.1.4, página 42. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 918/1195

Pela Proposição 20.10, página 949, cada conjunto fn−1 ((a, ∞)) pertence a M, portanto, a união
acima também, pois é uma união contável. Logo, f −1 ((a, ∞)) ∈ M para todo a ∈ e, novamente 

pela Proposição 20.10, isso implica que f é [M, M[τ ]]-mensurável. 

Analogamente, prova-se que f := inf fn é [M, M[τ ]]-mensurável, pois nesse caso



[
−1
f ((−∞, a)) = fn−1 ((−∞, a)).
n=1

Para o caso de f = lim sup fn , notamos que lim sup fn = inf sup fn . Pelo argumentado acima, cada
n n m≥1 n≥m
sup fn é [M, M[τ ]]-mensurável e assim o é seu ı́nfimo para todo m. Finalmente, o caso da função


n≥m
lim inf fn é análogo.
n

• Partes positiva e negativa de uma função

Para f : M →  , definimos
 
 f (x), se f (x) ≥ 0,  −f (x), se f (x) ≤ 0,
f + (x) := e f − (x) := .
 
0, se f (x) < 0, 0, se f (x) > 0,

f + é denominada parte positiva de f e f − é denominada parte negativa de f . É claro que f + (x) ≥ 0 e


que f − (x) ≥ 0 para todo x. É fácil ver que

f (x) + |f (x)| −f (x) + |f (x)|


f + (x) = e f − (x) =
2 2
e, conseqüentemente,
f = f+ − f− e |f | = f + + f − .
É igualmente fácil ver que

f + (x) = f (x)χF + (x) e f − (x) = −f (x)χF − (x) (20.16)

sendo que
F + = {x ∈ M | f (x) ≥ 0} e F − = {x ∈ M | f (x) ≤ 0} .
Se f é mensurável, F + e F − são conjuntos mensuráveis, por serem as pré-imagens por f dos Borelianos
[0, ∞) e (−∞, 0], respectivamente. Assim, as funções caracterı́sticas χF ± são mensuráveis. Como o
produto de duas funções mensuráveis é mensurável (Proposição 20.5), concluı́mos de (20.16) que f + e
f − são funções mensuráveis. Daı́, como |f | = f + + f − , segue também que |f | é mensurável, pois é a
soma de duas funções mensuráveis (novamente, Proposição 20.5).

• A representação normal

Se M é um conjunto não-vazio, dizemos que uma função real ou complexa f : M → , ou f : 

M → possui uma representação normal se para algum m ∈ existirem números α1 , . . . , αm ,



JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 919/1195

não necessariamente distintos, e conjuntos B1 , . . . , Bm tais que Bi ∩ Bj = ∅ para i 6= j, que M =


B1 ∪ · · · ∪ Bm e que
X m
f (x) = αk χBk (x) (20.17)
k=1
A soma do lado direito de (20.17) é dita ser uma representação normal de f . Note que nem toda
função f possui uma representação normal. Além disso, se f possui uma representação normal esta
não é necessariamente única: podemos dividir alguns dos conjuntos Bk em sub-conjuntos disjuntos
menores e obter uma nova representação normal. Ou podemos tomar a união de conjuntos B k com
valores iguais de αk e obter uma nova representação normal.
É importante notar que se f admite uma representação normal, então f assume um número finito
de valores (certo?). Veremos que essa é uma condição necessária e suficiente para que uma função f
possua uma representação normal.

• Funções simples

Se M é um conjunto não-vazio, uma função s : M → , ou s : M → , é dita ser elementar ou




simples se assumir apenas um número finito de valores, ou seja, se sua imagem for =(s) = {s 1 , . . . , sn },
para algum n ∈ , com si 6= sj para i 6= j, sendo que cada sk é um elemento de ou de , conforme
 

o caso. Se s é simples e =(s) = {s1 , . . . , sn }, defina-se os conjuntos Ak ⊂ M por Ak = s−1 (sk ), ou


seja, Ak é a pré-imagem de sk por s:
Ak = {x ∈ M | s(x) = sk }.
É bastante evidente que Ai ∩ Aj = ∅ para i 6= j, que M = A1 ∪ · · · ∪ An e que
n
X
s(x) = sk χAk (x) . (20.18)
k=1

Vemos com isso que toda função simples possui pelo menos uma representação normal.
Uma representação normal como a de (20.18), na qual as constantes sk são todas distintas, é dita
ser uma representação normal curta da função simples s. O leitor poderá facilmente convencer-se que
a representação normal curta de uma função simples é única.
Um ponto importante é a seguinte observação: uma função simples é mensurável (em relação a
uma σ-álgebra M definida em M ) se e somente se cada Ak acima for um conjunto mensurável (ou seja
Ak ⊂ M). A prova é evidente e dispensável.

• A álgebra das funções simples

As funções simples formam uma álgebra. As funções simples e mensuráveis também formam uma
álgebra. A prova dessas afirmações é bem simples e deixada ao leitor. O próximo exercı́cio é mais
detalhado quanto às propriedades algébricas das funções simples.

E. 20.12 Exercı́cio (fácil). Se s e r são funções simples definidas em M com representações normais
n
X m
X
s(x) = sk χAk (x) e r(x) = rl χBl (x)
k=1 l=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 920/1195

mostre que
n X
X m
r(x)s(x) = sk rl χAk ∩Bl (x) .
k=1 l=1

Isso segue facilmente da identidade χA χB = χA∩B . Para qualquer número α tem-se, obviamente,
n
X
αs(x) = αsk χAk (x) .
k=1

Por fim, mostre que


n X
X m
r(x) + s(x) = (sk + rl ) χAk ∩Bl (x) . (20.19)
k=1 l=1

Para provar isso, você deverá usar os fatos que A1 ∪ · · · ∪ An = M e que B1 ∪ · · · ∪ Bm = M , sendo ambas
uniões de conjuntos disjuntos, para mostrar que
n
X m
X
1 = χAk (x) e 1 = χBl (x) .
k=1 l=1

Disso, segue facilmente, usando a identidade χA χB = χA∩B , que


m
X n
X
χAk (x) = χAk ∩Bl (x) e χBl (x) = χBl ∩Al (x) ,
l=1 k=1

e disso, segue facilmente (20.19). 6

• Funções mensuráveis e funções simples

Toda função real não-negativa, mensurável por Lebesgue ou Boreliana, pode ser aproximada por
funções simples. Mais precisamente temos o seguinte lema (de [56]) que, embora um tanto técnico,
revela uma relação subjacente entre funções mensuráveis em geral e funções simples mensuráveis.
Lema 20.3 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M → não-negativa 

e Boreliana (ou mensurável por Lebesgue) é o limite de uma seqüência monótona não-decrescente de
funções simples mensuráveis e não-negativas. Se f for também limitada, a convergência é até mesmo
uniforme. 2

A prova encontra-se no Apêndice 20.C, página 953. O Lema 20.3 tem o seguinte
Corolário 20.2 Se M é um espaço de medida com uma σ-álgebra M, toda função f : M →  que
seja Boreliana é o limite de uma seqüência de funções simples mensuráveis. 2

Prova. A diferença com relação ao Lema 20.3 é que f não é necessariamente não-negativa. Pelo que
observamos, porém, f = f + − f − , sendo ambas f ± não-negativas e Borelianas. A elas, portanto,
aplica-se o Lema 20.3, o que encerra a prova.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 921/1195

20.3.2 A Integral de Lebesgue. Integração em Espaços Mensuráveis


Passamos agora à empreitada de definir o conceito de integral de Lebesgue em espaços mensuráveis.
O processo segue várias etapas sucessivas, iniciando com a definição de integral de funções simples
mensuráveis, que serão usadas para definir a integral de funções positivas mensuráveis e assim por
diante.

• Integração de funções simples

Seja agora M um espaço mensurável com uma σ-álgebra M, na qual está definida uma medida µ.
Se s é uma função simples e não-negativa
Pn (ou seja, se s(x) ≥ 0 para todo x), M-mensurável e com
representação normal curta s(x) = k=1 sk χAk (x), a integral de s em M com respeito à medida µ é
definida por
Z Z Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) . (20.20)
M M k=1
sk 6=0

Observações.

1. Note-se que na soma à direita na expressão (20.20) exclui-se os valores de k para os quais s k = 0.
Para tais valores de k pode eventualmente valer µ(Ak ) = ∞. Se convencionarmos que 0 × ∞ = 0,
podemos reescrever a definição acima de forma mais simplificada como
Z Z n
X
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) .
M M k=1

Para simplificar a notação, essa convenção 0 × ∞ = 0 é adotada por muitos autores e nos
juntaremos a eles nestas Notas. Observemos também que a soma do lado esquerdo pode valer
∞, caso µ(Ak ) = ∞ para algum k com sk > 0.

2. Na definição (20.20) usamos a representação normal curta da função s, mas isso não é necessário
pois qualquer representação normal de s pode ser usada com idêntico resultado. De fato, sejam
p q
X X
s(x) = βk χBk (x) e s(x) = γl χCl (x) (20.21)
k=1 l=1

duas representações normais de s, com Bi ∩Bj = ∅ para i 6= j, com M = B1 ∪· · ·∪Bp e igualmente


Ci ∩ Cj = ∅ para i 6= j, com M = C1 ∪ · · · ∪ Cq . Então,
p q
X X
βk µ(Bk ) = γl µ(Cl ) . (20.22)
k=1 l=1

A prova de (20.22) é apresentada no Apêndice 20.D, página 954. A validade de (20.22) mostra
que a definição de integral de uma função simples dada acima é intrı́nseca e não depende da
particular representação normal adotada.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 922/1195

Uma funçãoPsimples (não necessariamente positiva) e M-mensurável s, com uma representação


normal s(x) = nk=1 sk χAk (x), é dita ser µ-integrável se µ(Ak ) < ∞ para todo k com sk 6= 0. Observe-
se que para os valores de k para os quais sk = 0 não estamos impedidos de ter µ(Ak ) = ∞. Para uma
tal função definimos igualmente
Z Z Xn Xn
s dµ ≡ s(x) dµ(x) := sk µ(Ak ) = sk µ(Ak ) .
M M k=1 k=1
sk 6=0

R
Na última igualdade usamos a convenção 0 × ∞ = 0. Note que para s integrável, M
s dµ < ∞.
A definição de integral de funções simples que empreendemos acima é o primeiro passo da definição
mais geral de integral de funções em espaços mensuráveis. Antes de prosseguirmos, façamos alguns
comentários de esclarecimento sobre as definições acima.

• Alguns esclarecimentos

O estudante deve reparar nos cuidados tomados nas definições acima: só definimos a noção de
integral para funções simples e mensuráveis que sejam ou não-negativas ou integráveis. Ao definirmos
a integral de funções simples não-negativas permitimos ter µ(Ak ) = ∞ para algum k com sk > 0. Aqui,
a condição de s ser não-negativa é importante para evitar o aparecimento de somas to tipo ∞ − ∞,
que não estão definidas. Isso seria o caso de uma função simples como

+2, se x ∈ (1, ∞)
s(x) = .
−1, se x ∈ (−∞, 1]
Essa função
R é mensurável de Lebesgue. Porém, para a medida de Lebesgue µL , a integral dessa
função 
s dµL = +2µL ((1, ∞)) + (−1)µL ((−∞, 1]) não está definida, pois µL ((1, ∞)) = ∞ e
µL ((−∞, 1]) = ∞ e não temos como definir a diferença +2µL ((1, ∞)) + (−1)µL ((−∞, 1]). Já para a
função simples e mensurável 
+2, se x ∈ (1, ∞)
s(x) =
0, se x ∈ (−∞, 1]
R
teremos 
s dµL = +2µL ((1, ∞)) + (0)µL ((−∞, 1]) = +2µL ((1, ∞)) = ∞. Para as funções simples
integráveis tais problemas não ocorrem já que os termos sk µ(Ak ) são finitos (positivos ou negativos).
De fato, para funções simples integráveis só se terá µ(Ak ) = ∞ se sk = 0 e nesse caso convenciona-se
sk µ(Ak ) = 0. O seguinte exemplo ilustra isso: com relação à medida de Lebesgue a função simples

+2, se x ∈ (1, 4)
s(x) =
0, se x 6∈ (1, 4)
R
é mensurável e integrável e M s dµL = +2µL ((1, 4)) + (0)µL ( \ (1, 4)) = 2 × 3 + 0 × ∞ = 2 × 3 = 6.


• Integrais indefinidas de funções simples

Se s é simples mensurável não-negativa ou s é simples mensurável e integrável e se E ⊂ M com


E ∈ M, definimos
Z Z Xn
s dµ := s χE dµ = sk µ(Ak ∩ E) .
E M k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 923/1195

n
X n
X
(20.15)
A última igualdade segue de s(x)χE (x) = sk χAk (x)χE (x) = sk χAk ∩E (x), de onde extrai-se
k=1 k=1
Z n
X Z
que sχE dµ = sk µ(Ak ∩ E) , como desejamos. As integrais s dµ são por vezes denominadas
M k=1 E
integrais definidas da função simples s.

• Propriedades elementares da integração de funções simples

As seguintes propriedades das integrais de funções simples são válidas e podem ser facilmente
verificadas:
Z Z
(αs) dµ = α s dµ ,
E E
Z Z Z
(sa + sb ) dµ = sa dµ + sb dµ ,
E E E
Z Z
s1 dµ ≤ s2 dµ se s1 (x) ≤ s2 (x), ∀x ∈ E .
E E

Acima, s, sa e sb são funções simples, integráveis e complexas quaisquer e α ∈ , constante. s 1 e s2


são funções simples, integráveis e reais quaisquer.

• Medidas definidas pela integral de funções simples não-negativas

O seguinte resultado (de [105]), que tem interesse por si só, será usado mais adiante, por exemplo
quando demonstrarmos o Teorema da Convergência Monótona, Teorema 20.4, página 933.
Lema 20.4 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja s uma
função simples, não-negativa e [M, M[τ ]]-mensurável e integrável. Para E ∈ M defina-se


Z Z
ϕs (E) := s dµ = s χE dµ .
E M

Então ϕs é uma medida em M. 2

Prova. Em primeiro lugar, note-se que ϕs (φ) = 0, pois χ∅ é identicamente nula. Como s é não-negativa,
ϕs (E) ≥ 0 para todo E ∈ M.
P
= nk=1 sk χAk (com Ak ∈ M S
Seja uma representação normal de sP para todo k, pois s é mensurável).
n ∞
Teremos para cada E ∈ M, ϕs (E) = k=1 sk µ(Ak ∩ E). S∞Se E = m=1 Em é uma união disjunta e
contável com Em ∈ M para todo m, vale que Ak ∩ E = m=1 (Ak ∩ Em ), também uma união disjunta
e contável de elementos de M. Logo, como µ é uma medida, vale que

! ∞
! ∞
[ [ X
µ(Ak ∩ E) = µ Ak ∩ Em = µ (Ak ∩ Em ) = µ(Ak ∩ Em ).
m=1 m=1 m=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 924/1195

Assim,

! n ∞
! ∞
n X ∞ X
n
[ X [ X X
ϕs Em = sk µ Ak ∩ Em = sk µ (Ak ∩ Em ) = sk µ (Ak ∩ Em )
m=1 k=1 m=1 k=1 m=1 m=1 k=1


X
= ϕs (Em ) .
m=1

Isso provou que ϕs é σ-aditiva e, portanto, é uma medida.

E. 20.13 Exercı́cio. O que justifica a troca de ordem das somas feita na demonstração acima? 6

• Integração de funções mensuráveis. A integral de Lebesgue

Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ.
Seja f : M → + uma função não-negativa e mensurável. Denotaremos por S(f ) a coleção de


todas as funções simples, mensuráveis, não-negativas e menores ou iguais a f :


S(f ) := {s : M →  | s é simples, mensurável e 0 ≤ s(x) ≤ f (x) para todo x ∈ M } .
O Lema 20.3 nos ensinou que S(f ) é não-vazio e que há até mesmo seqüências em S(f ) que convergem
a f . Definimos então para E ⊂ M com E ∈ M,
Z Z
f dµ := sup s dµ . (20.23)
E s∈S(f ) E

Essa expressão define a integral de Lebesgue da função f sobre o conjunto E em respeito à medida µ.
A definição acima foi introduzida por Lebesgue como substituto à definição de integral devida a
Riemann. Discutiremos suas virtudes mais adiante. Note que a definição acima é bastante geral, no
sentido de não ser especificado o que é o conjunto M nem a medida µ. Por ora, a definição acima
limita-se a funções não-negativas f . Logo mostraremos como essa definição pode ser estendida para
funções que podem ser negativas ou complexas.
Se fn é uma seqüência monótona não-decrescente de funções simples mensuráveis de S(f ) que
converge a f (que tal existe, garante-nos o Lema 20.3) é possı́vel mostrar que
Z Z
f dµ = lim fn dµ . (20.24)
E n→∞ E
R
A expressão (20.24) pode ser tomada como definição alternativa equivalente de E f dµ e, de fato,
alguns autores assim o fazem. A equivalência das duas definições é demonstrada no Apêndice 20.E,
página 955. Seu estudo é dispensável em uma primeira leitura.

• A integração de Lebesgue e conjuntos de medida zero

Dentre as propriedades da integral definida acima, a seguinte observação terá um papel importante
a desempenhar.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 925/1195

Proposição 20.6 Seja


R (M, M) um espaço de medida e seja f : M → + uma função [M, M[τ ]]- 


mensurável tal que E f dµ = 0 para algum E ∈ M. Então f = 0 µ-q.t.p. em E. 2

Prova. Seja En = {x ∈ M | f (x) > 1/n} ∩ E = {x ∈ E| f (x) > 1/n}. Pela Proposição 20.10 da página
949, tem-se En ∈ M. É claro pela definição de En que f ≥ n1 χEn . Portanto, a função simples n1 χEn é
um elemento de S(f ) e, pela definição (20.23) da integral de Lebesgue, segue que
Z Z
1 1
0 = f dµ ≥ χEn dµ = µ(En ) ,
E E n n
S
ou seja, µ(En ) = 0 paraPtodo n ∈ . Note-se agora que {x ∈ E| f (x) > 0} = ∞


n=1 En . Logo,
µ({x ∈ E| f (x) > 0}) ≤ ∞ n=1 µ(E n ) = 0, provando que f = 0 µ-q.t.p em E.

• Funções integráveis

Como acima, seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f : M → uma função mensurável. f é dita ser integrável em M se


Z
|f | dµ < ∞ .
M

+ − ±
R
Como
R |f | = f + f , sendo ambas f não-negativas e mensuráveis, segue que M
f + dµ < ∞ e
M
f − dµ < ∞. Com isso, e como f = f + − f − , sendo ambas f ± não-negativas, é natural definir
Z Z Z
f dµ := +
f dµ − f − dµ .
M M M

As integrais do lado direito são finitas e, portanto, sua diferença está bem definida.

• Propriedades elementares da integração

As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (20.25)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (20.26)
E E E
Z Z
f1 dµ ≤ f2 dµ se f1 (x) ≤ f2 (x), ∀x ∈ E . (20.27)
E E

Acima, f , fa , fb , f1 e f2 são funções integráveis reais quaisquer e α ∈  , constante.

E. 20.14 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. 6
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 926/1195

Uma outra propriedade relevante de demonstração simples é a seguinte se f : M →  for integrável,


Z Z

f dµ ≤ |f | dµ . (20.28)

E E

Isso segue das seguintes linhas:


Z Z Z Z Z

f dµ = f dµ −
+
f dµ ≤ f dµ + f dµ
− + −

E E E E E
Z Z Z

= +
f dµ + f dµ = (f + + f − ) dµ
E E E
Z
= |f | dµ .
E

• Funções complexas integráveis

Caso f seja uma função complexa, f : M → , procede-se de forma semelhante. Como antes, f é
dita ser integrável em M se Z
|f | dµ < ∞ .
M
p
Denotemos por Re(f ) e Im(f ) as partes real e imaginária de f . Como |f | = |Re(f )|2 + |Im(f )|2 é
mensurável pela Proposição 20.14, página 952, é claro que |Re(f )| ≤ |f |, |Im(f )| ≤ |f | e, de (20.27),
segue que
Z Z Z Z
|Re(f )| dµ ≤ |f | dµ < ∞ e |Im(f )| dµ ≤ |f | dµ < ∞ . (20.29)
M M M M

Com isso, tanto Re(f ) quanto Im(f ) são funções reais e integráveis e podemos aplicar a definição acima
e escrever
Z Z Z
Re(f ) dµ = +
(Re(f )) dµ − (Re(f ))− dµ ,
M M M
Z Z Z
Im(f ) dµ = (Im(f )) dµ − +
(Im(f ))− dµ .
M M M

Com isso, é natural definir a integral de f por


Z Z Z
f dµ := Re(f ) dµ + i Im(f ) dµ
M M M
Z Z  Z Z 
+ − + −
= (Re(f )) dµ − (Re(f )) dµ + i (Im(f )) dµ − (Im(f )) dµ .(20.30)
M M M M

Todos os quatro termos acima são finitos e a soma dos mesmos é, portanto, bem definida.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 927/1195

Chegamos dessa forma ao propósito de definir a noção de integral para funções mensuráveis e
integráveis, reais ou complexas. Recapitulando, nossos passos foram 1) definir a integral de funções
simples não-negativas e integráveis; 2) definir a integral de funções reais, mensuráveis e não-negativas
a partir da integral de funções simples; 3) definir a integral de funções reais e integráveis a partir da
integral de funções reais, mensuráveis e não-negativas ; 4) definir a integral de funções complexas e
integráveis a partir da integral de suas partes real e imaginária.

• Propriedades elementares da integração de funções complexas

As seguintes propriedades das integrais de funções integráveis são válidas e podem ser facilmente
verificadas:
Z Z
(αf ) dµ = α f dµ , (20.31)
E E
Z Z Z
(fa + fb ) dµ = fa dµ + fb dµ , (20.32)
E E E

Acima, f , fa e fb são funções integráveis e complexas quaisquer e α ∈ , constante.

E. 20.15 Exercı́cio (recomendado a quem deseja testar se está realmente acompanhando a exposição).
Demonstre as propriedades elementares acima. Sugestão: use a definição (20.24). 6

A desigualdade (20.28) se deixa generalizar para funções integráveis complexas, mas a prova é mas
engenhosa: se f : M → for integrável, então
Z Z

f dµ ≤ |f | dµ . (20.33)

E E
p
Para provar isso, notemos que, pela Proposição 20.14, página 952, |f | = (Re(f ))2 + (Im(f ))2 é
[M, M[τ ]]-mensurável se Re(f )Re Im(f ) o forem. Fora isso, já vimos acima que Re(f ) e Im(f ) são


integráveis se f o for. A integral E f dµ é um número complexo e, portanto, pode ser escrito na forma
polar Z Z

f dµ = e f dµ .

E E
−iϕ
A função g := e f é mensurável e integrável, como facilmente se vê. Temos que
Z Z Z Z Z Z
(20.31)
Re(g) dµ + i Im(g) dµ = g dµ = −iϕ
e f dµ = e −iϕ
f dµ = f dµ ≥ 0 .

E E E E E E
R R R
Como E f dµ é um número real, segue que E Im(g) dµ = 0 e que E Re(g) dµ ≥ 0. Logo,
Z Z Z Z Z Z
(20.28) (20.29)
f dµ = Re(g) dµ = Re(g) dµ ≤ |Re(g)| dµ ≤ |g| dµ = |f | dµ ,

E E E E E E

completando a prova de (20.33).

• Os conjuntos Lp (M, dµ)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 928/1195

Antes de passarmos a exemplos, vamos rapidamente introduzir uma notação importante.


Se (M, M) é um espaço mensurável e µ é uma medida em M , denotaremos o conjunto das funções
integráveis em M em relação à medida µ por L1 (M, dµ):
 Z 

L1 (M, dµ) := f : M → f é [M, M[τ ]]-mensurável e |f | dµ < ∞ .


Muito importantes são também os espaços Lp (M, dµ), definidos por


 Z 


Lp (M, dµ) := f : M → f é [M, M[τ ]]-mensurável e 
p
|f | dµ < ∞ ,
M

onde p, em princı́pio, é um número real positivo p > 0. Os espaços Lp (M, dµ) com p ≥ 1 serão
discutidos com mais detalhe adiante.

• Exemplos. Integração com a medida delta de Dirac

Vamos a alguns exemplos ilustrativos. Considere M =  , M= ( ) e µ = δx0 para x0 ∈


  , a
medida delta de Dirac definida no item 2 da página 840.
n
X
Seja s(x) uma função simples definida em  com forma normal s(x) = sk χAk (x). Vamos supor
k=1
que x0 ∈ Ak0 . É claro que s(x0 ) = sk0 . Teremos também pela definição (16.2), página 840,
Z n
X
s dδx0 = sk δx0 (Ak ) = sk0 = s(x0 ) . (20.34)


k=1

Se f : → é mensurável, e fn é uma seqüência


R de funções simples que converge a f , teremos
obviamente que fn (x0 ) → f (x0 ) e, por (20.34), fn dδx0 = fn (x0 ). Assim, por (20.24), segue que


Z
f dδx0 = f (x0 ) . (20.35)


O estudante deve constatar que essa expressão corresponde precisamente à bem conhecida propriedade
Z ∞
f (x)δ(x − x0 )dx = f (x0 )
−∞

que comummente se associa em textos de Fı́sica à “função” delta de Dirac.

Nota para os estudantes mais avançados. Além da medida delta de Dirac existe também a distribuição
delta de Dirac. Ainda que muito semelhantes, esses objetos são distintos matematicamente: o primeiro
é uma medida, o segundo é uma distribuição, ou seja, um funcional linear contı́nuo em um certo espaço
de Fréchet de funções infinitamente diferenciáveis (e que decaem rápido o suficiente no infinito). Com
a medida delta de Dirac podemos integrar qualquer função, como em (20.35). Com a distribuição delta
de Dirac podemos integrar funções infinitamente diferenciáveis (e que decaem rápido o suficiente no
infinito). Essa aparente limitação é compensada pelo fato de se poder falar em derivadas da distribuição
delta de Dirac, mas não da medida delta de Dirac.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 929/1195

• Exemplos. Integração com a medida de contagem. Relação com os espaços `p

Seja M = {m1 , . . . , mn } um conjunto finito e seja M = (M ). Toda função f : M → é 

simples e mensurável em relação a M e M[τ ] (por que?). Seja µc a medida de contagem em M , que


foi introduzida à página 840. Tem-se que


Z Xn
f dµc = f (mk ) .
M k=1

Seja M =  , M = ( ) e seja µc a medida de contagem em


  . Se f :  →  é uma função
simples então
Z ∞
X
f dµc = f (k) .
M k=1

Uma função f :  → é µc -integrável se


Z ∞
X
|f | dµc = |f (k)| < ∞ ,
M k=1

e sua integral é
Z ∞
X
f dµc = f (k) .
M k=1
P P∞
Observe que o fato de ∞ k=1 |f (k)| < ∞ implica que a série k=1 f (k) é convergente (por ser uma série
absolutamente somável. Vide os bons livros de Cálculo).

E. 20.16 Exercı́cio. Demonstre todas as afirmações feitas acima. 6

O estudante pode convencer-se com o apresentado acima que o conjunto L1 ( , dµc ) das funções 

f : → integráveis em relação à medida de contagem µc coincide com o conjunto de seqüências `1




que introduzimos na Seção 13.4.1, página 750. Os conjuntos Lp ( , dµc ) coincidem com os conjuntos 

de seqüências `p , também lá introduzidos.

• Exemplos. A integral de Lebesgue em 

Um outro importante exemplo é aquele no qual tomamos M = , M = M[τ ], a σ-álgebra dos 




conjuntos Borelianos de e µ = µL , a medida de Lebesgue. O conjunto L1 ( , µL ) de funções


 

2
integráveis inclui funções contı́nuas que decaem rapidamente no infinito, tais como e−x , (1 + x2 )−1 etc.
O conjunto L1 ( , µL ) inclui funções que não são limitadas. Um exemplo a se ter em mente é o da


função  1
 √|x| , 0 < |x| ≤ 1

f (x) =

 0, x = 0 ou |x| > 1
p
Essa função, apesar de divergir para x → 0, é um elemento de L1 ( , µL ), pois a singularidade 1/ |x| 

é integrável em 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 930/1195

E. 20.17 Exercı́cio. Mostre isso! 6

Um tanto surpreendentemente, L1 ( , µL ) também contem funções não-limitadas, mas que são




limitadas em qualquer região finita. Um exemplo interessante é o da função


  

 1
 n, para x em cada intervalo n, n + 3 , n ≥ 1 ,
n
f (x) =



0, de outra forma ,
ou seja,

X
f (x) = n χ[n, n+ 1 ) (x) .
n3
n=1

É claro que f não é limitada em todo , mas é limitada em qualquer região finita. Tem-se, porém,


Z X∞
1
|f | dµL = < ∞


n=1
n2

e, portanto, f ∈ L1 (  , µL ).

E. 20.18 Exercı́cio. Mostre isso! 6

E. 20.19 Exercı́cio. Construa exemplos análogos de elementos de L p (  , µL ), p ≥ 1, que não são


funções limitadas. 6

20.3.3 A Integral de Lebesgue e sua Relação com a de Riemann


Uma vez desenvolvidos os ingredientes básicos da teoria de integração de Lebesgue, voltemo-nos bre-
vemente à questão de estabelecer sua relação com a integração de Riemann.

• As integrais de Riemann e Lebesgue em intervalos compactos

Tratemos primeiramente de funções definidas em conjuntos compactos da reta real. Vale a seguinte
afirmação:
Teorema 20.2 Seja f : [a, b] → uma função Boreliana e limitada. Então, se f for integrável no
sentido de Riemann, f é também integrável no sentido de Lebesgue (para a integral de Lebesgue em
[a, b]) e as duas integrais são idênticas. 2

Esse teorema afirma que em intervalos finitos como [a, b] a integral de Lebesgue coincide com a de
Riemann, pelo menos para funções integráveis por Riemann e limitadas. Esse resultado é satisfatório
pois diz-nos que a teoria da integração de Lebesgue estende a de Riemann, pelo menos nesse sentido.
A demonstração do Teorema 20.2 é apresentada no Apêndice 20.I, página 960, e faz uso do Lema de
Fatou e do Teorema da Convergência Dominada, que introduziremos na Seção 20.3.4, logo adiante.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 931/1195

O Teorema 20.2 estabeleceu uma relação entre as integrais de Riemann e de Lebesgue no caso de
intervalos finitos da reta real. O que se pode dizer para intervalos não-finitos? Como a integral de
Riemann foi definida na Seção 20.2, página 898, apenas para funções limitadas em intervalos finitos, a
primeira questão a resolver é definı́-la em intervalos não-finitos, como . Isso foi discutido na Seção 

20.2.1, página 907, ao introduzirmos a noção de integral de Riemann imprópria.

• A integral de Riemann imprópria e sua relação com a de Lebesgue em 

No caso de f ser também positiva (o que não é necessário para a definição 20.6) também podemos
estabelecer uma relação entre as integral de Riemann imprópria e de Lebesgue. Isso é expresso no
seguinte
Teorema 20.3 Seja f : → + uma função positiva e Boreliana e tal que f é integrável no sentido
 

de Riemann em todo intervalo finito [a, b]. Então, f é integrávelZno sentido de Lebesgue em se e 


somente se a integral de Riemann imprópria existir e, nesse caso, f (x) dx coincide com a integral
Z −∞

de Lebesgue f dµL . 2


A demonstração desse teorema também encontra-se no Apêndice 20.I, página 960.


As condições dos Teoremas 20.2 e 20.3 não são ainda as mais gerais possı́veis para garantir a
igualdade entre a integral de Riemann (normal ou imprópria) e a de Lebesgue, mas não trataremos
de generalizações aqui e remetemos o leitor interessado aos bons livros. Nesse contexto, vale fazer o
seguinte comentário. O Teorema 20.3 estabeleceu a relação entre a integral de Riemann imprópria
e a integral de Lebesgue em , mas somente para funções não-negativas. Valerá uma relação assim


para funções mais gerais? A resposta, infelizmente, pode ser negativa em alguns casos, como mostra o
exemplo do qual trataremos a seguir.

• Limitações da integral de Lebesgue

É importante chamar a atenção do leitor para uma limitação da integração de Lebesgue em  ,a


qual pode ser ilustrada pelo exemplo a seguir (encontrado em vários livros-textos).
sen x
Seja a função f (x)
R = x . É claro que f é Boreliana (pois é contı́nua) e limitada. Será f integrável
em , ou seja, será
 |f | dµL < ∞? Como f satisfaz f (x) = f (−x) para todo x, é suficiente estudar


f para x ≥ 0. Em cada intervalo [(n − 1)π, nπ], com n = 1, 2, 3, . . ., vale


| sen x| | sen x|
≥ .
|x| nπ
Assim, para todo N ∈  ex∈ 

+,

XN
1
|f |(x) ≥ | sen x| χ[(n−1)π, nπ] (x)
n=1

e
Z XN Z XN Z
1 1
|f | dµL ≥ | sen x| χ[(n−1)π, nπ] (x) dµL = | sen x| dµL .


+ n=1
nπ 

+ n=1
nπ [(n−1)π, nπ]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 932/1195

É claro que a função | sen x| é Boreliana (pois é contı́nua) e limitada. Aplicando o Teorema 20.2, tem-se
Z Z nπ
| sen x| dµL = | sen x| dx ,
[(n−1)π, nπ] (n−1)π

a integral à direita sendo a familiar integral de Riemann. Fazendo a mudança de variáveis x →


x − (n − 1)π, escrevemos
Z nπ Z π Z π
n−1
| sen x| dx = |(−1) sen x| dx = sen x dx = 2 ,
(n−1)π 0 0

pois sen x é não-negativa em [0, π]. Assim, para todo N ∈  ,


Z N
2X 1
|f | dµL ≥ .


+
π n=1 n
R
Agora, como é bem sabido, a soma do lado direito diverge quando N → ∞. Logo, 

+
|f | dµL = ∞ e,
conseqüentemente, Z
|f | dµL = ∞. (20.36)


R R
Note que nem mesmo f − dµL são finitas (justifique!).
f + , dµL ou
R
 

A expressão (20.36) significa que f 6∈ L1 ( , dµL ) e, portanto,  f dµL não está definida. Sucede, 

porém, que a integral de Riemann imprópria (vide definição (20.6)),


Z ∞ Z A
sen x sen x
dx := lim dx
−∞ x A→∞ −A x

existe, e vale π.
Esse exemplo ensina-nos que há funções que possuem uma integral de Riemann imprópria, mas não
uma integral de Lebesgue em . 

RA R sen x
Por que o limite −A senx x dx existe mas dµL não? A resposta reside na observação que
x
R A sen x


a função senx x troca de sinal infinitas vezes e isso produz cancelamentos


nas integrais −A x
dx que
sen x
permitem a convergência do limite A → ∞. A função x , porém, é cega a essas trocas de sinal,
devido à presença do módulo.
Na integração de Lebesgue, ao concentrarmo-nos na integrabilidade do módulo de uma função f ,
como a de acima, perdemos informação sobre oscilações e trocas de sinal da mesma que podem ser
relevantes para certos propósitos24 . Esse fato pode ser interpretado como uma deficiência da integração
de Lebesgue.
24
Aos estudantes mais avançados notamos que esse é um dos problemas que têm impedido a definição matematicamente
precisa da integração funcional de Feynman da Mecânica Quântica e da Teoria Quântica de Campos (quando formuladas
no espaço-tempo de Minkowski). Já a chamada integral funcional de Feynman-Kac, definida no espaço-tempo Euclidiano,
pode ser bem definida, por não sofrer desses problemas (vide e.g. [46] ou [99, 100, 101, 102]). Para uma exposição
introdutória sobre a integração funcional de Feynman na Mecânica Quântica, vide, por exemplo, [95], ou bons livros de
Mecânica Quântica.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 933/1195

20.3.4 Teoremas Básicos sobre Integração e Convergência


Nesta seção apresentaremos alguns teoremas importantes sobre a integral de Lebesgue e que descrevem
o comportamento da mesma relativamente a operações de tomada de limites. De um ponto de vista
técnico esses teoremas têm uma importância central e pode-se mesmo dizer que sua validade é uma
das principais razões do interesse na integral de Lebesgue, em comparação a outras integrais, como a
de Riemann. Historicamente os teoremas de convergência abaixo emergiram de trabalhos de Lebesgue,
Levi25 e Fatou26 .

• O Teorema da Convergência Monótona

Teorema 20.4 (Teorema da Convergência Monótona) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência não-decrescente de funções não-negativas
fn : M → , ou seja, 0 ≤ f1 (x) ≤ f2 (x) ≤ f3 (x) ≤ · · · ≤ ∞, sendo todas [M, M[τ ]]-mensuráveis.



Suponhamos também que f : M → seja tal que para cada x ∈ M a seqüência f n (x) convirja a f (x).


Então, a função f é também [M, M[τ ]]-mensurável e




Z Z
lim fn dµ = f dµ . (20.37)
n→∞ M M

A demonstração é apresentada no Apêndice 20.F, página 957.


Para apreciarmos a relevância do Teorema S∞ da Convergência Monótona, consideremos o seguinte
exemplo. Seja = {r1 , r2 , r3 , r4 , . . .} = n=1 {rk }, onde 3 k → rk ∈ é uma contagem de .


Defina-se 
 2, se x ∈ {r1 , . . . , rn }
fn (x) = .
 −x2
e , de outra forma
É fácil ver que cada função fn é [M[τ ], M[τ ]]-mensurável (faça-o!) e que fn ≤ fn+1 para todo n.
 

Essas
R funções Rfn são integráveis
√ por Riemann (pois são contı́nuas por partes). É também fácil ver
∞ −x2
que fn dµL = −∞ e

dx = π.
Agora, f (x) = lim fn (x) é dada por
n→∞

 2, se x ∈
f (x) =
 2
se x 6∈ e−x ,
R √
e é também mensurável. Tem-se também que fn dµL = π. Assim, 

Z Z
lim fn dµL = f dµL ,
n→∞  

25
Beppo Levi (1875-1961).
26
Pierre Joseph Louis Fatou (1878-1929).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 934/1195

como se vê, e como garante o Teorema da Convergência Monótona. Essa igualdade, porém, não faria
sentido para a integral de Riemann, pois f , ao contrário das funções fn , não é integrável por Riemann.
Condições suficientes para se poder comutar uma integral de Riemann com um limite de uma
seqüência de funções são geralmente muito mais restringentes que o exigido no Teorema da Convergência
Monótona e requerem, por exemplo, convergência uniforme dessa seqüência.

• O Lema de Fatou

O seguinte lema, denominado Lema de Fatou, possui várias aplicações, sendo também importante
na demonstração do Teorema da Convergência Dominada, do qual trataremos logo adiante, assim como
na demonstração do Teorema 20.2, da página 930, acima, que tratou da relação entre as integrais de
Riemann e Lebesgue em intervalos finitos da reta real.
O Teorema da Convergência Monótona, Teorema 20.4, tratava de seqüências monótonas não-
decrescentes de funções positivas e mensuráveis da reta real e estabelecia a possibilidade de troca
de limites com a integração expressa em (20.37). Podemos nos perguntar, e se tivermos uma seqüência
de funções positivas e mensuráveis mas que não seja monótona não-decrescente? Valerá a inversão de
limites com a integral em (20.37)? A resposta, em geral, é não, mas ainda assim, vale o seguinte:
Teorema 20.5 (Lema de Fatou) Seja (M, M) um espaço mensurável onde encontra-se definida
uma medida µ. Seja {fn } uma seqüência de funções não-negativas e [M, M[τ ]]-mensuráveis fn : 

M → . Então, Z  Z



lim inf fn dµ ≤ lim inf fn dµ . (20.38)


M n→∞ n→∞ M
2

A demonstração encontra-se no Apêndice 20.G, página 958. O Lema de Fatou será usado logo abaixo
para demonstrar um outro resultado ainda mais relevante, o Teorema da Convergência Dominada.
Nem sempre vale a igualdade em (20.38). Isso é mostrado nos dois exercı́cios seguintes.

E. 20.20 Exercı́cio. Seja a seguinte seqüência de funções Borelianas da reta real


 1
 n , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],
para n ∈  , n > 0. Mostre que lim inf fn = 0 e, portanto,
n→∞
Z  
lim inf fn dµL = 0 .

n→∞
R
Por outro lado, 
fn = 2 para todo n e, portanto,
Z
lim inf fn dµL = 2 .
n→∞ 

Assim, Z   Z
lim inf fn dµ < lim inf fn dµ .

n→∞ n→∞ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 935/1195

Em alguns casos pode-se ter uma igualdade em (20.38).

E. 20.21 Exercı́cio. Seja a seguinte seqüência de funções Borelianas da reta real


 1
 n2 , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],
para n ∈  , n > 0. Mostre que lim inf fn = 0 e, portanto,
n→∞
Z  
lim inf fn dµL = 0 .

n→∞
R
Porém, 
fn = 2/n para todo n e, portanto,
Z
lim inf fn dµL = 0 .
n→∞ 

Assim, Z   Z
lim inf fn dµ = lim inf fn dµ .

n→∞ n→∞ 

• O Teorema da Convergência Dominada

Teorema 20.6 (Teorema da Convergência Dominada) Seja (M, M) um espaço mensurável onde
encontra-se definida uma medida µ. Seja {fn } uma seqüência de funções [M, M[τ ]]-mensuráveis 

fn : M → , n ∈ , tais que o limite f (x) = lim fn (x) existe para todo x ∈ M . Suponha ainda que


n→∞
exista uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para todo n ∈  e todo x ∈ M .
Então:

1. f ∈ L1 (M, dµ),
2. Z
lim |f − fn | dµ = 0 ,
n→∞ M

3. Z Z   Z
lim fn dµ = lim fn dµ = f dµ ,
n→∞ M M n→∞ M

A demonstração encontra-se na Apêndice 20.H, página 959.


Para estudar uma situação na qual o do Teorema da Convergência Dominada, Teorema 20.6, se
aplica, faça o seguinte exercı́cio.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 936/1195

E. 20.22 Exercı́cio. Seja a seguinte seqüência de funções Borelianas da reta real


 1
 n2 , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],

onde n ∈  , n > 0. Mostre que há uma função F ∈ L1 ( dµL ) tal que |fn (x)| ≤ F (x) paraZtodo n ∈
 

e todo x ∈  . Justifique então, com base nesse fato, se a inversão da integral pelo limite lim fn dµL =
n→∞
Z 

( lim fn ) dµL é possı́vel. Verifique explicitamente que a igualdade é verdadeira. 6



n→∞

Para constatar a relevância da condição básica do Teorema da Convergência Dominada, Teorema


20.6, a saber, a existência de uma função não-negativa F ∈ L1 (M, dµ) tal que |fn (x)| ≤ F (x) para
todo n ∈ e todo x ∈ M , faça o seguinte exercı́cio.


E. 20.23 Exercı́cio. Seja a seguinte seqüência de funções Borelianas da reta real


 1
 n , se x ∈ [−n, n],
fn (x) =

0, se x 6∈ [−n, n],

para n ∈ , n > 0. Mostre que não há nenhuma função F ∈ L1 ( , dµL ) tal que |fn (x)| ≤ F (x) para
 

todo n ∈ e todo x ∈ . Sugestão: construa




R a menor função F que satisfaz |f n (x)| ≤ F (x) para




todo Zn ∈ Z x ∈
e todo  e mostre que |F | dµL = ∞. Verifique explicitamente que a igualdade


lim fn dµL = ( lim fn ) dµL não é verdadeira. 6


n→∞  
n→∞

20.3.5 Alguns Resultados de Interesse


Os teoremas de convergência que vimos acima têm várias conseqüências importantes. Trataremos de
algumas aqui. A primeira, e muito interessante, é uma generalização (de [105]) do Lema 20.4, página
923.
Proposição 20.7 Seja M não-vazio, M uma σ-álgebra de M na qual definimos uma medida µ. Seja
f uma função não-negativa e [M, M[τ ]]-mensurável. Para E ∈ M defina-se


Z Z
ϕf (E) := f dµ = f χE dµ .
E M

Então ϕf é uma medida em M. Além disso, para qualquer função não-negativa e [M, M[τ ]]- 

mensurável g tem-se Z Z
g dϕf = g f dµ . (20.39)
M M

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 937/1195

A relação, (20.39) diz-nos algo como dϕf = f dµ. Essa relação tem apenas sentido simbólico, pois
não atribuı́mos significado aos sı́mbolos dϕf e dµ. Ainda assim, podemos interpretar dϕf = f dµ como
estabelecendo uma relação entre as medidas ϕf e µ por uma espécie de mudança de variáveis.

Prova da Proposição 20.7. É claro que ϕf (∅) = 0, pois χ∅ éSidenticamente nula. Seja Ek , k ∈  , uma
coleção contável e disjunta de elementos de M e seja E := ∞ k=1 Ek . Como para todo x ∈ M

n
X n
X
χE (x) = lim χEk (x) (por que?), segue que (f χE )(x) = lim fk (x), ∀x ∈ M,
n→∞ n→∞
k=1 k=1
Pn
onde fk := f χEk . A funções Fn := k=1 fk são não-negativas, [M, M[τ ]]-mensuráveis e Fn ≤ Fn+1 

para todo n ∈ . Aplica-se, então o Teorema da Convergência Monótona, Teorema 20.4, página 933,


e tem-se

! Z n
! Z n
!
[ X Teor. 20.4
X
ϕf Ek = lim fk dµ = lim fk dµ
M n→∞ n→∞ M
k=1 k=1 k=1

n Z
X
linearidade da integral
= lim fk dµ
n→∞ M
k=1

n Z
X
= lim f χEk dµ
n→∞ M
k=1

n
X
= lim ϕf (Ek ) ,
n→∞
k=1

provando que ϕf é uma medida.


Para provar (20.39), procedemos da seguinte forma. Para E ∈ M tem-se pela própria definição de
ϕf . Z Z
χE dϕf = ϕf (E) = χE f dµ .
M M

Assim, (20.39) vale pelo menos no caso espacial em que g = χE . Logo, vale também no caso em que
g é uma função simples. Seja por fim uma função g não-negativa e mensurável geral. Se g n for uma
seqüência não-decrescente de funções simples e não-negativas de S(g) que converge a g (que tal existe,
garante-nos o Lema 20.3, página 920), tem-se pela definição (20.24)
Z Z Z
g dϕf = lim gn dϕf = lim gn f dµ .
E n→∞ E n→∞ E

Agora, gn f é uma seqüência não-decrescente (por que?) de funções positivas e mensuráveis e que
converge a g f (por que?). Aplicando mais uma vez o Teorema da Convergência Monótona, Teorema
20.4, página 933, ao lado direito da última expressão, segue que
Z Z   Z
g dϕf = lim gn f dµ = (g f ) dµ ,
E E n→∞ E
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 938/1195

completando a demonstração.

Para entendermos melhor o significado de (20.39), tomemos o caso em que M = , M = M[τ ], 




a σ-álgebra de Borel, µ = µL , a medida de Lebesgue e f : → , uma função Boreliana e limitada


 

em todos os intervalos finitos. Para E = [a, b], um intervalo finito, teremos pelo Teorema 20.2, página
930, Z Z b
ϕf ([a, b]) = f dµL = f (x) dx .
[a, b] a

Se f for tal que existe uma F :  →  com F 0 (x) = f (x), o Teorema Fundamental do Cálculo
diz-nos que
ϕf ([a, b]) = F (b) − F (a) .
Note que F 0 (x) = f (x) ≥ 0 e, portanto F é crescente. Isso fornece uma noção do que representa a
medida ϕf desses intervalos.

20.4 Os Espaços Lp e Lp
Daqui por diante M será um conjunto não-vazio com uma σ-álgebra M, para a qual encontra-se definida
uma medida µ.
Definimos à página 928 os conjuntos Lp (M, dµ), p > 0, como sendo o conjunto de todas as funções
complexas definidas em M tais que sua p-ésima potência é integrável. O estudo das propriedades desses
conjuntos é de grande importância em várias áreas da Matemática e da Fı́sica. Na Fı́sica Quântica
um papel muito especial é reservado aos conjuntos L2 ( , dµL ) e L2 ( n , dµL ) (mais precisamente, aos
 

seus parentes próximos, os conjuntos L2 ( , dµL ) e L2 ( n , dµL ), que serão definidos abaixo), pois os
 

mesmos descrevem os estados puros de sistemas quânticos com um número finito de graus de liberdade.
A razão de os conjuntos Lp (M, dµ) serem importantes reside no fato que, para p ≥ 1, todos eles são
– menos de uma tecnicalidade que discutiremos abaixo – espaços de Banach. Os espaços L 2 (M, dµ),
em particular, são – a menos dessa tecnicalidade – espaços de Hilbert27 . Nosso objetivo na presente
seção é estudar esses fatos de forma precisa e geral.
Por razões pedagógicas começaremos estudando os espaços L1 (M, dµ) e depois passaremos ao caso
p > 1.

• L1 (M, dµ) é um espaço vetorial complexo

Se f : M → e g : M → são dois elementos quaisquer de L1 (M, dµ) e α, β são números com-


plexos quaisquer, é claro que |αf + βg| ≤ |α||f | + |β||g|. Esse simples fato tem a seguinte conseqüência:
Z Z Z
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M
R R
Como, por hipótese, M |f | dµ < ∞ e M |g| dµ < ∞, segue daı́ que a função obtida pela combinação
linear αf + βg é também um elemento de L1 (M, dµ). Como essa afirmação é válida para todos
f, g ∈ L1 (M, dµ) e α, β ∈ , concluı́mos que L1 (M, dµ) é um espaço vetorial complexo.
27
Espaços de Banach e de Hilbert foram definidos na Seção 13.4, página 748.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 939/1195

Por essa razão passaremos a nos referir aos conjuntos L1 (M, dµ), como espaços L1 (M, dµ). O uso
da palavra “espaço”, aqui, é uma referência ao fato de serem espaços vetoriais. Logo abaixo, veremos
que os mesmos são também, a menos de uma tecnicalidade, espaços métricos.
Os conjuntos Lp (M, dµ) com p ≥ 0 também são espaços vetoriais complexos e isso será mostrado
na Proposição 20.8, logo adiante.

• Uma pseudo-métrica em L1 (M, dµ)

Para f : M → e g : M → , dois elementos quaisquer de L1 (M, dµ), consideremos a expressão


Z
d1 (f, g) := |f − g| dµ .
M

Como (f − g) ∈ L1 (M, dµ), é claro que 0 ≤ d1 (f, g) < ∞. É evidente que d1 (f, f ) = 0 e que
d1 (f, g) = d1 (g, f ). Como também, para qualquer h ∈ L1 (M, dµ), vale que f − g = (f − h) + (h − g),
tem-se |f − g| ≤ |f − h| + |h − g| e, portanto,

d1 (f, g) ≤ d1 (f, h) + d1 (h, g),


a chamada desigualdade triangular. Com isso, estabelecemos que d 1 é uma pseudo-métrica em L1 (M, dµ).
Para a definição geral de pseudo-métrica, vide Seção 13.3, página 746.
R
Por que d1 não é uma métrica? Pois no conjunto L1 (M, dµ), o fato de ter-se M |f − g| dµ = 0 não
implica que f (x) = g(x) para todo x ∈ M , mas implica apenas que f = g µ-q.t.p. (Proposição 20.6,
página 925). Esse fato em geral28 impede-nos de fazer de L1 (M, dµ) um espaço métrico, mas há uma
maneira simples de remediar isso: identificando entre si as funções que diferem apenas em um conjunto
de medida µ nula. Esse é o nosso próximo passo.

• Os espaços L1 (M, dµ)

No conjunto das funções [M, M[τ ]]-mensuráveis estabelecemos uma relação de equivalência di-


zendo que funções f e g, são equivalentes, f ∼ g, se f = g µ-q.t.p., ou seja, se µ({x ∈ M | f (x) 6=


g(x)}) = 0. Constatemos que, de fato, isso define uma relação de equivalência. Que f ∼ f é evidente,
assim como que f ∼ g equivale a g ∼ f . Para provar a transitividade, consideremos três funções f , g
e h. Notemos que se x ∈ M é tal que f (x) 6= h(x), então ou f (x) 6= g(x) ou g(x) 6= h(x) ou ambas.
Logo,
{x ∈ M | f (x) 6= h(x)} = {x ∈ M | f (x) 6= g(x)} ∪ {x ∈ M | g(x) 6= h(x)} ,
sendo que a união acima não é necessariamente disjunta. Logo,
     
µ {x ∈ M | f (x) 6= h(x)} ≤ µ {x ∈ M | f (x) 6= g(x)} + µ {x ∈ M | g(x) 6= h(x)} .

Assim, se f ∼ g e g ∼ h, o lado direito vale zero e, portanto, segue que f ∼ h, provando a transitividade.

E. 20.24 Exercı́cio. Mostre que {x ∈ M | f (x) 6= g(x)} ∈ M. Sugestão: prove e use o fato que
{x ∈ M | f (x) 6= g(x)} = {x ∈ M | f (x) > g(x)} ∪ {x ∈ M | f (x) < g(x)} e use a Proposição 20.11, da
página 950. 6
28
Exceto nos casos especiais em que M e µ são tais que ∅ é o único conjunto de medida µ nula.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 940/1195

O conjunto L1 (M, dµ) quebra-se em classes de equivalência pela relação de equivalência acima.
Duas funções de uma mesma classe diferem apenas em um conjunto de medida µ igual a zero. Definimos
o conjunto L1 (M, dµ) como sendo o conjunto dessas classes de equivalência: em sı́mbolos

L1 (M, dµ) := L1 (M, dµ)/ ∼ .

Uma outra forma mais concreta de encarar L1 (M, dµ) é considerá-lo como o conjunto obtido
tomando um e apenas um representante arbitrário de cada classe. Essa forma de ver L 1 (M, dµ) tem
a vantagem de permitir constatar de modo imediato que L1 (M, dµ) também é um espaço vetorial
complexo. Além disso, nessa maneira de ver, L1 (M, dµ) é um sub-conjunto de L1 (M, dµ) e, portanto,
d1 está definido em L1 (M, dµ). Agora, porém, vale que se f, g ∈ L1 (M, dµ) e d1 (f, g) = 0,
então f = g µ-q.t.p. Ora, isso só é possı́vel se f = g, pois L1 (M, dµ) foi construı́do tomando-se
um e apenas um elemento de cada classe de equivalência de L1 (M, dµ). Constatamos, assim, que d1 é
agora uma métrica em L1 (M, dµ), não apenas uma pseudo-métrica.
Resumindo L1 (M, dµ), é um espaço vetorial complexo e também um espaço métrico em relação à
métrica d1 .
O leitor que deseja permanecer em um nı́vel mais abstrato e continuar encarando L1 (M, dµ) como
uma coleção de classes, poderá proceder da seguinte forma para constatar as afirmações do último
parágrafo. Seja [f ] a classe a qual pertence um elemento f ∈ L1 (M, dµ). Defina-se para α e β ∈ e
para duas classes [f ] e [g] a operação linear α[f ] + β[g] := [αf + βg]. Com essa operação de combinação
linear, a coleção de classes L1 (M, dµ) adquire a estrutura de um espaço vetorial complexo, tendo
como vetor nulo a classe [0], que contem a função identicamente nula. Para introduzir uma métrica na
coleção de classes L1 (M, dµ), defina-se D1 ([f ], [g]) := d1 (f, g).

E. 20.25 Exercı́cio. Mostre que a combinação linear definida acima, assim como a métrica D 1 , estão
bem definidas, no sentido de serem independentes dos representantes f e g tomados em cada classe. Mostre
que D1 é de fato uma métrica, e não apenas uma pseudo-métrica, ou seja, satisfaz todos os postulados da
definição de uma métrica. 6

Optaremos tacitamente daqui por diante pela visão mais concreta de L1 (M, dµ) como o conjunto
obtido tomando um e apenas um representante arbitrário de cada classe de equivalência de L 1 (M, dµ).
Não há grandes diferenças técnicas entre as duas visões e raramente é necessário recorrer à definição
precisa em termos de classes de equivalência. Uma exceção se dará quando discutirmos o problema da
completeza dos espaços L1 (M, dµ). A visão concreta tem a vantagem de permitir prosseguir encarando
os elementos de L1 (M, dµ) como funções integráveis de M em e não como classes abstratas de funções.
Informalmente, a diferença entre L1 (M, dµ) e L1 (M, dµ) é que em L1 (M, dµ) identificamos funções
que diferem apenas em um conjunto de medida µ nula como se fossem a mesma função.

• A estrutura linear dos espaços Lp (M, dµ)

Proposição 20.8 Os conjuntos Lp (M, dµ), com p > 0, são espaços vetoriais complexos. 2

A prova é essencialmente idêntica à da Proposição 13.8, página 753, sobre os conjuntos de seqüências
`p e faz uso da Proposição 13.9, página 765, do Apêndice 13.A.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 941/1195

Prova. Há dois casos a considerar em separado: 0 < p < 1 e p ≥ 1.


Caso 0 < p < 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a
segunda desigualdade em (13.A.2), página 765, implica

|f + g|p ≤ (|f | + |g|)p ≤ |f |p + |g|p .

Assim, Z Z Z
p p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g|p dµ < ∞
M M M

para quaisquer α, β ∈ . Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para 0 < p < 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo.
Caso p ≥ 1. Sejam f, g ∈ Lp (M, dµ), arbitrários. Como |f (x) + g(x)| ≤ |f (x)| + |g(x)|, a segunda
desigualdade em (13.A.3), página 765, implica

|f + g|p ≤ (|f | + |g|)p ≤ 2p−1 (|f |p + |g|p) .

Assim, Z Z Z
p p−1 p p p−1 p
|αf + βg| dµ ≤ 2 |α| |f | dµ + 2 |β| |g|p dµ < ∞
M M M

para quaisquer α, β ∈ . Isso provou que αf + βg ∈ Lp (M, dµ) e, portanto, para p ≥ 1 o conjunto
Lp (M, dµ) é um espaço vetorial complexo. Isso é o que querı́amos provar.

Mais adiante, mostraremos que em Lp (M, dµ), para p ≥ 1, a expressão


Z 1/p
p
dp (f, g) := |f − g| dµ
M

define uma pseudo-métrica. De forma análoga ao que fizemos acima, e usando a mesma relação de
equivalência ∼ definida acima, o conjunto de classes Lp (M, dµ), definido por

Lp (M, dµ) := Lp (M, dµ)/ ∼ ,

é um espaço vetorial complexo e também um espaço métrico com a métrica induzida por d p . Também
iremos encarar Lp (M, dµ) como o conjunto obtido tomando um e apenas um representante arbitrário
de cada classe de equivalência de Lp (M, dµ).

20.4.1 As Desigualdades de Hölder e de Minkowski


Vamos agora tratar de duas desigualdades de importância primordial no estudo dos espaços L p (M, dµ),
as desigualdades de Hölder29 e de Minkowski30 . Já as encontramos no caso particular de espaços de
seqüências e, naquele caso, delas tratamos no Teorema 13.2 da página 754.
29
Otto L. Hölder (1859-1937).
30
Hermann Minkowski (1864-1909).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 942/1195

Teorema 20.7 (As desigualdades de Hölder e de Minkowski) Seja M um conjunto não-vazio,


M uma σ-álgebra em M e seja µ uma medida em M.
A desigualdade de Hölder é a afirmação que se p e q são tais que 1 < p < ∞, 1 < q < ∞ e
satisfazem 1/p + 1/q = 1, então para quaisquer f ∈ Lp (M dµ) e g ∈ Lq (M dµ) vale
Z Z 1/p Z 1/q
p q
|f | |g| dµ ≤ |f | dµ |g| dµ . (20.40)
M M M

A desigualdade de Minkowski é a afirmação que se p é tal que 1 ≤ p < ∞, então para quaisquer
f, g ∈ Lp (M dµ) tem-se
Z 1/p Z 1/p Z 1/p
p p p
|f − g| dµ ≤ |f | dµ + |g| dµ . (20.41)
M M M

A demonstração é apresentada no Apêndice 20.J, página 963. Em [104] uma interessante demons-
tração alternativa da desigualdade de Minkowski, usando a convexidade da função x p , é apresentada.
Aquela demonstração fornece também a versão da da desigualdade de Minkowski para o caso 0 < p < 1:
Z 1/p Z 1/p Z 1/p
p p p
|f + g| dµ ≥ |f | dµ + |g| dµ . (20.42)
M M M

Essa expressão, no entanto, só vale para f e g não-negativas.


A desigualdade de Hölder acima pode ser generalizada.
Corolário 20.3 Sejam f ∈ Lp (M dµ) e g = Lq (M dµ) onde p e q são tais que 1 < p < ∞ e
1 1 1
1 < q < ∞. Defina-se r > 0 por + = . Então, vale
p q r
Z 1/r Z 1/p Z 1/q
r r p q
|f | |g| dµ ≤ |f | dµ |g| dµ . (20.43)
M M M

A prova do Corolário 20.3 também encontra-se no Apêndice 20.J, página 963.


As desigualdades de Hölder e Minkowski têm uma série de conseqüências, em particular sobre a
estrutura dos espaços Lp (M, dµ) e Lp (M, dµ). Vamos explorar algumas.

• Lp (M, dµ), p ≥ 1, são espaços vetoriais complexos e normados

Já observamos acima (Proposição 20.8) que os conjuntos Lp (M dµ) são espaços vetoriais complexos.
No caso p ≥ 1 os mesmos possuem uma pseudo-norma definida por
Z 1/p
p
kf kp := |f | dµ . (20.44)
M
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 943/1195

A propriedade básica de uma pseudo-norma, a saber kαf + βgkp ≤ |α| kf kp + |β| kgkp para todos
f, g ∈ Lp (M dµ) segue da desigualdade de Minkowski, pois a mesma nos garante que
Z 1/p Z 1/p Z 1/p
p p p
|αf + βg| dµ ≤ |α| |f | dµ + |β| |g| dµ .
M M M

A propósito, as desigualdades de Hölder e Minkowski (20.40) e (20.41) assumem com a notação de


(20.44) a forma
kf gk1 ≤ kf kp kgkq
e
kf − gkp ≤ kf kp + kgkp ,
respectivamente.
Por que k · kp é uma pseudo-norma e não uma norma em Lp (M dµ)? Pois, como discutimos no caso
p = 1, a relação kf kp = 0 não implica f = 0, mas apenas f = 0 µ-q.t.p. Se, no entanto, considerarmos
o espaço Lp (M, dµ), definido acima, k · kp será uma norma! Concluı́mos disso que para p ≥ 1, os
conjuntos Lp (M, dµ) são espaços vetoriais complexos e normados. Por serem normados, são também
espaços métricos com as métricas induzidas pelas normas k · kp :
Z 1/p
p
dp (f, g) := kf − gkp = |f − g| dµ .
M

Como veremos logo adiante, os espaços Lp (M, dµ) com p ≥ 1 são espaços de Banach, por serem
completos em relação à métrica dp acima.

• A desigualdade de Cauchy-Schwarz. Um produto escalar em L2 (M, dµ)

A desigualdade de Hölder (20.40) tem um caso particular muito importante, a saber, quando p =
q = 2: para f, g ∈ L2 (M, dµ) vale
Z Z 1/2 Z 1/2
2 2
|f | |g| dµ ≤ |f | dµ |g| dµ < ∞.
M M M
R R
Como também M f g dµ ≤ M |f | |g| dµ, segue que
Z Z 1/2 Z 1/2

f g dµ ≤ 2
|f | dµ 2
|g| dµ < ∞.

M M M

As duas desigualdades acima são denominadas desigualdades de Cauchy-Schwarz. A segunda está nos
dizendo que para f, g ∈ L2 (M, dµ) a expressão
Z
hf, gi := f g dµ
M

é um número complexo finito e, como facilmente se verifica, define um produto escalar em L2 (M, dµ).

E. 20.26 Exercı́cio. Demonstre as afirmações acima. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 944/1195

É também elementar constatar que a norma associada a esse produto escalar é a norma k · k 2 .
Como veremos logo abaixo, L2 (M, dµ) é completo em relação à métrica d2 que essa norma induz.
Conseqüentemente, L2 (M, dµ) é um espaço de Hilbert.

• Relações de inclusão entre os conjuntos Lp (M, dµ) quando µ(M ) < ∞

Se o conjunto M e a medida µ são tais que µ(M ) < ∞, então a função g(x) = 1 (identicamente
R
igual a 1 para todo x ∈ M ) pertence a todo Lq (M, dµ), 0 < q < ∞. Isso é evidente, pois M 1q dµ =
µ(M ) < ∞. Disso e da desigualdades de Hölder (20.43), extraem-se algumas conseqüências sobre
relações de inclusão entre os vários espaços Lp (M, dµ).
Para 1 < p < ∞ e 1 < q < ∞ arbitrários, tomando-se f ∈ Lp (M, dµ) e g = 1, obtem-se de (20.43)
que
Z 1/r Z 1/p
r
|f | dµ ≤ p
|f | dµ [µ(M )]1/q < ∞ , (20.45)
M M

para 1/r = 1/p + 1/q. Como 1 < q < ∞, segue que r < p. Como q é arbitrário, a desigualdade (20.45)
diz que se f ∈ Lp (M, dµ) então f ∈ Lr (M, dµ) para todo r ≤ p, ou seja, Lp (M, dµ) ⊂ Lr (M, dµ)
sempre que r ≤ p com 1 < p < ∞. Note que o caso r = 1 não está excluido (basta escolher q tal que
1/p + 1/q = 1). Assim, tem-se, por exemplo,

· · · ⊂ L4 (M, dµ) ⊂ L3 (M, dµ) ⊂ L2 (M, dµ) ⊂ L1 (M, dµ) .

Essas relações de inclusão não são geralmente válidas caso µ(M ) = ∞. Vide próximo exercı́cio.

E. 20.27 Exercı́cio. Mostre que a função



 1, x ∈ [−1, 1]
f (x) =
 1
, x 6∈ [−1, 1]
|x|

pertence a L2 ( , dµL ) mas não a L1 ( , dµL ).


 

Mostre que a função  1


 √|x| , 0 < |x| ≤ 1

f (x) =

 0, x = 0 ou |x| > 1
pertence a L1 ( , dµL ) mas não a L2 ( , dµL ).
 

Mostre que a função 


 1, x ∈ [−1, 1]
f (x) =
 1
, x 6∈ [−1, 1]
|x|2

pertence a L2 ( , dµL ) ∩ L1 ( , dµL ).


 

• Revisitando a desigualdade de Hölder


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 945/1195

Se p e q são tais que 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então para quaisquer
f ∈ Lp (M, dµ) e g ∈ Lq (M, dµ) a desigualdade de Hölder (20.40) implica que
Z Z 1/p Z 1/q

f g dµ ≤ p
|f | dµ q
|g| dµ < ∞. (20.46)

M M M

Como facilmente se verifica, a aplicação


Z
g 7→ f g dµ
M

é um funcional linear em Lq (M, dµ). Mais que isso, (20.46) diz-nos que se trata de um funcional linear
contı́nuo31 (na topologia de Lq (M, dµ)).
Concluı́mos disso que se 1 < p < ∞, 1 < q < ∞ e satisfazem 1/p + 1/q = 1, então L p (M, dµ) é um
sub-conjunto do dual topológico de Lq (M, dµ) e vice-versa.

E. 20.28 Exercı́cio. Justifique as afirmações acima 6

20.4.2 O Teorema de Riesz-Fischer. Completeza


Vamos agora formular um importante teorema que é uma das principais justificativas do interesse na
integral de Lebesgue e, em um certo sentido, coroa nossos esforços neste Capı́tulo. Trata-se do Teorema
de Riesz32 -Fischer33 , o qual data de 1907.
Teorema 20.8 (Teorema de Riesz-Fischer) Para p ≥ 1 os espaços L p (M, dµ) são espaços métricos
completos na métrica dp definida acima. 2

Do Teorema de Riesz-Fischer e das considerações acima concluı́mos que os espaços L p (M, dµ) com
p ≥ 1 são espaços de Banach e o espaço L2 (M, dµ) é um espaço de Hilbert.
A prova do Teorema de Riesz-Fischer encontra-se no Apêndice 20.K, página 965.

31
As noções de funcional linear e funcional linear contı́nuo foram introduzidas na Seção 2.1.3 do Capı́tulo 2.
32
Frigyes Riesz (1880-1956).
33
Ernst Sigismund Fischer (1875-1954).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 946/1195

Apêndices
Nos vários apêndices que seguem apresentamos as demonstrações mais técnicas de alguns dos teo-
remas e proposições da nossa exposição.

20.A Demonstração da Proposição 20.3


Demonstraremos aqui a Proposição 20.3, página 905. Recordamos que as noções de lim inf e lim sup
de conjuntos dirigidos, as quais usaremos abaixo, são introduzidas na Seção 18.3, página 879.

Prova da Proposição 20.3. Pelo exercı́cio E. 20.2 da página 904, a rede P([a, b]) 3 P 7→ D i [P, f ] ∈  é
crescente, enquanto que a rede P([a, b]) 3 P 7→ Ds [P, f ] ∈ é decrescente. Assim, 

Z b
lim inf Di [P, f ] = sup Di [P, f ] = f (x) dx
P∈P([a, b]) P∈P([a, b]) a

e Z b
lim sup Ds [P, f ] = inf Ds [P, f ] = f (x) dx .
P∈P([a, b]) P∈P([a, b]) a

(Vide definições (18.1)-(18.2) e (18.3)-(18.4)). Temos obviamente que


Di [P, f ] ≤ S[(P, χ), f ] ≤ Ds [P, f ]
para todo P ∈ P([a, b]) e todo χ ∝ P. Porém, vê-se pelas definições de Di e Ds que
Di [P, f ] = inf S[(P, χ), f ] e Ds [P, f ] = sup S[(P, χ), f ]
χ∝P χ∝P

e, portanto,
lim inf Di [P, f ] = lim inf S[(P, χ), f ] e lim sup Ds [P, f ] = lim sup S[(P, χ), f ] .
P∈P([a, b]) (P, χ)∈X([a, b]) P∈P([a, b]) (P, χ)∈X([a, b])

Logo,

Z b
f (x) dx = lim inf Di [P, f ] = lim inf S[(P, χ), f ]
a P∈P([a, b]) (P, χ)∈X([a, b])

Z b
≤ lim sup S[(P, χ), f ] = lim sup Ds [P, f ] = f (x) dx ,
(P, χ)∈X([a, b]) P∈P([a, b]) a

onde a única desigualdade que ocorre acima segue da propriedade (18.5). Dessa expressão, vê-se que
Rb Rb
a
f (x) dx = a
f (x) dx se e somente se

lim inf S[(P, χ), f ] = lim sup S[(P, χ), f ]


(P, χ)∈X([a, b]) (P, χ)∈X([a, b])
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 947/1195

e, portanto, por (18.6), se e somente se existe lim S[(P, χ), f ]. Isso prova a equivalência das
(P, χ)∈X([a, b])
definições I e II da noção de integrabilidade de Riemann.

20.B Caracterizações e Propriedades de Funções Mensuráveis


Vamos aqui estudar com mais detalhe e profundidade caracterizações e propriedades elementares das
funções mensuráveis. Advertimos que a presente seção é, infelizmente, mas inevitavelmente, um pouco
técnica. Sugerimos a um estudante iniciante dispensar a leitura das demonstrações e concentrar-se
apenas nas definições e enunciados.

• Uma condição para mensurabilidade de funções

O próximo teorema (de [56]) é de importância fundamental e será usado em vários lugares mais
abaixo. A noção de σ-álgebra gerada por uma coleção de conjuntos foi introduzida no Capı́tulo 15.
Teorema 20.9 Sejam (M, M) e (N, N) dois espaços mensuráveis e suponhamos que N seja a σ-
álgebra gerada por uma coleção A de subconjuntos de N : N = M[A]. Então, uma função f : M → N
é [M, N]-mensurável, ou seja, [M, M[A]]-mensurável, se e somente se

f −1 (A) ∈ M (20.B.1)

para todo A ∈ A. 2

Prova. Se A ∈ A segue que A ∈ M[A]. Logo, se f é mensurável em relação a M e N = M[A], então,


pela definição de função mensurável, f −1 (A) ∈ M.
Vamos provar a recı́proca, ou seja, vamos supor que (20.B.1) valha para todo A ∈ A e mostrar que
f mensurável em relação a M e N = M[A]. Seja

A0 := {A0 ⊂ N | f −1 (A0 ) ∈ M} .

Por (20.B.1) é claro que A ⊂ A0 . Mostremos agora que A0 é uma σ-álgebra em N . Que ∅ e N
pertencem a A0 é claro, pois f −1 (N ) = M (isso segue de f (M ) ⊂ N ). Se A0 ∈ A0 , então f −1 ((A0 )c ) =
f −1 (N \ A0 ) = f −1 (N ) \ f −1 (A0 ) = M \ f −1 (A0 ) = (f −1 (A0 ))c . (Vide Proposições 1.2–1.4, página 25).
Por hipótese, f −1 (A0 ) ∈ M. Logo, como M é uma σ-álgebra, (f −1 (A0 ))c ∈ M.
Resta-nos provar que uma união contável de elementos de A0 é também elemento de A0 . Para isso,
sejam conjuntos A0k ∈ A0 , k ∈ . Sabemos que (vide Proposições 1.2–1.4, página 25)


!
[ [
f −1 A0k = f −1 (A0k ) .
k∈  k∈ 

Por hipótese, cada f −1 (A0k ) pertence a M. Como


S M é uma σ-álgebra, uma
S união0 contável de seus
−1 0 0
elementos também pertence a M. Logo, f k∈ Ak ∈ M. provando que
 k∈ Ak ∈ A . 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 948/1195

Como, por definição, M[A] é a menor σ-álgebra contendo A e A0 também é uma σ-álgebra contendo
A, segue que M[A] ⊂ A0 . Ora, pela definição de A0 , isso diz que a pré-imagem por f de qualquer
elemento de N = M[A] é um elemento de M. Isso significa precisamente que f é mensurável em relação
a M e N, completando a prova.

• Funções mensuráveis entre espaços topológicos

Já observamos acima a semelhança entre as definições de funções contı́nuas e funções mensuráveis.
As duas noções combinam-se elegantemente nos resultados que seguem.
O Teorema 20.9 tem uma aplicação imediata para funções contı́nuas definidas em espaços to-
pológicos. Sejam M e N dois conjuntos não-vazios dotados de topologias τM e τN , respectivamente, e se-
jam M[τM ] e M[τM ] as σ-álgebras geradas por essas topologias. Afirmamos que se f : M → N é contı́nua
com respeito às topologias τM e τN , então f é mensurável em relação às σ-álgebras M[τM ] e M[τN ],
ou seja, é [M[τM ], M[τN ]]-mensurável. De fato, pelo Teorema 20.9 basta provar que f −1 (A) ∈ M[τM ]
para todo A ∈ τN . Agora, por f ser contı́nua, vale que f −1 (A) ∈ τM se A ∈ τN . Como obviamente
τM ⊂ M[τM ], a afirmação está provada.
Note que se em M adotarmos uma σ-álgebra M que contem a σ-álgebra M[τM ], a mesma afirmação
é verdadeira: uma função f : M → N contı́nua com respeito às topologias τ M e τN é mensurável em
relação às σ-álgebras M[τM ] e M ⊃ M[τM ].
Disso segue que toda função f : →  contı́nua em relação à topologia τ



é [M[τ ], M[τ ]]-


 

mensurável e também [M[τ ], MµL ]-mensurável.




A proposição adiante é um mero corolário das observações acima.


Proposição 20.9 Sejam X, Y e Z três conjuntos não-vazios, sendo o conjunto X dotado de uma
σ-álgebra MX e os conjuntos Y e Z dotados de topologias τY e τZ , respectivamente. Sejam f : X → Y
e g : Y → Z duas funções tais que f é [MX , M[τY ]]-mensurável e g é contı́nua em relação às topologias
τY e τZ . Então, g ◦ f : X → Z é [MX , M[τZ ]]-mensurável. 2

Prova. Pelo que acabamos de comentar, g é [M[τY ], M[τZ ]]-mensurável. Assim, g ◦ f é uma função
[MX , M[τZ ]]-mensurável por ser a composição de uma função [MX , M[τY ]]-mensurável com uma
função [M[τY ], M[τZ ]]-mensurável.

• Aplicação para funções numéricas

Notemos que o Teorema 20.9 é aplicável ao caso de funções f : M → , onde M dotada de uma

σ-álgebra M e da σ-álgebra de Borel M[τ ]. Nesse caso A = τ . Em verdade, provamos no Capı́tulo



 

15, mais especificamente na expressão (15.1), página 826, que M[τ ] = M[R], onde R é a coleção de


todos os intervalos abertos (a, b), com a e b racionais. Podemos, portanto, tomar A = R, nesse caso.
Conseqüentemente, para provar que uma função f : M → é mensurável em relação a M e M[τ ], é



suficiente, pelo Teorema 20.9, provar que f −1 ((a, b)) ∈ M para todo intervalo aberto (a, b), com a e b
racionais.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 949/1195

Observemos agora, que


[ c !
1
(a, b) = (−∞, b) ∩ −∞, a + .
n∈ 
n

TE. 20.29 Exercı́cio.


 Prove isso! Sugestão: use (a, b) = (−∞, b) \ (−∞, a] e escreva (−∞, a] =
n∈
−∞, a + n1 . 6

Isso significa que


[  c !
1
f −1 ((a, b)) = f −1 ((−∞, b)) ∩ f −1 −∞, a + .
n∈ 
n

(Vide Proposições 1.2–1.4, página 25). Logo, pelos raciocı́nios usuais sobre uniões contáveis, inter-
secções finitas e complementos de elementos de uma σ-álgebras, segue que se f −1 ((−∞, c)) ∈ M para
todo c ∈ , então f −1 ((a, b)) ∈ M para todos com a e b racionais, provando que f é mensurável em


relação a M e M[τ ].


Um raciocı́nio idêntico nos leva a concluir que se f −1 ((c, ∞)) ∈ M para todo c ∈  , então f é
mensurável em relação a M e M[τ ].


Resumimos essas considerações na seguinte proposição, que usaremos logo abaixo:


Proposição 20.10 Consideremos uma função numérica f : M → , sendo M dotada de uma σ-


álgebra M e da σ-álgebra de Borel M[τ ]. Uma condição necessária e suficiente para que f seja



[M, M[τ ]]-mensurável é que para todo a ∈ valha




{x ∈ M | f (x) < a} = f −1 ((−∞, a)) ∈ M. (20.B.2)


Equivalentemente, podemos substituir o conjunto de (20.B.2) por qualquer um dos seguintes três con-
juntos:
{x ∈ M | f (x) ≤ a} = f −1 ((−∞, a]) ∈ M, (20.B.3)

{x ∈ M | f (x) > a} = f −1 ((a, ∞)) ∈ M, (20.B.4)

{x ∈ M | f (x) ≥ a} = f −1 ([a, ∞)) ∈ M. (20.B.5)


2

Prova. Que as condições são necessárias é evidente, pois os quatro conjuntos (20.B.2)-(20.B.5) são a
pré-imagem por f dos conjuntos Borelianos (−∞, a), (−∞, a], (a, ∞) e [a, ∞).
Acima, já provamos a recı́proca para os conjuntos (20.B.2) e (20.B.4). Os dois casos restantes são
conseqüência desses dois se lembrarmos que f −1 ((−∞, a]) = (f −1 ((a, ∞)))c e que f −1 ([a, ∞)) =
(f −1 ((−∞, a)))c .

Nosso próximo resultado é o seguinte:


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 950/1195

Proposição 20.11 Se f : M →  eg:M →  são ambas [M, M[τ ]]-mensuráveis, então




{x ∈ M | f (x) < g(x)} ∈ M, (20.B.6)

{x ∈ M | f (x) ≤ g(x)} ∈ M, (20.B.7)

{x ∈ M | f (x) > g(x)} ∈ M, (20.B.8)

{x ∈ M | f (x) ≥ g(x)} ∈ M. (20.B.9)

Prova. Para demonstrar a primeira linha, notemos que


[ 
{x ∈ M | f (x) < g(x)} = {x ∈ M | f (x) < r} ∩ {x ∈ M | g(x) > r} .
r∈

E. 20.30 Exercı́cio. Mostre isso! Sugestão: lembre-se que f (x) < g(x) se e somente se existir pelo
menos um racional r tal que f (x) < r < g(x), ou seja, f (x) < r e r < g(x). 6

Como observamos acima, tanto {x ∈ M | f (x) < r} quanto {x ∈ M | g(x) > r} são elementos de
M. Pelas propriedades de σ-álgebras, sua intersecção também o é. Por fim, a união acima também
o é, por ser uma união contável de elementos de M (essa é uma das propriedades definidoras de uma
σ-álgebras). A prova que {x ∈ M | f (x) > g(x)} ∈ M é análoga:
[ 
{x ∈ M | f (x) > g(x)} = {x ∈ M | f (x) > r} ∩ {x ∈ M | g(x) < r}
r∈

e não requer mais comentários. Por fim, notemos que {x ∈ M | f (x) ≤ g(x)} = {x ∈ M | f (x) > g(x)} c
e que {x ∈ M | f (x) ≥ g(x)} = {x ∈ M | f (x) < g(x)}c . Como uma σ-álgebra é fechada pelo
complemento, segue do que já foi provado que {x ∈ M | f (x) ≤ g(x)} ∈ M e {x ∈ M | f (x) ≥ g(x)} ∈
M.

• A álgebra das funções mensuráveis

Vamos aqui provar a seguinte afirmativa, a qual coroa os resultados obtidos até aqui sobre funções
numéricas mensuráveis: o conjunto das funções numéricas mensuráveis forma uma álgebra. Mais
precisamente, tem-se
Proposição 20.12 Se f : M →  eg:M →  são ambas [M, M[τ ]]-mensuráveis, então


1. Para todos α, β ∈  vale que αf + βg é [M, M[τ ]]-mensurável.




2. O produto f · g é [M, M[τ ]]-mensurável.




2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 951/1195

Prova. Para simplificar a linguagem, usaremos nesta prova a expressão função mensurável no sentido
de [M, M[τ ]]-mensurável.


Seja α ∈ . Afirmamos que αf é igualmente mensurável. Se α = 0 a afirmativa é trivial. Se α 6= 0,




notemos que para todo a ∈ 

{x ∈ M | αf (x) < a} = {x ∈ M | f (x) < a/α} ∈ M

por (20.B.2), já que, por hipótese, f é mensurável. Como isso vale para todo a ∈  , segue pela mesma
Proposição 20.10 que αf é igualmente mensurável.
O mesmo tipo de argumento tem outra conseqüência semelhante. Se h : M →  é mensurável,
então que para todo b ∈ vale 

{x ∈ M | b + h(x) < a} = {x ∈ M | h(x) < a − b} .

Como h é mensurável, {x ∈ M | h(x) < a − b} ∈ M. Como isso vale para todo a ∈  , concluı́mos da
igualdade acima que b + h é mensurável.
Observe-se agora que

{x ∈ M | f (x) + g(x) < a} = {x ∈ M | f (x) < a − g(x)} .

Definindo-se h(x) = a − g(x), constatamos pelas considerações de acima que se trata de uma função
mensurável. Assim, pela Proposição 20.11, segue que {x ∈ M | f (x) + g(x) < a} ∈ M para todo a, o
que implica que f + g e mensurável.
Concluı́mos disso tudo que para todos α, β ∈ a função αf + βg é mensurável em relação a M


e M[τ ]. Resta-nos ainda mostrar que o produto f · g é mensurável. Provemos primeiro que se f é


mensurável então f 2 também o é. De fato, para a < 0

{x ∈ M | f (x)2 < a} = ∅ ∈ M

mas para a ≥ 0,
 √  √
{x ∈ M | f (x)2 < a} =
x ∈ M | f (x) < a ∪ x ∈ M | f (x) < − a .

Como f é mensurável, segue que {x ∈ M | f (x) < ± a} ∈ M. Logo {x ∈ M | f (x)2 < a} ∈ M e como
isso vale para todo a ∈ , segue que f 2 é mensurável.


A prova que f · g é mensurável segue da relação


1 
f ·g = (f + g)2 − (f − g)2
4
e reunindo tudo o que vimos.

A seguinte proposição também é relevante:



Proposição 20.13 Se f : M → é [M, M[τ ]]-mensurável e f (x) ≥ 0 para todo x ∈ M , então



f
é também [M, M[τ ]]-mensurável.


2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 952/1195

p
Prova. Para f : M →  , basta observar que para a < 0 vale {x ∈ M | f (x) < a} = ∅ ∈ M e para
a ≥ 0, p
f (x) < a} = {x ∈ M | f (x) < a2 } ∈ M ,
{x ∈ M |

pois f é mensurável. Isso provou que f é [M, M[τ ]]-mensurável. 

• Funções complexas mensuráveis

O conjunto dos números complexos é um espaço topológico métrico completo com a métrica
d(z, w) = |w − z|, z, w ∈ . Denotaremos por τ a topologia que essa métrica induz, a topologia


usual de . A essa topologia vem associada a σ-álgebra Boreliana M[τ ]. 

Vamos demonstrar a seguinte proposição:


Proposição 20.14 Seja (M, M) um espaço mensurável e f : M → uma função complexa [M, M[τ ]]- 

mensurável definida em M . Então Re(f ), Im(f ) e |f | são funções reais [M, M[τ ]]-mensuráveis. 2 

Prova. Comecemos por observar que a função Re : → dada por Re(z) = (z + z)/2 é contı́nua,


assim como a função Im : → dada por Im(z) = (z − z)/(2i).




E. 20.31 Exercı́cio simples. Prove isso! 6

Com isso em mente, podemos entender a função Re(f ) : M → como a composição Re ◦ f da 

função [M, M[τ ]]-mensurável f com a função Re que é contı́nua em relação às topologias τ e τ .
 


Assim, pela Proposição 20.9, página 948, segue que Re(f ) : M → é [M, M[τ ]]-mensurável. A prova 


para Im(f ) é idêntica.


A função módulo | · | : → é também uma função contı́nua entre e . (Isso é totalmente óbvio,
 

pois a métrica em é definida por essa função!). Assim o mesmo argumento se aplica novamente.
Outra maneira de provar que | · | : → é [M, M[τ ]]-mensurável é lembrar que (Re(f ))2 +



(Im(f
p ))2 é [M, M[τ ]]-mensurável pela Proposição 20.12 e, portanto, pela Proposição 20.13, |f | =


(Re(f ))2 + (Im(f ))2 é [M, M[τ ]]-mensurável.




A Proposição 20.14 tem parcialmente uma recı́proca:


Proposição 20.15 Se u : M →  ev:M →  são [M, M[τ ]]-mensuráveis então f : u+iv : M →


é [M, M[τ ]]-mensurável.




Prova. (De [105]). Seja I1 um intervalo aberto do eixo real e I2 um intervalo aberto do eixo imaginário.
Então R = I1 × I2 é um retângulo aberto em . Agora, é fácil ver que f −1 (R) = u−1 (I1 ) ∩ v −1 (I2 ).
Pelas hipóteses, u−1 (I1 ) e v −1 (I2 ) pertencem à σ-álgebra M. Logo, f −1 (R) também.SLembremos que
todo aberto A de pode ser ser escrito como união contável de tais retângulos: A = n∈ Rn . Agora, 

por (1.14), página 25, !


[ [
f −1 (A) = f −1 Rn = f −1 (Rn ) .
n∈  n∈ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 953/1195

Mas como vimos f −1 (Rn ) ∈ M para todo n e, como a união acima é contável, segue que f −1 (A) ∈ M.
Pela Proposição 20.9, isso prova que f é [M, M[τ ]]-mensurável.


Para as funções complexas mensuráveis vale a mesma afirmação feita sobre as funções reais: elas
formam uma álgebra. Mais precisamente, tem-se
Proposição 20.16 Se f : M → eg:M → são ambas [M, M[τ ]-mensuráveis, então


1. Para todos α, β ∈ vale que αf + βg é [M, M[τ ]]-mensurável.




2. O produto f · g é [M, M[τ ]]-mensurável.




Prova. A prova é elementar com o que acumulamos até aqui, pois é fácil provar (usando as Proposições
20.12 e 20.14) que as partes reais e imaginárias de αf + βg e de f · g são [M, M[τ ]]-mensuráveis. Daı́,


pela Proposição 20.15, αf + βg e f · g são [M, M[τ ]]-mensuráveis.




20.C Prova do Lema 20.3


A prova (extraı́da com modificações de [56]) consiste em exibir uma seqüência f n de funções simples
mensuráveis e não-negativas e verificar as propriedades. A seqüência é
n2 
X
n 
k−1
fn (x) := χFn, k (x) + nχGn (x) ,
k=1
2n

onde    
k−1 k k−1 k
Fn, k := f −1
, n = x ∈ M ≤ f (x) < n ,
2n 2 2n 2
e
Gn := f −1 ([n, ∞]) = {x ∈ M | n ≤ f (x) ≤ ∞} .
Como por hipótese f é Boreliana,
 k−1 k  é imediato que Fn, k e Gn são mensuráveis (ou seja, elementos de
M), já que os intervalos 2n , 2n e [n, ∞] são Borelianos. Assim, cada fn é uma função simples e
mensurável.
Queremos provar que fn é não-decrescente e que converge a f . Para isso, é preciso entender melhor
como a seqüência fn está definida. Para cada n, divide-se o intervalo semi-aberto  [0, n) em n2n sub-
intervalos semi-abertos menores de tamanho 21n , que são os intervalos k−1 2n
, 2kn com k variando entre
n
1 e n2 . Os conjuntos Fn, k são as pré-imagens por f desses sub-intervalos semi-abertos. A divisão
de [0, n) em n2n sub-intervalos semi-abertos de tamanho 21n significa que cada intervalo semi-aberto
[l, l + 1), com l = 0, . . . , n − 1, é dividido em 2n intervalos semi-abertos de igual tamanho, a saber,
1
2n
.
 
Se x é tal que f (x) cai em k−1
2n
, 2kn , então fn (x) é definido como sendo k−1
2n
. Se x é tal que f (x) ≥ n,
então fn (x) é definido como sendo n. Assim, para todo x, fn (x) é sempre menor o igual a f (x).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 954/1195

1
Se passarmos de n para n + 1, cada intervalo
 passa a ter tamanho 2n+1 , que é a metade do anterior.
k−1 k
Assim cada intervalo semi-aberto
 k−1 k   2k−2 2k−1   2k−1 2n
, 2n 
passa a ser dividido em dois intervalos semi-abertos disjun-
2k
tos: 2n , 2n = 2n+1 , 2n+1 ∪ 2n+1 , 2n+1 . Como as novas subdivisões estão contidas nas anteriores,
o valor de cada fn+1 (x) só pode aumentar em relação ao de fn . Mais precisamente, para x ∈ Fn, k a
função fn vale k−1
2n
. Após a primeira subdivisão (ao passarmos de n a n + 1) o conjunto Fn, k passa a ser
a união dos dois conjuntos disjuntos Fn+1, 2k−1 e Fn+1, 2k . No primeiro fn+1 (x) vale 2k−22n+1
= k−1
2n
= fn (x)
2k−1 k−1
e no segundo fn+1 (x) = 2n+1 > 2n = fn (x), o que prova o que afirmamos.
Para ver que fn converge a f , observe-se que se f (x) é finito,
 k−1 então
 para todo n > f (x) tem-se
k
obviamente que f (x) ∈ [0, n) e, portanto, vale que f (x) ∈ 2n , 2n para algum k entre 1 e n2n .
Teremos então, pela definição, que fn (x) = k−1
2n
e, portanto, |fn (x) − f (x)| ≤ 21n , o que prova que
fn (x) → f (x) quando n → ∞. Se f (x) não é finito, fn (x) = n para todo n, pela definição e, portanto,
fn (x) → ∞ quando n → ∞.
Resta apenas provar que se f é finito a convergência é uniforme. Se A > 0 é tal que 0 ≤ f (x) < A
para todo x ∈ M , então é certo que se n > A teremos que para cada x haverá um k entre 1 e n2 n
 k−1
tal que f (x) ∈ 2n , 2kn . Nesse caso fn (x) = k−1 2n
e |fn (x) − f (x)| ≤ 21n , Ora, o lado direito dessa
desigualdade não depende de x, o que mostra que a mesma é uniforme em todo M , completando a
prova do Lema 20.3, página 920.

20.D Demonstração de (20.22)


Provemos a relação (20.22). Temos que, para todo Bk vale
Bk = Bk ∩ M = Bk ∩ (C1 ∪ · · · ∪ Cq ) = (Bk ∩ C1 ) ∪ · · · ∪ (Bk ∩ Cq )
sendo que a união do lado direito é disjunta, pois (Bk ∩ Ci ) ∩ (Bk ∩ Cj ) = (Ci ∩ Cj ) ∩ Bk = ∅ para
i 6= j. Com isso, se µ é uma medida,
q
X
µ(Bk ) = µ ((Bk ∩ C1 ) ∪ · · · ∪ (Bk ∩ Cq )) = µ(Bk ∩ Cl ) . (20.D.10)
l=1

Analogamente, para todo Cl vale


Cl = Cl ∩ M = Cl ∩ (B1 ∪ · · · ∪ Bp ) = (Cl ∩ B1 ) ∪ · · · ∪ (Cl ∩ Bp )
também uma união disjunta e também tem-se
p
X
µ(Cl ) = µ ((Cl ∩ B1 ) ∪ · · · ∪ (Cl ∩ Bp )) = µ(Cl ∩ Bk ) . (20.D.11)
k=1
Assim,
p p q q p q
X (20.D.10) X X X X (20.D.11) X
βk µ(Bk ) = βk µ(Bk ∩ Cl ) = γl µ(Bk ∩ Cl ) = γl µ(Cl ) ,
k=1 k=1 l=1 l=1 k=1 l=1

o que prova (20.22). Na segunda igualdade, acima, trocamos βk por γl e a razão de podermos fazer
isso é a seguinte. Se Bk ∩ Cl = ∅ então µ(Bk ∩ Cl ) = 0, o que autoriza a substituição. Se Bk ∩ Cl 6= ∅,
então βk = γl , pois se x ∈ Bk ∩ Cl , vale pelas representações normais de (20.21) que s(x) = βk e que
s(x) = γk .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 955/1195

20.E A Equivalência das Definições (20.23) e (20.24)


Vamos aqui mostrar a equivalência das duas definições (20.23) e (20.24) da integral de Lebesgue. Nosso
tratamento segue [56], com ligeiras adaptações e melhorias. Vamos supor que s ∈ S(f ) e que f n é uma
seqüência monótona crescente de funções simples mensuráveis de S(f ) que converge a f (que tal existe,
garante-nos o Lema 20.3). Vamos primeiramente mostrar que
Z Z
s dµ ≤ lim fn dµ .
M n→∞ M
R R
Há dois casos a tratar, I quando s dµ = ∞ e II quando M s dµ < ∞.
M
R
I. No primeiro caso desejamos provar
Pn que M fn dµ diverge quando R n → ∞. Façamos isso. Se s tem
representação normal curta s(x) = k=1 sk χSk (x), então o fato de M s dµ = ∞ implica que existe um
k0 com sk0 > 0 e µ(Sk0 ) = ∞. Fixemos um  tal que 0 <  < sk0 e definamos os conjuntos

An := { x ∈ M | fn (x) +  > s(x) } .

É fácil ver que Am ⊂ An para todos m ≤ n, pois fn é uma seqüência crescente. Fora isso,
[
An = M .
n∈ 

Isso se deve ao seguinte. Se x ∈ M então, como fn (x) converge a f (x) ≤ s(x), segue que para algum
n grande o suficiente teremos fn (x) +  > s(x). Assim, todo x ∈ M pertence a algum An .
Temos, com isso, que
[ [
S k0 = S k0 ∩ M = S k0 ∩ An = (An ∩ Sk0 )
n∈  n∈ 

Como Am ∩ Sk0 ⊂ An ∩ Sk0 para todos m ≤ n, podemos evocar a propriedade geral de medidas 3 da
página 842 e escrever µ(Sk0 ) = limn→∞ µ(An ∩ Sk0 ), o que nos diz que limn→∞ µ(An ∩ Sk0 ) = ∞. Agora,
Z Z Z
fn dµ > fn χAn ∩Sk0 dµ > (s − ) χAn ∩Sk0 dµ
M M M
Z
= (sk0 − ) χAn ∩Sk0 dµ
M
Z
= (sk0 − ) χAn ∩Sk0 dµ
M

= (sk0 − )µ(An ∩ Sk0 ) .

A segunda desigualdade (primeira linha) se deve ai fato que em An tem-se fn (x) > s(x) − . A primeira
igualdade (segunda linha) se deve ao fato que em Sk0 a função s vale sk0 .
Z h i
Assim, lim fn dµ > (sk0 − ) lim µ(An ∩ Sk0 ) = ∞, como querı́amos mostrar.
n→∞ M n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 956/1195

R Pn
II. Consideremos
R agora o Pn M s dµ < ∞. Seja s(x) = k=1 sk χSk (x) a representação normal
caso
curta de s. Como M s dµ = k=1 sk µ(Sk ) < ∞, segue que µ(Sk ) < ∞ para todo k com sk > 0.
Seja T := {x ∈ M | s(x) > 0}. É fácil ver que
[
T = Sk .
k=1, ..., n
sk >0

X
Tem-se então µ(T ) = µ(Sk ) < ∞. Vamos escolher um  fixo tal que 0 <  < minsk >0 {sk }. Segue
k
sk >0
que
Z Z
fn dµ ≥ fn χAn ∩T dµ
M M
Z
> (s − ) χAn ∩T dµ
M
Z Z
= s χAn ∩T dµ −  χAn ∩T dµ
M M
Z
= s χAn ∩T dµ − µ(An ∩ T )
M
Z
≥ s χAn ∩T dµ − µ(T )
M
Z
= s χAn ∩T χT dµ − µ(T )
M
Z Z
= s χT dµ − s (1 − χAn ∩T ) χT dµ − µ(T )
M M
Z Z
= s dµ − s (χT − χAn ∩T ) dµ − µ(T )
M M
R
Acima,
R usamos em vários lugares que χ A n ∩T = χ A n ∩T χ T . Na última igualdade usamos que M
s χT dµ =
M
s dµ. Agora, se definirmos sm = supx∈M s(x) = max{s1 , . . . , sn } ≥ 0, teremos
Z Z
s (χT − χAn ∩T ) dµ ≤ sm (χT − χAn ∩T ) dµ = sm (µ(T ) − µ(An ∩ T )) .
M M

Pelo mesmo argumento usado na parte I, vale limn→∞ µ(An ∩ T ) = µ(T ). Com isso, teremos que
sm (µ(T ) − µ(An ∩ T )) ≤  para todos os n’s grandes o suficiente. Assim, para todos os n’s grandes o
suficiente, Z Z
fn dµ > s dµ −  − µ(T ) .
M M
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 957/1195

O lado direito não depende de n. Logo,


Z Z
lim fn dµ > s dµ −  − µ(T ) .
n→∞ M M
Z Z
Como essa desigualdade vale para  arbitrário, segue que lim fn dµ ≥ s dµ, completando a
n→∞ M M
prova para o caso II.
Z Z Z Z
A desigualdade lim fn dµ ≥ s dµ mostra que lim fn dµ ≥ sup s dµ. Agora, como
n→∞ M M n→∞ M s∈S(f ) M
Z Z
fn ∈ S(f ), é claro que lim fn dµ ≤ sup s dµ. Isso mostra que se fn é qualquer seqüência
n→∞ M s∈S(f ) M
monótona crescente de funções simples mensuráveis de S(f ) que converge a f vale
Z Z
lim fn dµ = sup s dµ ,
n→∞ M s∈S(f ) M

provando a equivalência das duas definições (20.23) e (20.24).

20.F Prova do Teorema da Convergência Monótona


Apresentamos aqui a demonstração do Teorema 20.4, o Teorema da Convergência Monótona.

Prova do Teorema 20.4.34 Pelas hipóteses f = supn∈ fn , assim, pela discussão da página 917 sobre


funções definidas pelo supremo de seqüências, f é mensurável.


R
Pelas hipóteses, a seqüência
R f dµ ou converge a algum número finito não-negativo ou diverge.
M n
Assim,
R seja RF := limn→∞ M fn dµ com F ∈ + ∪ {∞}. Como fn (x) < f (x) para todo x, segue que


f
M n
dµ ≤ M f dµ. Logo, Z
F ≤ f dµ. (20.F.12)
M

Seja agora s ∈ S(f ), ou seja, s é simples, [M, M[τ ]]-mensurável e 0 ≤ s ≤ f . Tomando-se uma


constante c fixa no intervalo (0, 1), definamos para cada n ∈ os conjuntos 

En := {x ∈ M | fn (x) ≥ cs(x)}.
Pela Proposição 20.11, página 950, os conjuntos En são todos mensuráveis (ou seja, pertencem a M).
Como {fn } é crescente, é também imediato que En ⊂ En+1 para todo n.
Se x ∈ M e f (x) = 0, então x ∈ E1 , pois nesse caso f1 (x) = s(x) = f (x) = 0. Se x ∈ M e f (x) > 0,
então cs(x) < f (x), pois c foi escolhido menor que 1.SComo fn (x) → f (x), haverá algum n para o qual
fn (x) ≥ cs(x) e, portanto, x ∈ En . Isso provou que n∈ En = M . Pelo Lema 20.4, página 923, e pela


propriedade geral de medidas do item 3, página 842, isso implica que


Z Z
lim s dµ = s dµ .
n→∞ En M
34
A demonstração abaixo é encontrada de forma quase idêntica em vários textos, por exemplo, em [105]
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 958/1195

Como fn ≥ fn χEn , vale que


Z Z Z Z Z
fn dµ ≥ fn χEn dµ = fn dµ ≥ c s dµ = c s dµ .
M M En En En
R
para todo n. Tomando o limite n → ∞ em ambosRos lados, concluı́mos que F ≥ c M s dµ. Como
isso
R vale para todo Rc entre 0 e 1, segue que F ≥R M s dµ. Agora, recordando que,Rpela definição,
M
f dµ R= sups∈S(f ) M s dµ, concluı́mos que F ≥ M f, dµ. Por (20.F.12), segue que M f dµ = F =
limn→∞ M fn dµ. Isso completa a demonstração do Teorema 20.4.

20.G Prova do Lema de Fatou

Prova do Lema de Fatou. Sejam as funções gn : M → definidas da seguinte forma: para cada x ∈ M


tem-se gn (x) = inf fk (x). É claro que cada gn é não-negativa e, pelos comentários da página 917,
k≥n
[M, M[τ ]]-mensurável. É também claro que gn (x) ≤ gn+1 (x) para todo n e para todo x ∈ M e que


fn (x) ≥ gn (x), também para todo n e para todo x ∈ M . Agora, para cada x ∈ M

lim gn (x) = sup gn (x) = sup inf fk (x) = lim inf fn (x) . (20.G.13)
n→∞ n≥1 n≥1 k≥n n→∞

(A última igualdade é a definição de lim inf). Como fn (x) ≥ gn (x) tem-se


Z Z
fn dµ ≥ gn dµ
M M

para todo n, e assim, Z Z


inf fk dµ ≥ inf gk dµ .
k≥n M k≥n M
Como gn (x) ≤ gn+1 (x) para todo n, tem-se que
Z Z
inf gk dµ = gn dµ
k≥n M M

e, portanto, Z Z
inf fk dµ ≥ gn dµ .
k≥n M M
Conseqüentemente, Z Z
sup inf fk dµ ≥ sup gn dµ .
n≥1 k≥n M n≥1 M

Agora, por definição Z Z


lim inf fn dµ = sup inf fk dµ
n M n≥1 k≥n M

e, além disso, Z Z
sup gn dµ = lim gn dµ ,
n≥1 M n→∞ M
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 959/1195

Z
pois gn dµ é crescente. Portanto, provamos que
M
Z Z
lim inf fn dµ ≥ lim gn dµ .
n M n→∞ M

Como gn satisfaz os requisitos do Teorema da Convergência Monótona, Teorema 20.4, página 933, vale
que Z Z
lim gn dµ = lim gn dµ
n→∞ M M n→∞
e, assim, Z Z
lim inf fn dµ ≥ lim gn dµ . (20.G.14)
n M M n→∞
Por fim, sabemos por (20.G.13) que lim gn = lim inf fn (x) e, assim, (20.G.14) estabeleceu que
n→∞ n→∞
Z Z
lim inf fn dµ ≥ lim inf fn dµ ,
n M M n→∞

que é o que querı́amos provar.

20.H Prova do Teorema da Convergência Dominada


Seguiremos aqui [105].

Prova do Teorema da Convergência Dominada. É claro que se f (x) = lim f (x) e |fn (x)| ≤ F (x) para
n→∞
todo n ∈ e todo x ∈ M , então |f (x)| ≤ F (x) para todo xR∈ M . ComoR f é também [M, M[τ ]]-



mensurável (por ser o limite de funções mensuráveis), então M |f | dµ < M F dµ < ∞ e, portanto,
f ∈ L1 (M, dµ). Isso provou o item 1 do Teorema 20.6.
Em segundo lugar, notemos que |f − fn | ≤ |f | + |fn | ≤ 2F . Assim, as funções gn = 2F − |f − fn |
são não-negativas e podemos aplicar o Lema de Fatou, Lema 20.5, que diz-nos que
Z Z
lim inf (2F − |f − fn |) dµ ≤ lim inf (2F − |f − fn |) dµ .
M n→∞ n→∞ M

Por um lado, temos que

lim inf (2F − |f − fn |) = 2F − lim sup |f − fn | = 2F ,


n→∞ n→∞

pois lim inf −|f − fn | = − lim sup |f − fn | = 0. (Justifique!) Por outro lado,
n→∞ n→∞
Z Z Z
lim inf (2F − |f − fn |) dµ = 2F dµ + lim inf −|f − fn | dµ .
n→∞ M M n→∞ M

Porém, vale que Z Z


lim inf −|f − fn | dµ = − lim sup |f − fn | dµ .
n→∞ M n→∞ M
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 960/1195

(Justifique!) Assim, provamos que


Z Z Z
2 F dµ ≤ 2 F dµ − lim sup |f − fn | dµ .
M M n→∞ M
R R
Como M F dµ ≤ ∞ (pois F ∈ L1 (M, dµ)), podemos subtrair o termo 2 M F dµ de ambos os lados
da expressão acima e concluir que
Z
lim sup |f − fn | dµ ≤ 0 .
n→∞ M
R
Como M
|f − fn | dµ ≥ 0, segue que
Z
lim |f − fn | dµ = 0 .
n→∞ M

Isso provou o item 2 do Teorema 20.6. Como |f − fn | ≤ 2F , segue que (f − fn ) ∈ L1 (M, dµ) e podemos
aplicar (20.33) e concluir que Z


lim (f − fn ) dµ = 0 ,
n→∞ M
ou seja, Z Z
f dµ = lim fn dµ .
M n→∞ M
Isso provou o item 3 do Teorema 20.6.

20.I Prova dos Teoremas 20.2 e 20.3


Aqui apresentamos a demonstração dos Teoremas 20.2 e 20.3, os quais tratam da relação entre as
integrais de Riemann e Lebesgue. Seguiremos essencialmente [56], que por sua vez segue [8]. Para uma
outra demonstração ligeiramente diferente do Teorema 20.2 vide, por exemplo, [39].

Prova do Teorema 20.2. A prova que apresentamos requer o Lema de Fatou e o Teorema da Convergência
Dominada, tratados na Seção 20.3.4, página 933.
Dada uma função real limitada e integrável por Riemann f , definida em [a, b], e dada uma partição
Pn = {x1 , . . . , xn } de [a, b] com a = x1 < . . . < xn = b, sejam as somas de Darboux
n−1 
X  n−1 
X 
Di [Pn , f ] := inf f (y) |Ik | e Ds [Pn , f ] := sup f (y) |Ik | ,
y∈Ik y∈Ik
k=1 k=1

onde Ik = [xk , xk+1 ) e |Ik | = xk+1 − xk = µL (Ik ).


Definamos também as funções simples
n−1 
X  n−1 
X 
σn := inf f (y) χI k e Σn := sup f (y) χI k . (20.I.15)
y∈Ik y∈Ik
k=1 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 961/1195

É bastante claro que σn e Σn são funções mensuráveis Borelianas, pois os intervalos Ik = [xk , xk+1 )
são Borelianos. É também evidente que
Z Z
Di [Pn , f ] = σn dµL e Ds [Pn , f ] = Σn dµL .
[a, b] [a, b]

Se f é integrável por Riemann então existe uma seqüência de partições P 1 , P2 , P3 , . . ., com Pn+1
mais fina que Pn para todo n e tais que Di [Pn , f ] → ρ e Ds [Pn , f ] → ρ para algum ρ ∈ . Esse ρ é,
Z b


por definição, a integral de Riemann de f em [a, b], ou seja, ρ = f (x)dx. Assim,


a
Z Z
lim σn dµL = lim Σn dµL = ρ ,
n→∞ [a, b] n→∞ [a, b]

e Z
lim (Σn − σn ) dµL = 0.
n→∞ [a, b]

A seqüência qn = Σn − σn é não-crescente, pois Σn é não-crescente e σn é não-decrescente (certo?).


Assim, a função q = inf qn = lim qn é Boreliana (vide discussão à página 917). Pelo Lema de Fatou
n n→∞
(Lema 20.5, página 934),

Z Z Z
q dµL = lim qn dµL = lim inf qn dµL
[a, b] [a, b] n→∞ [a, b] n→∞

Z Z
≤ lim inf qn dµL = lim (Σn − σn ) dµL = 0.
n→∞ [a, b] n→∞ [a, b]

Como qn = Σn − σn ≥ 0 (certo?), segue pela Proposição 20.6, página 925, que q = 0 µL -q.t.p. em [a, b].
Como σn ≤ f ≤ Σn para todo n, segue que f = lim σn µL -q.t.p. em [a, b]. Como f é limitada,
n→∞
existe M > 0 tal que |f | < M . Mas isso implica também que |σn | < M pois, por (20.I.15), vale
n−1
X
n−1
X

|σn | ≤
inf f (y) χIk ≤ M χI k = M .
y∈I k
k=1 k=1
R
A função constante igual a M é integrável em [a, b] (pois [a, b] M dµL = M (b − a) < ∞). Logo,
podemos aplicar o Teorema da Convergência Dominada, Teorema 20.6, página 935, e concluir do fato
que f = limn→∞ σn que f é integrável e que,
Z Z Z b
f dµL = lim σn dµL = lim Di [Pn , f ] = ρ = f (x) dx .
[a, b] n→∞ [a, b] n→∞ a

provando a igualdade da integral de Riemann e a de Lebesgue no caso tratado. Isso encerra a prova
do Teorema 20.2.

Passemos agora à prova do Teorema 20.3.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 962/1195

Prova do Teorema 20.3. (De [56], com aperfeiçoamentos). A prova que apresentamos requer o Teorema
da Convergência Monótona, tratado na Seção 20.3.4, página 933.
Z n
Seja a integral de Riemann f (x) dx, a qual existe para todo para n ∈ , por hipótese. Pelo 

−n
Teorema 20.2, Z Z
n
f (x) dx = f dµL ,
−n [−n, n]
a integral à direita sendo a de Lebesgue. Podemos escrever
Z Z
f dµL = f χ[−n, n] dµL .
[−n, n] 

Agora, as funções fn = f χ[−n, n] são Borelianas, são não-negativas e formam uma seqüência não-
decrescente, pois fn ≤ fn+1 para todo n ∈ , já que [−n, n] ⊂ [−(n + 1), n + 1]. Assim, podemos


aplicar o Teorema da Convergência Monótona, Teorema 20.4, página 933, e obter


Z n Z Z   Z
lim f (x) dx = lim fn dµL = lim fn dµL = f dµL . (20.I.16)
n→∞ −n n→∞  
n→∞ 

Acima, o fato que limn→∞ fn (x) = f (x) para cada x ∈  é conseqüência de que [−n, n] → (−∞, ∞)
quanto n → ∞.

R ∞ Assim, concluı́mos da igualdade em (20.I.16) que se f possuir uma integral R n de Riemann imprópria
f (x) dx (definida na Seção 20.2.1, página 907), então o limite lim n→∞ −n f (x) dx, existe e é igual
R∞
−∞ R
a −∞ f (x) dx ∈ e, com isso concluı́mos que
 f dµL é finita e, portanto, f é integrável no sentido


de Lebesgue (como f é não-negativa, é óbvio que f = |f |).


R
Por outro lado, se f for integrável Rno sentido de Lebesgue, então F := f dµL < ∞ e, pela 

n
igualdade em (20.I.16), o limite limn→∞ −n f (x) dx existe e é igual a F . Portanto, para qualquer  > 0
existe n0 ≡ n0 () ∈ tal que


Z n0

f (x) dx − F <  . (20.I.17)

−n0
Para todo intervalo finito Z b] ⊃ [−nZ
Z [a, b] com [a, 0 , n0 ] vale f χ[−n0 , n0 ] ≤ f χ[a, b] ≤ f pois f é não-

negativa. Isso implica f dµ ≤ f dµ ≤ f dµ, ou seja,


[−n0 , n0 ] [a, b] 

Z n0 Z b
f (x) dx ≤ f (x) dx ≤ F . (20.I.18)
−n0 a

Conseqüentemente, por (20.I.17) e (20.I.18),


Z b

f (x) dx − F <  .

a

Esse fato diz-nos que a rede [α, β] → α f (x) dx está eventualmente em qualquer intervalo aberto
(F − , F + ). (Para a definição de “estar eventualmente”, vide Seção 18.4, página 884). Isso diz-nos
que F é um ponto limite dessa rede, o qual, se existe, é único, pois é um espaço Hausdorff (vide 

Proposição 18.5, página 885). Assim, pela definição


R da Seção 20.2.1, página 907, f possui uma integral
de Riemann imprópria e essa é igual a F := f dµL . 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 963/1195

20.J Prova das Desigualdades de Hölder e Minkowski

Prova do Teorema 20.7. Provaremos primeiro a desigualdade de Hölder e dela extrairemos a de Min-
kowski.
A prova da desigualdade de Hölder (20.40) segue os mesmos passos daquela do Teorema 13.2, página
13.2. Lembremos, em primeiro lugar a desigualdade demonstrada à página 764, que estabelece que
a b
a1/p b1/q ≤ + , (20.J.19)
p q
1 1
para a ≥ 0, b ≥ 0 e p e q ambos tais que 1 < p < ∞ e 1 < q < ∞, e que + = 1. Em (20.J.19), a
p q
igualdade se dá se e apenas se a = b.
R
Notemos primeiramente que no caso de termos M |f |p dµ = 0, a desigualdade (20.40) é automati-
camente satisfeita, pois valerá |f | = 0 µ-q.t.p. e, Rportanto, |f g| = 0 µ-q.t.p., o que implica
R que o lado
q p
esquerdo de (20.40) é nulo. O mesmo se dá caso M |g| dµ = 0. No caso de termos M |f | dµ = ∞ a
desigualdade em (20.40) e também trivial. Com isso, podemos supor que
Z Z
p
0 < |f | dµ < ∞ e 0 < |g|q dµ < ∞ .
M M

Para x ∈ M , tomemos
|f (x)|p |g(x)|q
a = Z e b = Z .
p q
|f | dµ |g| dµ
M M

A relação (20.J.19) diz-nos que

|f (x)| |g(x)| 1 |f (x)|p 1 |g(x)|q


Z 1/p Z 1/q ≤ Z + Z
p q
|f |p dµ |g|q dµ |f |p dµ |g|q dµ
M M M M

R
Tomando a integral M (· · · ) dµ da expressão acima, tem-se
Z Z Z
p
|f ||g| dµ |f | dµ |g|q dµ
M 1 1 1 1
Z 1/p Z 1/q ≤ ZM + ZM = + = 1,
p q p q
|f |p dµ |g|q dµ |f |p dµ |g|q dµ
M M M M

o que demonstra a desigualdade de Hölder (20.40).


Provemos
R agora a desigualdade
R deRMinkowski (20.41). O caso p = 1, é evidente, pois |f −g| ≤ |f |+|g|
implica M |f − g| dµ ≤ M |f | dµ + M |g| dµ. Podemos então tomar p > 1.
Comecemos observando que para p > 1 a função xp é convexa para x > 0. Logo,
 p
|f | + |g| 1
≤ (|f |p + |g|p) .
2 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 964/1195

como |f − g| ≤ |f | + |g|, segue que


 p
|f − g| 1
≤ (|f |p + |g|p) . (20.J.20)
2 2

Disso concluı́mos que se f e g pertencem a Lp (M, dµ), então

f − g ∈ Lp (M, dµ) . (20.J.21)


R R R
Também de (20.J.20), extraı́mos que se M |f − g|p dµ = ∞ então R M
|f | p
dµ + M
|g|p dµ = ∞ e a
p
desigualdade de Minkowski (20.41) é satisfeita. Também no caso M |f − g| dµ = 0 (20.41) é satisfeita,
pois aı́ o lado esquerdo de (20.41) é nulo. Podemos então supor
Z
0 < |f − g|p dµ < ∞ . (20.J.22)
M

Escrevamos agora

|f − g|p = |f − g| |f − g|p−1 ≤ (|f | + |g|) |f − g|p−1 = |f | |f − g|p−1 + |g| |f − g|p−1 .

Isso diz-nos que


Z Z Z
p p−1
|f − g| dµ ≤ |f | |f − g| dµ + |g| |f − g|p−1 dµ . (20.J.23)
M M M

A desigualdade de Hölder (20.40) diz-nos que


Z Z 1/p Z 1/q
p−1 p (p−1)q
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M

onde q é tal que 1/q + 1/p = 1, ou seja, q = p/(p − 1). Por isso, |f − g|(p−1)q = |f − g|p e a expressão
acima faz sentido por (20.J.21). Assim,
Z Z 1/p Z 1/q
p−1 p p
|f | |f − g| dµ ≤ |f | dµ |f − g| dµ .
M M M

e, analogamente
Z Z 1/p Z 1/q
p−1 p p
|g| |f − g| dµ ≤ |g| dµ |f − g| dµ .
M M M

Inserindo essas duas relações em (20.J.23), segue que


Z Z 1/p Z 1/p ! Z 1/q
p p p p
|f − g| dµ ≤ |f | dµ + |g| dµ |f − g| dµ .
M M M M

R 1/q
Como estamos sob a suposição (20.J.22), podemos dividir ambos os lados acima por M
|f − g|p dµ
e, como 1 − 1/q = 1/p, obtemos a desigualdade de Minkowski (20.41).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 965/1195

Prova do Corolário 20.3. Mostraremos que a desigualdade de Hölder generalizada (20.43) é conseqüência
do seu caso particular para r = 1, a desigualdade de Hölder (20.40), que suporemos válida.
Definindo-se p0 = p/r e q 0 = q/r, tem-se
1 1 r r
0
+ 0 = + = 1.
p q p q
Definindo-se F = |f |r , G = |g|r , valerá
Z Z Z Z
p0 q0
F dµ = |f |p dµ < ∞ e G dµ = |g|q dµ < ∞
M M M M

e, portanto, F ∈ Lp0 (M, dµ) e G ∈ Lq0 (M, dµ).


Assim,
Z 1/r Z 1/r
r r
|f | |g| dµ = F G dµ
M M

" Z 1/p0 Z 1/q0 #1/r


(20.40)
p0 q0
≤ F dµ G dµ
M M

" Z 1/p0 Z 1/q0 #1/r


= f p dµ g q dµ
M M

Z 1/p Z 1/q
p q
= f dµ g dµ
M M

que é a desigualdade de Hölder (20.43).

20.K Prova do Teorema de Riesz-Fischer


Seja {fn }, n ∈  uma seqüência em Lp (M, dµ) e que seja de Cauchy na norma k · kp , ou seja, para
todo  > 0 existe N () tal que kfn − fm kp <  para todos m e n maiores que N ().
Vamos primeiramente mostrar que {fn } possui uma sub-seqüência {gn } com a propriedade que
1
kgl+1 − gl kp < . (20.K.24)
2l
para todos l ∈ . Vamos definir uma seqüência crescente de números inteiros e positivos N k , k =


1, 2, 3, . . . com Nk+1 > Nk , da seguinte forma: Nk é tal que kfm − fn kp < 1/2k para todos m, n > Nk .
Note que uma tal seqüência Nk sempre pode ser encontrada pois, por hipótese, fm é uma seqüência
de Cauchy em k · kp (basta tomar Nk := N (1/2k )). Vamos agora escolher uma seqüência crescente de
ı́ndices n1 < n2 < · · · < nk−1 < nk < · · · tais que nk > Nk para todo k. A essa seqüência está associada
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 966/1195

a sub-seqüência {fnk }k∈ . Para simplificar a notação, denotaremos gk ≡ fnk , k = 1, 2, 3, . . .. Disso é




imediato que (20.K.24) vale, como querı́amos mostrar, pois nl e nl+1 são maiores que Nl .
Defina-se
k
X ∞
X
hk = |gl+1 − gl | e h = |gl+1 − gl | .
l=1 l=1

Pela desigualdade de Minkowski e por (20.K.24), vale para cada k que



X k Xk Xk
1

kgk kp = |gl+1 − gl | ≤ |gl+1 − gl |p ≤ .
2 l
l=1 l=1 p l=1

Logo, !p
Z Xk
1
gkp dµ ≤ .
M l=1
2l
Pelo Lema de Fatou, segue que
Z Z k
!p
X 1
lim inf gkp dµ ≤ lim inf gkp dµ ≤ lim inf = 1.
M k→∞ k→∞ M k→∞
l=1
2l

Agora, como {gk } é uma seqüência não-decrescente, {gkp } também o é converge a g p . Logo, lim inf gkp =
k→∞
g p e concluı́mos que Z
g p dµ ≤ 1,
M

o que implica que kgkp ≤ 1. Disso segue que g(x) < ∞ µ-q.t.p.
Assim, provamos que a série
n
X
g1 (x) + (gl+1 (x) − gl (x))
l=1

converge absolutamente para µ-q.t. x (ou seja, só não converge absolutamente em um conjunto de
medida µ nula). Note-se agora que
n−1
X
g1 (x) + (gl+1 (x) − gl (x)) = gn (x) .
l=1

Assim, concluı́mos que lim gn (x) existe µ-q.t.p.


n→∞

Vamos denotar por G o conjunto dos x’s em M onde esse limite existe (como vimos µ(M \ G) = 0)
e definamos uma função f : M → da seguinte forma:

lim gn (x), para x ∈ G
 n→∞
f (x) := .

0, para x ∈ M \ G
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 20 967/1195

Queremos provar que kf − fn kp → 0 para n → ∞, ou seja, que a função f definida acima é o limite em
Lp (M, dµ) da seqüência {fn }. Fixando  > 0, sabemos que se m e n forem maiores que N () valerá
kfn − fm kp < . Logo, o Lema de Fatou diz-nos que se m > N (),
Z Z Z
p
|f − fm | dµ ≤ p
lim inf |gl − fm | dµ ≤ lim inf |gl − fm |p dµ = lim inf (kgl − fm kp )p ≤ p .
M M l→∞ l→∞ M l→∞
(20.K.25)
Isso provou que f − fm ∈ Lp (M, dµ). Como f = fm + (f − fm ), isso implica que f ∈ Lp (M, dµ), pois
Lp (M, dµ) é um espaço vetorial. Sem perda de generalidade, podemos tomar f ∈ Lp (M, dµ) também
(certo?). Ao mesmo tempo, (20.K.25) afirma que kf − fm k → 0 para m → ∞.
Assim, mostramos que a seqüência de Cauchy {fn } de Lp (M, dµ) possui um limite na norma k · kp
que é também elemento de Lp (M, dµ). Isso provou que Lp (M, dµ) é um espaço métrico completo na
norma de Lp (M, dµ), completando a demonstração.
Capı́tulo 21
Alguns Tópicos Especiais em Topologia e Análise
Conteúdo
21.1 Uma Coletânea de Definições . . . . . . . . . . . . . . . . . . . . . . . . . . 968
21.2 A Noção de Topologia Fraca . . . . . . . . . . . . . . . . . . . . . . . . . . . 974
21.3 A Topologia Produto de Espaços Topológicos . . . . . . . . . . . . . . . . 975
21.4 O Teorema da Categoria de Baire . . . . . . . . . . . . . . . . . . . . . . . 977
21.5 Aproximação de Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 978
21.5.1 Aproximação de Funções Contı́nuas por Polinômios . . . . . . . . . . . . . . . 978

presente capı́tulo, o qual está ainda bastante incompleto, contem uma miscelânea de assun-
tos relacionados a espaços topológicos e suas aplicações. São aqui coletadas várias definições
e resultados empregados alhures nestas Notas. Devida à natureza do capı́tulo as diferen-
tes seções não estão necessariamente ligadas entre si e sua leitura pode ser feita de modo
independente.

21.1 Uma Coletânea de Definições


Apresentamos nesta seção algumas definições importantes empregadas em vários lugares. Exemplos
ilustrativos simples são, quando possı́vel, apresentados ao final da seção.

• Conjuntos densos

Sejam X um conjunto não-vazio, τ uma topologia em X e F ⊂ X um conjunto fechado em relação


à topologia τ . Um conjunto R ⊂ F é dito ser denso em F (em relação à topologia τ ) se seu fecho 1 for
F : R = F . Evocando a Proposição 15.5, página 834, concluı́mos que R é denso em F se e somente
se todo aberto que possuir intersecção não-vazia com F possuir também intersecção não-vazia com A.
Como X é fechado, concluı́mos também que um conjunto R é denso em X se e somente se para todo
aberto não-vazio A ∈ τ valer A ∩ R 6= ∅.

• Conjuntos densos em parte alguma

Um conjunto S ⊂ X é dito ser denso em parte alguma (em relação à topologia τ ) se seu fecho não
contiver nenhum aberto de τ . Em outras palavras, S é denso em parte alguma se o interior de seu
0 0
fecho S for vazio2 . Em sı́mbolos, S é dito ser denso em parte alguma se S = ∅.
1
Por definição, o fecho de R de um conjunto R em um espaço topológico é o menor fechado que contem R. Vide
Capı́tulo 15.
2
Por definição, o interior de T 0 de um conjunto T em um espaço topológico é o maior aberto contido em T . Vide
Capı́tulo 15.

968
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 969/1195

Na topologia usual de o conjunto dos racionais não é denso em parte alguma pois = , que
 

obviamente possui um interior não vazio (( )0 = ). O mesmo vale para os irracionais. Os inteiros
 

formam um conjunto denso em parte alguma.

• Conjuntos densos em si mesmo

Um conjunto não-finito T é dito ser denso em si mesmo (em relação à topologia τ ) se tiver a seguinte
propriedade: para todo t ∈ T vale que todo τ -aberto A que contem t contem também pontos de T
distintos de t. Uma definição alternativa é dizer que T é denso em si mesmo se todo ponto de T for
um ponto de acumulação de T .
Pode surpreender o estudante saber que há em conjuntos fechados, densos em parte alguma e


densos em si mesmo (na topologia usual de ). Os exemplos mas proeminentes são os conjuntos de


Cantor tratados na Seção 17.2, página 859. Vide também adiante.

• Conjuntos perfeitos

Um sub-conjunto P de X é dito ser perfeito se for fechado e denso em si mesmo.

• Abertos densos

Sejam X um conjunto não-vazio e τ uma topologia em X. De particular interesse são os conjuntos


G ⊂ X que tem a propriedade de serem abertos e densos em X.
Se τ é uma topologia métrica em X e G ⊂ X é um aberto denso, então todo ponto de X que não
pertence a G (ou seja, todo ponto de X \ G) está arbitráriamente próximo de um ponto de G (pois
G é denso), mas nenhum ponto de G está arbitráriamente próximo de um ponto de X \ G (pois G é
aberto).
Exemplo 21.1 Seja X = 2 com a topologia métrica usual e seja L uma linha reta em 2 . Então,
 

G = 2 \ L é um aberto denso. Se L1 , . . . , Ln é uma coleção finita de retas em 2 , então G =


 

2
 \ (L1 ∪ . . . ∪ Ln ) é um aberto denso. ◊
Exemplo 21.2 Em X = , com a topologia métrica usual, nem o conjunto dos racionais nem o dos


irracionais é aberto denso (ambos são densos, mas não são abertos). ◊

A seguinte propriedade de conjuntos abertos densos pode ser facilmente estabelecida: se G 1 e G2


são abertos densos em X, então G1 ∩G2 é um aberto denso em X. Para provar, notemos primeiramente
que G1 ∩ G2 é um aberto (por ser intersecção de dois abertos). Em segundo lugar, se A é um aberto
não-vazio qualquer, tem-se que A ∩ (G1 ∩ G2 ) é não-vazio. Para ver isso, notemos que esse conjunto é
igual a (A ∩ G1 ) ∩ G2 , mas A ∩ G1 é aberto e não-vazio, por hipótese (G1 é suposto ser denso em X)
e, pela mesma razão, (A ∩ G1 ) ∩ G2 é igualmente aberto e não-vazio.
Por indução, pode-se sem dificuldade provar a seguinte generalização:
Proposição 21.1 Sejam X um conjunto não-vazio e τ uma topologia em X. Se G1 , . . . , Gn é uma
coleção finita de abertos densos em X, então a intersecção G 1 ∩ . . . ∩ Gn é um aberto denso em X. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 970/1195

A proposição acima diz-nos intuitivamente que conjuntos abertos e densos são conjuntos topologica-
mente “grandes” dentro de X. Essa idéia é a raı́z da noção de propriedade genérica, que apresentaremos
logo adiante.
Igualmente fácil de demonstrar é a seguinte proposição:
Proposição 21.2 Sejam X um conjunto não-vazio e τ uma topologia em X. Então, a coleção formada
pelos abertos densos em X e pelo conjunto vazio forma uma topologia em X. 2

Prova. X é um aberto denso, trivialmente. Uniões arbitrárias de abertos densos são também abertos e
densos, trivialmente. Por fim, pela Proposição 21.1, intersecções finitas de abertos e densos são abertos
e densos. 2

• Propriedades genéricas

Sejam X um conjunto não-vazio e τ uma topologia em X. Uma propriedade P é dita ser uma
propriedade genérica, ou válida genericamente, na topologia τ se for válida em um aberto denso em X.
Como, intuitivamente falando, abertos densos são subconjuntos topologicamente “grandes” de X,
uma propriedade genérica é uma propriedade válida em todo X, exceto em um conjunto topologica-
mente “pequeno”. Em situações em que se dispõe de uma topologia mas não de uma medida, a noção
de propriedade genérica substitui a noção de propriedade válida “quase em toda parte” em relação a
uma medida (ou seja, válida exceto em um conjunto de medida nula. Vide página 858).

E. 21.1 Exercı́cio-Exemplo. Seja Mat ( , n) a álgebra das matrizes complexas n × n com a topologia
métrica usual definida pela norma operatorial (vide Capı́tulo 4, página 210). Mostre que a propriedade de
uma matriz ter todos os seus autovalores distintos é válida genericamente. 6

Exemplo 21.3 Em , a propriedade de um número ser irracional não é válida genericamente em




relação à topologia métrica usual, mas é válida quase em toda parte em relação à medida de Lebesgue.
Já a propriedade de um número ser racional não é válida nem genericamente em relação à topologia
métrica usual, nem é válida quase em toda parte em relação à medida de Lebesgue. ◊

• Conjuntos desconexos

Um conjunto D ⊂ X é dito ser desconexo (em relação a τ ) se existirem dois abertos A 1 , A2 ∈ τ ,


com

1. D ∩ A1 6= ∅ e D ∩ A2 6= ∅,
2. (D ∩ A1 ) ∩ (D ∩ A2 ) = ∅,

3. D = (D ∩ A1 ) ∪ (D ∩ A2 ).

Se D é desconexo, dizemos que um par de abertos A1 , A2 que satisfazem as três condições acima
desconectam D.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 971/1195

• Conjuntos conexos

Um conjunto C ⊂ X é dito ser conexo (em relação a τ ) se não for desconexo.


O seguinte teorema é relevante nesse contexto.
Teorema 21.1 Seja X um conjunto e τ uma topologia em X. Sejam Ka e Kb dois conjuntos conexos
de X segundo τ e tais que Ka ∩ Kb 6= ∅. Então Kc := Ka ∪ Kb é também conexo segundo τ . 2

Prova. A prova é feita por contradição. Vamos assumir que Kc não seja conexo e sejam dois abertos
A1 , A2 satisfazendo

(a) (Kc ∩ A1 ) 6= ∅ e (Kc ∩ A2 ) 6= ∅,

(b) (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = ∅,

(c) Kc = (Kc ∩ A1 ) ∪ (Kc ∩ A2 ).

Assim3 ,
(c)
Kc = [(Ka ∪ Kb ) ∩ A1 ] ∪ [(Ka ∪ Kb ) ∩ A2 ]

= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∪ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )


   
= Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 ) . (21.1)

Ao mesmo tempo,
(b)
h i h i
∅ = (Kc ∩ A1 ) ∩ (Kc ∩ A2 ) = (Ka ∪ Kb ) ∩ A1 ∩ (Ka ∪ Kb ) ∩ A2
h i h i
= (Ka ∩ A1 ) ∪ (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )
 h i [ h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 ) (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A2 )

h i h i
= (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Ka ∩ A1 ) ∩ (Kb ∩ A2 )

[ h i h i
(Kb ∩ A1 ) ∩ (Ka ∩ A2 ) ∪ (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (21.2)

3
Advertência ao estudante: as próximas passagens e o restante da demonstração usam abundantemente as proprie-
dades distributivas de uniões e intersecções de conjuntos. Vide Proposição 1.1, página 24.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 972/1195

Notemos que se uma união B1 ∪ B2 ∪ B3 ∪ B4 é vazia, então cada Bj é vazio. De (21.2) concluı́mos,
então, que

∅ = (Ka ∩ A1 ) ∩ (Ka ∩ A2 ) (21.3)

∅ = (Ka ∩ A1 ) ∩ (Kb ∩ A2 ) (21.4)

∅ = (Kb ∩ A1 ) ∩ (Ka ∩ A2 ) (21.5)

∅ = (Kb ∩ A1 ) ∩ (Kb ∩ A2 ) (21.6)

Dessas relações, usaremos mais abaixo (21.3) e (21.6).


Voltemos agora a (21.1). Temos que

(21.1) \   
Ka = K a ∩ K c = Ka Ka ∩ (A1 ∪ A2 ) ∪ Kb ∩ (A1 ∪ A2 )

  [ 
= Ka ∩ (A1 ∪ A2 ) (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) . (21.7)

Como Ka ∩ Kb ⊂ Ka , temos que (Ka ∩ Kb ) ∩ (A1 ∪ A2 ) ⊂ Ka ∩ (A1 ∪ A2 ) e, assim, (21.7) se simplifica


para Ka = Ka ∩ (A1 ∪ A2 ). Disso concluı́mos que

Ka = (Ka ∩ A1 ) ∪ (Ka ∩ A2 ) . (21.8)

De maneira totalmente análoga prova-se que

Kb = (Kb ∩ A1 ) ∪ (Kb ∩ A2 ) . (21.9)

Analisemos agora as conclusões (21.3) e (21.8). Se ambos os conjuntos Ka ∩ A1 e Ka ∩ A2 forem


não-vazios, terı́amos que Ka é desconexo (basta lembrar a definição de conjunto desconexo, acima).
Logo, como Ka foi suposto ser conexo, pelo menos um dos dois deve ser vazio. Digamos, sem perda de
generalidade, que Ka ∩ A2 = ∅. Analogamente, por (21.6) e (21.9) concluı́-se que pelo menos um dos
conjuntos Kb ∩A1 e Kb ∩A2 deve ser vazio. Se também tivéssemos Kb ∩A2 = ∅, então (Ka ∪Kb )∩A2 = ∅,
ou seja Kc ∩ A2 = ∅, contrariando (a). Logo,

Ka ∩ A 2 = ∅ e K b ∩ A1 = ∅ .

De (21.8) segue que Ka = Ka ∩ A1 , o que significa que Ka ⊂ A1 . Sabemos, por hipótese, que Ka ∩ Kb
é não-vazio. Seja x ∈ Ka ∩ Kb . Como x ∈ Ka segue que x ∈ A1 . Mas isso contradiz Kb ∩ A1 = ∅,
pois x ∈ Kb . Chegamos assim a uma contradição que nos leva a concluir que Ka ∪ Kb é conexo se
Ka ∩ Kb 6= ∅.

• Componentes conexas

Seja como antes X um conjunto não-vazio com uma topologia τ .


É trivial constatar que cada conjunto {x} com x ∈ X, composto por um único elemento, é conexo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 973/1195

Se K ⊂ X podemos estabelecer uma relação de equivalência entre seus elementos da seguinte forma:
k, k 0 são equivalentes, k ∼ k 0 , se existir um subconjunto conexo de K que contem ambos. K se quebra,
assim, em uma união disjunta de classes de equivalência pela relação acima. Cada classe é dita ser uma
componente conexa de K.
Mostremos que o definido acima é, de fato, uma relação de equivalência em K. Que k ∼ k é
evidente. Que k ∼ k 0 implica k 0 ∼ k também é. Se k1 ∼ k2 e k2 ∼ k3 , sejam Ka ⊂ K e Kb ⊂ K
conexos tais que k1 , k2 ∈ Ka e k2 , k3 ∈ Kb . Então Kc = Ka ∪ Kb ⊂ K contem k1 e k3 (e também k2 )
e é conexo, pelo Teorema 21.1, página 971.

• Conjuntos totalmente desconexos

Um conjunto T ⊂ X é dito ser totalmente desconexo se todas as suas componentes conexas tiverem
apenas um ponto.

• Conjuntos de Cantor

Um conjunto que em uma topologia métrica seja 1) totalmente desconexo, 2) compacto e 3) perfeito
é dito ser um conjunto de Cantor.
Exemplos de conjuntos de Cantor encontram-se na Seção 17.2, página 859.

• Uns poucos exemplos

Mencionemos alguns exemplos ilustrativos. Seja X = e τ = τ , a topologia usual de . O





conjunto Q1 = [0, 1] ∩ , formado por todos é racionais do intervalo [0, 1], é denso em [0, 1]. Q1
é também denso em si mesmo e denso em parte alguma, mas não é perfeito (pois não é fechado). O
conjunto dos irracionais em [0, 1] é também denso em [0, 1], denso em si mesmo, denso em parte
alguma mas não é perfeito por não ser fechado. O conjunto {1/n, n ∈ , n ≥ 1} é denso em parte


alguma em [0, 1] e não é denso em si mesmo.

E. 21.2 Exercı́cio. Justifique as afirmações acima. 6

Seja com a topologia τ . O conjunto A = (a, b) ∩ (c, d) com a < b ≤ c < d é desconexo, mas



não totalmente desconexo. Suas componentes conexas são (a, b) e (c, d). Todo sub-conjunto finito de
 é totalmente desconexo.

E. 21.3 Exercı́cio. Justifique as afirmações acima. 6

O conjunto dos√racionais é desconexo


√ como subconjunto de com a topologia τ , pois com os



abertos A1 = (−∞, 2) e A2 = ( 2, ∞) teremos = ( ∩ A1 ) ∪ ( ∩ A2 ), sendo ambos ∩ A1


e ∩ A2 não-vazios e ( ∩ A1 ) ∩ ( ∩ A2 ) = ∅. Em verdade, podemos tomar A1 e A2 na forma
A1 = (−∞, x) e A2 = (x, ∞) para qualquer irracional x que o mesmo será válido.
O conjunto dos racionais é totalmente desconexo como subconjunto de  com a topologia τ ,


pois suas componentes conexas são do tipo {r} com r racional.

E. 21.4 Exercı́cio. Justifique as afirmações acima. 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 974/1195

E. 21.5 Exercı́cio. O conjunto irracionais é desconexo como subconjunto de  com a topologia τ ? É




totalmente desconexo? 6

E. 21.6 Exercı́cio. O conjunto 0 dos números algébricos é desconexo como subconjunto de  com a
topologia τ ? É totalmente desconexo?


E. 21.7 Exercı́cio. O conjunto dos números transcendentes é desconexo como subconjunto de  com a
topologia τ ? É totalmente desconexo?


21.2 A Noção de Topologia Fraca

• A Topologia Fraca de uma Coleção de Funções

Um papel muito importante em Análise Funcional e Álgebra de Operadores desempenham as cha-


madas topologias fracas, que descreveremos inicialmente em um contexto geral.
Dada uma função f : X → Y , onde X e Y são conjuntos dotados de topologias τX e τY , respectiva-
mente, sabemos que quanto maior (mais fina) a topologia τX mais chances f terá de ser contı́nua. Por
exemplo, no caso extremo em que τX = (X) a função f será certamente contı́nua. Fixada a topologia
τY é uma questão importante saber qual a menor topologia τX que faz de f uma função contı́nua.
Esta questão pode ser, entretanto, estudada de forma muito mais geral se, ao invés de considerarmos
uma única função, considerarmos uma coleção de funções de X em diversos espaços topológicos Y a e
nos perguntarmos qual a menor topologia em X que faz todas as funções da coleção serem contı́nuas.
O caso anterior de uma única função é claramente um caso particular desse e, em verdade, esse caso
mais geral é também mais relevante em aplicações.
Vamos às definições. Seja X um conjunto e Ya , a ∈ Λ, uma coleção de espaços topológicos com
topologias τYa , respectivamente, onde Λ é um conjunto arbitrário de ı́ndices. Seja também F uma
coleção de funções de X em algum Ya : F = {fa : X → Ya , a ∈ Λ}.
Denotamos por τ (X, F) a menor topologia em X tal que toda função de F é contı́nua. Mais
formalmente definimos τ (X, F) simplesmente como a intersecção da coleção de todas as topologias
para as quais todas as funções de F são contı́nuas. Que tal coleção de topologias é não-vazia mostra
o fato que na topologia (X) toda função de F sempre é contı́nua e, portanto, na pior das hipóteses
tem-se que τ (X, F) = (X).
Vamos aqui demonstrar alguns resultados básicos sobre a topologia τ (X, F). Tomaremos sempre
as topologias τYa como fixadas (mas é, por vezes, bom recordar que τ (X, F) depende na verdade das
τYa ).
Proposição 21.3 Seja D a coleção de todos os conjuntos de X que sejam a imagem inversa de alguma
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 975/1195

aberto de algum Ya pela função fa da coleção F:

D = {A ⊂ X, tal que A = fa−1 (Ua ), para algum aberto Ua de algum Ya e fa de F}.

Então, τ (X, F) = τ [D]. 2

Prova. Em primeiro lugar é claro que toda função de F é contı́nua na topologia τ [D] pois a imagem
inversa de qualquer aberto por uma função de F está (por definição) em D e, portanto, em τ [D]. Assim,
estabelecemos que τ (X, F) ⊂ τ [D], posto ser τ (X, F) a intersecção de todas as topologias onde todas
as funções de F são contı́nuas. Vamos mostrar que D ⊂ τ (X, F), o que implica que τ [D] ⊂ τ (X, F),
estabelecendo a igualdade τ (X, F) = τ [D]. A prova que D ⊂ τ (X, F) é feita por absurdo. Vamos
supor que exista um conjunto A na coleção D que não seja elemento da topologia fraca τ (X, F). Sejam
porém Ua aberto de Ya e fa função de F tais que A = fa−1 (Ua ). Como A 6∈ τ (X, F), a função fa não
é contı́nua na topologia fraca pois a imagem inversa do aberto Ua de Ya por fa não é um aberto nessa
topologia. Isso contradiz a definição da topologia fraca e, portanto, D ⊂ τ (X, F).

É útil também lembrar um resultado que provamos quando definimos o conceito de base de uma
topologia (página 823): a coleção DI formada por intersecções finitas de elementos de D, X e ∅ é uma
base de τ [D] e, portanto, da topologia fraca.
Exemplo. Para o leitor familiarizado com o conceito de operador limitado em um espaço de Hilbert
considere-se o seguinte exemplo. Seja X = B(H) a coleção de todos os operadores limitados em um
espaço de Hilbert H. Como sabemos X é um espaço de Banach com a norma operatorial kAk =
kAψk
sup . Essa norma define em B(H) uma topologia que é chamada de topologia uniforme (ou
ψ∈H, ψ6=0 kψk
usual) de B(H).
Seja Y = e seja a seguinte famı́lia de funções X → Y : E = {fx, y : X → Y, fx, y (A) =
(x, Ay), com x, y ∈ H}. Ou seja, E é a coleção de todas as funções que associam a cada operador
limitado A o número complexo (x, Ay) com vetores x, y ∈ H. Cada função é assim indexada por um
par de vetores x e y ∈ H.
Define-se a topologia operatorial fraca em B(H) como sendo a menor topologia para a qual toda
função de E é contı́nua. Esta topologia é mais fraca que a topologia uniforme. Trataremos com mais
detalhe dessa topologia (e de outras correlatas) adiante.

21.3 A Topologia Produto de Espaços Topológicos


Seja {X1 , . . . , Xn }Quma coleção finita de conjuntos e seja, para cada a ∈ {1, . . . , n}, τa uma topologia
em Xa . Seja X = na=1 Xa o produto cartesiano Q de todos os Xa , a ∈ In e seja B a coleção de todos
os subconjuntos de X que sejam da forma a∈In Aa onde Aa ∈ τa , ou seja, cada Aa é um aberto em
Xa segundo a topologia τa . Então a topologia gerada por B, τ [B] é chamada de topologia produto dos
espaços topológicos Xa , τa .
Q
No caso de produtos cartesianos arbitrários β∈Λ Xβ a idéia acima de tomar-se produtos de aber-
tos como geradores da topologia do espaço produto pode ser repetida, mas conduz a uma topologia
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 976/1195

(denominada em inglês “box product topology”) com poucas propriedades importantes. Muito mais
útil e importante é seguir a sugestão de Tychonov e considerar no espaço produto uma topologia, dita
topologia produto Qde Tychonov ou simplesmente topologia produto, definida da seguinte forma. Sejam
as projeções πα : β∈Λ Xβ → Xα definidas por
!
Y
πα xβ = xα ,
β∈Λ
Q S
ou, alternativamente, interpretando x ∈ β∈Λ Xβ como uma função de Λ em β∈Λ Xβ tal que x(α) ∈
Xα , então
πα (x) = x(α).
Então a topologia produto de Tychonov é definida como sendo a menor topologia para qual todas as
projeções πα , α ∈ Λ são contı́nuas, ou seja, é a topologia fraca gerada pela famı́lia de funções π α , α ∈ Λ.
Para o caso de produtos finitos não há distinção entre a “box product topology” e a topologia
produto de Tychonov. Para essa topologia produto de Tychonov vale entre outros o célebre e impor-
tantı́ssimo teorema de Tychonov: produtos cartesianos arbitrários de espaços topológicos compactos
são compactos.
Façamos mais clara a distinção entre a “box product topology” e a topologia produto de Tychonov.
{Xα , α ∈ Λ} uma coleção de conjuntos e seja, para cada α ∈ Λ, τα uma topologia em Xα . Seja
Seja Q
X = α∈Λ Xα o produto cartesiano
Q de todos os Xα , α ∈ Λ. Seja B a coleção de todos os subconjuntos
de X que sejam da forma α∈Λ Aα onde Aα ∈ τα , ou seja, cada Aα é um aberto em Q Xα segundo a
topologia τα . Seja B∞ ⊂ B coleção de todos os subconjuntos de X que sejam da forma α∈Λ Aα onde
Aα ∈ τα , e onde apenas para um número finito de fatores tenhamos Aα 6= Xα . Então a topologia
gerada por B, τ [B], é a chamada “box product topology” dos espaços topológicos X a , τa , enquanto que a
topologia gerada por B∞ , τ [B∞ ], é idêntica à topologia produto de Tychonov. É claro pelas definições
que τ [B∞ ] ⊂ τ [B].
Notemos que no caso de produtos finitos B∞ = B e, portanto, a “box product topology” e a
topologia produto de Tychonov coincidem.
Mostremos que a topologia produto de Tychonov é de fato τ [B∞ ]. Se Aα ∈ τα ,
Y
πα−1 (Aα ) = Sγ
γ∈Λ

onde Sα = Aα e Sγ = Xγ para γ 6= α. Seja D a coleção

D = {πα−1 (Aα ), Aα ∈ τα , α ∈ Λ}.

Conforme observamos na seção 21.2, página 974, a topologia gerada por D é a menor topologia na qual
todas as funções πα são contı́nuas. Assim, a topologia produto de Tychonov é idêntica a τ [D]. Sabemos
também de considerações gerais (vide página 822) que o conjunto DI formado por intersecções finitas
de elementos de D é uma base em τ [D] e Q que τ [D] = τ [DI ] (vide discussão à página 822). Ora, os
elementos de DI são produtos de abertos γ∈Λ Aγ onde apenas uma coleção finita de Aγ ’s difere de
Xγ (por que?), ou seja, DI = B∞ , provando que τ [D] = τ [DI ] = τ [B∞ ].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 977/1195

21.4 O Teorema da Categoria de Baire


Seja X um conjunto e τ uma topologia em X. Um conjunto C é dito ser denso em parte alguma na
topologia τ se seu fecho tiver interior vazio, ou seja, (C)0 = ∅.
Seja X um conjunto e τ uma topologia em X. X é dito ser de S primeira categoria se existir uma
famı́lia contável Nn , n ∈ , de subconjuntos de X tais que X = n∈ Nn e tais que todos os Nn são


densos em parte alguma.


X é dito ser de segunda categoria se não for de primeira categoria.
Teorema 21.2 (Teorema da Categoria de Baire para espaços métricos) Todo espaço S métrico
completo é de segunda categoria, ou seja, se M é um espaço métrico completo e M = n∈ Nn para 

alguma famı́lia contável de conjuntos Nn ⊂ M então existe pelo menos um Nm tal que (Nm )0 6= ∅. 2

Prova. Seja M um espaço métrico completo em relação a uma métrica d e seja Suma alguma famı́lia
contável de conjuntos Nn ⊂ M , todos densos em parte alguma e tais que M = n∈ Nn . A S prova é 

feita por contradição, exibindo-se um elemento x que pertence a M mas que não pertence a n∈ Nn . 

Façamos em primeiro lugar algumas observações básicas que serão usadas repetidamente no que
segue. Como os conjuntos Nn são densos em parte alguma, seus fechos Nn não podem ser iguais a
M , pois M é aberto. Logo os abertos (Nn )c = M \ Nn são todos não-vazios. Fora isso, para qualquer
bola aberta não-vazia B devemos ter também B ∩ (Nn )c 6= ∅, pois se tivéssemos B ∩ (Nn )c = ∅ isso
implicaria B ⊂ Nn , contrariando a hipótese que Nn interior vazio.

SComo dissemos, a estratégia da prova é exibir um elemento x que pertence a M mas que não pertence
a n∈ Nn . Esse elemento x será construı́do como limite de uma seqüência de Cauchy conveniente,


explorando o fato de M ser completo.


Passemos à construção da seqüência de Cauchy. Como (N1 )c 6= ∅, tomemos um elemento x1
arbitrário de (N1 )c . Como (N1 )c é aberto existe uma bola B1 (r1 , x1 ) centrada em x1 e de raio r1
suficientemente pequeno inteiramente contida em (N1 )c . É claro que B1 (r1 , x1 ) ∩ N1 = ∅ e que
x1 6∈ N1 .
Analogamente, como (N2 )c é aberto e não-vazio, tem-se que B1 (r1 , x1 ) ∩ (N2 )c 6= ∅. Escolhe-
mos então x2 ∈ B1 (r1 , x1 ) ∩ (N2 )c e tomemos uma bola B2 (r2 , x2 ) inteiramente contida no aberto
B1 (r1 , x1 ) ∩ (N2 )c . Sem perda, podemos escolher r2 satisfazendo r2 < r1 /2 e tal que B2 (r2 , x2 ) ⊂
B1 (r1 , x1 ). Note-se também que B2 (r2 , x2 ) ∩ N2 = ∅ e, como B2 (r2 , x2 ) ⊂ B1 (r1 , x1 ), vale também
que B2 (r2 , x2 ) ∩ N1 = ∅. Em resumo, B2 (r2 , x2 ) ∩ (N1 ∪ N2 ) = ∅. e x2 6∈ N1 ∪ N2 .
Podemos agora proceder indutivamente. Para n > 2, (Nn )c é aberto e não-vazio, tem-se que
Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c 6= ∅. Escolhemos então xn ∈ Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c e tomemos uma bola
Bn (rn , xn ) inteiramente contida no aberto Bn−1 (rn−1 , xn−1 ) ∩ (Nn )c . Sem perda, podemos escolher
rn satisfazendo rn < rn−1 /2 < 21−n r1 e tal que Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ). Note-se também que
Bn (rn , xn ) ∩ Nn = ∅ e, como Bn (rn , xn ) ⊂ Bn−1 (rn−1 , xn−1 ), vale também que Bn (rn , xn ) ∩ Nn−1 = ∅.
Em resumo, Bn (rn , xn ) ∩ (N1 ∪ · · · ∪ Nn ) = ∅. e xn 6∈ N1 ∪ · · · ∪ Nn .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 978/1195

A seqüência xn é uma seqüência de Cauchy pois (para m < n),


n−m−1
X
d(xm , xn ) ≤ d(xm+i , xm+i+1 )
i=0

pela desigualdade triangular (por que?) e como xn ∈ Bn−1 (rn−1 , xn−1 ), segue que d(xm+i , xm+i+1 ) ≤
rm+i < 21−m−i r1 . Logo,
n−m−1
X ∞
X
d(xm , xn ) ≤ 21−m−i r1 < 21−m r1 2−i = 22−m r1
i=0 i=0

que vai a zero quando m → ∞.


Como xn é uma seqüência de Cauchy e M é completo, existe x ∈ M ao qual a seqüência x n converge.
Fixando um J temos que todo xn com n ≥ J é elemento de BJ (rJ , xJ ). Logo, x ∈ BJ (rJ , xJ ) ⊂
BJ−1 (rJ−1 , xJ−1 ). Como BJ−1 (rJ−1 , xJ−1 ) ∩ NJ−1 = ∅ concluı́mos que x 6∈ N SJ−1 . No entanto, J é
arbitrário e, portanto,
S x não pertence a nenhum N n . Assim, x não pertence a n∈ Nn , contrariando


a hipótese que M = n∈ Nn .


21.5 Aproximação de Funções


Na Fı́sica muitas vezes estamos interessados em resolver problemas cuja solução não pode ser obtida
exatamente. No caso de equações diferenciais, por exemplo, são muito raras as situações nas quais uma
solução pode ser expressa em termos de funções “elementares”, tais como polinômios, exponenciais,
logaritmos, senos, co-senos ou combinações das mesmas. Na grande maioria dos casos apresentam-
se métodos de solução em termos de aproximações que, sob hipóteses adequadas, podem estar tão
próximas quanto se queira da solução correta. É, portanto, uma questão importante desenvolver
métodos de aproximar funções com certas propriedades e é disso, basicamente, que trataremos neste
capı́tulo. Não pretendemos aqui esgotar o assunto, o que ademais seria impossı́vel, dada a sua extensão,
mas tratar de dois tipos fundamentais de aproximações de funções: as aproximações por polinômios e
as aproximações por polinômios trigonométricos. Este último tópico é o domı́nio das chamadas séries
de Fourier e suporemos que o leitor já possua alguma familiaridade com seus aspectos mais elementares
e suas aplicações. Como veremos, aproximações por polinômios e por polinômios trigonométricos são
dois assuntos relacionados. Ambos os métodos de aproximação estão também na raiz de muitos outros
desenvolvimentos, como na teoria dos espaços de Hilbert e mesmo em temas mais abstratos, como na
álgebra de operadores. Sua aplicação prática é enorme e ambos os assuntos têm dominado boa parte
das aplicações da Matemática à problemas de Fı́sica e de Engenharia desde o século XVIII.

21.5.1 Aproximação de Funções Contı́nuas por Polinômios

• O Teorema de Weierstrass
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 979/1195

Um dos teoremas fundamentais da Análise é o chamado Teorema de Weierstrass4 que afirma que
toda função contı́nua definida em um intervalo fechado finito [a, b] da reta real pode ser uniformemente
aproximada nesse intervalo por polinômios, ou seja, para todo  > 0 podemos encontrar um polinômio
p tal que |p (x) − f (x)| ≤  para todo x ∈ [a, b]. Nestas Notas, fazemos uso desse importante teorema
em diversas ocasiões. Para futura referência enunciamos o teorema da seguinte forma:
Teorema 21.3 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado finito [a, b] ⊂ . Então, f pode ser aproximada uniformemente por polinômios nesse


intervalo, ou seja, para todo  > 0 existe um polinômio p tal que kp − f k∞ = sup |p (x) − f (x)| ≤ .
x∈[a, b]
2

Há inúmeras demonstrações do Teorema 21.3 na literatura. Vide, por exemplo, [132] para uma
prova usando os chamados polinômios de Bernstein5 , dados, para uma função contı́nua f , definida no
intervalo [0, 1], por
Xn  
n p
pn (x) := f (p/n) x (1 − x)n−p .
p=0
p

O texto [73] apresenta diversas demonstrações do Teorema 21.3, inclusive a interessantı́ssima demons-
tração original de Weierstrass, a qual faz uso de propriedades do chamado núcleo de calor (a saber, a
propriedade que o núcleo de calor forma uma seqüência delta de Dirac). Também muito interessante é
a demonstração encontrada em [42], talvez a mais elementar, e que aparentemente é devida a Lebesgue.
No que segue iremos provar uma forma mais forte do Teorema de Weierstrass, a saber:
Teorema 21.4 (Teorema de Weierstrass) Seja f uma função real ou complexa, contı́nua em um
intervalo fechado [a, b] ⊂ e tal que suas k primeiras derivadas existam e sejam contı́nuas nesse inter-


valo. Então, f pode ser aproximada uniformemente por polinômios nesse intervalo e suas k primeiras
derivadas podem ser aproximadas uniformemente
pelas derivadas desses polinômios, ou seja, para todo
 > 0 existe um polinômio p tal que p(l)
 − f (l)

= sup |p (l)
 (x) − f (l) (x)| ≤  para todo 0 ≤ l ≤ k.
x∈[a, b]
2

Como o leitor pode perceber essa generalização afirma que não apenas é possı́vel aproximar uni-
formemente funções contı́nuas em intervalos compactos por polinômios mas, no caso de a função ser k
vezes diferenciável, é possivel encontrar aproximantes polinomiais cujas k primeiras derivadas também
aproximam uniformemente as respectivas derivadas da função a ser aproximada.
Adiante, apresentaremos uma prova do teorema mais geral, Teorema 21.4. Seguiremos muito pro-
ximamente a demonstração apresentada em [25] mas, para a facilidade do estudante, acrescentaremos
alguns detalhes6 . Antes de iniciarmos a prova do Teorema 21.4 precisamos fazer um comentário sobre
um fato que usaremos.
4
Karl Theodor Wilhelm Weierstrass (1815-1897). O Teorema de Weierstrass data de 1885. A referência original pode
ser encontrada em [25].
5
Sergi Natanovich Bernstein (1880-1968). Berstein introduziu os polinômios que levam seu nome em trabalho de 1911
sobre o Teorema de Weierstrass e interpolações polinomiais.
6
Nossa prova é também ligeiramente mais precisa que a de [25], pois lá o parâmetro δ (vide abaixo) é tomado na
forma 0 < δ < 1 mas, para evitar problemas em certos limites de integração, o correto é tomá-lo como faremos adiante.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 980/1195

• Certas extensões contı́nuas de funções

Seja f uma função contı́nua definida em um intervalo fechado limitado [a, b] assumindo valores
reais ou complexos e que tenha suas k primeiras derivadas igualmente contı́nuas nesse intervalo. Seja
um intervalo fechado limitado [α, β] que contem [a, b] no seu interior, ou seja, com −∞ < α < a <
b < β < ∞. Então, existe pelo menos uma função f˜ definida em [α, β] com as seguintes propriedades:

1. f˜ coincide com f no intervalo [a, b].

2. f˜ e suas k primeiras derivadas são contı́nuas em [α, β].

3. f˜ e suas k primeiras derivadas anulam-se nos extremos α e β do intervalo [α, β].

A função f˜ é, assim, uma extensão de contı́nua de f ao intervalo [α, β] cujas k primeiras derivadas
são extensões contı́nuas das respectivas k primeiras derivadas de f ao intervalo [α, β]. Além disso, f˜
e suas k primeiras derivadas anulam-se nos extremos do intervalo [α, β] em que estão definidas.
Há infinitas funções f˜ com tais propriedades. Uma maneira de construir uma tal função é escolhê-la
de modo que seja idêntica a f no intervalo [a, b], seja infinitamente diferenciável nos intervalos [α, a)
e (b, β] mas de modo que limx→a f˜(l) (x) = f (l) (a) no intervalo [α, a) e limx→b f˜(l) (x) = f (l) (b) no
intervalo (b, β], para todo 0 ≤ l ≤ k.
Exemplo 21.4 Uma possı́vel escolha de uma função f˜ com as propriedades acima é a seguinte:


 f (x) , a≤x≤b



 !
 X
 k

 f (k)
(a)
 (x − a)l Fα, a (x) , α≤x<a
˜
f (x) = l! ,
l=0



 !

 k

 X f (k)
(b)

 l
(x − b) (1 − Fb, β (x)) , b < x ≤ β
 l!
l=0

onde, para u < v, a função Fu, v : [u, v] → [0, 1] é definida por


Z x  
1 1 1
Fu, v (x) := exp − − dy , u ≤ x ≤ v,
Nu, v u (y − u)2 (y − v)2

Nu, v sendo a constante de normalização


Z v  
1 1
Nu, v := exp − 2
− dy .
u (y − u) (y − v)2

Essa função Fu, v é contı́nua, estritamente crescente, infinitamente diferenciável no intervalo u < x < v
e satisfaz

lim Fu, v (x) = 0, lim Fu, v (x) = 1, e lim Fu,(l)v (x) = lim Fu,(l)v (x) = 0, ∀l≥1.
x→u x→v x→u x→v
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 981/1195

Com isso, é fácil ver que f˜ satisfaz as propriedades requeridas: é contı́nua e k-vezes diferenciável em
[α, β] e satisfaz
f˜(α) = 0 = f˜(β) , f˜(l) (α) = 0 = f˜(l) (β) , ∀ l ≥ 1 ,
(21.10)
f˜(l) (a) = f (l) (a) e f˜(l) (b) = f (l) (b) , ∀0≤l≤k ,
além de, obviamente, ser uma extensão de f . ◊

E. 21.8 Exercı́cio. Verifique as afirmações feitas acima. 6

Para o que segue, a forma especı́fica de f˜, como aquela do exemplo acima, não será relevante, apenas
suas propriedades.

• Prova do Teorema de Weierstrass

Daqui por diante, consideraremos sem perda de generalidade que [a, b] ⊂ (0, 1), ou seja, tomamos
0 < a ≤ b < 1, e consideraremos f˜ uma extensão de f a todo o intervalo [0, 1] com as propriedades
acima (adotando α = 0 e β = 1). Com uma tal função podemos definir os polinômios
Z 1
1  n
pn (x) := f˜(u) 1 − (u − x)2 du (21.11)
2Dn (0) 0
com x ∈ [0, 1], onde, para γ ∈ [0, 1], definimos
Z 1  n
Dn (γ) := 1 − v2 dv .
γ

Os pn são claramente polinômios de grau menor ou igual a 2n. Como veremos, esses polinômios são
aqueles que aproximam f com as propriedades requeridas. Para mostrar isso, fixemos x ∈ [a, b] e
comecemos observando que

Z 1 Z 1−x
1  n v=u−x 1  n
pn (x) = f˜(u) 1 − (u − x)2 du = f˜(v + x) 1 − v 2 dv
2Dn (0) 0 2Dn (0) −x

= A1 + A2 + A3 ,
com
Z −δ Z δ
1  n 1  n
A1 := f˜(v + x) 1 − v 2 dv, A2 := f˜(v + x) 1 − v 2 dv ,
2Dn (0) −x 2Dn (0) −δ
(21.12)
Z 1−x
1  n
A3 := f˜(v + x) 1 − v 2 dv ,
2Dn (0) δ

onde δ satisfaz 0 < δ < min{a, 1 − b} e será convenientemente fixado mais adiante 7 . Vamos tratar de
estimar cada uma das três expressões Aj acima. Como f˜ é contı́nua no intervalo [0, 1], seu módulo
7
Como 0 < δ < min{a, 1 − b} e x ∈ [a, b], segue que −δ > −x e δ < 1 − x. Assim, os três intervalos de integração em
(21.12) são crescentes.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 982/1195



assume um valor máximo, que denotaremos por F , ou seja, em sı́mbolos, F := sup f˜(x) . Com isso
x∈[0, 1]
podemos escrever que

Z 1−x Z 1−x
1  n F  n
|A3 | ≤ |f˜(v + x)| 1 − v 2 dv ≤ 1 − v 2 dv
2Dn (0) δ 2Dn (0) δ

Z 1
F  n Dn (δ)
≤ 1 − v 2 dv = F , (21.13)
2Dn (0) δ 2Dn (0)

onde, na última desigualdade, usamos que 1 − x ≤ 1. De forma totalmente análoga, prova-se que vale
também
Dn (δ)
|A1 | ≤ F . (21.14)
2Dn (0)
O termo A2 pode ser manipulado da seguinte forma. Usando a identidade
Rδ Rδ n
2 n [1 − v 2 ] dv + 2Dn (δ)
Dn (0) 0
[1 − v ] dv + D n (δ) −δ
1 = = = ,
Dn (0) Dn (0) 2Dn (0)
escrevemos
Z δ
1  n
A2 := f˜(x) − f˜(x) × 1 + f˜(v + x) 1 − v 2 dv
2Dn (0) −δ

Z δ  
Dn (δ) 1 n
= f˜(x) − f˜(x) + f˜(v + x) − f˜(x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ

De (21.13), (21.14) e (21.15) extraı́mos, assim, que para x ∈ [a, b],


Z δ
˜ F Dn (δ) ˜ Dn (δ) 1 ˜

n
|pn (x) − f (x)| ≤ + f (x) + f (v + x) − f˜(x) 1 − v 2 dv .
Dn (0) Dn (0) 2Dn (0) −δ

˜ ˜
Como x ∈ [a, b], podemos substituir f por f no lado esquerdo. Fora isso, f (x) ≤ F e, assim,
chegamos a
Z δ 
Dn (δ) 1 ˜ n
|pn (x) − f (x)| ≤ 2F + ˜
f (v + x) − f (x) 1 − v 2 dv .
Dn (0) 2Dn (0) −δ

Observemos neste ponto que uma função que seja contı́nua em um intervalo compacto, como f˜, é
uniformemente contı́nua nesse intervalo. Assim, para cada
 > 0 dado podemos encontrar um δ > 0,

pequeno o suficiente e independente de x de forma que f (v + x) − f˜(x) <  desde que |v| < δ. Temos,
˜
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 983/1195

portanto,
Z δ
Dn (δ)   n
|pn (x) − f (x)| ≤ 2F + 1 − v 2 dv
Dn (0) 2Dn (0) −δ

Z δ
Dn (δ)   n
= 2F + 1 − v2 dv
Dn (0) Dn (0) 0

Dn (δ) 
= 2F + (Dn (0) − Dn (δ))
Dn (0) Dn (0)

Dn (δ)
= (2F − ) +
Dn (0)

Dn (δ)
≤ 2F +.
Dn (0)

Para fechar a demonstração dessa parte, precisamos agora mostrar que para qualquer δ fixo com
0 < δ ≤ 1 a razão Dn (δ)/Dn (0) pode ser feita tão pequena quanto se queira, fazendo-se n crescer.
Como em [25], notamos que para v ∈ [0, 1] vale v 2 < v. Assim,
Z 1 Z 1
2 n 1
Dn (0) = (1 − v ) dv ≥ (1 − v)n dv = ,
0 0 n+1
calculando explicitamente a última integral. Paralelamente,
Z 1 Z 1
2 n 2 n
Dn (0) = (1 − v ) dv ≤ (1 − δ ) dv = (1 − δ 2 )n (1 − δ) ≤ (1 − δ 2 )n
δ δ

e, portanto,
Dn (δ)
≤ (n + 1)(1 − δ 2 )n .
Dn (0)
Como 0 < 1 − δ 2 < 1, o limite para n → ∞ do lado direito, acima, é zero. Assim, concluı́mos que para
n grande o suficiente, independente de x, tem-se |pn (x) − f (x)| ≤ 2. Isso estabelece que a seqüência
de polinômios pn converge uniformemente a f no intervalo [a, b]. Com isso provou-se o Teorema 21.3.
(l)
Vamos provar agora que para cada l com 1 ≤ l ≤ k as derivadas pn também convergem uniforme-
mente às derivadas f (l) quando n → ∞. Notemos que, pela definição de pn ,
Z 1
1 ∂l  n
(l)
pn (x) = f˜(u) l 1 − (u − x)2 du .
2Dn (0) 0 ∂x
n
Agora, devido ao fato de a função [1 − (u − x)2 ] ser simétrica pela troca u ↔ x, vale

∂l  
2 n l ∂
l  n
l
1 − (u − x) = (−1) l
1 − (u − x)2 .
∂x ∂u
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 21 984/1195

Assim,
Z 1
(−1)l ∂l  n
p(l)
n (x) = f˜(u) l 1 − (u − x)2 du
2Dn (0) 0 ∂u
Z
∂ l−1  n u=1 (−1)l−1 1 (1) ∂ l−1  n
int. por partes
= ˜
l
(−1) f (u) l−1 1 − (u − x) 2 + ˜
f (u) l−1 1 − (u − x)2 du .
∂u u=0 2Dn (0) 0 ∂u
| {z }
= 0 , pois f˜(0)=f˜(1)=0

Repetindo-se l vezes o processo de integração por partes e usando o fato que f˜ e suas derivadas anulam-
se em 0 e em 1, por construção, obtemos,
Z 1
1  n
(l)
pn (x) = f˜(l) (u) 1 − (u − x)2 du .
2Dn (0) 0

Já vimos, porém, que essa igualdade implica que pn converge uniformemente a f˜(l) no intervalo [a, b]
(l)

para n → ∞. Isso completa a prova do Teorema de Weierstrass, Teorema 21.4.


Parte VI

Análise Funcional

985
Capı́tulo 22
Noções Básicas Sobre Espaços de Hilbert
Conteúdo
22.1 Aspectos Topológicos Básicos de Espaços de Hilbert . . . . . . . . . . . . 986
22.2 Aspectos Geométricos Básicos de Espaços de Hilbert . . . . . . . . . . . . 988
22.2.1 Bases Ortonormais Completas em Espaços de Hilbert . . . . . . . . . . . . . 993
22.3 Funcionais Lineares e o Dual Topológico de um Espaço de Hilbert . . . . 1007
22.3.1 O Teorema da Representação de Riesz . . . . . . . . . . . . . . . . . . . . . . 1008

m espaço vetorial H sobre o corpo dos complexos e dotado de um produto escalar u, v ∈


H 7→ hu, vi ∈ é dito ser um espaço de Hilbert1 se for completo em relação à métrica d
definida por esse produto escalar:
p
d(u, v) = ku − vk = hu − v, u − vi, u, v ∈ H. (22.1)
Advertimos o estudante que dentre as propriedades definidoras de espaços de Hilbert destaca-se não
apenas a existência de um produto escalar, mas também a propriedade de completeza, sem a qual
muitas propriedades geométricas não seriam válidas. Vide adiante.
Espaços de Hilbert desempenham um papel fundamental em toda a Fı́sica Quântica2 e em várias
áreas da Matemática. Exemplos de espaços de Hilbert são os espaços de dimensão finita n , o espaço
`2 , das seqüências de quadrado somável, estudado na Seção 13.4.1, página 750, e os espaços L 2 (M, dµ),
das funções de quadrado integrável em relação a uma medida µ definida em um espaço mensurável M .
Esses espaços foram estudados na Seção 20.4, página 938.
Sobre a origem da noção abstrata de Espaço de Hilbert, vide nota histórica à página 749. As noções
de espaços de Banach e de Hilbert foram introduzidas nestas Notas na Seção 13.4, página 748.
Para a leitura deste capı́tulo uma certa familiaridade com a noção de produto escalar e de norma é
necessária, assim como é necessário conhecer a desigualdade de Cauchy-Schwarz. O conceito de produto
escalar foi apresentado na Seção 2.2.3, página 116, a desigualdade de Cauchy-Schwarz foi demonstrada
no Teorema 2.6, página 113 e o conceito de norma foi introduzido na Seção 2.3, página 120.

22.1 Aspectos Topológicos Básicos de Espaços de Hilbert


Por sua definição, um espaço de Hilbert H é um espaço métrico com a métrica dada em (22.1) e,
portanto, existe uma topologia métrica naturalmente definida em H. É a essa topologia a que normal-
mente nos referiremos quando falarmos de convergência de seqüências e de continuidade de funções em
H.
1
David Hilbert (1862-1943).
2
Há um dito corrente (e anônimo) que a Mecânica Quântica é uma agradável introdução ao estudo dos espaços de
Hilbert...

986
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 987/1195

Assim, dizemos que uma seqüência {xn }n∈ de vetores de um espaço de Hilbert H converge a um


vetor x de H se para todo  > 0 existir N () ∈ tal que kx − xi k ≤  para todo i ≥ N (). Em outras


palavras, x = limn→∞ xn se e somente se limi→∞ kx − xi k = 0.


O estudante deve ser advertido que outras há outras topologias de interesse no estudo dos espaços
de Hilbert, como a topologia fraca induzida pelos produtos escalares. No estudo introdutório que
pretendemos nesse capı́tulo tais topologias não serão consideradas.

• Conjuntos fechados em espaços de Hilbert

Muito freqüentemente estaremos estudando o fecho de subconjuntos de um espaço de Hilbert e H


propriedades de conjuntos fechados em um espaço de Hilbert H e vale a pena lembrar nesse contexto
as seguintes caracterizações de tais conceitos, válidas em espaços métricos gerais (vide página 835),
caracterizações estas das quais faremos freqüente uso no que segue:

1. O fecho C de um subconjunto C de um espaço de Hilbert H é o conjunto de todos os vetores de


H que são pontos limite de seqüências convergentes formada por elementos de C.

2. Um subconjunto F de um espaço de Hilbert H é fechado se toda seqüência convergente formada


por elementos de F convergir em H a um vetor que também é elemento de F .

• O fecho de um subespaço linear é também um subespaço linear

Vamos ilustrar os conceitos acima mostrando um simples resultado do qual faremos uso adiante.
Seja E um subespaço de um espaço de Hilbert H. Vamos mostrar que seu fecho E é também um
sub-espaço de H. Para isso devemos mostrar que se x, y ∈ E, então qualquer vetor de H que seja
da forma z = αx + βy, com α, β ∈ , é também elemento de E. Se x e y ∈ E, então existem duas
seqüências xi e yi , i ∈ , de vetores de E tais que xi → x e yi → y. Como E é um subespaço, todos


os vetores zi = αxi + βyi são também elementos de E. É fácil, porém, mostrar que zi → z. De fato

kz − zi k = k(αx + βy) − (αxi + βyi )k = kα(x − xi ) + β(y − yi )k ≤ |α|kx − xi k + |β|ky − yi k.

Agora, por hipótese, tanto kx − xi k quanto ky − yi k vão a zero quando i → ∞, mostrando que zi → z.
Isso mostra, então, que elementos como z são pontos limite de seqüências de elementos de E (no caso
{zi }i∈ ) e, portanto, pertencem também ao fecho de E que é, portanto, um subespaço de H.


• Uma propriedade da norma

Se a e b são dois vetores de um espaço vetorial normado V (como um espaço de Hilbert, por
exemplo), então vale que

ka − bk − kbk ≤ kak . (22.2)

Para mostrar isso, notemos que a relação ka − bk ≤ kak + kbk implica

kak ≥ ka − bk − kbk.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 988/1195

Com a substituição b → a − b, tiramos também que

kak ≥ kbk − ka − bk.

As duas desigualdades dizem que kak ≥ | ka − bk − kbk |, como querı́amos provar.

• Continuidade da norma e do produto escalar

De acordo com a definição de continuidade de funções entre espaços métricos (vide discussão à
página 892) uma função f : H → , de um espaço de Hilbert H nos números complexos é contı́nua
se para toda seqüência convergente de vetores {xi }i∈ a seqüência de números {f (xi )}i∈ for também
 

convergente e  
lim f (xn ) = f lim xn .
n→∞ n→∞

Um exemplo banal de uma tal função contı́nua é a norma f (x) = kxk. De fato, se xn → x,
isso significa que kxi − xk → 0. Logo |f (x) − f (xi )| = |kxk − kxi k|. Mas, pela desigualdade (22.2),
tomando-se a = x − xi e b = −xi , concluı́mos

|f (x) − f (xi )| ≤ kx − xi k,

como o lado direito vai a zero quando i → ∞. concluı́mos que


 

lim f (xn ) = f lim xn = f (x), ou seja, lim kxn k = lim xn = kxk ,
n→∞ n→∞ n→∞ n→∞

demonstrando a continuidade da norma.


Há um outro exemplo igualmente banal, mas importante. Seja φ ∈ H um vetor fixo e seja a função
f : H → dada por
f (x) = hφ, xi.
Que f é contı́nua pode ser demonstrado com uso da desigualdade de Cauchy-Schwarz (Teorema 2.6,
página 113), que diz que se xn → x, então

|f (x) − f (xi )| = |hφ, (x − xi )i| ≤ kφk kx − xi k

e o lado direito vai a zero quando i → ∞, demonstrando a continuidade. Analogamente, fixando-se


φ ∈ H, a função f (x) = hx, φi é contı́nua.

22.2 Aspectos Geométricos Básicos de Espaços de Hilbert

• Conjuntos convexos

Seja V um espaço de vetorial (sobre os reais ou complexos). Uma combinação linear de dois vetores
x e y ∈ V que seja do tipo λx + (1 − λ)y com λ ∈ [0, 1] é dita ser uma combinação linear convexa de
x e y. Um conjunto A ⊂ V é dito ser um conjunto convexo se para todo x, y ∈ A e todo λ ∈ [0, 1] o
vetor λx + (1 − λ)y também for elemento de A.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 989/1195

Note-se que qualquer subespaço de V é também um conjunto convexo.

• Teorema do melhor aproximante

O seguinte teorema é de importância fundamental na teoria dos espaços de Hilbert.


Teorema 22.1 Seja A um sub-conjunto convexo e fechado de um espaço de Hilbert H. Então, para
todo x ∈ H existe um vetor y ∈ A tal que a distância kx − yk entre x e y é igual a mı́nima distância
possı́vel entre x e A, ou seja,
kx − yk = inf 0
kx − y 0 k.
y ∈A

Fora isso esse vetor y é o único vetor em A com essa propriedade. 2

Prova. A idéia da demonstração é construir um vetor y com a propriedade mencionada a partir de


uma seqüência de Cauchy de vetores de A, mostrar que essa seqüência converge a um vetor de A,
mostrar que esse vetor satisfaz a propriedade de mı́nima distância mencionada e, por fim, mostrar sua
unicidade.
Seja D ≥ 0 definida como
D = inf
0
kx − y 0 k.
y ∈A

Seja, para cada n ∈  um vetor yn ∈ A com a propriedade que


1
kx − yn k2 < D 2 + .
n
Notemos que tais vetores sempre existem. Se tal não fosse o caso, ou seja, se para algum n, digamos
n0 , não existisse vetor nenhum y 0 em A tal que kx − y 0 k2 < D 2 + n10 , isso significaria que para todo
y 0 ∈ A valeria que kx − y 0 k2 ≥ D 2 + n10 . Mas isso contraria a definição de D como o ı́nfimo de kx − y 0 k,
y 0 ∈ A.
Vamos agora provar que toda seqüência yn como acima é uma seqüência de Cauchy em H. Para
tal, usaremos a identidade do paralelogramo (vide página 124) e o fato de A ser convexo.
A identidade do paralelogramo diz que para todos a, b ∈ H tem-se que
ka + bk2 + ka − bk2 = 2kak2 + 2kbk2 . (22.3)
Adotemos, então, a = x − yn e b = x − ym . Teremos que
k2x − (ym + yn )k2 + kym − yn k2 = 2kx − yn k2 + 2kx − ym k2 .
Isso pode ser reescrito (verifique) como
2
y m + y n
kym − yn k = 2kx − yn k + 2kx − ym k − 4
2 2
x −
2 .

2
1
Usando agora o fato que kx − yn k2 < D 2 + para todo n , ficamos com
n
  2
1 1 y + y
− 4 .
2 2 m n
kym − yn k ≤ 4D + 2 + x −
n m 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 990/1195

Notemos agora também que ym +y2


n
∈ A pois o lado esquerdo é uma combinação linear convexa de
elementos de A e A é um conjunto convexo. Assim, pela definição de D,
2

x − ym + y n ≥ D 2 .
2

Portanto, temos que


   
2 2 1 1 2 1 1
kym − yn k ≤ 4D + 2 + − 4D = 2 + .
n m n m

O lado direito pode ser feito arbitrariamente pequeno, tomando-se m e n ambos grandes o suficiente.
Ora, isso diz-nos precisamente que {yn }n∈ é uma seqüência de Cauchy.


Com essa informação. e lembrando que H é um espaço métrico completo, segue que y n converge a
um elemento y ∈ H. Na verdade podemos dizer também que y ∈ A, pois fizemos a hipótese que A é
fechado (lembre-se da caracterização de conjuntos fechados em espaços métricos da página 835).
Uma vez encontrado esse y ∈ A, vamos mostrar que kx − yk = D. De fato, para todo n vale que
r
1
kx − yk = k(x − yn ) − (y − yn )k ≤ kx − yn k + ky − yn k ≤ D 2 + + ky − yn k.
n
Tomando-se n → ∞, e usando o fato que yn converge a y, concluı́mos que kx − yk ≤ D (verifique). Por
outro lado, é evidente pela definição de D que kx − yk ≥ D, pois y ∈ A. Daı́, segue que kx − yk = D,
como querı́amos provar.
Resta-nos demonstrar que esse y é o único elemento de A com essa propriedade. Para tal, vamos
supor que haja outro y 0 ∈ A com kx − y 0 k = D e usemos novamente a identidade do paralelogramo
(22.3), mas agora com a = x − y e b = x − y 0 . Teremos que

k2x − (y + y 0 )k2 + ky − y 0 k2 = 2kx − yk2 + 2kx − y 0 k2 = 4D 2 ,

ou seja, 2
y + y0
0 2 2 0
ky − y k = 4D − k2x − (y + y )k = 4D − 4 x − 2 . 2
2
y+y 0
Como 2
∈ A, por ser uma combinação linear convexa, segue que

0 2
y + y
x − ≥ D2
2
e, portanto,
ky − y 0 k2 ≤ 0
o que só é possı́vel se y = y 0 .

• Complementos ortogonais
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 991/1195

Se E e um subconjunto de um espaço de Hilbert H, define-se seu complemento ortogonal E ⊥ como


o conjunto de todos os vetores de H que são ortogonais a todos os vetores de E:

E ⊥ = {y ∈ H| hy, xi = 0 para todo x ∈ E} .

Temos a seguinte proposição:


Proposição 22.1 O complemento ortogonal E ⊥ de um subconjunto E de H é um sub-espaço linear
fechado de H. 2

Prova. Que E ⊥ é um subespaço é fácil de se verificar pois se x, y ∈ E ⊥ , então, para quaisquer α, β ∈ ,

hαx + βy, zi = αhx, zi + βhy, zi = 0

para todo z ∈ E, o que mostra que αx + βy ∈ E ⊥ . Que E ⊥ é um conjunto fechado segue do seguinte
argumento. Se xn é uma seqüência de elementos de E ⊥ que converge a um x ∈ H, então, para todo
z ∈ E vale D E
hx, zi = lim xn , z = lim hxn , zi = 0 (22.4)
n→∞ n→∞

pois hxn , zi = 0 para todo n, já que xn ∈ E ⊥ . Isso prova que x ∈ E ⊥ , que é assim, fechado. Na
penúltima igualdade em (22.4) usamos a continuidade do produto escalar.

Faremos adiante uso do seguinte lema:


Lema 22.1 Se A e B são dois conjuntos de um espaço de Hilbert H e A ⊂ B, então, B ⊥ ⊂ A⊥ . 2

Prova. Por definição, se y ∈ B ⊥ , y é ortogonal a todo elemento de B. Como A é subconjunto de B, y


é também ortogonal a todo elemento de A, ou seja, y ∈ A⊥ .

• Teorema da decomposição ortogonal

O teorema do melhor aproximante que apresentamos acima tem uma conseqüência importante.
Como todo sub-espaço linear de um espaço de Hilbert é convexo, segue que sub-espaços lineares fechados
satisfazem as hipóteses do teorema. Assim, se M é um sub-espaço linear fechado de um espaço de Hilbert
H vale para todo x ∈ H que existe um y ∈ M único tal que

kx − yk = inf
0
kx − y 0 k.
y ∈M

Usaremos esse fato para demonstrar o seguinte teorema, de importância central na teoria dos espaços
de Hilbert:
Teorema 22.2 (Teorema da Decomposição Ortogonal) Seja M um sub-espaço linear fechado de
um espaço de Hilbert H. Então, todo x ∈ H pode ser escrito de maneira única na forma x = y + z,
com y ∈ M e z ∈ M⊥ . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 992/1195

Prova. Vamos escolher y como o elemento de M tal que kx − yk = inf y0 ∈M kx − y 0 k, cuja existência foi
garantida pelo Teorema 22.1, página 989. Se definirmos z = x − y tudo que nos restaria fazer é provar
que z ∈ M⊥ e que tais y e z são únicos. Vamos provar primeiro que z ∈ M⊥ , o que equivale a provar
que hz, y 0 i = 0 para todo y 0 ∈ M. Isso é feito indiretamente, observando primeiro que, pela definição
de y, vale que
kx − yk2 ≤ kx − y − λy 0 k2
para todo λ ∈ e todo y 0 ∈ M, já que y + λy 0 ∈ M, pois M é um subespaço. Essa última relação diz,
pela definição de z, que
kzk2 ≤ kz − λy 0 k2
para todo λ ∈ . Escrevendo o lado direito como hz − λy 0 , z − λy 0 i e expandindo, teremos

kzk2 ≤ kzk2 − 2Re(λhz, y 0 i) + |λ|2 ky 0 k2 ,

ou seja,
2Re(λhz, y 0 i) ≤ |λ|2 ky 0 k2 . (22.5)
Agora, como todo número complexo, hz, y 0 i é da forma hz, y 0 i = |hz, y 0 i|eiα , para algum α real. Como
(22.5) vale para todo λ ∈ , vale em particular para λ da forma λ = te−iα , onde escolhemos t > 0.
Inserindo esse λ em (22.5), a mesma fica

2t|hz, y 0 i| ≤ t2 ky 0 k2 ,

ou seja,
t 0 2
|hz, y 0 i| ≤
ky k ,
2
desigualdade esta que vale para todo t > 0. Ora, isso só é possı́vel se o lado esquerdo é nulo: |hz, y 0 i| =
0. Como y 0 é um elemento arbitrário de M, isso demonstra que z ∈ M⊥ , como querı́amos.
Demonstrar a unicidade da escolha de y e z é bem fácil. Suponha que também possamos escrever
x = y 0 + z 0 com y 0 ∈ M e z 0 ∈ M⊥ . Terı́amos y + z = y 0 + z 0 , ou seja, y − y 0 = z 0 − z. Agora, o lado
esquerdo é um elemento de M, enquanto que o lado direito é um elemento de M⊥ (por que?). Porém,
o único elemento que M e M⊥ podem ter em comum é o vetor nulo (por que?), o que implica y = y 0 e
z = z0.

• Fechos e complementos ortogonais

Proposição 22.2 O fecho E de um sub-espaço E de H é E = (E ⊥ )⊥ . Em particular, se E é um


sub-espaço fechado de H, então E = (E ⊥ )⊥ . 2

Prova. Notemos primeiramente que E ⊂ (E ⊥ )⊥ , pois (E ⊥ )⊥ é o conjunto de todos os vetores per-


pendiculares a cada elemento de E ⊥ e todo elemento de E tem essa propriedade. Como (E ⊥ )⊥ é um
conjunto fechado (pela Proposição 22.1, página 991), segue que E ⊂ (E ⊥ )⊥ pois, por definição, E é o
menor fechado que contem E.
Vamos agora provar a relação oposta, ou seja, que E ⊃ (E ⊥ )⊥ . Para isso vamos mostrar que todo
elemento de (E ⊥ )⊥ está no fecho de E. Seja x ∈ (E ⊥ )⊥ . Como E é um subespaço linear fechado, a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 993/1195

ele se aplica o Teorema de Decomposição Ortogonal e podemos afirmar que x pode ser escrito como
x = y + z com y ∈ E e z ∈ (E)⊥ . Se provarmos que z = 0, teremos estabelecido que x = y ∈ E, que é
o que queremos. Para isso, notemos que
hx, zi = hy, zi + kzk2 .
Como hy, zi = 0 (pois y ∈ E e z ∈ (E)⊥ ), segue que kzk2 = hx, zi. Queremos agora provar que esse
produto escalar é nulo, o que implica z = 0.
⊥
Como E ⊂ E segue pelo Lema 22.1, página 991, que E ⊂ E ⊥ . Logo z ∈ E ⊥ . Como x ∈ (E ⊥ )⊥ ,
segue imediatamente que x e z são perpendiculares, completando a prova.

22.2.1 Bases Ortonormais Completas em Espaços de Hilbert

• Conjuntos ortonormais

Um conjunto E de vetores de um espaço de Hilbert é dito ser um conjunto ortonormal se a norma


de todos os seus elementos for igual a 1 e se vetores distintos de E forem ortogonais entre si, ou seja,
kuk = 1, ∀u ∈ E e hu, vi = 0, ∀u, v ∈ E com u 6= v.
Vamos a alguns exemplos. No espaço de Hilbert L2 ([0, 2π], dx) o conjunto
 
1 inx
en (x) = √ e , n ∈ (22.6)

é um conjunto ortonormal de vetores. No espaço de Hilbert `2 das seqüências de quadrado integrável
(vide Seção 13.4.1, página 750), as seqüências enm = δn, m formam um conjunto ortonormal de vetores.
Podemos representá-las como
 

en = 0, . . . , 0, 1, 0, . . . , n ≥ 1.
| {z }
n−1

No espaço de Hilbert L2 ([−1, 1], dx) um conjunto ortonormal é formado pelos polinômios de Legendre
(normalizados) ( )
r
2n + 1
en (x) = Pn (x), n ∈ ,
2


pois, como é bem sabido, valem para os polinômios de Legendre3 Pn (x), definidos por
[n/2]
1 dn 2 X (−1)k (2n − 2k)!
n
Pn (x) = n (x − 1) = xn−2k
2 n! dxn k=0
2 n k!(n − k)!(n − 2k)!

as relações Z 1
2
Pn (x)Pm (x) dx = δn, m .
−1 2n + 1
3
Adrien-Marie Legendre (1752-1833).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 994/1195

No espaço de Hilbert L2 ( , dx), de particular importância para a Mecânica Quântica, há vários


conjuntos ortonormais bem-conhecidos, como por exemplo


( )
1 −x2 /2
en (x) = p √ Hn (x) e , n∈ , 

m
2 m! π

onde Hn são os polinômios de Hermite4


2 dn −x2
Hn (x) = (−1)n ex e ,
dxn
os quais satisfazem Z ∞ √
2
Hm (x) Hn (x) e−x dx = 2m m! π δm n .
−∞

• O espaço das funções almost-periódicas. Uma digressão

Há espaços de Hilbert onde, em contraste com os exemplos de acima, existem conjuntos ortonor-
mais não-contáveis de vetores. Um exemplo importante é o espaço AP ( ), das funções ditas almost-


periódicas em . Sem entrarmos em detalhes (para um tratamento completo, vide e.g. [69] e [22]), são


denominadas almost-periódicas as funções f : → que podem ser escritas como limites uniformes


de séries trigonométricas como X


f (t) = fn eiωn t , t ∈ ,  (22.7)
n∈

onde fn são constantes e {ωn , n ∈ } é um sub-conjunto contável arbitrário de . As constantes ωn 

são denominadas freqüências de f e as constantes fn são denominadas amplitudes. Um caso particular


importante é aquele no qual as freqüências ωn são da forma ωn = nω, para algum ω > 0, denominado
freqüência fundamental. Como o estudante facilmente reconhece, funções como
X
f (t) = fn einωt , t ∈ 

n∈

são periódicas de perı́odo 2π/ω. Se a série do lado direito converge uniformemente, f é contı́nua
(certo?). Assim, AP ( ) contem as funções contı́nuas e periódicas. O conjunto AP ( ) contem também
 

funções não-periódicas. Por exemplo, funções como

f (t) = 2 cos(ω1 t) + 2 cos(ω2 t) = eiω1 t + e−iω1 t + eiω2 t + e−iω2 t , ω1 > 0 e ω 2 > 0 , (22.8)

são elementos de AP ( ), mas são periódicas se e somente se a razão ω2 /ω1 for um número racional.


Se ω2 /ω1 for racional da forma ω2 /ω1 = p/q com p e q inteiros e primos entre si, então a f dada acima
é periódica de perı́odo T = 2πp/ω2 = 2πq/ω1 .

E. 22.1 Exercı́cio. Justifique todas as afirmações acima. Em particular, prove que a função f de (22.8)
não é periódica se ω2 /ω1 for irracional. 6
4
Charles Hermite (1822-1901).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 995/1195

Um exemplo de uma função de AP ( ) que não é periódica é




√ √ √
f (t) = 2 cos( 2t) + 2 cos(t) = ei 2t + e−i 2t + eit + e−it ,

que não é periódica, pois 2 6∈ .
Funções como a f de (22.8) não são periódicas se ω2 /ω1 for irracional. Como, porém, todo número
irracional pode ser aproximado por seqüências de números racionais, uma tal f possui perı́odos apro-
ximados (mas não exatos!). Essa é a origem da denominação de tais funções como almost-periódicas 5 .
Foi demonstrado por H. Bohr (vide nota histórica, abaixo) que o conjunto AP ( ) gera um espaço 

de Hilbert com produto escalar dado por


Z T
1
hf, giAP := lim f (x)g(x) dx . (22.9)
T →∞ 2T −T

É um exercı́cio fácil mostrar que o conjunto de funções



eα (x) = eiαx , α ∈ ⊂ AP ( )
  (22.10)
é um conjunto ortonormal em relação ao produto escalar (22.9). Trata-se, claramente, de um conjunto
não-contável.

E. 22.2 Exercı́cio. Mostre que heα , eα iAP = 1 para todo α ∈  e que heα , eβ iAP = 0 para todos
α, β ∈ com α 6= β.
 6

Nota histórica. A teoria das funções “almost”-periódicas reais foi originalmente desenvolvida por H.
Bohr6 , irmão de N. Bohr7 , em vários trabalhos publicados entre 1924 e 1926. H. Bohr, porém, menciona
dois predecessores: Bohl8 , em tese publicada em 1893, e Esclangon9 , em tese de 1904, os quais obtiveram
resultados semelhantes sobre as funções ditas “quase-periódicas”, um caso especial das funções almost-
periódicas estudadas por H. Bohr. Os trabalhos de H. Bohr podem ser encontradas na edição em
três volumes [12] de suas obras completas. Bohr não conhecia previamente os trabalhos anteriores
de Bohl e Esclangon sobre as funções quase-periódicas e menciona ter sido chamado à atenção sobre
existência dos mesmos por Hadamard10 . H. Bohr distinguiu-se também pelo desenvolvimento da teoria
das funções “almost”-periódicas de uma variável complexa. O conceito foi posteriormente generalizado
por von Neumann11 para funções definidas em grupos. Para definições e alguns resultados nesse caso
geral, vide [132].

• O Teorema de Pitágoras

5
Em Português seria mais adequado dizer “quase-periódicas”. Porém, essa nomenclatura é usada em várias lı́nguas
para designar um certo sub-conjunto de funções de AP ( ). Por isso optamos pelo barbarismo “almost-periódicas”.
6
Harald August Bohr (1887-1951).
7
Niels Henrik David Bohr (1885-1962).
8
Piers Bohl (1865-1921).
9
Ernest B. Esclangon (1876-1954).
10
Jacques S. Hadamard (1865-1963).
11
John von Neumann (1903-1957).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 996/1195

Proposição 22.3 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H


e sejam λ1 , . . . , λn números complexos. Então,
2
X n n
X

λa e a = |λa |2 .

a=1 a=1

Prova. n 2 * n +
X X n
X Xn Xn Xn

λa e a = λa e a , λb e b = λa λb hea , eb i = |λa |2 ,
a=1 a=1 a=1 a=1
b=1 b=1

pois hea , eb i = δa, b .

A proposição acima é denominada Teorema de Pitágoras12 por ser uma óbvia generalização do bem
conhecido teorema da geometria plana.

• Conjuntos ortonormais e séries convergentes

Exploraremos aqui uma conseqüência do Teorema de Pitágoras da qual faremos uso adiante. Trata-
se de uma condição necessária e suficiente para que certas seqüências formadas por combinações lineares
de elementos de um conjunto ortonormal contável de um espaço de Hilbert H sejam convergentes,
seqüências estas muito comummente encontradas na Mecânica Quântica e outras aplicações da teoria
dos espaços de Hilbert.
Proposição 22.4 Seja H um espaço de Hilbert e {en , n ∈  } um conjunto ortonormal contável em
H. Então, uma seqüência de vetores
n
X
sn = λa e a , n∈  ,
a=1

converge em H se e somente se

X
|λa |2 < ∞.
a=1
2

Prova. Se sn converge é uma seqüência de Cauchy. Isso significa que para todo  > 0 existe N () tal
que para todo m e n maiores que N () tem-se ksm − sn k ≤ . Vamos supor sem perda de generalidade
que m < n. Pelo Teorema de Pitágoras
2
Xn Xn

ksm − sn k2 = λa e a = |λa |2 = |lm − ln |, (22.11)

a=m+1 a=m+1

12
Pitágoras de Samos (ci. 569 A.C. - ci. 475 A.C.).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 997/1195

onde n
X
ln = |λa |2 .
a=1

Concluı́mos que |lm − ln | ≤ 2 para todo m e n maiores que N (), ou seja, ln é uma seqüência de Cauchy
de números reais e que, portanto, converge. Assim,

X
|λa |2 < ∞.
a=1

P
Vamos mostrar a recı́proca. Se ∞ 2
a=1 |λa | < ∞, então ln é limitada superiormente e, por ser uma
seqüência monotonamente crescente, converge (por que?). Assim, ln é uma seqüência de Cauchy. A
mesma identidade (22.11) nos diz, então, que sn é uma seqüência de Cauchy em H e, portanto, converge
a um vetor de H.

• Sub-espaços gerados por conjuntos ortonormais finitos

Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H. É elementar


verificar que o conjunto E de todos os vetores de H que sejam da forma
n
X
λa e a
a=1

para λa complexos é um subespaço de H, denominado subespaço gerado por E.


Proposição 22.5 Se E é um subespaço gerado por um conjunto ortonormal finito, então E é um
conjunto fechado. 2

Prova. Seja {xi }i∈ uma seqüência de elementos de E que converge a x ∈ H. Cada xi é da forma


n
X
i
x = λia ea .
a=1

Vamos provar que para cada a a seqüência {λia }i∈ é uma seqüência de Cauchy de números complexos.


Se {xi }i∈ é convergente, então é uma seqüência de Cauchy. Logo, para todo  > 0 existe N () tal que


kxi − xj k ≤  para todos i, j ≥ N (). Assim, para i, j ≥ N ()


2
X n X n
2 i j 2 i j
 ≥ kx − x k = (λa − λa )ea = |λia − λja |2 .

a=1 a=1

Mas isso diz que para i, j ≥ N () tem-se para cada a |λia − λja | ≤ , ou seja, {λia }i∈ é uma seqüência de


Cauchy de números complexos. Assim, cada uma dessas seqüências converge a um número complexo
λa . Seja
X n
0
x = λa e a .
a=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 998/1195

Claramente x0 é um elemento de E. Vamos mostrar que, na verdade, x0 = x. Para tal basta mostrar
que xi converge a x0 e lembrar a unicidade de pontos limite em espaços métricos, como um espaço de
Hilbert (vide Corolário 18.1, página 879). Mostrar que xi converge a x0 é trivial, pois
2
X n Xn
i 0 2 i
kx − x k = (λa − λa )ea = |λia − λa |2

a=1 a=1

e como λia → λa o lado direito fica arbitrariamente pequeno quando i → ∞. Logo xi → x0 e, portanto,
x0 = x.

• A desigualdade de Bessel

Vamos estudar algumas propriedades de conjuntos ortonormais finitos ou contáveis, a mais impor-
tante sendo a desigualdade de Bessel, a qual chegaremos adiante.
Proposição 22.6 Seja E = {e1 , . . . , en } um conjunto ortonormal finito de um espaço de Hilbert H
e sejam λ1 , . . . , λn números complexos. Então, para todo x ∈ H vale que
2
Xn Xn n
X
2 2
x − λa ea = kxk + |λa − hea , xi| − |hea , xi|2 . (22.12)

a=1 a=1 a=1

Prova.
2 * +
n
X n
X n
X

x − λa e a = x− λa e a , x − λb e b

a=1 a=1 b=1

2
n
X n
X Xn

= kxk2 − λb hx, eb i − λa hea , xi + λa e a

b=1 a=1 a=1

n 
X 
= kxk2 + −λa hea , xi − λa hea , xi + |λa |2
a=1

n 
X  Xn
= kxk2 + |hea , xi|2 − λa hea , xi − λa hea , xi + |λa |2 − |hea , xi|2
a=1 a=1

n
X n
X
2
= kxk + (λa − hea , xi) (λa − hea , xi) − |hea , xi|2
a=1 a=1

n
X n
X
2 2
= kxk + |λa − hea , xi| − |hea , xi|2 . (22.13)
a=1 a=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 999/1195

Já vimos acima (página 997) que o subespaço E gerado por um conjunto ortonormal finito E =
{e1 , . . . , en } é fechado. Vale, portanto, o teorema do melhor aproximante: para todo x ∈ H existe
um y ∈ E tal que a distância kx − yk é a mı́nima possı́vel. Se y 0 ∈ E, y 0 é da forma
n
X
0
y = λa e a .
a=1

Logo,
n
X n
X
kx − y 0 k2 = kxk2 + |λa − hea , xi|2 − |hea , xi|2 .
a=1 a=1

É evidente que o lado direito assume seu valor mı́nimo quando λa = hea , xi para todo a entre 1 e n,
ou seja,
Xn
y = hea , xiea , (22.14)
a=1
e n
X
2 0 2 2 2
D = inf
0
kx − y k = kx − yk = kxk − |hea , xi|2 . (22.15)
y ∈E
a=1

Retornando à relação (22.15), notemos que a mesma afirma que


n
X
2
kxk − |hea , xi|2 ≥ 0,
a=1

ou seja, para todo x ∈ H e para todo conjunto ortonormal finito E = {e1 , . . . , en } vale
n
X
|hea , xi|2 ≤ kxk2 . (22.16)
a=1

Se E = {en , n ∈  } é um conjunto ortonormal contável, segue que também vale



X
|hea , xi|2 ≤ kxk2 . (22.17)
a=1

E. 22.3 Exercı́cio. Justifique! 6

Estas duas últimas desigualdades são conhecidas como desigualdades de Bessel. Como veremos em
breve, as mesmas desempenham um papel importante.

• Bases ortonormais completas

Chegamos agora ao importante conceito de Base Ortonormal Completa de um espaço de Hilbert.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1000/1195

Definição. Um conjunto ortonormal B de vetores em um espaço de Hilbert H é dito ser um conjunto


ortonormal completo ou uma base ortonormal completa se o único vetor de H que é ortogonal a todos
os vetores de B for o vetor nulo.
Notemos que B da definição acima não precisa ser necessariamente um conjunto finito ou contável.
De fato, como veremos, há espaços de Hilbert que só admitem bases ortonormais completas não-
contáveis.
Bases ortonormais completas desempenham um papel de grande importância em espaços de Hilbert
e suas aplicações. Vamos estudá-las aqui. Primeiramente demonstremos que as mesmas sempre existem.
Teorema 22.3 Todo espaço de Hilbert possui pelo menos uma base ortonormal completa. 2

Prova. A demonstração faz uso do Lema de Zorn, página 35. Seja E a coleção de todos os conjuntos
ortonormais de um espaço de Hilbert H. Podemos introduzir em E uma ordem parcial, denotada por
“”, dizendo que E1  E2 se E1 ⊂ E2 , para dois conjuntos ortonormais E1 e E2 .
Seja {Eα , α ∈ Λ} um conjunto linearmente ordenado em E pela relação de ordem acima. Isso
significa que ou Eα ⊂ Eβ ou Eβ ⊂ Eα para quaisquer α, β ∈ Λ.
Esse conjunto {Eα , α ∈ Λ} possui um majorante em E, a saber, o conjunto ortogonal obtido
tomando-se a união de todos os Eα : [
Eα .
α∈Λ

S
E. 22.4 Exercı́cio. Por que razão α∈Λ Eα é também um conjunto ortonormal? 6

Assim, concluı́mos que em E, com a relação de ordem dada acima, vale sempre que qualquer conjunto
linearmente ordenado possui um majorante em E. Ora, essas são precisamente as hipóteses do Lema de
Zorn e, assim, concluı́mos que existe um elemento maximal B em E, ou seja, um conjunto ortonormal
que não está contido propriamente em nenhum outro conjunto ortonormal.
Vamos, então, mostrar que esse B é uma base ortonormal completa. Para tal vamos supor o oposto,
ou seja, vamos supor que haja y ∈ H não nulo que seja ortogonal a todos os elementos de B, claramente
y não pode pertencer a B, pois para isso teria que ser ortogonal a si mesmo, ou seja, kyk 2 = hy, yi = 0.
Se um tal y existisse, então B1 = B ∪{y} seria também um conjunto ortonormal (por que?) que contem
B como subconjunto próprio. Ora, isso contraria o fato que B é maximal. Logo tal y não existe e B é
uma base ortonormal completa.

A importância das bases ortonormais completas reside no fato que todo vetor de um espaço de
Hilbert pode ser escrito como limite de seqüências de vetores obtidos por combinações lineares finitas
de elementos de uma base ortonormal completa. Tornaremos isso preciso em breve. Façamos antes
porém a seguinte observação crucial:
Teorema 22.4 Seja B uma base ortonormal completa de um espaço de Hilbert H. Para cada y ∈ H,
o conjunto de todos os eα ∈ B tais que heα , yi 6= 0 é um conjunto contável. 2

Note-se que não está excluı́do que a a base B, no enunciado acima, possa ser não-contável.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1001/1195

Prova. Comecemos lembrando que se {eα1 , . . . , eαm } é um subconjunto finito da base B, então a
desigualdade de Bessel diz que
Xm
|heαa , yi|2 ≤ kyk2 . (22.18)
a=1

É bastante claro também que a base B pode ser escrita como a seguinte união disjunta:
B = Z y ∪ By (22.19)
com
Z y := {eα ∈ B| heα , yi = 0}
B y := {eα ∈ B| heα , yi 6= 0} .
É igualmente claro que podemos escrever B y como

[
y
B = Bny , (22.20)
n=1

onde, para n = 1, 2, . . .,
  
kyk2 kyk2
Bny 2
= eα ∈ B |heα , yi| ∈ , .
n+1 n

E. 22.5 Exercı́cio. Convença-se que (22.19) é de fato verdade e que aquela união é disjunta, assim
como a união em (22.20). 6

Desejamos mostrar que B y é um conjunto contável. A observação crucial é que cada Bny é um
conjunto finito. De fato, podemos facilmente mostrar que cada Bny tem no máximo n elementos.
Mostramos isso por contradição com a desigualdade de Bessel (22.18). Vamos supor que houvesse em
Bny mais que n elementos e tomemos em Bny um conjunto {eα1 , . . . , eαn+1 } com n + 1 elementos. Como
todos são elementos de Bny , tem-se que
kyk2
|heαa , yi|2 >
n+1
para todo a = 1, . . . , n + 1. Logo
n+1
X kyk2
|heαa , yi|2 > (n + 1) = kyk2 ,
a=1
n+1

contrariando a desigualdade de Bessel (22.18). Assim, cada Bny pode ter no máximo n elementos.
S
Isso nos diz que B y = ∞ y
n=1 Bn é um conjunto contável (eventualmente até finito), completando a
demonstração.

• A decomposição de vetores em bases ortogonais completas

Chegamos agora ao resultado mais importante sobre bases ortogonais completas e que é a verdadeira
razão de ser de sua definição.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1002/1195

Teorema 22.5 Seja y um vetor de um espaço de Hilbert H e B uma base ortonormal completa em
H. Como vimos acima, o subconjunto de B definido por B y = {eα ∈ B| heα , yi 6= 0} é um conjunto
contável. Vamos escrever os elementos de B y como eαa com a ∈ . Então, vale que 

n
X
y = lim heαa , yi eαa (22.21)
n→∞
a=1

e que

X
2
kyk = |heαa , yi|2 . (22.22)
a=1
2

A expressão (22.22) pode ser interpretada como uma generalização to Teorema de Pitágoras para
dimensão infinita.

Prova do Teorema 22.5. Pela desigualdade de Bessel sabemos que



X
|heαa , yi|2 ≤ kyk2 .
a=1

n
X
Pela Proposição 22.4, página 996, isso nos diz que a seqüência de vetores s n = heαa , yi eαa converge
a=1
em H a um vetor que chamaremos de y 0 :
n
X ∞
X
0
y = lim heαa , yi eαa = heαa , yi eαa .
n→∞
a=1 a=1

Queremos provar que y 0 = y. Para tal, tomemos um elemento arbitrário eα em B e calculemos o


produto escalar heα , y − y 0 i. Há dois casos a considerar: 1) eα ∈ B y e, portanto, α = αk para algum
k ∈ e 2) eα 6∈ B y e, portanto, heα , yi = 0 e α 6= αk para todo k ∈ .
 

No caso 1) temos
* n
+
X
heα , y 0 i = eα , lim heαa , yi eαa
n→∞
a=1
* n
+
X
= lim eα , heαa , yi eαa
n→∞
a=1

= heαk , yi

= heα , yi. (22.23)

Logo,
heα , y − y 0 i = heα , yi − heα , y 0 i = heα , yi − heα , yi = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1003/1195

No caso 2) temos
* n
+
X
heα , y 0 i = eα , lim heαa , yi eαa
n→∞
a=1

n
X
= lim heαa , yi heα , eαa i
n→∞
a=1

= 0, (22.24)

pois α 6= αk para todo k e, portanto, heα , eαa i = 0. Logo,

heα , y − y 0 i = heα , yi − heα , y 0 i = 0 − 0 = 0.

Em ambos os casos o resultado é zero, ou seja, heα , y − y 0 i = 0 para todo eα ∈ B. Pela definição de
B como base ortonormal completa, o único vetor ortogonal a todos os elementos de B é o vetor nulo.
Logo y = y 0 .
n
X
Por (22.14), o vetor mais próximo de y no subespaço gerado por {eα1 , . . . , eαn } é heαa , yieαa .
a=1
Segue de (22.15) que 2
Xn Xn
2
y − heαa , yieαa , = kyk − |heαa , yi|2 .
a=1
a=1

Tomando-se o limite n → ∞ o lado esquerdo vai a zero como vimos e, portanto, concluı́mos que

X
2
kyk = |heαa , yi|2 .
a=1

É importante chamar à atenção do estudante o fato que na expressão



X
y = heαa , yi eαa
a=1

a soma é realizada em elementos de B y que, para cada y, é um conjunto contável. Mas B y depende
de y e assim, para y’s diferentes comparecem conjuntos diferentes de vetores eα ∈ B na soma. Isso é
importante no caso de a base B ser não-contável. Se B for contável podemos fazer a soma sobre todos
os elementos de B pois os elementos de Z y não contribuem.
Apesar de termos demonstrado que todo espaço de Hilbert possui uma base ortonormal completa,
demonstrar que um conjunto ortonormal B dado concretamente é uma base ortonormal completa pode
ser um problema envolvente que requer um trabalho cuidadoso de análise. Tal é o caso, por exemplo,
do conjunto ortonormal (22.6) do espaço de Hilbert L2 ([0, 2π]). É bem sabido, e fácil de se verificar,
einx
que o conjunto (contável) de vetores {en (x) = √ 2π
, n ∈ } é um conjunto ortonormal. Demonstrar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1004/1195

que é completo, porém, envolve mais trabalho e requer uso do teorema do qual trataremos no próximo
tópico abaixo, que discute caracterizações alternativas do conceito de base ortonormal completa.

• Bases ortonormais completas e bases topológicas

Em um espaço vetorial V a varredura linear (“linear span”) de um conjunto não-vazio A ⊂ V é a


coleção, denotada por span (A), de todos os vetores de V que podem ser escrito como uma combinação
linear finita de elementos de A:

span (A) = {v ∈ V | v = λ1 a1 + · · · + λn an , para algum n ∈  , para λi ∈ e ai ∈ A}.

É elementar constar que para A não-vazio span (A) é um subespaço de V .


Em um espaço vetorial topológico V um conjunto B é dito ser uma base topológica se seus elementos
forem linearmente independentes e se span (B) for um conjunto denso em V , ou seja, se seu fecho for
V : span (B) = V .
O teorema que demonstraremos a seguir mostra que, em um espaço de Hilbert, um conjunto B é
uma base ortonormal completa se e somente se for uma base topológica.
Teorema 22.6 Se B = {eα , α ∈ Λ} é um conjunto ortonormal em um espaço de Hilbert H, então
são equivalentes as seguintes afirmativas:

1. B é uma base ortonormal completa de H.

2. B é uma base topológica de H, ou seja, span (B) = H.

3. Para todo y ∈ H a conjunto B y = {eα ∈ B| heα , yi 6= 0} é contável e vale


X
kyk2 = |heα , yi|2 .
eα ∈B y

Prova. Que 1 implica 2 e que 1 implica 3 já foi demonstrado acima (Teorema 22.5, página 1002).
Vamos mostrar que 3 implica 1.
A demonstração é feita supondo que 3 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Por 3, isso implica que
X
kxk2 = |heα , xi|2 = 0,
eα ∈B x

uma contradição.
Por fim, mostremos que 2 implica 1.
A demonstração é feita supondo que 2 vale e que 1 não vale e mostrando que isso leva a um absurdo.
Se B não é uma base ortonormal completa, então existe um vetor x ∈ H não-nulo que é ortogonal a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1005/1195

todo elemento de B, ou seja, heα , xi = 0 para todo eα ∈ B. Então, o conjunto {x}⊥ é um subespaço
linear fechado que contem B e span (B) (por que?). Como span (B) é, por definição, o menor fechado
que contem span (B), vale também que span (B) ⊂ {x}⊥ . Como {x}⊥ é um subconjunto próprio de H
(pois não contem x nem o subespaço gerado por x), concluı́mos que span (B) é um subconjunto próprio
de H, uma contradição com a hipótese que 2 é verdadeiro.

• Espaços de Hilbert separáveis

Recordemos duas noções introduzidas à página 824.


Seja um espaço X dotado de uma topologia τ . Dizemos que um conjunto A ⊂ X é denso em X se
o fecho de A for igual a X, ou seja, se não houver outro conjunto fechado que não X contendo A. Um
espaço topológico X é dito ser separável se possuir um subconjunto denso contável.
Definimos acima a noção de varredura linear de um conjunto A ⊂ H, que denotamos por span (A).
Um conceito associado é o de varredura linear por racionais de um conjunto A ⊂ H, que denotamos
por span (A): a coleção, de todos os vetores de H que podem ser escrito como uma combinação linear
finita por racionais de elementos de A:
span (A) = {v ∈ V | v = r1 a1 + · · · + rn an , para algum n ∈  , para ri ∈ e ai ∈ A},
onde denota o conjunto de todos os números complexos racionais, ou seja, de todos os números
complexos cujas partes real e imaginária são racionais.
Como é denso em , é claro que todo elemento de span (A) pode ser aproximado (na topologia
de H) por elementos de span (A). De fato, se {(rj )m , m ∈ } é uma seqüência de números em


que aproxima λj ∈ , então (r1 )m a1 + · · · + (rn )m an aproxima λ1 a1 + · · · + λn an na norma de H, pois

k((r1 )m a1 + · · · + (rn )m an ) − (λ1 a1 + · · · + λn an )k = k((r1 )m − λ1 )a1 + · · · + ((rn )m − λn )an k

≤ |(r1 )m − λ1 | ka1 k + · · · + |(rn )m − λn | kan k .


que converge a zero para m → ∞. Isso significa que para todo A ⊂ H vale span (A) ⊃ span (A) e,
conseqüentemente, span (A) ⊃ span (A). No entanto, como span (A) ⊂ span (A), vale também que
span (A) ⊂ span (A). Logo, span (A) = span (A).
Assim, pelo Teorema 22.6, concluı́mos que B ⊂ H é uma base ortonormal completa se e somente
se span (B) = H.
Se A ⊂ H for contável, é muito fácil ver que span (A) é também contável (por ser uma união
contável de conjuntos contáveis). Logo, se B for uma base ortonormal completa contável, o conjunto
span (B) é um conjunto contável denso em H. Concluı́mos disso que H será um espaço topológico
separável se possuir uma base ortonormal completa contável.
A recı́proca é também verdadeira: se um espaço de Hilbert H for um espaço topológico separável,
então toda base ortonormal completa de H é contável. Para ver isso, vamos supor que H seja separável
e seja D ⊂ H contável e denso em H: D = H. Seja também B uma base ortonormal completa em H.
Notemos que [
BD := Bx
x∈D
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1006/1195

é contável, por ser uma união contável de conjuntos contáveis (pois D é contável, assim como cada
B x , pelo Teorema 22.4, página 1000.). Pelo Teorema 22.5, página 1002, cada x ∈ D é um elemento
de span (B x ). Concluı́mos disso que D ⊂ span (BD ). Logo, como D é denso em H, segue que H =
span (BD ). Agora, BD é um conjunto ortonormal (por ser subconjunto de B). Logo, concluı́mos pelo
Teorema 22.6 que BD é uma base ortonormal completa.
Disso concluı́mos também que B = BD , pois se BD fosse um sub-conjunto próprio de B haveria
v ∈ B, v 6= 0, que não pertence a BD . Como B é um conjunto ortonormal, segue que v é ortogonal
a todos os elementos de BD . Isso contraria o fato provado que BD é uma base ortonormal completa.
Vimos então que toda base ortonormal completa de um espaço de Hilbert separável deve ser contável.
Resumimos nossas conclusões no seguinte:
Proposição 22.7 Se um espaço de Hilbert H possui uma base ortonormal completa contável então
é um espaço topológico separável (ou seja, possui um sub-conjunto contável denso). Por outro lado,
se um um espaço de Hilbert H for separável, então todas as suas bases ortonormais completas são
contáveis. 2

O seguinte corolário é evidente:


Corolário 22.1 Se um espaço de Hilbert H possui uma base ortonormal completa contável então todas
as demais bases ortonormais completas de H são contáveis 2

Nesse contexto, a seguinte observação é relevante:


Proposição 22.8 Se um espaço de Hilbert H possui uma conjunto ortonormal não-contável então H
não é separável. 2

Prova. Seja C um conjunto ortonormal não-contável de H. Se C for uma base ortonormal completa
não há o que provar. Se não o for, podemos acrescentar elementos a C pertencentes a C ⊥ de modo a
obter uma base ortonormal completa. Essa base não pode ser contável, pois contem C.

Os espaços de Hilbert L2 ([a, b], dx), assim como L2 ( , dx), são separáveis. O espaço de Hil-


bert AP ( ) das funções almost-periódicas é não-separável, pois possui um conjunto ortonormal não-


contável, a saber, aquele de (22.10).


Finalizamos mencionando que no caso de espaços de Hilbert separáveis podemos refrasear o Teorema
22.5, acima, da seguinte forma:
Teorema 22.7 Seja y um vetor de um espaço de Hilbert separável H e B uma base ortonormal com-
pleta (e, portanto, contável) em H. Vamos escrever os elementos de B como e a com a ∈ . Então, 

vale que
Xn
y = lim hea , yi ea (22.25)
n→∞
a=1
e que

X
2
kyk = |hea , yi|2 . (22.26)
a=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1007/1195

A única diferença em relação ao Teorema 22.5 é que agora as somas acima não precisam mais ser
restritas apenas aos elementos de B y , mas são feitas sobre todos os elementos de B, independente do
vetor y ∈ H considerado. Eventualmente alguns termos dessas somas serão nulos (tal é o caso se para
um dado a tivermos ea ∈ Z y , ou seja, hea , yi = 0), mas isso não alterará o resultado.

22.3 Funcionais Lineares e o Dual Topológico de um Espaço


de Hilbert

• Funcionais lineares

Um funcional linear l definido em um espaço de Hilbert H é uma função cujo domı́nio é um subespaço
vetorial E de H assumindo valores complexos, l : E → , e de tal forma que para todo x, y ∈ E e todo
α, β ∈ tem-se
l(αx + βy) = αl(x) + βl(y).

• Funcionais lineares contı́nuos

De grande importância são os funcionais lineares contı́nuos definidos em H. Estes são funcionais
lineares com domı́nio igual a H e tais que se {xi }i∈ é uma seqüência de vetores que converge a x ∈ H,


então vale  
lim l(xn ) = l lim xn = l(x).
n→∞ n→∞

Se l e l0 são funcionais lineares sobre H definimos para α, β ∈ um funcional linear αl + βl 0 como


sendo o funcional linear que a cada x ∈ H associa o número αl(x) + βl 0 (x). É elementar mostrar que
o funcional αl + βl0 é também contı́nuo. O conjunto de todos os funcionais lineares contı́nuos de um
espaço e Hilbert H é também, portanto, um espaço vetorial que denotaremos por H ∗ . O espaço H∗ é
denominado o dual topológico de H.

• Funcionais lineares limitados

Um funcional linear l sobre um espaço de Hilbert H é dito ser limitado se existir uma constante
M ≥ 0 tal que para todo x ∈ H vale
|l(x)| ≤ M kxk.

A seguinte proposição mostra que os conceitos de funcional linear contı́nuo e de funcional linear
limitado são idênticos.
Proposição 22.9 Em um espaço de Hilbert H um funcional linear é contı́nuo se e somente se for um
funcional linear limitado. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1008/1195

Prova. Se l é um funcional linear limitado e se {xj }j∈ é uma seqüência de vetores que converge a


x ∈ H, então
|l(x) − l(xj )| = |l(x − xj )| ≤ M kx − xj k
e o lado direito vai a zero quando j → ∞, provando que l é contı́nuo.
Suponhamos reciprocamente que l é um funcional linear contı́nuo. Então, para um  > 0 fixo existe
δ > 0 tal que |l(v)| ≤  para todo vetor v com kvk ≤ δ. Seja u um vetor não-nulo qualquer de H.
Então,
u
v = δ
kuk
é tal que kvk = δ. Logo, como l é linear, vale que
 
δ u

kuk l(u) = l δ kuk ≤ .

Assim,

|l(u)| ≤ kuk,
δ
provando que l é limitado (podemos adotar M = /δ).

Mencionamos que a Proposição 22.9 pode ser generalizada: uma aplicação linear entre dois espaços
normados é contı́nua se e somente se for limitada (Proposição 23.1, página 1014).

22.3.1 O Teorema da Representação de Riesz


Um exemplo de funcional linear contı́nuo é o seguinte. Seja φ ∈ H um vetor fixado. Defina-se então,

l(x) = hφ, xi, ∀x ∈ H.

É evidente que esse l é um funcional linear. Esse l é também contı́nuo, pela continuidade do produto
escalar (vide página 988).
Esse exemplo não foi colocado aqui apenas como ilustração, pois demonstraremos agora que o todo
funcional linear contı́nuo é da forma l(x) = hφ, xi para algum φ de H. Esse resultado, conhecido
como Teorema da Representação de Riesz13 , ou simplesmente como Lema de Riesz, é um dos resulta-
dos fundamentais da teoria dos espaços de Hilbert e do mesmo muitas conseqüências serão extraı́das,
especialmente na teoria de operadores lineares em espaços de Hilbert. Vamos a seu enunciado e de-
monstração.
Teorema 22.8 (Teorema da Representação de Riesz) Seja l um funcional linear contı́nuo em
um espaço de Hilbert H. Então, existe φ ∈ H, único, tal que

l(x) = hφ, xi, ∀x ∈ H.

13
Frigyes Riesz (1880-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1009/1195

Prova. Seja l um funcional linear contı́nuo em um espaço de Hilbert H. Seja N ⊂ H o núcleo de l, ou


seja, o conjunto de todos os vetores de H que são anulados por l:

N = {y ∈ H| l(y) = 0} .

Vamos mostrar que N é um subespaço linear fechado de H. Que N é um subespaço é elementar pois,
se x, y ∈ N , então l(αx + βy) = αl(x) + βl(y) = α0 + β0 = 0. Que N é fechado pode ser visto pelo
fato que podemos caracterizar N como a imagem inversa do número 0 de por l: N = l −1 ({0}). O
conjunto {0}, constituı́do por um único ponto, é fechado em e funções contı́nuas são tais que sua
imagem inversa mapeia fechados em fechados. Logo N é fechado.

E. 22.6 Exercı́cio. Mostre também que N é fechado, demonstrando que se x i é uma seqüência de
elementos de N que converge a x ∈ H então, pela continuidade, segue que l(x) = 0, provando que x ∈ N .
6

Caso N seja idêntico a H, isso significa que l(x) = 0 para todo x ∈ H e o teorema estaria provado,
adotando-se para tal φ = 0.
Vamos supor que N 6= H. Como N é fechado, pelo Teorema da Decomposição Ortogonal todo
x ∈ H é da forma x = y + z com y ∈ N e z ∈ N ⊥ . Como N 6= H, devem existir elementos não nulos
em N ⊥ , doutra forma terı́amos x = y ∈ N para todo x ∈ H.14
Seja, então, z0 um vetor não-nulo de N ⊥ . É obvio que l(z0 ) 6= 0.
Para qualquer vetor u ∈ H vale que l(z0 )u − l(u)z0 é um elemento de N , pois

l (l(z0 )u − l(u)z0 ) = l(z0 )l(u) − l(u)l(z0 ) = 0.

Assim, como l(z0 )u − l(u)z0 é um elemento de N e z0 é um elemento de N ⊥ , ambos são ortogonais


entre si, ou seja,
0 = hz0 , l(z0 )u − l(u)z0 i.
Isso diz, porém, que
0 = l(z0 )hz0 , ui − l(u)kz0 k2 ,
ou seja, * +
l(z0 ) l(z0 )
l(u) = hz0 , ui = z0 , u .
kz0 k2 kz0 k2
Definindo
l(z0 )
φ = z0 ,
kz0 k2
fica provado que para todo u ∈ H
l(u) = hφ, ui,
como querı́amos.
14
Nota. Fazemos notar ao estudante que é somente neste parágrafo, interessantemente, que a condição de continuidade
de l é usada, a saber, através da afirmativa que N é fechado e que, portanto, N ⊥ é formado por algo além do vetor
nulo (caso l não seja identicamente zero). Note-se também o uso importante que foi feito do Teorema da Decomposição
Ortogonal na demonstração.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 22 1010/1195

Por fim, para demonstrar que tal φ é único, suponhamos que exista um outro φ0 tal que também
valha l(u) = hφ0 , ui, para todo u ∈ H. Terı́amos, então, hφ, ui = hφ0 , ui, ou seja, hφ − φ0 , ui = 0
para todo u ∈ H. Como essa relação vale para todo u ∈ H, vale também para u = φ − φ 0 . Logo
0 = hφ − φ0 , φ − φ0 i = kφ − φ0 k2 e, portanto, φ = φ0 .

Incidentalmente, o Lema de Riesz diz-nos que, fora o caso em que l é identicamente nulo, tem-se
sempre que N ⊥ é um subespaço unidimensional de H, a saber, o subespaço gerado pelo vetor φ.
Capı́tulo 23
Operadores Lineares Limitados em Espaços de
Banach e de Hilbert
Conteúdo

23.1 Operadores Lineares em Espaços Vetoriais Normados . . . . . . . . . . . 1013


23.1.1 Espaços de Banach de Operadores . . . . . . . . . . . . . . . . . . . . . . . . 1017
23.1.2 O Dual Topológico de um Espaço de Banach . . . . . . . . . . . . . . . . . . 1021
23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo . . . . . . 1025
23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme . . . . 1031
23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado . . . . . . . 1032
23.2 Operadores Limitados em Espaços de Hilbert . . . . . . . . . . . . . . . . 1040
23.2.1 O Adjunto de um Operador em um Espaço de Hilbert . . . . . . . . . . . . . 1042
23.3 Álgebras de Banach e Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.1 Álgebras de Banach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1050
23.3.2 A Inversa de Operadores Limitados . . . . . . . . . . . . . . . . . . . . . . . . 1053
23.3.3 O Espectro de Operadores em Álgebras de Banach . . . . . . . . . . . . . . . 1059
23.3.4 O Homomorfismo de Gelfand em Álgebras C∗ . . . . . . . . . . . . . . . . . . 1069
23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach . . . . . . . . . . . 1072
23.3.6 Elementos Positivos de Álgebras C∗ . . . . . . . . . . . . . . . . . . . . . . . 1073
23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição Polar . . 1077
23.4 Um Pouco sobre Estados e Representações de Álgebras C∗ . . . . . . . . 1081
23.5 O Espectro de Operadores em Espaços de Banach . . . . . . . . . . . . . 1091
23.6 Operadores Compactos em Espaços de Banach e de Hilbert . . . . . . . . 1100
23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos . . . . . . . 1112
23.7 O Teorema Espectral para Operadores Limitados Auto-adjuntos em Espaços
de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1120
23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand . . . . . . . . . 1121
23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espectrais . . . . . 1123
23.7.3 Medidas com Valores em Projeções Ortogonais . . . . . . . . . . . . . . . . . 1133
23.7.4 Os Projetores Espectrais e o Teorema Espectral . . . . . . . . . . . . . . . . . 1137
23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um pouco de
Fı́sica, finalmente) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1141
23.A Prova do Teorema 23.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1151

1011
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1012/1195

ste capı́tulo tenciona ser uma pequena introdução à teoria dos operadores lineares limitados
(contı́nuos) em espaços de Banach e de Hilbert. O assunto é de central importância em várias
áreas da Fı́sica e da Matemática, desde a Mecânica Quântica e a Teoria Quântica de Campos
até a Teoria das Equações Diferenciais Parciais.
Na Seção 23.1 apresentamos noções básicas e demonstramos uma série de teoremas de importância
fundamental para toda a teoria de operadores em espaços de Banach e de Hilbert: o Teorema BLT, o
Teorema de Hahn-Banach, o Teorema de Banach-Steinhaus, o Teorema da Aplicação Aberta, o Teorema
da Aplicação Inversa e o Teorema do Gráfico Fechado. Na Seção 23.2 estudamos a teoria básica de
operadores em espaços de Hilbert. A Seção 23.3 é uma introdução às álgebras de Banach e às álgebras
C∗ , com uma certa ênfase na teoria espectral dessas álgebras. Na Seção 23.4 desenvolvemos um pouco
mais a teoria das álgebras C∗ e discutimos sua relação com álgebras de operadores em espaços de
Hilbert. Na Seção 23.5 especializa a teoria espectral para o contexto de operadores limitados agindo
em espaços de Banach e de Hilbert. Na Seção 23.6 desenvolvemos a teoria dos operadores compactos
em espaços de Banach e de Hilbert e obtemos o Teorema Espectral para operadores compactos auto-
adjuntos em espaços de Hilbert e generalizações. A Seção 23.7 é dedicada à demonstração do Teorema
Espectral para operadores limitados auto-adjuntos agindo em espaços de Hilbert. A Seção 23.7.5 discute
a relevância desse teorema para a Fı́sica Quântica.

• Operadores Lineares

Sejam V e W dois espaços vetoriais1 . Um operador linear, ou simplesmente operador2 T entre V e


W é uma função cujo domı́nio é V, Dom (T ) = V, e cuja imagem é um subconjunto de W, Im(T ) ⊂ W,
tal que, para todo α, β ∈ e todo u, v ∈ V tem-se

T (αu + βv) = αT (u) + βT (v).

Note-se que isso em particular implica T (0) = 0.


Notação. Na teoria dos operadores lineares em espaços vetoriais é costume denotar-se T (u) sim-
plesmente por T u.
Nomenclatura. Se T : V → W é um operador entre espaços vetoriais V e W é comum dizer-se que
T age entre V e W.
Neste capı́tulo iremos nos dedicar ao estudo de propriedades básicas de operadores lineares em
espaços de Hilbert3 . Algumas dessas propriedades podem ser estudadas em um contexto mais geral
como propriedades de operadores lineares em espaços vetoriais normados ou em espaços de Banach 4 ,
sem referência a propriedades especı́ficas de espaços de Hilbert.
O estudo de funções entre espaços vetoriais normados é de grande importância em matemática e
na fı́sica, em especial na fı́sica quântica. O maior papel, porém, é seguramente desempenhado pelas
1
Daqui por diante sempre trataremos de espaços vetoriais sobre o corpo dos complexos.
2
Como nestas notas só falaremos de operadores lineares, vamos freqüentemente omitir o qualificativo “linear” e falar
apenas em operadores. Operadores lineares são também denominados “transformações lineares” ou “aplicações lineares”.
3
David Hilbert (1862-1943).
4
Stefan Banach (1892-1945).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1013/1195

funções lineares entre espaços normados, das quais falaremos agora.

23.1 Operadores Lineares em Espaços Vetoriais Normados


Sejam então V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · k V e k · kW ,
respectivamente. Por exemplo V e W podem ser dois espaços de Banach ou de Hilbert, mas por ora
não vamos requerer nada sobre a completeza dos mesmos.
Um dos problemas básicos da teoria dos operadores lineares entre espaços vetoriais normados é
classificá-los de acordo com caracterı́sticas que permitam associar-lhes propriedades comuns. Veremos
várias dessas classificações ao longo destas notas, a mais básica, da qual trataremos a seguir, sendo a
continuidade. Outras classificações que veremos, em particular no contexto de espaços de Hilbert, são
a classificação de operadores em limitados ou não-limitados, fechados ou não-fechados, de fecháveis ou
não-fecháveis, de operadores auto-adjuntos ou não auto-adjuntos, de operadores compactos ou não etc.
Os exemplos mais bem conhecidos de operadores são as matrizes, que são operadores entre espaços
de dimensão finita como V = n e W = m . Acreditamos que os estudantes destas notas já tenham
noções bem definidas sobre matrizes mas, apesar disso, ou mesmo por isso, vale advertir que iremos
aqui desenvolver a teoria de operadores entre espaços vetoriais normados gerais, mesmo de dimensão
infinitas e, por isso, muito da intuição que desenvolvemos sobre matrizes não é mais válida. Por
exemplo, matrizes agindo entre n e m (com as normas usuais) são sempre operadores contı́nuos, um
fato não mais necessariamente verdadeiro para operadores lineares entre espaços vetoriais normados de
dimensão infinita. Tal é a origem de boa parte da dificuldades no estudo de operadores lineares agindo
entre espaços vetoriais normados em geral.

• Operadores Contı́nuos

Se V e W são dois espaços vetoriais normados ambos são espaços métricos com a métrica definida por
suas normas e, portanto, são espaços topológicos métricos. Conseqüentemente, ao falarmos de funções
entre V e W coloca-se a questão da continuidade dessas funções como funções entre dois espaços
topológicos métricos. Essa questão é de grande relevância, pois em espaços vetoriais de dimensão
infinita é muito freqüente o aparecimento de operadores lineares não-contı́nuos. De fato, na mecânica
quântica, por exemplo, quase todos os operadores com os quais tipicamente lidamos, como os operadores
de posição e de momento, não são contı́nuos. O ponto é que, como veremos, operadores não-contı́nuos
podem ter propriedades drasticamente diferentes das de operadores contı́nuos.
Como V e W são dois espaços métricos, valem as definições usuais de continuidade em espaços
métricos. Assim, dizemos que um operador T : V → W é contı́nuo se
 
T lim xn = lim T xn
n→∞ n→∞

para qualquer seqüência convergente {xn }n∈ em V. Note que, na última igualdade, o limite do lado


esquerdo refere-se à topologia de V enquanto que o limite do lado direito refere-se à topologia de W.
Equivalentemente (vide discussão à página 889) um operador T : V → W é contı́nuo se para todo
 > 0 e todo u ∈ V existir δ ≥ 0 (eventualmente dependente de  e de u) tal que kT u − T vkW ≤ 
sempre que v for tal que ku − vkV ≤ δ.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1014/1195

Adiante (vide por exemplo, página 1015) veremos exemplos de operadores não-contı́nuos. Passemos
primeiro a uma definição igualmente importante e que se mostrará equivalente à de continuidade.

• Operadores Limitados

De grande importância é também a seguinte definição. Um operador T : V → W é dito ser limitado


se existir uma constante M > 0 tal que para todo u ∈ V tem-se

kT ukW ≤ M kukV .

Note-se que a constante M acima deve ser a mesma para todo u.


A seguinte proposição tem importância fundamental:
Proposição 23.1 Um operador linear T agindo entre dois espaços vetoriais normados V e W é limi-
tado se e somente ser for contı́nuo. 2

Prova. Seja T limitado, ou seja, tal que existe M > 0 satisfazendo kT ukW ≤ M kukV para todo u ∈ V.
Seja  um número positivo arbitrário e sejam u e v dois vetores de V tais que ku − vk V ≤ /M . Então

kT u − T vkW = kT (u − v)kW ≤ M ku − vkV ≤ M = .
M
Assim, adotando-se δ = /M vemos que T satisfaz a definição de continuidade.
Provemos a recı́proca. Seja T contı́nuo. Então, vale que para todo  ≥ 0 e todo u ∈ V existe δ > 0
tal que kT u − T vkW ≤  sempre que v for tal que ku − vkV ≤ δ. Tomemos u = 0 e fixemos um .
Temos então que
kT vkW ≤ 
sempre que kvkV ≤ δ. Lembremos que a constante δ independe de v e que sempre podemos escolher
δ > 0.
Seja então u um vetor não-nulo arbitrário de V e seja
δ
v = u
kukV

é claro que
δ δ
kvkV =
kukV u = kukV = δ.
V kukV
Portanto, para esse v vale kT vkW ≤  e, então
 
δ δ
kT ukW = T u = kT vkW ≤ ,
kukV kukV W

ou seja,

kT ukW ≤ kukV .
δ
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1015/1195

Definindo M = /δ mostramos estão que kT ukW ≤ M kukV para todo u 6= 0. Para u = 0 essa relação
é trivialmente satisfeita e, portanto, vale para todo u ∈ V, mostrando que T é limitado.

• Exemplo de Operador Não-Limitado. O Funcional Delta de Dirac

Vamos a um exemplo de um operador agindo entre dois espaços vetoriais normados e que não é
limitado e, portanto, não é contı́nuo.
Seja V = C([−1, 1], ), o conjunto de todas as funções contı́nuas do intervalo [−1, 1] ⊂  com
valores complexos e adotemos como norma em V a norma L2 :
Z 1 1/2
2
kf kV = |f (x)| dx , f ∈ C([−1, 1], ).
−1

Seja W = e adotemos em W a norma usual

kzkW = |z|, z∈ .

Seja T0 : V → W o seguinte operador linear:

T0 f = f (0),

que associa a cada função f ∈ C([−1, 1], ) o seu valor no ponto 0. T0 é denominado funcional delta
de Dirac. É elementar mostrar que T0 é linear. Mostremos que T0 , porém, não pode ser contı́nuo.
Para isso, seja g(x) uma função de C([−1, 1], ) com a propriedade que g(−1) = g(1) = 0 e que
g(0) 6= 0. Para n ∈ defina



g(nx), para x ∈ [−1/n, 1/n],
un (x) =
0, de outra forma.

Como g foi escolhida de modo que g(−1) = g(1) = 0, é fácil verificar que un ∈ C([−1, 1], ) (por
que?).
Temos que
"Z #1/2 Z 1/2
1/n 1
2 1 2
kun kV = |g(nx)| dx = √ |g(x)| dx
−1/n n −1

e, portanto, kun kV → 0 quando n → ∞.


Por outro lado T0 un = un (0) = g(0) 6= 0 é constante, ou seja, não depende de n. Assim, temos que
 
T0 lim un = T0 0 = 0
n→∞

mas
lim T0 un = g(0) 6= 0,
n→∞

o que mostra que T0 não pode ser contı́nuo nem, portanto, limitado.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1016/1195

É fácil verificar que T0 também não seria contı́nuo se adotássemos em V a norma Lp (com p ≥ 1):
Z 1 1/p
p
kf kV = |f (x)| dx , f ∈ C([−1, 1], ).
−1

E. 23.1 Exercı́cio. Complete os detalhes da prova dessa última afirmação. 6

Se, porém, adotássemos em V a norma do supremo

kf kV = sup |f (x)|
x∈[−1, 1]

então T0 seria contı́nuo.

E. 23.2 Exercı́cio. Complete os detalhes dessa última afirmação. 6

Esses exemplos mostram mais uma vez que a continuidade de uma aplicação depende das topologias
adotadas.

• O espaço vetorial B(V, W)

Sejam V e W dois espaços vetoriais normados, cujas normas serão denotadas por k · k V e k · kW ,
respectivamente. Denotamos por B(V, W) o conjunto de todas os operadores lineares contı́nuos de V
em W.
O conjunto B(V, W) é um espaço vetorial sobre os complexos. De fato, dados dois operadores
quaisquer T e U ∈ B(V, W) podemos definir o operador αT + βU , com α, β ∈ , como sendo o
operador que associa a cada v ∈ V o vetor de W dado por αT v + βU v. É trivial ver que αT + βU é
também um operador linear e que também é contı́nuo.
Mais que isso, B(V, W) é um espaço vetorial normado, onde para cada operador T definimos sua
norma operatorial kT k como
kT ukW
kT k = sup . (23.1)
u∈V, u6=0 kukV

Notemos que o lado direito de (23.1) é finito pois T é limitado.

E. 23.3 Exercı́cio. Verifique que as propriedades que caracterizam uma norma são de fato satisfeitas
pela definição acima. 6

Notemos também que se T ∈ B(V, W) então para todo u ∈ V vale que

kT ukW ≤ kT k kukV.

E. 23.4 Exercı́cio. Por quê? 6

Mais adiante veremos que se W for um espaço de Banach então B(V, W) também é um espaço de
Banach em relação à norma definida acima. Esse fato é importante para toda a teoria dos operadores
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1017/1195

limitados em espaços de Hilbert e abre caminho para a teoria das chamadas álgebras de Banach e das
chamadas álgebras C∗ .

• Extensões de Operadores

Convidamos neste momento o leitor a reler a definição do conceito de extensão de funções à página
26. Esse conceito se aplica diretamente à teoria dos operadores lineares agindo entre espaços vetoriais.
Sejam V e W dois espaços vetoriais e T : V → W um operador linear agindo entre eles. Suponha
que V seja sub-espaço de um espaço vetorial V 0 . Uma extensão do operador T ao espaço V 0 seria um
função T 0 : V 0 → W tal que T 0 (v) = T v para todo v ∈ V . Se uma extensão T 0 de T for também um
operador linear de V 0 em W , então T 0 é dita ser uma extensão linear de T .
Como veremos, extensões lineares desempenham um papel importante no estudo de operadores
não-limitados em espaços de Hilbert.

23.1.1 Espaços de Banach de Operadores

• O Teorema BLT

Vamos agora enunciar e demonstrar um resultado sobre extensões lineares que será freqüentemente
usado adiante, muitas vezes até sem menção explı́cita.
Seja V um espaço vetorial normado, cuja norma é denotada por k · kV . O espaço vetorial V é
assim um espaço métrico e na discussão iniciada à página 739 discutimos o conceito de completamento
canônico de um espaço métrico genérico. Chamemos de Ṽ o completamento canônico de V. Como
discutimos à página 739 e seguintes, existe uma bijeção natural isométrica de V em um subconjunto
denso de Ṽ, de modo que podemos, com um pequeno abuso, considerar V como um subconjunto (denso)
de Ṽ, no mesmo sentido que usamos quando dizemos que o conjunto dos racionais é um subconjunto
denso dos reais, embora em princı́pio os reais sejam classes de equivalências de racionas e, portanto,
objetos de natureza diferente dos racionais.
Na discussão deste tópico adotaremos essa convenção de entender V como um subconjunto denso
de Ṽ.
Muitas vezes nos é apresentado um operador limitado T agindo entre dois espaços vetoriais normados
V e W, sendo V um espaço métrico não-completo. Muitas vezes é útil, conveniente ou mesmo necessário
saber se é possı́vel estender o operador T para o completamento canônico Ṽ de V. Veremos abaixo
aplicações em que tal procedimento é útil. Será isso sempre possı́vel? Será a extensão também contı́nua?
E se o for, será a extensão obtida a única possı́vel?
O teorema seguinte nos dá condições suficientes para que uma tal extensão exista e seja única, a
saber, basta que W seja completo. Esse teorema é denominado por alguns autores de Teorema BLT
(“bounded linear transformation”).
Teorema 23.1 (BLT) Seja V um espaço vetorial normado, cuja norma é denotada por k · k V e seja
W um espaço vetorial normado, cuja norma é denotada por k · k W . Suponha que W seja completo na
métrica definida pela norma k·kW , ou seja, suponha que W seja um espaço de Banach. Então para todo
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1018/1195

operador linear limitado T : V → W, T ∈ B(V, W), existe uma extensão T̃ : Ṽ → W que também é
um operador linear limitado, T̃ ∈ B(Ṽ, W), e tal que kT̃ kB(Ṽ, W) = kT kB(V, W) . Fora isso, tal extensão
é a única com as propriedades mencionadas. 2

Prova. A demonstração consiste em construir a extensão T̃ e mostrar que a mesma satisfaz as propri-
edades mencionadas. A primeira etapa é a construção de T̃ .
Como entendemos V como um subconjunto denso de Ṽ, todo elemento de Ṽ é limite de uma seqüência
de elementos de V. Seja então x ∈ Ṽ e seja {xn }n∈ uma seqüência de elementos de V que converge a


x. Como {xn }n∈ converge, é uma seqüência de Cauchy.




Seja yn = T xn ∈ W. Mostremos que {yn }n∈ é um seqüência de Cauchy de elementos de W. De




fato,

kym − yn kW = kT (xm − xn )kW ≤ kT kB(V, W) kxm − xm kV = kT kB(V, W) kxm − xm kṼ .

Como {xn }n∈ é uma seqüência de Cauchy em Ṽ, o lado direito pode ser feito menor que qualquer  > 0


dado, desde que m e n sejam grandes o suficiente, mostrando que {yn }n∈ é de fato um seqüência de


Cauchy de elementos de W. O ponto crucial é que estamos supondo que W seja completo e, portanto
{yn }n∈ converge a um elemento de W que chamaremos de y. Esse é o ingrediente que nos permite


definir T̃ como sendo a função que associa x a y:

T̃ (x) := y,

ou seja,
T̃ (x) := lim T xn .
n→∞

Um ponto lógico que ainda tem que ser exibido antes de passarmos adiante é mostrar que essa definição
não depende da particular seqüência {xn }n∈ adotada que converge a x ∈ Ṽ. Para isso basta mostrar


que se {x0n }n∈ é uma outra seqüência que converge a x então {T x0n }n∈ também converge ao mesmo
 

y. A demonstração disso está nas seguintes desigualdades. Seja y 0 o limite de {T x0n }n∈ (que existe 

pelos mesmos argumentos de acima). Então

ky − y 0 kW = k(y − T xn ) + T (xn − x0n ) + (T x0n − y 0 )kW

≤ ky − T xn kW + kT (xn − x0n )kW + kT x0n − y 0 kW

≤ ky − T xn kW + kT kB(V, W) kxn − x0n kṼ + kT x0n − y 0 kW .

= ky − T xn kW + kT kB(V, W) k(xn − x) − (x0n − x)kṼ + kT x0n − y 0 kW

≤ ky − T xn kW + kT kB(V, W) (kxn − xkṼ + kx0n − xkṼ ) + kT x0n − y 0 kW . (23.2)

É fácil agora ver que, pelas hipóteses, cada um dos termos da última linha vai a zero quando n → ∞,
mostrando que ky − y 0 kW = 0 e que, portanto, y = y 0 .
Assim, T̃ está bem definido como uma função de Ṽ em W. Temos agora que mostrar que 1o T̃ é
uma extensão de T ; 2o T̃ é linear; 3o kT̃ kB(Ṽ, W) = kT kB(V, W) .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1019/1195

Provemos 1 com a observação que cada x ∈ V é identificado em Ṽ com a seqüência constante xn = x.


T̃ (x) = lim T xn = lim T x = T x,
n→∞ n→∞

mostrando que T̃ e T coincidem em V.


Para mostrar a linearidade notemos que se {un ∈ V}n∈ converge a u ∈ Ṽ e {vn ∈ V}n∈ converge
 

a v ∈ Ṽ então {αun + βvn ∈ V}n∈ converge a αu + βv.




E. 23.5 Exercı́cio. Se isso não é óbvio para você, complete os detalhes. 6

Daı́, segue imediatamente que


T̃ (αu + βv) = lim T (αun + βvn ) = α lim T un + β lim T vn = αT̃ (u) + β T̃ (v).
n→∞ n→∞ n→∞

Passemos à demonstração do ponto 3. Pela continuidade da norma (vide página 988) temos que
para todo x ∈ Ṽ e toda seqüência xn de elementos de V que converge a x

kT̃ xkW = k lim T xn kW = lim kT xn kW ≤ kT kB(V, W) lim kxn kV


n→∞ n→∞ n→∞

= kT kB(V, W) k lim xn kV = kT kB(V, W) kxkV ,


n→∞

que demonstra que T̃ é limitado e que kT̃ kB(Ṽ, W) ≤ kT kB(V, W) .


Tem-se, porém, que, pela definição de norma operatorial,
kT̃ ukW kT̃ ukW kT ukW
kT̃ kB(Ṽ, W) = sup ≥ sup = sup = kT kB(V, W) ,
u∈Ṽ, u6=0 kukṼ u∈V, u6=0 kukV u∈V, u6=0 kukV

que demonstra que kT̃ kB(Ṽ, W) ≥ kT kB(V, W) , estabelecendo, assim, a igualdade kT̃ kB(Ṽ, W) = kT kB(V, W) .

• B(V, W) é um espaço de Banach se W o for

Já vimos que se V e W são espaços normados, com normas k · kV e k · kW , respectivamente, então
B(V, W), o espaço vetorial dos operadores contı́nuos agindo entre V e W, é também um espaço
normado, com a chamada norma operatorial
kT ukW
kT k = sup , T ∈ B(V, W).
u∈V, u6=0 kukV

B(V, W) é um espaço métrico na métrica definida pela norma. Essa topologia métrica definida em
B(V, W) pela norma operatorial é denominada topologia uniforme.
Vamos mostrar aqui o seguinte teorema, de grande importância na teoria dos operadores limitados
em espaços de Hilbert e que abre caminho para a teoria das chamadas álgebras de Banach e para as
chamadas álgebras C∗ .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1020/1195

Teorema 23.2 Se W é um espaço vetorial normado completo, ou seja, se é um espaço de Banach,


então B(V, W) é também um espaço vetorial normado completo. 2

Prova. O que temos que mostrar é que se An , n ∈ , for uma seqüência de Cauchy em relação à


métrica definida pela norma operatorial, então An converge nessa métrica a um operador que também
é linear e limitado, ou seja, também um elemento de B(V, W). A estratégia que seguiremos, como
na demonstração do Teorema BLT, é exibir um candidato a ser o limite da seqüência A n , mostrar que
esse candidato é um operador linear e contı́nuo e, por fim mostrar que ele é, de fato, limite dos A n ’s
na topologia uniforme.
Seja então An , n ∈ uma seqüência de Cauchy em relação à métrica definida pela norma opera-


torial. Portanto, para todo  > 0 existe N () tal que para todo m, n ≥ N () tem-se kA m − An k ≤ .
Seja x ∈ V e seja a seqüência em W dada por

yn = An x.

É fácil mostrar que yn , n ∈  , é uma seqüência de Cauchy em W. De fato, se m, n ≥ N (),

kym − yn kW = kAm x − An xkW = k(Am − An )xkW ≤ k(Am − An )k kxkV ≤ kxkV ,

mostrando que yn , n ∈  , é uma seqüência de Cauchy.


O ponto crucial é que fizemos a hipótese que W é um conjunto completo. Assim, a seqüência y n
converge a um elemento de W que denominaremos y. Como cada yn depende de x, o vetor y também
depende de x, que é um vetor arbitrário de V. Definimos então A : V → W como sendo a função que
associa cada x ∈ V ao vetor y ∈ W correspondente:

A(x) = y,

ou seja,
A(x) = lim An x,
n→∞

onde o limite é entendido na topologia métrica de W definida pela norma k · kW .


Essa função A é nossa candidata a ser o limite da seqüência An n ∈ , na topologia uniforme. Para


tal, temos que demonstrar que 1o A é um operador linear; 2o A é um operador limitado e, portanto,
um elemento de B(V, W) e 3o A é o limite da seqüência An n ∈ , na topologia uniforme. 

Prova de 1. Pela definição, para quaisquer α, β ∈ e quaisquer u, v ∈ V,

A(αu + βv) = lim An (αu + βv) = α lim An u + β lim An v = αA(u) + βA(v),


n→∞ n→∞ n→∞

provando a linearidade de A.
Prova de 2. Para provar que A é limitado (e, portanto, contı́nuo) precisamos antes mostrar que a
seqüência de números reais positivos kAn k, n ∈ , converge.


Para tal, fazemos uso da desigualdade (2.19), página 122. Temos

| kAm k − kAn k | ≤ kAm − An k.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1021/1195

Assim, se o lado direito é menor que  para m e n ≥ N (), o lado esquerdo também é, provando que
kAn k, n ∈ , é uma seqüência de Cauchy de números reais. Como
 é completo, essa seqüência


converge a um número que chamaremos A ≥ 0.


Assim, usando a continuidade da norma (vide página 988),
 
kAxkW = k lim An xkW = lim kAn xkW ≤ lim kAn k kxkV = AkxkV ,
n→∞ n→∞ n→∞

que mostra que A é limitado e, portanto, contı́nuo.


Prova de 3. Acabamos de mostrar que A é um elemento de B(V, W). Resta apenas mostrar que A
é o limite dos An ’s na topologia uniforme.
Para qualquer n e qualquer x ∈ V, tem-se pela continuidade da norma que
 

k(A − An )xkW = lim (Am − An )x = lim k(Am − An )xkW ≤ lim k(Am − An )k kxkV .
m→∞ W m→∞ m→∞

Assim,
k(A − An )xkW
kA − An k = sup ≤ lim k(Am − An )k
x∈V, x6=0 kxkV m→∞

Como An , n ∈ , é um seqüência de Cauchy, vale para qualquer  > 0 que k(Am − An )k ≤  sempre


que m e n ≥ N (). Assim, limm→∞ k(Am − An )k ≤  sempre que n ≥ N (). Logo, pelo que mostramos,
kA − An k ≤  sempre que n ≥ N (), o que diz que A é o limite dos An ’s na topologia uniforme, como
querı́amos provar.

23.1.2 O Dual Topológico de um Espaço de Banach


Seja V um espaço vetorial sobre corpo . Uma aplicação l : V → , definida sobre todo V , é dita ser
um funcional linear se
l(αx + βy) = αl(x) + βl(y)
para todo x, y ∈ V e todo α, β ∈ .
O conjunto de todas os funcionais lineares de V em é denominado espaço dual algébrico de V e
denotado V 0 . O conjunto V 0 é feito um espaço vetorial (sobre ), através da seguinte relação:
(αl + βm)(x) = l(αx) + m(βx),
para todo l e m ∈ V 0 ; α, β ∈ e todo x ∈ V . O vetor nulo de V 0 é o funcional linear que associa
trivialmente todo vetor de V a zero: l(x) = 0, ∀x ∈ V .
Seja X um espaço de Banach. O conjunto de todos os funcionais lineares contı́nuos sobre X é dito
ser o dual topológico de X. O dual topológico de X será denotado nestas notas por X † . Note-se que
X † ⊂ X 0.
Pela sua definição, podemos identificar X † com o conjunto B(X, ). Isso nos leva a concluir que
X † é igualmente um espaço normado com a norma
|l(x)|
klkX † = sup . (23.3)
x∈X, x6=0 kxkX
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1022/1195

Mais que isso, o Teorema 23.2, página 1020, diz-nos que X † é também um espaço de Banach em relação
a essa norma. Conseqüentemente o espaço (X † )† , o dual topológico de X † , é igualmente um espaço de
Banach, e assim por diante. (X † )† é por vezes denominado o dual (topológico) duplo de X ou bidual
(topológico) de X. Podemos nos perguntar qual a relação entre esses espaços.
De maneira geral podemos sempre identificar X com um subconjunto de (X † )† , no seguinte sentido:
existe uma aplicação injetora de X em (X † )† . Denominemos essa aplicação D : X → (X † )† . Podemos
defini-la da seguinte forma. Se x ∈ X definimos D(x) como sendo o elemento de (X † )† que a cada
l ∈ X † associa o número l(x):
D(x)(l) = l(x).
É fácil verificar que D é linear e injetora, não o faremos aqui. Que D(x) é contı́nuo segue do fato que
|D(x)(l)| = |l(x)| ≤ kxkX klkX † , que mostra que D(x) é limitado. É uma conseqüência do Teorema de
Hahn-Banach, mais precisamente, a Proposição 23.4, página 1030, que D é uma isometria, ou seja,

kD(x)k(X † )† = kxkX (23.4)

E. 23.6 Exercı́cio. Prove essa afirmação usando a Proposição 23.4. Essa afirmação é um caso particular
da Proposição 23.10, página 1049. 6

• Espaços Reflexivos

Essas observações dizem-nos que, em um certo sentido, podemos considerar X como um subcon-
junto de seu bidual topológico (X † )† pois D(X) ⊂ (X † )† . Quando estudamos o dual algébrico de
espaços vetoriais (seção 2.1.3, página 100 e seguintes) demonstramos um teorema (Teorema 2.5, página
105) que afirma que o bidual algébrico de um espaço vetorial V de dimensão algébrica infinita é sempre
estritamente maior que V . No caso do bidual topológico de espaços de Banach isso não é mais neces-
sariamente verdade, pois há espaços de Banach que possuem a propriedade que D(X) = (X † )† . Tais
espaços são ditos reflexivos.
Os espaços Lp ( , dx) com 1 < p < ∞ são reflexivos pois (Lp ( , dx))† = Lq ( , dx) com p−1 +q −1 =
  

1, de onde segue facilmente que ((Lp ( , dx))† )† = Lp ( , dx) (por que?). Para uma prova que
 

(Lp ( , dx))† = Lq ( , dx) vide, por exemplo, [104]. Os espaços L1 ( , dx) e L∞ ( , dx) não são
   

reflexivos.
Um fato importante é que todos os espaços de Hilbert são reflexivos. Isso segue o Teorema da
Representação de Riesz (página 1008) e de algumas considerações simples, como mostraremos agora.

• Espaços de Hilbert são reflexivos

O Teorema da Representação de Riesz (página 1008) afirma que se H é um espaço de Hilbert e


l ∈ H† é um funcional linear contı́nuo agindo em H então existe um e somente um elemento ψl ∈ H
tal que l(x) = hψl , xi para todo x ∈ H. Vamos denominar por R : H† → H a função que associa cada
l ∈ H† a seu vetor ψl ∈ H:
l(x) = hR(l), xi, ∀x ∈ H. (23.5)
O Teorema de Representação de Riesz diz-nos que R é injetora. De fato R : H † → H é também bijetora
pois é sobrejetora. Para ver isso, notemos que se φ ∈ H então H 3 x 7→ f (x) = hφ, xi define um
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1023/1195

funcional contı́nuo em H e, portanto, R(f ) = φ, mostrando que todo elemento de H está na imagem
de R.
Devido às propriedades do produto escalar, R é uma aplicação anti-linear, ou seja,

R(αl + βl0 ) = αR(l) + βR(l0 )

para todos α, β ∈ e todos l, l0 ∈ H† , pois devemos ter

(αl + βl0 )(x) = αl(x) + βl0 (x)

e, com a anti-linearidade de R temos de fato

(αl + βl0 )(x) = hR(αl + βl0 ), xi = hαR(l) + βR(l0 ), xi = αhR(l), xi + βhR(l0 ), xi = αl(x) + βl0 (x)

como desejado.
Com essas observações é fácil ver que o espaço H † é um espaço vetorial com produto escalar, dado
por
hl, miH† = hR(m), R(l)i = m(R(l)). (23.6)
Repare a ordem invertida!

E. 23.7 Exercı́cio. Mostre que todas as propriedades de produto escalar estão satisfeitas. 6

Com essa definição de produto escalar podemos introduzir em H † uma norma, que denotaremos
provisoriamente por klk1 , dada por
p
klk1 = hR(l), R(l)i = kR(l)k.

Para mostrar que H† é um espaço de Hilbert precisamos mostrar que o mesmo é completo em relação
a essa norma k · k1 . A chave para isso é mostrar que as normas k · k1 e k · kH† (definida em (23.3)) são
iguais e lembrar que pelo, Teorema 23.2, página 1020, H † é completo em relação à norma k · kH† .
Proposição 23.2 Sejam H um espaço de Hilbert e H † seu espaço dual topológico. Então a norma
norma k · k1 definida acima e a norma k · kH† são iguais. 2

Prova. Seja l ∈ H† . Queremos provar que klk1 = klkH† . Se l = 0 a identidade é trivial. Seja então
l 6= 0. Pela definição
|l(x)| |hR(l), xi| |hR(l), R(l)i|
klkH† = sup = sup ≥ = kR(l)k = klk1 .
x∈H, x6=0 kxk x∈H, x6=0 kxk kR(l)k
Por outro lado, pela desigualdade de Cauchy-Schwarz, tem-se para x 6= 0
|hR(l), xi| kR(l)k kxk
≤ = kR(l)k.
kxk kxk
Logo,
|l(x)| |hR(l), xi|
klkH† = sup = sup ≤ kR(l)k = klk1 ,
x∈H, x6=0 kxk x∈H, x6=0 kxk
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1024/1195

provando que klkH† = klk1 .

Isso diz-nos, então, que H† é não apenas um espaço com um produto interno, mas é completo em
relação a norma definida por esse produto interno pois essa norma coincide com a norma k · k H† em
relação à qual H† é completo pelo Teorema 23.2, página 1020. Em resumo: H † é também um espaço
de Hilbert!
Vamos com isso mostrar agora que H é reflexivo.
Proposição 23.3 Se H é um espaço de Hilbert então D(H) = (H † )† , ou seja, todo espaço de Hilbert
é reflexivo. 2

Prova. Acabamos de ver que se H é um espaço de Hilbert então H † e, conseqüentemente, (H† )† também
são espaços de Hilbert.
Já vimos acima que R : H† → H é uma aplicação anti-linear bijetora. Assim, possui uma inversa
R−1 : H → H† que também é anti-linear e bijetora. Como H† é também um espaço de Hilbert,
segue pelo Teorema da Representação de Riesz que também existe uma aplicação anti-linear bijetora
S : (H† )† → H† com uma inversa S−1 : H† → (H† )† igualmente anti-linear e bijetora.
Por analogia com (23.5), vale que para todo J ∈ (H † )† e todo l ∈ H† que

J(l) = hS(J), liH† .

Note que, por (23.6),


J(l) = hS(J), liH† = hR(l), R(S(J))i.

Como S−1 e R−1 são ambas anti-lineares e bijetoras, a composição S−1 ◦ R−1 : H → (H† )† é linear
(por que?) e bijetora. Podemos verificar que S−1 ◦ R−1 é, em verdade, igual a D pois, para todo l ∈ H†
e todo x ∈ H,

(S−1 ◦ R−1 (x))(l) = hS(S−1 ◦ R−1 (x)), liH†

= hR−1 (x), liH†

= hR(l), R(R−1 (x))i

= hR(l), xi

= l(x)

= D(x)(l), (23.7)

provando que S−1 ◦ R−1 = D.


Assim, como S−1 ◦ R−1 é bijetora, D também o é, mostrando que D(H) = (H† )† .

E. 23.8 Exercı́cio. Você entendeu mesmo todas as passagens de (23.7)? 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1025/1195

23.1.3 O Teorema de Hahn-Banach e Algumas Conseqüências do Mesmo


A existência de funcionais lineares em espaços vetoriais satisfazendo certas propriedades e de extensões
dos mesmos é um assunto recorrente na Análise Funcional. Um papel de central importância no estudo
desse tipo de questão é o Teorema de Hahn5 -Banach6 , ao qual dedicamos a presente seção. Antes de
enunciarmos esse teorema (em suas várias formas), lembremos algumas noções referentes a funcionais
definidos em espaços vetoriais reais.

• Funcionais sub-aditivos, sub-lineares e convexos

Seja V um espaço vetorial real. Um funcional real h : V →  é dito ser

1. positivo-homogêneo se h(λx) = λh(x) para todo x ∈ V e todo λ ≥ 0,

2. aditivo se h(x + y) = h(x) + h(y) para todos x, y ∈ V .

3. sub-aditivo se h(x + y) ≤ h(x) + h(y) para todos x, y ∈ V ,

4. sup-aditivo se h(x + y) ≥ h(x) + h(y) para todos x, y ∈ V ,

5. sub-linear se for positivo-homogêneo e sub-aditivo,

6. sup-linear se for positivo-homogêneo e sup-aditivo,

7. linear se h(αx + βy) = αh(x) + βh(y) para todos x, y ∈ V e todos α, β ∈  ,

8. convexo se h(αx + (1 − α)y) ≤ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1],

9. côncavo se h(αx + (1 − α)y) ≥ αh(x) + (1 − α)h(y) para todos x, y ∈ V e todo α ∈ [0, 1].

sub-aditiv.
Se h : V →  é sub-linear, então é convexo, pois se α ∈ [0, 1], vale h(αx + (1 − α)y) ≤
homogen. pos.
h(αx) + h((1 − α)y) = αh(x) + (1 − α)h(y). Analogamente, se h é sup-linear, então é côncavo.
A recı́proca não é necessariamente verdadeira. Por exemplo, h : → dada por h(x) = x 2 é convexo,
 

mas não é sub-aditivo, nem positivo-homogêneo.


O Teorema de Hahn-Banach, que apresentaremos a seguir, aplica-se a funcionais convexos e, por-
tanto, abrange também os funcionais sub-lineares. Desde seu surgimento entre 1927 e 1929 esse teorema
revelou-se rico em conseqüências fundamentais, algumas das quais discutiremos no contexto de espaços
normados e de Banach. Como veremos, o Teorema de Hahn-Banach garante condições suficientes
para a existência de extensões de funcionais lineares e tem uma versão para espaços vetoriais reais e
uma generalização para espaços vetoriais complexos. Essa segunda data de 1938 e é devida a H. F.
Bohnenblust e A. Sobczyk.

• Existência de extensões majoradas por funcionais convexos

5
Hans Hahn (1879-1934).
6
Stefan Banach (1892-1945).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1026/1195

O seguinte lema, que desempenhará um papel decisivo na demonstração do Teorema de Hahn-


Banach, ensina-nos que todo funcional linear definido em um sub-espaço de um espaço vetorial real
e que é majorado por um funcional convexo globalmente definido, possui pelo menos uma extensão
global que também é um funcional linear e também é majorado pelo mesmo funcional convexo.
Lema 23.1 Seja V um espaço vetorial real e seja f1 : V1 → um funcional linear definido em V1 , um


sub-espaço próprio de V . Suponha que exista um funcional convexo p : V → tal que f 1 (y) ≤ p(y)


para todo y ∈ V1 . Então, para cada z 6∈ V1 , não-nulo, existe um funcional linear f2 : V2 → , definido 

no sub-espaço V2 , gerado por V1 e por z, tal que f2 é uma extensão de f1 (ou seja, f2 (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz f2 (w) ≤ p(w) para todo w ∈ V2 . 2

Prova do Lema 23.1. Vamos tomar um vetor não-nulo z 6∈ V1 , doravante fixo, e denotar por V2 o
sub-espaço gerado pelos vetores de V1 e z. Definamos f2 : V2 → por 

f2 (αz + y) := αF + f1 (y) (23.8)

para todo α ∈ e todo y ∈ V1 , onde F é uma constante arbitrária a ser especificada mais abaixo.


Notemos que devido à linearidade de f1

(23.8)
f2 ((αz + y) + (α0 z + y 0 )) = f2 ((α + α0 )z + (y + y 0 )) = (α + α0 )F + f1 (y + y 0 )

= (αF + f1 (y)) + (α0 F + f1 (y 0 )) = f2 ((αz + y)) + f2 ((α0 z + y 0 )) ,

o que mostra que f2 é linear. É também claro (tomando α = 0) que f2 (y) = f1 (y) para y ∈ V1 , o que
significa que f2 estende f1 a V2 . Sobre a constante F notemos, tomando y = 0, que F = f2 (z), ou seja,
fixar F fixa f2 em z.
Fixaremos F impondo a condição que f2 (w) ≤ p(w) para todo w ∈ V2 . Assim, para todo α ∈ e 

todo y ∈ V1 desejamos que


αF + f1 (y) ≤ p(αz + y) . (23.9)
Para α = 0 a relação f1 (y) ≤ p(y) seria satisfeita por hipótese. Para α > 0 e y ∈ V1 arbitrários, (23.9)
implicaria
1 1
F ≤ p(αz + y) − f1 (y)
α α
7
e para α < 0 e y ∈ V1 arbitrários ,
1 1
F ≥ p(αz + y) − f1 (y) .
α α
Reciprocamente, se ambas essas condições são satisfeitas, valerá também (23.9) para todo α ∈  e todo
y ∈ V1 .
É claro que existirá um F satisfazendo ambas as condições se e somente se valer
1 1 1 1
p(−λz + y) − f1 (y) ≤ 0 p(λ0 z + y 0 ) − 0 f1 (y 0 ) (23.10)
−λ −λ λ λ
7
A desigualdade se inverte devido ao sinal de α.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1027/1195

para todos λ, λ0 > 0 e todos y, y 0 ∈ V1 . Mas essa desigualdade é verdadeira, pois


   
1 1 0 λ + λ0 λ0 λ 0
f1 (y) + 0 f1 (y ) = f1 y+ y
λ λ λλ0 λ + λ0 λ + λ0
   
λ + λ0 λ0 λ 0 0
= f1 (y − λz) + (y + λ z)
λλ0 λ + λ0 λ + λ0
   
hipótese λ + λ0 λ0 λ 0 0
≤ p (y − λz) + (y + λ z)
λλ0 λ + λ0 λ + λ0
  
convexidade λ + λ0 λ0 λ 0 0
≤ p(y − λz) + p(y + λ z)
λλ0 λ + λ0 λ + λ0

1 1
= p(y − λz) + 0 p(y 0 + λ0 z) ,
λ λ
o que implica (23.10). Assim, F pode ser escolhido de modo que
   
1 1 1 0 0 1 0
sup p(−λz + y) + f1 (y) ≤ F ≤ 0 inf0 p(λ z + y ) − 0 f1 (y ) , (23.11)
λ>0, y∈V1 −λ λ λ >0, y ∈V1 λ0 λ

e (23.9) valerá, ou seja, teremos f2 (w) ≤ p(w) para todo w ∈ V2 .

Note o leitor que (23.11) não-necessariamente implica em uma escolha única para F , mas isso
não importa, pois o Lema 23.1 não fala em unicidade, nem a mesma é esperada sob as hipóteses
consideradas.
O Lema 23.1 tem a seguinte interpretação geométrica em 3 . Seja uma linha reta f1 em 3 .
 

Suponha que exista um volume convexo e não-compacto r em 3 , delimitado por uma superfı́cie


bidimensional p, e que não intercepte a reta f1 . Então existe um (não-necessariamente único) plano f2
que contem f1 e que também não intercepta a superfı́cie p em 3 . 

E. 23.9 Exercı́cio. Justifique as afirmações do último parágrafo com base no Lema 23.1 e/ou procure
convencer-se de sua veracidade com um pouco de ginástica geométrica mental. Convença-se que o plano
f2 nem sempre é unicamente determinado. 6

• O Teorema de Hahn-Banach para espaços vetoriais reais

O que fizemos com o Lema 23.1 foi estender f1 a um funcional linear f2 definido em um sub-espaço
V2 que adiciona a V1 uma dimensão extra gerada por um vetor z 6∈ V1 e de modo a preservar a majoração
pelo funcional convexo p. Vamos agora mostrar como esse fato implica a existência de um funcional
linear definido em todo V , estendendo f1 e também majorado por p. Esse é o conteúdo do célebre
Teorema de Hahn-Banach.
O Teorema de Hahn-Banach ensina uma condição suficiente para que um funcional linear definido
em um sub-espaço tenha uma extensão ao espaço todo. A condição é a existência de um funcional
convexo que o majore. Na prática da Análise Funcional é muito importante conhecer condições sob
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1028/1195

as quais a existência de extensões globais de funcionais lineares possa ser garantida, daı́ a importância
de teoremas de extensão, como o de Hahn-Banach. Como veremos, o mesmo conduz a resultados
não-triviais, por exemplo na teoria de espaços de Banach.
Teorema 23.3 (Teorema de Hahn-Banach para espaços vetoriais reais) Seja V um espaço ve-
torial real e seja f1 : V1 → um funcional linear definido em um sub-espaço V1 de V . Suponha que


exista um funcional convexo p : V → tal que f1 (y) ≤ p(y) para todo y ∈ V1 . Então, existe um
funcional linear f : V →  que é uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e
satisfaz f (x) ≤ p(x) para todo x ∈ V . 2

Prova do Teorema 23.3. Se V1 = V não há o que demonstrar, pois podemos tomar f = f1 . Consideremos,
então, que V1 é um sub-espaço próprio de V .
Seja F1 a coleção de todos os funcionais lineares ` definidos em sub-espaços de V e que sejam
extensões de f1 e satisfaçam `(w) ≤ p(w) para todo w pertencente a seu sub-espaço de definição. É
claro que f1 ∈ F1 e, além disso, o Lema 23.1 ensina-nos que se V1 é um sub-espaço próprio de V , então
F1 contem elementos outros que não o próprio f1 .
Consideremos em F1 a relação de ordem `2  `1 se `2 for uma extensão de `1 . Seja {`α , α ∈ Λ}
um conjunto linearmente ordenado (pela relação de ordem acima) de elementos de F1 e denotemos Vα
[V onde cada `α está definido. É claro que Vα ⊃ Vβ se `α  `β , já que `α estende `β .
o sub-espaço de
Assim, W := Vα será um sub-espaço de V e podemos definir em W um funcional `W da seguinte
α∈Λ
forma: `W (x) = `α (x) se x ∈ Vα . É elementar constatar que `W é linear e é evidente pela construção
que `W  `α para todo α ∈ Λ. Resumindo, provamos que todo um conjunto linearmente ordenado de
elementos de F1 possui um majorante.
Pelo Lema de Zorn (página 35), isso implica que F1 possui um elemento maximal f , definido em
algum sub-espaço V 0 de V . Mas, em verdade, V 0 tem que ser igual a V , pois se assim não fosse
poderı́amos, como afirma o Lema 23.1, tomar um z 6∈ V 0 não-nulo e construir uma extensão linear de
f que seria também majorada por p, ou seja, seria um elemento de F1 , contrariando o fato de f ser
maximal.
Assim, f é um funcional linear definido em todo V que estende f1 e é majorado por p, pois f é um
elemento de F1 . Isso completa a demonstração.

Vamos agora apresentar a generalização do Teorema de Hahn-Banach para espaços vetoriais com-
plexos.

• O Teorema de Hahn-Banach para espaços vetoriais complexos

Teorema 23.4 (Teorema de Hahn-Banach para espaços vetoriais complexos) Seja V um es-
paço vetorial complexo e seja f1 : V1 → um funcional linear definido em um sub-espaço V1 de V .
Suponha que exista um funcional real p : V → satisfazendo p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos


x, y ∈ V e todos α, β ∈ tais que |α| + |β| = 1 e de forma que |f1 (y)| ≤ p(y) para todo y ∈ V1 . Então,
existe um funcional linear complexo f : V → que é uma extensão de f 1 (ou seja, f (y) = f1 (y) para
todo y ∈ V1 ) e satisfaz |f (x)| ≤ p(x) para todo x ∈ V . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1029/1195

Prova. A prova faz uso do Teorema 23.3, como esperado. Começamos separando f 1 em suas partes
real e imaginária. Definamos g1 (y) := Re (f1 (y)), y ∈ V1 . Teremos g1 (iy) = Re (f1 (iy)) = Re (if1 (y)) =
−Im (f1 (y)), de modo que podemos escrever

f1 (y) = g1 (y) − ig1 (iy) . (23.12)

Observemos que para λ, λ0 reais e y, y 0 ∈ V1 arbitrários, tem-se g1 (λy + λ0 y 0 ) = Re (f1 ((λy + λ0 y 0 )) =


Re (λf1 (y)+λ0 f1 (y 0 )) = λRe (f1 (y))+λ0 Re (f1 (y 0 )), provando que g1 : V1 → é um funcional real linear.


Fora isso, g1 (y) := Re (f1 (y)) ≤ |Re (f1 (y))| ≤ |f1 (y)| ≤ p(y). Estamos, portanto, sob as hipóteses do
Teorema 23.3 e podemos afirmar que existe um funcional linear real g : V → que estende g 1 e satisfaz


g(x) ≤ p(x) (23.13)

para todo x ∈ V . Isto posto, definamos, inspirados em (23.12),

f (x) := g(x) − ig(ix) .

Como g é real, é evidente que


 
Re f (x) = g(x) e Im f (x) = −g(ix) . (23.14)

Vamos provar três fatos sobre f : 1) f é uma extensão de f1 ; 2) f é um funcional linear complexo;
3) |f (x)| ≤ p(x) para todo x ∈ V .

(23.12)
1) Para y ∈ V1 tem-se f (y) = g(y) − ig(iy) = g1 (y) − ig1 (iy) = f1 (y), provando que f estende f1 .
2) Para provar que f é linear, provemos os seguintes passos:

a. f é aditivo, ou seja, f (x + x0 ) = f (x) + f (x0 ) para todos x, x0 ∈ V . De fato, g é linear


real e, portanto, aditivo, ou seja, g(x + x0 ) = g(x) + g(x0 ) para todos x, x0 ∈ V . Assim,
f (x + x0 ) = g(x + x0 ) − ig(i(x + x0 )) = g(x) + g(x0 ) − ig(ix) − ig(ix0 ) = f (x) + f (x0 ),
estabelecendo que f é também aditivo.
b. f (λx) = λf (x) para todo λ ∈ e todo x ∈ V . De fato, se λ ∈
  , vale f (λx) = g(λx) −
ig(iλx) = λg(x) − λig(ix) = λf (x), devido a g ser linear real.
c. f (ix) = if (x) para todo x ∈ V . De fato, g é linear real e, portanto, g(−x) = −g(x). Assim,
f (ix) = g(ix) − ig(−x) = g(ix) + ig(x) = i(g(x) − ig(ix)) = if (x).
d. Para todo ζ ∈ e todo x ∈ V vale f (ζx) = ζf (x). De fato, se λ, λ0 ∈ , f ((λ + iλ0 )x) = 

aditividade passo b passo c


f (λx + iλ0 x) = f (λx) + f (iλ0 x) = λf (x) + λ0 f (ix) = λf (x) + λ0 if (x) = (λ +
iλ0 )f (x).
e. f é linear complexa. De fato, para ζ, ζ 0 ∈ e x, x0 ∈ V temos, juntando os fatos provados
aditividade passo d
nas linhas anteriores, f (ζx + ζ 0 x0 ) = f (ζx) + f (ζ 0 x0 ) = ζf (x) + ζ 0 f (x0 ).
3) Uma vez estabelecido que f é um funcional linear complexo em V , resta-nos demonstrar que
|f (x)| ≤ p(x) para todo x ∈ V .
Observemos primeiramente que do fato de p(αx + βy) ≤ |α|p(x) + |β|p(y) para todos x, y ∈ V e
todos α, β ∈ tais que |α| + |β| = 1, segue, que p(αx) = p(x) para todo α satisfazendo |α| = 1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1030/1195

e todo x ∈ V . De fato, tomando β = 0, tem-se que da desigualdade acima que p(αx) ≤ p(x)
para todo x ∈ V e todo α ∈ com |α| = 1. Definindo y = αx e notando que |α −1 | = 1, seque
igualmente que p(x) = p(α−1 y) ≤ p(y) = p(αx), provando que p(αx) = p(x).
Escrevendo f (x) ∈ na forma polar f (x) = |f (x)|eiθ , com |eiθ | = 1, tem-se
     
linearidade
|f (x)| = Re |f (x)| = Re e−iθ f (x) = Re f (e−iθ x)

(23.14) (23.13)
= g(e−iθ x) ≤ p(e−iθ x) = p(x) .

Isso completa a demonstração do Teorema 23.4.

Talvez as conseqüências mais importantes do Teorema de Hahn-Banach dão-se no contexto de


espaços vetoriais normados, como espaços de Banach, nosso próximo assunto.

• Conseqüências do Teorema de Hahn-Banach para espaços vetoriais normados

A primeira conseqüência do Teorema 23.4 é que se V é um espaço vetorial normado, então todo
funcional linear definido em um sub-espaço de V e que seja contı́nuo em relação à norma de V pode
ser estendido isometricamente como funcional linear para todo V .
Teorema 23.5 (Teorema de Hahn-Banach para espaços vetoriais normados) Seja V um es-
paço vetorial complexo dotado de uma norma k · k. Seja f1 : V1 → um funcional linear definido
em um sub-espaço V1 de V e suponhamos que f1 seja limitado em V1 , ou seja, |f1 (y)| ≤ kf1 k kyk para
|f1 (y)|
todo y ∈ V1 , onde kf1 k := sup . Então, existe um funcional linear complexo f : V → que é
y∈V1 kyk
y6=0

uma extensão de f1 (ou seja, f (y) = f1 (y) para todo y ∈ V1 ) e que é igualmente limitado, satisfazendo
kf k = kf1 k. 2

Prova. Se V é um espaço vetorial complexo dotado de uma norma k · k, então para todos α, β ∈ e
todos x, y ∈ V vale kαx + βyk ≤ |α| kxk + |β| kyk. Assim, p(x) = kf1 kkxk satisfaz as hipóteses do
Teorema 23.4 e, pela definição de p, vale |f1 (y)| ≤ p(y) para todo y ∈ V1 . Pelo Teorema 23.4, existe
|f (x)|
um funcional linear f que estende f1 e satisfaz |f (x)| ≤ kf1 kkxk. Assim, kf k = sup ≤ kf1 k.
x∈V kxk
x6=0

|f (x)| |f (y)| |f1 (y)|


Porém, como f estende f1 , vale kf k = sup ≥ sup = sup = kf1 k, o que prova que
x∈V kxk y∈V1 kyk y∈V1 kyk
x6=0 y6=0 y6=0

kf k = kf1 k.

Do Teorema 23.5 obtemos o seguinte resultado, que por sua vez possui um corolário de grande
importância.
Proposição 23.4 Seja V um espaço vetorial complexo dotado de uma norma k · k. Então para cada
x0 ∈ V existe um funcional linear limitado e não-nulo `x0 satisfazendo k`x0 k = 1 e tal que `x0 (x0 ) =
kx0 k. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1031/1195

Prova. Se x0 = 0, tomamos `x0 igual a qualquer funcional limitado com norma 1 e as afirmações da
proposição seguem.
Seja x0 ∈ V não-nulo fixo e seja V1 = {αx0 , α ∈ }, um sub-espaço linear de V . Defina-se em
V1 o funcional linear f1 (αx0 ) := αkx0 k. Pelo Teorema 23.5 existe um funcional linear `x0 definido
em todo V e que estende f1 , satisfazendo k`x0 k = kf1 k. Como `x0 estende f1 e x0 ∈ V1 , tem-se
`x0 (x0 ) = f1 (x0 ) = kx0 k. Note-se, porém, que

|f1 (y)| |f1 (αx0 )| |αkx0 k|


kf1 k = sup = sup = sup = 1.
y∈V1 kyk α∈ kαx0 k α∈ kαx0 k
y6=0 α6=0 α6=0

Assim, k`x0 k = 1.

Essa proposição será usada quando estudarmos o adjunto de operadores atuando entre espaços de
Banach, página 1048 e seguintes. Vide Proposição 23.10, página 1049. Uma das suas conseqüências
mais importantes, porém, é o seguinte corolário, o qual terá implicações em desenvolvimentos que se
seguirão no presente capı́tulo, especialmente quando estudarmos propriedades do operador resolvente
e do espectro de operadores.
Corolário 23.1 Seja V um espaço vetorial complexo dotado de uma norma k · k e denotemos por V †
o conjunto de todos os funcionais lineares limitados agindo em V . Se x ∈ V é tal que `(x) = 0 para
todo ` ∈ V † , então x = 0. 2

Prova. Se `(x) = 0 para todo ` ∈ V † , então, em particular, `x (x) = 0, onde `x é o funcional cuja
existência é garantida pela Proposição 23.4. Porém, `x (x) = kxk, o que prova que x = 0.

23.1.4 O Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uni-


forme
O seguinte teorema, devido a Banach8 e Steinhaus9 e apresentado em 192710 é um dos teoremas
centrais da teoria de operadores em espaços de Banach. O mesmo é por vezes referido como princı́pio
de limitação uniforme, e é uma conseqüência gentil do Teorema da Categoria de Baire, Teorema 21.2,
página 977.
Teorema 23.6 (Teorema de Banach-Steinhaus ou Princı́pio de Limitação Uniforme) Seja A
um espaço de Banach e seja V um espaço vetorial normado. Seja S um conjunto (não-vazio) de ope-
radores lineares limitados de A em V. Suponha que para cada x ∈ A exista M x > 0, finito, tal que
kSxkV ≤ Mx para todo S ∈ S. Então existe M ≥ 0, finito, tal que kSk ≤ M para todo S ∈ S. 2

8
Stefan Banach (1892-1945).
9
Hugo Dyonizy Steinhaus (1887-1972).
10
S. Banach and H. Steinhaus. Sur le principe de la condensation des singularités. Fund. Math. 9, 50-61 (1927).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1032/1195

Prova. Pela hipótese, tem-se para cada x ∈ A que o conjunto de números reais não-negativos
{kSxkV , S ∈ S} é um subconjunto do intervalo [0, Mx ]. Como cada Mx é finito, cada um dos
intervalos [0, Mx ], está contido em algum intervalo [0, n] com n ∈ , n ≥ 1. É evidente, portanto,



[
que A = An , onde
n=1
n o

An := x ∈ A kSxkV ≤ n para todo S ∈ S ,

pois cada x ∈ A está contido em pelo menos um An . Assim, pelo Teorema da Categoria de Baire
0
(Teorema 21.2, página 977), existe m ∈ tal que Am tem interior não-vazio: Am =
 6 ∅.
Agora, é fácil ver que cada An é um conjunto fechado em A. De fato, pela definição, vale
\n o

An := x ∈ A kSxkV ≤ n . (23.15)
S∈S

Agora, para S ∈ S, n o

x ∈ A kSxkV ≤ n = FS−1 ([0, n]) ,
onde FS : A → é dada por FS (x) = kSxkV . Todavia, FS é contı́nua por ser a composição das funções


contı́nuas S e k · kV . Logo, como [0, n] é fechado em , o conjunto FS−1 ([0, n]) é fechado em A e, por


(23.15), An é fechado, por ser intersecção de fechados.


Concluı́mos disso que Am tem interior não-vazio: A0m 6= ∅.
Seja x0 ∈ A0m . Como A0m é aberto, existe  > 0 tal que todo x ∈ A com kx − x0 kA <  é um
elemento de A0m . Dessa forma, se x0 ∈ A for tal que kx0 kA < , tem-se k(x0 + x0 ) − x0 kA = kx0 kA < ,
o que implica que x0 + x0 é um elemento de A0m e, portanto, de Am . Como x0 e x0 + x0 são elementos
de Am , valem
kSx0 kV ≤ m e kS(x0 + x0 )kV ≤ m (23.16)
para todo S ∈ S. Assim, para S ∈ S e para cada x0 ∈ A com kx0 kA < , tem-se
(23.16)
kSx0 kV = kS(x0 + x0 ) − Sx0 kV ≤ kS(x0 + x0 )kV + kSx0 kV ≤ 2m ,

Portanto, para x ∈ A não-nulo, podemos tomar x0 = 2kxk x e teremos kx0 kA = 2 < , de onde segue
  A

que S 2kxk A
x ≤ 2m, ou seja
V
4m
kSxkV ≤ kxkA ,

desigualdade essa que também vale para x = 0. Assim, provamos que kSk ≤ M com M := 4m 
, que
não depende de S ∈ S. Isso demonstra o teorema.

23.1.5 O Teorema da Aplicação Aberta e o Teorema do Gráfico Fechado

• A Soma Direta de Dois Espaços de Banach


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1033/1195

Sejam V e W dois espaços vetoriais normados, cujas normas são denotadas por k · k V e k · kW ,
respectivamente. O produto cartesiano V × W pode ser feito um espaço vetorial com as operações de
soma e multiplicação por escalares (números complexos), expressa em

α(x, y) + β(x0 , y 0 ) = (αx + βx0 , αy + βy 0 )

onde x, x0 ∈ V, y, y 0 ∈ W e α, β ∈ são arbitrários.


É possı́vel introduzir em V × W uma norma e, portanto, uma topologia, usando para tal as normas
k · kV e k · kW . Uma possı́vel escolha é

k(x, y)kV×W = kxkV + kykW ,

(x, y) ∈ V × W.

E. 23.10 Exercı́cio. Verifique que essa expressão define de fato uma norma em V × W. 6

E. 23.11 Exercı́cio. Uma outra possı́vel escolha de norma em V × W seria a seguinte. Sejam A > 0 e
B > 0 fixos. Defina para todo (x, y) ∈ V × W

k(x, y)kA, B
V×W = AkxkV + BkykW .

Mostre que k · kA, B


V×W é uma norma em V × W. Mostre que

min(A, B)k(x, y)kV×W ≤ k(x, y)kA, B


V×W ≤ max(A, B)k(x, y)kV×W ,

e, portanto, k · kA, B
V×W e k · kV×W são normas equivalentes no sentido da definição de equivalência de normas
da página 121. Note que duas normas equivalentes geram as mesmas topologias (por que?). 6

O conjunto V × W é assim um espaço vetorial normado. Um fato relevante é que se V e W forem


espaços de Banach V × W também o será.
Para ver isso, consideremos uma seqüência (xn , yn ), n ∈ , em V × W que seja uma seqüência de


Cauchy na norma k · kV×W . Isso significa que para todo  > 0 existe N () tal que se m, n ≥ N () então

k(xm , ym ) − (xn , yn )kV×W = k(xm − xn , ym − yn )kV×W ≤ .

Mas isso significa que


kxm − xn kV + kym − yn kV ≤ ,
o que implica que temos
kxm − xn kV ≤ 
e
kym − yn kW ≤ ,
ou seja, xn e yn , n ∈ , são duas seqüências de Cauchy em seus respectivos espaços. Como V e W são


espaços de Banach, ambas as seqüências convergem a x ∈ V e y ∈ W, respectivamente. Agora é trivial


ver que, por isso, (xn , yn ) converge a (x, y) em V × W, pois

k(xn , yn ) − (x, y)kV×W = kxn − xkV + kyn − ykW


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1034/1195

que por hipótese vai a zero quando n → ∞. Isso mostra que V × W é também um espaço de Banach.
Esse espaço de Banach obtido pelo produto cartesiano de dois espaços de Banach V e W é denomi-
nado soma direta (topológica) de V e W e é freqüentemente denotado por V ⊕ W.
Freqüentemente usaremos V ⊕ W para nos referirmos a V × W visto como espaço topológico com a
topologia gerada pela norma k · kV×W .

• O Gráfico de um Operador

Sejam V e W dois espaços vetoriais e T : V → W um operador linear. O gráfico de T , denominado


por Γ(T ) é o subconjunto de V × W definido por

Γ(T ) = {(x, T x), x ∈ Dom (T )}.

Nota 1. Essa definição é, na verdade, redundante. Se lembrarmos a definição de função à página
22 (e estamos adotando a definição de operador como sendo uma função naquele sentido), vemos que
o conceito de gráfico de um operador coincide com o próprio conceito de operador, ou seja, como
sendo uma certa sub-coleção de V × W. Assim, pelas nossas definições, Γ(T ) = T !. No entanto é
muito comum entender-se num sentido intuitivo que um operador representa uma transformação entre
d
espaços. Informalmente entendemos, por exemplo, que o operador de derivação T = dx “transforma”
uma função em sua derivada. Ainda que essa conceituação não possa ser feita precisa, essa é a noção
que mais comummente se tem de operador, daı́ introduzirmos essa “nova” definição. Note-se também
que essa definição corresponde precisamente à noção de gráfico de uma função de em , tão familiar
 

dos cursos de cálculo.


Nota 2. Para evitar confusões futuras, notamos aos leitores que na nossa definição de gráfico acima
seguimos a convenção que V seja o domı́nio de definição de T , Dom (T ) = V, e não Dom (T ) ⊂ V.
Se T é um operador linear agindo entre dois espaços de Banach V e W, o conjunto Γ(T ) é um sub-
conjunto do espaço topológico V⊕W e, como tal, é legı́timo perguntarmos por propriedades topológicas
de Γ(T ), tais como, se Γ(T ) é um conjunto fechado (ou aberto), sobre propriedades dos fecho Γ(T ) de
Γ(T ) etc. Como veremos, tais perguntas são de grande importância e operadores podem mesmo ser
classificados de acordo com as respostas que se dá às mesmas. Um importante resultado nesse sentido
é o chamado Teorema do Gráfico Fechado, que demonstraremos nas próximas páginas.

• O Teorema da Aplicação Aberta

Sejam X e Y dois espaços vetoriais e seja T : X → Y . Se C ⊂ X denotaremos aqui por T (C) a


imagem de C por T , ou seja, T (C) = {y ∈ Y | y = T (x) para algum x ∈ X}.
Neste tópico demonstraremos outro importante teorema sobre operadores contı́nuos entre espaços
de Banach, o chamado Teorema da Aplicação Aberta. Esse teorema faz uso de um teorema sobre
espaços métricos completos, conhecido como Teorema da Categoria de Baire, tratado à página 977.
Como bem sabemos, funções contı́nuas entre espaços topológicos tem (por definição) a propriedade
que as imagens inversas de conjuntos abertos são também abertos. O que o Teorema da Aplicação
Aberta nos diz é que, para operadores lineares contı́nuos e sobrejetores agindo entre espaços de Banach,
vale também a recı́proca: a imagens de abertos são também abertos. Como é de se esperar esse fato
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1035/1195

também nos diz algo sobre a inversa desses operadores, a saber, na forma do Teorema da Aplicação
Inversa, tratado à página 1038.
A conseqüência talvez mais importante do Teorema da Aplicação Aberta é o Teorema do Gráfico
Fechado, que discutiremos à página 1038, que nos mostra (pela primeira vez) a existência de uma
relação ı́ntima entre propriedades de um operador e propriedades topológicas de seu gráfico.
Passemos ao enunciado e demonstração do Teorema da Aplicação Aberta.
Teorema 23.7 (Teorema da Aplicação Aberta) Sejam X e Y dois espaços de Banach e seja T :
X → Y um operador linear contı́nuo e sobrejetor. Então, se A ⊂ X é um aberto, T (A) é um aberto
em Y . 2

Prova. Comecemos fixando notações. Por B X (r, x) denotamos a bola aberta em X centrada em x ∈ X
de raio r > 0. Analogamente por B Y (r, y) denotamos a bola aberta em Y centrada em y ∈ Y de
raio r > 0. Adotaremos também as notações simplificadoras: B X (r) = B X (r, 0) e B Y (r) = B Y (r, 0).
Fora isso, se C é um subconjunto de X e λ > 0, denotamos por λC o conjunto λC = {x0 ∈ X| x0 =
λx para algum x ∈ C}. O mesmo se C for um subconjunto de Y .
Isto posto, vamos à demonstração.
Em primeiro lugar, é claro que X pode ser escrito como a união contável de todas as bolas de raio
1, 2, 3 . . .:
[∞
X = B X (n).
n=1

Como T é, por hipótese, sobrejetora, temos que



[
Y = T (B X (n)).
n=1

Pelo Teorema da Categoria de Baire (página 977) isso implica a existência de pelo menos um m tal
 0
que T (B X (m)) 6= ∅, ou seja, T (B X (m)) tem interior não-vazio.

É claro que, para todo r > 0 e n ∈  valem


r
T (B X (r)) = T (B X (n))
n
e
r
T (B X (r)) = T (B X (n)).
n
Portanto, concluı́mos que todos conjuntos T (B X (r)) para todos r > 0 têm interior não-vazio.
Com isso em mãos, vamos enunciar e demonstrar o seguinte lema:
 0
Lema 23.2 O conjunto aberto T (B X (1)) contem o vetor nulo entre seus elementos. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1036/1195

Prova do Lema 23.2. Como já sabemos, T (B X (1)) possui um interior não-vazio. Afirmamos que
 0  0
X X
0 ∈ T (B (1)) . Para mostrar isso, tomemos y ∈ T (B (1)) . Como y é um elemento do fecho de
 0  0
T (B X (1)) (pois T (B X (1)) ⊂ T (B X (1))), e como T (B X (1)) é um aberto que contem y, segue
 0
que T (B X (1)) ∩ T (B X (1)) 6= ∅, pela Proposição 15.5, página 834.
 0
Seja então z ∈ T (B X (1)) ∩ T (B X (1)). Então z = T x para algum x ∈ X com kxkX < 1 e, como
 0
X
T (B (1)) é aberto, existe pela definição de conjunto aberto em espaços métricos um r > 0 tal que
 0
Y X
B (r, z) ⊂ T (B (1)) , ou seja,
 0
B Y (r) + T x ⊂ T (B X (1)) . (23.17)

Se escolhermos R grande o suficiente (por exemplo R > 1 + kxkX ) teremos que B X (1) ⊂ B X (R, x)
(por que?). Isso implica T (B X (1)) ⊂ T (B X (R, x)). Logo, T (B X (1)) ⊂ T (B X (R, x)) e, portanto,
 0  0
T (B X (1)) ⊂ T (B X (R, x)) .
Logo, retornando à (23.17), temos que
 0  0
B Y (r) + T x ⊂ T (B X (R, x)) = T (B X (R)) + T x,

ou seja,  0
B Y (r) ⊂ T (B X (R)) .
Isso, porém, diz que  0
B Y (r/R) ⊂ T (B X (1)) ,
 0
provando que 0 ∈ T (B X (1)) , completando a prova do lema.

Vamos mostrar na próxima proposição uma condição que, uma vez demonstrada, implica o Teorema
da Aplicação Aberta.
Proposição 23.5 Se provarmos que T (B X (1)) ⊂ T (B X (2)) então o Teorema da Aplicação Aberta
estará demonstrado. 2

 0
Prova da Proposição 23.5. Pelo lema acima, o aberto T (B X (1)) contem o vetor nulo. Então (pela
definição de conjunto aberto em espaço métrico, vide página 743), existe uma bola aberta de raio s > 0
 0
(suficientemente pequeno) e centrada em 0 que está inteiramente contida em T (B X (1)) e, portanto,
em T (B X (1)):
B Y (s) ⊂ T (B X (1)).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1037/1195

Se tivermos provado que T (B X (1)) ⊂ T (B X (2)), como a proposição sugere, então concluirı́amos que

B Y (s) ⊂ T (B X (2)),

ou seja, que T (B X (2)) tem interior não-vazio. Como T (B X (r)) = (r/2)T (B X (2)), segue também que

B Y (rs/2) ⊂ T (B X (r)),

mostrando que T (B X (r)) tem também interior não-vazio para qualquer r > 0.
Isso mostra que T (B X (r, x)) = T (B X (r)) + T x também tem interior não-nulo para todo r > 0 e
todo x ∈ X.
Seja então A ⊂ X um aberto em X e T (A) sua imagem por T em Y . Seja um ponto genérico
y ∈ T (A) e seja x ∈ A tal que y = T x. Como A é aberto, existe r suficientemente pequeno tal que
B X (r, x) ⊂ A. Logo T (B X (r, x)) ⊂ T (A) e T (B X (r, x)) 3 y. Mas, pelo dito acima, T (B X (r, x)) =
T (B X (r)) + y e T (B X (r)) contem a bola B Y (rs/2). Assim, y + B Y (rs/2) ⊂ T (A). Como y é um
elemento genérico de T (A) isso mostra que para cada y ∈ T (A) existe r 0 > 0 (a saber r 0 = rs/2) tal
que a bola B Y (r 0 , y) está inteiramente contida em T (A). Ora, isso é a afirmativa que T (A) é aberto,
completando assim a demonstração da proposição.

Essa proposição nos ensina que, para completarmos a demonstração do Teorema da Aplicação
Aberta resta-nos apenas mostrar que T (B X (1)) ⊂ T (B X (2)), que é o que faremos agora.
Mostrar que T (B X (1)) ⊂ T (B X (2)) significa mostrar que para cada y ∈ T (B X (1)) existe um x ∈ X
com kxkX < 2 tal que y = T x. O que faremos então é fixar um tal y e construir um x ∈ X com as
propriedades requeridas.
Pela caracterização de fecho de um conjunto dada na Proposição 15.5, página 834, se

y ∈ T (B X (1)) (23.18)

então para todo número r > 0, B Y (r, y) ∩ T (B X (1)) 6= ∅. Isso diz que existe x1 com kx1 kX < 1 tal que
ky − T x1 kY < r. Essa última afirmativa significa que y − T x1 ∈ B Y (r). Como r é arbitrário, podemos
escolhe-lo suficientemente pequeno de modo a termos

B Y (r) ⊂ T (B X (1/2)). (23.19)

Isso é sempre possı́vel pois vimos acima que todo conjunto T (B X (a)) tem interior não-vazio para todo
a > 0. Como, porém, T (B X (1/2)) ⊂ T (B X (1/2)), concluı́mos que, pela nossa escolha,

y − T x1 ∈ T (B X (1/2)). (23.20)

Comparando-se (23.20) a (23.18) vemos que podemos repetir o argumento e, para o mesmo r de
(23.19), B Y (r/2, y − T x1 ) ∩ T (B X (1/2)) 6= ∅. Isso diz que existe x2 com kx2 kX < 1/2 e tal que
k(y − T x1 ) − T x2 kY = ky − T (x1 + x2 )kY < r/2, ou seja, y − T (x1 + x2 ) ⊂ B Y (r/2). Por (23.19),
B Y (r/2) ⊂ T (B X (1/4)). Como, porém, T (B X (1/4)) ⊂ T (B X (1/4)), concluı́mos que, pela nossa
escolha,
y − T (x1 + x2 ) ∈ T (B X (1/4)). (23.21)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1038/1195

Prosseguindo indutivamente concluı́mos que existem x1 , . . . , xn ∈ X tais que kxi kX < 1/2i−1 e
r
ky − T (x1 + · · · + xn )kY < . (23.22)
2n+1

É um exercı́cio simples mostrar que, pela propriedade kxi kX < 1/2i−1 , a seqüência x1 + · · · + xn é
uma seqüência de Cauchy. Como supomos que X é completo, isso diz que existe x ∈ X tal que

x = lim (x1 + · · · + xn ).
n→∞

Fora isso, pela continuidade da norma, pela continuidade de T e pela propriedade (23.22), segue que



0 = lim ky − T (x1 + · · · + xn )kY = y − lim T (x1 + · · · + xn )
n→∞ n→∞ Y


= y − T ( lim (x1 + · · · + xn )) = ky − T xkY ,
n→∞ Y

provando que y = T x. Agora, pela continuidade da norma,


 
1 1
kxkX = lim (x1 + · · · + xn ) = lim kx1 + · · · + xn kX ≤ lim 1 + + · · · + n−1 = 2
n→∞ X n→∞ n→∞ 2 2
Mostrando que x ∈ B X (2) e que y ∈ T (B X (2)). Isso completa a demonstração do Teorema da Aplicação
Aberta.

• O Teorema da Aplicação Inversa

Se T : X → Y é uma função bijetora entre dois conjuntos, existe uma função inversa T −1 : Y → X.
Se X e Y são espaços vetoriais e T é linear, é fácil ver que T −1 é também linear (Exercı́cio.). O Teorema
da Aplicação Aberta tem um corolário que garante que também a propriedade de continuidade pode
ser estendida a T −1 , caso T seja contı́nua e X e Y dois espaços de Banach.
Teorema 23.8 (Teorema da Aplicação Inversa) Sejam X e Y dois espaços de Banach e T : X →
Y um operador linear que seja contı́nuo e bijetor. Então sua inversa T −1 : Y → X é também contı́nua.
2

Prova. Se T é bijetora é, em particular, sobrejetora e portanto vale o Teorema Aplicação Aberta. Pela
definição de função contı́nua, tudo que devemos fazer é mostrar que conjuntos abertos na imagem de
T −1 (que vem a ser X) são a imagem por T −1 de conjuntos abertos do domı́nio de T −1 (que vem a ser
Y ). Mas é precisamente isso que nos diz o Teorema Aplicação Aberta, pois (T −1 )−1 = T .

• O Teorema do Gráfico Fechado

Chagamos agora a um teorema importante pois mostra que propriedades de um operador se mani-
festam em propriedades topológicas de seu gráfico.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1039/1195

Teorema 23.9 (Teorema do Gráfico Fechado) Sejam X e Y dois espaços de Banach e T : X → Y


um operador linear. Então T é contı́nuo se e somente se seu gráfico Γ(T ) for fechado como subconjunto
do espaço topológico X ⊕ Y . 2

Prova. 1. Vamos supor que T seja contı́nuo e mostrar que seu gráfico é fechado.
Seja (xn , T xn ), n ∈ , uma seqüência de elementos de Γ(T ) e que seja convergente em X ⊕ Y .


Queremos mostrar que essa seqüência converge a um elemento (x, y) ∈ X ⊕ Y que também é elemento
de Γ(T ). Para isso devemos provar que y = T x. Se (xn , T xn ) → (x, y) então x = lim xn em X e
 n→∞
y = lim T xn . Porém, como T é, por hipótese, contı́nuo, vale y = lim T xn = T lim xn = T x, que
n→∞ n→∞ n→∞
é o que querı́amos provar.
2. Vamos agora, reciprocamente, supor que Γ(T ) é fechado e mostrar que T é contı́nuo.
Γ(T ) é sempre um sub-espaço de X ⊕ Y , pois

α(x, T x) + β(y, T y) = (αx + βy, αT x + βT y) = (αx + βy, T (αx + βy)) ∈ Γ(T ).

O fato de Γ(T ) ser fechado significa, porém, que Γ(T ) é um espaço de Banach pois, pela Proposição
15.7, página 835, todo subconjunto fechado de um espaço métrico completo é também completo.
Sejam então as funções S1 : Γ(T ) → X e S2 : Γ(T ) → Y definidas por

S1 ((x, T x)) = x.

e
S2 ((x, T x)) = T x.
É um exercı́cio banal mostrar que S1 e S2 são lineares (faça). Fora isso, ambas são limitadas (e,
portanto, contı́nuas), pois

kS1 (x, T x)kX = kxkX ≤ kxkX + kT xkY = k(x, T x)kX⊕Y

e
kS2 (x, T x)kX = kT xkY ≤ kxkX + kT xkY = k(x, T x)kX⊕Y ,
Mostrando que kS1 k ≤ 1 e kS2 k ≤ 1.
Fora isso vale também que S1 é bijetora. De fato é evidente que ImS1 = X (por quê?) e, fora isso,
S1 (x, T x) = S1 (y, T y) significa x = y e, portanto (x, T x) = (y, T y), o que mostra que S1 é um-a-um.
Se S1 é uma bijeção então tem uma inversa (S1 )−1 : X → Γ(T ) que é tal que

(S1 )−1 x = (x, T x).

Note-se assim que 


S2 (S1 )−1 x = S2 (x, T x) = T x,
ou seja, T = S2 ◦ (S1 )−1 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1040/1195

Mostramos acima que S1 é uma função linear, contı́nua e bijetora entre dois espaços de Banach.
Ora, essas são as hipóteses do Teorema da Aplicação Inversa que, assim, nos afirma que (S 1 )−1 é
contı́nua. S2 é também contı́nua e, portanto, T = S2 ◦ (S1 )−1 é também contı́nua por ser a composição
de duas funções contı́nuas, completando a prova.

• O Teorema de Hellinger-Toeplitz

O Teorema do Gráfico Fechado tem por corolário um teorema do qual uma importante lição pode
ser extraı́da.
11
Teorema 23.10 (Teorema de Hellinger-Toeplitz) Seja H um espaço de Hilbert e seja A um
operador linear tal que Dom (A) = H e tal que

hx, Ayi = hAx, yi (23.23)

para todos x, y ∈ H. Então A é limitado. 2

Prova. A prova é feita mostrando que Γ(A) é fechado e evocando o Teorema do Gráfico Fechado.
Suponha que (xn , Axn ) converge a (x, y) em H ⊕ H. Queremos mostrar que y = Ax. Seja z um
vetor qualquer de H. Evocando sucessivas vezes a continuidade do produto escalar e a hipótese (23.23),
temos

D E
hz, yi = z, lim Axn = lim hz, Axn i = lim hAz, xn i
n→∞ n→∞ n→∞
D E
= Az, lim xn = hAz, xi = hz, Axi .
n→∞

Assim, para todo z ∈ H vale hz, (y − Ax)i = 0, o que só é possı́vel se y = Ax.

A lição que extraı́mos desse teorema é que se A não é um operador contı́nuo, uma relação como
(23.23) não pode ser satisfeita para todos x, y ∈ H. Isso nos força a termos cautela quando definirmos
o conceitos como o de operador auto-adjunto para operadores não-limitados.

23.2 Operadores Limitados em Espaços de Hilbert

• Considerações gerais sobre operadores em espaços de Hilbert

Vamos agora particularizar nossa discussão para o contexto de espaços de Hilbert. Seja H um
espaço de Hilbert. Um operador linear A agindo em H é uma função linear definida em um domı́nio
Dom (A) que é um sub-espaço de H. Freqüentemente denotaremos esse domı́nio por D(A) ou ainda
11
Ernst David Hellinger (1883-1950). Otto Toeplitz (1881-1940).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1041/1195

por DA . A imagem de A, Im(A), será freqüentemente denotada por R(A) ou por RA , a letra “R” sendo
proveniente da palavra inglesa “range”.
Na teoria de operadores em espaços de Hilbert é absolutamente fundamental lembrar que cada
operador é definido em um domı́nio especı́fico, pois propriedades do mesmo podem mudar se o domı́nio
for alterado.
d
Considere-se o exemplo do espaço de Hilbert L2 ([0, 1], dx), e os operadores A1 = i dx , definido no
d
domı́nio D(A1 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] e A2 = i dx ,
definido no domı́nio D(A2 ) das funções contı́nuas e continuamente diferenciáveis do intervalo [0, 1] que
se anulam em x = 0 e em x = 1. O operador A2 é simétrico no seu domı́nio, ou seja, para todos φ, ψ
no seu domı́nio vale hφ, A2 ψi = hA2 φ, ψi, mas o operador A1 não tem essa propriedade.

E. 23.12 Exercı́cio. Verifique as afirmativas feitas no último parágrafo usando para tal integração por
partes. 6

No caso de operadores limitados (contı́nuos), a situação se simplifica muito pois, como iremos
argumentar, um operador limitado sempre pode ser definido em todo o espaço de Hilbert.
De fato, seja A um operador linear limitado definido em um sub-espaço D(A) de um espaço de
Hilbert H. Se D(A) for fechado, podemos estender A ao complemento ortogonal D(A)⊥ , definindo-
o como zero em D(A)⊥ . Mais precisamente fazemos o seguinte: pelo Teorema da Decomposição
Ortogonal, Teorema 22.2, página 991, todo x ∈ H pode ser escrito como x = y + z com y ∈ D(A) e
z ∈ D(A)⊥ . Definimos então A00 , extensão de A, com domı́nio igual a todo H por

A00 x = A00 (y + z) = Ay.

É fácil verificar que kA00 k = kAk.


Caso D(A) não seja fechado, definimos uma extensão A0 de A a seu fecho D(A) da seguinte forma.
Seja y ∈ D(A) e yn , n ∈ , uma seqüência em D(A) que converge a y. Definimos


A0 y = lim Ayn .
n→∞

E. 23.13 Exercı́cio. Usando a continuidade mostre que o limite do lado direito sempre existe e que não
depende da particular seqüência yn em D(A) que converge a y. 6

E. 23.14 Exercı́cio. Mostre que kA0 k = kAk. 6

Como o domı́nio de A0 é fechado, podemos proceder como antes e estender A0 a todo H.


Daqui por diante sempre consideraremos que operadores limitados têm por domı́nio todo o espaço
de Hilbert em que agem. Para operadores não-contı́nuos isso não pode ser feito e questões relativas ao
domı́nio de definição têm sempre um caracter essencial.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1042/1195

23.2.1 O Adjunto de um Operador em um Espaço de Hilbert


Seja A um operador linear limitado definido em um espaço de Hilbert H. Seja y um vetor de H e
ly : H → o funcional linear em H dado por

ly (x) = hy, Axi.

Pela desigualdade de Cauchy-Schwarz

|ly (x)| ≤ kyk kAxk ≤ kyk kAk kxk

o que mostra que ly é um funcional linear limitado. Aplica-se então o Teorema da Representação de
Riesz (página 1008) e podemos dizer que existe um vetor z ∈ H tal que

ly (x) = hy, Axi = hz, xi.

O vetor z deve depender de y. Definimos uma nova função A∗ : H → H, denominada adjunto de A,


como sendo a função que associa y a z: A∗ (y) = z, de modo que podemos escrever

hy, Axi = hA∗ (y), xi

para todos x, y ∈ H. Note-se que, pela própria construção, o domı́nio de definição de A ∗ é todo H,
pois y é arbitrário. Esse fato não é verdadeiro para o caso em que A não é limitado. Vamos no que
segue demonstrar uma série de propriedades de A∗ , a mais básica sendo a linearidade. As propriedades
que desejamos provar estão listadas na forma do seguinte teorema:
Teorema 23.11 O operador adjunto A∗ de um operador limitado A agindo em um espaço de Hilbert
H é também um operador linear, limitado e satisfaz

1. (A∗ )∗ = A

2. kA∗ k = kAk

3. kA∗ Ak = kAk2 , (propriedade C∗ ) .

4. Se A e B são operadores limitados agindo em H e α, β ∈ , vale

(αA + βB)∗ = αA∗ + βB ∗ ,

ou seja, ∗ é anti-linear.

5. Se A e B são operadores limitados agindo em H, então (AB)∗ = B ∗ A∗ .



6. O operador identidade satisfaz = .

7. Se A tem uma inversa contı́nua, então A∗ também o tem e (A−1 )∗ = (A∗ )−1 .

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1043/1195

Prova. Linearidade. Para todo α, β ∈ e todos y, y 0 ∈ H, temos pela definição

hA∗ (αy + βy 0 ), xi = hαy + βy 0 , Axi

= αhy, Axi + βhy 0 , Axi

= αhA∗ (y), xi + βhA∗ (y 0 ), xi

= hαA∗ (y) + βA∗ (y 0 ), xi, (23.24)

ou seja,
h [A∗ (αy + βy 0 ) − (αA∗ (y) + βA∗ (y 0 ))] , xi = 0,
para todo x ∈ H. Isso só é possı́vel se A∗ (αy + βy 0 ) − (αA∗ (y) + βA∗ (y 0 )) = 0, provando a linearidade.
Continuidade.
Para todo x ∈ H tem-se

kA∗ xk2 = hA∗ x, A∗ xi = hx, AA∗ xi ≤ kxk kAA∗ xk ≤ kxk kAk kA∗ xk.

Para x tal que A∗ x 6= 0, essa desigualdade diz (cancelando um fator kA∗ xk de cada lado) que

kA∗ xk ≤ kAk kxk.

Esta última desigualdade é, porém trivialmente verdadeira caso A∗ x = 0. Portanto, a mesma vale para
todo x, mostrando que A∗ é limitada e, assim, contı́nua. A mesma desigualdade mostra que

kA∗ xk
kA∗ k = sup ≤ kAk,
x6=0 kxk

o que mostra que


kA∗ k ≤ kAk. (23.25)

Prova de (A∗ )∗ = A.
Para todo x, y ∈ H tem-se

h(A∗ )∗ x, yi = hx, A∗ yi = hA∗ y, xi = hy, Axi = hAx, yi.

Assim,
h[A − (A∗ )∗ ]x, yi = 0
para todo x, y ∈ H, o que só é possı́vel se (A∗ )∗ = A, como querı́amos provar.
Prova de kA∗ k = kAk.
A relação (23.25) provou que para todo A limitado vale kA∗ k ≤ kAk. Como A∗ é também limitado,
vale também (substituindo A → A∗ ) que k(A∗ )∗ k ≤ kA∗ k, que significa que kAk ≤ kA∗ k. Isso, junto
com (23.25) implica kA∗ k = kAk, como querı́amos.
Prova de kA∗ Ak = kAk2 .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1044/1195

Para todo x ∈ H vale

kA∗ Axk ≤ kA∗ k kAxk ≤ kA∗ k kAk kxk = kAk2 kxk.

Assim,
kA∗ Axk
kA∗ Ak = sup ≤ kAk2 . (23.26)
x6=0 kxk

Por outro lado, para todo x ∈ H,

kAxk2 = hAx, Axi = hA∗ Ax, xi ≤ kA∗ Axk kxk ≤ kA∗ Ak kxk2 .

Assim,  2
kAxk kAxk2
2
kAk = sup = sup ≤ kA∗ Ak,
x6=0 kxk x6=0 kxk2
provando que kAk2 ≤ kA∗ Ak. Com (23.26) isso mostra que kA∗ Ak = kAk2 , como querı́amos.
A prova que (αA + βB)∗ = αA∗ + βB ∗ , assim como a prova que (AB)∗ = B ∗ A∗ são deixadas como
exercı́cio.

Que = é elementar. Se A tem uma inversa contı́nua, então

= = (A−1 A)∗ = A∗ (A−1 )∗

e

= = (AA−1 )∗ = (A−1 )∗ A∗ ,
mostrando que (A−1 )∗ = (A∗ )−1 .

A existência do operador adjunto A∗ de um operador limitado A foi obtida acima com uso do
Teorema da Representação de Riesz e nesse caso obtemos um operador igualmente limitado e definido
em todo H. No caso em que A não é contı́nuo o argumento a ser seguido é um pouco diferente e só
pode fornecer o adjunto em um domı́nio menor que H. Há mesmo casos em que o domı́nio de A ∗ é
formado apenas pelo vetor nulo!
Outro advertência importante diz respeito à propriedade (A∗ )∗ = A, demonstrada acima para
operadores limitados. A mesma não é também, em geral, satisfeita para operadores não-limitados.
Esse fato é mais uma causa de transtorno técnico na teoria dos operadores não-limitados.
Por fim, mencionamos que a propriedade kAk2 = kA∗ Ak abre caminho para a importante teoria
das chamadas álgebras C∗ , sobre as quais falaremos adiante.

• Operadores Auto-adjuntos, Operadores Unitários e Operadores Normais

Um operador limitado A que satisfaça A = A∗ é dito ser auto-adjunto.


Se A é um operador limitado auto-adjunto vale

hx, Ayi = hAx, yi


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1045/1195

para todos x, y ∈ H. Se A não é limitado, vimos pelo Teorema de Hellinger-Toeplitz (página 1040)
que uma relação dessas não pode ser satisfeita para todos x, y ∈ H. Em função disso será necessário
criar uma distinção entre operadores simétricos e operadores auto-adjuntos no contexto de operadores
não-limitados. Essa distinção é importante e há vários fenômenos fı́sicos associados a ela.
Qualquer operador limitado pode ser escrito como soma de dois operadores auto-adjuntos, a saber

A = Re(A) + iIm(A),

onde
1 1
Re(A) = (A + A∗ ) e Im(A) = (A − A∗ ).
2 2i
É trivial verificar que Re(A) e Im(A) são auto-adjuntos.
Um operador limitado A que satisfaça AA∗ = A∗ A é dito ser normal. É trivial verificar que um
operador A é normal se e somente se Re(A) e Im(A) comutarem entre si.
Um operador limitado A que satisfaça AA∗ = A∗ A = é dito ser unitário. Todo operador unitário
é normal.
É possı́vel mostrar que qualquer operador limitado pode ser escrito como soma de até quatro
operadores unitários.

• Autovalores e autovetores de operadores limitados. Multiplicidade de um autovalor

Um número λ ∈ é dito ser um autovalor de um operador limitado B agindo em um espaço de


Hilbert H se existir pelo menos um vetor não-nulo φ ∈ H tal que Bφ = λφ. Um tal vetor é dito ser
um autovetor de B com autovalor λ.
Em espaços de Hilbert dimensão finita, como n , todo operador, ou seja, toda matriz, possui
autovalores, pois o conjunto de autovalores coincide com o conjunto de raı́zes do polinômio caracterı́stico
da matriz. Esses fatos foram estudados com detalhe no Capı́tulo 3, página 141, ao qual remetemos os
estudantes interessados. É importante notar, porém, que em espaços de Hilbert de dimensão infinita
pode ocorrer de haver operadores limitados que não possuem autovalores, um exemplo, dentre muitos,
sendo o operador de Volterra W , tratado no Exemplo 23.6 à página 1111.
Um fato elementar sobre essas noções é o seguinte: se φ1 e φ2 são dois autovalores de operador
limitado B com o mesmo autovalor λ, então para quaisquer α1 , α2 ∈ o vetor α1 φ1 +α2 φ2 é igualmente
autovetor de B com autovalor λ. De fato, B(α1 φ1 + α2 φ2 ) = α1 Bφ1 + α2 Bφ2 = λ(α1 φ1 + α2 φ2 ). Assim,
reconhecemos que a coleção de todos os autovetores de B com autovalor λ gera um sub-espaço, que
denotaremos por Mλ , do espaço de Hilbert H em questão. Mais que isso, Mλ é um sub-espaço fechado
de H. Isso pode ser provado com a observação que se φn , n ∈ , é uma seqüência

 de vetores de Mλ que
converge a φ ∈ H, então a continuidade de B diz-nos que Bφ = B lim φn = lim Bφn = λ lim φn =
n→∞ n→∞ n→∞
λφ, provando que φ ∈ Mλ . Para futura referência reunimos essas observações na seguinte proposição:
Proposição 23.6 Se B é um operador limitado agindo em um espaço de Hilbert H, e λ ∈ é um
autovalor de B, então a coleção de todos os autovetores de B com autovalor λ é um sub-espaço linear
fechado de H. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1046/1195

Se Mλ , o sub-espaço gerado pelos autovetores de B com autovalor λ, tiver dimensão finita, dizemos
que λ tem degenerescência finita. Nesse caso, define-se a multiplicidade (geométrica) de λ como sendo
a dimensão de Mλ .

• Autovalores e autovetores de operadores auto-adjuntos

Se A é um operador limitado e auto-adjunto agindo em espaços de Hilbert H (de dimensão finita


ou não) podem ser estabelecidas certas propriedades básicas sobre seus autovalores e autovetores (caso
existam), os quais estão resumidos na próxima proposição.
Proposição 23.7 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seus autovalores (se existirem) são números reais. Fora isso, os autovetores associados a auto-
valores distintos de A são ortogonais entre si. 2

Prova. Se λ é um autovalor de A e v 6= 0 um autovetor de A com autovalor λ então, como A é


auto-adjunto, tem-se hv, AviH = hAv, viH . Como v é um autovetor, o lado esquerdo vale λhv, viH
e o lado direito vale λhv, viH . Dessa forma, (λ − λ)hv, viH = 0. Como v 6= 0 isso implica λ = λ,
ou seja, λ é real. Sejam agora λ1 e λ2 dois autovalores de A, que suporemos distintos. Seja v1
autovetor de A com autovalor λ1 e v2 autovetor de A com autovalor λ2 . Temos, por A ser auto-
adjunto, hv1 , Av2 iH = hAv1 , v2 iH . O lado esquerdo vale λ2 hv1 , v2 iH e o lado direito λ1 hv1 , v2 iH
(lembrar que λ1 é real). Assim, (λ2 − λ1 )hv1 , v2 iH = 0. Como λ2 6= λ1 , segue que hv1 , v2 iH = 0, que é
o que se queria provar.

• Autovalores e autovetores de operadores unitários

Para operadores unitários valem afirmações análogas.


Proposição 23.8 Se U é um operador unitário agindo em um espaço de Hilbert H, então seus au-
tovalores (se existirem) são números complexos de módulo 1. Fora isso, os autovetores associados a
autovalores distintos de U são ortogonais entre si. 2

Prova. Seja U unitário, λ um autovalor de U e v 6= 0 um autovetor de U com autovalor λ. Como


U é unitário tem-se hU v, U viH = hv, U ∗ U viH = hv, viH . Como v é um autovetor, o lado esquerdo
vale λλhv, viH . Assim, (|λ|2 − 1)hv, viH = 0. Como v 6= 0 isso implica |λ| = 1. Sejam agora λ1 e λ2
dois autovalores distintos de U e sejam v1 autovetor de U com autovalor λ1 e v2 autovetor de U com
autovalor λ2 . Temos, por U ser unitário, hU v1 , U v2 iH = hv1 , U ∗ U v2 iH = hv1 , v2 iH . O lado esquerdo
vale λ1 λ2 hv1 , v2 iH = λλ21 (lembre-se que λ1 é um número complexo de módulo 1 e, portanto λ1 = λ−1 1 ).
 
Assim, λλ21 − 1 hv1 , v2 iH = 0. Como λ2 6= λ1 , segue que hv1 , v2 iH = 0, que é o que se queria provar.

• Sub-espaços invariantes
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1047/1195

Seja H um espaço de Hilbert e seja M um sub-espaço de H. Se A e um operador limitado agindo


em H, dizemos que M é invariante pela ação de A se Aφ ∈ M para todo φ ∈ M. Com essa definição
vale a seguinte proposição importante.
Proposição 23.9 Se um sub-espaço M é invariante pela ação de um operador A ∈ B(H), então M ⊥
é invariante pela ação de A∗ . 2

Prova. Se φ e ψ são dois vetores arbitrários tais que φ ∈ M e ψ ∈ M⊥ então hA∗ ψ, φi = hψ, Aφi = 0,
pois Aφ ∈ M, por hipótese. Logo, A∗ ψ é ortogonal a todo vetor φ ∈ M, o que equivale a dizer que
A∗ ψ ∈ M⊥ . Como ψ é um vetor arbitrário de M⊥ , segue que M⊥ é invariante por A∗ .

O seguinte corolário evidente será repetidamente empregado.


Corolário 23.2 Se um sub-espaço M de um espaço de Hilbert H é invariante pela ação de um operador
auto-adjunto A ∈ B(H), então M⊥ é igualmente invariante pela ação de A. 2

• Projetores e Projetores Ortogonais

Um operador linear P agindo em um espaço de Hilbert H é dito ser um projetor se P 2 = P e é dito


ser um projetor ortogonal se for um projetor e se for auto-adjunto: P = P ∗ .
Um exemplo importante de projetor ortogonal é representado por projetores sobre sub-espaços uni-
dimensionais
p gerados por vetores. Seja v um vetor cuja norma assumiremos ser 1, ou seja, kvk =
hv, vi = 1. Definimos o projetor Pv sobre o sub-espaço gerado por v por

Pv u := hv, ui v,

para todo vetor u ∈ H. Que Pv é um projetor ortogonal foi demonstrado no caso de espaços vetoriais
de dimensão finita à página 179 e seguintes e como a demonstração geral é idêntica (e elementar), não
iremos repetı́-la aqui. Um fato crucial sobre projetores como Pv é o seguinte. Se u e v são dois vetores
ortogonais, ou seja, se hu, vi = 0 então Pu Pv = Pv Pu = 0. Novamente a prova (elementar) encontra-se
à página 179 e seguintes.
A definição do projetor ortogonal Pv , acima, pode ser generalizada. Seja M um sub-espaço fechado
de um espaço de Hilbert H. Pelo Teorema da Decomposição Ortogonal, Teorema 22.2, página 991,
todo vetor ψ ∈ H pode ser escrito na forma ψ = ψM + ψM⊥ , com ψM ∈ M e ψM⊥ ∈ M⊥ . Definimos,
então, o projetor PM sobre sub-espaço fechado M por PM ψ := ψM . É elementar provar que PM , assim
definido, satisfaz (PM )2 = PM e (PM )∗ = PM , ou seja, é um projetor ortogonal. É também fácil provar
que todo projetor ortogonal em um espaço de Hilbert H é da forma PM para algum sub-espaço fechado
M de H. Para ver isso, basta provar que a imagem de qualquer projetor ortogonal é um sub-espaço
fechado de H.

E. 23.15 Exercı́cio. Demonstre as afirmações do último parágrafo. 6

• O Adjunto em Espaços de Banach


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1048/1195

Faremos aqui uma breve menção ao fato que o conceito de adjunto de operadores possui uma
generalização para operadores contı́nuos agindo em espaços de Banach, em geral.
Seja X um espaço de Banach e X † = B(X, ) seu dual topológico que, como já observamos na
|l(x)|
seção 23.1.2, é um espaço de Banach com norma klkX † = sup , l ∈ X †.
x∈X, x6=0 kxkX

Sejam X e Y espaços de Banach e T : X → Y um operador limitado agindo entre X e Y . Definimos


seu dual T 0 como sendo o operador T 0 : Y † → X † definido da seguinte forma: para l ∈ Y † , T l0 é o
funcional linear contı́nuo definido de tal forma que a cada x ∈ X associa o número complexo l(T x):

(T 0 l)(x) = l(T x).

Que T 0 é limitado segue da desigualdade |(T 0 l)(x)| = |l(T x)| ≤ klkY † kT xkY ≤ klkY † kT kkxkX , que
implica
0 |(T 0 l)(x)|
kT lkX † = sup ≤ kT k klkY † .
x∈X, x6=0 kxkX
Em particular, isso diz-nos que

kT 0 lkX †
kT 0 k = sup ≤ kT k . (23.27)
l∈Y † , l6=0 klkY †

A linearidade de T 0 é também fácil de constatar, pois, para quaisquer l, l 0 ∈ Y † , α, β ∈ ,

(T 0 (αl +βl0 ))(x) = (αl +βl0 )(T x) = αl(T x)+βl0 (T x) = α(T 0 l)(x)+β(T 0 l0 )(x) = (αT 0 l +βT 0 l0 )(x),

mostrando que T 0 (αl + βl0 ) = αT 0 l + βT 0 l0 .


O assim definido operador linear limitado T 0 ∈ B(Y † , X † ) é denominado adjunto de T .
Com uso do Teorema de Hahn-Banach é possı́vel mostrar que kT 0 k = kT k. De fato, pela Proposição
23.4, página 1030, sabemos que existe para cada x0 ∈ X um lT x0 ∈ Y † com klT x0 kY † = 1 e tal que
lT x0 (T x0 ) = kT x0 kY . Assim,

kT 0 lT x0 kX † |(T 0 lT x0 )(x)| |(T 0 lT x0 )(x0 )| |lT x0 (T x0 )| kT x0 kY


= kT 0 lT x0 kX † = sup ≥ = = ,
klT x0 kY † x∈X, x6=0 kxkX kx0 kX kx0 kX kx0 kX
(23.28)
Isso implica que
kT 0 lkX † kT 0 lT x0 kX † (23.28) kT x0 kY
kT 0 k = sup ≥ ≥
l∈Y † , l6=0 klkY † klT x0 kY † kx0 kX
para cada x0 ∈ X. Logo,
kT x0 kY
kT 0 k ≥ sup =: kT k .
x0 ∈X, x0 6=0 kx0 kX

Junto com (23.27), isso implica kT 0 k = kT k.


Para futura referência coletamos os fatos provados acima na seguinte proposição:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1049/1195

Proposição 23.10 Sejam X e Y dois espaços de Banach e T : X → Y um operador linear e limitado:


T ∈ B(X, Y ). Então, T 0 : Y † → X † , o chamado adjunto de T , definido por

(T 0 l)(x) = l(T x)

para l ∈ Y † e x ∈ X, é igualmente um operador linear e limitado, ou seja, T 0 ∈ B(Y † , X † ) e satisfaz


kT 0 k = kT k. 2

No caso em que X = Y = H, onde H é um Hilbert, há uma distinção sutil entre T 0 e T ∗ . O primeiro
é uma aplicação de H† em H† enquanto que o segundo é uma aplicação de H em H. A relação entre
ambos é estabelecida pela aplicação R : H† → H, definida em (23.5), página 1022. Tem-se, a saber,

T 0 = R−1 T ∗ R.

E. 23.16 Exercı́cio. Mostre isso. 6

A aplicação T → T 0 é sempre linear enquanto que, no caso de espaços de Hilbert, a aplicação


T → T ∗ é anti-linear. Isso está de acordo com T 0 = R−1 T ∗ R, pois R−1 é também anti-linear.

• A Norma de Operadores Auto-Adjuntos Limitados

Há um fato especial sobre a norma de operadores auto-adjuntos limitados agindo em um espaço de
Hilbert do qual faremos uso repetido no que seguirá.
Teorema 23.12 Se T é um operador auto-adjunto limitado em um espaço de Hilbert H então
|hφ, T φi|
kT k = sup = sup |hφ, T φi|. (23.29)
φ∈H, φ6=0 kφk2 φ∈H, kφk=1

Prova. Se x, y ∈ H, tem-se hx, T yi = hT x, yi = hy, T xi. Logo,

h(x + y), T (x + y)i = hx, T xi + hx, T yi + hy, T xi + hy, T yi = hx, T xi + 2Re(hx, T yi) + hy, T yi,

h(x − y), T (x − y)i = hx, T xi − hx, T yi − hy, T xi + hy, T yi = hx, T xi − 2Re(hx, T yi) + hy, T yi.

Dessas duas expressões conclui-se que

4Re(hx, T yi) = h(x + y), T (x + y)i − h(x − y), T (x − y)i. (23.30)

Definindo-se
|hφ, T φi|
T = sup
φ∈H, φ6=0 kφk2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1050/1195

é claro que
|hφ, T φi| ≤ Tkφk2
para todo φ ∈ H. Retornando à (23.30), tem-se
4|Re(hx, T yi)| ≤ |h(x+y), T (x+y)i|+|h(x−y), T (x−y)i| ≤ T(kx+yk2 +kx−yk2 ) = 2T(kxk2 +kyk2 ).
Na última igualdade usamos a identidade do paralelogramo (2.20), página 124.
Substituindo y por λy, com λ ∈ e |λ| = 1, a última desigualdade fica
1
|Re(λhx, T yi)| ≤ T(kxk2 + kyk2 ).
2
Podemos escolher λ de modo que λhx, T yi = |hx, T yi| (por que?). Assim, ficamos com
1
|hx, T yi| ≤ T(kxk2 + kyk2 ).
2
kyk
Vamos provisoriamente supor que kT yk 6= 0. Escolhendo x = T y, a última desigualdade fica
kT yk
1
kT yk kyk ≤ T(kyk2 + kyk2 ) = Tkyk2 ,
2
ou seja,
kT yk ≤ Tkyk.
Como essa desigualdade vale trivialmente caso kT yk = 0, a mesma deve valer para todo y ∈ H.
Claramente isso diz que
kT k ≤ T. (23.31)
Por outro lado, tem-se pela desigualdade de Cauchy-Schwarz que, para todo φ ∈ H,
|hφ, T φi| ≤ kφk kT φk ≤ kT k kφk2.
Logo,
|hφ, T φi|
T = sup ≤ kT k.
φ∈H, φ6=0 kφk2
Comparando essa desigualdade a (23.31), concluı́mos que kT k = T, que é o que querı́amos provar.

23.3 Álgebras de Banach e Álgebras C∗

23.3.1 Álgebras de Banach

• Álgebras Associativas

Uma álgebra sobre o corpo dos complexos é um espaço vetorial A sobre o corpo dotado de uma
operação de produto binária “·” dita produto da álgebra, de modo que as seguintes propriedades são
satisfeitas
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1051/1195

1. O produto da álgebra é distributivo em relação a soma vetorial: para todos a, b e c ∈ A valem

a · (b + c) = a · b + a · c e (a + b) · c = a · c + b · c.

2. O produto por escalares comuta com o produto da álgebra e é distributivo em relação a ele: para
todos a, b ∈ V e α ∈ vale
α(a · b) = (αa) · b = a · (αb).

Uma álgebra A é dita ser uma álgebra comutativa se para todos a, b ∈ A tivermos

a · b = b · a.

Uma álgebra é dita ser uma álgebra associativa se para todos a, b e c ∈ A tivermos

a · (b · c) = (a · b) · c.

Se A é uma álgebra associativa, podemos sem ambigüidade denotar o produto de dois de seus
elementos a, b ∈ A simplesmente por por ab.

• Álgebras com Involução

Uma álgebra associativa sobre o corpo dos complexos A é dita ter uma involução se existir uma
operação unária ∗ : A → A, que para todo a ∈ A associa um elemento denotado por a ∗ ∈ A, com as
seguintes propriedades:

1. (a∗ )∗ = a para todo a ∈ A.

2. (ab)∗ = b∗ a∗ para todos a, b ∈ A.

3. (αa + βb)∗ = αa∗ + βb∗ para todos α, β ∈ e todos a, b ∈ A.



4. Se a álgebra possuir uma unidade = .

Álgebras que possuem uma involução são ditas ser involutivas ou álgebras A ∗ .
A operação de adjunção para operadores limitados em espaços de Hilbert é a inspiração da definição
de involução. Vamos a outros exemplos. Seja A = C( , ) a álgebra das funções contı́nuas →
 

com o produto usual: (f g)(x) = f (x)g(x). É fácil ver que f 7→ f ∗ dada por f ∗ (x) = f (x) define uma
involução. A aplicação f 7→ f ∗ dada por f ∗ (x) = f (−x) também define uma involução.
Seja A = C( ,  ) ⊕ C( , ) com o produto (f (x), g(x)) · (l(x), m(x)) = (f (x)l(x), g(x)m(x)).
A aplicação (f, g) 7→ (f, g) = (f , g) é uma involução. A aplicação (f, g) 7→ (f, g)∗ = (g, f )

é também uma involução. A aplicação (f (x), g(x)) 7→ (f (x), g(x))∗ = (g(−x), f (−x)) é igualmente
uma involução.

E. 23.17 Exercı́cio. Verifique! 6


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1052/1195

Seja A = B(H), a álgebra dos operadores limitados agindo em um espaço de Hilbert H e seja
d ∈ B(H) tal que d2 = e d = d∗ , onde d∗ é a adjunta usual de d. Então A 3 a 7→ a† := d∗ a∗ d define
uma involução em A.

E. 23.18 Exercı́cio. Verifique! 6

• Álgebras de Banach

Uma álgebra de Banach B é um espaço de Banach, portanto um espaço vetorial normado e completo
em relação a essa norma, dotado de um produto associativo para o qual valha kxyk ≤ kxkkyk para
todos x, y ∈ B. Fora isso, se a álgebra possuir uma unidade , requeremos também que k k = 1.

• Álgebras de Banach-∗

Uma álgebra de Banach B com involução é dita ser uma álgebra de Banach-∗, ou uma álgebra B ∗ ,
se a involução e a norma satisfizerem kak = ka∗ k para todo a ∈ B.
Note-se que se A é uma álgebra B ∗ vale ka∗ ak ≤ ka∗ k kak = kak2

• Álgebras C∗

Uma álgebra C é dita ser uma álgebra C∗ se for uma álgebra de Banach-∗ com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Essa propriedade é denominada propriedade C∗ .
Exemplo. Em função do Teorema 23.11, página 1042, toda álgebra B(H) é uma álgebra C ∗ com
unidade.
Exemplo. Mostraremos no Corolário 23.13, página 1105, que o conjunto dos operadores compactos
agindo em um espaço de Hilbert H é também uma álgebra C∗ , sem unidade caso H não tenha dimensão
finita.
O estudo de propriedades de álgebras C∗ é de grande importância para a compreensão da álgebra
de operadores limitados em espaços de Hilbert. Adiante teremos a oportunidade de explicitar isso.
Também na Fı́sica Quântica álgebras C∗ desempenham um papel fundamental. Vide [49] ou a discussão
que segue o Teorema Espectral.

• Continuidade de operações algébricas em álgebras de Banach

Se B é uma álgebra de Banach e wn é uma seqüência em B que converge em norma a w ∈ B,


então é elementar provar que para todo v ∈ B tem-se lim (v + wn ) = v + lim wn . Isso estabelece
n→∞ n→∞
que a soma é uma operação contı́nua em B na topologia induzida pela norma de B. É igualmente
fácil provar que a multiplicação por escalares é uma operação contı́nua em B na topologia induzida
pela norma de B. Provemos também que o produto (à esquerda ou à direita) é contı́nuo, ou seja,
que lim (vwn ) = v lim wn . Para tal, observemos que vwn = v(wn − w) + vw para todo n. Assim,
n→∞ n→∞
lim (vwn ) − vw = lim v(wn − w). Agora, kv(wn − w)k ≤ kvk kwn − wk → 0 para n → ∞. Logo,
n→∞ n→∞  
lim v(wn − w) = 0 e, portanto, lim (vw) = vw = v lim wn .
n→∞ n→∞ n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1053/1195

Se B é uma álgebra de Banach-∗, então também a involução é contı́nua na topologia induzida pela
norma de B, como é elementar de se provar, pois se wn é uma seqüência em B que  converge
∗ em norma
a w ∈ B, então kwn∗ − w ∗ k = k(wn − w)∗ k = kwn − wk → 0 para n → ∞. Assim, lim wn = lim wn∗ ,
n→∞ n→∞
o que estabelece a continuidade da involução.
Para futura referência, reunimos as observações acima na seguinte proposição.
Proposição 23.11 Se B é uma álgebra de Banach com norma k·k então as operações de soma, produto
por escalares e produto (à esquerda ou à direita) são contı́nuas na topologia induzida pela norma. Se
B é uma álgebra de Banach-∗ então também a involução é contı́nua na topologia induzida pela norma.
2

O leitor não deve aborrecer-se com a aparente trivialidade das asserções acima, pois há topologias
em álgebras de Banach nas quais o produto e a involução não são contı́nuas! Para tais topologias todo
o cuidado é necessário.

23.3.2 A Inversa de Operadores Limitados


No intuito de preparar a futura discussão sobre o noção de espectro de operadores em espaços de Banach,
façamos aqui alguns comentários relativos à noção de inversa de operadores em espaços vetoriais e, em
particular, em espaços de Banach.

• Recordando alguns fatos gerais e um pouco de notação

Se V e W são espaços vetoriais e A : V → W é uma aplicação linear, definimos

Ker (A) := {v ∈ V| Av = 0} ,

Ran (A) := {w ∈ W| w = Av para algum v ∈ V} .

Ker (A) é denominado núcleo de A e Ran (A) é denominado a imagem ou alcance (= “range”) de A.
Dizemos que A possui um núcleo trivial se Ker (A) = {0}. Não custa lembrar também que se V e W são
espaços vetoriais e A : V → W é uma aplicação linear então A é injetora se e somente se Ker (A) = {0}
e A é sobrejetora se e somente se Ran (A) = W. Logo, A é bijetora se e somente se Ker (A) = {0} e
Ran (A) = W. Caso A seja bijetora denotaremos, como sempre, por A−1 : W → V a aplicação inversa
de A. É elementar mostrar que A−1 é também linear.
A seguinte proposição elementar é importante e será implicitamente empregada no que segue.
Proposição 23.12 Seja V um espaço vetorial e seja A : V → V uma aplicação linear. Então A é
bijetora se e somente se existir uma aplicação linear B : V → V tal que AB = e BA = . Se uma
tal B existir, será única.

Prova. Se A é bijetora a aplicação inversa A−1 faz o serviço desejado. Suponhamos agora que exista
B como acima. Se A não é injetora, então existem x, y ∈ V distintos com Ax = Ay. Aplicando B à
esquerda e usando BA = , concluı́mos que x = y, uma contradição. Se A não é sobrejetora, existe
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1054/1195

x ∈ V tal que Ay − x 6= 0 para todo y ∈ V. Se assim é, tomemos y = Bx. Concluirı́amos de AB =


que 0 6= ABx − x = x − x, um absurdo. A unicidade de B segue da observação que se B 0 : V → V
for também tal que AB 0 = e B 0 A = , então aplicando B à esquerda na primeira relação e usando a
associatividade teremos B = B(AB 0 ) = (BA)B 0 = B 0 = B 0 .

Um comentário pertinente à Proposição 23.12 é o seguinte. No espaço vetorial de dimensão finita


V = n , a relação AB = implica BA = (A e B sendo aqui elementos de Mat ( , n)). Em espaços
de dimensão infinita, porém, isso não é sempre verdade e é preciso requerer tanto AB = quanto
BA = da inversa de A. Como exemplo, considere-se o espaço vetorial S( ) de todas as seqüências de
números complexos (vide Seção 13.4.1, página 750). Defina-se A : S( ) → S( ) e B : S( ) → S( )
por

A(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) ,

B(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) .

Então,

BA(a1 , a2 , a3 , a4 , a5 , . . .) = (a1 , a2 , a3 , a4 , a5 , . . .) ,

AB(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a2 , a3 , a4 , a5 , . . .) ,

provando que BA = mas AB 6= .

• Fatos gerais sobre a inversa de operadores em B(X)

Vamos analisar as várias situações que podem ocorrem com operadores limitados agindo em um
espaço de Banach X no que concerne a sua invertibilidade ou não-invertibilidade. Naturalmente, um
operador limitado V ∈ B(X) agindo em um espaço de Banach X pode ser bijetor ou não e, se não o
for, vários sub-casos são possı́veis. Temos o seguinte quadro:

1. V é bijetor.
Se V ∈ B(X) é um operador limitado e é bijetor então, pelo Teorema da Aplicação Inversa,
Teorema 23.8, página 1038, V −1 é igualmente um elemento de B(X).

2. V não é bijetor.
Se V ∈ B(X) não é bijetor, então ou V não é injetor ou não é sobrejetor (ou ambos).

(a) V não é injetor.


Se V não é injetor, então Ker (V ), possui pelo menos um vetor não-nulo e V −1 não existe
enquanto operador agindo Ran (V ).
(b) V não é sobrejetor mas é injetor.
Se V não é sobrejetor, podem ocorrer duas coisas: ou Ran (V ) é denso em X ou não é.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1055/1195

i. Ran (V ) é denso em X.
Se Ran (V ) é denso em X e V é injetor, então V : X → Ran (V ) é bijetor e, portanto,
possui uma inversa V −1 : Ran (V ) → X. Essa inversa, porém, não pode ser limitada,
como mostra o seguinte argumento. Se o fosse, V −1 poderia ser estendido (pelo Teorema
BLT, Teorema 23.1, página 1017) ao fecho de Ran (V ), que é X, por hipótese. Denotemos
por W essa extensão. Como a imagem dessa extensão e a de V −1 são todo X, essa
extensão não pode ser injetora e, portanto, não é a inversa de um operador. Ocorre,
porém, que pela definição de W dada pelo Teorema BLT, vale para todo x ∈ X que
W x = limy→x
V −1 y. Assim, como V é contı́nuo,
y∈Ran(V )

V Wx = V lim
y→x
V −1 y = lim
y→x
V V −1 y = lim
y→x
y = x.
y∈Ran(V ) y∈Ran(V ) y∈Ran(V )

Além disso, como W estende V −1 , a qual é definida em Ran (V ), tem-se igualmente


W V x = V −1 V x = x para todo x ∈ X. Isso diz-nos que V é a inversa de W em todo X,
uma contradição.
Assim, se Ran (V ) é denso em X e V é injetor então V −1 : Ran (V ) → X existe mas não
é limitada.
ii. Ran (V ) não é denso em X.
Resta ainda o caso em que Ran (V ) não é denso em X. Aqui, podemos ter V injetora
ou não. Se V não for injetora, então V possui núcleo não-trivial e V −1 não pode ser
definida em Ran (V ). Se V for injetora, então V não possui um autovetor não-nulo com
autovalor 0 e V −1 pode ser definida em Ran (V ).
(c) V não é sobrejetor nem injetor.
Aqui estamos de volta ao caso 2a e V −1 não existe em Ran (V ).

Resumindo, temos as seguintes conclusões:


Teorema 23.13 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X, tem-se as
seguintes situações mutuamente excludentes:

1. V é bijetor e V −1 existe em todo X e é limitado.

2. V não é bijetor, e tem-se os seguintes sub-casos:

(a) V não é injetor, Ker (V ) é não-trivial e V −1 não pode ser definida em Ran (V ).
(b) V é injetor e não é sobrejetor, Ran (V ) é denso em X e Ker (V ) = {0}, sendo que V −1 :
Ran (V ) → X existe mas não é limitada.
(c) V é injetor e não é sobrejetor, Ran (V ) não é denso em X e Ker (V ) = {0}, sendo que
V −1 : Ran (V ) → X existe, podendo ser limitada ou não. 2

A proposição seguinte é também relevante e será empregada quando da discussão sobre o espectro
de operadores auto-adjuntos em espaços de Hilbert.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1056/1195

Proposição 23.13 Se V ∈ B(X) é um operador limitado agindo em um espaço de Banach X tal que
V −1 : Ran (V ) → X existe e é limitada, então Ran (V ) é um sub-espaço fechado de X. 2

Prova. Seja yn = V xn , n ∈ uma seqüência em Ran (V ) que converge a y ∈ X. Temos que xn = V −1 yn .




Assim, kxn −xm k ≤ kV −1 k kyn −ym k. Como yn é uma seqüência convergente, é de Cauchy e, pela última
desigualdade, xn também o é. Seja x ∈ X o limite da seqüência xn . Temos que y−V x = y−yn +V xn −V x
para todo n ∈ e, portanto, ky −V xk ≤ ky −yn k+kV k kxn −xk. Agora, tomando n → ∞ e lembrando


que yn → y e xn → x, concluı́mos que ky − V xk = 0, ou seja, y = V x, o que prova que y ∈ Ran (V ).


Isso demonstra que Ran (V ) é fechado.

A Proposição 23.13 diz-nos que no item 2c do Teorema 23.13, Ran (V ) será um sub-espaço fechado
próprio de X caso V −1 seja limitada.

• A inversa em álgebras de Banach

Vários resultados gerais sobre a inversa de operadores podem ser estabelecidos no contexto geral
de álgebras de Banach com unidade, para então particularizarem-se para álgebras como como B(X) ou
B(H), que são de álgebras Banach de operadores, com unidade, agindo em espaços de Banach ou de
Hilbert. Nas páginas que seguem trataremos dessa análise geral para depois estudarmos aqueles casos
particulares.
Seja doravante B uma álgebra de Banach com unidade. Um elemento w ∈ B é dito ser invertı́vel se
existir v ∈ B tal que vw = wv = . Se um tal v existe ele é único, como mostra o seguinte argumento
elementar: se v 0 também satisfaz = v 0 w = wv 0 , então, multiplicando-se à direita por v e usando-se
a associatividade, teremos v = (v 0 w)v = v 0 (wv) = v 0 = v 0 . Se v satisfaz vw = wv = , é dito ser a
inversa ou elemento inverso de w e é denotado por w −1 .
Se B uma álgebra de Banach com unidade e w ∈ B é invertı́vel então, w −1 w = ww −1 = implica,
∗ ∗
tomando-se o adjunto, w ∗ (w −1 ) = (w −1 ) w ∗ = , o que significa que w ∗ é também invertı́vel e vale
∗
(w ∗ )−1 = w −1 . (23.32)

Pela Proposição 23.12, acima, no caso da álgebra de Banach-∗ B(X), dos operadores lineares
contı́nuos agindo em um espaço de Banach X, a noção de invertibilidade acima coincide coma usual.
Vamos designar por Inv (B) o conjunto dos elementos invertı́veis de uma álgebra de Banach com
unidade B. É bastante evidente que Inv (B) é um grupo com relação a operação de produto em B. Em
verdade, trata-se de um grupo contı́nuo como mostraremos mais adiante.
Na teoria de operadores é muito importante conhecer condições suficientes que garantam a inver-
tibilidade de operadores. No contexto de álgebras de Banach com unidade a seguinte proposição é
fundamental.
Proposição 23.14 Seja B uma álgebra de Banach com unidade. Então, para todo w ∈ B com kwk < 1
existe ( − w)−1 , a saber, dado por

X
−1
( − w) := + wk , (23.33)
k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1057/1195

sendo que a série ao lado direito converge na norma de B. A série em (23.33) é denominada série de
Neumann12 . 2

n
Prova. Provemos primeiramente que a série de Neumann converge. Se sn := + Σ w k , então, para
k=1
n
k
m < n vale sn − sm = Σ w . Logo,
k=m+1

n
X n
X n−m−1
X ∞
X
k k m+1 k m+1 kwkm+1
ksn − sm k ≤ kw k ≤ kwk = kwk kwk ≤ kwk kwkk = .
k=m+1 k=m+1 k=0 k=0
1 − kwk


1
A série numérica Σ kwkk converge a 1−kwk
pois kwk < 1. Por essa mesma razão, é claro que kwkm+1
k=0
pode ser feito menor que qualquer  > 0 prescrito, desde que m seja grande o suficiente. Isso provou
que sn , n ∈ é uma seqüência de Cauchy na norma de B e, portanto, converge. Seja, v ∈ B o seu


limite. Teremos

n
! n n
!
X X X
k k+1 k n+1
wv = w + w lim w = w + lim w = w + lim w +w −w
n→∞ n→∞ n→∞
k=1 k=1 k=1

n
X
n+1
= lim w + lim wk = v − ,
n→∞ n→∞
k=1

onde acima usamos a continuidade do produto em B (Proposição 23.11, página 1053) e o fato que
lim w n+1 = 0, pois kw n+1 k ≤ kwkn+1 → 0 para n → ∞, pois kwk < 1. Logo, ( −w)v = v−(v− ) = .
n→∞
Analogamente,

n
! n n
!
X X X
vw = w + lim wk w = w + lim w k+1 = w + lim w k + w n+1 − w
n→∞ n→∞ n→∞
k=1 k=1 k=1

n
X
n+1
= lim w + lim wk = v − ,
n→∞ n→∞
k=1

e concluı́mos que v( − w) = v − (v − ) = . Isso completa a demonstração.

O seguintes fato será utilizado adiante.


Proposição 23.15 Se B é álgebra de Banach com unidade e u, v ∈ B, então − uv ∈ Inv (B) se e
somente se − vu ∈ Inv (B). 2

12
Carl Neumann (1832-1925).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1058/1195

Prova. Se − uv ∈ Inv (B) e w = ( − uv)−1 , é elementar constatar que ( − vu)( + vwu) = =


( + vwu)( − vu), pois

( − vu)( + vwu) = − vu + vwu − vuvwu = − vu + v ( − uv)w u = − vu + vu = ,


| {z }
=

( + vwu)( − vu) = − vu + vwu − vwuvu = − vu + v w( − uv) u = − vu + vu = ,


| {z }
=

o que mostra que − vu ∈ Inv (B) com ( − vu)−1 = ( + vwu). A recı́proca é evidente.

• Propriedades topológicas do grupo dos operadores invertı́veis

A Proposição 23.14 tem um corolário que usaremos oportunamente, o qual afirma que elementos de
uma álgebra de Banach que estejam suficientemente próximos de um elemento invertı́vel são também
invertı́veis.
Corolário 23.3 Seja B uma álgebra de Banach com unidade e seja w um elemento invertı́vel de B.
Suponhamos que v ∈ B seja tal que k − vw −1 k < 1, o que ocorre, por exemplo, se kv − wk < kw −1 k−1 .
Então v é invertı́vel e !
X∞
 k
v −1 = w −1 + − vw −1 ,
k=1

sendo a série do lado direito convergente na norma de B. 2

Prova. Tem-se v = v −w +w = ( −(w −v)w −1 )w. Pela Proposição 23.14, −(w −v)w −1 será invertı́vel
se k(w − v)w −1 k < 1. Como k(w − v)w −1 k ≤ kw − vk kw −1 k, isso será satisfeito se kv − wk < kw −1 k−1 .
Teremos então, novamente pela Proposição 23.14,

! ∞
!
X X  k
v −1 = w −1 ( − (w − v)w −1 )−1 = w −1 + [(w − v)w −1 ]k = w −1 + − vw −1 .
k=1 k=1

Disso é imediato o seguinte fato:


Corolário 23.4 Seja B uma álgebra de Banach com unidade. Então o grupo Inv (B) dos elementos
invertı́veis de B é um subconjunto aberto de B. 2

Para estabelecermos que Inv (B) é também um grupo contı́nuo usaremos o fato descrito na pro-
posição seguinte.
Proposição 23.16 Seja B uma álgebra de Banach com unidade. Então, a aplicação que a cada w ∈
Inv (B) associa sua inversa w −1 é contı́nua na topologia da norma de B. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1059/1195

Prova. Seja v ∈ Inv (B) fixado e tomemos u ∈ Inv (B) tal que ku − vk <  com  > 0 escolhido pequeno
o suficiente de modo que kv −1 k < 1. Que tal é possı́vel garante-nos o Corolário 23.4. É claro que
−1
u = v + (u − v) = v( + v −1 (u − v)), de maneira que u−1 = [ + v −1 (u − v)] v −1 . Logo,
n −1 o
−1 −1 −1
u −v = + v (u − v) − v −1 .

Assim, como pela escolha de  temos kv −1 (u − v)k ≤ kv −1 k < 1, podemos por (23.33) escrever
" ∞ #
X   m
u−1 − v −1 = (−1)m v −1 (u − v) v −1 .
m=1

Tem-se, então,
" ∞
# " ∞
#
X X m kv −1 k2
ku−1 − v −1 k ≤ kv −1 km ku − vkm kv −1 k ≤ kv −1 k kv −1 k = .
m=1 m=1
1 − kv −1 k

Portanto, ku−1 − v −1 k → 0 quando ku − vk → 0, provando a continuidade da operação de inversão.

Das Proposições 23.16 e 23.11 concluı́mos:


Proposição 23.17 Se B é álgebra de Banach com unidade então Inv (B) é um grupo contı́nuo na
topologia induzida em Inv (B) pela norma de B. 2

23.3.3 O Espectro de Operadores em Álgebras de Banach


Na presente seção apresentaremos a noção de espectro de operadores em álgebras de Banach. Todos
os desenvolvimentos que seguem terão importância para as seções posteriores. Façamos notar o leitor
que alguns dos resultados que apresentaremos são gerais, sendo válidos em quaisquer álgebras de
Banach, outros são especı́ficos de álgebras C∗ . A presente seção é introdutória ao estudo do espectro
de operadores agindo em espaços de Banach e de Hilbert que empreenderemos na Seção 23.5, página
1091.

• A noção de espectro de operadores em álgebras de Banach

Se B é álgebra de Banach com unidade e u ∈ B, denotamos por ρ(u) o chamado conjunto resolvente
de u, definido por ρ(u) := {λ ∈ | λ − u ∈ Inv (B)}. O chamado espectro de u, denotado por σ(u), é
definido por
σ(u) := {λ ∈ | λ − u 6∈ Inv (B)} ,
ou seja, σ(u) = \ ρ(u).

• Fatos básicos sobre o espectro de operadores em álgebras de Banach e Banach-∗

Uma conseqüência imediata da Proposição 23.15 é o seguinte:


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1060/1195

Proposição 23.18 Se B é uma álgebra de Banach com unidade e u, v ∈ B, então σ(uv) \ {0} =
σ(vu) \ {0}, ou seja, o espectro de uv pode diferir do de vu apenas no conjunto {0}. 2

Prova. Se λ 6= 0, então (λ − uv) = λ( − λ−1 uv), que pela Proposição 23.15, página 1057, é invertı́vel
se e somente se λ( − λ−1 vu) o for.

Uma conseqüência imediata é o seguinte corolário, o qual revela uma propriedade de invariância do
espectro.
Corolário 23.5 Se B é uma álgebra de Banach com unidade e u, v ∈ B com u ∈ Inv (B), então
σ (uvu−1 ) = σ(v). 2

Prova. Pela Proposição 23.18, é imediato que σ (uvu−1 ) \ {0} = σ(v) \ {0}. Agora, 0 6∈ ρ(v) se e
somente se v 6∈ Inv (B). Assim, 0 ∈ σ(v) se e somente se v ∈ Inv (B). Mas, v ∈ Inv (B) se e somente se
uvu−1 ∈ Inv (B) o que, por sua vez ocorre se e somente se 0 ∈ σ(uvu−1 ). Logo, 0 ∈ σ(v) se e somente
se 0 ∈ σ(uvu−1 ).

As duas proposições que seguem serão repetidamente empregadas.


Proposição 23.19 Seja B uma álgebra de Banach com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então, 
σ u−1 = {λ ∈ | λ−1 ∈ σ(u)} .
2

Prova da Proposição 23.19. Se u é invertı́vel, então 0 ∈ ρ(u), ou seja, 0 6∈ σ(u). É também claro que
para λ 6= 0 (λ − u) = −λu (λ−1 − u−1 ), o que claramente mostra que λ ∈ σ(u) se e somente se
λ−1 ∈ σ (u−1 ).

Denotaremos σ(u)−1 := {λ ∈ | λ−1 ∈ σ(u)}. O que a proposição acima afirma é que se u ∈ Inv (B),
então σ (u−1 ) = σ(u)−1 .
Proposição 23.20 Seja B uma álgebra de Banach-∗ com unidade e u ∈ Inv (B) um elemento invertı́vel
de B. Então,
σ (u∗ ) = {λ ∈ | λ ∈ σ(u)} .
2


Prova da Proposição 23.20. (λ − u)∗ = λ − u∗ . Logo, por (23.32), λ ∈ σ(u) se e somente se
λ ∈ σ(u∗ ).

Denotaremos σ(u)cc := {λ ∈ | λ ∈ σ(u)}. O que a proposição acima afirma é que σ (u∗ ) = σ(u)cc .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1061/1195

Seja B uma álgebra de Banach com unidade e seja um polinômio p(z) = a0 + a1 z + . . . + an z n


definido para z ∈ . Para u ∈ B definimos p(u) := a0 + a1 u + . . . + an un ∈ B. Para polinômios de
operadores, vale a seguinte propriedade importante, conhecida como Teorema da Aplicação Espectral:
Teorema 23.14 (Teorema da Aplicação Espectral) Sejam B uma álgebra de Banach com uni-
dade e u ∈ B. Então para todo polinômio p vale

σ(p(u)) = p(σ(u)) := {p(λ), λ ∈ σ(u)} .

Prova. Vamos supor que p(z) = a0 + a1 z + . . . + an z n seja de grau n ≥ 1, pois no caso de um polinômio
constante a afirmativa é trivial. Tomemos µ ∈ σ(p(u)), que é não-vazio, como sabemos, e sejam
α1 , . . . , αn as n raı́zes do polinômio p(z) − µ em . Então p(z) − µ = an (z − α1 ) · · · (z − αn ), o que
implica p(u)−µ = an (u−α1 ) · · · (u−αn ). Se nenhum dos αi pertencesse a σ(u) então cada (u−αj )
seria invertı́vel, assim como o produto an (u − α1 ) · · · (u − αn ), contrariando o fato de µ ∈ σ(p(u)).
Logo, algum dos αi pertence a σ(u). Como p(αi ) = µ, isso diz que σ(p(u)) ⊂ {p(λ), λ ∈ σ(u)}.
Provemos agora a recı́proca. Já sabemos que σ(u) é não-vazio. Para λ ∈ σ(u) tem-se evidentemente
que o polinômio p(z) − p(λ) tem λ como raiz. Logo, p(z) − p(λ) = (z − λ)q(z), onde q é um polinômio
de grau n − 1. Portanto, p(u) − p(λ) = (u − λ )q(u) e como (u − λ ) não é invertı́vel, p(u) − p(λ)
também não o pode ser, o que diz-nos que p(λ) ∈ σ(p(u)). Isso significa que {p(λ), λ ∈ σ(u)} ⊂ σ(p(u)),
estabelecendo σ(p(u)) = {p(λ), λ ∈ σ(u)}.

Veremos quando tratarmos do homomorfismo de Gelfand e do Cálculo Funcional Contı́nuo que


para operadores limitados e auto-adjuntos definidos em em espaços de Hilbert o Teorema da Aplicação
Espectral pode ser bastante generalizado. Vide Teorema 23.32, página 1121.

• O operador resolvente e propriedades topológicas do espectro

Se um número complexo λ pertence ao conjunto resolvente de u ∈ B, define-se o operador resolvente


de u calculado em λ, denotado por Rλ (u), por

Rλ (u) := (λ − u)−1 .

Pelas hipóteses Rλ (u) é um elemento de B.


Muitas propriedades de ρ(u) (e, portanto de σ(u)) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(u) é sempre um conjunto aberto
de (e, portanto, σ(u) é sempre um conjunto fechado de ) e mostraremos também que σ(u) nunca
é igual a todo (e, portanto, σ(u) nunca é vazio).
Proposição 23.21 (Primeira identidade do resolvente) Sejam B uma álgebra de Banach com
unidade e u ∈ B. Se λ e µ pertencem ao conjunto resolvente ρ(u) de u, então

Rλ (u) − Rµ (u) = (µ − λ)Rλ (u)Rµ (u) . (23.34)

2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1062/1195

Prova. A prova segue do seguinte cômputo que dispensa comentários:


 
Rλ (u) = Rλ (u) (µ − u)Rµ (u) = Rλ (u) (µ − λ) + (λ − u) Rµ (u)
| {z }
=

= (µ − λ)Rλ (u)Rµ (u) + Rλ (u)(λ − u) Rµ (u) = (µ − λ)Rλ (u)Rµ (u) + Rµ (u) .


| {z }
=

Iremos agora estabelecer uma série de resultados sobre propriedades do operador resolvente que
culminarão com a Proposição 23.24.
Lema 23.3 Sejam B uma álgebra de Banach com unidade e u ∈ B. Se λ e µ pertencem ao conjunto
resolvente ρ(u) de u e |λ − µ| < kRµ (u)k−1 então
" ∞
# " ∞
#
X X
Rλ (u) = Rµ (u) + (µ − λ)n (Rµ (u))n = + (µ − λ)n (Rµ (u))n Rµ (u) . (23.35)
n=1 n=1
2

Prova. Que as séries acima são convergentes para |λ − µ| < kRµ (u)k−1 é elementar. Portanto, ambas
definem operadores de B. A segunda igualdade em (23.35) é também evidente. Resta-nos provar que
as expressões do lado direito são de fato iguais à inversa de λ − u. Agora,
 
(λ − u)Rµ (u) = (λ − µ) + (µ − u) Rµ (u) = −(µ − λ)Rµ (u) + .

Assim,
" ∞
#
X
(λ − u)Rµ (u) + (µ − λ)n (Rµ (u))n
n=1
" ∞
# " ∞
#
X n
X n
n n
= −(µ − λ)Rµ (u) + (µ − λ) (Rµ (u)) + + (µ − λ) (Rµ (u))
n=1 n=1


" ∞
#
X X
= − (µ − λ)n (Rµ (u))n + + (µ − λ)n (Rµ (u))n = .
n=1 n=1

Provar que " #



X
+ (µ − λ)n (Rµ (u))n Rµ (u)(λ − u) =
n=1
é análogo.

A expressão (23.35) não é adivinhada, mas sugerida por


" ∞  n #
1 1 1 1 X 1
=   = 1+ (µ − λ)n ,
λ−t µ − t 1 − µ−λ µ−t n=1
µ − t
µ−t
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1063/1195

válida para λ, µ, t ∈ com |µ − λ| < |µ − t|, λ 6= t e µ 6= t.


Proposição 23.22 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então ρ(u) é um subcon-
junto aberto de , o que implica que σ(u) é um subconjunto fechado de . 2

Prova. O Lema 23.3 afirma que se µ ∈ ρ(u), então todo λ ∈ que dista de µ menos que kR µ (u)k−1 é
também um elemento de ρ(u). Ora, isso está precisamente dizendo que ρ(u) é um subconjunto aberto
de e, portanto, σ(u) é um subconjunto fechado de , por ser o complemento de ρ(u).

A proposição seguinte, que será usada logo adiante, ilustra a importância da teoria das funções
analı́ticas no estudo de propriedades de operadores em álgebras de Banach.
Proposição 23.23 Sejam B uma álgebra de Banach e u ∈ B. Então, para cada ` ∈ B † , funcional
linear contı́nuo em B, a função de variável complexa f` : ρ(u) → dada por f` (λ) := `(Rλ (u)) é
holomórfica (i.e. analı́tica) em cada componente conexa de ρ(u). 2

Prova. Sejam µ ∈ ρ(u) e λ tal que |λ − µ| < kRµ (u)k−1 . Tem-se por (23.35) que λ ∈ ρ(u) e


!
(23.35) X n+1
f` (λ) := `(Rλ (u)) = ` Rµ (u) + (µ − λ)n (Rµ (u))
n=1


X 
(µ − λ)n ` (Rµ (u))n+1 . (23.36)
continuidade
= `(Rµ (u)) +
n=1

Como 
` (Rµ (u))n+1 ≤ k`k k (Rµ (u))n+1 k ≤ k`k kRµ (u)kn+1 ,
segue de |λ − µ| < kRµ (u)k−1 que a última série em (23.36) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (u)k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(u) que contem µ.

A proposição seguinte, devida a Gelfand13 , é importante pois finalmente estabelece que o espectro
de um operador contı́nuo em um espaço de Banach nunca é vazio.
Proposição 23.24 Sejam B uma álgebra de Banach com unidade e u ∈ B. Então, σ(u) é um conjunto
não-vazio e está contido na bola fechada de raio kuk centrada em 0: {z ∈ | |z| ≤ kuk}. 2

Prova. Vamos supor que ρ(u) = . Então, pela Proposição 23.23, para todo ` funcional linear contı́nuo
em B a função f` (λ) := `(Rλ (u)) seria inteira, isto é, analı́tica em toda parte. Agora, para |λ| > kuk
" ∞
#
X
Rλ (u) = (λ − u)−1 = λ−1 ( − λ−1 u)−1 = λ−1 + λ−n un (23.37)
n=1
13
Israil Moiseevic Gelfand (1913-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1064/1195

de acordo com (23.33) da Proposição 23.14, página 1056, pois pela hipótese kλ −1 uk < 1. Assim,
" ∞  n #
1 X kuk 1
kRλ (u)k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kuk

Isso mostra que lim kRλ (u)k = 0. Logo, como |f` (λ)| = |`(Rλ (u))| ≤ k`k kRλ (u)k, segue que
|λ|→∞
lim |f` (λ)| = 0. Com isso, concluı́mos que f` (λ) é uma função inteira, limitada e converge a zero
|λ|→∞
no infinito. Pelo bem-conhecido Teorema de Liouville14 da Análise Complexa, isso implica que f` (λ) é
identicamente nula para todo λ ∈ . Se, porém, `(Rλ (u)) for nulo para cada funcional linear contı́nuo
` então, pelo Corolário 23.1, página 1031, terı́amos Rλ (u) = 0, um absurdo, pois Rλ (u) é a inversa de
um operador. Assim concluı́mos que ρ(u) não pode ser igual a todo e, portanto, σ(u) 6= ∅.
Pela Proposição 23.14, página 1056, a expressão (23.37) mostra que R λ (u) está definida para todo
|λ| > kuk. Assim, {z ∈ | |z| > kuk} ⊂ ρ(u). Logo, σ(u) ⊂ {z ∈ | |z| ≤ kuk}.

• O raio espectral

Pela Proposição 23.24, página 1063, sabemos que o espectro de um elemento u de uma uma álgebra
de Banach com unidade B está contido na bola fechada de raio kuk centrada em 0. Em muitas aplicações
é importante ter-se uma noção mais precisa sobre qual a maior distância à origem 0 em que se pode
encontrar um ponto do espectro de u. Os Teoremas 23.15 e 23.16, a seguir, fornecem-nos informações
mais precisas sobre essa distância.
Sejam B uma álgebra de Banach com unidade e u ∈ B. Definimos o raio espectral de u por

r(u) := sup |λ| ,


λ∈σ(u)

onde, como antes, σ(u) = {λ ∈ | (λ − u) não é invertı́vel}. Pela Proposição 23.24, página 1063, está
claro que r(u) ≤ kuk. O seguinte teorema, devido a Beurling15 , é um dos resultados fundamentais da
análise espectral de operadores e será empregado várias vezes no que segue.
Teorema 23.15 (Teorema do Raio Espectral) Sejam B uma álgebra de Banach com unidade e
u ∈ B. Então,
r(u) = inf kun k1/n = lim kun k1/n . (23.38)
n≥1 n→∞
2

Prova do Teorema 23.15.16 É claro pela definição que {λ ∈ | |λ| > r(u)} é uma componente conexa
do conjunto resolvente de u. Assim, pela Proposição 23.23, página 1063, as funções f ` (λ) := `(Rλ (u))
com ` ∈ B† , funcional linear contı́nuo em B, são analı́ticas na região {λ ∈ | |λ| > r(u)}. De acordo
14
Joseph Liouville (1809-1882).
15
Arne Carl-August Beurling (1905-1986).
16
Seguiremos aqui a apresentação de [92], mas com alguns esclarecimentos extra. Basicamente, a vantagem dessa
demonstração é o uso do Princı́pio de Limitação Uniforme, o que a torna mais curta e elementar, em contraste com
outras exposições, como as de [14] ou de [99].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1065/1195

com fatos bem conhecidos da teoria das funções de variável complexa, isso implica que naquela região
f` (λ) possui uma representação em termos de uma série de Laurent17 :

X
f` (λ) = an λ−n , |λ| > r(u) .
n=0

Na região {λ ∈ | |λ| > kuk} ⊂ {λ ∈ | |λ| > r(u)}, vale kλ−1 uk < 1 e podemos escrever, usando
a série de Neumann (23.33),
  −1 
f` (λ) := `(Rλ (u)) = ` (λ − u)−1 = λ−1 ` − λ−1 u


! ∞
X continuidade de `
X
−1 −n n
= λ ` λ u = ` (un ) λ−n−1
n=0 n=0

Concluı́mos disso que a0 = 0 e an = ` (un−1 ), n ≥ 1 e, portanto, a série



X
` (un ) λ−n−1
n=0

converge para todo λ com |λ| > r(u) e não apenas para |λ| > kuk. Como essa série é convergente,
concluı́mos que para todo λ com |λ| > r(u) devemos ter limn→∞ |` (un ) λ−n−1 | = 0, o que implica que
a seqüência ` (un ) λ−n−1 é limitada. Assim, provamos que para cada ` ∈ B† existe uma constante
M` > 0 tal que |` (un ) λ−n−1 | ≤ M` . Sob essas condições, o Princı́pio de Limitação Uniforme (ou
Teorema de Banach-Steinhaus, Teorema 23.6, página 1031) garante-nos que existe M ≥ 0, finito, tal que
kλ−n−1 un k ≤ M para todo n ≥ 1. Conseqüentemente, kun k1/n ≤ M 1/n |λ|1+1/n para todo n ≥ 1. Disso
extraı́mos que lim sup kun k1/n ≤ |λ|. Como essa desigualdade vale para todo λ ∈ {λ ∈ | |λ| > r(u)},
n→∞
concluı́mos que
lim sup kun k1/n ≤ inf |λ| = r(u) .
n→∞ λ∈{λ∈ | |λ|>r(u)}


Vamos agora demonstrar que r(u) ≤ lim inf kun k1/n .


n→∞

Pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061, sabemos que se λ ∈ σ(u) então
λn ∈ σ(un ) para todo n ∈ . Logo, pela Proposição 23.24, página 1063, vale |λn | ≤ kun k. Isso


trivialmente diz que |λ| ≤ kun k1/n para todo λ ∈ σ(u) e todo n ≥ 1. Portanto,

r(u) := sup |λ| ≤ inf kun k1/n ≤ lim inf kun k1/n .
λ∈σ(u) n≥1 n→∞

Logo, estabelecemos lim sup kun k1/n ≤ r(u) ≤ inf kun k1/n ≤ lim inf kun k1/n , o que implica (23.38).
n→∞ n≥1 n→∞

O seguinte corolário importante será empregado adiante, por exemplo, quando discutirmos o ho-
momorfismo de Gelfand e o Teorema Espectral.
17
Pierre Alphonse Laurent (1813-1854).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1066/1195

Teorema 23.16 Se A é uma álgebra C∗ com unidade e a ∈ A é um operador auto-adjunto (ou seja,
tal que a = a∗ ) ou normal (ou seja, tal que aa∗ = a∗ a), então

r(a) = kak . (23.39)

Note que se H é um espaço de Hilbert, B(H) é uma álgebra C ∗ com unidade e, portanto, a afirmação
acima aplica-se a operadores limitados auto-adjuntos ou normais agindo em um espaço de Hilbert H.
2

Prova do Teorema 23.16. Em uma álgebra C∗ todo operador b satisfaz a propriedade C∗ : kb∗ bk = kbk2 .
Assim, para um operador auto-adjunto a, vale ka2 k = kak2 . Substituindo a nessa expressão pelo
n−1
operador auto-adjunto a2 e utilizando-a n vezes, teremos
n n−1 n−2 2 n
ka2 k = ka2 k2 = ka2 k2 = · · · = kak2 . (23.40)

Portanto,
(23.38) n n
r(a) = lim kam k1/m = lim ka2 k1/2 = lim kak = kak . (23.41)
m→∞ n→∞ n→∞

n
Tratemos agora do caso de operadores normais. Se b ∈ A, vale pela propriedade C ∗ kb2 k2 =
n n n n n n n
k(b2 )∗ b2 k. Para um operador normal a, tem-se (a2 )∗ a2 = (a∗ a)2 . Logo, ka2 k2 = k(a∗ a)2 k. Como
n n
a∗ a é auto-adjunto, segue de (23.40) (substituindo lá a por a∗ a) que k(a∗ a)2 k = ka∗ ak2 . Novamente
n+1
pela propriedade C∗ , a última expressão vale kak2 . Provamos, então, que para a normal tem-se
n n
ka2 k = kak2 . Assim, aplica-se novamente (23.41), completando a prova.

O leitor deve, porém, ser advertido que há situações em que r(u) < kuk. Tal é o caso, por exemplo,
do operador de Volterra W , tratadoR x no Exemplo 23.6 à página 1111, o qual é definido no espaço de
Banach C([0, 1]) por (W f )(x) := 0 f (y)dy, e para o qual tem-se r(W ) = 0 mas kW k = 1.
Uma das conseqüências mais profundas do Teorema 23.16 são a proposição e o corolário seguintes.
Proposição 23.25 Se A é uma álgebra C∗ com unidade, então
p
kak = r(a∗ a)

para todo a ∈ A. 2

Prova. Pela propriedade C∗ vale kak2 = ka∗ ak para todo a ∈ A. Agora, a∗ a é auto-adjunto e, pelo
Teorema 23.16, r(a∗ a) = ka∗ ak.

Corolário 23.6 Se B é uma álgebra-∗ que é uma álgebra C∗ em relação a uma norma k · k1 e também
em relação a uma norma k · k2 então essas normas são iguais. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1067/1195

Prova. Seja a ∈ B. Usando a propriedade C∗ para as normas k · k1 e k · k2 e o Teorema 23.16 para o


operador auto-adjunto a∗ a, tem-se kak21 = ka∗ ak1 = r(a∗ a) = ka∗ ak2 = kak22 .

A razão é de a Proposição 23.25 ser importante é a seguinte. O espectro de um operador a é definido


em termos puramente algébricos (existênciap ou não da inversa de λ − a) e,∗ portanto, o raio espectral
r(a) também o é. A igualdade kak = r(a∗ a) revela que em álgebras C a norma operatorial, um
objeto de natureza topológica, é determinado por um objeto de natureza algébrica, o raio espectral.
Assim, uma álgebra C∗ é uma álgebra que vem, por assim, dizer, imbuı́da de sua própria topologia. O
Teorema 23.16 tem várias outras implicações estruturais sobre álgebras C ∗ . Vide a discussão de [14]
ou [92].

• O espectro de operadores unitários e de operadores auto-adjuntos em álgebras C ∗

Um elemento u de uma álgebra-∗ com unidade é dito ser unitário se u−1 = u∗ , ou seja, se u∗ u =
uu∗ = .
As duas proposições que seguem são importantes por permitirem localizar com mais precisão o
espectro de operadores unitários ou auto-adjuntos.
Proposição 23.26 Seja A uma álgebra C∗ com unidade seja u ∈ A, unitário. Então σ(u) ⊂ S 1 :=
{λ ∈ | |λ| = 1}. 2

Prova. Se u é unitário, pela propriedade C∗ , kuk2 = ku∗ uk = k k = 1, ou seja, kuk = 1. Além disso,
por ser unitário, u é normal (pois u∗ u = uu∗ = ). Assim, pelo Teorema 23.16, r(u) = kuk = 1. Isso
mostra que σ(u) é um subconjunto fechado do disco unitário centrado em 0: D1 := {λ ∈ | |λ| ≤ 1}.
cc cc
Pelas Proposições 23.19 e 23.20, tem-se σ(u) = σ (u∗ )cc = σ (u−1 ) = (σ(u)−1 ) . Agora, os únicos
subconjuntos de D1 invariantes por inversão e conjugação complexa são subconjuntos de S 1 .

Proposição 23.27 Seja A uma álgebra C∗ com unidade seja a ∈ A, auto-adjunto. Então, σ(a) ⊂ . 

Mais precisamente, σ(a) é um subconjunto compacto de [−kak, kak]. 2

Há diversas demonstrações dessa importante proposição. A que apresentamos abaixo é inspirada na
da referência [14] (mas não idêntica à mesma) e faz uso de poucos recursos da teoria. A demonstração de
[92], por exemplo, merece ser comparada. Mais adiante, Teorema 23.25, página 1096, apresentaremos
uma outra demonstração para operadores limitados auto-adjuntos agindo em espaços de Hilbert.

Prova da Proposição 23.27. Se a = 0 não há o que demonstrar. Seja então a 6= 0 e sejam p > 0 e λ ∈ ,
sendo que a parte imaginária de λ é não-nula. Se |λ| > kak então já sabemos que λ 6∈ σ(a), de modo
que é suficiente considerarmos |λ| ≤ kak. Se escolhermos p < kak−1 , a norma dos operadores ±ipa será
pkak < 1 e pela Proposição 23.14, página 1056, os operadores ± ipa são invertı́veis. Além disso, com
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1068/1195

essas escolhas p < kak−1 < |λ|−1 , de modo que 1 ± ipλ 6= 0. Temos, assim,
   
2ipλ 2ip
λ −a = − a
2ip 2ip
 !  !
(1 + ipλ) − (1 − ipλ) ip (1 − ipλ) + (1 + ipλ)
= − a
2ip 2ip
 
1 h i
= (1 + ipλ)( − ipa) − (1 − ipλ) ( + ipa)
2ip
    
1 − ipλ 1 + ipλ
= ( − ipa) − ( + ipa)
2ip 1 − ipλ
    
1 − ipλ 1 + ipλ −1
= − ( + ipa)( − ipa) ( − ipa) . (23.42)
2ip 1 − ipλ
De (23.42) concluı́mos que λ − a terá inversa se
 
1 + ipλ
v := − ( + ipa)( − ipa)−1
1 − ipλ
for invertı́vel. Mostraremos que tal é o caso provando que u := ( + ipa)( − ipa) −1 é unitário e que
1+ipλ
1−ipλ
é um número complexo de módulo diferente de 1. Para provar que u é unitário, fazemos o seguinte
desenvolvimento:
u := ( + ipa)( − ipa)−1
 
= 2 − ( − ipa) ( − ipa)−1 = 2( − ipa)−1 −
 
= ( − ipa)−1 2 − ( − ipa) = ( − ipa)−1 ( + ipa)

 −1
−1
= ( + ipa) ( − ipa)

!−1
 −1
a=a∗ ∗ ∗
= ( − ipa) ( + ipa)

!−1 !−1
(23.32)
 ∗ h i∗
−1 ∗ −1
= ( − ipa) ( + ipa) = ( + ipa)( − ipa)

= (u∗ )−1 ,
que demonstrou que u−1 = u∗ , provando que u é unitário. Escrevendo λ = x + iy com x, y ∈  ,
teremos
1 + ipλ 2 2 2
= (1 − py) + (px) 6= 1 se y 6= 0 .
1 − ipλ (1 + py)2 + (px)2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1069/1195

Como u é unitário e seu espectro é formado por números complexos de módulo 1 (Proposição 23.26),
concluı́mos que v é invertı́vel e, por (23.42), λ − a também o é com
 
−1 2ip
(λ − a) = ( − ipa)−1 v −1 .
1 − ipλ

A invertibilidade de − ipa foi garantida com a escolha 0 < p < kak−1 .


Assim, provamos que λ − a tem inversa para todo λ com parte imaginária não-nula. Portanto,
todo número complexo com parte imaginária não-nula está no conjunto resolvente de a, ρ(a). Logo,
σ(a) ⊂ . Como r(a) = kak, concluı́mos que σ(a) ⊂ [−kak, kak]. Que σ(a) é fechado foi provado na


Proposição 23.22, página 1063.

A noção de espectro será estudada mais detalhadamente adiante no contexto de operadores limitados
agindo em espaços de Banach e, especialmente, de Hilbert. Em tais casos uma classificação mais
detalhada dos tipos de espectro é possı́vel. Vide Seção 23.5, página 1091.

23.3.4 O Homomorfismo de Gelfand em Álgebras C∗


Esta seção é dedicada à demonstração de um fato central da teoria das álgebras C ∗ , o qual reflete-se
também na teoria dos operadores limitados agindo em espaços de Hilbert. A afirmação é que se a é um
elemento auto-adjunto de uma álgebra C∗ com unidade A, então existe um homomorfismo φa entre a
álgebra C(σ(a)) das funções contı́nuas definidas no espectro de a e a álgebra A. Esse homomorfismo é
denominado homomorfismo de Gelfand18 .
A existência do homomorfismo de Gelfand e suas propriedades são conseqüência, basicamente de
duas coisas: do Teorema de Weierstrass, que garante a possibilidade de aproximar uniformemente
funções contı́nuas definidas em um conjunto compacto da reta real (como o espectro de um operador
auto-adjunto de uma álgebras C∗ com unidade) por polinômios, e da proposição que segue, a qual
garante que para todo polinômio p e todo elemento auto-adjunto a de uma álgebra C ∗ com unidade A,
a aplicação p : σ(a) → A é isométrica.
Proposição 23.28 Seja A uma álgebra C∗ com unidade e seja a ∈ A um elemento auto-adjunto de A
n
(isto é, a∗ = a). Seja também p(x) = Σ bk xk um polinômio em x ∈ . Então, o espectro de p(a) é a
k=0
imagem por p do espectro de a, ou seja,

σ(p(a)) = {p(λ), λ ∈ σ(a)} =: p(σ(a)) . (23.43)

Fora isso, kp(a)k = sup |p(λ)| =: kpk∞ . 2


λ∈σ(a)

18
Israil Moiseevic Gelfand (1913-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1070/1195

Prova. O fato que σ(p(a)) = {p(λ), λ ∈ σ(a)} foi estabelecido no Teorema 23.14, página 1061. Para
determinar kp(a)k lembremos que pela propriedade C∗ vale kp(a)k2 = kp(a)p(a)∗ k. Agora,
n
!∗ n
! n
! n ! n
X X a=a ∗ X X X
p(a)p(a)∗ = bk a k bl a l = bk a k bl a l = bk bl ak+l = (pp)(a) ,
k=0 l=1 k=0 l=0 k, l=0

onde pp é o polinômio de grau 2n definido para x ∈  por


n
X
(pp)(x) := p(x)p(x) = bk bl xk+l .
k, l=0

Como p(a)p(a)∗ = (pp)(a) é auto-adjunto, aplica-se o Teorema 23.16, página 1066, e tem-se

(23.39) definição (23.105)


kp(a)p(a)∗ k = k(pp)(a)k = r((pp)(a)) = sup  |µ| =  sup |µ|
µ∈ σ (pp)(a) µ∈ (pp)(λ), λ∈σ(a)

!2


= sup |(pp)(λ)| = sup p(λ)p(λ) = sup |p(λ)|2 = sup |p(λ)| ,
λ∈σ(a) λ∈σ(a) λ∈σ(a) λ∈σ(a)

estabelecendo o que querı́amos.

Seja agora o espaço de Banach C(σ(a)) da funções complexas contı́nuas definidas no espectro
de a dotado da norma kf k∞ := supλ∈σ(a) |f (λ)| e seja P (σ(a)) o sub-espaço de C(σ(a)) formado por
polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(a)) é denso em C(σ(a)). Vimos também na
Proposição 23.28 que a aplicação φa ≡ φ : P (σ(a)) → A dada por φ(p) = p(a) satisfaz kφ(p)k = kpk∞ .
Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 23.1, página 1017, pode ser estendida
unicamente e isometricamente ao fecho de P (σ(a)) que é C(σ(a)). Essa extensão também será denotada
por φ. Assim, para toda f ∈ C(σ(a)) podemos definir φ(f ) como limite em norma de operadores φ(p),
com p sendo polinômios que convergem a f na norma k · k∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(a)), por f (a). Tem-se os seguintes fatos
sobre φ(f ).
Teorema 23.17 (O Homomorfismo de Gelfand em Álgebras C∗ ) Seja A uma álgebra C∗ com
unidade, seja a ∈ A auto-adjunto e seja φa ≡ φ : C(σ(a)) → A definida acima. Para todo polinômio p
vale φ(p) = p(a). Como vimos, pelo Teorema BLT, Teorema 23.1, página 1017, tem-se kφ(f )k = kf k ∞
para toda f ∈ C(σ(a)). Fora isso, valem as seguintes afirmações:

1. A aplicação φ é um ∗-homomorfismo algébrico, ou seja,

φ(αf + βg) = αφ(f ) + βφ(g) , φ(f g) = φ(f )φ(g) , φ(f )∗ = φ(f ) ,


φ(1) = ,
(23.44)
para todas f, g ∈ C(σ(a)) e todos α, β ∈ . Como f g = gf , segue de (23.44) que φ(f )φ(g) =
φ(g)φ(f ) para todas f, g ∈ C(σ(a)).
2. Se f ≥ 0 tem-se σ(φ(f )) ⊂ [0, ∞).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1071/1195

3. Se fn ∈ C(σ(a)), n ∈ é uma seqüência de converge na norma k · k∞ a uma função f ∈ C(σ(a))




então φ(fn ) converge a φ(f ) na norma de A. Reciprocamente, se φ(fn ) converge na norma de A,


então existe f ∈ C(σ(a)) tal que limn→∞ φ(fn ) = φ(f ). Isso diz-nos que {φ(f ), f ∈ C(σ(a))} é
fechada na norma de A. Com a propriedade do item 1, isso significa que {φ(f ), f ∈ C(σ(A))}
é uma sub-álgebra C∗ Abeliana com unidade de A.

4. σ(φ(f )) = {f (λ), λ ∈ σ(a)} =: f (σ(a)) para toda f ∈ C(σ(a)). 2

O ∗-homomorfismo φ : C(σ(a)) → A é por vezes denominado homomorfismo de Gelfand.

Prova do Teorema 23.17.


Prova do item 1. A aplicação φ : C(σ(a)) → A é limitada e, portanto, contı́nua. As propriedades
(23.44), que caracterizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço
denso P (σ(a)) e daı́ se estendem facilmente a todo C(σ(a)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo em (23.44) vale φ(f ) = φ(g 2 ) = φ(g)2 . Também por (23.44), φ(g) é auto-adjunto e,
portanto, pelo Teorema 23.14, página 1061, o espectro de φ(g)2 é um subconjunto de [0, ∞).
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0,
segue kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de A, segue que φ(fn ) é uma
seqüência de Cauchy em A. Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de Cauchy
em C(σ(a)) com a norma k·k∞ . Como C(σ(a)) é completo em relação a essa norma, existe f ∈ C(σ(a))
à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
1
Prova do item 4. Se λ não pertence à imagem de σ(a) por f então r := (f −λ) é contı́nua e, portanto,
φ(r) está bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = , pelas propriedades de homomorfismo,
provando que φ(f ) − λ é invertı́vel e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de φ(f ).
Isso estabeleceu que o complemento da imagem de f , \ {f (λ), λ ∈ σ(a)}, é um subconjunto de
ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(a)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(a)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(a) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0 ) é invertı́vel. Seja agora P := φ(p) − p(λ0 ) para algum polinômio p tal
que kf − pk∞ < . Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 )) e, assim,

kF − P k ≤ kφ(f − p)k + |f (λ0 ) − p(λ0 )| k k = kf − pk∞ + |f (λ0 ) − p(λ0 )| ≤ 2kf − pk∞ < 2 .

Agora, pelo Corolário 23.3, página 1058, se escolhermos esse  pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em A, o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(a). Isso contraria
(23.43). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈ σ(a)} ⊂ σ(φ(f )),
estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema 23.17

Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(a)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(a)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1072/1195

23.3.5 Raı́zes Quadradas de Operadores em Álgebras de Banach


Na teoria dos operadores é muito importante definir condições sob as quais se possa associar uma
raiz quadrada a certos tipos de operadores. Esta seção é dedicada ao assunto e apresentaremos inici-
almente alguns resultados gerais, para o contexto de álgebras de Banach ou de Banach-∗, e ao final
nos especializaremo-nos a operadores auto-adjuntos em álgebras C∗ ou agindo em espaços de Hilbert.
Algumas das demonstrações abaixo são um tanto técnicas e sua leitura pode ser dispensada em uma
primeira visita. Começamos com o seguinte resultado.
Teorema 23.18 Seja B uma álgebra de Banach com unidade e w ∈ B tal que kwk ≤ 1. Então existe
y ∈ B tal que y 2 = − w. Esse y é dado por

X N
X
y := cn w n := lim cn w n , (23.45)
N →∞
n=0 n=0

sendo que o limite em (23.45) converge na norma de B e onde

1 (2n − 3)!! (2n − 3)!!


c0 = 1, c1 = − , e cn = − n
= − , n≥1, (23.46)
2 2 n! (2n)!!

são os coeficientes da expansão em série de Taylor em torno de z 0 = 0 da função f (z) = 1 − z,

X
analı́tica no disco unitário aberto D1 = {z ∈ | |z| < 1}: f (z) = cn z n . 2
n=0

Destacamos o fato que o enunciado acima fala de kwk ≤ 1 e não apenas kwk < 1. Isso será
importante mais adiante. Por ser um tanto técnica, a demonstração do Teorema 23.18 é apresentada
no Apêndice 23.A, página 1151. Nossa demonstração é inspirada na (mas não idêntica à) de [99]. 19
Corolário 23.7 Seja B uma álgebra de Banach-∗ com unidade. Se x ∈ B é tal que kxk ≤ 1 então
existe y ∈ B auto-adjunto (y ∗ = y) tal que − x∗ x = y ∗ y = y 2 . 2

Prova. Seja w = x∗ x. Tem-se kwk = kx∗ xk ≤ kx∗ k kxk = kxk2 ≤ 1. Podemos, portanto, aplicar o
N
X
Teorema 23.18, acima. Fora isso, nesse caso sn = cn (x∗ x)n são todos auto-adjuntos pois (x∗ x)∗ =
n=0
x∗ x e os cn ’s são reais. Assim, y = lim sN é também auto-adjunto (por que?). Logo, pelo que vimos
N →∞
y∗y = y2 = − x∗ x, o que querı́amos provar.

Corolário 23.8 Seja B uma álgebra de Banach com unidade. Seja w ∈ B tal que k − wk ≤ 1. Então
existe y ∈ B tal que y 2 = w. Se B for também uma álgebra de Banach-∗ e w for auto-adjunto, então
existe y auto-adjunto com a mencionada propriedade. 2

19
É instrutivo compará-la à de [14] (Teorema 2.2.10) para álgebras C ∗ .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1073/1195

Prova. O operador − w satisfaz as condições do Teorema 23.18, página 1072. Logo, existe y ∈ B tal
que y 2 = − ( − w) = w.

v
Corolário 23.9 Seja B uma álgebra de Banach com unidade. Seja v ∈ B, v 6= 0, tal que − ≤
kvk
1. Então existe y ∈ B tal que y 2 = v. Se B for também uma álgebra de Banach-∗ e v for auto-adjunto,
então existe y auto-adjunto com a mencionada propriedade. 2

v
Prova. O operador satisfaz as condições do corolário anterior. Logo, existe y0 ∈ B tal que
  kvk
v v
y02 = − − = . Portanto y = kvk1/2 y0 é tal que y 2 = v.
kvk kvk

O Corolário 23.9 tem uma conseqüência para álgebras C∗ : todo elemento de uma álgebra C∗ que
tenha espectro positivo tem uma raiz quadrada. Isso será demonstrado no que segue.

23.3.6 Elementos Positivos de Álgebras C∗


Um elemento auto-adjunto v de uma álgebra C∗ A é dito ser positivo se satisfazer σ(v) ⊂ [0, ∞), ou
seja, σ(v) ⊂ [0, kvk]. A proposição seguinte estabelece um fato básico sobre elementos positivos em
álgebras C∗ o qual será repetidamente empregado no que segue.
Proposição 23.29 Se a e b são elementos auto-adjuntos e positivos de uma álgebra C ∗ com unidade
e tais que a + b = 0 então a = 0 e b = 0. 2

Prova. Se σ(a) ⊂ [0, ∞) então, pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061,
vale que σ(−a) ⊂ (−∞, 0]. Logo, se b = −a tem-se σ(b) ⊂ (−∞, 0]. Se b é positivo (ou seja, se
σ(b) ⊂ [0, ∞), isso implica que σ(b) = {0}. Logo r(b) = 0 e pelo Teorema 23.16, concluı́mos que
kbk = 0. Assim, a = −b = 0.

O leitor deve ser advertido que as afirmações da última proposição não são necessariamente válidas
em álgebras de Banach que não sejam álgebras C∗ . A seguinte proposição estabelece algumas condições
equivalentes à positividade.
Proposição 23.30 Se v é um elemento auto-adjunto não-nulo de uma álgebra C ∗ com unidade A, são
equivalentes as seguintes afirmações:

1. σ(v) ⊂ [0, kvk].



v
2. − kvk ≤ 1.

3. Existe y ∈ A auto-adjunto tal que y 2 = v e kyk = kvk1/2 .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1074/1195

O operador y do item 3 não é único pois −y, por exemplo, tem a mesma propriedade. Porém, existe
um único yp auto-adjunto com espectro positivo, tal que yp2 = v. 2

Mais adiante (Teorema 23.20) provaremos o importante fato que em álgebras C ∗ , elementos da
forma x∗ x são positivos.

Prova da Proposição 23.30.

1 → 2 Pelo Teorema da Aplicação


 Espectral,
 n Teorema 23.14, página
o n 1061, e pelas hipóteses
o sobre o
v λ λ
espectro de v, tem-se σ − kvk = 1 − kvk , λ ∈ σ(v) ⊂ 1 − kvk , λ ∈ [0, kvk] = [0, 1].
 
v v
Assim, pelo Teorema 23.16, página 1066, − kvk =r − kvk ≤ 1.

2 → 3 A existência de y segue do Corolário 23.9. Como y é auto-adjunto vale, pela propriedade C ∗ ,


kyk2 = ky 2 k = kvk.

3 → 1 Isso segue do Teorema da Aplicação Espectral, Teorema 23.14, página 1061.

Podemos encontrar um yp auto-adjunto com espectro positivo e tal que yp2 = v usando o Homomor-
fismo de Gelfand φv (Teorema 23.17, página 1070) da seguinte forma. Como σ(v) ⊂ [0, √ kvk], a função
f ∈ C(σ(v)) → dada √
 por f (λ) = λ, λ ∈ σ(v),
√ é2 contı́nua e positiva, assim como f . Assim, pelo
2
Teorema 23.17, yp := φv ( f ) satisfaz yp = φv ( f ) = φv (f ) = v. Pelo item 2 daquele Teorema, vemos
que σ(yp ) ⊂ [0, ∞).
Para provar a unicidade do elemento positivo yp usaremos o seguinte lema, ademais de interesse por
si só.
Lema 23.4 Se a e b são dois elementos auto-adjuntos positivos de uma álgebra C ∗ com unidade A tais
que ab = ba então ab é também auto-adjunto positivo. 2

Prova. Se a e b são positivos, o homomorfismo de Gelfand fornece dois operadores auto-adjuntos


positivos cp e dp tais que c2p = a e d2p = b. Pela construção do homomorfismo de Gelfand, cp é o limite
em norma de polinômios em a e dp é o limite em norma de polinômios em b. Como a e b comutam, esses
aproximantes polinomiais também comutam e, portanto cp dp = dp cp . Assim, ab = (cp )2 (dp )2 = (cp dp )2 ,
que é auto-adjunto positivo, pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061.

Para demonstrar a unicidade de yp , comecemos lembrando que yp é obtido pelo homomorfismo de


Gelfand e, portanto, é um limite em norma de polinômios em v. Assim, se b é um operador qualquer
que comuta com v, então b comuta com yp . Vamos supor que b seja também positivo e tal que b2 = v.
Como b3 = b(b2 ) = (b2 )b segue que bv = vb. Assim, b e yp também comutam. Teremos assim,

byp =yp b
0 = (v − v)(yp − b) = (yp2 − b2 )(yp − b) = (yp − b)(yp + b)(yp − b)

byp =yp b
= (yp − b)yp (yp − b) + (yp − b)b(yp − b) = (yp − b)2 yp + (yp − b)2 b .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1075/1195

Pelo Lema 23.4, ambos (yp − b)2 yp e (yp − b)2 b são positivos e, portanto, pela Proposição 23.29,
concluı́mos que (yp − b)2 yp = 0 e (yp − b)2 b = 0. Subtraindo um do outro, obtemos (yp − b)3 = 0, o que
trivialmente implica (yp − b)4 = 0. Agora, como yp − b é auto-adjunto obtemos, aplicando duas vezes
a propriedade C∗ da norma: kyp − bk4 = k(yp − b)2 k2 = k(yp − b)4 k = 0, provando que yp = b. Isso
estabeleceu a unicidade desejada e completou a prova da Proposição 23.30.

Vemos que um elemento auto-adjunto v de uma álgebra C∗ com unidade A é positivo se satisfizer
quaisquer das condições equivalentes da Proposição 23.30, acima. Mais adiante provaremos o impor-
tante fato que em álgebras C∗ , elementos da forma x∗ x são positivos. O primeiro passo nessa direção
é o seguinte teorema de decomposição.
Proposição 23.31 Todo elemento auto-adjunto a de A, uma álgebra C ∗ com unidade, pode ser escrito
na forma a = a+ − a− , onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− =
a− a+ = 0. 2

Prova. Sejam as funções reais f+ (λ) := 21 (|λ| + λ) e f− (λ) := 21 (|λ| − λ). Ambas são contı́nuas,
positivas, satisfazem f+ f− = 0 e λ = f+ (λ) − f− (λ). Usando o homomorfismo de Gelfand φa , definimos
a+ := φa (f+ ) e a− := φa (f− ). Pelo Teorema 23.17, esses operadores têm as propriedades desejadas.

Vamos denotar por A+ o conjunto de todos os elementos auto-adjuntos positivos de uma álgebra C∗
com unidade A. O seguinte teorema resume as propriedades geométricas e topológicas mais importantes
de A+ .
Teorema 23.19 O conjunto A+ , formado por todos os elementos auto-adjuntos positivos de uma
álgebra C∗ com unidade A, é um cone convexo e fechado (na topologia da norma de A) e tem a
propriedade A+ ∩ (−A+ ) = {0}. 2

Prova. A afirmação que A+ ∩ (−A+ ) = {0} é um mero refraseamento da Proposição 23.29. Se a é


positivo e auto-adjunto então, pelo Teorema da Aplicação Espectral, Teorema 23.14, página 1061, λa
também o é para todo λ ≥ 0. Isso provou que A+ é um cone. Provemos agora que A+ é convexo.
Provemos primeiramente que se a ∈ A+ , então para todo p ≥ kak vale k − p−1 ak ≤ 1. De fato,
o Teorema da Aplicação Espectral,
h Teorema
i 23.14, diz-nos que σ( − p−1 a) = {1 − λ/p, λ ∈ σ(a)} ⊂
{1 − λ/p, λ ∈ [0, kak]} = 1 − kak p
, 1 ⊂ [0, 1]. Isso provou que r( − p−1 a) ≤ 1 e, pelo Teorema
23.16, página 1066, segue que k − p−1 ak ≤ 1.
Sejam agora a, b ∈ A+ e considere-se a combinação linear convexa λa + (1 − λ)b com λ ∈ [0, 1].
Para provar que λa + (1 − λ)b ∈ A+ , tomemos P > max{kak, kbk} e escrevamos
 
− P −1 (λa + (1 − λ)b) = λ − P −1 a + (1 − λ) − P −1 b

≤ λ − P −1 a + (1 − λ) − P −1 b

≤ λ + (1 − λ) = 1 ,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1076/1195

a última desigualdade sendo conseqüência do comentário do parágrafo acima pois, pela escolha, P > kak
e P > kbk. Isso implica que o espectro de −P −1 (λa + (1 − λ)b) está em [−1, 1] e, portanto, o espectro
de P −1 (λa + (1 − λ)b) está em [0, 2]. Assim, σ(λa + (1 − λ)b) ⊂ [0, 2P ], provando que λa + (1 − λ)b
é positivo.
Resta-nos provar que A+ é fechado. Seja an ∈ A+ uma seqüência de elementos de A+ que converge
em norma a a ∈ A. Desejamos provar que a ∈ A+ . Tomemos a 6= 0, pois se a = 0 não há o que provar,
pois 0 ∈ A+ . Sem perda de generalidade, podemos assumir que todos os an são não-nulos. Como cada
an


an é positivo, vale pelo item 2 da Proposição 23.30 − kan k ≤ 1, ou seja, kan k − an ≤ kan k. Pela
continuidade da norma, an → a implica kan k → kak. Logo,


kak − a = lim kan k − an ≤ lim kan k = kak .
n→∞ n→∞

a
Isso provou que − kak
≤ 1 e, portanto, a ∈ A+ .

Corolário 23.10 Seja A uma álgebra C∗ com unidade. Se a, b ∈ A+ então a + b ∈ A+ . 2

Prova. a + b = 2( a+b
2
). Agora, a+b
2
∈ A+ pois é uma combinação linear convexa de elementos de A+ ,
a+b
que é convexo. Logo, 2( 2 ) ∈ A+ , pois A+ é um cone.

Corolário 23.11 Seja A uma álgebra C∗ com unidade. Se para algum z ∈ A valer −z ∗ z ∈ A+ , então
z = 0. 2

Prova. Pela Proposição 23.18, página 1060, σ(z ∗ z) \ {0} = σ(zz ∗ ) \ {0}. Assim, se −z ∗ z é auto-adjunto
e positivo, −zz ∗ também o é. Logo, pelo Corolário 23.10, −z ∗ z − zz ∗ é auto-adjunto e positivo.
Definamos x := (z + z ∗ )/2 e y := (z − z ∗ )/(2i). Tem-se que

−A+ 3 −(−z ∗ z − zz ∗ ) = 2x2 + 2y 2 .

Como x e y são auto-adjuntos 2x2 e 2y 2 são positivos e, pelo Corolário 23.10, 2x2 + 2y 2 também o
é. Assim, provamos que 2x2 + 2y 2 ∈ A+ ∩ (−A+ ). Pelo Teorema 23.19, isso implica 2x2 + 2y 2 = 0
e, pela Proposição 23.29, segue que x2 = 0 e y 2 = 0. Pela propriedade C∗ da norma, segue que
kxk2 = kx2 k = 0, provando que x = 0. Analogamente prova-se que y = 0. Como z = x + iy, segue que
z = 0.

Chegamos agora ao resultado mais importante a respeito de elementos auto-adjuntos positivos em


álgebras C∗ .
Teorema 23.20 Em uma uma álgebra C∗ com unidade A todo elemento da forma x∗ x é positivo. Pelo
item 3 da Proposição 23.30, concluı́mos que uma condição necessária e suficiente para que um elemento
auto-adjunto v ∈ A seja positivo é que exista x ∈ A tal que v = x ∗ x. 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1077/1195

Prova. Seja a = x∗ x, que obviamente é auto-adjunto. Pela Proposição 23.31, podemos escrever a =
a+ − a− onde a± são auto-adjuntos e positivos, comutam com a e satisfazem a+ a− = a− a+ = 0.
Tudo o que queremos é provar que a− = 0. Seja w = xa− . Temos que −w ∗ w = −a− x∗ xa− =
−a− (a+ − a− )a− = (a− )3 . Como a− é positivo, (a− )3 também o é (pelo Teorema 23.14, página 1061).
Logo, −w ∗ w é positivo. Pelo Corolário 23.11, isso implica w = 0, ou seja, xa− = 0. Multiplicando à
esquerda por x∗ , teremos 0 = x∗ xa− = (a+ − a− )a− = −(a− )2 . Como a− é auto-adjunto, a propriedade
C∗ da norma implica ka− k2 = k(a− )2 k = 0. Assim, x∗ x = a+ , que é positivo por construção.

23.3.7 O Lema da Raiz Quadrada em espaços de Hilbert. A Decomposição


Polar
Os resultados acima estabeleceram algumas condições suficientes para que um elemento de uma álgebra
de Banach possua uma raiz quadrada. Vamos agora particularizar essa análise para operadores auto-
adjuntos agindo em espaços de Hilbert. O resultado que obtemos é o Lema da Raiz Quadrada, a
seguir. Devemos informar o leitor que esse Lema pode ser também demonstrado por outros meios, a
saber, através do Teorema Espectral para operadores auto-adjuntos agindo em espaços de Hilbert (vide
Seção 23.6.1, página 1112). A análise abaixo tem, porém, certas vantagens, por exemplo, por permitir
demonstrar de modo relativamente simples que a raiz quadrada de um operador compacto e positivo é
também um operador compacto.
Um operador limitado e auto-adjunto A agindo em um espaço de Hilbert H é dito ser positivo
se hφ, Aφi ≥ 0 para todo φ ∈ H. Anteriormente, havı́amos dito que um operador auto-adjunto era
positivo se seu espectro o fosse. O importante lema abaixo diz-nos, incidentalmente, que essas duas
noções de positividade são equivalentes.
Teorema 23.21 (Lema da Raiz Quadrada.) Seja H um espaço de Hilbert complexo e seja A ∈
B(H), auto-adjunto e positivo, ou seja, tal que hφ, Aφi ≥ 0 para todo φ ∈ H. Então existe um único
B ∈ B(H) igualmente auto-adjunto e positivo tal que B 2 = A. 2


A

Prova. Pelo Corolário 23.9 é suficiente mostrar que − ≤ 1. Usando o Teorema 23.12, página
kAk
1049, tem-se que
   
A A hφ, Aφi
− = sup φ, − φ = sup 1 − ≤ 1
kAk kAk kAk
φ∈H, kφk=1 φ∈H, kφk=1

pois
hφ, Aφi
0≤ ≤1 (23.47)
kAk
para kφk = 1. Pelo Corolário 23.9 e pela prova do Teorema 23.18, tem-se que existe B satisfazendo
B 2 = A, a saber, !
X∞
1/2 0 n
B = kAk + cn ( − A ) , (23.48)
n=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1078/1195

A
com A0 := . Essa expressão mostra que B é auto-adjunto (pois é o limite em norma de uma
kAk
seqüência de operadores auto-adjuntos). Como a soma é convergente em norma, tem-se pela continui-
dade do produto escalar que

!
X
1/2 0 n
hφ, Bφi = kAk 1+ cn hφ, ( − A ) φi , (23.49)
n=1

para φ ∈ H com kφk = 1.


Vamos mostrar agora que 0 ≤ hφ, ( − A0 )n φi ≤ 1. De fato, se n é par, n = 2m, temos

hφ, ( − A0 )n φi = h( − A0 )m φ, ( − A0 )m φi = k( − A0 )m φk2 ≥ 0.

Se n é ı́mpar, n = 2m + 1, temos
  
0 n 0 ψ ψ
hφ, ( − A ) φi = hψ, ( − A )ψi = 1− , A0 kψk2 ≥ 0,
kψk kψk
por (23.47), onde ψ = ( − A0 )m φ. Assim,

0 ≤ hφ, ( − A0 )n φi ≤ k( − A0 )n k = k( − A0 )kn ≤ 1.

Retornando à (23.49) e lembrando que cn ≤ 0 para n ≥ 1, tem-se



!
X √
1/2
hφ, Bφi ≥ kAk 1+ cn = kAk1/2 1 − 1 = 0.
n=1

Isso mostra que B é positivo.


Vamos agora provar20 a unicidade de B. Comecemos notando que se T é um operador que comuta
com A, então T comuta com B, devido ao fato de o lado direito de (23.48) ser convergente em norma.

E. 23.19 Exercı́cio. Justifique! 6

Seja então B 0 auto-adjunto e positivo tal que (B 0 )2 = A. Então (B 0 )3 = B 0 A = AB 0 , mostrando


que B 0 e A comutam. Assim B e B 0 também comutam (por (23.48)). Usando essa comutatividade,

0 = (A − A)(B − B 0 ) = (B 2 − (B 0 )2 )(B − B 0 ) = (B − B 0 )(B + B 0 )(B − B 0 ) = B1 + B2 ,

onde B1 = (B − B 0 )B(B − B 0 ) e B2 = (B − B 0 )B 0 (B − B 0 ).
Sucede, porém, que para todo ψ ∈ H,

hψ, B1 ψi = h(B − B 0 )ψ, B(B − B 0 )ψi ≥ 0

pela positividade de B e, analogamente,

hψ, B2 ψi = h(B − B 0 )ψ, B 0 (B − B 0 )ψi ≥ 0


20
Seguiremos basicamente [99].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1079/1195

pela suposta positividade de B 0 . Como B1 + B2 = 0, segue que B1 = B2 = 0.


Assim,

0 = B1 − B2 = (B − B 0 )B(B − B 0 ) − (B − B 0 )B 0 (B − B 0 )

= (B − B 0 )(B(B − B 0 ) − B 0 (B − B 0 )) = (B − B 0 )3 .

Logo, usando duas vezes a propriedade C∗ da norma, tem-se

0 = k(B − B 0 )4 k = k((B − B 0 )2 )∗ (B − B 0 )2 k = k(B − B 0 )2 k2 = k(B − B 0 )∗ (B − B 0 )k2 = kB − B 0 k4 ,

o que prova que kB − B 0 k = 0, ou seja, B = B 0 .

• A raiz quadrada de um operador positivo e a unidade

Vimos acima em (23.48) que se A é um operador limitado não-nulo, auto-adjunto e positivo agindo
em um espaço de Hilbert H então
" ∞  n #
√ X A
A := kAk1/2 + cn − , (23.50)
n=1
kAk

é igualmente auto-adjunto e satisfaz ( A)2 = A. Claramente,

" N  n #
√ X A
A := lim kAk1/2 + cn −
N →∞
n=1
kAk
" N
# " N n   p #
X X X
p n A
:= lim kAk1/2 1 + cn + lim kAk1/2 cn (−1) .
N →∞
n=1
N →∞
n=1 p=1
p kAk

PN PN
Como c0 = 1, temos 1 + n=1 cn = n=0 cn . Tem-se para qualquer N ≥ 1 que

N
X N
X ∞
X ∞
X
n
√ n
cn = lim cn t = lim 1 − t − lim cn t = − lim c n tn .
t→1− t→1− t→1− t→1−
n=0 n=0 n=N +1 n=N +1
P∞
Note-se agora que,
P∞por (23.A.1), a série n=0 cn converge absolutamente e, portanto, temos P∞ para qual-
quer  > 0 que |c n | ≤  para todo N grande o suficiente. Assim, para |t| < 1, c n t n

P∞ n=N +1 n=N +1
|c
n=N +1 n | ≤ , para todo N grande o suficiente. Logo,

X N X∞ X∞

cn = lim cn tn = lim cn tn ≤ .
t→1− t→1−
n=0 n=N +1 n=N +1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1080/1195

N
X
Tomando  → 0, concluı́mos que lim cn = 0 e daı́ segue que
N →∞
n=0
" N n   p #
√ X X n A
A = lim kAk1/2 cn (−1)p . (23.51)
N →∞
n=1 p=1
p kAk

ou seja, √
A = lim PN (A) , (23.52)
N →∞

onde PN (A) é o polinômio em A dado por


N
X   N
X
p n p
PN (A) := pN, p A , onde pN, p ≡ pN, p (kAk) := (−1) cn kAk1/2−p . (23.53)
p=1 n=p
p

O interessante nas expressões (23.51)-(23.53) é que cada PN (A) não contem nenhum termo da forma
const. , ou seja, proporcional à unidade (note o leitor que a soma em p em (23.53) começa em p = 1).
Esse fato será relevante quando discutirmos a raiz quadrada de operadores compactos e positivos.

• A Decomposição Polar de Operadores Limitados em Espaços de Hilbert

É um fato elementar
p que todo número complexo z pode ser representado na forma polar z = e iθ ρ
com ρ = |z| = x2 + y 2 , x e y sendo as partes real e imaginária de z, respectivamente. No caso de
operadores limitados agindo em espaços de Hilbert há uma relação semelhante que discutiremos agora.
Se A é um operador limitado agindo em um espaço de Hilbert H, é claro que A∗ A é um operador
auto-adjunto e positivo, pois hψ, A∗ AψiH = hAψ, AψiH = kAψk2 ≥ 0 para todo ψ ∈ H. Portanto,
pelo Teorema 23.21, página 1077, A∗ A possui uma raiz quadrada, a qual é igualmente um operador
√auto-
adjunto e positivo (e unicamente definida por essas propriedades). Vamos denotá-la por |A| := A∗ A,
a qual será denominada o módulo de A. Vale então o seguinte.
Teorema 23.22 (A Decomposição Polar de Operadores Limitados em Espaços de Hilbert)
Seja A ∈ B(H) um operador limitado agindo
√ em um espaço de Hilbert H. Então A pode ser es-
crito na forma A = U |A|, onde |A| := A∗ A e U ∈ B(H) é uma isometria parcial a qual satisfaz
Ran (U ) = Ran (A) e é unicamente determinada pela condição Ker (U ) = Ker (A). 2

Prova. Comecemos observando que



|A|ψ = Aψ , ∀ψ ∈ H , (23.54)

pois

|A|ψ 2 = h|A|ψ, |A|ψi = hψ, |A|2 ψi = hψ, A∗ Aψi = hψ, A∗ Aψi = hAψ, Aψi = Aψ 2 .
H H H H H

O fato que k|A|ψk = kAψk implica, obviamente, que |A|ψ = 0 se e somente se Aψ = 0, ou seja,
Ker (|A|) = Ker (A). Podemos então definir uma função bijetora U : Ran (|A|) → Ran (A) por

U (|A|ψ) := Aψ , ∀ψ ∈ H . (23.55)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1081/1195

O próximo passo é mostrar que U é linear. De fato, para α, β ∈ e ψ, φ ∈ H, arbitrários, tem-se


    (23.55) (23.55)
U α|A|ψ+β|A|φ = U |A|(αψ+βφ) = A(αψ+βφ) = αAψ+βAφ = αU (|A|ψ)+βU (|A|φ) ,

o que prova a linearidade de U . Passamos assim a escrever (23.55) como U |A|ψ := Aψ, o que incidental-
mente mostra que A = U |A|, pois ψ ∈ H é arbitrário. A relação (23.54) diz-nos que kU |A|ψk = kAψk
e, portanto, a norma de U , restrito a Ran (|A|) é igual a 1.
Sabemos que o completamento de Ran (A) é o seu fecho Ran (A) e podemos considerar U como
uma aplicação de Ran (|A|) em Ran (A). Pelo Teorema BLT (Teorema 23.1, página 1017), U possui
uma extensão única ao completamento Ran (|A|), que é Ran (|A|), sendo que essa extensão também
tem norma 1. Para evitar sobrecarregar a notação denotamos essa extensão também por U , valendo
U : Ran (|A|) → Ran (A). Como kU k = 1, U é uma isometria.
 ⊥
Notemos agora que Ran (|A|) = Ran (|A|)⊥ (vide Proposição 22.2, página 992). Agora, φ ∈
Ran (|A|)⊥ se e somente se hφ, |A|ψiH = 0 para todo ψ ∈ H. Como |A| é auto-adjunto, isso implica
que φ ∈ Ran (|A|)⊥ se e somente se h|A|φ, ψiH = 0 para todo ψ ∈ H. Logo, φ ∈ Ran (|A|)⊥ se e
somente se |A|φ = 0 e, por (23.54), se e somente se Aφ = 0. Assim, concluı́mos que
 ⊥ (23.54)
Ran (|A|) = Ran (|A|)⊥ = Ker (|A|) = Ker (A) . (23.56)

Vamos agora estender U para todo H. Uma possı́vel extensão é a seguinte. Lembremos pelo
Teorema da Decomposição Ortogonal (Teorema 22.2, página 991) que todo ξ ∈ H pode ser escrito na
 ⊥
forma ξ = χ + φ com χ ∈ Ran (|A|) e φ ∈ Ran (|A|) . Assim, definimos U ξ := U χ, o que equivale
 ⊥
a impor que U age como o operador nulo em Ran (|A|) . Novamente, denotamos essa extensão
 ⊥
também por U e, como Ran (|A|) = Ker (A) (vide (23.56)), continua valendo A = U |A|. Como U
 ⊥
é uma isometria quando restrito a Ran (|A|) , tem-se Ker (U ) = Ker (A).
Provemos agora a unicidade. Seja V uma isometria parcial tal que A = V |A| e Ker (V ) = Ker (A).
É evidente que para todo ψ ∈ H vale 0 = Aψ − Aψ = V |A|ψ − U |A|ψ, o que prova que V = U em
Ran (|A|) e, conseqüentemente, em Ran (|A|), pois U e V são limitados. Como V e U são nulos em
 ⊥
Ran (|A|) = Ker (A), concluı́mos que V = U em toda parte.

23.4 Um Pouco sobre Estados e Representações de Álgebras


C∗
Conforme a definição que apresentamos em páginas anteriores, uma álgebra normada C é dita ser uma
álgebra C∗ se for uma álgebra de Banach-∗ com relação a uma certa norma k · k e com a propriedade
adicional que ka∗ ak = kak2 para todo a ∈ C. Álgebras C∗ têm, como teremos a oportunidade de ver,
uma relação ı́ntima com a teoria de operadores em espaços de Hilbert, até mesmo por que a álgebra
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1082/1195

B(H) dos operadores limitados agindo em um espaço de Hilbert H é um exemplo básico de álgebra C ∗ .
Por abstraı́rem e generalizarem várias das propriedades de álgebras de operadores agindo em espaços
de Hilbert, álgebras C∗ desempenham também um papel importante na Fı́sica Quântica. Vamos nesta
seção discutir algumas das suas propriedades mais básicas.

• Funcionais Lineares em Álgebras C∗

Se C é uma álgebra C∗ , uma aplicação φ : C → é dita ser um funcional linear se φ(αa + βb) =
αφ(a) + βφ(b) para todos α, β ∈ e todos a, b ∈ C. Como toda álgebra C∗ é um espaço de Banach
vale também a afirmação que um funcional linear φ é contı́nuo se e somente se for limitado, ou seja, se
existir M ≥ 0 tal que kφ(a)k ≤ M kak para todo a ∈ C. Se um funcional linear φ é limitado sua norma
é definida por kφk = supa∈C, a6=0 |φ(a)|
kak
. Claramente vale também aqui a afirmação que o conjunto dos
funcionais lineares limitados é um espaço de Banach em relação à essa norma.
Um funcional linear φ é dito ser positivo se φ(a∗ a) ≥ 0 para todo a ∈ C. Funcionais lineares
positivos desempenham um importante papel na teoria das álgebras C∗ .
Se φ é um funcional linear positivo de uma álgebra C∗ , C, podemos definir em C uma forma
sesquilinear positiva (para a definição, vide página 112) dada por
ha, bi = φ(a∗ b), a, b ∈ C.

E. 23.20 Exercı́cio. Verifique que isso é de fato uma forma sesquilinear positiva em C. 6

Pelo Teorema 2.6, página 113, valem para qualquer funcional linear positivo φ as seguintes propri-
edades:
φ(a∗ b) = φ(b∗ a) (23.57)
e
|φ(a∗ b)|2 ≤ φ(a∗ a)φ(b∗ b), (23.58)
denominada desigualdade de Cauchy-Schwarz. De (23.57) é possı́vel provar que para qualquer funcional
linear positivo φ vale φ(a∗ ) = φ(a) para todo a ∈ C. A prova é trivial no caso de a álgebra ter uma
identidade (tome-se b = em (23.57)). Para a prova no caso geral, veja as referências [14], [28] ou [7].
Um importante resultado sobre funcionais lineares positivos é o seguinte.
Teorema 23.23 Todo funcional linear positivo em uma álgebra C∗ é limitado e, portanto, contı́nuo.
Fora isso, se a álgebra tiver unidade e φ é um funcional positivo vale kφk = φ( ). 2

Prova. Apresentaremos apenas a demonstração para álgebras que possuem uma unidade. A demons-
tração completa pode ser encontrada, por exemplo, nas referências [14], [28] ou [7].
Notemos primeiramente que se φ é um funcional linear positivo em uma álgebra com unidade então
φ( ) ≥ 0, pois φ( ) = φ( ∗ ) ≥ 0, já que φ é positivo.
Seja x ∈ C com a propriedade que kxk ≤ 1. Então o Corolário 23.7, página 1072, diz-nos que existe
um elemento y ∈ C tal que − x∗ x = y ∗ y. Se φ é um funcional linear positivo, tem-se então que
φ( − x∗ x) = φ(y ∗ y) ≥ 0, ou seja,
0 ≤ φ(x∗ x) ≤ φ( ). (23.59)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1083/1195

Por outro lado, vale que

|φ(x)|2 = |φ( ∗ x)|2 ≤ φ( ∗


)φ(x∗ x) = φ( )φ(x∗ x) ≤ φ( )2 ,

onde usamos a desigualdade de Cauchy-Schwarz (23.58) na primeira desigualdade e (23.59) na última


a
desigualdade. Se a é um elemento não-nulo arbitrário de C então x = é tal que kxk = 1 e, por
kak
isso, vale pela relação que acabamos de provar:
  2
a
φ ≤ φ( )2
kak
o que implica |φ(a)| ≤ φ( )kak, para todo a 6= 0. Como essa relação vale trivialmente para a = 0, vale
para todo a ∈ C, provando que φ é limitado.
Mostremos agora que kφk = φ( ) para qualquer funcional linear positivo φ. Notemos primeiramente
que φ( ) ≤ kφk k k, ou seja,
φ( ) ≤ kφk. (23.60)
Agora, pela desigualdade de Cauchy-Schwarz (23.58) temos

|φ(a)|2 = |φ( ∗ a)|2 ≤ φ( ) φ(a∗ a) ≤ φ( )kφk ka∗ ak = φ( ) kφk kak2,

o que implica
|φ(a)|2
kφk2 = sup ≤ φ( )kφk,
a6=0 kak2
que diz-nos que
kφk ≤ φ( ).
Junto com (23.60), isso implica kφk = φ( ), como querı́amos.

• Estados em Álgebras C∗

Um funcional linear positivo ω de uma álgebra C∗ é dito ser um estado se for normalizado de forma
que kωk = 1. Se a álgebra tiver uma unidade isso equivale a dizer que ω( ) = 1.
Estados desempenham um papel da maior importância na teoria das álgebras C∗ e suas aplicações
em Fı́sica pois, como teremos a oportunidade de discutir, estados de álgebras C∗ estão intimamente
ligados a estados fı́sicos de sistemas quânticos (daı́ a escolha do nome “estado”).
Por ora, e já no intuito de preparar essa discussão, mostremos uma construção importante que pode
ser feita com estados de uma álgebra C∗ , a chamada construção GNS, que consiste em um procedimento
canônico de obtenção de representações de álgebras C∗ em espaços de Hilbert, algo de suma relevância
para as aplicações de álgebras C∗ na fı́sica quântica.

• Vetores Cı́clicos

Seja H um espaço de Hilbert e S um conjunto de operadores limitados agindo em H. Um vetor


Ω ∈ H é dito ser um vetor cı́clico para o conjunto S se o conjunto de vetores {AΩ, A ∈ S} for um
conjunto denso em H.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1084/1195

• A Construção GNS

Teorema 23.24 Seja ω um estado de uma álgebra C∗ que denotaremos por C. É possı́vel com esses
ingredientes construir um espaço de Hilbert Hω e uma representação πω da álgebra C por operadores
limitados agindo em Hω tal que πω (a∗ ) = πω (a)∗ para todo a ∈ C (uma representação com essa propri-
edade é dita ser uma representação-∗). Fora isso, se a álgebra C possuir uma unidade então existe em
Hω um vetor Ω com a propriedade que ω(a) = hΩ, πω (a)ΩiHω . Esse vetor Ω é um vetor cı́clico para a
representação πω , ou seja, {πω (a)Ω, a ∈ C} é um conjunto denso em Hω . 2

A construção do espaço de Hilbert Hω e da representação πω é denominada construção GNS em


honra a Gelfand21 , Naimark22 e Segal23 que a desenvolveram nos anos 1940.

Prova. A idéia da demonstração é usar o fato que C é um espaço vetorial e tentar transformar C em
um espaço de Hilbert, definindo primeiramente em C um produto escalar.
Podemos, usando o estado ω, definir em C uma forma sesquilinear positiva por ha, bi := ω(a∗ b) com
a, b ∈ C. Sucede, porém, que pode haver elementos não-nulos n da álgebra para os quais ω(n ∗ n) = 0.
Para esses elementos terı́amos hn, ni = 0 com n 6= 0. Isso diz-nos que a forma sesquilinear positiva
acima não é, em geral, um produto escalar e, portanto, essa tentativa ingênua de fazer de C um espaço
de Hilbert em geral falha. Há, no entanto, um procedimento que permite contornar esse problema,
o qual passaremos a descrever. Esse procedimento já foi, aliás, discutido no tópico sobre “Formas
Sesquilineares Positivas e Produtos Escalares”, página 117.
Vamos olhar mais de perto o conjunto dos elementos n da álgebra com a propriedade acima. De-
nominemos
N = {n ∈ C| ω(n∗ n) = 0}. (23.61)

Vamos mostrar os seguintes três fatos sobre N:

1. Tem-se que
N = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}.

2. N é um sub-espaço linear fechado de C.

3. N é um ideal à esquerda de C, ou seja, para cada n ∈ N vale que an ∈ N para todo a ∈ C.

Prova de 1. Seja N1 = {n ∈ C| ω(b∗ n) = 0 para todo b ∈ C}. Pela desigualdade de Cauchy-


Schwarz tem-se que
|ω(b∗ n)|2 ≤ ω(b∗ b)ω(n∗ n).
Assim, se n ∈ N vale que ω(b∗ n) = 0 para todo b ∈ C. Logo N ⊂ N1 . Agora, se n0 ∈ N1 então
ω(b∗ n0 ) = 0 para todo b, em particular para b = n0 , ou seja, ω((n0 )∗ n0 ) = 0, ou seja, n0 ∈ N, provando
que N1 ⊂ N. Logo, N = N1 .
21
Israil Moiseevic Gelfand (1913-).
22
Mark Aronovich Naimark (1909-1978).
23
I. E. Segal ().
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1085/1195

Prova de 2. Sejam m, n ∈ N e α, β ∈ . Então para qualquer b ∈ C valem ω(b∗ m) = ω(b∗ n) = 0.


Logo,
ω(b∗ (αm + βn)) = αω(b∗ m) + βω(b∗ n) = 0,
mostrando que αm + βn ∈ N.
Seja ni , i ∈ , uma seqüência em N que converge a um elemento n ∈ C. Pela continuidade de ω


(lembre-se que ω é um funcional linear positivo e, portanto, contı́nuo), vale para todo b ∈ C

ω(b∗ n) = lim ω(b∗ ni ) = lim 0 = 0,


i→∞ i→∞

provando que N é fechado.


Prova de 3. Sejam n ∈ N, a, b ∈ C. Temos que

ω(b∗ (an)) = ω((a∗ b)∗ n) = 0 (por que?).

Assim, para todo b ∈ C vimos que ω(b∗ (an)) = 0, o que prova que an ∈ N para todo a ∈ C e todo
n ∈ N, ou seja, N é um ideal à esquerda de C.
Uma vez provadas essas três propriedades de N, vamos retomar a construção do espaço de Hilbert
Hω . Como N é um sub-espaço de C, podemos construir o sub-espaço quociente C/N pela construção
delineada na seção 2.1.1, página 93. O espaço C/N é formado pelas classes de equivalência [a] =
{a + n, n ∈ N}, a ∈ C e tem por vetor nulo [0] = {n, n ∈ N} = N.
Seguindo a idéia anterior, definimos em C/N a forma sesquilinear positiva dada por

h[a], [b]i = ω(a∗ b).

Notemos que essa expressão é bem-definida, no sentido que o lado direito não depende do representante
tomado nas classes. Assim, se substituı́ssemos a por a + n com n ∈ N, o lado direito ficaria

ω((a + n)∗ b) = ω(a∗ b) + ω(n∗ b) = ω(a∗ b)

pois ω(n∗ b) = ω(b∗ n) = 0. Analogamente ω(a∗ (b + n)) = ω(a∗ b). Notemos também que h[a], [b]i é
agora um produto escalar, pois h[a], [a]i = ω(a∗ a) que é zero se e somente se a ∈ N, em cujo caso
terı́amos [a] = [0] (por que?).
O espaço C/N é assim um espaço vetorial dotado de um produto escalar. Normalmente C/N
não é completo em relação à norma induzida por esse produto escalar, mas podemos considerar seu
completamento canônico C/N g (vide página 739) que é completo e, portanto, é um espaço de Hilbert.
g
Esse é o espaço de Hilbert Hω do enunciado do teorema: Hω = C/N.
Passemos agora à construção da representação πω da álgebra C. Pela construção do completamento
canônico podemos considerar C/N como um subconjunto denso de Hω = C/N. g Para a ∈ C, definamos
πω (a) em C/N da seguinte forma:
πω (a)[z] = [az], (23.62)
z ∈ C.
Há uma série de coisas a se provar sobre essa definição. Primeiro notemos que a expressão (23.62)
é bem definida no sentido que independe do elemento z tomado na classe. Isso se deve ao fato de
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1086/1195

N ser um ideal à esquerda da álgebra C. Assim, se trocássemos z por z + n com n ∈ N terı́amos


a(z + n) = az + an e como an ∈ N, segue que [a(z + n)] = [az].
É também evidente pela definição (23.62) que em C/N tem-se para todo [z] ∈ C/N que

πω (αa + βb)[z] = απω (a)[z] + βπω (b)[z] (23.63)

e
πω (a)πω (b)[z] = πω (ab)[z], (23.64)
para todos α, β ∈ e todos a, b ∈ C. Notemos que (23.63) e (23.64) dizem que πω é uma representação
de C em C/N. Mais abaixo vamos mostrar que essas relações são válidas não apenas no conjunto denso
C/N, mas em todo Hω .
Vamos agora mostrar que para cada a ∈ C, πω (a) é um operador limitado agindo em C/N.
Temos que para [z] ∈ C/N, [z] 6= [0]

kπω (a)[z]k2 = k[az]k2 = h[az], [az]i = ω((az)∗ (az)) = ω(z ∗ (a∗ a)z)

ω(z ∗ (a∗ a)z) ∗ ω(z ∗ (a∗ a)z)


= ω(z z) = k[z]k2 . (23.65)
ω(z ∗ z) ω(z ∗ z)

Tem-se, porém, que


ω(z ∗ az)
φ(a) := (23.66)
ω(z ∗ z)
é um estado em C. De fato φ é positivo, pois

ω(z ∗ (c∗ c)z) ω((cz)∗ (cz))


φ(c∗ c) = = ≥ 0
ω(z ∗ z) ω(z ∗ z)

pois ω é positivo. Fora isso φ( ) = 1, como facilmente se vê. Assim, tem-se kφk = 1 e, portanto,
|φ(c)| ≤ kφk kck ≤ kck para todo c ∈ C.
Retornando à (23.65), tem-se

kπω (a)[z]k2 = φ(a∗ a) k[z]k2 ≤ kφk ka∗ ak k[z]k2 = ka∗ ak k[z]k2 = kak2 k[z]k2 ,

donde concluı́mos que em C/N vale


kπω (a)k ≤ kak.

Isso provou que πω (a) é um operador limitado agindo no sub-espaço denso C/N. Podemos então
evocar o Teorema BLT (página 1017) e dizer que πω (a) tem uma extensão única para todo Hω , que
também denotaremos por πω (a), com a mesma norma operatorial. Portanto, vale também para essa
extensão que kπω (a)k ≤ kak.
Pela continuidade de πω (a) é fácil ver que as relações (23.63) e (23.64) valem para todo H ω , ou seja,

πω (αa + βb) = απω (a) + βπω (b) (23.67)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1087/1195

e
πω (a)πω (b) = πω (ab), (23.68)
provando que πω é uma representação da álgebra por operadores limitados em Hω .
Falta-nos mostrar ainda que πω (a∗ ) = πω (a)∗ para todo a ∈ C. Notemos que para [x], [y] ∈ C/N
vale

h[x], πω (a∗ )[y]i = h[x], [a∗ y]i = ω(x∗ a∗ y) = ω((ax)∗ y)

= h[ax], [y]i = hπω (a)[x], [y]i = h[x], πω (a)∗ [y]i, (23.69)

provando que em C/N vale πω (a∗ ) = πω (a)∗ . Por continuidade essa relação pode ser estendida para
todo Hω , mostrando que πω é uma representação-∗ de C.
Se C tem uma unidade, seja Ω = [ ] e calculemos hΩ, πω (a)Ωi:

hΩ, πω (a)Ωi = h[ ], πω (a)[ ]i = h[ ], [a ]i = h[ ], [a]i = ω( ∗ a) = ω(a).

Assim, vemos que o vetor Ω, em um certo sentido “representa” o estado ω em Hω , pois ω(a) =
hΩ, πω (a)Ωi para todo a ∈ C.
Que Ω á um vetor cı́clico para a representação πω é elementar pois, {πω (a)Ω, a ∈ C} = {[a], a ∈
C} = C/N e C/N é obviamente denso em Hω = C/N. g
Isso completa a demonstração do teorema.

• A Construção GNS. Um exemplo

Vamos agora mostrar a construção GNS em um caso mais ou menos explı́cito.


O Teorema 23.11, página 1042 diz-nos que para um espaço de Hilbert H o conjunto B(H) dos
operadores lineares agindo em H é uma álgebra C∗ . Para o caso em que H é o espaço de dimensão
finita n , B(H) coincide com a álgebra Mat(n, ) das matrizes n × n com entradas complexas.
Se M é uma matriz cujos elementos são Mij , i, j ∈ {1, . . . , n}, define-se o traço de M por
n
X
tr (M ) = Mii .
i=1

É bem sabido que para duas matrizes quaisquer M e N vale a chamada propriedade cı́clica do traço:
tr (M N ) = tr (N M ). Fora isso, tem-se que
n
X n X
X n n X
X n n X
X n
tr (M ∗ M ) = (M ∗ M )ii = (M ∗ )ik Mki = Mki Mki = |Mki |2 ,
i=1 i=1 k=1 i=1 k=1 i=1 k=1

o que diz-nos que


tr (M ∗ M ) ≥ 0 (23.70)
para qualquer matriz M .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1088/1195

Note-se também que se M é tal que tr (M ∗ M ) = 0 então


n X
X n
|Mki |2 = 0,
i=1 k=1

o que só é possı́vel se Mij = 0 para todos i e j, ou seja,

tr (M ∗ M ) = 0 ⇐⇒ M = 0. (23.71)

Seja ρ uma matriz n × n com as seguintes propriedades: ρ é auto-adjunta, seus autovalores r i


satisfazem ri ≥ 0. Como é bem sabido, se ρ é auto-adjunta, ρ pode ser diagonalizada por uma
transformação unitária, ou seja, existe uma matriz V ∈ Mat(n, ) unitária (V ∗ V = V V ∗ = ) tal que
V ∗ ρV é a matriz diagonal  
r1
 .. 
V ∗ ρV = Dρ =  . .
rn
Dada uma matriz ρ como acima, podemos definir uma matriz ρ1/2 da seguinte forma:

ρ1/2 := V Dρ1/2 V ∗ ,

onde  √ 
r1
 .. 
Dρ1/2 =  . .

rn
É fácil ver que

ρ1/2 ρ1/2 = (V Dρ1/2 V ∗ )(V Dρ1/2 V ∗ ) = V (Dρ1/2 )2 V ∗ = V Dρ V ∗ = ρ.

Para futuros propósitos vamos definir também P , o projetor ortogonal sobre o sub-espaço fechado
Im(ρ1/2 ): se n 3 u = v + w, com v ∈ Im(ρ1/2 ) e w ∈ (Im(ρ1/2 ))⊥ então

P u = v. (23.72)

É fácil mostrar que P é auto-adjunto e satisfaz (P )2 = P (mostre!). Fora isso, é óbvio pela definição
que P ρ1/2 = ρ1/2 . Como ρ1/2 é auto-adjunto, concluı́mos que

ρ1/2 = (ρ1/2 )∗ = (P ρ1/2 )∗ = ρ1/2 P,

o que mostra que


P ρ1/2 = ρ1/2 P = ρ1/2 .
Isso tem por conseqüência que

P ρP = (P ρ1/2 )ρ1/2 P = ρ1/2 ρ1/2 = ρ. (23.73)

Usaremos isso adiante.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1089/1195

Vamos supor que ρ também satisfaça tr (ρ) = 1. Então, é fácil constatar que

Mat(n, ) 3 A 7→ ωρ (A) = tr (ρA)

é um estado em Mat(n, ). De fato, ωρ é um funcional linear e também positivo, pois

ωρ (A∗ A) = tr (ρA∗ A) = tr (ρ1/2 ρ1/2 A∗ A) = tr (ρ1/2 A∗ Aρ1/2 ) = tr ((Aρ1/2 )∗ Aρ1/2 ) ≥ 0, (23.74)

pela propriedade (23.70). Fora isso, é claro que ωρ ( ) = tr (ρ ) = tr (ρ) = 1.


É possı́vel mostrar (não o faremos aqui) que todo estado de Mat(n, ) é da forma ω ρ , para algum
ρ com as propriedades acima.
Uma primeira tentativa
Como Mat(n, ) é também um espaço vetorial. Vamos definir em Mat(n, ) um produto escalar
dado por
hA, Bi = tr (A∗ B). (23.75)
Por (23.70) e (23.71) segue que h·, ·i é de fato um produto escalar.

E. 23.21 Exercı́cio. Mostre que Mat(n, ) é um espaço de Hilbert com o produto escalar de (23.75).
6

O exercı́cio acima diz-nos que o espaço vetorial Mat(n, ) é um espaço de Hilbert com o produto
escalar h·, ·i de (23.75). Como tal, denominaremos o espaço vetorial Mat(n, ) por H.
Definimos uma representação π de Mat(n, ) em H da seguinte forma:

π(A)B = AB,

para matrizes A e B ∈ Mat(n, ). É trivial verificar que π assim definida é uma representação da
álgebra Mat(n, ) em H.
Definindo-se
Ωρ := ρ1/2 ∈ H,
tem-se

hΩρ , π(A)Ωρ i = hρ1/2 , π(A)ρ1/2 i = hρ1/2 , Aρ1/2 i = tr ((ρ1/2 )∗ Aρ1/2 )

= tr (ρ1/2 Aρ1/2 ) = tr (ρ1/2 ρ1/2 A) = tr (ρA) = ωρ (A). (23.76)

Vemos assim que o vetor Ωρ = ρ1/2 “representa” o estado ωρ em H.


Um problema com essa construção é o seguinte. Pelas hipóteses assumidas não é sempre verdade
que ρ e ρ1/2 são invertı́veis. Conseqüentemente não podemos garantir que Ωρ é um vetor cı́clico
para a representação π, pois se ρ1/2 não for invertı́vel nem toda a matriz pode ser escrita da forma
π(A)ρ1/2 = Aρ1/2 , para algum A ∈ Mat(n, ) (por que?). Assim, caso ρ não possua inversa, a
construção apresentada acima não coincide com a construção GNS.
A Construção GNS
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1090/1195

A alternativa correta é começar definindo em Mat(n, ) uma forma sesquilinear positiva dada agora
por
hA, Biρ = ωρ (A∗ B) = tr (ρA∗ B). (23.77)
Que h·, ·iρ é uma forma sesquilinear é claro. Que é positiva segue de (23.74).
Como hA, Aiρ = tr ((Aρ1/2 )∗ Aρ1/2 ), o conjunto N de (23.61) vem a ser agora

N = {N ∈ Mat(n, )| N ρ1/2 = 0}.


Se ρ1/2 não for invertı́vel, N pode ter outros elementos além da matriz nula. Note que N = {N ∈
Mat(n, )| Ker (N ) ⊃ Im(ρ1/2 ) = 0} e que se ρ1/2 não é invertı́vel, não é sobrejetora, ou seja, Im(ρ1/2 )
é um conjunto menor que n .
Sejam as classes de equivalência [A] = {A+N, N ∈ N}, A ∈ Mat(n, ). Afirmamos que AP ∈ [A],
onde P é o projetor sobre Im(ρ1/2 ), definido em (23.72). De fato, como P ρ1/2 = ρ1/2 (por que?), segue
facilmente que
(AP − A)ρ1/2 = Aρ1/2 − Aρ1/2 = 0,
provando que AP − A ∈ N. Podemos assim identificar Mat(n, )/N com o subconjunto de Mat(n, )
formado pelas matrizes da forma AP com A ∈ Mat(n, ):
Mat(n, )/N ≡ {AP, A ∈ Mat(n, )}.
Como no caso da construção geral, definimos em Mat(n, )/N um produto escalar por
hAP, BP iρ = ωρ ((AP )∗ BP ) = ωρ (P ∗ A∗ BP ) = ωρ (P A∗ BP )

= tr (ρP A∗ BP ) = tr ((P ρP )A∗ B) = tr (ρA∗ B) = ωρ (A∗ B). (23.78)


Acima usamos (23.73).
É um exercı́cio simples (faça!) mostrar que Mat(n, )/N é um espaço de Hilbert com esse produto
escalar.
Definimos uma representação πρ de Mat(n, ) agindo em Mat(n, )/N por
πρ (A)BP = (AB)P,
A, B ∈ Mat(n, ).
Note-se também que Mat(n, )/N 3 P = P . É evidente que
{πρ (A)P, A ∈ Mat(n, )} = {AP, A ∈ Mat(n, )} = Mat(n, )/N,
mostrando que P ∈ Mat(n, )/N é um vetor cı́clico para a representação π ρ .
Definindo-se
Ωρ := P ∈ Mat(n, )/N,
teremos
hΩρ , πρ (A)Ωρ iρ = hP, AP iρ = ωρ (P ∗ AP ) = tr (ρP AP )

= tr ((P ρP )A) = tr (ρA) = ωρ (A), (23.79)


onde usamos novamente (23.73). Vemos assim que o vetor Ωρ “representa” o estado ωρ em Mat(n, )/N.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1091/1195

23.5 O Espectro de Operadores em Espaços de Banach


A noção de espectro é de grande importância tanto no estudo de propriedades estruturais de operadores
quanto em aplicações. Na Fı́sica Quântica sua relevância manifesta-se já nos seus fundamentos, pois é
um postulado básico que os valores obtidos em mensurações individuais de um observável são elementos
do espectro do operador auto-adjunto a ele associado. Nessa seção trataremos de definir o conceito de
espectro de modo preciso e geral. O estudo do espectro de operadores tem uma de suas culminações
no teorema espectral, do qual trataremos com detalhe mais adiante em diversos casos de interesse.
Comecemos com uma advertência. Muitos estudantes, especialmente de Fı́sica, têm a noção pre-
concebida (oriunda de maus cursos e/ou de imprecisões matemáticas de alguns (muitos) livros-texto
introdutórios de Mecânica Quântica) que o espectro de um operador coincide com o conjunto de seus
autovalores. Essa noção é incorreta. Como discutiremos, o espectro de um operador é, em geral, maior
que o conjunto de seus autovalores. Há, de fato, certos tipos de operadores cujo espectro coincide
com o conjunto de autovalores (tal é o caso de matrizes agindo em espaços de dimensão finita, ou de
operadores compactos auto-adjuntos), mas tais situações são especiais. Há mesmo operadores (vere-
mos exemplos) que não possuem autovalores, mas têm um espectro não-trivial. Lamentavelmente, tal
noção incorreta é a fonte de muitos mal-entendidos (nem sempre inconseqüentes!) entre a comunidade
de fı́sicos e a de matemáticos e isso é mais uma razão para sugerirmos um estudo cuidadoso da noção
de espectro.

• O conjunto resolvente e o espectro de um operador

Seja X um espaço de Banach e seja T ∈ B(X) um operador limitado agindo em X. Dizemos que um
número complexo λ ∈ é um elemento do conjunto resolvente de T se o operador λ − T for bijetor
como aplicação de X em X. Estamos no caso 1 do Teorema 23.13 e, pelo Teorema da Aplicação Inversa,
Teorema 23.8, página 1038, isso implica que (λ − T )−1 um operador limitado de X em X, ou seja, um
elemento de B(X).
Assim, definimos o conjunto resolvente de T ∈ B(X), denotado por ρ(T ), por
n o
ρ(T ) := λ ∈ | λ − T é bijetor .

Dizemos que um número complexo λ ∈ é um elemento do espectro de T se λ não for um elemento


do conjunto resolvente de T , ou seja, se λ − T não for bijetor como aplicação de X em X.
Assim, definimos o espectro de T ∈ B(X), denotado por σ(T ), por

σ(T ) := \ ρ(T ) ,

ou seja, n o
σ(T ) := λ ∈ | λ − T não é bijetor .

Nota. A razão da nomenclatura “conjunto resolvente” é a seguinte: em muitas aplicações (como no caso
de equações integrais) interessa-nos resolver equações do tipo (λ −T )ψ = φ para todo φ elemento de um
espaço de Banach X. Isso só é possı́vel se λ − T for bijetor, em cujo caso a solução é ψ = (λ − T ) −1 φ.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1092/1195

• Tipos de espectro. O espectros pontual, contı́nuo e residual

Um ponto de central importância na análise de propriedades de operadores é classificar seu espectro


de acordo com certas categorias. Há várias classificações que correspondem a vários tipos de espectro
(não-necessariamente disjuntos, como conjuntos): o espectro pontual, o espectro residual, o espectro
contı́nuo, o espectro absolutamente contı́nuo, o espectro singular contı́nuo, o espectro essencial, o
espectro transiente, o espectro recorrente e possivelmente outros. Trataremos de alguns desses tipos de
espectro nestas Notas, começando aqui pela classificação do espectro de operadores agindo em espaços
de Banach em espectro pontual, contı́nuo e residual.
Se T ∈ B(X) é um operador limitado agindo em um espaço de Banach X e λ é um elemento de
σ(T ), então λ − T não é bijetor. Estamos no caso 2 do Teorema 23.13, página 1055, o qual quebra-se
em três casos mutuamente exclusivos:

Caso a. O operador λ − T não é injetor, e (λ − T )−1 não pode ser definida na imagem de λ − T ,
pois Ker (λ − T ) é não-trivial, ou seja, existe v 6= 0 com T v = λv. Isso nos diz λ é autovalor de
T . Isso conduz à seguinte definição:
Denotamos por σp (T ) o conjunto de todos os autovalores de T :

σp (T ) := {λ ∈ | ∃ x ∈ X, x 6= 0, tal que T x = λx} .

σp (T ) é denominado espectro pontual de T , ou espectro discreto de T ou ainda espectro de auto-


valores de T . Claro está que σp (T ) ⊂ σ(T ). É importante frisar que esses dois conjuntos podem
não ser coincidentes e que se pode ter σp (T ) = ∅. Veremos exemplos mais abaixo.

Caso b. O operador λ − T é injetor, Ker (λ − T ) é composto apenas pelo vetor nulo (e, portanto, λ
não é autovalor de T ). Fora isso Ran (λ −T ) é denso e (λ −T )−1 existe agindo em Ran (λ −T )
mas não é limitada. Isso conduz à seguinte definição:
Denotamos por σc (T ) o conjunto de todos os λ ∈ tais λ não é um autovalor de T , Ran (λ − T )
é denso e (λ − T )−1 existe agindo em Ran (λ − T ) mas não é limitada. σc (T ) é denominado
espectro contı́nuo de T 24 .
Por fim, temos o

Caso c. O operador λ − T é injetor, Ker (λ − T ) é composto apenas pelo vetor nulo (e, portanto,
λ não é autovalor de T ). Porém, Ran (λ − T ) não é denso e (λ − T )−1 existe agindo em
Ran (λ − T ), podendo ser limitada ou não. Isso conduz à seguinte definição:
Denotamos por σr (T ) o conjunto de todos os λ ∈ tais λ não é um autovalor de T , Ran (λ − T )
não é denso e (λ − T )−1 existe agindo em Ran (λ − T ), podendo ser limitada ou não. σr (T ) é
denominado espectro residual de T .

Está claro pelas definições acima que

σ(T ) = σp (T ) ∪ σc (T ) ∪ σr (T ) (23.80)
24
Vale aqui advertir o estudante que alguns textos, como [99], [103] e [68], adotam uma definição diferente de espectro
contı́nuo. Nossa definição é encontrada em textos como [132], [75] e outros.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1093/1195

sendo a união disjunta. Os vários tipos de espectro descritos acima serão ilustrados em exemplos
apresentados mais abaixo (página 1097), aos quais o leitor poderá passar agora, se o desejar, mas
para a uma melhor compreensão dos mesmos precisamos antes de alguns resultados gerais da teoria
espectral.

• O operador resolvente e propriedades topológicas do espectro

Se um número complexo λ pertence ao conjunto resolvente de T ∈ B(X), define-se o operador


resolvente de T calculado em λ, denotado por Rλ (T ), por

Rλ (T ) := (λ − T )−1 .

Pelas hipóteses Rλ (T ) é bijetor para todo λ ∈ ρ(T ) e é um elemento de B(X) (pelo Teorema da
Aplicação Inversa, Teorema 23.8, página 1038).
Muitas propriedades de ρ(T ) (e, portanto de σ(T )) podem ser derivadas de propriedades de seus
operadores resolventes. Por exemplo, mostraremos mais adiante que ρ(T ) é sempre um conjunto aberto
de (e, portanto, σ(T ) é sempre um conjunto fechado de ) e mostraremos também que σ(T ) nunca
é igual a todo (e, portanto, σ(T ) nunca é vazio).
Proposição 23.32 (Primeira identidade do resolvente) Seja X um espaço de Banach e T ∈
B(X). Se λ e µ pertencem ao conjunto resolvente ρ(T ) de T , então

Rλ (T ) − Rµ (T ) = (µ − λ)Rλ (T )Rµ (T ) . (23.81)

A demonstração é idêntica àquela da Proposição 23.21, página 1061. Iremos agora estabelecer uma
série de resultados sobre propriedades do operador resolvente que culminarão com a Proposição 23.35.
Todos são essencialmente casos particulares de resultados demonstrados acima no caso geral de álgebras
de Banach com unidade.
Lema 23.5 Seja X um espaço de Banach e T ∈ B(X). Se λ e µ pertencem ao conjunto resolvente
ρ(T ) de T e |λ − µ| < kRµ (T )k−1 então
" ∞
# " ∞
#
X n
X n
Rλ (T ) = Rµ (T ) + (µ − λ)n (Rµ (T )) = + (µ − λ)n (Rµ (T )) Rµ (T ) . (23.82)
n=1 n=1

O lema acima é um caso particular do Lema 23.3, página 1062, para álgebras de Banach com
unidade gerais, e por isso sua demonstração é dispensada.
Proposição 23.33 Seja X um espaço de Banach e T ∈ B(X). Então ρ(T ) é um subconjunto aberto
de , o que implica que σ(T ) é um subconjunto fechado de . 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1094/1195

Novamente, a proposição acima é um caso particular da Proposição 23.22, página 1063, para álgebras
de Banach com unidade gerais, e por isso sua demonstração é dispensada. A Proposição que segue é o
análogo da Proposição 23.23, página 1063, mas sua demonstração difere por um ligeiro detalhe.
Proposição 23.34 Seja X um espaço de Banach e T ∈ B(X). Então, para cada x ∈ X e para cada
` ∈ X† , funcional linear contı́nuo em X, a função de variável complexa f x, ` : ρ(T ) → dada por
fx, ` (λ) := `(Rλ (T )x) é holomórfica (i.e. analı́tica) em cada componente conexa de ρ(T ). 2

Prova. Seja µ ∈ ρ(T ) e λ tal que |λ − µ| < kRµ (T )k−1 . Tem-se por (23.82) que λ ∈ ρ(T ) e

 ∞
X  !
(23.82)
fx, ` (λ) := `(Rλ (T )x) = ` Rµ (T ) + (µ − λ)n (Rµ (T ))n+1 x
n=1


X 
(µ − λ)n ` (Rµ (T ))n+1 x . (23.83)
continuidade
= `(Rµ (T )x) +
n=1

Como 
` (Rµ (T ))n+1 x ≤ k`k k (Rµ (T ))n+1 xk ≤ k`k kRµ (T )kn+1 kxk
segue de |λ − µ| < kRµ (T )k−1 que a última série em (23.83) é absolutamente convergente e, portanto,
define uma função holomórfica na bola aberta de raio kRµ (T )k−1 centrada em µ, a qual pode, pelos
procedimentos usuais, ser estendida analiticamente à componente conexa de ρ(T ) que contem µ.

A proposição seguinte é importante, pois finalmente estabelece que o espectro de um operador


contı́nuo em um espaço de Banach nunca é vazio. Trata-se essencialmente de um caso particular da
Proposição 23.24 da página 1063, com a ligeira diferença que na demonstração substituı́mos as funções
f` pelas funções fx, ` definidas acima.
Proposição 23.35 Seja X um espaço de Banach e T ∈ B(X). Então, σ(T ) é um conjunto não-vazio
e está contido na bola fechada de raio kT k centrada em 0: {z ∈ | |z| ≤ kT k}. 2

Prova. Vamos supor que ρ(T ) = . Então, pela Proposição 23.34, para todo x ∈ X e para todo `
funcional linear contı́nuo em X a função fx, ` (λ) := `(Rλ (T )x) seria inteira, isto é, analı́tica em toda
parte. Agora, para |λ| > kT k
" ∞
#
X
Rλ (T ) = (λ − T )−1 = λ−1 ( − λ−1 T )−1 = λ−1 + λ−n T n (23.84)
n=1

de acordo com (23.33) da Proposição 23.14, página 1056, pois pela hipótese kλ −1 T k < 1. Assim,
" ∞  n #
1 X kT k 1
kRλ (T )k ≤ 1+ = .
|λ| n=1
|λ| |λ| − kT k
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1095/1195

Isso mostra que lim kRλ (T )k = 0. Logo, como |fx, ` (λ)| = |`(Rλ (T )x)| ≤ k`k kRλ (T )k kxk, segue
|λ|→∞
que lim |fx, ` (λ)| = 0. Com isso, concluı́mos que fx, ` (λ) é uma função inteira, limitada e converge
|λ|→∞
a zero no infinito. Pelo bem-conhecido Teorema de Liouville25 da Análise Complexa, isso implica que
fx, ` (λ) é identicamente nula para todo λ ∈ . Se, porém, `(Rλ (T )x) for nulo para cada funcional linear
contı́nuo ` então, pelo Corolário 23.1, página 1031, terı́amos Rλ (T )x = 0 para todo x ∈ X, um absurdo,
pois Rλ (T ) é a inversa de um operador. Assim concluı́mos que ρ(T ) não pode ser igual a todo e,
portanto, σ(T ) 6= ∅.
Pela Proposição 23.14, página 1056, a expressão (23.84) mostra que R λ (T ) está definida para todo
|λ| > kT k. Assim, {z ∈ | |z| > kT k} ⊂ ρ(T ). Logo, σ(T ) ⊂ {z ∈ | |z| ≤ kT k}.

• O espectro de operadores limitados em espaços de Hilbert

Vamos a partir de agora especializar nossa discussão para operadores agindo em espaços de Hil-
bert. Para apresentarmos nossos próximos resultados, vamos introduzir a seguinte notação: se S ⊂
denotamos por S cc o conjunto dos elementos complexo-conjugados de S: S cc := {z ∈ | z ∈ S}.
Se T é um operador limitado agindo em um espaço de Hilbert H, então pelo item 7 do Teorema
23.11, página 1042 temos que se λ ∈ ρ(T ), vale ((λ − T )∗ )−1 = ((λ − T )−1 )∗ , o que significa que
λ ∈ ρ(T ∗ ) e Rλ (T )∗ = Rλ (T ∗ ). Provamos então o seguinte:
Proposição 23.36 Se T é um operador limitado agindo em um espaço de Hilbert H, então R λ (T )∗ =
Rλ (T ∗ ) para todo λ ∈ ρ(T ), o que implica ρ(T ∗ ) = ρ(T )cc e σ(T ∗ ) = σ(T )cc . 2

• O espectro residual e o pontual em um espaço de Hilbert

A próxima proposição detalha um pouco mais a relação estabelecida na Proposição 23.36 entre σ(T )
e σ(T ∗ ). Dela extrairemos a informação importante que operadores auto-adjuntos agindo em espaços
de Hilbert não têm espectro residual.
Proposição 23.37 Se T é um operador limitado agindo em um espaço de Hilbert H, então

1. σr (T ) ⊂ σp (T ∗ )cc .
2. σp (T ) ⊂ σp (T ∗ )cc ∪ σr (T ∗ )cc . 2

Prova. Se λ ∈ σr (T ) então Ran (λ − T ) não é denso em H. Então existe φ ∈ Ran (λ − T )⊥ não-nulo.


Portanto, hφ, (λ − T )ψi = 0 para todo ψ ∈ H. Isso diz que h(λ − T ∗ )φ, ψi = 0 para todo ψ ∈ H, o
que implica (λ − T ∗ )φ = 0 e, portanto, φ é um autovetor de T ∗ com autovalor λ. Assim, λ ∈ σp (T ∗ ).
Isso provou o item 1.
Se λ ∈ σp (T ), então existe um sub-espaço não-trivial L de H formado pelos autovetores de T com
autovalor λ tal que (λ − T )φ = 0 para todo φ ∈ L. Isso naturalmente implica que h(λ − T ∗ )ψ, φi =
25
Joseph Liouville (1809-1882).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1096/1195

hψ, (λ − T )φi = 0 para todo ψ ∈ H e todo φ ∈ L. Portanto, Ran (λ − T ∗ ) é um subconjunto de L⊥ .


Caso λ não for um auto-valor de T ∗ , então isso diz-nos que λ ∈ σr (T ∗ ) (vide a definição de espectro
residual à página 1092). Assim, ou λ ∈ σp (T ∗ ) ou λ ∈ σr (T ∗ ) e, portanto, λ ∈ σp (T ∗ ) ∪ σr (T ∗ ). Isso
provou o item 2.

A proposição acima pode ser generalizada para espaços de Banach, mas não trataremos disso aqui.
Ainda no contexto de espaços de Hilbert temos o seguinte corolário importante que afirma que o
espectro de um operador auto-adjunto é apenas a união do espectro pontual com o contı́nuo.
Corolário 23.12 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro residual é vazio. 2

Prova. Pela Proposição 23.37, página 1095, temos σr (A) ⊂ σp (A), pois A = A∗ e pois σp (A)cc = σp (A),
já que na Proposição 23.7, página 1046, provamos que o espectro pontual de um operador auto-adjunto
agindo em um espaço de Hilbert é real. Agora, pela definição, os espectros residual e pontual são
disjuntos. Logo, σr (A) = ∅.

• O espectro de operadores auto-adjuntos em espaços de Hilbert é real

Devido a sua importância no contexto da Fı́sica Quântica, existe um particular interesse nas pro-
priedades espectrais de operadores auto-adjuntos (limitados ou não) agindo em espaços de Hilbert. Na
Proposição 23.7, página 1046, já provamos que o espectro pontual de tais operadores é um subconjunto
da reta real. O mesmo vale para o espectro completo, como vemos no próximo teorema.
Teorema 23.25 Se A é um operador limitado e auto-adjunto agindo em um espaço de Hilbert H,
então seu espectro é um sub-conjunto da reta real, mais precisamente, é um sub-conjunto fechado de
[−kAk, kAk]. 2

Prova. Esse teorema é um caso particular da Proposição 23.27, página 1067. Apresentamos uma
segunda demonstração que usa a estrutura do espaço de Hilbert.
Seja z ∈ escrito na forma z = x + iy, com x, y ∈ . Se considerarmos o operador Az := z − A,


é fácil verificar que


kAz ψk2 = |y|2 kψk2 + k(x − A)ψk2 . (23.85)
De fato,

kAz ψk2 = hiyψ + (x − A)ψ, iyψ + (x − A)ψi

= |y|2 kψk2 + k(x − A)ψk2 −iyhψ, (x − A)ψi + iyh(x − A)ψ, ψi .


| {z }
=0 pois (x −A) é auto-adjunto

De (23.85), concluı́mos que


kAz ψk ≥ |y| kψk (23.86)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1097/1195

e que (trocando y → −y)


kAz ψk ≥ |y| kψk (23.87)
para todo ψ ∈ H. Assim, vemos que se y 6= 0, então Az ψ é nulo se e somente se ψ = 0, ou seja, Az
é injetora como aplicação de H em Ran (Az ). Assim, existe A−1 z : Ran (Az ) → H. Mostremos que
essa aplicação é limitada. Seja φ ∈ Ran (Az ) e escrevamos φ = Az ψ para algum ψ ∈ H. Teremos por
(23.86) que kφk ≥ |y| kA−1 −1 −1 −1
z φk, de onde concluı́mos que kAz k ≤ |y| , o que prova que Az é limitada.
Com isso, podemos evocar a Proposição 23.13, página 1056, e afirmar que Ran (A z ) é um sub-espaço
fechado de H (caso y 6= 0).
Vamos agora supor que o sub-espaço fechado Ran (Az ) seja diferente de H. Então, para cada
χ ∈ Ran (Az )⊥ não-nulo teremos hχ, Az ψi = 0 para todo ψ ∈ H. Como A∗z = Az , segue que
hAz χ, ψi = 0 para todo ψ ∈ H, o que implica Az χ = 0. Ora, isso contraria (23.87), que vale para todo
ψ ∈ H, pois supomos χ não-nulo.
Logo, concluı́mos que Ran (Az ) = H e como Az é injetora, concluı́mos que A−1
z : H → H existe,
−1 −1 −1
sendo limitada pelo que vimos acima com kAz k ≤ |y| . É claro que Az = Rz (A), o operador
resolvente de A. Assim, estabelecemos que se y 6= 0 então z = x + iy ∈ ρ(A) para todo x ∈ , 

provando que σ(A) ⊂ . Que σ(A) é fechado e que σ(A) ⊂ [−kAk, kAk] segue das Proposições 23.33


e 23.35.

• Alguns exemplos e contra-exemplos

Exemplo 23.1 No caso em que X é o espaço vetorial de dimensão finita n , temos B(X) = Mat ( , n),
o conjunto das matrizes complexas n × n. Nesse caso, se M é uma matriz complexa n × n, σ(M ) é
o conjunto de todos os números complexos tais que a matriz λ − M não tem inversa. Ora, é bem
sabido que uma matriz é não-invertı́vel se e somente se seu determinante for nulo. Logo, σ(M ) = {λ ∈
| det(λ − M ) = 0}, ou seja, σ(M ) coincide com o conjunto das raı́zes do polinômio caracterı́stico
de M : pM (x) = det(x − M ), o qual, pelo Teorema Fundamental da Álgebra, possui n raı́zes não
necessariamente distintas no plano complexo. Assim, σ(M ) não é vazio (o que veremos ser verdade
também para qualquer operador em um espaço de Banach). Se uma matriz K ∈ Mat ( , n) não
possui inversa, sabe-se por um argumento geral que existe pelo menos um vetor não-nulo v ∈ n tal
que Kv = 0 (vide Corolário 3.1 à página 147). Disso concluı́mos que se λ ∈ σ(M ) para uma matriz
M ∈ Mat ( , n) então existe v ∈ n não-nulo tal que (λ − M )v = 0, ou seja, M v = λv. Isso significa
que λ é um autovalor de M (e v um autovetor de M com autovalor λ). Portanto, em Mat ( , n) o
espectro coincide com o conjunto de autovalores. ◊

No caso de espaços de Banach gerais, o fato de um operador K não ser bijetor não necessariamente
implica que exista um vetor não-nulo v tal que Kv = 0. Daı́, no caso de espaços de Banach gerais, o
espectro de um operador não necessariamente coincide com o conjunto de seus autovalores, ainda que
a recı́proca seja verdadeira: todo autovalor λ de um operador T é um elemento de seus espectro, já que
(λ − T ) não é bijetora, pois tanto o vetor nulo 0 quanto um autovetor v não-nulo de T com autovalor
λ são mapeados no vetor nulo 0. Veremos vários exemplos adiante mas, por ora, ilustremos isso com
o seguinte.
Exemplo 23.2 Seja X = C([a, b]) o conjunto de todas as funções complexas contı́nuas definidas no
intervalo [a, b] e seja T : C([a, b]) → C([a, b]) o operador (T f )(x) := xf (x), definido para toda função
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1098/1195

contı́nua f . Se T possuı́sse um autovetor não-nulo g com autovalor λ, valeria (T g)(x) = xg(x) = λg(x)
e terı́amos (x − λ)g(x) = 0 para todo x ∈ [a, b]. Ora, isso é impossı́vel se g é não-nulo. Logo T não
tem autovalores. No entanto, (λ − T )f (x) = (x − λ)f (x) e disso vemos que λ − T é bijetora se e
1
somente se λ 6∈ [a, b], pois uma função da forma λ−x g(x) é um elemento de C([a, b]) para qualquer
g ∈ C([a, b]) se e somente se λ 6∈ [a, b]. Concluı́mos disso que ρ(T ) = \ [a, b] e que σ(T ) = [a, b].
Esse operador T tem, portanto, um espectro não-trivial mas não tem autovalores. ◊
Exemplo 23.3 Seja H = `2 , o espaço de Hilbert das seqüências de quadrado somável e considere-se o
seguinte operador definido em `2 :

S(a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .

S é denominado operador de shift, ou operador de deslocamento. É um exercı́cio elementar constatar


que sua adjunta S ∗ é dada por

S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) := (a2 , a3 , a4 , a5 , a6 , . . .) .

É também elementar provar que kSk = kS ∗ k = 1. Assim, pela Proposição 23.35, página 1094, σ(S) e
σ(S ∗ ) estão contidos na bola fechada de raio 1 centrada em 0.
S não tem autovalores. De fato, suponhamos que exista (a1 , a2 , a3 , a4 , a5 , . . .) ∈ `2 e λ ∈ tais
que S(a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que

λ(a1 , a2 , a3 , a4 , a5 , . . .) = (0, a1 , a2 , a3 , a4 , . . .) .

Se λ = 0, isso implica que todos os aj ’s são nulos. Se λ 6= 0, temos λa1 = 0, λa2 = a1 , λa3 = a2 etc.,
Mas a primeira relação implica a1 = 0, o que faz com que a segunda relação implique a2 = 0 etc., e
novamente temos que os aj ’s são todos nulos. Assim, S só possui autovetores nulos, ou seja, não possui
autovalores: σp (S) = ∅. Pelo item 1 da Proposição 23.37, página 1095, isso implica σr (S ∗ ) = ∅.
Procuremos agora saber se S ∗ possui autovalores. Seja (a1 , a2 , a3 , a4 , a5 , . . .) ∈ `2 e λ ∈ tais
que S ∗ (a1 , a2 , a3 , a4 , a5 , . . .) = λ(a1 , a2 , a3 , a4 , a5 , . . .). Isso significa que

λ(a1 , a2 , a3 , a4 , a5 , . . .) = (a2 , a3 , a4 , a5 , a6 , . . .) ,

o que implica a2 = λa1 , a3 = λa2 , a4 = λa3 , ou seja, an = λn−1 a1 . Assim, os autovetores serão da
forma
a1 (1, λ, λ2 , λ3 , λ4 , . . .) .
Uma tal seqüência é um elemento de `2 se e somente se |λ| < 1. Concluı́mos que o espectro pontual de
S ∗ é não-vazio e é igual ao disco aberto de raio 1 em centrado em 0: σp (S ∗ ) = {λ ∈ | |λ| < 1}.
Vamos agora mostrar que espectro residual de S é não-vazio. Para λ ∈ com |λ| < 1, seja vλ o
autovetor de S ∗ com autovalor λ dado por vλ = (1, λ, λ2 , λ3 , λ4 , . . .). Temos S ∗ vλ = λvλ . Para todo
x ∈ `2 teremos

hvλ , (λ − S)xi`2 = (λ − S ∗ )vλ , x `2 = 0 .
Disso concluı́mos que para todo x ∈ `2 o vetor (λ − S)x pertence ao sub-espaço ortogonal ao vetor
vλ . Assim, Ran (λ − S) não é denso em `2 para nenhum |λ| < 1 e, conseqüentemente {λ ∈ | |λ| <
1} ⊂ σr (S). Agora, pelo item 1 da Proposição 23.37, página 1095, tem-se também σ r (S) ⊂ σp (S ∗ )cc =
{λ ∈ | |λ| < 1}. Logo, σr (S) = {λ ∈ | |λ| < 1}.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1099/1195

Concluı́mos até agora que σp (S) = ∅, σr (S) = {λ ∈ | |λ| < 1}, σp (S ∗ ) = {λ ∈ | |λ| < 1} e
σr (S ∗ ) = ∅. Como σ(S) é fechado, contido em {λ ∈ | |λ| ≤ 1} e contem σr (S) = {λ ∈ | |λ| < 1},
concluı́mos que σ(S) = {λ ∈ | |λ| ≤ 1}. Analogamente, σ(S ∗ ) = {λ ∈ | |λ| ≤ 1}. Como a união
(23.80) é disjunta, concluı́mos que σc (S) = σc (S ∗ ) = {λ ∈ | |λ| = 1}. Temos finalmente o seguinte
quadro:
σ(S) = {λ ∈ | |λ| ≤ 1}, σp (S) = ∅, σc (S) = {λ ∈ | |λ| = 1}, σr (S) = {λ ∈ | |λ| < 1},

σ(S ∗ ) = {λ ∈ | |λ| ≤ 1}, σp (S ∗ ) = {λ ∈ | |λ| < 1}, σc (S ∗ ) = {λ ∈ | |λ| = 1}, σr (S ∗ ) = ∅.



Exemplo 23.4 (Extraı́do de [99]). Seja X = `∞ , o espaço de Banach das seqüências limitadas e
considere-se o seguinte operador definido em `∞ :
T 0 (a1 , a2 , a3 , a4 , a5 , . . .) := (0, a1 , a2 , a3 , a4 , . . .) .
T 0 é denominado operador de shift (mas note-se que difere de S, definido acima, pois aquele era definido
apenas em `2 ). De maneira análoga ao que fizemos acima para o operador S, mostra-se que T 0 não
possui autovalores: σp (T 0 ) = ∅.
Vamos mostrar agora que todo λ ∈ com |λ| = 1 pertence ao espectro residual de T 0 . Sejam
a = {an } e b = {bn } duas seqüências de `∞ tais que a = (λ − T 0 )b. Isso significa que
(a1 , a2 , a3 , a4 , a5 , . . .) = (λb1 , λb2 − b1 , λb3 − b2 , λb4 − b3 , λb5 − b4 , . . .) .
Assim, teremos a1 = λb1 , a2 = λb2 − b1 , a3 = λb3 − b2 , a4 = λb4 − b3 etc. Como |λ| = 1, tem-se λ−1 = λ
e essas relações implicam
n
n+1 X
bn = λ λm a m , (23.88)
m=1

como facilmente se constata. Se c ∈ ` , tem-se para qualquer n ∈  que

kc − ak∞ = sup |cm − am | ≥ |cn − an | = |λn (cn − an )| = |λn cn − λn an |


m∈ 

≥ |Re(λn cn − λn an )| ≥ Re(λn cn − λn an ) = Re(λn cn ) − Re(λn an ) ,


onde, acima, usamos que |λn | = 1 pois |λ| = 1 e que |z| ≥ |Re(z)| ≥ Re(z) para qualquer z ∈ .
Concluı́mos disso que
Re(λn an ) ≥ Re(λn cn ) − kc − ak∞ . (23.89)
n
Vamos agora tomar cn da forma cn = λ e seja a ∈ `∞ contido na bola aberta de raio 1/2 centrada
em c, ou seja, kc − ak∞ < 1/2. Por (23.89), teremos que Re(λn an ) ≥ 1 − 1/2 =P 1/2. Dessa forma,
vemos que se b é tal que a = (λ − T 0 )b então, por (23.88), teremos λn+1 bn = nm=1 λm am , o que
implica
 
|bn | = λn+1 bn ≥ Re λn+1 bn ≥ Re λn+1 bn

n
! n n
(23.88) X X X 1 n
m m
= Re λ am = Re (λ am ) ≥ = .
m=1 m=1 m=1
2 2
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1100/1195

Agora, a relação |bn | ≥ n/2 não pode ser satisfeita se b é uma seqüência limitada (ou seja, um elemento
n
de `∞ ). Concluı́mos que a bola aberta de raio 1/2 centrada no elemento c ∈ `∞ dado por cn = λ
não pode estar na imagem de λ − T 0 e, portanto, a imagem de `∞ por esse operador não é densa em
`∞ . Concluı́mos, assim, que σr (T 0 ) contem o cı́rculo unitário {λ ∈ | |λ| = 1}. É possı́vel provar (vide
[99]) que σr (T 0 ) = {λ ∈ | |λ| ≤ 1}. ◊
Exemplo 23.5 Um outro exemplo que estudamos explicitamente é o operador de integração de Vol-
terra W , discutido no Exemplo 23.6 à página 1111 e seguintes. Lá determinamos explicitamente o
operador resolvente de W e seu espectro. ◊

23.6 Operadores Compactos em Espaços de Banach e de Hil-


bert
Nesta seção introduziremos a importante noção de operador compacto. Essa noção é importante por
diversas razões. Em um sentido a ser precisado, operadores compactos agindo entre espaços de Banach
de dimensão infinita são aqueles cujas caracterı́sticas mais se aproximam das de matrizes. Para eles
vale também a forma mais simples do Teorema Espectral, que apresentamos no contexto de matrizes
na Seção 3.4, página 159. Historicamente o estudo de propriedades de operadores compactos deu inicio
à Análise Funcional, através do estudo empreendido entre 1904 e 1910 por Hilbert e colaboradores da
chamada equação integral de Fredholm, a qual surge no tratamento do problema de Sturm-Liouville
(vide Capı́tulo 9, página 521, em particular a Seção 9.5, página 542). Esses trabalhos levaram à
introdução do própria noção de espaço de Hilbert e à primeira versão do Teorema Espectral para
operadores (compactos) agindo em espaços de Hilbert.

• Operadores de posto finito

Sejam A e B dois espaços de Banach e seja M : A → B um operador linear limitado. Dizemos


que M é um operador de posto finito se a imagem de A por M estiver contida em um sub-espaço
de dimensão finita de B. Assim, se M é de posto finito, existe um conjunto de, digamos, N vetores
linearmente independentes b1 , . . . , bN em B tais que M x = β1 (x)b1 + · · · + βN (x)bN para todo x ∈ A,
onde β1 (x), . . . , βN (x) ∈ dependem de x. Como M é linear, é claro que cada βk é um funcional
linear em A. Como M é contı́nuo, vale
N
X N
X
lim βk (x − y)bk = lim βk (x − y)bk = lim M (x − y) = 0 ,
kx−ykA →0 kx−ykA →0 kx−ykA →0
k=1 k=1

o que implica lim βk (x − y) = 0, ou seja, cada βk é um funcional linear contı́nuo (e, portanto,
kx−ykA →0
limitado) de A em . Assim, existe B > 0 tal que |βk (x)| ≤ BkxkA para todo k = 1, . . . , N .
Dessa forma, vemos que se xn , n ∈ , é uma seqüência limitada de vetores em A (ou seja, existe


X > 0 tal que kxn kA ≤ X para todo n ∈ ) então |βk (xn )| ≤ BX para todo n ∈ e todo k. Assim,
 


XN N
X XN

kM xn kB = βk (xn )bk ≤ |βk (xn )| kbk kB ≤ BX kbk kB .

k=1 B k=1 k=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1101/1195

Isso diz-nos que todos os vetores da seqüência M xn estão contidos na bola fechada centrada em 0 e
de raio BX(kb1 kB + · · · + kb1 kB ) do sub-espaço de dimensão finita gerado por b1 , . . . , bN . Assim,
pelo bem conhecido Teorema de Bolzano26 -Weierstrass27 , a seqüência M xn , possui pelo menos uma
sub-seqüência convergente.
Essa propriedade, válida para operadores de posto finito, inspira a definição de operadores compac-
tos.

• Operadores Compactos

Um operador linear limitado C agindo entre dois espaços de Banach A e B é dito ser um operador
compacto se para toda seqüência limitada xn ∈ A, n ∈ , a seqüência Cxn em B possui pelo menos


uma seqüência convergente.


A denominação “operador compacto” provem da seguinte propriedade equivalente: um operador
C agindo entre dois espaços de Banach A e B é compacto (seguindo a definição acima) se e somente
se o fecho em B da imagem por C de qualquer conjunto limitado em A é compacto (na topologia de
B). Essa equivalência é uma conseqüência de propriedades bem-conhecidas de conjuntos compactos em
espaços métricos e a prova é deixada como exercı́cio. Essa propriedade pode ser tomada como definição
alternativa da noção de operador compacto e assim é feito em alguns textos.
Como vimos, operadores de posto finito são compactos, mas a recı́proca não é verdadeira em
dimensão infinita. Porém, a seguinte proposição é imediata das observações acima.
Proposição 23.38 Todo operador linear agindo entre dois espaços de Banach de dimensão finita A e
B é compacto. 2

Dentre os exemplos mais importantes de operadores compactos estão os operadores de Fredholm


e de Volterra, discutidos às páginas 1109 e 1110, respectivamente, os quais surgem na teoria das
equações diferenciais e integrais (em particular, no chamado problema de Sturm-Liouville, introduzido
no Capı́tulo 9, página 521) e suas aplicações. Para estudá-los, no entanto, precisamos desenvolver um
pouco a teoria geral.

• Operadores compactos e seqüências fracamente convergentes

Com o uso do Princı́pio de Limitação Uniforme, Teorema 23.6, página 1031, podemos estabelecer
o seguinte resultado fundamental sobre operadores compactos.
Teorema 23.26 Seja C : A → B um operador compacto agindo entre dois espaços de Banach A e B.
Seja xn ∈ A, n ∈ uma seqüência de vetores de A e suponha que exista x ∈ A tal que `(x n ) ∈ ,


n ∈ , seja uma seqüência convergente a `(x) para todo funcional linear contı́nuo ` : A → (i.e., x n


é fracamente convergente a x). Então Cxn ∈ A, n ∈ converge em norma a Cx em B.


 2

Prova. Denotemos por A† o dual topológico de A (i.e., A† é o conjunto de todos os funcionais lineares
26
Bernard Placidus Johann Nepomuk Bolzano (1781-1848).
27
Karl Theodor Wilhelm Weierstrass (1815-1897).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1102/1195

contı́nuos de A). O Teorema 23.2, página 1020, diz-nos que A† é igualmente um espaço de Banach com
a norma definida em (23.3), página 1021.
Para z ∈ A definamos a aplicação ẑ : A† → dada por ẑ(`) = `(z). Como |ẑ(`)| = |`(z)| ≤
k`kA† kzkA (pois ` é um funcional linear contı́nuo), segue que ẑ é um funcional linear contı́nuo em A† .
Por (23.4), vale kẑk = kzkA .
Pelas hipóteses, para cada ` ∈ A† a seqüência numérica `(xn ) converge a `(x) ∈ . Daı́, |`(xn )| é
limitada, ou seja, existe M` > 0 tal que |`(xn )| ≤ M` para todo n ∈ . 

Para a seqüência xn ∈ A, n ∈  de vetores de A do enunciado, podemos considerar o conjunto



de operadores A → xn , n ∈ }. Agora, para cada ` ∈ A† vale
lineares e limitados por S : {c 

que |c
xn (`)| ≤ M` para todo xcn ∈ S. Estamos, portanto, sob as condições do Princı́pio de Limitação
Uniforme, Teorema 23.6, página 1031, e podemos afirmar que existe M > 0 tal que kc x n k ≤ M para
todo n ∈ , ou seja, kxn kA ≤ M para todo n ∈ .
 

Sejam agora definidos em B a seqüência yn := Cxn , n ∈ e o vetor y := Cx. Para cada ` ∈ A†




vale
`(yn ) − `(y) = `(yn − y) = `(C(xn − x)) = ` ◦ C(xn − x) .
Todavia, ` ◦ C é um elemento de A† pois é linear e contı́nuo (sendo a composição de duas aplicações
contı́nuas). Logo, pelas hipóteses, ` ◦ C(xn ) converge a ` ◦ C(x), o que implica que `(yn ) converge a
`(y).
Desejamos provar que yn converge a y na norma de B. Vamos supor, por absurdo, que isso não
ocorra. Então, existe algum  > 0 tal que
kynj − ykB >  (23.90)
para todos ynj de uma sub-seqüência de yn . Agora, ynj = Cxnj e como kxnj kA ≤ M para todo j e
C é compacto, {ynj }j∈ possui uma sub-seqüência convergente em norma em B. Vamos denotar essa


sub-seqüência por yk0 , k ∈ e seja y 0 ∈ B o seu limite. É certo por (23.90) que y 0 6= y. Agora, Como


kyk0 − y 0 kB converge a 0, segue que


|`(yk0 ) − `(y 0 )| ≤ k`kkyk0 − y 0 kB → 0 .

Vimos acima, porém, `(yn ) converge a `(y). Como yk0 é uma sub-seqüência de yn , então `(yk0 ) deve
também convergir a `(y). Assim provamos que `(y 0 − y) = 0 para todo ` ∈ A† , o que implica y 0 = y,
uma contradição.

• Propriedades algébricas de operadores compactos

As seguintes proposições revelam propriedades algébricas importantes dos operadores compactos.


Proposição 23.39 Sejam X e Y dois espaços de Banach e sejam A, B : X → Y dois operadores
compactos. Então para todos α, β ∈ o operador αA + βB é igualmente compacto. 2

Prova. Seja xn uma seqüência limitada de vetores em X. Então existe uma sub-seqüência xnj de xn tal
que a seqüência Axnj converge em norma em Y, pois A é compacto. É elementar constatar que isso
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1103/1195

implica que αAxnj também converge em norma em Y. Como a seqüência xnj é (obviamente) limitada,
ela possui uma sub-seqüência xnjk tal que βBxnjk converge em norma em Y. Daı́, é elementar constatar
que (αA + βB)xnjk converge em norma em Y, completando a prova.
A proposição acima mostra que o conjunto de operadores compactos agindo entre dois espaços de
Banach X e Y é um espaço linear. Tem-se também o seguinte.
Proposição 23.40 Sejam X e Y e Z três espaços de Banach e sejam A : Y → Z e B : X → Y dois
operadores limitados. Então se A ou B for compacto (ou ambos o forem) o produto AB : X → Z é
compacto. 2

Prova. Seja xn uma seqüência limitada em X, ou seja, existe M > 0 tal que kxn kX ≤ M para todo
n ∈ . Então Bxn é uma seqüência limitada em Y (pois B é limitado e kBxn kY ≤ kBk kxn kX ≤


kBkM ). Logo, se A for compacto, ABxn possui uma sub-seqüência convergente na norma de Z e,
portanto, o produto AB é compacto. Se por outro lado B for compacto, então Bx n possui uma sub-
seqüência Bxnj convergente. Por ser convergente, Bxnj é uma seqüência de Cauchy em Y, ou seja,
para todo  > 0 podemos encontrar k e l grandes o suficiente tais que kB(xnk − xnl )kY ≤ . Logo,
kAB(xnk − xnl )kZ ≤ kAkkB(xnk − xnl )kY ≤ kAk, provando que ABxnj é uma seqüência de Cauchy
em Z e, portanto, converge, o que novamente estabelece que o produto AB é compacto.

O seguinte corolário é imediato.


Proposição 23.41 Se X é um espaço de Banach o conjunto dos operadores compactos de X em X
forma uma álgebra, que denotaremos por K(X). A álgebra K(X) é uma sub-álgebra da álgebra de todos
os operadores limitados agindo em X, B(X), é um ideal à esquerda e à direita de B(X). 2

A seguinte proposição é igualmente relevante no contexto de espaços de Hilbert.


Proposição 23.42 Se H é um espaço de Hilbert e A : H → H é compacto então A ∗ é igualmente
compacto. 2

Prova. Seja xm uma seqüência limitada de vetores em H, ou seja, existe M > 0 tal que kxn kH ≤ M
para todo n ∈ . Tem-se que


kA∗ (xn − xm )k2H = hA∗ (xn − xm ), A∗ (xn − xm )iH = h(xn − xm ), AA∗ (xn − xm )iH
Cauchy-Schwarz
≤ kxn − xm kH kAA∗ (xn − xm )kH ≤ 2M kAA∗ (xn − xm )kH ,

pois k(xn − xm )kH ≤ kxn kH + kxm kH ≤ 2M . Como A é compacto, AA∗ também o é (Proposição
23.40, acima). Logo AA∗ xn possui uma sub-seqüência AA∗ xnj convergente em norma, que, portanto,
é de Cauchy. Assim, para qualquer  > 0 podemos encontrar k e l grandes o suficiente tais que
kAA∗ (xnk − xnl )kH ≤ . Logo, kA∗ (xnk − xnl )k2H ≤ 2M , provando que A∗ xnj é uma seqüência de
Cauchy e, portanto, converge.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1104/1195

• Limite em norma de operadores compactos

A seguinte proposição revela uma propriedade topológica importante dos operadores compactos.
Proposição 23.43 Sejam X e Y dois espaços de Banach e seja Cn : X → Y, n ∈ uma seqüência de 

operadores compactos. Vamos supor que Cn converge na norma de B(X, Y) a um operador limitado
C ∈ B(X, Y), ou seja, kC − Cn kB(X, Y) → 0 quando n → ∞. Então C é compacto. Isso revela que o
conjunto dos operadores compactos é fechado na topologia uniforme de B(X, Y). 2

Prova. Seja x0n ∈ X uma seqüência limitada de vetores qualquer. Que x0n ∈ X é limitada significa que
existe M > 0 tal que kx0n kX ≤ M para todo n ∈ . Então,


kC(x0n − x0m )kY = k(C − Ck )(x0n − x0m ) + Ck (x0n − x0m )kY

≤ k(C − Ck )(x0n − x0m )kY + kCk (x0n − x0m )kY

≤ kC − Ck k kx0n − x0m kX + kCk (x0n − x0m )kY . (23.91)

Seja n , n ∈ , uma seqüência de números positivos que converge a zero e tal que b < a se b > a


(sem perda de generalidade, podemos tomar n = 1/n, n ≥ 1). Como por hipótese kC − Cn kB(X, Y) → 0
quando n → ∞ podemos escolher k1 grande o suficiente de forma que kC − Ck1 k < 1 . Fixemos um tal
k1 . Como kx0n kX ≤ M para todo n ∈ , vale também que kx0n − x0m kX ≤ kx0n kX + kx0m kX ≤ 2M . Logo,


por (23.91),
kC(x0n − x0m )kY ≤ 2M 1 + kCk1 (x0n − x0m )kY .
Como Ck é compacto, existe uma sub-seqüência x1j = x0nj , j ∈ , da seqüência x0n tal que Ck1 x1j converge


em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe N1 ≡ N (1 ) ∈ 

tal que, se l ≥ N1 e m ≥ N1 , então kCk1 (x1l − x1m )kY ≤ 1 . Disso concluı́mos que

kC(x1l − x1m )kY ≤ (2M + 1)1 ,

para todos l ≥ N1 e m ≥ N1 .
Notemos que a seqüência x1n é fixada por 1 . Podemos, porém, proceder indutivamente construindo
uma sub-seqüência x2n da seqüência x1n e assim sucessivamente da seguinte forma. Para o elemento a
da seqüência dos ’s, tomamos ka tal que Cka satisfaz kC − Cka k < a . Por uma aplicação da mesma
desigualdade que conduziu a (23.91), concluı́mos que

kC(xna−1 − xm
a−1
)kY ≤ 2M a + kCka (xna−1 − xa−1
m )kY .

Como Cka é compacto, existe uma sub-seqüência xaj = xna−1


j
, j ∈ , da seqüência xna−1 tal que Cka xaj


converge em norma para j → ∞ e, portanto, é uma seqüência de Cauchy em Y, Assim, existe N a ≡


N (a ) ∈ tal que, se l ≥ Na e m ≥ Na , então kCka (xal − xam )kY ≤ a . Disso concluı́mos que


kC(xal − xam )kY ≤ (2M + 1)a , (23.92)

para todos l ≥ Na e m ≥ Na .
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1105/1195

Daqui por diante escolheremos a seqüência de inteiros Na , a ∈ como sendo uma seqüência


crescente, ou seja, tomamos Nb > Na caso b > a (ou seja b < a ). Uma tal escolha é sempre possı́vel
(por que?).
Para cada a ≥ 1 a sub-seqüência xan , n ∈ , é uma sub-seqüência de xna−1 , n ∈ , e todas são
 

sub-seqüências de x0n , n ∈ . Definamos agora a seqüência ua := xaNa , a ∈ , também sub-seqüência


 

de x0n , n ∈ . Tomemos b > a. Como xbn , n ∈ , é uma sub-seqüência de xan , n ∈ , teremos que
  

ub = xbNb = xal para algum l ≥ Nb > Na (justifique por que l ≥ Nb lembrando que xbn , n ∈ , é uma 

sub-seqüência de xan , n ∈ ). Assim, com o uso de (23.92), obtemos




kC(ub − ua )kY = kC(xal − xaNa )kY ≤ (2M + 1)a ,

pois l > Na . Agora, como a → 0 para a → ∞, existe para cada  > 0 um a tal que (2M + 1)a < .
Para tal a valerá kC(ub − ua )kY <  para qualquer b > a. Isso está nos dizendo que a seqüência
Cun , n ∈ , é é uma seqüência de Cauchy em Y e, portanto, converge em norma, pois Y é um espaço


de Banach. Como un , n ∈ , é uma sub-seqüência de uma seqüência limitada arbitrária x0n , n ∈ ,


 

isso provou que C é compacto.

Um importante corolário imediato é o seguinte:


Corolário 23.13 O conjunto de todos os operadores compactos agindo em um espaço de Hilbert H
forma uma álgebra C∗ (sem unidade, se H não for de dimensão finita!) em relação à norma de B(H),
a involução sendo dada pela adjunção A → A∗ . 2

Prova. Que o conjunto de todos os operadores compactos agindo em um espaço de Hilbert H forma
uma álgebra com involução dada pela adjunção A → A∗ foi provado nas Proposições 23.39-23.42,
acima. A Proposição 23.43 estabeleceu que o conjunto de todos os operadores compactos agindo em
um espaço de Hilbert H é um sub-espaço linear fechado de B(H) e portanto, é completo. As demais
propriedades, como a propriedade C∗ , são conseqüência do Teorema 23.11, página 1042, já que os
operadores compactos agindo em H são elementos de B(H). O operador unidade não é compacto,
pois nem toda seqüência limitada tem uma sub-seqüência convergente em norma, exceto se H possuir
dimensão finita.

No caso de espaços de Hilbert separáveis é possı́vel provar um resultado mais especı́fico.

• Operadores Compactos em Espaços de Hilbert Separáveis

Vamos agora nos especializar em operadores compactos agindo em espaços de Hilbert separáveis.
Veremos que o Teorema 23.26, página 1101 tem uma importante conseqüência nesse caso que aponta
na direção de uma generalização do Teorema Espectral para operadores compactos (agindo em espaços
de Hilbert separáveis).
Teorema 23.27 Seja H um espaço de Hilbert separável e seja C : H → H compacto. Seja {ψ n , n ∈
} uma base ortonormal completa em H. Então,

C = lim CN ,
N →∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1106/1195

o limite se dando na topologia uniforme de B(H) (a da norma operatorial), onde, para N ∈  , N ≥ 1,


definimos os operadores
N
X
CN ψ := hψk , ψiH Cψk
k=1

para todo ψ ∈ H. 2

Prova. Defina-se, para n ∈  , n ≥ 1,

µn := sup kCφkH ,
φ∈Pn⊥ , kφkH =1

onde Pn := [ψ1 , . . . , ψn ] é o sub-espaço de dimensão finita gerado pelos vetores ψ1 , . . . , ψn . É


evidente pela definição que µn é monotonamente decrescente. Como µn ≥ 0 para todo n, a seqüência
não-crescente µn deve convergir a um µ ≥ 0.
Vamos provar que, em verdade, µ = 0. Comecemos observando que em cada conjunto Ξ n := {φ ∈
Pn⊥ , kφkH = 1} sempre podemos encontrar pelo menos um vetor ξ tal kCξk ≥ µ/2. Se assim não fosse,
terı́amos kCξk < µ/2 para todo ξ ∈ Ξn , o que é absurdo, pois isso implica que µn < µ/2 mas µn é uma
seqüência decrescente convergindo a µ.
Escolhamos então para cada n um vetor ξn com kCξn k ≥ µ/2. Como kξn kH = 1 e ξn ∈ Pn⊥ e como
{ψn , n ∈ } é uma base ortonormal completa em H, segue facilmente que


lim hy, ξn iH = 0
n→∞

para todo y ∈ H (justifique!). Pelo Teorema da Representação de Riesz, Teorema 22.8, página 1008, isso
está dizendo-nos que limn→∞ `(ξn ) = 0 para todo funcional linear contı́nuo ` de H. Agora, pelo Teorema
23.26, página 1101, isso implica que Cξn converge a zero em norma. Assim, como µ/2 ≤ kCξn kH para
todo n, segue que µ = 0, como querı́amos mostrar.
A implicação importante desse fato é a seguinte. Para qualquer ψ ∈ H teremos
N
! M
!
X X
Cψ − CN ψ = C ψ − hψn , ψiH ψn = C lim hψn , ψiH ψn = CP⊥
nψ ,
M →∞
n=1 n=N +1

onde P⊥ ⊥
n é o projetor ortogonal sobre Pn . Logo,

kC − CN k = sup CPn ψ = sup kCψkH = µn ,
H
ψ∈H, kψkH =1 ψ∈Pn⊥ , kψkH =1

de onde concluı́mos que


lim kC − CN k = lim µn = µ = 0 .
N →∞ N →∞

Isso completa a demonstração.

No teorema acima é interessante observar que os operadores CN são de posto finito e, portanto,
compactos. Concluı́mos, assim, que todo operador compacto agindo em um espaço de Hilbert separável
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1107/1195

H pode ser aproximado na norma de B(H) por operadores de posto finito. Comentamos, porém, que
a restrição a espaços de Hilbert separáveis pode ser eliminada. Isso será provado no Teorema 23.31,
página 1119. Uma questão que permaneceu em aberto por muito tempo foi saber se essa propriedade
se estenderia a operadores compactos agindo em espaços de Banach. Essa questão foi respondida
negativamente por P. Enflo28 em 197329 , o qual exibiu um exemplo de um operador compacto em um
espaço de Banach que não se deixa aproximar em norma por operadores de posto finito.

• Um exemplo de operador compacto a se ter em mente

Seja λn , n ∈ , uma seqüência de números complexos que converge a zero, ou seja, lim n→∞ |λn | = 0.


Sejam também φn , n ∈ , e ψn , n ∈ , dois conjuntos ortonormais de vetores em um espaço de


 

Hilbert H, que suporemos ser de dimensão infinita, mas não necessariamente separável. Temos, então,
hφn , φm iH = δn, m e hψn , ψm iH = δn, m para todos m e n ∈ . 

Pretendemos provar que a seqüência de operadores de posto finito definidos para cada N ∈  por
N
X
QN ψ := λn hφn , ψiH ψn , ∀ψ∈H,
n=1

é uma seqüência de Cauchy na norma de B(H). De fato, se ψ ∈ H, tem-se, para M < N ,


2
XN

k(QN − QM )ψk2 = λn hφn , ψiH ψn

n=M +1

* N N
+
X X
= λn hφn , ψiH ψn , λn hφn , ψiH ψn
n=M +1 n=M +1 H

N
X N
X
= λn0 λn hφn0 , ψiH hφn , ψiH hψn0 , ψn iH
| {z }
n0 =M +1 n=M +1 = δn, n0

N
X
= |λn |2 |hφn , ψiH |2
n=M +1

  X
N
≤ max |λm | 2
|hφn , ψiH |2
m∈{M +1, ..., N }
n=M +1

des. de Bessel (22.16)  


2
≤ max |λm | kψk2 .
m∈{M +1, ..., N }

Logo,
kQN − QM k2 ≤ max |λm |2 .
m∈{M +1, ..., N }

28
Per Enflo (1944-).
29
P. Enflo, “A counterexample to the approximation property in Banach spaces”, Acta Math. 130, 309-317 (1973).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1108/1195

Agora, como por hipótese, |λn | → 0 para n → ∞, segue que max |λm |2 pode ser feito menor que
m∈{M +1, ..., N }
qualquer  > 0 dado, desde que M (e, portanto, N , pois M < N ) seja grande o suficiente. Isso provou
que QN , N ∈ , é uma seqüência de Cauchy na norma operatorial de B(H). Como B(H) é um espaço


de Banach, concluı́mos que QN converge quando N → ∞ para um operador Q ∈ B(H). Como Q é


o limite em norma de uma seqüência de operadores compactos (os operadores Q N são compactos por
serem de posto finito), concluı́mos pela Proposição 23.43, página 1104, que Q é igualmente compacto.
Escrevemos,
X∞
Q := λn hφn , · iH ψn . (23.93)
n=1

Antes de mudarmos de assunto, façamos um breve comentário sobre a expressão (23.93) que elu-
cidará um ponto que virá mais adiante. Como todo numero complexo, os λn têm a forma polar
λn = |λn |eiαn , onde αn ∈ . Na expressão (23.93) as fases eiαn podem ser absorvidas nos vetores


ψn , sem que os mesmos deixem de formar um conjunto ortonormal. Assim, genericamente, operadores
compactos como (23.93) podem ser escritos como

X
Q = µn hφn , · iH ψn . (23.94)
n=1

onde µn , n ∈ , é uma seqüência de números reais não-negativos que converge a zero e φ n , n ∈


  ,e
ψn , n ∈ , são conjuntos ortonormais de vetores do espaço de Hilbert H.


Veremos mais adiante que esse exemplo não é gratuito: em verdade, todo operador compacto agindo
em um espaço de Hilbert H pode ser representado na forma (23.94) para alguma uma seqüência µ n ,
n ∈ , de números reais não-negativos que converge a zero, e para certos φ n , n ∈ , e ψn , n ∈ ,
  

conjuntos ortonormais de vetores de H. Vide Teorema 23.31, página 1119.


O leitor deve cuidadosamente comparar as afirmações feitas acima com as do Teorema 23.27.

• A raiz quadrada de um operador compacto, auto-adjunto e positivo

Se C é um operador não-nulo, compacto e positivo agindo em um espaço de Hilbert H, vimos em


(23.51)-(23.53), página 1080, que
N N   !
√ X X n
C = lim (−1)p cn kCk1/2−p C p , (23.95)
N →∞
p=1 n=p
p

sendo os cn ’s definidos em (23.46). O lado direito é o limite em norma de um polinômio em C com


coeficientes reais e que não contem nenhum termo proporcional à unidade . Como C é compacto e
um tal
√ polinômio em C é igualmente compacto (Proposição 23.41), concluı́mos pela Proposição 23.43,
que
√ C é também compacto. Como discutido no Lema da Raiz Quadrada, Lema 23.21, página 1077,
C é também auto-adjunto e positivo.
Se A é um operador compacto (não necessariamente auto-adjunto), então A ∗ A é compacto (pela
Proposição 23.40, página 1103), auto-adjunto (pois (A∗ A) ∗ ∗ ∗
√ = A A) e positivo (pois hx, A Axi =

hAx, Axi = kAxk ≥ 0 para todo x ∈ H). Logo, |A| := A A é compacto, auto-adjunto e positivo.
Para futura referência, coletamos os resultados discutidos acima na seguinte proposição.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1109/1195

Proposição 23.44√ Se C é um operador compacto, auto-adjunto e positivo agindo em um espaço de


Hilbert
√ H, então C é igualmente compacto e auto-adjunto e positivo. Se A é compacto, então |A| :=

A A é compacto, auto-adjunto e positivo. 2

• O operador integral de Fredholm

Seja o intervalo compacto [a, b] ⊂ e seja k : [a, b] × [a, b] → uma função fixada contı́nua de
 

duas variáveis. Para f ∈ C([a, b]), uma função contı́nua (real ou complexa) definida em [a, b], seja
Z b
(Kf )(x) := k(x, y)f (y) dy .
a

É bastante claro que K é um operador linear mapeando funções contı́nuas em [a, b] em funções
contı́nuas em [a, b], ou seja, K : C([a, b]) → C([a, b]). Isso pois k foi suposta ser contı́nua nas
duas variáveis. O espaço vetorial C([a, b]) é um é um espaço de Banach com a norma no supremo:
kf k∞ := supx∈[a, b] |f (x)|. Não é difı́cil de se ver que K é limitado nessa norma, pois |(Kf )(x)| ≤
Z b  Z b 
0
|k(x, y)|dy sup ||f (y )| = |k(x, y)|dy kf k∞ e, portanto kKf k∞ ≤ M kf k∞ , onde M =
a y 0 ∈[a, b] a
(b − a) supx, y∈[a, b] |k(x, y)| < ∞, devido à continuidade de k.
O operador K é denominado operador integral de Fredholm30 , ou simplesmente operador de Fredholm
e surge no problema de Sturm-Liouville, como discutido no Capı́tulo 9, página 521. Um fato muito
relevante para o problema de Sturm-Liouville é que K é um operador compacto, enquanto operador
agindo em C([a, b]). As conseqüências desse para o problema de Sturm-Liouville foram discutidas
no Capı́tulo 9 e seguem de outros resultados gerais sobre operadores compactos que discutiremos nas
próximas seções.
Mostraremos que K é compacto usando dois tipos de argumento, ambos instrutivos, o primeiro
sendo mais elementar.
n
I. Se pn (x, y) := Σ pn, k, l xk y l é um polinômio de grau n nas variáveis x e y, então Pn : C([a, b]) →
k, l=0
C([a, b]) definido por
Z n n Z !
b X X b
(Pn f )(x) := pn (x, y) f (y) dy = pn, k, l y l f (y) dy xk
a k=0 l=0 a

é claramente um operador de posto finito (os monômios xk são elementos de C([a, b])) e, portanto,
é compacto. Se k(x, y) é contı́nua no retângulo compacto [a, b] × [a, b] então, pelo Teorema de
Weierstrass, k pode ser uniformemente aproximada por polinômios em x e y. É fácil ver daı́ (exercı́cio!)
que isso implica que K é aproximada na norma de B(C([a, b])) por operadores de posto finito como P n
acima. Assim, pela Proposição 23.43, página 1104, K é compacto como operador agindo em C([a, b]).
II. Para um certo N > 0, seja BN ⊂ C([a, b]) a bola de raio N centrada em 0: BN := {f ∈
C([a, b]), kf k∞ < N}. Se f é uma função qualquer de BN , teremos que (Kf )(x) − (Kf )(x0 ) =
30
Erik Ivar Fredholm (1866-1927).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1110/1195

Rb 0 0
Rb
a
(k(x, y) − k(x , y))f (y)dy. Logo, |(Kf )(x) − (Kf )(x )| ≤ kf k ∞ a
|k(x, y) − k(x0 , y)|dy ≤ N(b −
a) supy∈[a, b] |k(x, y) − k(x , y)|. Como k é contı́nua, podemos para todo 0 > 0 encontrar δ 0 > 0 tal
0

que |k(x, y) − k(x0 , y)| < 0 sempre que |x − x0 | < δ 0 . Esse δ 0 (0 ) depende apenas de 0 , pois pode ser
escolhido independente de x, x0 e y, já que k é contı́nua em um compacto.
 Assim, concluı́mos que para

0
todo  > 0 podemos encontrar δ() > 0, a saber, δ() = δ (b−a)N tal que |(Kf )(x) − (Kf )(x0 )| < 
sempre que |x − x0 | < δ(). O fato de δ não depender de x nem de x0 nem de f significa que o
conjunto de funções {Kf, f ∈ BN } é o que se denomina ser um conjunto eqüicontı́nuo de funções.
Por um teorema clássico de Análise conhecido como Teorema de Ascoli (ou de Ascoli-Arzela), sabe-
se que toda seqüência de funções eqüicontı́nuas possui pelo menos uma sub-seqüência convergente na
norma do supremo. Assim, se fn é uma seqüência de funções em BN , a seqüência Kfn tem pelo menos
sub-seqüência convergente na norma do supremo. Ora, isso precisamente afirma que K é compacto.

• O operador integral de Volterra

Um outro operador importante em equações diferenciais e integrais é o chamado operador integral


de Volterra31 , ou simplesmente operador de Volterra:
Z x
(V f )(x) := k(x, y)f (y) dy ,
a

definido para f contı́nua no intervalo [a, b] onde, como no caso do operador de Fredholm, k é uma
função fixa contı́nua no retângulo [a, b] × [a, b]. É fácil ver que V é um operador linear mapeando
C([a, b]) em si mesmo. Podemos escrever
Z b
(V f )(x) = v(x, y)f (y) dy ,
a

com v(x, y) = k(x, y)χ[a, x] (y), onde



1, se y ∈ [a, x]
χ[a, x] (y) := .
0, se y ∈
6 [a, x]

Como v é limitada no retângulo [a, b] × [a, b], é fácil mostrar, repetindo o que fizemos para o operador
de Fredholm, que V é um operador limitado agindo em C([a, b]). Porém, como v não é contı́nua (pois
χ[a, x] não o é), não podemos repetir os argumentos que conduziram-nos à conclusão que o operador de
Fredholm é compacto. No entanto, os operadores de Volterra são compactos, como mostra o seguinte
argumento.
Para n ∈  , consideremos o operador de Fredholm definido por
Z b
(Vn f )(x) = vn (x, y)f (y) dy , onde vn (x, y) := k(x, y) e−n(|x−y|−(x−y)) .
a

Vemos que se a ≤ y ≤ x então vn (x, y) = k(x, y) = v(x, y). Se, porém, x < y ≤ b, teremos
limn→∞ vn (x, y) = 0, que é quanto vale v na mesma região. Assim, vemos ao menos intuitivamente
que Vn → V quando n → ∞. Vamos provar que essa convergência se dá na norma de B(C([a, b])).
31
Vito Volterra (1860-1940).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1111/1195

Como os Vn são compactos (por serem de Fredholm), isso implica que V é compacto pela Proposição
23.43, página 1104. Observemos, então, que para f ∈ C([a, b]), vale

Z b
(V f )(x) − (Vn f )(x) = (v(x, y) − vn (x, y)) f (y) dy
a

Z b Z b
= (v(x, y) − vn (x, y)) f (y) dy = − k(x, y)e−n(|x−y|−(x−y)) f (y) dy .
x x

Logo, ! Z b
|((V − Vn )f )(x)| ≤ sup |k(x, y)| kf k∞ e−n(|x−y|−(x−y)) dy .
x, y∈[a, b] x

Agora,
Z b Z b−x Z b−x
−n(|x−y|−(x−y)) y 0 =y−x −n(|y 0 |+y 0 ) 0 0 1 − e−2n(b−x)
e dy = e dy = e−2ny dy 0 = .
x 0 0 2n
Dessa forma, !
1 − e−2n(b−a)
k(V − Vn )f k∞ ≤ sup |k(x, y)| kf k∞ ,
x, y∈[a, b] 2n
e, portanto, !
1 − e−2n(b−a)
kV − Vn k ≤ sup |k(x, y)| ,
x, y∈[a, b] 2n
provando que lim kV − Vn k = 0. Isso demonstrou que os operadores de Volterra são compactos.
n→∞

Exemplo 23.6 Um caso interessanteR é aquele em que k(x, y) ≡ 1. Denotemos por W o correspondente
x
operador de Volterra: (W f )(x) = a f (y) dy. Vamos provar que esse operador de Volterra não tem
autovalores.
Rx Suponhamos que exista λ ∈ e uma função g ∈ C([a, b]) não-nula tais que W g = λg, ou
seja, a g(y) dy = λg(x). Essa igualdade indica que g é diferenciável e tem-se g(x) = λg 0 (x) para todo
x ∈ [a, b]. Para λ = 0 sairia disso que g(x) = 0 para todo x ∈ [a, b], situação que já descartamos,
−1
Se λ 6= 0 aRequação diferencial g 0 (x) = λ−1 g(x) tem como solução g(x) = g(a)eλ (x−a) . Porém, de
x
g(x) = λ−1 a g(y) dy vemos que g(a) = 0 e novamente terı́amos g(x) = 0 para todo x ∈ [a, b].
Rx
Assim, o operador (W f )(x) = a f (y) dy agindo em C([a, b]) é um exemplo de operador compacto
que não possui autovalores. Como todo operador agindo em um espaço de Banach, W tem um espectro
não-vazio mas, como vimos, seu espectro pontual é vazio. Vamos agora provar que σ(W ) = {0}. Para
R x f diferenciável e seja g ∈ Ran (λ − W )) tal que (λ − W )f = g, ou seja, g(x) =
λ 6= 0, seja
λf (x) − a f (y)dy, o que implica g(a) = λf (a). Como f é diferenciável, g também o é e tem-se
g 0 = λf − f . A solução dessa equação diferencial para f com a condição f (a) = g(a)/λ é
Z
1 1 x x −y
f (x) = g(x) + 2 e λ e λ g(y) dy , (23.96)
λ λ a

como facilmente se mostra. Definindo o operador de multiplicação Eλ : C([a, b]) → C([a, b]) por
x
(Eλ h)(x) := e− λ h(x) a expressão (23.96) está dizendo-nos que para λ =
6 0, o operador (λ − W ) −1 ,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1112/1195

restrito ao espaço C 1 ([a, b]) das funções contı́nuas e diferenciáveis (como a função g acima), é dado
por
1 1
(λ − W )−1 C 1 ([a, b]) = + 2 Eλ−1 W Eλ .
λ λ
O operador à direita é limitado e C ([a, b]) é denso em C([a, b]). Logo, (λ − W )−1 existe em toda
1

parte, valendo, portanto, para o operador resolvente Rλ (W ) a expressão


1 1
Rλ (W ) = + 2 Eλ−1 W Eλ , ∀λ 6= 0 ,
λ λ
provando que se λ 6= 0 então λ é um elemento do conjunto resolvente de W : λ ∈ ρ(W ). Isso estabeleceu
que ρ(W ) = \ {0} e que σ(W ) = {0}.
No caso λ = 0 a imagem de λ − W = −W é o conjunto C 1 ([a, b]), que é denso em C([a, b]).
Logo, {0} pertence ao espectro contı́nuo σc (W ) e não ao espectro residual σr (W ), que deve ser vazio.
Resumindo,

σ(W ) = {0}, σp (W ) = ∅, σc (W ) = {0} e σr (W ) = ∅ . (23.97)

Notemos, por fim que |(W f )(x)| ≤ kf k∞ (x − a) e, portanto kW k ≤ b − a. Para a função constante
igual a 1, vale (W 1)(x) = x − a. Logo kW 1k∞ = b − a e como k1k∞ = 1, segue que kW k ≥ b − a,
provando que kW k = b − a. Concluı́mos que W tem um raio espectral nulo (por (23.97)), mas uma
norma não-nula. ◊

Notemos, por fim, que tanto os operadores de Fredholm quando os de Volterra são limitados e
definidos em C([a, b]), que é um conjunto denso em espaços de Hilbert do tipo L2 ([a, b], r(x)dx) com
r positiva e contı́nua. Assim, pelo Teorema BLT, Teorema 23.1, página 1017, esses operadores podem
ser estendidos a operadores compactos agindo nesses espaços de Hilbert.

23.6.1 O Teorema Espectral para Operadores Compactos Auto-adjuntos


Vamos na presente seção demonstrar a versão do Teorema Espectral para operadores compactos auto-
adjuntos, generalizando em parte o teorema espectral provado para matrizes na Seção 3.4, página
159.
Faremos implicitamente uso, em tudo o que segue, da Proposição 23.7, página 1046, que estabelece
que os autovalores de um operador auto-adjunto são reais e que para tais operadores os autovetores de
autovalores distintos são ortogonais entre si.

• Autovalores de Operadores Compactos Auto-adjuntos

O teorema a seguir tem um papel central a desempenhar na demonstração do teorema espectral


para operadores compactos auto-adjuntos, por garantir que os mesmos sempre possuem pelo menos
um autovalor.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1113/1195

Teorema 23.28 Seja C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H e


denotemos por σp (C) o conjunto de todos os autovalores de C.

I. Então, σp (C) 6= ∅ pois ou kCk ∈ σp (C) ou −kCk ∈ σp (C) (ou ambos), ou seja, ou kCk ou −kCk
(ou ambos) são autovalores de C.

II. Além disso, tem-se,


h i
1. σp (C) ⊂ − kCk, kCk .
2. Cada autovalor de C, exceto eventualmente um autovalor nulo (se houver), tem degene-
rescência finita.
3. σp (C) é um conjunto infinito, exceto se C for de posto finito.
4. Se C não for de posto finito, 0 será o único ponto de acumulação de σ p (C).
5. Se C não for de posto finito, σp (C) é enumerável. 2

Enfatizamos que o espaço de Hilbert H, no enunciado acima, não é necessariamente separável. Um


outro comentário concerne o caso de operadores compactos não-auto-adjuntos. Se C é um operador
compacto não-auto-adjunto, pode-se provar que o conjunto de seus autovalores não-nulos é também
enumerável e se acumula no máximo em zero, mas pode ser vazio, o que não ocorre no caso de operadores
compactos auto-adjuntos (parte I do enunciado acima). Um exemplo é operador de Volterra W , tratado
tratado no Exemplo 23.6 à página 1111.

Prova do Teorema 23.28. Suporemos C 6= 0, de outra forma não há o que demonstrar. Provaremos
separadamente as partes I e II.

Prova da parte I. Como C é auto-adjunto, vale kCk = sup |hψ, Cψi| (Teorema 23.12, página 1049).
ψ∈H, kψk=1
Logo, existe uma seqüência ψn , n ∈  , de vetores em H com kψn k = 1 tal que kCk = lim |hψn , Cψn i|
n→∞

(justifique!). Como C = C , hψn , Cψn i é um número real. Dessa forma, como o módulo de hψn , Cψn i
converge a kCk, hψn , Cψn i deve ter uma sub-seqüência que converge a kCk ou uma sub-seqüência
que converge a −kCk (ou ambas). Para evitar sobrecarregar a notação, também denotaremos essa
sub-seqüência por hψn , Cψn i, a qual convergirá para c = ±kCk, conforme o caso. Agora, usando o
fato que c é real, que c2 = kCk2 e que C = C ∗ , teremos

kCψn − cψn k2 = hCψn − cψn , Cψn − cψn i = kCψn k2 + c2 kψn k2 −2chψn , Cψn i
| {z }
=1

≤ kCk2 kψn k2 +c2 − 2chψn , Cψn i = 2c (c − hψn , Cψn i) .


| {z } | {z }
=c2 =1

Como lim hψn , Cψn i = c, concluı́mos que


n→∞

lim (Cψn − cψn ) = 0 . (23.98)


n→∞
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1114/1195

Como ψn é uma seqüência limitada e C é compacto, a seqüência Cψn possui uma sub-seqüência Cψnj
convergente, ou seja, existe ψ ∈ H tal que lim Cψnj = ψ. A expressão (23.98) está então dizendo-nos
n→∞
que
ψ = lim Cψnj = c lim ψnj . (23.99)
n→∞ n→∞

Assim,
(23.99)
    (23.99)
C é linear C é contı́nuo
Cψ = C c lim ψnj = cC lim ψnj = c lim Cψnj = cψ .
n→∞ n→∞ n→∞

Assim, se ψ 6= 0, ψ é um autovetor de C com autovalor c = +kCk ou c = −kCk. Agora, ver que ψ 6= 0


é fácil, pois, por (23.99)


kψk = c lim ψnj = |c| lim kψnj k = |c| = kCk 6= 0 .
n→∞ n→∞ | {z }
=1

Isso completa a prova da parte I.

Prova da parte II.


II.1. Se λ é um autovalor de C existe um autovetor (não-nulo) φ ∈ H de C: Cφ = λφ. Podemos
escolher φ de modo que kφk = 1. Isso implicah |λ| = kλφk i= kCφk ≤ kCk kφk = kCk. Logo, como
λ ∈ (pois C é auto-adjunto), segue que λ ∈ − kCk, kCk .


II.2. Vamos supor que λ seja um autovalor de C e que seja infinitamente degenerado32 . Isso significa
que o sub-espaço Mλ gerado pelos autovetores de C com autovalor λ tem dimensão infinita. Podemos
escolher em Mλ um conjunto ortonormal de vetores φn , n ∈ . Como hφn , φm i = δn, m , segue que para


m 6= n, kφn − φm k2 = h(φn − φm ), (φn − φm )i = 2. Logo, também para m 6= n,

kCφn − Cφm k2 = kλφn − λφm k2 = |λ|2 kφn − φm k2 = 2|λ|2 .

Assim, se λ 6= 0, vemos que Cφn , n ∈ não é uma seqüência de Cauchy, assim como nenhuma de


suas sub-seqüências. Isso contraria a hipótese que C é compacto. Essa contradição leva-nos a excluir
a possibilidade de λ ser infinitamente degenerado, exceto se λ = 0.
II.3. Vamos supor que σp (C) seja um conjunto finito. Pelo item II.2 o sub-espaço gerado por todos os
autovetores de C com autovalor não-nulo é de dimensão finita e, portanto, é fechado. Vamos denotá-lo
por M. É bastante claro que M é um sub-espaço invariante por C (justifique!). Assim, pelo Corolário
23.2, página 1047, M⊥ é igualmente um sub-espaço fechado que é invariante por C.
Vamos denotar por P o projetor ortogonal sobre M e por P ⊥ = − P o projetor ortogonal sobre
M⊥ . Tem-se para todo ξ ∈ H

CP ⊥ ξ = CP ⊥ ξ = (P + P ⊥ )CP ⊥ ξ = P CP ⊥ ξ + P ⊥ CP ⊥ ξ = P ⊥ CP ⊥ ξ ,

pois P CP ⊥ ξ = 0, já que CP ⊥ ξ ∈ M⊥ , pois P ⊥ ξ ∈ M⊥ e M⊥ é invariante por C. Isso significa que

P ⊥ CP ⊥ = CP ⊥ . (23.100)
32
Aqui supomos implicitamente que H não tem dimensão finita, senão não haveria o que demonstrar
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1115/1195

Como C e P ⊥ são auto-adjuntos, também obtem-se da última igualdade que

P ⊥ C = (CP ⊥ )∗ = (P ⊥ CP ⊥ )∗ = P ⊥ CP ⊥ = CP ⊥ ,

mas não usaremos isso.


Observemos agora que P ⊥ CP ⊥ é compacto (pela Proposição 23.40, página 1103) e auto-adjunto.
Assim, pela parte I, existe ϕ ∈ H, ϕ 6= 0, tal que P ⊥ CP ⊥ ϕ = ±kP ⊥ CP ⊥ kϕ. Essa igualdade diz-nos
que ϕ ∈ M⊥ , pois P ⊥ (CP ⊥ ϕ) ∈ M⊥ , devido ao fator P ⊥ à esquerda. Se assim é, então P ⊥ ϕ = ϕ e,
portanto, P ⊥ CP ⊥ ϕ = P ⊥ Cϕ = Cϕ, a última igualdade seguindo do fato que C mantem M⊥ invariante.
Estabelecemos, assim, que Cϕ = ±kP ⊥ CP ⊥ kϕ.
Agora, se kP ⊥ CP ⊥ k 6= 0, então ϕ seria um autovetor de C com autovalor não-nulo, o que significa
que ϕ ∈ M, pela definição de M. Ora, se ϕ 6= 0, isso não é possı́vel, pois o único vetor que M e M ⊥
têm em comum é o vetor nulo. Concluı́mos daı́ que kP ⊥ CP ⊥ k = 0, ou seja, P ⊥ CP ⊥ = 0. Logo, por
(23.100), CP ⊥ = 0. Isso, por sua vez, diz-nos que para todo ψ ∈ M⊥ vale Cψ = CP ⊥ ψ = 0.
Assim, concluı́mos que C aniquila todo o sub-espaço M⊥ , ou seja, que M⊥ é constituı́do por au-
tovetores de C com autovalor zero. Pelo Teorema da Decomposição Ortogonal, Teorema 22.2, página
991, todo vetor ψ ∈ H pode ser escrito na forma ψ = ψM + ψM⊥ , com ψM ∈ M e ψM⊥ ∈ M⊥ . Logo,
Cψ = CψM ∈ M, pois M é invariante por C. Como M é de dimensão finita, o fato que Cψ ∈ M para
todo ψ ∈ H está precisamente dizendo-nos que C é de posto finito.
É também fácil de se ver que se C é de posto finito então C tem um conjunto finito de autovalores.
Isso completa o que querı́amos provar.
II.4. Se C não é de posto finito, vimos no item II.3 que σp (C) não é um conjunto finito. Como, pelo
h i
item II.1, σp (C) está contido no intervalo fechado e limitado (ou seja, compacto) − kCk, kCk , σp (C)
deve possuir pelo menos um ponto de acumulação (Teorema de Bolzano-Weierstrass). Seja x 0 um
desses pontos de acumulação de σp (C) e vamos supor que x0 6= 0. Como x0 é um ponto de acumulação
de σp (C), temos em cada intervalo aberto (x0 − , x0 + ), com  > 0, infinitos autovalores de C.
Tomemos  pequeno o suficiente de modo que 0 6∈ (x0 − , x0 + ), ou seja, tomemos  > 0 mas tal que
|x0 | > . Tomemos também uma coleção contável λn , n ∈ , de autovalores distintos de C contidos no


intervalo (x0 − , x0 + ). É claro que |λn | > |x0 | −  para todo n. Seja, para cada n ∈ , um autovetor


φn de C com autovalor λn e com kφn k = 1. Como os autovalores são distintos, vale hφn , φm i = δn, m .
Assim, para n 6= m,

kCφn −Cφm k2 = kλn φn −λm φm k2 = h(λn φn −λm φm ), (λn φn −λm φm )i = |λn |2 +|λm |2 > 2(|x0 |−)2 .

Como 2(|x0 | − )2 não depende de m e n, isso está dizendo-nos que Cφn , n ∈ , não é uma seqüência


de Cauchy, assim como nenhuma de suas sub-seqüências. Isso contraria o fato de C ser compacto.
Logo, x0 6= 0 não pode ser ponto de acumulação de autovalores de C. Como pelo menos um ponto de
acumulação deve existir, esse deve ser o ponto x0 = 0.
h i
II.5. Tomemos em − kCk, kCk um intervalo fechado [a, b] que não contem 0. Se [a, b] contivesse
infinitos autovalores de C, então haveria em [a, b] um ponto de acumulação de tais autovalores, o
que já vimos ser impossı́vel. Assim [a, b] ∩ σp (C) é um conjunto finito. Portanto, conjuntos como
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1116/1195

h i h i
−kCk, − kCk
n
∩ σ p (C) e kCk
n
, kCk ∩ σp (C) são finitos para todo n ≥ 1, n ∈  . Como
[∞    
kCk kCk
σp (C) \ {0} = −kCk, − ∪ , kCk ∩ σp (C) ,
n=1
n n
concluı́mos que o lado direito é uma união contável de conjuntos contáveis (finitos). Logo, σ p (C) \ {0}
é contável e, portanto, σp (C) é contável.
Isso completa a prova da parte II.

Estamos agora prontos para abordar o Teorema Espectral para operadores compactos e auto-
adjuntos.

• O Teorema Espectral para operadores compactos auto-adjuntos

Para o enunciar o Teorema Espectral para operadores compactos auto-adjuntos e para simplificar
sua demonstração precisamos acertar algumas convenções.
Se C é um operador compacto e auto-adjunto agindo em um espaço de Hilbert H, vimos no Teorema
23.28 que o conjunto de seus autovalores é contável (e até mesmo finito, caso C seja de posto finito)
e cada autovalor não-nulo é finitamente degenerado. Vamos denotar por λn , n ∈ , o conjunto dos 

autovalores não-nulos, convencionando que se um autovalor λ tem multiplicidade k então ele aparece
k, vezes seguidas na contagem, de forma que tenhamos, digamos, λm = · · · = λm+k−1 = λ. Com
isso, a seqüência λn , n ∈ , contem cada autovalor repetido o número de vezes correspondente à


sua multiplicidade. Podemos convencionar também que os autovalores são ordenados de tal forma
que |λk | ≤ |λl | para todo k ≥ l, ou seja, de forma que a seqüência |λn |, n ∈ seja não-crescente. 

Sabemos que autovetores correspondentes a autovalores distintos são ortogonais entre si. O sub-espaço
Mλ gerado pelos autovetores de autovalor λ tem dimensão k, a multiplicidade de λ. Com isso, podemos
encontrar em Mλ um conjunto ortonormal de k autovetores φm , . . . , φm+k−1 . Constituı́mos dessa forma
um conjunto ortonormal φn , n ∈ , de autovetores de C, cada qual com autovalor λn : Cφn = λn φn ,


para todo n ∈ . Vamos denotar por Pn o projetor ortogonal relativo a cada autovetor φn : para todo


ψ ∈ H vale Pn ψ := hφn , ψi φn .
Caso C seja de posto finito, então as seqüências λn , n ∈  , φn , n ∈  e Pn , n ∈  são, em verdade,
seqüências finitas.
Lembramos também que caso C não seja de posto finito, então 0 é o único ponto de acumulação da
seqüência λn , n ∈ (novamente pelo Teorema 23.28), o que implica limn→∞ λn = 0, fato que usaremos


adiante.
Com essas convenções e com essa notação, temos o seguinte:
Teorema 23.29 (Teorema Espectral para Operadores Compactos Auto-adjuntos) Seja C um
operador compacto e auto-adjunto agindo em um espaço de Hilbert H. Então, a seqüência de opera-
N
X
dores de posto finito λn Pn , N ∈ , converge a C na norma de B(H). Assim, para todo ψ ∈ H


n=1
tem-se ∞ ∞
X X
Cψ = λn P n ψ = λn hφn , ψi φn . (23.101)
n=1 n=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1117/1195

Enfatizamos que o espaço de Hilbert H, no enunciado acima, não é necessariamente separável.


Como Cφn = λn φn , a expressão (23.101) significa também que para todo ψ ∈ H,

X
Cψ = hφn , ψi Cφn .
n=1

Compare-se isso às afirmações do Teorema 23.27, página 1105.

Prova do Teorema 23.29. Seja Pn := [φ1 , . . . , φn ] o sub-espaço de H gerado pelos vetores φ1 , . . . , φn .


Por ser de dimensão finita, Pn é um sub-espaço fechado de H. Para cada N ∈ , N ≥ 1, defina-se 

N
X
KN := C − λn P n .
n=1
P
Caso kKM k = 0 para algum M ∈ , então C = M


n=1 λn Pn e a prova está completa. Caso kKN k 6= 0


para todo N ∈ , procedemos da seguinte forma.


Como os vetores φn formam um conjunto ortonormal, vale Pi φj = hφi , φj iH φi = δi, j φi . Logo, se


1 ≤ l ≤ N , tem-se
N
X
KN φl = Cφl − λn P n φl = λ l φl − λ l φl = 0
n=1

o que significa dizer que KN aniquila o sub-espaço PN .


Os Pj ’s são auto-adjuntos e compactos (por serem de posto finito) e, portanto, cada KN é também
compacto e auto-adjunto. O Teorema 23.28, página 1113, garante, então, que K N possui um autovalor
igual a kKN k ou a −kKN k. Seja ψ um autovetor não-nulo correspondente. Teremos KN ψ = cN ψ onde
cN = kKN k ou cN = −kKN k. Como KN aniquila o sub-espaço PN , essa igualdade e a hipótese que
cN 6= 0 implicam que ψ ∈ (PN )⊥ .
Para ver isso, lembremos que pelo Teorema da Decomposição Ortogonal, Teorema 22.2, página
991, podemos escrever ψ = χ + ξ, onde χ ∈ PN e ξ ∈ (PN )⊥ . Como KN é auto-adjunto e aniquila
todo vetor de PN , vale hχ, KN ψiH = hKN χ, ψiH = 0. Como, KN ψ = cN ψ, isso diz-nos que
0 = cN hχ, ψiH = cN hχ, χiH = cN kχk2 , provando que χ = 0 e que ψ = ξ ∈ (PN )⊥ .
Agora, o fato que ψ ∈ (PN )⊥ implica Pn ψ = 0 para todo 1 ≤ n ≤ N . Logo, KN ψ = Cψ e a
igualdade KN ψ = cN ψ significa Cψ = cN ψ, ou seja, kKN k ou −kKN k é um autovalor de C.
Quando definimos a seqüência λn , n ∈ , convencionamos colocar consecutivamente autovalores


de multiplicidade repetida e ordená-los de modo que |λn |, n ∈ seja uma seqüência não-crescente.


Isso implica que se cN = ±kKN k é um autovalor de C cujo autovetor não pertence a Pn , então temos
|cN | ≤ |λN |, ou seja, kKN k ≤ |λN |. Agora, também pelo Teorema 23.28, limN →∞ |λN | = 0, o que
implica limN →∞ kKN k = 0. Isso é precisamente o que querı́amos provar.

• Base ortonormal completa de autovetores de um operador compacto auto-adjunto


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1118/1195

Seja C um operador compacto e auto-adjunto agindo em um espaço de Hilbert (não necessariamente


separável) H. Seja B1 = {φn | n ∈ }, como acima, um conjunto ortonormal contável de autovetores


de C com autovalores não-nulos. Seja T o fecho do sub-espaço gerado pelos vetores φ n , n ∈ . É fácil


de ver que se ψ ∈ T ⊥ , então ψ ∈ Ker (C). De fato, para todo ψ ∈ T ⊥ vale hφn , ψiH = 0 para todo
n e, por (23.101), isso implica Cψ = 0. Vemos, portanto, que H é uma soma direta dos sub-espaços
fechados T e Ker (C). Como Ker (C) é fechado, é um espaço de Hilbert e, portanto, possui uma base
ortonormal completa (não necessariamente contável) B0 . Todos os vetores dessa base são autovetores
de C com autovalor nulo. O conjunto B0 ∪ B1 será, portanto, uma base ortogonal completa em H,
formada por autovalores (nulos ou não) de C. Concluı́mos então a prova do seguinte teorema:
Teorema 23.30 Seja C um operador compacto e auto-adjunto agindo em um espaço de Hilbert (não
necessariamente separável) H. Então H possui uma base ortonormal completa formada por autovetores
(com autovalores nulos ou não) de C. 2

Esse teorema pode também ser demonstrado sem evocar-se o Teorema espectral. Para tal, considere-
se o sub-espaço fechado A de H formado pela soma direta de T e Ker (C). Ou seja, A é o sub-espaço
fechado gerado por todos os autovetores de C (com autovalores nulos ou não). Como A é mantido
invariante por C, então A⊥ também o é (Corolário 23.2, página 1047). Se P ⊥ é o projetor ortogonal
sobre A⊥ , então o fato de A⊥ ser invariante por C significa CP ⊥ = P ⊥ CP ⊥ . Agora, P ⊥ CP ⊥ é
obviamente compacto e auto-adjunto (Proposição 23.40, página 1103). Vamos supor que kP ⊥ CP ⊥ k 6=
0. Pelo Teorema 23.28, existirá φ ∈ H, φ 6= 0, tal que P ⊥ CP ⊥ φ = cφ, onde c = ±kP ⊥ CP ⊥ k. Essa
expressão implica φ ∈ A⊥ (devido ao fator P ⊥ do lado esquerdo). Assim, ela afirma que Cφ = cφ. Mas
isso diz-nos que φ é autovalor de C, o que só é possı́vel se φ ∈ A. Logo kP ⊥ CP ⊥ k = 0, mas isso, por
sua vez, implica CP ⊥ = 0, pois CP ⊥ = P ⊥ CP ⊥ . Logo, para todo ψ ∈ A⊥ teremos Cψ = CP ⊥ ψ = 0,
o que implica ψ ∈ Ker (C). Agora, Ker (C) ⊂ A e o único vetor que A e A⊥ têm em comum é o vetor
nulo. Provamos então que se ψ ∈ A⊥ então ψ = 0, ou seja A = H. Pela definição, isso diz precisamente
que o conjunto ortonormal B0 ∪ B1 , que gera A, é uma base ortonormal completa em H, encerrando
novamente a prova.
Os Teoremas 23.28 e 23.30 foram demonstrados por Hilbert33 , Schmidt34 , Riesz35 e Schauder36 . O
Teorema Espectral para operadores compactos auto-adjuntos foi provado por Hilbert em 1906, sendo o
restante da teoria (re)elaborado pelos demais autores por volta de 1908. Esses trabalhos são os marcos
iniciais da Análise Funcional. Para mais detalhes históricos desses importantes desenvolvimentos, vide
[30].

• O caso de operadores compactos não-auto-adjuntos

O Teorema Espectral demonstrado acima para operadores compactos e auto-adjuntos pode ser,
como veremos, estendido para operadores compactos não-auto-adjuntos. Já observamos, porém, que
nem todo operador compacto em espaços de dimensão infinita possui autovalores. Assim, esperamos
alguma diferença em relação ao caso auto-adjunto, pois na decomposição espectral
√ (23.101) são os
autovalores λn de C que comparecem. A observação crucial vem do fato que |C| := C ∗ C é compacto
33
David Hilbert (1862-1943).
34
Erhard Schmidt (1876-1959).
35
Frigyes Riesz (1880-1956).
36
Juliusz Pawel Schauder (1899-1943). Schauder foi tragicamente assassinado pela Gestapo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1119/1195

e auto-adjunto (Proposição 23.44, página 1109) e, pelo Teorema 23.28, página 1113, possui autovalores,
valendo inclusive o Teorema 23.29.
Seja C um operador compacto mas não necessariamente auto-adjunto e seja C = U |C| sua decom-
posição polar (Teorema 23.22, página 1080). Pela Proposição 23.44, página 1109, sabemos que |C| é
compacto, auto-adjunto e positivo. Podemos, pelo Teorema Espectral para operadores compactos e
auto-adjuntos, Teorema 23.29, página 1116, escrever

X
|C| = µn hφn , · i φn ,
n=1

onde µn são os autovalores positivos de |C| (os quais são positivos pois |C| é um operador positivo) e
φn os correspondentes autovetores normalizados. Usando a decomposição polar C = U |C|, temos então

X
C = µn hφn , · i U φn .
n=1

Lembremos que, pelo Teorema da Decomposição Polar (Teorema 23.22, página 1080), Ker (U ) =
Ker (|C|) = Ker (C), de modo que U φn 6= 0 se µn > 0.
Em resumo, o que concluı́mos desses comentários é o seguinte:
Teorema 23.31 (Decomposição Espectral para Operadores Compactos) Seja C um operador
compacto agindo em um espaço de Hilbert H. Então existem números positivos µ n , n ∈ e conjuntos 

ortonormais φn , n ∈ , e ψn , n ∈ , em H tais que


 


X
C = µn hφn , · i ψn , (23.102)
n=1

a convergência da série de operadores do lado esquerdo se dando na norma de B(H). Se C for de posto
finito, a soma acima será finita. Assim, para todo ψ ∈ H podemos escrever

X
Cψ = µn hφn , ψi ψn , (23.103)
n=1

A expressão (23.102) está também dizendo-nos que todo operador compacto C pode ser aproximado
em norma por operadores de posto finito. Isso generaliza o Teorema 23.27, página 1105, pois aqui não
precisamos supor que H seja separável. 2

• Valores singulares de um operador compacto

Os números µn que comparecem em (23.102) e (23.103) são denominados valores singulares do


operador compacto C. Vemos que trata-se dos autovalores de |C|. O operador C não necessariamente
tem autovalores mas sempre tem valores singulares e, por isso, há que se fazer a distinção entre ambos
os conceitos.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1120/1195

• Operadores Nucleares

Já comentamos à página 1107 que nem todo operador compacto agindo em espaços de Banach pode
ser aproximado por operadores de posto finito. Para espaços de Hilbert, no entanto, isso é verdade,
como atesta a expressão (23.103). No entanto, essa mesma expressão motiva uma importante definição
que apresentaremos e discutiremos brevemente aqui: a de operadores nucleares, noção introduzida por
Grothendieck37 .
limitado N : X → Y é dito ser um operador
Sejam X e Y dois espaços de Banach. Um operador P
nuclear se existirem constantes µn > 0, n ∈ , com ∞ n=1 µn < ∞, funcionais lineares contı́nuos



ln :∈ X com kln kX† = 1 para todo n ∈ e vetores yn ∈ Y com kyn kY = 1 para todo n ∈ , tais que
 


X
Nx = µn ln (x) yn , (23.104)
n=1

para todo x ∈ X.
P
A condição ∞ n=1 µn < ∞, é incluı́da por ser suficiente para garantir convergência do lado direito
da expressão (23.104). Pela expressão (23.103), vemos que um operador compacto em um espaço de
Hilbert é nuclear se e somente se a seqüência de seus valores singulares for somável.

E. 23.22 Exercı́cio-exemplo. Seja ψn , n ∈ , um conjunto ortonormal de vetores em um espaço de




Hilbert H e seja Pn o projetor ortogonal sobre ψn . O operador


X∞
1
C = Pn
n=1
n

é compacto (vide o exemplo da equação (23.93)) mas não é nuclear. Mostre isso. 6

Como exercı́cio, deixamos ao leitor demonstrar as seguintes afirmações, válidas no contexto geral de
espaços de Banach: 1. todo operador de posto finito é nuclear (isso é evidente, aliás); 2. todo operador
nuclear é compacto; 3. toda combinação linear de dois operadores nucleares é novamente um operador
nuclear; 4. o produto (à direita ou à esquerda) de um operador nuclear por um operador contı́nuo é
novamente um operador nuclear. Vide [132].

23.7 O Teorema Espectral para Operadores Limitados Auto-


adjuntos em Espaços de Hilbert
Na presente seção trataremos do Teorema Espectral para operadores limitados auto-adjuntos agindo
em espaços de Hilbert em suas diversas formas. Seguiremos proximamente [99], mas completaremos
várias lacunas daquela exposição.
37
Alexander Grothendieck (1928-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1121/1195

23.7.1 O Cálculo Funcional Contı́nuo e o Homomorfismo de Gelfand


P
Começamos com uma definição elementar. Se p(x) = a0 + nk=1 ak xk é um polinômio em
Px ∈ , e
n k
T ∈ B(H), H sendo um espaço de Hilbert, define-se p(T ) ∈ B(H)
P por p(T ) := a 0 + k=1 ak T .
n
Convencionando que T 0 = , podemos escrever também p(T ) = k=0 ak T k .
O seguinte lema resume alguns fatos fundamentais a respeito de polinômios de operadores auto-
adjuntos em espaços de Hilbert e é um caso particular da Proposição 23.28, página 1069, dispensando
demonstração.
Lema 23.6 Seja H um espaço de Hilbert e A ∈ B(H) um operador limitado e auto-adjunto. Seja
n
também p(x) = Σ ak xk um polinômio em x ∈ . Então, o espectro de p(A) é a imagem por p do
k=0
espectro de A, ou seja,
σ(p(A)) = {p(λ), λ ∈ σ(A)} =: p(σ(A)) . (23.105)
Fora isso, kp(A)k = sup |p(λ)|. 2
λ∈σ(A)

Seja agora o espaço de Banach C(σ(A)) da funções complexas contı́nuas definidas no espectro
de A dotado da norma kf k∞ := supλ∈σ(A) |f (λ)| e seja P (σ(A)) o sub-espaço de C(σ(A)) formado
por polinômios. Sabemos pelo Teorema de Weierstrass que P (σ(A)) é denso em C(σ(A)). Vimos
também no Lema 23.6 que a aplicação φA ≡ φ : P (σ(A)) → B(H) dada por φ(p) = p(A) satisfaz
kφ(p)kH = kpk∞ . Ora, isso diz-nos que φ é limitada e, pelo Teorema BLT, Teorema 23.1, página 1017,
pode ser estendida unicamente e isometricamente ao fecho de P (σ(A)) que é C(σ(A)). Essa extensão
também será denotada por φ. Assim, para toda f ∈ C(σ(A)) podemos definir φ(f ) como limite em
norma de operadores φ(p), com p sendo polinômios que convergem a f na norma k · k ∞ .
Denotaremos também sugestivamente φ(f ), para f ∈ C(σ(A)), por f (A). Tem-se os seguintes fatos
sobre φ(f ) (vide [99]).
Teorema 23.32 (Cálculo Funcional Contı́nuo) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φA ≡ φ : C(σ(A)) → B(H) definida acima. Para todo polinômio p vale φ(p) =
p(A). Como vimos, pelo Teorema BLT, Teorema 23.1, página 1017, tem-se kφ(f )k H = kf k∞ para toda
f ∈ C(σ(A)). Fora isso, valem as seguintes afirmações:

1. A aplicação φ é um ∗-homomorfismo algébrico, ou seja,


φ(αf + βg) = αφ(f ) + βφ(g) , φ(f g) = φ(f )φ(g) , φ(f )∗ = φ(f ) ,
φ(1) = ,
(23.106)
para todas f, g ∈ C(σ(A)) e todos α, β ∈ . Como f g = gf , segue de (23.106) que φ(f )φ(g) =
φ(g)φ(f ) para todas f, g ∈ C(σ(A)).
2. Se f ≥ 0 tem-se também φ(f ) ≥ 0.
3. Se fn ∈ C(σ(A)), n ∈ é uma seqüência de converge na norma k · k∞ a uma função f ∈


C(σ(A)) então φ(fn ) converge a φ(f ) na norma de B(H). Reciprocamente, se φ(fn ) converge
na norma de B(H), então existe f ∈ C(σ(A)) tal que limn→∞ φ(fn ) = φ(f ). Isso diz-nos que
{φ(f ), f ∈ C(σ(A))} é fechada na norma de B(H). Com a propriedade do item 1, isso significa
que {φ(f ), f ∈ C(σ(A))} é uma álgebra C∗ Abeliana com unidade.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1122/1195

4. Se ϕ ∈ H é um autovetor de A com autovalor λ0 , então φ(f )ϕ = f (λ0 )ϕ. Mais genericamente,


vale σ(φ(f )) = {f (λ), λ ∈ σ(A)}. 2

O ∗-homomorfismo φ : C(σ(A)) → B(H) é por vezes denominado homomorfismo de Gelfand 38 .

Prova do Teorema 23.32. A demonstração desse teorema segue muito proximamente a demonstração do
Teorema 23.17, página 1070 e, de fato, quase todas as asserções acima são casos particulares daquele
teorema pois B(H) é uma álgebra C∗ com unidade. Para facilitar a leitor e destacar algumas poucas
especificidades, apresentamos a demonstração com detalhe.
Prova do item 1. A aplicação φ é limitada e, portanto, contı́nua. As propriedades (23.106), que carac-
terizam φ como um ∗-homomorfismo algébrico, são triviais de se verificar no subespaço denso P (σ(A))
e daı́ se estendem facilmente a todo C(σ(A)) por continuidade.
Prova do item 2. Se f ≥ 0 então f = g 2 para alguma g real e contı́nua. Logo, pela propriedade de
homomorfismo φ(f ) = φ(g 2 ) = φ(g)φ(g) = φ(g)∗ φ(g), que é um operador positivo.
Prova do item 3. Tem-se kφ(fn ) − φ(f )k = kφ(f − fn )k = kf − fn k∞ . Logo, se kf − fn k∞ → 0, segue
kφ(fn ) − φ(f )k → 0. Reciprocamente, se φ(fn ) converge na norma de B(H), segue que φ(fn ) é uma
seqüência de Cauchy em B(H). Assim, como kφ(fn ) − φ(fm )k = kfn − fm k∞ , a seqüência fn é de
Cauchy em C(σ(A)) com a norma k · k∞ . Como C(σ(A)) é completo em relação a essa norma, existe
f ∈ C(σ(A)) à qual fn converge e, portanto, limn→∞ φ(fn ) = φ(f ).
Prova do item 4. Para provar que φ(f )ϕ = f (λ0 )ϕ caso Aϕ = λ0 ϕ, notemos em primeiro lugar que para
qualquer polinômio p vale, claramente, φ(p)ϕ = p(λ0 )ϕ. Se tomarmos uma seqüência de polinômios p
que converge a f na norma k · k∞ teremos o resultado desejado por continuidade.
1
Se λ não pertence à imagem de σ(A) por f então r := (f −λ) é contı́nua e, portanto, φ(r) está
bem definida e vale φ(r)φ(f − λ) = φ(f − λ)φ(r) = , pelas propriedades de homomorfismo, provando
que φ(f ) − λ é bijetora com inversa limitada e que, portanto, λ ∈ ρ(φ(f )), o conjunto resolvente de
φ(f ). Isso estabeleceu que o complemento da imagem de f , \ {f (λ), λ ∈ σ(A)}, é um subconjunto
de ρ(φ(f )). Logo, σ(φ(f )) ⊂ {f (λ), λ ∈ σ(A)}. Vamos agora demonstrar a inclusão oposta. Seja
µ ∈ {f (λ), λ ∈ σ(A)}, ou seja, µ = f (λ0 ) para algum λ0 ∈ σ(A) e vamos supor que µ ∈ ρ(φ(f )), ou
seja, que F := φ(f ) − f (λ0 ) é bijetora. Seja agora P := φ(p) − p(λ0 ) para algum polinômio p tal que
kf − pk∞ < . Teremos, F − P = φ(f − p) − (f (λ0 ) − p(λ0 )) e, assim,

kF − P k ≤ kφ(f − p)k + |f (λ0 ) − p(λ0 )| k k = kf − pk∞ + |f (λ0 ) − p(λ0 )| ≤ 2kf − pk∞ < 2 .

Agora, pelo Corolário 23.3, página 1058, se escolhermos esse  pequeno o suficiente tal que kF − P k <
kF −1 k−1 , então P será invertı́vel em B(H), o que implica p(λ0 ) 6∈ σ(φ(p)) com λ0 ∈ σ(A). Isso
contraria (23.105). Logo, devemos ter µ 6∈ ρ(φ(f )), ou seja, µ ∈ σ(φ(f )), o que prova {f (λ), λ ∈
σ(A)} ⊂ σ(φ(f )), estabelecendo a igualdade desses dois conjuntos. Isso completa a prova do Teorema
23.32

Comentamos que a identificação σ(φ(f )) = {f (λ), λ ∈ σ(A)} não contraria o fato de σ(φ(f )) ser
fechado, pois a imagem de um conjunto compacto (no caso, σ(A)) por uma função contı́nua (no caso,
f ) é sempre um conjunto compacto (ou seja, fechado e limitado).
38
Israil Moiseevic Gelfand (1913-).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1123/1195

23.7.2 Generalizando o Cálculo Funcional Contı́nuo. As Medidas Espec-


trais
Seja daqui por diante A um operador auto-adjunto limitado fixo, definido em um espaço de Hilbert H.
O Teorema 23.32 é muito importante por permitir definir objetos como f (A) para uma função
contı́nua f definida no espectro de um operador auto-adjunto A agindo em um espaço de Hilbert.
Sucede, porém, que é possı́vel fazer ainda mais e definir f (A) mesmo para certas funções f que não
sejam contı́nuas. A necessidade de um tal resultado não é meramente um capricho matemático, mas é
importante para alcançarmos um resultado mais profundo, a saber, a versão por projetores espectrais
do teorema espectral da qual falaremos mais abaixo.
Nosso ponto de partida é a seguinte observação. Seja ψ ∈ H e seja f ∈ C(σ(A)). Então, a aplicação
f 7→ hψ, f (A)ψiH = hψ, φ(f )ψiH é claramente um funcional linear definido em C(σ(A)). Fora isso,
para todo f ∈ C(σ(A)) vale
Cauchy-Schwarz
|hψ, φ(f )ψiH | ≤ kφ(f )k kψk2 = kf k∞ kψk2 ,

provando que a aplicação C(σ(A)) 3 f 7→ hψ, φ(f )ψiH é limitada e, portanto, contı́nua. Além disso, se
f ≥ 0, vimos pelo Teorema 23.32 que φ(f ) é um operador positivo. Isso significa que hψ, φ(f )ψiH ≥ 0
para todo ψ ∈ H. Por fim, se f ≡ 1, segue que φ(f ) = e hψ, φ(f )ψiH = kψk2 < ∞.
Em resumo, provamos que para ψ ∈ H com a aplicação C(σ(A)) 3 f 7→ hψ, φ(f )ψiH é um funci-
onal linear contı́nuo, positivo. Esses fatos aparentemente inocentes têm uma conseqüência profunda e
altamente não-trivial. Um clássico teorema de Análise conhecido como Teorema da Representação de
Riesz39 afirma que
Teorema 23.33 (Teorema da Representação de Riesz ou Teorema de Riesz-Markov) Seja X
um espaço topológico localmente compacto e Hausdorff e seja C c (X) o espaço das funções contı́nuas
definidas em X que tenham suporte compacto. Então, se l : Cc (X) → é um funcional linear positivo
em Cc (X), existe uma (única) medida positiva µ sobre uma σ-álgebra M que contem a σ-álgebra de
Borel de X tal que Z
l(f ) = f dµ .
X

para toda f ∈ Cc (X). A medida µ e a σ-álgebra M satisfaz µ(K) < ∞ para todo compacto K ⊂ X e é
regular, ou seja
µ(E) = inf{µ(V ), E ⊂ V, V aberto} (23.107)
para todo E ∈ M e
µ(E) = sup{µ(K), K ⊂ E, K compacto} (23.108)
para todo E ∈ M com µ(E) < ∞. Por fim, o espaço de medida produzido por M e µ é completo, ou
seja, se E ∈ M é tal que µ(E) = 0 então todo subconjunto de E pertence a M. 2

39
Frigyes Riesz (1880-1956).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1124/1195

O enunciado do teorema acima foi extraı́do de [105], onde sua demonstração pode também ser encon-
trada40 . Alguns autores (por ex. [104]) referem-se a esse Teorema como Teorema de Riesz-Markov 41 .
Em nosso caso, X = σ(A) não é apenas localmente compacto, mas compacto e, portanto, C c (X) =
C(σ(A)). Podemos, então, escrever
Z
hψ , f (A)ψi = f dµψ, A (23.109)
σ(A)

para toda f ∈ C(σ(A)), onde denotamos a medida em σ(A), cuja existência é garantida pelo Teorema
23.33, por µψ, A para lembrar sua dependência em ψ e A.
A medida µψ, A é denominada medida espectral do operador A associada ao vetor ψ ∈ H.
No que se segue, estudaremos várias propriedades dessa medida. Por exemplo, provaremos no item
4 do Teorema 23.35, abaixo, que se ϕ ∈ H, com kϕk = 1, é um autovetor de A com autovalor λ 0 , então
a medida µϕ, A é a medida de Dirac centrada em λ0 .

E. 23.23 Exercı́cio. Mostre que µαψ, A = |α|2 µψ, A para todo α ∈ . 6

A importância da relação (23.109) para nossa tarefa de estender o cálculo funcional para funções
não-contı́nuas é a seguinte. Apesar de a função f em (23.109) ser contı́nua, o lado esquerdo está bem
Rdefinido para qualquer função Boreliana limitada, ou seja, se g : σ(A) → é Boreliana e limitada então
g dµψ, A está bem definida. A questão é: existe um operador g(A) ∈ B(H) tal que hψ , g(A)ψi =
Rσ(A)
σ(A)
g dµψ, A ? Mostraremos que, de fato, um tal operador pode ser definido por essa relação. A idéia é
explorar identidade de polarização para definir o que seria o equivalente aos produtos escalares gerais
hψ , g(A)φi e mostrar que esse equivalente é uma forma sesquilinear e bicontı́nua (em ψ e φ ∈ H), o
que, como veremos, permite definir o operador limitado g(A).
Este é o momento oportuno para introduzirmos a noção geral de forma sesquilinear bicontı́nua em
espaços de Hilbert e estabelecermos um resultado geral sobre essa noção.

• Formas sesquilineares bicontı́nuas

Uma forma sesquilinear42 S : H × H → é dita ser bicontı́nua se existir M > 0 tal que |S(u, v)| ≤
M kuk kvk para todos u, v ∈ H. O seguinte resultado é fundamental para o que segue.
Proposição 23.45 Se S : H × H → é uma forma sesquilinear bicontı́nua em um espaço de Hilbert
H então existe um operador limitado S, único, tal que
S(u, v) = hSu, vi
para todos u, v ∈ H. 2

40
Teorema 2.14 da edição [105].
41
Andrei Andreyevich Markov (1903-1979). O pai desse Markov, que tinha o mesmo nome que o filho e viveu entre 1856
e 1922, foi também um matemático célebre e foi o inventor das cadeias de Markov da teoria dos processos estocásticos,
entre outras coisas. O trabalho do segundo Markov contendo o teorema que citamos sobre funcionais lineares é: A.
Markov, “On mean values and exterior densities”, Mat. Sbornik N.S. 4 (46) (1938) 165-191. Para mais referências
históricas, vide [104].
42
A definição de forma sesquilinear encontra-se à página 112.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1125/1195

Prova. Para cada u fixo, a aplicação v 7→ S(u, v) é um funcional linear contı́nuo. Assim, pelo Teorema
de Representação de Riesz para espaços de Hilbert, Teorema 22.8, página 1008, existe para cada u ∈ H
um vetor ηu tal que S(u, v) = hηu , vi. Seja S : H → H a função (que não pressupomos ser linear) que
associa u a ηu : S(u) = ηu . Escrevemos, portanto, S(u, v) = hS(u), vi para todos u, v ∈ H.
Como S é sesquilinear, tem-se S(α1 u1 +α2 u2 , v) = α1 S(u1 , v)+α2 S(u2 , v), para todos u1 , u2 , v ∈ H
e α1 , α2 ∈ . Assim,

hS(α1 u1 + α2 u2 ), vi = α1 hS(u1 ), vi + α2 hS(u2 ), vi

= hα1 S(u1 ), vi + hα2 S(u2 ), vi = h(α1 S(u1 ) + α2 S(u2 )), vi ,


para todos u1 , u2 , v ∈ H e α1 , α2 ∈ , o que implica S(α1 u1 + α2 u2 ) = α1 S(u1 ) + α2 S(u2 ), ou seja, S
é linear. Pela hipótese de S ser bicontı́nua, tem-se |hSv, ui| ≤ M kuk kvk para todos u, v ∈ H. Assim,
kSvk2 = |hSv, Svi| ≤ M kSvk kvk. Isso implica kSvk ≤ M kvk para todo v ∈ H, provando que S é um
operador linear limitado. A unicidade de S é elementar.

• A construção do operador g(A)

No que segue, Bl (σ(A)) designará o conjunto de todas as funções complexas Borelianas e limitadas
definidas em σ(A).
Proposição 23.46 Para cada g ∈ Bl (σ(A)), Boreliana e limitada, a aplicação Sg : H × H →
definida por
3 Z
1 X −n
Sg (u, v) := i g dµψn , A (23.110)
4 n=0 σ(A)

onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |S g (u, v)| ≤


kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 23.45, existe um operador limitado, que
denotaremos por g(A), tal que
Sg (u, v) = hu, g(A)vi
para todos u, v ∈ H. É claro também que
kg(A)k ≤ kgk∞ . (23.111)
2

Prova. Para cada função f contı́nua tem-se pela identidade de polarização (2.21), página 124, e por
(23.109), que

3 Z 3
1 X −n 1 X −n
Sf (u, v) = i f dµψn , A = i hψn , f (A)ψn i
4 n=0 σ(A) 4 n=0

3
1 X −n
= i h(u + in v), f (A)(u + in v)i = hu, f (A)vi ,
4 n=0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1126/1195

Isso mostra que Sf é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale |hu, f (A)vi| ≤
kf (A)k kuk kvk. Queremos agora provar que essas propriedades estendem-se às formas S g , com g ∈
Bl (σ(A)), e a idéia é explorar o fato que tais funções podem ser aproximadas por funções contı́nuas.
Mais especificamente, usaremos o seguinte resultado:
Teorema 23.34 (Teorema de Lusin) 43 Seja X um espaço localmente compacto e Hausdorff e seja
µ uma medida positiva sobre uma σ-álgebra M de X que contem a σ-álgebra de Borel de X tal que: 1)
µ(K) < ∞ para todo compacto K ⊂ X; 2) µ é regular, ou seja µ(E) = inf{µ(V ), E ⊂ V, V aberto}
para todo E ∈ M e µ(E) = sup{µ(K), K ⊂ E, K compacto} para todo E ∈ M com µ(E) < ∞; 3) o
espaço de medida produzido por M e µ é completo, ou seja, se E ∈ M é tal que µ(E) = 0 então todo
subconjunto de E pertence a M.
Suponha que g é uma função complexa e mensurável em X com a propriedade que g(x) = 0 se
x 6∈ B, sendo B ⊂ X tal que µ(B) < ∞. Então para todo  > 0 existe f ∈ C c (X) tal que

µ {x ∈ X| g(x) 6= f (x)} ≤  .

Além disso, f pode ser escolhida de forma que

sup |f (x)| ≤ sup |g(x)| .


x∈X x∈X

O enunciado do teorema acima foi extraı́do de [105], onde sua demonstração pode também ser encon-
trada44 . O Teorema 23.34 tem o seguinte corolário elementar, que usaremos adiante.
Corolário 23.14 Seja X é um espaço localmente compacto e Hausdorff e µ j , j = 1, . . . , n, uma
coleção finita de medidas satisfazendo as condições do Teorema 23.34. Seja g é uma função complexa
e Boreliana em X com a propriedade que g(x) = 0 se x 6∈ B, sendo B ⊂ X tal que µ j (B) < ∞,
j = 1, . . . , n. Então para todo  > 0 existe f ∈ Cc (X) tal que

µj {x ∈ X| g(x) 6= f (x)} ≤ 

para todo j = 1, . . . , n. Além disso, f pode ser escolhida de forma que

sup |f (x)| ≤ sup |g(x)| .


x∈X x∈X

Prova. Seja D := {x ∈ X| g(x) 6= f (x)}. Pelas hipóteses, as medidas µj têm em comum a σ-


álgebra de Borel em X, onde podemos definir a medida µ := µ1 + · · · + µn , a qual também  satisfaz
todasas condições do Teorema 23.34. Logo, existe
 f ∈ C c (X) com (µ 1 + · · · + µ n ) D ≤ , ou seja,
µ1 D + · · · + µn D ≤ , o que implica µj D ≤  para todo j = 1, . . . , n, pois as medidas são
positivas.
43
Nikolai Nikolaevich Lusin (ou Luzin) (1883-1950).
44
Teorema 2.24 da edição [105].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1127/1195

Note-se que as condições 1, 2 e 3 do enunciado do Teorema 23.34 são aquelas garantidas pelo Teorema
23.33 e, portanto, valem para as medidas µψ, A definidas em X = σ(A). A nós nos interessa o seguinte.
Pelo Teorema de Lusin, Teorema 23.34, se g ∈ Bl (σ(A)) é Boreliana e limitada então para todo > 0
existe f ∈ C(σ(A)) tal que µ(E) ≤ , onde E ⊂ σ(A) é o conjunto E := {x ∈ σ(A)| g(x) 6= f (x)} . É
claro disso que
Z Z Z

(f − g) dµψ, A ≤ |f − g| dµψ, A = |f − g| dµψ, A ≤ kf − gk∞ µ(E) ≤ 2kgk∞  ,

σ(A) σ(A) E
(23.112)
onde usamos o fato que, novamente pelo Teorema de Lusin, kf k∞ ≤ kgk∞, o que implica kf − gk∞ ≤
kf k∞ + kgk∞ ≤ 2kgk∞ . Para u, v ∈ H fixos e  > 0 podemos, pelo Corolário 23.14, escolher
f ∈ C(σ(A)) de forma que Z
|f − g| dµψn, A ≤ 2kgk∞  (23.113)
σ(A)

para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Assim, com u, v ∈ H fixos e para uma tal f
teremos
3 Z 3 Z
1 X X
−n
|Sg (u, v) − Sf (u, v)| = i (g − f )dµψn , A ≤ |g − f |dµψn , A ≤ 8kgk∞  .
4 n=0 σ(A) n=0 σ(A)
(23.114)
Com isso podemos provar que Sg é sesquilinear explorando o fato que Sf o é para toda f contı́nua. De
fato, para todos u, v1 , v2 ∈ H e α1 , α2 ∈ , temos Sf (u, α1 v1 + α2 v2 ) − α1 Sf (u, v1 ) − α2 Sf (u, v2 ) = 0
se f for contı́nua e daı́ segue que



Sg (u, α1 v1 + α2 v2 ) − α1 Sg (u, v1 ) − α2 Sg (u, v2 )
   

= Sg (u, α1 v1 +α2 v2 )−α1 Sg (u, v1 )−α2 Sg (u, v2 ) − Sf (u, α1 v1 +α2 v2 )−α1 Sf (u, v1 )−α2 Sf (u, v2 )

≤ |Sg (u, α1 v1 + α2 v2 ) − Sf (u, α1 v1 + α2 v2 )|

+ |α1 | |Sg (u, v1 ) − Sf (u, v1 )| + |α2 | |Sg (u, v2 ) − Sf (u, v2 )| .

Por (23.114), os três últimos termos podem ser escolhidos tão pequenos quanto se queira pela escolha de
uma f ∈ C(σ(A)) apropriada (evocando o Corolário 23.14), o que nos leva a concluir que S g (u, α1 v1 +
α2 v2 ) = α1 Sg (u, v1 ) + α2 Sg (u, v2 ), estabelecendo a linearidade de Sg em relação ao segundo argumento.
A anti-linearidade em relação ao primeiro argumento é provada da mesma forma. Resta-nos mostrar
que Sg é bicontı́nua. Escolhendo novamente f ∈ C(σ(A)) de forma que |Sg (u, v) − Sf (u, v)| ≤ , para
algum  > 0 qualquer (vide (23.114)), e usando que |Sf (u, v)| ≤ kf (A)k kuk kvk, teremos

|Sg (u, v)| = |Sg (u, v)−Sf (u, v)+Sf (u, v)| ≤ |Sg (u, v)−Sf (u, v)|+|Sf (u, v)| ≤ +kf (A)k kuk kvk .
(23.115)
Lembremos que kf (A)k = kf k∞ e que, pelo Teorema de Lusin, Teorema 23.34, podemos escolher f
de modo que kf k∞ ≤ kgk∞ . Assim, |Sg (u, v)| ≤  + kgk∞kuk kvk. Como isso vale para todo  > 0,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1128/1195

concluı́mos que |Sg (u, v)| ≤ kgk∞ kuk kvk, provando que Sg é bicontı́nua. Isso completa a prova da
Proposição 23.46.

A Proposição 23.46 estabelece uma associação entre funções Borelianas limitadas g definidas em
σ(A) e operadores limitados g(A) agindo em H. Denotemos essa aplicação por φ̂ : Bl (σ(A)) → B(H),
ou seja, g(A) ≡ φ̂(g) A associação f 7→ f (A), para f contı́nua, é, como vimos no curso da demonstração
da Proposição 23.46, um caso particular, de modo que φ̂ : Bl (σ(A)) → B(H) é uma extensão da
aplicação φ : C(σ(A)) → B(H) do Cálculo Funcional Contı́nuo, Teorema 23.32. Sobre a aplicação φ̂
temos o seguinte teorema.
Teorema 23.35 (Cálculo Funcional Boreliano) Seja H um espaço de Hilbert, seja A ∈ B(H)
auto-adjunto e seja φˆA ≡ φ̂ : Bl (σ(A)) → B(H) definida acima. φ̂ é uma extensão de φ : C(σ(A)) →
B(H) do Teorema 23.32 e, portanto, para f ∈ C(σ(A)) vale φ̂(f ) = φ(f ) = f (A). Em particular, para
todo polinômio p vale φ̂(p) = p(A). Por (23.111), kφ̂(g)kH ≤ kgk∞ para toda g ∈ Bl (σ(A)). Fora isso,
valem as seguintes afirmações:

1. A aplicação φ̂ é um ∗-homomorfismo algébrico, ou seja,

φ̂(αg + βh) = αφ̂(g) + β φ̂(h) , φ̂(gh) = φ̂(g)φ̂(h) , φ̂(g)∗ = φ̂(g) ,


φ̂(1) = ,
(23.116)
para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ . Como gh = hg, segue de (23.116) que φ̂(g)φ̂(h) =
φ̂(h)φ̂(g) para todas g, h ∈ Bl (σ(A)).

2. Se g ≥ 0 tem-se também φ̂(g) ≥ 0.

3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈  , tais que lim gn (x) = g(x) para todo x ∈ σ(A) mas
n→∞
tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈ . Então, gn (A) converge a g(A)


na topologia forte, ou seja, para todo ψ ∈ H a seqüência gn (A)ψ converge a g(A)ψ.

4. Se ϕ ∈ H é um autovetor de A com autovalor λ0 , então µϕ, A é a medida de Dirac centrada em


λ0 e φ̂(g)ϕ = g(λ)ϕ para toda g ∈ Bl (σ(A)). Em geral tem-se σ(φ̂(g)) ⊂ {g(λ), λ ∈ σ(A)}. 2

Comentamos que no Teorema 23.32, página 1121, estabelecemos que σ(φ(f )) = {f (λ), λ ∈ σ(A)}
para f contı́nua. Tal propriedade não pode valer, em geral, para funções Borelianas limitadas, já pelo
fato de que a imagem de um conjunto compacto por uma função Boreliana limitada não é necessaria-
mente um conjunto compacto.

Prova do Teorema 23.35.


Prova do item 1. Como Sg (u, y) dada em (23.110) é claramente linear em g, concluı́mos que φ̂ também
o é: φ̂(αg + βh) = αφ̂(g) + β φ̂(h) para todas g, h ∈ Bl (σ(A)) e todas α, β ∈ .
Para provar que φ̂(gh) = φ̂(g)φ̂(h) é suficiente provar que hu, (gh)(A)vi = hu, g(A)h(A)vi para
cada u, v ∈ H. Fixemos esse par de vetores e, evocando o Corolário 23.14, escolhamos f 1 ∈ C(σ(A))
tal que
µψn , A ({x ∈ σ(A) : g(x) 6= f1 (x)}) ≤ 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1129/1195

para todos os quatro vetores ψn = u + in h(A)v, n = 0, . . . , 3 e para os quatro vetores ψn = u + in v,


n = 0, . . . , 3. Fixada f1 , e evocando o Corolário 23.14, escolhamos f2 ∈ C(σ(A)) tal que

µψn , A ({x ∈ σ(A) : h(x) 6= f2 (x)}) ≤ 

para todos os quatro vetores ψn = f1 (A)∗ u + in v, n = 0, . . . , 3 e para os quatro vetores ψn = u + in v,


n = 0, . . . , 3.
Com essas escolhas valem, como em (23.112)
Z
|f1 − g| dµψn , A ≤ 2kgk∞ 
σ(A)

para todos os quatro vetores ψn = u + in h(A)v, n = 0, . . . , 3 e, portanto, como em (23.114),

|Sg (u, h(A)v) − Sf1 (u, h(A)v)| ≤ 8kgk∞  . (23.117)

Analogamente, Z
|f2 − h| dµψn , A ≤ 2khk∞ 
σ(A)

para todos os quatro vetores ψn = f1 (A)∗ u + in v, n = 0, . . . , 3. e, portanto, como em (23.114),

|Sh (f1 (A)∗ u, v) − Sf2 (f1 (A)∗ u, v)| ≤ 8khk∞  . (23.118)

Como
n o n o[n o
x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x) ⊂ x ∈ σ(A) : g(x) 6= f1 (x) x ∈ σ(A) : h(x) 6= f2 (x)

(justifique!), segue também que

 
µψ n , A x ∈ σ(A) : g(x)h(x) 6= f1 (x)f2 (x)
   
≤ µ ψn , A x ∈ σ(A) : g(x) 6= f1 (x) + µ ψn , A x ∈ σ(A) : h(x) 6= f2 (x) ≤ 2

para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3. Isso implica, como em (23.112),


Z
|f1 f2 − gh| dµψn , A ≤ 4kghk∞ 
σ(A)

para todos os quatro vetores ψn = u + in v, n = 0, . . . , 3 e, portanto, como em (23.114),

|Sgh (u, v) − Sf1 f2 (u, v)| ≤ 16kgk∞  . (23.119)


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1130/1195

Teremos, fazendo uso de (23.117), (23.118) e (23.119),

|hu, (gh)(A)vi − hu, g(A)h(A)vi| = |Sgh (u, v) − Sg (u, h(A)v)|

= |Sgh (u, v) − Sf1 (u, h(A)v) − Sg (u, h(A)v) + Sf1 (u, h(A)v)|

≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + |Sg (u, h(A)v) − Sf1 (u, h(A)v)|

(23.117)
≤ |Sgh (u, v) − Sf1 (u, h(A)v)| + 8kgk∞ 

= |Sgh (u, v) − hu, f1 (A)h(A)vi| + 8kgk∞

= |Sgh (u, v) − hf1 (A)∗ u, h(A)vi| + 8kgk∞ 

= |Sgh (u, v) − Sh (f1 (A)∗ u, v)| + 8kgk∞ 

= |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)

− Sh (f1 (A)∗ u, v) + Sf2 (f1 (A)∗ u, v)| + 8kgk∞

≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)|

+ |Sh (f1 (A)∗ u, v) − Sf2 (f1 (A)∗ u, v)| + 8kgk∞ 

(23.118)
≤ |Sgh (u, v) − Sf2 (f1 (A)∗ u, v)| + 8(khk∞ + kgk∞ )

= |Sgh (u, v) − hf1 (A)∗ u, f2 (A)vi| + 8(khk∞ + kgk∞ )

= |Sgh (u, v) − hu, f1 (A)f2 (A)vi| + 8(khk∞ + kgk∞)

= |Sgh (u, v) − hu, (f1 f2 )(A)vi| + 8(khk∞ + kgk∞ )

= |Sgh (u, v) − Sf1 f2 (u, v)| + 8(khk∞ + kgk∞ )

(23.119)
≤ 16kghk∞  + 8(khk∞ + kgk∞)

= 8(2kghk∞ + khk∞ + kgk∞) .

Como  é arbitrário, concluı́mos que hu, (gh)(A)vi = hu, g(A)h(A)vi para todos u, v ∈ H, o que im-
plica (gh)(A) = g(A)h(A), ou seja, φ̂(gh) = φ̂(g)φ̂(h), estabelecendo a propriedade de homomorfismo.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1131/1195

Provar que φ̂(g)∗ = φ̂(g) segue das seguintes linhas auto-explicativas:

3 Z
∗ 1X n
hv, g(A) ui = hu, g(A)vi = Sg (u, v) = i gdµψn , A
4 n=0 σ(A)

3
1X n
= i h(u + in v), g(A)(u + in v)i = hv, g(A)ui ,
4 n=0
sendo que a última igualdade é demonstrada explicitamente, expandindo-se o produto escalar na soma.
Isso estabeleceu que g(A)∗ = g(A), ou seja, φ̂(g)∗ = φ̂(g).

Prova do item 2. Se g é Boreliana limitada e positiva então g também o é (vide Proposição 20.13,
√ √ √ √ √
página 951). Com isso, φ̂(g) = φ̂( g g) = φ̂( g)φ̂( g), que é um operador positivo, pois φ̂( g) =
√  √ √
φ̂ g = φ̂( g)∗ , já que g é real.
Prova do item 3. Sejam g ∈ Bl (σ(A)) e gn ∈ Bl (σ(A)), n ∈  tais que lim gn (x) = g(x) para todo
n→∞
x ∈ σ(A) mas tais que existe M > 0 para o qual kgn k∞ < M para todo n ∈  . Fixemos ψ ∈ H.
Tem-se que
k(gn (A) − g(A))ψk2 = hψ, (gn (A) − g(A))∗ (gn (A) − g(A))ψi
Z
= |gn − g|2 dµψ, A
σ(A)

Z
≤ kgn − gk∞ |gn − g| dµψ, A
σ(A)

Z
≤ (M + kgk∞ ) |gn − g| dµψ, A .
σ(A)

Neste ponto evocamos


Z o Teorema da Convergência Dominada, Teorema 20.6 da página 935, o qual
garante45 que lim |gn − g| dµψ, A = 0. Assim, lim k(gn (A) − g(A))ψk = 0 para cada ψ ∈ H, o
n→∞ σ(A) n→∞
que significa que gn (A) → g(A) na topologia forte.
Prova do item 4. Seja ϕ ∈ H é um autovetor
R de A com autovalor λ0 . Adotemos kϕk = 1 e consideremos
a medida µϕ, A tal que hϕ, f (A)ϕi = σ(A) f dµϕ, A para f contı́nua (vide (23.109)). Pelo Teorema 23.32,
f (A)ϕ = f (λ0 )ϕ. Logo, por (23.112),
Z
f dµϕ, A = f (λ0 ) (23.120)
σ(A)

para toda função f ∈ C(σ(A)).


Vamos provar que µϕ, A ({λ0 }) é não-nula. Seja G um aberto contendo o conjunto fechado {λ0 }.
Então, F = σ(A) \ G é fechado. Pelo Lema de Urysohn46 existe uma função fu ∈ C(σ(A)) satisfazendo
45
Cada gn é dominada pela função constante M , a qual claramente pertence a L1 (σ(A), dµψ, A ).
46
Pavel Samuilovich Urysohn (1898-1924). Urysohn morreu tragicamente, afogado na costa da Bretanha. A demons-
tração do Lema de Urysohn pode ser encontrada em qualquer bom livro de topologia.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1132/1195

0 ≤ fu (x) ≤ 1 para todo x ∈ σ(A) e tal que fu (λ0 ) = 1 e fu (x) = 0 para todo x ∈ F . Assim, fu pode
R (23.120)
ser não-nula apenas no aberto G. Logo, como σ(A) fu dµϕ, A = fu (λ0 ) = 1, vale
Z Z 0≤fu ≤1
1 = fu dµϕ, A = fu dµϕ, A ≤ µϕ, A (G) . (23.121)
σ(A) G

Pela regularidade da medida µϕ, A (propriedade (23.107), página 1123), vale


(23.121)
µϕ, A ({λ0 }) = inf{µϕ, A (G), {λ0 } ⊂ G, G aberto} ≥ 1. (23.122)

Evocando o Teorema de Lusin, Teorema 23.34, existe para todo  > 0 uma função f  ∈ C(σ(A)) tal
R µϕ, A ({x ∈ σ(A) : g(x) 6= f (x)}) ≤ R e kf k∞ ≤ kgk∞ Como
que vimos (vide (23.112)), isso implica

σ(A) (g − f ) dµϕ, A < 2kgk∞ , ou seja, σ(A) g dµϕ, A − f (λ0 ) < 2kgk∞  e, portanto,
Z
g dµϕ, A = lim f (λ0 ) .
σ(A) →0

Vamos mostrar que lim→0 f (λ0 ) = g(λ0 ). Se assim não fosse, terı́amos f (λ0 ) 6= g(λ0 ) para
todo  pequeno o suficiente, ou seja, para tais ’s valeria λ0 ∈ {x ∈ σ(A) : g(x) 6= f (x)}. Logo,
µϕ, A ({λ0 }) ≤ µϕ, A ({x ∈ σ(A) : g(x) 6= f (x)}) < , o que implica µϕ, A ({λ0 }) = 0, contrariando
(23.122)47 . Com isso, estabelecemos que
Z
g dµϕ, A = g(λ0 ) (23.123)
σ(A)

para toda função Boreliana limitada g. Em particular,


R se B ⊂ σ(A) é um conjunto Boreliano e χ B
é sua função caracterı́stica, então µϕ, A (B) = σ(A) χB dµϕ, A = χB (λ0 ). Isso está dizendo-nos que
µϕ, A = δ{λ0 } , a medida de Dirac centrada em λ0 (vide página 840).
Para completar a prova que g(A)ϕ = g(λ0 )ϕ para toda g ∈ Bl (σ(A)), notamos que

k(g(A) − g(λ0 ) )ϕk2 = hϕ, (g(A) − g(λ0 ) )∗ (g(A) − g(λ0 ) )ϕ i


Z
(23.123)
= |g − g(λ0 )|2 dµϕ, A = |g(λ0 ) − g(λ0 )|2 = 0 ,
σ(A)

provando que g(A)ϕ = g(λ0 )ϕ.


1
Se λ não pertence ao fecho da imagem de σ(A) por g então r := (g−λ)
é Boreliana e limitada
e, portanto, φ̂(r) está bem definida e vale φ̂(r)φ̂(g − λ) = φ̂(g − λ)φ̂(r) = , pelas propriedades
de homomorfismo, provando que φ̂(g) − λ é bijetora com inversa limitada e que, portanto, λ ∈
ρ(φ̂(g)), o conjunto resolvente de φ̂(g). Isso estabeleceu que o complemento do fecho da imagem de g,
\ {g(λ), λ ∈ σ(A)}, é um subconjunto de ρ(φ̂(g)). Logo, σ(φ̂(g)) ⊂ {g(λ), λ ∈ σ(A)}.
47
Esse argumento casualmente prova que f (λ0 ) = g(λ0 ) para todo  pequeno o suficiente, um resultado intuitivamente
esperado, já que µϕ, A ({λ0 }) 6= 0
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1133/1195

Com isso a demonstração do Teorema 23.35 está completa.

Uma das conseqüências mais importantes da extensão de φ a φ̂ reside no fato que agora podemos
definir operadores como φ̂(χB ) = χB (A), onde χB é a função caracterı́stica de um conjunto Boreliano
B de σ(A). Como veremos, podemos com o uso de tais operadores generalizar o Teorema Espectral
para operadores auto-adjuntos limitados, um fato de importância fundamental, inclusive para a Fı́sica
Quântica. Para tratar disso devemos primeiro discutir a noção geral de medidas com valores em
projeções ortogonais (mvpo’s).

23.7.3 Medidas com Valores em Projeções Ortogonais

Definição. Seja K um conjunto compacto (i.e., fechado e limitado) de , doravante fixo. Vamos 

denotar por B(K) a coleção de todos os conjuntos Borelianos de K. Uma associação E K ≡ E :


B(K) → B(H) que a cada conjunto Boreliano B ∈ B(K) associa um operador limitado EB é dita ser
uma medida com valores em projeções ortogonais (mvpo) se as seguintes condições forem satisfeitas.

1. Cada EB é um projetor ortogonal, ou seja, EB2 = EB e EB∗ = EB .

2. E∅ = 0 e EK = .

3. EB1 EB2 = EB1 ∩B2 para todos B1 , B2 ∈ B(K).

4. Para toda coleção contável Bn , n ∈  , de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que


k 6= l, tem-se
N
X
E S
Bn = s−lim EBn ,
n∈ N →∞
n=1

onde s−lim é o limite na topologia forte, ou seja, para todo ψ ∈ H vale


N
X
E S
Bn ψ = lim EBn ψ .
n∈ N →∞
n=1

A relevância dessa definição ficará clara com o Teorema 23.37, adiante. Notemos por ora que para cada
ψ ∈ H com ψ 6= 0 podemos definir, para todo B ∈ B(K),

νψ, E (B) := hψ, EB ψi . (23.124)

O ı́ndice E servirá para lembrar a dependência de ν da medida com valores em projeções ortogonais
{EB ∈ B(H), B ⊂ K, B Boreliano}.
Teremos, νψ, E (∅) = hψ, E∅ ψi = 0 e νψ, E (B) ≥ 0 para todo B, pois hψ, EB ψi = hψ, EB∗ EB ψi =
kEB ψk2 . Além disso, O item 4 da definição acima tem a seguinte conseqüência: se Bn , n ∈ , é uma 
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1134/1195

coleção contável de Borelianos em K satisfazendo Bk ∩ Bl = ∅ sempre que k 6= l, então

!   * N
+
[ X
νψ, E Bn = ψ, E S
Bn ψ = ψ, s−lim EBn ψ
n∈ N →∞
n∈ 
n=1

N
X N
X
= lim hψ, EBn ψi = lim νψ, E (Bn ) .
N →∞ N →∞
n=1 n=1

Essas propriedades estão dizendo-nos que νψ, E é uma medida positiva sobre a σ-álgebra de Borel de
K. Se kψk = 1, tem-se que νψ, E (K) = hψ, EK ψi = kψk2 = 1, e vemos nesse caso νψ, E é uma medida
de probabilidade em K.
Se assim é, podemos construir uma integral (de Lebesgue) sobre a medida Boreliana νRψ, E , tal como
desenvolvido no Capı́tulo 20, página 895, e com a mesma teremos definidas as integrais gdνψ, E para
toda g Boreliana e limitada. Como mostraremos, seguindo passos semelhantes, mas não idênticos, à
construção dos operadores φ̂(A) ≡ g(A) feita acima (passos esses iniciados com aRProposição 23.46 e
que culminaram com o Teorema 23.35), podemos construir
R a partir das integrais gdνψ, E operadores
limitados, que denotaremos por φE (g) ≡ gE , tais que gdνψ, E = hψ, gE ψi para todo ψ ∈ H.

• Construindo os operadores φE (g) ≡ gE

Nossa construção dos operadores φE (g) ≡ gE assemelha-se àquela


R dos operadores φ̂(A) ≡ g(A) mas,
ao contrário daquele caso, não podemos partir do pressuposto que f dνψ, E = hψ, fE ψi para f ∈ C(K)
contı́nua, pois os operadores fE não foram ainda definidos. Nossa estratégia será inicialmente definir
tais operadores para as funções Borelianas simples de K e, a partir delas, definir os operadores g E para
g Boreliana e limitada.
Seja X um conjunto e Y ⊂ X. Define-se a função caracterı́stica de Y , denotada χY : X →  por

1, se x ∈ Y
χY (x) = .
0, se x 6∈ Y
P
Seja, s = m k=1 αk χBk uma função simples Boreliana limitada definida em K, onde Bk ∈ B(K) e
αk , para todo k = 1, . . . , m. O conjunto de todas as funções
Pm simples Borelianas limitadas definida em
K será denotado por Sl (K). Definimos φE (s) ≡ sE := k=1 αk EBk . É elementar constatar que

φE (αr + βs) = αφE (r) + βφE (s) , φE (rs) = φE (r)φE (s) ,

φE (s)∗ = φE (s) , φE (1) = φE (χK ) = , (23.125)

para todas r, s ∈ Sl (K) e todos α, β ∈ . Como rs = sr, segue de que φE (r)φE (s) = φE (r)φE (s) para
todas r, s ∈ Sl (K). Assim, P
φE : Sl (K) → B(H) é um ∗-homomorfismo. Observe-se que se s ∈ Sl (K) é
representado na forma s = m k=1 αk χBk (com os Bk ’s disjuntos) então o espectro de s é {α1 , . . . , αm }
e ksk coincide com max{|α1 |, . . . , |αm |} = supx∈K |s(x)| ≡ ksk∞ .
Temos o seguinte análogo à Proposição 23.46, da página 1125:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1135/1195

Proposição 23.47 Para cada g ∈ Bl (K), Boreliana e limitada, a aplicação Sg : H × H → definida


por
3 Z
1 X −n
Sg (u, v) := i g dνψn , E (23.126)
4 n=0 K

onde ψn := u + in v, é uma aplicação sesqui-linear e bicontı́nua em H, sendo que |S g (u, v)| ≤


kgk∞ kuk kvk para todos u, v ∈ H. Assim, pela Proposição 23.45, existe um operador limitado, que
denotaremos por φE (g) ≡ gE , tal que

Sg (u, v) = hu, gE vi

para todos u, v ∈ H. Vale igualmente que

kgE k ≤ kgk∞ . (23.127)

Pm
Prova. Para cada função s ∈ Sl (K) da forma s = k=1 αk χBk tem-se pela identidade de polarização
(2.21), página 124, que
3 Z m 3 Z
1 X −n X 1 X −n
Ss (u, v) = i sdνψn , E = αk i χBk dνψn , E
4 n=0 K k=1
4 n=0 K

m
X 3
1 X −n
= αk i νψn , E (Bk )
k=1
4 n=0

m
X 3 3
(23.124) 1 X −n 1 X −n
= αk i hψn , EBk ψn i = i hψn , sE ψn i
k=1
4 n=0 4 n=0

3
1 X −n
= i h(u + in v), sE (u + in v)i
4 n=0

= hu, sE vi ,

Isso mostra que Ss , com s ∈ Sl (K), é sesquilinear e é bicontı́nua pois, por Cauchy-Schwarz, vale
|hu, sE vi| ≤ ksE k kuk kvk ≤ ksk∞ kuk kvk. Queremos agora provar que essas propriedades estendem-se
às formas Sg , com g ∈ Bl (K), e a idéia é explorar o fato que tais funções podem ser aproximadas
por funções simples. Mais especificamente, usaremos os seguintes fatos: pelo Lema 20.3, página 920, e
pelo Corolário 20.2, se g ∈ Bl (K), existe uma seqüência sn ∈ Sl (K) tal que limn→∞ sn (x) = g(x) para
todo x ∈ K. Podemos escolhe-la de forma que supx∈K |sn (x)| ≤ supx∈K |g(x)| para todo n. Agora,
pelo Teorema da Convergência
R Dominada, Teorema 20.6, página 935, segue do fato de a própria g ser
integrável que limn→∞ K |sn − g|dν = 0. Se ν é uma R soma finita de medidas, ν = ν1 + · · · + νl , segue
disso que para todo  > 0 existe s ∈ Sl (K) tal que K |s − g|dνk <  para todo k = 1, . . . , l e de modo
que supx∈K |s(x)| ≤ supx∈K |g(x)|.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1136/1195

Disso extraı́mos essencialmente a mesma conseqüência que em (23.114): para cada u, v ∈ H,


g ∈ Bl (K) e  > 0 podemos encontrar s ∈ Sl (K) tal que |Sg (u, v) − Ss (u, v)| ≤ . Como em (23.115),
isso implica, |Sg (u, v)| = |Sg (u, v) − Ss (u, v) + Ss (u, v)| ≤ |Sg (u, v) − Ss (u, v)| + |Ss (u, v)| ≤
 + ksE k kuk kvk e como ksE k ≤ ksk∞ ≤ kgk∞ temos também |Sg (u, v)| ≤ kgk∞kuk kvk para todo
u, v ∈ H.
Tendo provado que Sg é sesquilinear e bicontı́nua, concluı́mos novamente pela Proposição 23.45,
que existe um operador limitado φE (g) ≡ gE , tal que Sg (u, v) = hu, gE vi para todos u, v ∈ H com
kgE k ≤ kgk∞.

Sobre φE (g) : Bl (K) → B(H) vale o seguinte:


Teorema 23.36 (Cálculo Funcional Boreliano (versão para mvpo’s)) Seja H um espaço de Hil-
bert, K ⊂ compacto e E : B(K) → B(H) uma medida com valores em projeções ortogonais e seja


φE : Bl (K) → B(H) definida acima. Então, kφE (g)kH ≤ kgk∞ para toda g ∈ Bl (K). Fora isso, valem
as seguintes afirmações:

1. A aplicação φE é um ∗-homomorfismo algébrico, ou seja,

φE (αg + βh) = αφE (g) + βφE (h) , φE (gh) = φE (g)φE(h) ,

φE (g)∗ = φE (g) , φE (1) = , (23.128)


para todas g, h ∈ Bl (K) e todos α, β ∈ . Como gh = hg, segue de (23.128) que φE (g)φE(h) =
φE (h)φE (g) para todas g, h ∈ Bl (K).
2. Se g ≥ 0 tem-se também φE (g) ≥ 0.
3. Sejam g ∈ Bl (K) e gn ∈ Bl (K), n ∈  , tais que lim gn (x) = g(x) para todo x ∈ K mas tais
n→∞
que existe M > 0 para o qual kgn k∞ < M para todo n ∈ . Então, φE (gn ) converge a φE (g) na


topologia forte, ou seja, para todo ψ ∈ H a seqüência φE (gn )ψ converge a φE (g)ψ. 2

Prova. As demonstrações dos itens 1 e 2 repetem os mesmos passos das demonstrações respectivas
do Teorema 23.35, apenas com a diferença que as funções Borelianas não são aqui aproximadas por
funções contı́nuas, mas por funções simples.

• Integração sobre uma medida com valores em projeções ortogonais

Por analogia à definição de integral sobre medidas, vamos escrever


Z Z
φE (g) ≡ gE ≡ g(λ) dEλ ≡ g(λ) dEλ ,
K
R
para denotar o operador obtido na Proposição 23.47 tal que hψ, gE ψi = gdνψ, E para todo ψ ∈ H
com kψk = 1. Com essa notação, podemos também formalmente escrever
Z Z
hψ, gE ψi ≡ g(λ) hψ, dEλ ψi ≡ g(λ) dhψ, Eλ ψi
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1137/1195

e entender dhψ, Eλ ψi como uma nova notação para dνψ, E .


O fato de φE ser um ∗-homomorfismo entre as álgebras Bl (K) e B(H) (Teorema 23.36, página 1136)
expressa-se na nova notação da seguinte forma, que nada mais é que a (23.128):
Z   Z Z
αg(λ) + βh(λ) dEλ = α g(λ) dEλ + β h(λ) dEλ , (23.129)
K K K
Z Z  Z 
(gh)(λ) dEλ = g(λ) dEλ h(λ) dEλ , (23.130)
K K K
Z ∗ Z
g(λ) dEλ = g(λ) dEλ , (23.131)
K K
Z Z Z
χK (λ) dEλ ≡ 1 dEλ ≡ dEλ = , (23.132)
K K K

válidas para todas g, h ∈ Bl (K) e todos α, β ∈ .


De particular importância é o operador obtido do monômio f (λ) = λ. Vamos denotá-lo por A E :
Z
AE := λ dEλ .

Mostraremos que a cada operador A limitado auto-adjunto existe uma única medida E com valores
em projeções ortogonais com a propriedade que AE = A.

23.7.4 Os Projetores Espectrais e o Teorema Espectral


Seja B ⊂ σ(A) um conjunto Boreliano. Então χB ∈ Bl (σ(A)). A introdução dos operadores φ̂(g) =
g(A) para g Boreliana e limitada permite-nos definir os operadores limitados PB := φ̂(χB∩σ(A) ) ≡
χB (A), denominados projetores espectrais do operador auto-adjunto A. Suas propriedades básicas estão
coletadas no seguinte teorema:
Teorema 23.37 Seja A um operador auto-adjunto agindo em um espaço de Hilbert H. Então a
associação P : B(σ(A)) → B(H) que a cada Boreliano de σ(A) associa um operador limitado dada por
B(σ(A)) 3 B 7→ PB := φ̂(χB ) ≡ χB (A) ∈ B(H) é uma medida com valores em projeções ortogonais,
mais especificamente, tem-se

1. Cada PB é um projetor ortogonal, ou seja, PB2 = PB e PB∗ = PB .


2. P∅ = 0 e Pσ(A) = .
3. PB1 PB2 = PB1 ∩B2 para todos B1 , B2 ⊂ σ(A) Borelianos.
4. Se Bn , n ∈ , é uma coleção contável de Borelianos em σ(A) satisfazendo B k ∩ Bl = ∅ sempre


que k 6= l, então
XN
P Bn = s−lim
S
PB n ,
n∈ N →∞
n=1
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1138/1195

onde s−lim é o limite na topologia forte, ou seja, para todo ψ ∈ H vale


N
X
P S
Bn ψ = lim PB n ψ .
n∈ N →∞
n=1

5. Se ψ ∈ H, vale
µψ, A (B) = hψ, PB ψi , (23.133)
para todo B ∈ B(σ(A)).

Os projetores PB com B ∈ B(σ(A)) são denominados projetores espectrais do operador A. 2

Prova do Teorema 23.37.


Prova do item 1. Como χ2B = χB e χB = χB , o item 1 segue do item 1 do Teorema 23.35.
Prova do item 2. χ∅ = 0 e, daı́, P∅ = φ̂(χ∅ ) = 0. Fora isso, χσ(A) coincide em σ(A) com o polinômio
constante igual a 1. Logo, pelo enunciado Teorema 23.35, tem-se Pσ(A) = φ̂(χσ(A) ) = φ̂(1) = .
Prova do item 3. χB1 χB2 = χB1 ∩B2 . Logo, pela propriedade de homomorfismo de φ̂, item 1 do Teorema
23.35, vale PB1 PB2 = φ̂(χB1 )φ̂(χB2 ) = φ̂(χB1 ∩B2 ) = PB1 ∩B2 .
P
Prova do item 4. A seqüência de funções Borelianas gN = N n=1 χBn satisfaz kgN k∞ = 1 para todo N ,
pois os Bn são disjuntos e, portanto, cada ponto x ∈ σ(A) pode estar no máximo em um dos Bn ’s. É
também claro que para cada x ∈ σ(A)
N
X
χ S
Bn (x) = lim χBn (x) = lim gN (x) .
n∈ N →∞ N →∞
n=1

Portanto, pelo item 3 do Teorema 23.35, segue que


  N
! N
X X
φ̂ χ S
Bn = s−lim φ̂ χB n = s−lim φ̂ (χBn ) ,
n∈ N →∞ N →∞
n=1 n=1

ou seja,
N
X
P S
Bn = s−lim PB n .
n∈ N →∞
n=1
R
Prova do item 5. A prova é elementar, pois µψ, A (B) = σ(A)
χB dµψ, A = hψ, χB (A)ψi ≡ hψ, PB ψi.

É evidente agora que νφ, P = µψ, A , pelo menos quando essas medidas estão restritas à σ-álgebra de
Borel de σ(A). Com o uso da notação introduzida acima, teremos
Z
g(A) = g(λ) dPλ (23.134)
σ(A)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1139/1195

para toda g ∈ Bl (σ(A)) e, em particular, podemos escrever o próprio operador auto-adjunto A na


forma Z
A = λ dPλ . (23.135)
σ(A)

As relações (23.129)-(23.132) ficam


Z   Z Z
αg(λ) + βh(λ) dPλ = α g(λ) dPλ + β h(λ) dPλ , (23.136)
σ(A) σ(A) σ(A)

Z Z  Z 
(gh)(λ) dPλ = g(λ) dPλ h(λ) dPλ , (23.137)
σ(A) σ(A) σ(A)

Z ∗ Z
g(λ) dPλ = g(λ) dPλ , (23.138)
σ(A) σ(A)

Z Z Z
χσ(A) (λ) dPλ ≡ 1 dPλ ≡ dPλ = , (23.139)
σ(A) σ(A) σ(A)

válidas para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ .

• Unicidade dos projetores espectrais

Se tivermos uma outra medida E com valores em projeções ortogonais tal que A E = A, será essa
medida
R idêntica
R à medida dos projetores espectrais P definida acima? A Rresposta é sim! De
R fato, se A =
σ(A)
λ dPλ = σ(A) λ dEλ vale para todo polinômio p a relação p(A) = σ(A) p(λ) dPλ = σ(A) p(λ) dEλ
(para isso, use (23.129)-(23.130) e (23.136)-(23.137)). Assim, para todo ψ ∈ H e todo polinômio p,
vale
 Z    Z   Z Z
ψ, p(λ) dPλ ψ = ψ, p(λ) dEλ ψ , ou seja, p(λ) dµψ, A = p(λ) dνψ, E .
σ(A) σ(A) σ(A) σ(A)
R R
Pelo Teorema de Weierstrass, concluı́mos disso que σ(A) f dµψ, A = σ(A) f dνψ, E para toda função
contı́nua f ∈ C(σ(A)).
R Usando novamente
R o Teorema de Lusin, Teorema 23.34, e o Corolário 23.14,
obtem-se daı́ que σ(A) g dµψ, A = σ(A) g dνψ, E para toda função Boreliana limitada g ∈ Bl (σ(A)). Em
R R
particular, para um conjunto Boreliano B ⊂ σ(A), arbitrário, tem-se σ(A) χB dµψ, A = σ(A) χB dνψ, E ,
ou seja, µψ, A (B) = νψ, E (B). Isso, por sua vez afirma, por (23.124) e por (23.133), que hψ, PB ψi =
hψ, EB ψi para todo ψ ∈ H, o que, pela identidade de polarização (expressão (2.21), página 124) implica
PB = EB . Como B é arbitrário, isso significa que as medidas com valores em projetores ortogonais P
e E coincidem, caso A = AE .

• O Teorema Espectral para operadores auto-adjuntos limitados

Chegamos assim ao seguinte:


Teorema 23.38 (Teorema Espectral) Seja H um espaço de Hilbert e seja A ∈ B(H) auto-adjunto.
Então existe uma única medida com valores em projeções ortogonais P : B(σ(A)) → B(H), a saber,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1140/1195

aquela estabelecida no Teorema 23.37, com B(σ(A)) 3 B 7→ PB := φ̂(χB ) ≡ χB (A) ∈ B(H), tal que,
com a notação acima, Z
A = λ dPλ . (23.140)
σ(A)

Tem-se, também de modo único, Z


g(A) = g(λ) dPλ .
σ(A)

para toda g ∈ Bl (σ(A)) e de sorte que as relações (23.136)-(23.139) são válidas para todas g, h ∈
Bl (σ(A)) e todos α, β ∈ . 2

A expressão (23.140) é denominada representação espectral, ou decomposição espectral do operador


auto-adjunto limitado A. O Teorema Espectral é de importância fundamental para a Fı́sica Quântica,
mas antes de discutirmos isso na Seção 23.7.5, façamos alguns comentários de natureza notacional.

• A notação de Dirac

Na Fı́sica Quântica, encontra-se para as expressões (23.134)-(23.135) a notação, dita notação de


Dirac48 , Z Z
A = λ d|λihλ| , g(A) = g(λ) d|λihλ| ,
σ(A) σ(A)

ou seja, nela identificamos dPλ ≡ d|λihλ|. Assim, na notação de Dirac (23.136)-(23.139) ficam
Z   Z Z
αg(λ) + βh(λ) d|λihλ| = α g(λ) d|λihλ| + β h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)

Z Z  Z 
(gh)(λ) d|λihλ| = g(λ) d|λihλ| h(λ) d|λihλ| ,
σ(A) σ(A) σ(A)

Z ∗ Z
g(λ) d|λihλ| = g(λ) d|λihλ| ,
σ(A) σ(A)
Z Z Z
χσ(A) (λ) d|λihλ| ≡ 1 d|λihλ| ≡ d|λihλ| = ,
σ(A) σ(A) σ(A)

válidas para todas g, h ∈ Bl (σ(A)) e todos α, β ∈ .


Advertimos o leitor que, ao contrário do que é lamentavelmente sugerido em muitos livros-texto de
Mecânica Quântica, não é sempre legı́timo interpretar o sı́mbolo |λihλ| como um projetor sobre um
autovetor |λi, pois nem todo λ ∈ σ(A) é um autovalor de A e |λi não necessariamente designa um
legı́timo vetor de H. A notação de Dirac é apenas isso: uma notação. Mais especificamente, é uma
notação para representar os fatos descritos no Teorema Espectral, Teorema 23.38.
Há uma pequena literatura matemática que pretende atender ao interesse de alguns fı́sicos no sentido
de atribuir um status extra-notacional às manipulações formais envolvendo os sı́mbolos “bra” hλ| e “ket”
48
Paul Adrien Maurice Dirac (1902-1984).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1141/1195

|λi, através dos chamados “rigged Hilbert spaces”49 . Citemos aqui [99]: “We must emphasize that we
regard the spectral theorem as sufficient for any argument where a nonrigorous approach might rely on
the Dirac notation; thus, we only recommend the abstract rigged space approach to readers with a strong
emotional attachment to the Dirac formalism”.

23.7.5 A Relevância do Teorema Espectral para a Fı́sica Quântica (um


pouco de Fı́sica, finalmente)

• O Teorema Espectral e distribuições de probabilidade no espectro

Se ψ ∈ H é um vetor não-nulo do espaço de Hilbert H e g : Bl (σ(A)) → é uma função Boreliana


limitada definida no espectro de um operador auto-adjunto e limitado A, sabemos pelas considerações
acima que Z Z
hψ, g(A)ψi = g dµψ, A = g(λ) dhψ, Pλ ψi .
σ(A) σ(A)

A medida µψ, A é uma medida positiva em σ(A) e se kφk = 1 sabemos também que
Z Z
dµψ, A = dhψ, Pλ ψi = 1 .
σ(A) σ(A)

Esses dois fatos estão dizendo-nos que µψ, A é uma medida de probabilidade em σ(A). Esse simples fato
matemático tem uma conseqüência significativa no contexto da Fı́sica Quântica, o qual está na raiz da
axiomatização e formalização da mesma em termos de espaços de Hilbert e de operadores agindo em
espaços de Hilbert. Para melhor compreendermos esse fato, façamos algumas considerações gerais.

• Algumas considerações gerais sobre teorias fı́sicas

A Fı́sica compõe-se de várias teorias, relacionadas entre si de diversas formas e que em maior ou
menor grau de aproximação descrevem o mundo observável. Podemos listar a Mecânica Clássica, a
Termodinâmica, a Mecânica Quântica, a Teoria Quântica de Campos Relativista, a Teoria da Relativi-
dade Geral e a Mecânica Estatı́stica. Essas diversas teorias possuem, porém, uma série de ingredientes
em comum. Qualquer teoria fı́sica deve saber especificar:

As grandezas fı́sicas observáveis e sua descrição matemática, a relações entre esses observáveis,
tais como relações de compatibilidade, relações algébricas etc.

O conjunto de valores que podem surgir de medidas individuais de observáveis.

A associação entre sistemas fı́sicos, os observáveis e as distribuições de probabilidade que descre-


vem medidas desses observáveis nos estados.

O conjunto dos estados puros.


49
Vide, e.g., os trabalhos de John Roberts “The Dirac Bra and Ket Formalism”, J. Math. Phys. 7, 1097-1104 (1966)
e “Rigged Hilbert Spaces in Quantum Mechanics”, Commun. Math. Phys. 3, 98-119 (1966). O próprio Roberts não mais
valoriza esse tipo de abordagem.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1142/1195

A dinâmica dos observáveis e dos estados.

As simetrias dos sistemas fı́sicos descritos e suas implementações em estados e observáveis.

Vamos tentar discutir melhor alguns dos pontos acima.

• Observáveis e Distribuições de Probabilidade

Cada teoria fı́sica possui seu próprio conjunto de grandezas observáveis e um de seus objetivos prin-
cipais é descrever o resultado de medidas desses observáveis em sistemas fı́sicos. Seja A uma grandeza
fı́sica observável e C(A) o conjunto de valores possı́veis resultantes de medições de A (em qualquer
estado). É um fato experimental que medidas repetidas de um observável A, mantidas as mesmas
condições, ou seja, no mesmo estado fı́sico E do sistema estudado, não fornecem necessariamente o
mesmo valor em C(A), tendo um caráter aleatório.
É um fato observacional que uma sucessão idealmente infinita de medidas experimentais de A, todas
sob as mesmas condições fı́sicas do sistema em questão, deverá produzir uma distribuição estatı́stica
em C(A) definida por uma medida de probabilidade. Denominemos genericamente essas condições
fı́sicas por E (que pode concretamente representar um conjunto de parâmetros fı́sicos do sistema) e
por µE, A a medida de probabilidade em questão. Essa medida de probabilidade µE, A é uma função
tanto do conjunto de condições E que especifica o sistema quanto do observável A considerado. Essa
medida de probabilidade µE, A é denominada estado (ou estado fı́sico) do sistema em questão em relação
ao observável A. Como toda informação sobre as propriedades do sistema fı́sico no que concerne ao
observável A deve ser resultante da análise estatı́stica das medições experimentais de A no sistema,
concluı́mos que a medida de probabilidade µE, A , ou seja, o estado fı́sico do sistema, contem em si toda
informação disponı́vel sobre essas propriedades.
Aqui encontra-se embutido um princı́pio fı́sico (filosófico, se quiserem) que apenas a realidade ob-
jetiva proveniente da experimentação permite inferências sobre um sistema fı́sico, e essa realidade
manifesta-se na forma distribuições estatı́sticas nos conjuntos C(A) para os vários observáveis A com
os quais estudamos o sistema. Em outras palavras, a realidade de um sistema fı́sico só é alcançada com
base em experimentação e as inferências sobre o mesmo devem ser inferências estatı́sticas com base nos
dados experimentais. É somente com base nessas inferências que se pode determinar padrões gerais (se
houver) que conduzam à elaboração de leis fı́sicas e teorias para explicá-las com base em princı́pios mais
simples (postulados fı́sicos) e inferência matemática. Permitam-nos um comentário histórico-filosófico.
É uma crença geral dos fı́sicos, expressa pela primeira vez por Galilei5051 no séculos XVI-XVII, mas
com raı́zes mais profundas, que a formulação de teorias fı́sicas com base em idéias matemáticas, uma
50
Galileo Galilei (1564-1642). “O livro da natureza não pode ser lido até aprendermos sua linguagem e nos tornarmos
familiares com os sı́mbolos no qual está escrito. E ele está escrito em linguagem matemática, e suas letras são triângulos,
cı́rculos e outras figuras geométricas, sem as quais é humanamente impossı́vel compreender uma única palavra e há
apenas um vagar perdido em um labirinto escuro”’. Il Saggiatore, 1623. Aos “triângulos e cı́rculos” acrescentarı́amos
modernamente equações diferenciais, medidas de probabilidade, operadores em espaços de Hilbert e álgebras C ∗ .
51
O original de Galilei é “La filosofia è scritta in questo grandissimo libro che continuamente ci sta aperto innanzi a
gli occhi (io dico l’universo), ma non si può intendere se prima non s’impara a intender la lingua, e conoscer i caratteri,
ne’ quali è scritto. Egli è scritto in lingua matematica, e i caratteri sono triangoli, cerchi, ed altre figure geometriche,
senza i quali mezi è impossibile a intenderne umanamente parola; senza questi è un aggirarsi vanamente per un’oscuro
laberinto”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1143/1195

construção da mente humana, seja possı́vel. Que tal tenha seja verdade, o que é corroborado pela
história da Fı́sica até agora, é talvez o maior enigma de toda a Ciência.
Há três possı́veis origens para a aleatoriedade, que mencionamos acima, observada na medição de
um observável em um sistema fı́sico, origens essas que podem ocorrer concomitantemente: ela pode ser
proveniente de erros experimentais de medição, pode ser proveniente de um conhecimento incompleto
do sistema estudado, ou pode ser intrı́nseca do sistema descrito, fato identificado pela primeira vez na
Fı́sica Atômica.
Normalmente, na elaboração de teorias fı́sicas, considera-se a situação ideal na qual imprecisões
experimentais são negligenciadas. Ainda assim restam as duas outras fontes de aleatoriedade, as quais
então devem ser devidamente consideradas no arcabouço teórico. Mais adiante lembraremos como isso
é feito em alguns casos.
O fato que queremos enfatizar é que teorias fı́sicas devem ser capazes de associar a cada estado
fı́sico de um sistema e a cada observável uma distribuição de probabilidades que descreve uma sucessão
de medições daquele observável naquele estado. Note-se que isso não exclui teorias deterministas, como
a Mecânica Clássica, pois situações determinı́sticas também podem ser descritas por distribuições de
probabilidade, tais como distribuições delta de Dirac.

• Variâncias e estados puros

No processo de análise estatı́stica dos resultados de medições de um observável A de um sistema


fı́sico em um determinado estado várias grandezas desempenham um papel. Uma delas é o chamado
valor médio das medidas de A nessa distribuição, ou seja, sua esperança ou valor esperado, que será
denotado aqui por por hAiE . Outras grandezas relevantes são os momenta hAn iE , n ∈ . É um 

fato matemático bem conhecido (conseqüência do Teorema de Weierstrass, aliás) que se C(A) for um
conjunto compacto, então a medida de probabilidade µE, A pode ser recuperada a partir do conjunto
de momenta hAn iE , n ∈ . 52 

Outra grandeza estocástica importante é a chamada variância, dada por Var E (A) := hA2 iE −hAi2E =
h(A − hAiE )2 iE ≥ 0, que fornece uma indicação qualitativa do quanto os valores das medições de A
afastam-se de seu valor médio. Na Teoria de Probabilidades, o valor esperado (ou “esperança”) de
uma função mensurável (“variável aleatória”) A definida em um espaço amostral Ω e sua variância em
relação a uma medida de probabilidade µ em Ω são dadas por
Z Z
µ (A) ≡ hAiµ := A dµ , Varµ (A) := (A − hAiµ )2 dµ ,
Ω Ω

respectivamente.
Apesar de não ser a única grandeza estocástica que fornece esse tipo de informação qualitativa, a
variância é uma grandeza útil. Na Mecânica Quântica, por exemplo, o célebre princı́pio de incerteza
de Heisenberg53 é uma afirmação sobre a variância de dois observáveis (momento e posição em uma
52
Daı́ a importância de considerarmos observáveis A que sejam limitados, ou seja, para os quais C(A) seja compacto.
Como discutiremos, na Fı́sica Quântica C(A) é identificado com σ(A), o espectro de um operador auto-adjunto A. σ(A)
é compacto (fechado e limitado) se A for um operador auto-adjunto e limitado. Na chamada formulação algébrica das
Teorias Quânticas de Campos, todo o tratamento é feito considerando-se observáveis que sejam operadores auto-adjuntos
e limitados, em espaços de Hilbert ou de álgebras C∗ . Vide [49] ou [3].
53
Werner Karl Heisenberg (1901-1976).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1144/1195

mesma direção cartesiana): Var(px ) Var(x) ≥ ~2 /4.


Na teoria de probabilidades, uma medida de probabilidades em um espaço amostral µ é dita ser pura
se não puder ser escrita como combinação linear convexa de duas outras medidas de probabilidades
do mesmo espaço amostral, ou seja, se não puder ser escrita na forma µ = αµ1 + (1 − α)µ2 onde µ1
e µ1 e µ2 são também medidas de probabilidade e 0 < α < 1. É um exercı́cio fácil mostrar que se
µ = αµ1 + (1 − α)µ2 , então
hAiµ = αhAiµ1 + (1 − α)hAiµ2
e h i2
Varµ (A) = αVarµ1 (A) + (1 − α)Varµ2 (A) + α(1 − α) hAiµ1 − hAiµ2 .
Disso concluı́mos que

Varµ (A) ≥ αVarµ1 (A) + (1 − α)Varµ2 (A) ≥ min{Varµ1 (A) , Varµ2 (A)}.

Assim, a variância Varµ (A) na medida não-pura µ é sempre maior ou igual à menor das duas variâncias
Varµ1 (A) ou Varµ2 (A). Entendemos, dessa forma, que se restringirmos as medidas µ a um certo conjunto
de medidas M sobre o espaço amostral, então os menores valores possı́veis das variâncias Var µ (A) de
uma função A fixa são alcançadas quando µ encontra-se no sub-conjunto das medidas de probabilidades
puras de M. Nesse sentido, as medidas de probabilidade puras representam aquelas com o menor desvio
possı́vel da grandeza representada por A do seu valor médio.
Dizemos que um sistema fı́sico está em um estado puro para um determinado observável A se µ E, A for
pura. Os estados puros de um sistema fı́sico representam, assim, aqueles com menores “flutuações” da
grandeza observável A. Compreendemos, assim, que determinar quais os estados puros de um sistema
fı́sico e quais as variâncias de observáveis nesses estados puros fornece uma importante informação
sobre as menores flutuações possı́veis que podem ser observadas nesse sistema. Essa é uma importante
informação sobre o grau de aleatoriedade intrı́nseca (ou seja, não proveniente de erros experimentais
ou de conhecimento incompleto) da teoria fı́sica subjacente que descreve o sistema em questão.
Como discutiremos à página 1149, uma outra razão da importância dos estados puros reside no fato
que tanto na Mecânica Clássica quanto na Mecânica Quântica vale a afirmação que o conhecimento dos
valores esperados de um observável em todos os estados puros de um sistema determina univocamente
esse observável.

• O modelo da Mecânica Clássica

Na Mecânica Clássica todos os processos experimentais básicos de medida envolvem medidas de


posição e velocidade, as quais podem ser efetuadas simultânea e independentemente, de modo que, em
princı́pio, quaisquer funções envolvendo as coordenadas e os momenta de um sistema são grandezas
fı́sicas observáveis. É possı́vel constituir novos observáveis procedendo operações algébricas simples com
outros observáveis, tais como combinações lineares, produtos etc. É, portanto, conveniente considerar
a álgebra de todas as funções definidas no espaço de fase do sistema considerado como constituindo
a coleção de todas as grandezas fı́sicas observáveis desse sistema. Como o resultado de uma medida
fı́sica é sempre um número real as grandezas fı́sicas observáveis devem ser funções do espaço de fase
em números reais . Por razões técnicas é conveniente tomar apenas a álgebra das funções definidas

JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1145/1195

no espaço de fase que sejam mensuráveis em relação à medida de Liouville 54 dqdp, evitando assim
patologias matemáticas.
Uma caracterı́stica importante de sistemas clássicos é a possibilidade de medição simultânea e in-
dependente de quaisquer observáveis distintos. Tal caracterı́stica é denominada compatibilidade de
observáveis. Uma conseqüência da compatibilidade dos observáveis clássicos, a qual acabou implicita-
mente embutida nas observações acima, é que os mesmos formam uma álgebra comutativa.
Dado um observável assim abstratamente definido como sendo uma função f (q, p) podemos nos
perguntar que valores obteremos ao fazer uma medida desse observável em um certo instante de tempo?
A resposta é um tanto decepcionantemente óbvia: se as coordenadas do sistema considerado forem
naquele instante de tempo q0 e seus momenta p0 , então o valor medido de f será f (q0 , p0 ). A coleção
C(f ) de todos os possı́veis de resultados de medidas de f é, portanto, a imagem de f como função de
em . 

Na Mecânica Clássica os estados fı́sicos são descritos por distribuições de probabilidade no espaço
de fase, de modo que valores médios de um observável f são dados por
Z
hf i = f (q, p) ρ(q, p) dqdp , (23.141)
R
com ρ(q, p) ≥ 0 e ρ(q, p) dqdp = 1. Nesse sentido podemos identificar a função (ou medida) ρ com
o próprio estado do sistema, pois dela obtem-se univocamente as distribuições de probabilidade nos
conjuntos C(f ), que identificamos com a imagem das funções f : → . 

Distribuições tipo medida delta de Dirac ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) com
Z
hf iq0 , p0 = f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 )

representam estados puros do sistema tratado e podem ser interpretadas como estados com informação
maximal. Para estados como ρq0 , p0 (q, p) = δ(q − q0 )δ(p − p0 ) tem-se certeza quanto a posições e
momenta dos constituintes do sistema e a variância da distribuição de f é nula, assim como as demais
flutuações, pois
Varq0 , p0 (f ) = hf 2 iq0 , p0 − hf i2q0 , p0 = f (q0 , p0 )2 − f (q0 , p0 )2 = 0 .
Em tais estados, medidas do observável f fornecem um e somente um valor, a saber, f (q 0 , p0 ). Nenhuma
aleatoriedade ocorre, portanto, na medição de quaisquer observáveis quando o sistema encontra-se em
um estado puro clássico. A crença de que é sempre possı́vel fixar todos os parâmetros de um sistema
de modo a fixar completamente seu estado e de modo a eliminar toda aleatoriedade em medições
de observáveis é por vezes denominada “realismo”. A Mecânica Clássica, assim como toda a Fı́sica
Clássica, é nesse sentido realista. Essa caracterı́stica não é encontrada na Fı́sica Quântica, onde os
estados puros podem produzir variâncias não-nulas.
Na Mecânica Clássica não apenas estados puros têm interesse. Na Mecânica Estatı́stica Clássica,
por exemplo, considera-se também estados com distribuições do tipo
1
ρ(q, p) = δ(H(q, p) − E) (23.142)
V (E)
54
Joseph Liouville (1809-1882).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1146/1195

no chamado ensemble micro-canônico com R energia E, onde H(q, p) é o Hamiltoniano do sistema e V (E)
é a constante de normalização V (E) = δ(H(q, p) − E) dqdp (suposta finita). No chamado ensemble
canônico adota-se o chamado estado de Gibbs55
1
ρ(q, p) = e−βH(q, p) , (23.143)
Z(β)
R
com a constante de normalização Z(β) = e−βH(q, p) dqdp suposta finita, β sendo o inverso da tempe-
ratura.
A dinâmica dos observáveis de um sistema mecânico clássico é definida pelo fluxo Hamiltoniano no
espaço de fase, o qual é caracterizado pelas equações de Hamilton56 ,

q̇ = −∂p H(q, p) , ṗ = ∂q H(q, p) ,

onde o Hamiltoniano H é uma função diferenciável definida no espaço de fase e satisfazendo condições
adequadas para garantir unicidade e existência de soluções (de preferência globais) para as equações
acima a partir de condições iniciais q(0) e p(0). Se qt e pt são soluções das equações de Hamilton, a
evolução de um observável f é expressa por ft (q, p) := f (qt , pt ). Assim, por (23.141),
Z Z
hf it := hft i = f (qt , pt ) ρ(q, p) dqdp = f (q, p) ρ(q−t , p−t ) dq−t dp−t .

Como a medida de Liouville R dqdp é invariante por um fluxo Hamiltoniano (Teorema de Liouville),
concluı́mos que hf it = f (q, p) ρt (q, p) dqdp, onde ρt (q, p) := ρ(q−t , p−t ) representa a evolução
temporal do estado descrito por ρ. Essa relação ensina-nos como a evolução dos observáveis na Mecânica
Clássica reflete-se na evolução dos estados.
Por (23.142) e (23.143), é evidente que as medidas dos ensemble micro-canônico e canônico são
invariantes pela evolução temporal (um requisito para que as mesmas descrevam estados de equilı́brio),
pois H(qt , pt ) = H(q, p) para todo t.

• O quadro da Fı́sica Quântica

Na Fı́sica Quântica não mais é verdade que os processos experimentais de medida envolvem medidas
de posição e velocidade, pois estas não podem ser feitas de modo independente e simultâneo. Perde-se,
portanto, a propriedade de compatibilidade de alguns observáveis. Como é bem sabido o desenvolvi-
mento histórico da Mecânica Quântica levou à proposição que os observáveis devem ser representados
por operadores auto-adjuntos agindo em um espaço de Hilbert. Um dos postulados adotados afirma
que medidas individuais de um observável representado por um operador A devem ser elementos do
espectro desse operador.
Segundo os postulados da Mecânica Quântica, os estados fı́sicos do sistema quântico com um número
finito de graus de liberdade (ou seja, descrevendo um número finito de partı́culas) são descritos por
“matrizes densidade”57 atuando em um espaço de Hilbert H, ou seja, operadores auto-adjuntos positivos
55
Josiah Willard Gibbs (1839-1903).
56
Sir William Rowan Hamilton (1805-1865).
57
Cabe mencionar que boa parte da interpretação matemática da Fı́sica Quântica que apresentaremos de modo re-
sumido no que segue origina-se das contribuições de von Neumann. János von Neumann (1903-1957). Von Neumann
também adotou os nomes de Johann von Neumann e John von Neumann.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1147/1195

ρ com Tr (ρ) = 1 de modo que o valor médio de um conjunto idealmente infinito de medidas do
observável A no estado descrito por ρ são dadas por hAi = Tr (ρA).
A escolha de operadores auto-adjuntos para o papel de observáveis é motivada por duas proprieda-
des: 1o o espectro de um operador auto-adjunto é um sub-conjunto da reta real, fato condizente com
o postulado que afirma que medidas individuais de um observável devem ser elementos do espectro do
operador associado; 2o o teorema espectralPafirma que operadores auto-adjuntos podem ser representa-
dos por somas (ou integrais) do tipo A = λ∈σ(A) λ Pλ . Aqui, Pλ designa formalmente o projetor sobre
o sub-espaço de auto-vetores de A com auto-valor λ. Por σ(A) denota-se o espectro de A. O sı́mbolo
de soma empregado
R acima tem um sentido apenas formal, devendo ser substituı́do por um sı́mbolo de
integral A = σ(A) λ dPλ , no sentido descrito no Teorema Espectral, Teorema 23.38, página 1139.
A importância do Teorema Espectral na formalização de teorias quânticas é enorme, pois é através
dele que podemos obter as distribuições probabilı́sticas associadas a medidas de um observável A em
um dado estado. De fato, pela prescrição acima e pelo Teorema Espectral, tem-se
X
hAi = Tr (ρA) = λ pλ , (23.144)
λ∈σ(A)

onde pλ = Tr (ρPλ ). Agora, é claro que pλ ≥ 0 e


 
X X
pλ = Tr ρ Pλ  = Tr (ρ) = 1 .
λ∈σ(A) λ∈σ(A)

Esses dois fatos conjuntamente com (23.144) conduzem à interpretação que p λ representa a medida de
probabilidade em σ(A) que descreve distribuições de medidas dos valores do observável A no estado
descrito por ρ. Nesse sentido podemos identificar ρ com o próprio estado do sistema, pois dele obtem-se
univocamente as distribuições de probabilidade nos conjuntos C(A), que identificamos com os espectros
σ(A) dos operadores auto-adjuntos A.
As observações acima mostram que a interpretação de observáveis da Fı́sica Quântica usual em
termos de operadores auto-adjuntos agindo em espaços de Hilbert é coerente com o propósito básico de
descrever medidas experimentais de observáveis e suas distribuições de probabilidade. Comentamos de
passagem que o esquema acima pode ser ainda generalizado e abstraı́do no seguinte sentido. As álgebras
de observáveis de sistemas quânticos podem ser tomadas como álgebras C ∗ abstratas e os estados fı́sicos
correspondem a estados sobre essas álgebras, ou seja, funcionais lineares positivos e normalizados. Nesse
contexto é igualmente possı́vel recuperar a descrição probabilista que esquematizamos acima. A grande
vantagem dessa descrição manifesta-se no tratamento de sistemas quânticos com um número infinito de
graus de liberdade, como na Mecânica Estatı́stica Quântica e na Teoria Quântica de Campos. Por ser
uma descrição independente de espaços de Hilbert, a descrição de observáveis em termos de álgebras C ∗
permite descrever fenômenos tı́picos de sistemas número infinito de graus de liberdade, como regras de
super-seleção e transições de fase. Para aplicações em Fı́sica das álgebras C ∗ remetemos às referências
[49], [3] e [15].
A evolução temporal de observáveis em um sistema com um número finito de graus de liberdade
é caracterizada por uma representação unitária fortemente contı́nua do grupo aditivo (represen-


tando a simetria de evolução temporal, para sistemas independentes do tempo): 3 t 7→ U (t), onde


U (0) = , U (t)U (t0 ) = U (t + t0 ) e U (t)−1 = U (t)∗ para todos t, t0 ∈ . Se A é um observável, sua



JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1148/1195

evolução será dada por At := U (t)AU (t)∗ . Assim, hAit := hAt i = Tr (ρAt ) = Tr (ρU (t)AU (t)∗ ) e pela
propriedade cı́clica do traço, obtemos hAit = Tr (ρt A) onde ρt := U (t)∗ ρU (t). Essa expressão mostra
como a evolução dos observáveis reflete-se na evolução dos estados. O fato de a evolução U (t) ser
fortemente contı́nua garante, pelo Teorema de Stone58 (vide [99]) que existe um operador auto-adjunto
(não necessariamente limitado) H tal que U (t) = e−iHt/~ para todo t ∈ . Com isso podemos (a menos


de tecnicalidades relativas a domı́nios) transformar por diferenciação a relação A t := U (t)AU (t)∗ na


equação de Heisenberg i~∂t At = [H, At ]. Para os estados teremos, analogamente, i~∂t ρt = −[H, ρt ].
Na Fı́sica Quântica a questão da compatibilidade de dois observáveis está diretamente ligada à
comutatividade dos operadores associados: dois observáveis só podem ser medidos simultaneamente
se os operadores correspondentes comutarem entre si. Essa questão é particularmente importante em
teorias quânticas de campos relativı́sticas, onde o chamado princı́pio de localidade de Einstein deve
ser respeitado. Esse princı́pio, um dos mais centrais em toda a Fı́sica, afirma que eventos separados
por intervalos tipo espaço não podem se relacionar causalmente. Esse princı́pio deve ser traduzido
nas teorias quânticas de campos relativı́sticas pela imposição que observáveis associados a pontos ou
regiões separadas por intervalo tipo espaço devem comutar entre si. As conseqüências dessa imposição
à estrutura das teorias quânticas de campos relativı́sticas são enormes, mas não nos cabe discutı́-las
aqui (vide, por exemplo, [49] e [3]).
Retornando a (23.144), estados puros de sistemas quânticos descritos em um espaço de Hilbert H
correspondem à situação na qual ρ é um projetor sobre um sub-espaço unidimensional de H: ρ = P ψ ,
ou seja, na notação de Dirac ρ = |ψihψ|, onde ψ ∈ H é um vetor normalizado kψk = 1. Assim, para
um estado puro com ρ = Pψ e kψk = 1 teremos hAiψ = hψ, Aψi.
O equivalente ao estado de Gibbs (23.143) à temperatura inversa β para um sistema quântico com
um número finito de partı́culas é ρβ = e−βH /Tr(e−βH ), caso o operador Hamiltoniano seja tal que
Tr(e−βH ) ≤ ∞ (o que é tipicamente o caso se o sistema é restrito a um volume espacial finito). Tais
operadores ρβ comutam com H e são, portanto, invariantes pela evolução temporal, como desejado
para estados de equilı́brio.
Um fato importante é que os estados puros podem apresentar variância não-nula para valores médios
de medidas de certos observáveis, o que não ocorre na Mecânica Clássica:

hA2 iψ − hAi2ψ = ψ, A2 ψ − (ψ, Aψ)2 6= 0,

a menos que ψ seja auto-vetor de A. De fato, para A auto-adjunto,

2
 2 1 2
 1
2

ψ, A ψ − (ψ, Aψ) = ψ ⊗ ψ, (A ⊗ − ⊗ A) ψ ⊗ ψ = (A ⊗ − ⊗ A)ψ ⊗ ψ .
2 2
Portanto, se hA2 iψ − hAi2ψ = 0 tem-se (A ⊗ − ⊗ A)ψ ⊗ ψ = 0, ou seja, Aψ ⊗ ψ = ψ ⊗ Aψ, o que,
pela definição de produto tensorial, implica59 Aψ = λψ para algum número λ.
Assim, a interpretação usual da Mecânica Quântica admite que o caráter aleatório de medidas de
observáveis em estados puros de sistemas quânticos seja uma propriedade intrı́nseca desses sistemas,
não sendo devido a um conhecimento incompleto dos mesmos nem a erros de experimentação. Mais
58
Marshall Harvey Stone (1903-1989).
59
 ⊗ ψ = ψ⊗ Aψ o operador (|ψihψ|) ⊗ , onde |ψihψ|
Para o estudante: aplicando-se a ambos os lados da igualdade Aψ
é o projetor sobre ψ, tem-se (ψ, Aψ)(ψ ⊗ψ) = ψ ⊗Aψ, ou seja, ψ ⊗ (ψ, Aψ)ψ = ψ ⊗Aψ, o que implica Aψ = (ψ, Aψ)ψ.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1149/1195

ainda, o conhecimento do estado de um sistema em um dado instante de tempo não permitiria prever
o resultados de medidas individuais de observáveis nesse estado em instantes futuros.
A Fı́sica Quântica contraria nesse sentido a crença do determinismo clássico, ou seja, a crença
que a evolução de medidas experimentais de observáveis um sistema é completamente determinada
por condições iniciais. Vale, porém, uma outra forma de determinismo: a evolução dos estados de
um sistema, ou seja, de suas medidas de probabilidade, é determinada por condições iniciais desses
estados (por exemplo, através da equação de Schrödinger60 na Mecânica Quântica não-relativista). A
determinação precisa de como se dá essa evolução em sistemas fı́sicos concretos (na prática, de qual
é o operador Hamiltoniano que gera a evolução temporal) é uma das tarefas centrais da Fı́sica. No
caso da Fı́sica das Partı́culas Elementares, por exemplo, grandes progressos foram feitos nessa direção,
especialmente após os anos 70 do século XX, com o surgimento do chamado modelo padrão, mas a
tarefa ainda está longe de ser considerada concluı́da.

• A recuperação de um observável a partir dos seus valores esperados em estados puros

Façamos aqui um comentário sobre o papel especial desempenhado pelos estados puros tanto na
Mecânica Clássica quanto na Mecânica Quântica.
Como mencionamos, estados puros na Mecânica Clássica são caracterizados
R por medidas de Dirac no
espaço de fase ρq0 , p0 (q, p) = δ(q −q0 )δ(p−p0 ). Como hf iq0 , p0 = f (q, p)ρq0 , p0 (q, p) dqdp = f (q0 , p0 ),
vemos que o conhecimento de todos os valores esperados de uma grandeza observável f em todos os
estados puros permite recuperar a função f (q, p) em todos os pontos do espaço de fase.
Teorias quânticas formuladas em espaços de Hilbert H têm a mesma caracterı́stica, a despeito do
fato de haver estados puros com variância não-nula. O conhecimento de todos os valores esperados em
estados puros hAiψ = hψ, Aψi com kψk = 1 permite, por meio da identidade de polarização (expressão
(2.21), página 124), identificar univocamente o operador auto-adjunto limitado A. De fato, dados dois
vetores u, v ∈ H, temos a identidade
3
X 3
X
−n
hu, Avi = i n 2
ku + i vk hψn , Aψn i = i−n kψn k2 hAiψn , (23.145)
n=0 n=0

u + in v
onde ψn := . Assim, se para cada par de vetores u, v ∈ H calcularmos ku + in vk2 e
ku + in vk
prepararmos o estado puro determinado pelos quatro vetores ψn (normalizados a 1) e medirmos os
quatro valores esperados de A nesses estados, hAiψn , teremos os produtos escalares hu, Avi por (23.145).
Em princı́pio tais operações são possı́veis, pois em princı́pio pode-se preparar um sistema em quaisquer
dos seus estados puros. Notemos que a determinação de todos os produtos escalares hu, Avi para todos
u, v ∈ H fixa o operador A, pois se um outro operador B é tal que hu, Avi = hu, Bvi para todos
u, v ∈ H, então A = B (assumindo ambos limitados).
Comentemos também que uma vez fixado o operador auto-adjunto A, o Teorema Espectral, Teorema
23.38, página 1139, garante a existência e unicidade
R dos projetores espectrais P B , B Boreliano em
σ(A), e da sua representação espectral A = σ(A) λdPλ . O conhecimento dos PB ’s permite recuperar
R
as medidas espectrais µψ, A (B) = hψ, PB ψi e com elas determinar as integrais σ(A) λn dhψ, Pλ ψi,
60
Erwin Rudolf Josef Alexander Schrödinger (1887-1961).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1150/1195

para todo n ∈ , que identificamos, também pelo Teorema Espectral, com os momenta da grandeza


observável A: hAn iψ . Assim, o conhecimento de todos os primeiros momenta hAiψ para todo ψ ∈ H
com kψk = 1 permite determinar as medidas espectrais µψ, A e todos os demais momenta hAn iψ , n ∈ . 

Do ponto de vista da Teoria de Probabilidades essa é uma situação especial, pois nem sempre é possı́vel
recuperar os momenta de uma variável aleatória em uma famı́lia de medidas de probabilidade a partir
apenas do conhecimento dos primeiros momenta dessa variável aleatória nessa famı́lia.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1151/1195

Apêndice

23.A Prova do Teorema 23.18



A função complexa f (z) = 1 − z é analı́tica no disco unitário aberto D1 = {z ∈ | |z| < 1} e tem
nesse domı́nio uma série de Taylor absolutamente convergente dada por

X
f (z) = cn z n
n=0

onde
1 (2n − 3)!!
c0 = 1, c1 = − , e cn = − , n≥1.
2 (2n)!!
É bastante claro que |cn | ≤ 1 para todo n (mostre isso).
Em verdade, a série de Taylor de f (z) converge absolutamente no disco unitário fechado D 1 = {z ∈
| |z| ≤ 1}. Para ver isso notemos que os coeficientes cn são todos negativos, exceto quando n = 0.
Assim, tem-se para todo N ≥ 0,
XN
(|cn | + cn ) = 2c0 = 2,
n=0

ou seja,
N
X N
X
|cn | = 2 − cn .
n=0 n=0

Logo,
N
X N
X N
X √
|cn | = 2 − cn = 2 − lim cn tn ≤ 2 − lim 1−t = 2. (23.A.1)
t→1− t→1−
n=0 n=0 n=0

Acima, limt→1− é o limite quando t aproxima-se de 1 pelos reais com valores menores que 1 (lembre-se
que a série de Taylor de f (z) não converge se |z|
PN> 1). nA desigualdade√ da terceira linha deve-se ao
fato de que, para t ∈ [0, 1), a série de Taylor n=0 cn t converge a 1 − t e é decrescente, pois os
P √
coeficientes cn são todos negativos para n ≥ 1, o que implica N n
n=0 cn t ≥ 1 − t. O sinal “−” inverte
o sentido da desigualdade para “≤”.
Com isso, para |z| ≤ 1,
N
X N
X
|cn | |z|n ≤ |cn | ≤ 2 (23.A.2)
n=0 n=0
61
para todo N , provando que a série de Taylor de f (z) converge absolutamente para |z| ≤ 1.
61
Os argumentos acima foram extraı́dos de [99].
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1152/1195

Note-se também que, como f (z)2 = 1 − z, vale


 

!2 ∞ X
∞ ∞
X X X  X 
1−z = cn z n = cn cm z m+n = zp  cn cm 
n=0 n=0 m=0 p=0 m+n=p
m, n≥0

   

X ∞
 X  X  X 
= (c0 )2 + 2c0 c1 z + zp  cn cm  = 1 − z + zp  cn cm  , (23.A.3)
p=2 m+n=p p=2 m+n=p
m, n≥0 m, n≥0

o que nos leva a concluir, pela unicidade da série de Taylor, que


X
cn cm = 0, para todo p ≥ 2. (23.A.4)
m+n=p
m, n≥0

Usaremos essa identidade abaixo.

E. 23.24 Exercı́cio. Justifique todas as passagens acima a partir do fato que a série de Taylor de f
converge absolutamente para |z| ≤ 1. 6

Seja w um elemento da álgebra B tal que kwk ≤ 1. Defina-se para N ∈  ,


N
X
sN = cn w n ,
n=0

com a convenção que w 0 = . Vamos mostrar dois fatos sobre sN : primeiro que os sN formam uma
seqüência da Cauchy e segundo que essa seqüência converge a um elemento y tal que y 2 = − w.
Mostremos que {sN , N ∈  } é uma seqüência de Cauchy na álgebra B. Seja N < M . Temos
XM
sM − sN = cn w n . Logo,
n=N +1

M
X M
X M
X
n n
ksM − sN k ≤ |cn | kw k ≤ |cn | kwk ≤ |cn |
n=N +1 n=N +1 n=N +1
PN
Por (23.A.2), as somas parciais kN = n=0 |cn | são limitadas superiormente e, por formarem uma
seqüência
PM crescente, convergem, sendo portanto uma seqüência de Cauchy. Assim |k M − kN | =
n=N +1 n | pode ser feito arbitrariamente pequeno para M e N grandes o suficiente. Isso prova
|c
que sN , N ∈ , é também uma seqüência de Cauchy na álgebra B. Como B é uma espaço de Banach,


a completeza assegura que sN converge a um elemento y da álgebra.


Mostremos agora que y 2 = − w. Isso é equivalente a mostrar que lim (sN )2 = − w (por que?).
N →∞
Agora  
N
!2 N X
N 2N
X X X  X 
2
(sN ) = cn w n
= cn cm w n+m
= wp 
 c n c m
.

n=0 n=0 m=0 p=0 n+m=p
0≤n≤N
0≤m≤N
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1153/1195

Para N > 2 podemos escrever


     
2N
X N 2N
 X  X  X  X  X 

p
w   2
cn cm  = (c0 ) + 2c0 c1 w + p
w  
cn cm  + wp  c c .
 n m 
p=0 n+m=p p=2 n+m=p p=N +1 n+m=p
0≤n≤N 0≤n≤N 0≤n≤N
0≤m≤N 0≤m≤N 0≤m≤N

Como (c0 )2 + 2c0 c1 w = − w, segue que


   
N
X 2N
 X  X  X 
2
(sN ) − ( − w) = p
w  
cn cm  + wp  c c .
 n m 
p=2 n+m=p p=N +1 n+m=p
0≤n≤N 0≤n≤N
0≤m≤N 0≤m≤N

Resta-nos provar que essas duas somas convergem a zero quando N → ∞. Na verdade, a primeira
soma é igual a zero, pois
   
N
X  X N
X  X
 
wp 
 c n c m
 =
 wp  cn cm 
p=2 n+m=p p=2 n+m=p
0≤n≤N m, n≥0
0≤m≤N

X
e, para p ≥ 2 vimos em (23.A.4) que cn cm = 0.
n+m=p
m, n≥0

Com isso, temos apenas que


 
2N
X  X 
2
(sN ) − ( − w) = wp 
 c n c m
.

p=N +1 n+m=p
0≤n≤N
0≤m≤N

Agora, para p ≥ 2,
N N p−N −1 p−N −1
X X X X X
cn cm = cn cp−n = cn cp−n − cn cp−n = − cn cp−n ,
n+m=p n=p−N n=0 n=0 n=0
0≤n≤N
0≤m≤N

N
X X
já que cn cp−n = cn cp = 0. Portanto,
n=0 m+n=p


2N 2N p−N −1 2N p−N −1
X X X X X X
k(sN )2 − ( − w)k ≤ kwkp cn cm ≤ cn cp−n ≤ |cn | |cp−n|.
n+m=p
p=N +1 p=N +1 n=0 p=N +1 n=0
0≤n≤N
0≤m≤N

(23.A.5)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 23 1154/1195

Agora,
2N p−N −1 N q
−1 X N −1 N −1
X X q=p−N −1
X X X
|cn | |cp−n| = |cn | |cq−n+N +1| = |cn | |cq−n+N +1 |
p=N +1 n=0 q=0 n=0 n=0 q=n

N −1 N −1
!
X X
= |cn | |cq−n+N +1 |
n=0 q=n

N −1 2N −n
!
r=q−n+N +1
X X
= |cn | |cr |
n=0 r=N +1

N −1 2N
! N −1
! 2N
!
X X X X
≤ |cn | |cr | = |cn | |cr |
n=0 r=N +1 n=0 r=N +1

2N
X
(23.A.2)
≤ 2 |cr |. (23.A.6)
r=N +1

E. 23.25 Exercı́cio. Justifique todas as passagens acima. 6

Assim,
2N
X
k(sN )2 − ( − w)k ≤ 2 |cr |. (23.A.7)
r=N +1

2N
X N
X
Já vimos, porém, que |cr | → 0 quando N → ∞, pois as somas parciais kN = |cr | formam
r=N +1 r=0
um seqüência de Cauchy. Portanto, o lado direito de (23.A.7) converge a zero quando N → ∞,
provando que y 2 = − w.
Capı́tulo 24
Noções de Estruturas Algébricas
Conteúdo
24.1 Álgebras Universais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156
24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra Universal (*) 1163

o aprofundar seu estudo de Matemática o estudante freqüentemente depara com conceitos


como o de grupo, semi-grupo, álgebra, anel, corpo, módulo etc. Nosso objetivo nessa seção
é apresentar definições básicas de tais conceitos acompanhadas, quando possı́vel, de alguns
exemplos relevantes. Nossa intenção não é de forma alguma a de cobrir esses assuntos e seus
resultados mais importantes, mas apenas a de introduzir ao leitor, de maneira mais ou menos unificada,
noções dessas estruturas algébricas, de modo que o mesmo possa encontrar aqui referências rápidas às
mesmas quando delas necessitar. O estudante já familiar com alguns desses conceitos (os conceitos
de grupo e álgebra são populares entre estudantes de Fı́sica) encontrará nessa exposição uma visão
unificada dos mesmos, a unificação se dando em torno de conceitos como o de álgebra universal, que
introduziremos a seguir.
Esta seção deve ser compreendida como uma continuação do Capı́tulo 1 e dispensa a leitura das
demais, exceto daquela. O leitor pode achar ser esta seção uma longa seqüência contendo apenas
definições e exemplos, com poucos resultados, o que é correto. Seu objetivo, porém, é apresentar várias
idéias comuns a várias áreas de um ponto de vista unificado. Incluir resultados importantes sobre
assuntos como álgebras ou teoria de grupos levaria estas notas muito além de seu objetivo e tornaria
suas dimensões grandes demais. Uma certa familiaridade prévia com alguns dos conceitos discutidos
ajudará a tornar a leitura mais fácil, motivante e menos abstrata.

• Operações e Relações

Sejam C e I dois conjuntos e consideremos o produto cartesiano C I (o conceito de produto cartesiano


de conjuntos foi definido na seção 1). Uma função f : C I → C é por vezes dita ser uma operação sobre
C. Se I é um conjunto finito, f é dita ser uma operação finitária sobre C.
Um conjunto R ⊂ C I d́ito ser uma relação em C. Se I é um conjunto finito, R é dito ser uma
relação finitária em C.

• Funções Finitárias

Sejam C e I dois conjuntos e consideremos funções f : C I → C. Se I é um conjunto finito


f : C I → C é dita ser uma função finitária sobre C ou operação finitária sobre C. Sem perda de
generalidade consideraremos aqui funções finitárias do tipo f : C n → C para algum n ∈ . Se f é uma


função finitária para um dado n, f é dita ser uma função n-ária sobre C. Um exemplo de uma função
não finitária seria uma função do tipo f : C → C que a cada seqüência em C associa um elemento de


C.

1155
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1156/1195

Funções 2-árias serão chamadas aqui de funções binárias e funções 1-árias são chamadas de funções
unárias.
Por vezes iremos falar também de funções 0-árias sobre C, que consistem em funções f : {∅} → C.
Uma tal função tem por imagem simplesmente um√elemento fixo de C. Exemplos de funções 0-árias
sobre seriam f (∅) = 1 ou f (∅) = 0 ou f (∅) = 2. Freqüentemente denotamos tais funções pelo
elemento
√ de C por ela associado. Nos três exemplos acima, poderı́amos denotar as funções por 1, 0 ou
2, respectivamente.

• Relações Finitárias

Há uma nomenclatura análoga para o caso de relações. Sejam C e I dois conjuntos e consideremos
relações R ⊂ C I . Se I é um conjunto finito R é dita ser uma relação finitária sobre C. Sem perda
de generalidade consideraremos aqui relações finitárias do tipo R ⊂ C n para algum n ∈ . Se R é 

uma relação finitária para um dado n, R é dita ser uma relação n-ária sobre C. Para o caso n = 1 as
relações são também chamadas de unárias e para o caso n = 2 são ditas binárias. Relações binárias
foram estudadas à página 22.

• Estruturas

Seja C um conjunto, F uma coleção de operações (não necessariamente finitárias) sobre C e seja
R uma coleção de relações (não necessariamente finitárias) em C. A tripla hC, F, Ri é dita ser uma
estrutura sobre C. Note-se que tanto F quanto R podem ser vazias.
Dado que operações sobre um conjunto C também são relações sobre C, a definição de estru-
tura acima poderia ser simplificada. É porém conveniente mantê-la como está, pois opções são de
importância especial.
Uma estrutura hC, Fi é dita ser uma estrutura algébrica e uma estrutura hC, Ri é dita ser uma
estrutura relacional. Deste segundo tipo de estrutura não trataremos aqui. Aqui estudaremos apenas
um tipo especial de estrutura algébrica, as chamadas álgebras universais, das quais veremos vários
exemplos importantes à toda a Matemática e à Fı́sica.

24.1 Álgebras Universais


Uma Álgebra Universal é constituida por um conjunto C e uma coleção F de funções finitárias sobre
C. A coleção F não precisa ser finita. Freqüentemente denotaremos uma álgebra universal por hC, Fi.
O estudo sistemático das álgebras universais foi iniciado por Withehead1 e Birkhoff2 , tendo Boole,
Hamilton, DeMorgan e Sylvester como precursores. Vamos a alguns exemplos.

2
1. Seja C = e F = {s, m}, onde s e m são duas funções binárias dadas por s :
  →  ,
s(x, y) = x + y e m : 2 → , s(x, y) = x · y.
 

1
Alfred North Withehead (1861-1947).
2
George David Birkhoff (1884-1944).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1157/1195

2. Seja C = Mat(n) (o conjunto das matrizes complexas n × n para um certo n ∈ ) e F = {s, m}, 

onde s e m são duas funções binárias dadas por s : C 2 → C, s(A, B) = A + B e m : C 2 → C,


s(A, B) = A · B.
3. Seja C o conjunto de todas as matrizes complexas n × m (para n e m ∈ ) e seja F = {c, s, t}


onde c : C → C é a função unária dada por c(A) = A (a matriz complexo-conjugada de A),


s : C 2 → C é a função binária dada por s(A, B) = A + B e t : C 3 → C é a função 3-ária dada
por t(A, B, C) = AB T C, onde B T é a transposta da matriz B.

Vários outros exemplos serão vistos abaixo. Algumas álgebras universais com propriedades especiais
recebem denominações próprias e são chamadas de grupos, semi-grupos, anéis, corpos, álgebras etc.
Vamos introduzı́-las adiante.

• Tipos de Operações e de Relações

Ainda um comentário sobre a nomenclatura.


Sejam C e I conjuntos e seja α : C I → C uma operação sobre o conjunto C. A cardinalidade de I
é dita ser o tipo da operação α. Assim, uma função n-ária é também dita ser de tipo n. Analogamente,
se R ⊂ C I é uma relação em C a cardinalidade de I é dita ser o tipo da relação R.

• Comentário Sobre a Notação

Antes de prosseguirmos, façamos uma observação sobre a notação que é costumeiramente adotada,
especialmente quando se trata de funções binárias.
Dado um conjunto C e uma função binária denotada por um sı́mbolo φ, a imagem de um par
(a, b) ∈ C 2 é comummente denotada por φ(a, b). É muito prático, por vezes, usar uma outra notação
e denotar φ(a, b) por a φ b. Essa notação é denominada mesofixa. Um exemplo claro desse uso está
na função soma, denotada pelo sı́mbolo + : 2 → de dois números complexos. Denotamos +(z, w)
por z + w. Outro exemplo está na função produto · : 2 → de dois números complexos. Denotamos
·(z, w) por z · w.
Essa notação será usada adiante para outras funções binárias além das funções soma e produto de
números ou matrizes.
Funções unárias também têm por vezes uma notação especial, freqüentemente do tipo exponencial.
Tal é o caso da operação que associa a cada elemento de um grupo à sua inversa, g 7→ g −1 , ou o
caso da operação que associa a cada conjunto o seu complementar A 7→ A c . Ou ainda o caso da
transposição de matrizes M 7→ M T , da conjugação de números complexos z 7→ z ∗ para o que usa-se
também sabidamente a notação z 7→ z.

• Comutatividade e Associatividade

Uma função binária χ : C 2 → C é dita ser comutativa se para quaisquer a e b ∈ C valer


χ(a, b) = χ(b, a),
ou seja, na nova notação, se
aχb = bχa.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1158/1195

Funções binárias comutativas são freqüentemente chamadas de Abelianas 3 .


Uma função binária χ : C 2 → C é dita ser associativa se para quaisquer a, b e c ∈ C valer

χ(a, χ(b, c)) = χ(χ(a, b), c),

ou seja, na nova notação, se


aχ(bχc) = (aχb)χc.

Vamos agora apresentar em seqüência vários exemplos de álgebras universais de importância em


Matemática. Em todos eles as funções de F são 0-árias, unárias ou binárias.

• Reticulados

Um reticulado4 sobre um conjunto C é uma álgebra universal hC, Fi onde F é um conjunto de duas
funções binárias denotadas por ∧ e ∨ (lê-se “e” e “ou”, respectivamente), F = {∧, ∨}, as quais são
supostas satisfazer as seguintes relações, validas para todos a, b e c ∈ C (usaremos a nova notação):

1. Idempotência:
a ∧ a = a, a ∨ a = a.

2. Comutatividade:
a ∧ b = b ∧ a, a ∨ b = b ∨ a.

3. Associatividade:
a ∧ (b ∧ c) = (a ∧ b) ∧ c,
a ∨ (b ∨ c) = (a ∨ b) ∨ c.

4. Absorvência5 :
a ∧ (a ∨ b) = a,
a ∨ (a ∧ b) = a.

Vamos a exemplos.

1. Seja C = (B), para algum conjunto B e sejam as funções ∧ e ∨ definidas para todos a, b ⊂ B,
por a ∧ b = a ∪ b, a ∨ b = a ∩ b.

E. 24.1 Exercı́cio. Mostre que isso é um reticulado no sentido da definição acima. 6

2. Seja C = e sejam as funções ∧ e ∨ definidas para todos a, b ∈


  , por a ∧ b = max{a, b},
a ∨ b = min{a, b}.

E. 24.2 Exercı́cio. Mostre que isso é um reticulado no sentido da definição acima. 6


3
Niels Henrik Abel (1802-1829).
4
Denominado “lattice” em inglês e “Verband” em alemão.
5
Também denominada “Amalgamento”.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1159/1195

3. Uma generalização do caso acima. Seja C um conjunto linearmente ordenado (a definição está à
página 30) e sejam as funções ∧ e ∨ definidas para todos a, b ∈ C, por

a, se a ≥ b
a ∧ b := ,
b, de outra forma

a, se a ≤ b
a ∨ b := .
b, de outra forma

E. 24.3 Exercı́cio. Mostre que isso é um reticulado no sentido da definição acima. 6

• Reticulados Distributivos

Um reticulado é dito ser distributivo se também forem satisfeitas as propriedades

1.
a ∧ (b ∨ c) = (a ∧ b) ∨ (a ∧ c).

2.
a ∨ (b ∧ c) = (a ∨ b) ∧ (a ∨ c).

E. 24.4 Exercı́cio. Nos exemplos acima quais reticulados são distributivos? 6

• Álgebras Booleanas

Uma álgebra Booleana6 é uma álgebra universal formada por um conjunto B e por uma famı́lia
F de cinco funções finitárias: duas binárias, denotadas por ∧ e ∨, uma função unária, denotada por
C e denominada “negação” ou “complemento” e duas funções 0-árias, denotadas genericamente por 0
e 1 (denominadas, obviamente, “zero” e “um”), as quais representam elementos fixos distintos de B.
As funções acima são supostas satisfazer aos seguintes requisitos: 1) B, ∧ e ∨ formam um reticulado
distributivo. 2) Para todo a ∈ B vale que 0 ∨ a = a e que 1 ∧ a = a. 3) Para todo a ∈ B vale que
a ∨ C(a) = 1 e que a ∧ C(a) = 0.
Exemplo Básico. Seja A um conjunto e tomemos B = (A). Para a, b ∈ (A) definamos a∧b = a∪b,
a ∨ b = a ∩ b, C(a) = A \ a, 0 = ∅, 1 = A. Como exercı́cio mostre que o sistema assim definido é uma
álgebra Booleana.

• Semi-grupos

Um semi-grupo é uma álgebra universal formada simplesmente por um conjunto S e por uma
operação binária associativa denotada por “·” e denominada “produto” ou “multiplicação”.
6
George Boole (1815-1864).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1160/1195

Exemplos. dotado da operação de multiplicação usual é um semi-grupo (mas não um grupo. Vide


abaixo.). O mesmo pode ser dito de Mat(n), o conjunto das matrizes complexas n × n com o produto
usual de matrizes.
Outro exemplo importante é o seguinte. Seja C um conjunto e tomemos S = C C , o conjunto de
todas as funções de C em C. Então S é um semi-grupo com o produto formado pela composição de
funções: “◦”.

• Monóides

Um monóide é um semi-grupo, formado por um conjunto C e uma função binária associativa


denotada por “·” (produto), com a propriedade de existir em C um elemento e, denominado elemento
neutro, o qual é suposto satisfazer as seguintes duas propriedades:

a·e=a e e · a = a, (24.1)

para todo a ∈ C.
Note-se que um monóide pode ser também entendido como sendo uma álgebra universal hC, Fi,
onde C é um conjunto e F = {·, e} é formado por uma função binária associativa “·” (produto) e uma
função 0-ária e (com e ∈ C) com a propriedade de elemento neutro (24.1) em relação ao produto “·”.
Exemplo.  dotado da operação de multiplicação usual é um monóide onde o elemento neutro é o
número 1.
Exemplo. dotado da operação de soma usual é um monóide onde o elemento neutro é o número
0.
Exemplo. Seja C um conjunto e tomemos S = C C , o conjunto de todas as funções de C em C.
Então S é um semi-grupo com o produto formado pela composição de funções: ◦. S é também um
monóide, onde o elemento neutro é a função identidade id(s) = s, ∀s ∈ C.
Contra-exemplo. O conjunto + = {x ∈   , x > 0} é um semi-grupo (Abeliano) em relação à
operação de soma, mas não é um monóide.

• Grupos

Esta é uma das estruturas matemáticas mais importantes e o alcance de suas aplicações dispensa
comentários.
Um grupo é uma álgebra universal hC, Fi, onde C é um conjunto e F = {·, I, e} é formada por
uma função binária associativa “·” denominada produto, por uma função 0-ária e (com e ∈ C) com a
propriedade de elemento neutro (24.1) em relação ao produto “·” e por uma função unária I (chamada
de inversão), com a propriedade que

a · I(a) = I(a) · a = e

para todo a ∈ C. Freqüentemente denotamos I(a) = a−1 , que é chamado de “inversa” ou “elemento
inverso” de a. O elemento e é freqüentemente denominado identidade do grupo.
Note-se que todo grupo é um semi-grupo e também um monóide.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1161/1195

Contra-exemplos. O conjunto C0 = {x ∈ , x > 1} é um semi-grupo em relação ao produto




de multiplicação usual mas não é um monóide. O conjunto C1 = {x ∈ , x ≥ 1} é um monóide 

(e portanto um semi-grupo) em relação ao produto de multiplicação usual mas não é um grupo. O


conjunto C2 = {x ∈ , x > 0} é um grupo em relação ao produto de multiplicação usual.


Contra-exemplos. O conjunto C = Mat(n, ) de todas as matrizes n × n, n ∈ , é um monóide 

em relação ao produto usual de matrizes, mas não é um grupo, dado que nem todas as matrizes são
invertı́veis. Já o conjunto de todas as matrizes unitárias n × n é um grupo em relação ao produto usual
de matrizes (por que?).
Vamos nos abster de apresentar mais exemplos de grupos, dado que os mesmos são bem conhecidos
e que nenhuma lista de exemplos lhes faria jus.
Um semi-grupo, um monóide ou um grupo são ditos ser Abelianos ou comutativos se sua operação
de produto for comutativa. Neste caso o produto é por vezes denotado pelo sı́mbolo “+”.

• Anéis

Um anel é uma álgebra universal constituı́da por um conjunto R (“Ring” em inglês e alemão) e
uma coleção F = {+, ·, 0} formada por duas funções binárias comutativas e associativas, + e · e por
uma função 0-ária 0 ∈ R com as seguintes propriedades:

1. A álgebra universal hR, {+, 0}i é um grupo comutativo.


2. A álgebra universal hR, {·}i é um semi-grupo.
3. Propriedade distributiva. Para quaisquer a, b, c ∈ R valem
a · (b + c) = (a · b) + (a · c) e (b + c) · a = (b · a) + (c · a).

E. 24.5 Exercı́cio importante. Mostre que em um anel sempre vale que a · 0 = 0 para todo a ∈ R. 6

Exemplos. ,  , , e Mat(n, ) são exemplos de anéis com relação às operações usuais de soma
e multiplicação.
Apresentaremos em seqüência uma série de definições após as quais discutiremos exemplos relevan-
tes.

• Anéis com Unidade

Um anel com unidade é um anel hR, {+, ·, 0}i com a propriedade de existir em R um elemento 1,
chamado de unidade, com 1 6= 0, tal que a · 1 = 1 · a = a para todo a ∈ R.
Outro modo de dizer isso é dizer que um anel com unidade é uma álgebra universal hR, {+, ·, 0, 1}i
onde hR, {+, ·, 0}i é um anel e 1 é uma operação 0-ária tal que a · 1 = 1 · a = a para todo a ∈ R.

• Anéis sem Divisores de Zero

Dado um anel hR, {+, ·, 0}i um elemento não-nulo a ∈ R é dito ser um divisor de zero se existir
pelo menos um b ∈ R com b 6= 0 tal que a · b = 0 ou b · a = 0.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1162/1195

Se em um anel tivermos que a · b = 0 implica que ou a = 0 ou b = 0 ou ambos, então esse anel é


dito ser um anel sem divisores de zero.
Exemplos. e são anéis sem divisores de zero (com os produtos e somas usuais), mas os anéis


Mat(n, ), n > 1, têm divisores de zero (com o produto e soma usual), pois tem-se, por exemplo,
    
1 0 0 0 0 0
= .
0 0 0 1 0 0

• Anel de Integridade

Um anel comutativo, com unidade e sem divisores de zero é dito ser um anel de integridade ou
também um domı́nio de integridade.
Para a relação entre anéis de integridade e corpos, vide adiante.

• Anéis de Divisão

Um anel de divisão é constituı́do por um conjunto R e uma coleção F = {+, ·, I, 0, 1} formada


por duas funções binárias comutativas e associativas, + e ·, uma função unária I (inversão) e por duas
funções 0-ária 0, 1 ∈ R, com 0 6= 1 e com as seguintes propriedades:

1. A álgebra universal hR, {+, ·, 0}i é um anel.

2. Para todo a ∈ R vale a · 1 = 1 · a = a.

3. O domı́nio de I é R \ {0} e para todo a no domı́nio vale I(a) · a = a · I(a) = 1.

Freqüentemente denota-se I(a) por a−1 .


Pelo fato de a operação I de inversão não ser definida em todo R (temos que excluir o elemento 0)
um anel de divisão não é uma álgebra universal mas o que se chama de uma álgebra universal parcial.
Para uma classificação mais detalhada desses sistemas vide, por exemplo, [47].

E. 24.6 Exercı́cio importante. Mostre que um anel de divisão não pode possuir divisores de zero.
Portanto, todo anel de divisão comutativo é também um anel de integridade. 6

Exemplos. Com as definições usuais , e são anéis de divisão mas não o é (falta a inversa).


Mat(n, ) com n > 1 também não é um anel de divisão com as definições usuais pois nem toda a
matriz é invertı́vel.

• Corpos

Um anel de divisão hR, {+, ·, I, 0, 1}i cujo produto “·” é comutativo é denominado um corpo 7 .
Exemplos.
7
Em inglês a palavra empregada é field. A expressão em português provavelmente provem do francês corp ou do
alemão Körper.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1163/1195

• Corpos Não-comutativos

Como a única distinção entre as definições de corpos e de anéis de divisão é que para os primeiros a
comutatividade do produto é requerida, diz-se também por vezes que anéis de divisão não-comutativos
são corpos não-comutativos.

• Corpos e Anéis de Integridade

É bem claro pelas definições que todo corpo é também um anel de integridade. A reciproca é
parcialmente válida:
Teorema 24.1 Todo anel de integridade finito é um corpo. 2

Prova. Se A é um anel de integridade, tudo que precisamos é mostrar que todo elemento não-nulo
de A é invertı́vel. Seja a um elemento de A \ {0}. Definamos a aplicação α : A \ {0} → A dada por

α(y) = ay.

Note que, como A é um anel de integridade o lado direito é não nulo pois nem a nem y o são. Assim,
α é em verdade uma aplicação de A \ {0} em A \ {0} e, como tal, é injetora, pois se ay = az, segue
que a(y − z) = 0, o que só é possı́vel se y = z, pois A é um anel de integridade e a 6= 0. Agora,
uma aplicação injetora de um conjunto finito em si mesmo tem necessariamente que ser sobrejetora
(por que?). Assim, α é uma bijeção de A \ {0} sobre si mesmo. Como 1 ∈ A \ {0}, segue que existe
y ∈ A \ {0} tal que ay = 1, ou seja, a tem uma inversa. Como a é um elemento arbitrário de A \ {0},
segue que todo elemento de A \ {0} tem inversa e, portanto, A é um corpo.
Anéis de integridade infinitos não são necessariamente corpos:
Anti-exemplo. Um exemplo de um anel de integridade que não é um corpo é o conjunto de todos
os polinômios de em com o produto e soma usuais. Em verdade, os únicos polinômios que tem
inverso multiplicativo são os polinômios constantes não nulos.

24.2 Ação de Uma Álgebra Universal sobre uma Outra Álgebra


Universal (*)
Algumas estruturas freqüentemente encontradas, como espaços vetoriais, álgebras e módulos, não se
enquadram no conceito de álgebras universais mas podem ser encarados como constituı́dos por pares
de álgebras universais dotadas de uma ação de uma das álgebras universais sobre a outra. A noção
abstrata de ação de uma álgebra universal sobre uma outra álgebra universal será vista mais adiante.
Inicialmente trataremos de definir os conceitos de espaços vetoriais, álgebras e módulos

• Espaços Vetoriais

Assim como o conceito de grupo, o conceito de espaço vetorial é também um dos mais importantes
da Matemática e suas aplicações também dispensam comentários. O conceito de espaços vetorial não
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1164/1195

se enquadra plenamente no de álgebra universal e envolve como ingredientes, um grupo Abeliano A e


um corpo K, conectados por um ação de K em A (definida abaixo).
Um espaço vetorial é formado por um grupo Abeliano A e por um corpo K e por uma aplicação
K × A → A, que denotamos simbolicamente por “·”,

K × A → A 3 (α, v) 7→ α · v ∈ A,

com as seguintes propriedades:

1. Associatividade
α · (β · v) = (αβ) · v,
para todos α, β ∈ K, v ∈ A.

2. 1 · v = v para todo v ∈ A.

3. Distributividade em relação à soma no corpo: (α + β) · v = (α · v) + (β · v), para todos α, β ∈ K,


v ∈ A.

4. Distributividade em relação à soma no grupo Abeliano: α · (v + w) = (α · v) + (α · w), para todos


α ∈ K, v, w ∈ A.

Acima, no item 1, αβ representa o produto de α e β em K etc.


O produto “·”: K × A → A com as propriedades acima é um exemplo do que se chama de uma
ação de um corpo sobre um grupo Abeliano. O conceito mais geral de ação de uma álgebra universal
sobre uma outra será visto à página 1166.
Quando necessário denotaremos um espaço vetorial como uma tripla hA, K, ·i.

E. 24.7 Exercı́cio. Mostre que das definições acima segue que, num espaço vetorial hA, K, ·i, sempre
vale que 0 · v = 0 para todo v ∈ A. 6

Dado um espaço vetorial A formado por um anel A sobre o qual age um corpo K como definido
acima (usaremos também a notação hA, Ki), denotaremos aqui o produto α · v, α ∈ K, v ∈ A
simplesmente por α v.

• Álgebras

A definição de álgebra segue passos análogos aos da definição de espaço vetorial.


Uma álgebra é formada por um anel A e por um corpo K e por uma aplicação de K sobre A,
K × A → A, que denotamos simbolicamente por “·”,

K × A → A 3 (α, v) 7→ α · v ∈ A

com as seguintes propriedades:

1. Considerando apenas a estrutura de A como grupo Abeliano, o par hK, Ai é um espaço vetorial.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1165/1195

2. Para todos α ∈ K e todos a, b ∈ A vale que

α · (a · b) = (α · a) · b = a · (α · b). (24.2)

O leitor pode convencer-se que uma álgebra pode ser também caracterizada como um espaço vetorial
V = hA, Ki (K corpo, A grupo Abeliano) dotado de um produto · : A × A → A de forma que

1. Com o produto “·” o conjunto A tem uma estrutura de anel.


2. A propriedade (24.2) acima é válida.

Daqui por diante denotaremos o produto α · v, α ∈ K, v ∈ A simplesmente por α v.

• Álgebras Associativas e Não-Associativas

Se numa álgebra o produto “·” definido entre os vetores do espaço vetorial for associativo a álgebra
é dita ser uma álgebra associativa, de outra forma ela é dita ser uma álgebra não-associativa.
O estudante não deve pensar que álgebras não-associativas são raras e desinteressantes. Em ver-
dade uma das primeiras álgebras com a qual estudantes de Fı́sica ou Matemática se deparam é não-
associativa, a saber, a álgebra do produto vetorial em 3 (denotado por ~a × ~b ou por ~a ∧ ~b).


E. 24.8 Exercı́cio. Mostre que para os vetores de base canônicos ~i, ~j e ~k tem-se (~i ×~i) × ~j = ~0 × ~j = ~0
mas ~i × (~i × ~j) = ~i × ~k = −~j 6= ~0. 6

• Álgebras de Lie

Aqui novamente estamos diante de um assunto vastı́ssimo e vamos limitar-nos às definições.
Uma álgebra de Lie é uma álgebras A cujo produto é não-comutativo e não-associativo mas para o
qual, porém, as seguintes propriedades são válidas:

a · b = −b · a (24.3)

para todos a e b ∈ A e
a · (b · c) + b · (c · a) + c · (a · b) = 0, (24.4)
para todos a, b e c ∈ A.
A propriedade (24.3) é denominada anti-comutatividade e a propriedade (24.4) é denominada iden-
tidade de Jacobi.
Para se compreender a importância da identidade de Jacobi na estrutura das álgebras de Lie,
notemos que, para um produto anti-comutativo (i.e. a · b = −b · a) a condição de associatividade
a · (b · c) = (a · b) · c fica
a · (b · c) + c · (a · b) = 0.
Compare-se esta relação com (24.4).
Por razões históricas o produto de dois elementos de um álgebra de Lie é mais freqüentemente
denotado pelo sı́mbolo [a, b] ao invés de a · b.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1166/1195

• Morfismos entre Álgebras Universais

Sejam hA, Ai e hB, Bi duas álgebras universais. Uma função ∆ : A → B é dita preservar o tipo
das operações de A se para todo α ∈ A a operação ∆(α) ∈ B tiver o mesmo tipo que a operação α.
Assim, uma aplicação que preserva o tipo leva aplicações unárias em unárias, aplicações binárias
em binárias etc.
Um morfismo da álgebra universal hA, Ai na álgebra universal hB, Bi é um par de aplicações
hD, ∆i com D : A → B e ∆ : A → B, onde ∆ é uma aplicação que preserva o tipo e de tal forma que
para todo α ∈ A tenhamos
D ◦ α = ∆(α) ◦ D
como aplicações An → B, onde n é o tipo de α.
Isso significa que para todo α ∈ A temos

D(α(a1 , . . . , an )) = ∆(α)(D(a1 ), . . . , D(an ))

para toda (a1 , . . . , an ) ∈ An , n sendo o tipo de α.


Exemplo. Sejam as álgebras universais h + , {·, 1}i e h , {+, 0}i com as definições usuais e seja
 

o par h ln, Li, onde ln : + → é o logaritmo neperiano e L : {·, 1} → {+, 0} dado por L(·) = +,
 

L(1) = 0. Então h ln, Li é um morfismo de h + , {·, 1}i em h , {+, 0}i, dado que para todo
 

a, b ∈ + vale


ln(a · b) = ln(a) + ln(b).

• Ações de uma Álgebra Universal sobre uma outra Álgebra Universal

Por razões de completeza apresentaremos aqui a noção geral de ação de uma álgebra universal sobre
uma outra. A leitura desta seção pode ser omitida pois não afetará o que segue.
Vamos começar com algumas definições. Sejam A e B dois conjuntos e seja uma função G : A×B →
B.
Para todo n, m ∈  definamos

G(n, 1) : An × B → B n tal que (a1 , . . . , an , b) 7→ (G(a1 , b), . . . , G(an , b))

com ai ∈ A, b ∈ B.
Para todo m, m ∈  definamos

G(1, m) : A × B m → B m tal que (a, b1 , . . . , bm ) 7→ (G(a, b1 ), . . . , G(a, bm ))

com a ∈ A, bi ∈ B.
Para um conjunto C qualquer idC : C → C denota a identidade em C: idC (c) = c, ∀c ∈ C.
Fora isso, se γ : C → C é uma aplicação, denotaremos por γ (n) : An → An a aplicação tal que
γ (n) (c1 , . . . , cn ) = (γ(c1 ), . . . , γ(cn )).
Finalmente, para duas aplicações α : An → A e β : B m → B o par (α, β) denota a aplicação
An × B m → A × B dada por (α, β)(a1 , . . . , an , b1 , . . . , bm ) = (α(a1 , . . . , an ), β(b1 , . . . , bm ))).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 24 1167/1195

Com isso podemos formular a definição desejada de ação de uma álgebra universal sobre uma outra.
Sejam hA, Ai e hB, Bi duas álgebras universais. Uma ação de hA, Ai sobre hB, Bi é um par
hG, Γi onde
G:A×B →B e Γ:A→B
são aplicações tais que Γ preserva tipos e as seguintes condições são válidas: Para quaisquer α ∈ A e
β ∈ B (cujos tipos serão n e m, respectivamente) tem-se que

G ◦ (α, β) = Γ(α) ◦ G(n, 1) ◦ (idAn , β) = β ◦ G(1, m) ◦ (α, idB m ) (24.5)

como aplicações An × B m → B.
De (24.5) segue que
G ◦ (α, idB ) = Γ(α) ◦ G(n, 1) ◦ (idAn , idB ) (24.6)
e
G ◦ (idA , β) = β ◦ G(1, m) ◦ (idA , idB m ). (24.7)

E. 24.9 Exercı́cio. Mostre isso. 6

De (24.6) e (24.7) segue que


(n)
G(n, 1) ◦ (idAn , β) = β ◦ G(1, m) ◦j (24.8)

e (m)
G(1, m) ◦ (α, idB m ) = Γ(α) ◦ G(n, 1) ◦ k, (24.9)
onde j : An × B m → (A × B m )n é dada por

j(a1 , . . . , an , b1 , . . . , bm ) := (a1 , b1 , . . . , bm , a2 , b1 , . . . , bm , . . . , an , b1 , . . . , bm )

e k : An × B m → (An × B)m é dada por

k(a1 , . . . , an , b1 , . . . , bm ) := (a1 , . . . , an , b1 , a1 , . . . , an , b2 , . . . , a1 , . . . , an , bm ).

E. 24.10 Exercı́cio. Mostre isso. 6

Das relações (24.8) e (24.9) segue que a condição (24.5) pode ser escrita como
(n) (m)
G ◦ (α, β) = Γ(α) ◦ β ◦ G(1, m) ◦ j = β ◦ Γ(α) ◦ G(n, 1) ◦ k. (24.10)

Observação. Acima estamos considerando idA , idB , como elementos de A, respectivamente de B, o


que sempre pode ser feito sem perda de generalidade.
Capı́tulo 25
O Limite Indutivo de Álgebras
Conteúdo

amos neste capı́tulo apresentar uma construção do chamado limite indutivo de certas famı́lias
de álgebras, em particular de álgebras de Banach. Tal construção é freqüentemente empre-
gada, por exemplo na teoria das álgebras C∗ onde é usada na construção de uma classe
importante de álgebras C∗ , as chamadas álgebras AF.
No caminho que seguiremos indicaremos primeiro como construir o chamado limite indutivo algébrico,
construção essa que pode ser efetuada não só em famı́lias de álgebras, mas também em famı́lias de gru-
pos, de anéis, de semi-grupos, de espaços vetoriais etc. A seguir trataremos do caso de espaços de
famı́lias de espaços de Banach e construiremos o chamado limite indutivo de Banach de (A, φ).

• O “Limite Indutivo Algébrico” de uma Famı́lia de Álgebras

Um conjunto I é dito ser um conjunto dirigido (“directed set”) se for dotado de uma relação de
ordem parcial, que denotaremos por “”, e se for dotado da seguinte propriedade: para quaisquer dois
elementos a e b de I existe pelo menos um terceiro elemento c ∈ I tal que a  c e b  c.
Seja I um conjunto dirigido que trataremos aqui como um conjunto de ı́ndices. Vamos estar aqui
supondo que associada a cada i ∈ I haja uma álgebra Ai e que, para cada par i, j ∈ I com i  j haja
um morfismo de álgebra φij : Ai → Aj satisfazendo os seguintes requisitos:

1. Para todo i, j, k ∈ I com i  j  k, φik = φjk ◦ φij

2. Para todo i ∈ I, φii = idAi .

A propriedade 1) acima é chamada de “coerência”.


No que segue estaremos supondo que todas as álgebras Ai são álgebras em relação ao mesmo corpo
(por exemplo, ).
Uma coleção de álgebras e morfismos de álgebra com as propriedades acima é dito ser um sistema
indutivo de álgebras e denotaremos um tal sistema por (A, φ).
A tı́tulo de ilustração o leitor pode ter em mente o caso em que I = e onde cada álgebra A i é


uma sub-álgebra de Ai+1 , φi, i+1 sendo a inclusão de Ai em Ai+1 e φij := φi, i+1 ◦ φi+1, i+2 ◦ . . . ◦ φj−1, j ,
para todos i, j ∈ com i < j.


G
Seja A = Ai a união disjunta das álgebras Ai . Lembramos que a união disjunta de uma famı́lia
i∈I [ [
Xi , i ∈ Λ, de conjuntos foi definida (página 26) como (x, i). Com o propósito de definir o
i∈Λ x∈Xi
conceito de limite indutivo associado ao sistema indutivo (A, φ) vamos definir em A uma relação de

1168
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1169/1195

equivalência. Sejam x ∈ Ai e y ∈ Aj . Dizemos que x ∼ y se existir pelo menos um k ∈ I com1


(k  i) ∧ (k  j) tal que
φik (x) = φjk (y).
Vamos mostrar em primeiro lugar que tal realmente define uma relação de equivalência.

1. x ∼ x, x ∈ Ai . Para tal tome-se k = i.

2. Se x ∼ y então y ∼ x. Óbvio, pela definição.

3. Se x ∼ y e y ∼ z então x ∼ z. Sejam x ∈ Ai , y ∈ Aj e z ∈ Ak . Então existem k 0 e k 00 tais que


(k 0  i) ∧ (k 0  j), (k 00  j) ∧ (k 00  k) com

φik0 (x) = φjk0 (y)

e
φjk00 (y) = φkk00 (z).
Seja então k 000 ∈ I com (k 000  k 0 ) ∧ (k 000  k 00 ). Teremos

φik000 (x) = φk0 k000 ◦φik0 (x) = φk0 k000 ◦φjk0 (y) = φjk000 (y) = φk00 k000 ◦φjk00 (y) = φk00 k000 ◦φkk00 (z) = φkk000 (z).

Assim, φik000 (x) = φkk000 (z) com (k 000  i) ∧ (k 000  k), provando que x ∼ z.

Isto posto, denotaremos por Aφ a coleção das classes de equivalência de A pela relação ∼: Aφ :=
A/ ∼. Notemos que Aφ depende da coleção {Ai , i ∈ I} e dos morfismos φij usados.
Antes de prosseguirmos provemos o seguinte pequeno resultado, do qual faremos uso:
Lema 25.1 Para todo i ∈ I, todo a ∈ Ai e todos k, k 0 ∈ I com k  i, k 0  i, tem-se que φik (a) ∼
φik0 (a). 2

Prova. Seja x ≡ φik (a) ∈ Ak , y ≡ φik0 (a) ∈ Ak0 e seja k 00 ∈ I com (k 00  k) ∧ (k 00  k 0 ). Temos que

φkk00 (x) = φkk00 ◦ φik (a) = φik00 (a)

e
φk0 k00 (y) = φk0 k00 ◦ φik0 (a) = φik00 (a).
Logo, φkk00 (x) = φk0 k00 (y), provando que x ∼ y.

Este lema diz que, para todo i ∈ I, todo a ∈ Ai e todos k, k 0 ∈ I com k  i, k 0  i, tem-se que

[φik (a)] = [φik0 (a)],

o que também diz que i ∈ I, todo a ∈ Ai e todo k ∈ I com k  i temos

[a] = [φik (a)].


1
Lembramos que os sı́mbolos ∧ e ∨ representam os conectivos lógicos “e” e “ou”, respectivamente.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1170/1195

Podemos atribuir a Aφ uma estrutura de álgebra. Em primeiro lugar, se [x] é a classe de equivalência
associada a um elemento x, definimos α[x] := [αx]. Aqui α é um elemento qualquer do corpo de escalares
das álgebras.
É preciso demonstrar a independência dessa definição dos representantes tomados na classe, mas
isso é fácil de se verificar, pois se x0 ∼ x com x0 ∈ Aj e x ∈ Ai , existe k ∈ I com (k  i) ∧ (k  j) com
φik (x) = φjk (x0 ). Logo, φik (αx) = φjk (αx0 ), provando que (αx0 ) ∼ (αx), ou seja, que [αx0 ] = [αx].
Sejam x ∈ Ai , y ∈ Aj e (k  i) ∧ (k  j). Definimos
[x] + [y] := [φik (x) + φjk (y)].

É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado.
A independência de k é imediata, pois se (k 0  i) ∧ (k 0  j) então tomemos k 00 ∈ I tal que
(k  k) ∧ (k 00  k 0 ). Denotando z1 = φik (x) + φjk (y) e z2 = φik0 (x) + φjk0 (y) teremos
00

φkk00 (z1 ) = φik00 (x) + φjk00 (y) = φk0 k00 (φik0 (x) + φjk0 (y)) = φk0 k00 (z2 ),
mostrando que z1 ∼ z2 e que [φik (x) + φjk (y)] = [φik0 (x) + φjk0 (y)].
Vamos agora provar a independência da definição de [x] + [y] do representante tomado em [x]. A
independência em relação ao representante em [y] é análoga. Seja x0 ∈ Ai0 com x0 ∼ x e seja k 0 ∈ I
com (k 0  i) ∧ (k 0  i0 ) ∧ (k 0  j) e tal que φik0 (x) = φi0 k0 (x0 ). Temos que
φi0 k0 (x0 ) + φjk0 (y) = φik0 (x) + φjk0 (y).
Logo
[φi0 k0 (x0 ) + φjk0 (y)] = [φik0 (x) + φjk0 (y)] = [φik (x) + φjk (y)],
pela independência em k, provando o que se desejava.
Notemos também que para todo y,
[0] + [y] = [φik (0) + φjk (y)] = [φjk (y)] = [y],
mostrando que [0] é o elemento neutro da adição definida acima e que
[x] + (−1)[x] = [x] + [−x] = [φik (x) + φik (−x)] = [φik (x) − φik (x)] = [0].

As operações de multiplicação por escalar e de soma em que foram definidas acima dão a A φ uma
estrutura de espaço vetorial. Vamos agora definir um produto em Aφ . Definimos
[x][y] := [φik (x)φjk (y)],
onde, novamente x ∈ Ai , y ∈ Aj e k é tal que (k  i) ∧ (k  j).
É preciso demonstrar a independência dessa definição dos representantes tomados, assim como do k
adotado. Para vermos a independência em relação ao k adotado, seja (k 0  i) ∧ (k 0  j) então tomemos
k 00 ∈ I tal que (k 00  k) ∧ (k 00  k 0 ). Denotando z1 ≡ φik (x)φjk (y) e z2 ≡ φik0 (x)φjk0 (y) teremos, usando
o fato que os φ’s são morfismos de álgebra,
φkk00 (z1 ) = φik00 (x)φjk00 (y) = φk0 k00 (φik0 (x)φjk0 (y)) = φk0 k00 (z2 ),
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1171/1195

mostrando que z1 ∼ z2 e que [φik (x)φjk (y)] = [φik0 (x)φjk0 (y)].


Vamos agora provar a independência da definição de [x][y] do representante tomado em [x]. A
independência em relação ao representante em [y] é análoga. Seja x0 ∈ Ai0 com x0 ∼ x e seja k 0 ∈ I
com (k 0  i) ∧ (k 0  i0 ) ∧ (k 0  j) e tal que φik0 (x) = φi0 k0 (x0 ). Temos que

φi0 k0 (x0 )φjk0 (y) = φik0 (x)φjk0 (y).

Logo
[φi0 k0 (x0 )φjk0 (y)] = [φik0 (x)φjk0 (y)] = [φik (x)φjk (y)],
pela independência em k.
Notemos também, por fim, que para todo y,

[0][y] = [φik (0)φjk (y)] = [0φjk (y)] = [0].

O conjunto Aφ , dotado da estrutura algébrica definida acima, é chamado de limite indutivo algébrico
do sistema indutivo (A, φ).

• Alguns Exemplos

Vamos ilustrar a construção acima com exemplos. Seja I =  com a ordem usual e A n = Mat(n, ),
a álgebra das matrizes complexas n × n.
Há três possı́veis morfismos de álgebra de Mat(2) em Mat(3), como indicado abaixo:
 
  0 0 0
a b
φ12, 3 :=  0 a b  .
c d
0 c d

 
  a 0 b
a b
φ22, 3 :=  0 0 0  ,
c d
c 0 d
 
  a b 0
a b
φ32, 3 :=  c d 0  ,
c d
0 0 0

E. 25.1 Exercı́cio. Mostre que os três φ’s definidos acima são homomorfismos de A 2 em A3 e que são
os únicos homomorfismos desse tipo. 6

Há entre An e An+1 exatamente n + 1 homomorfismos. O exemplo acima ilustra como os mesmos
são obtidos: para uma matriz n × n a, φin, n+1 (a) é uma matriz (n + 1) × (n + 1) obtida inserindo-se
em a uma coluna na i-ésima posição e uma linha na i-ésima posição, ambas apenas com zeros:
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1172/1195

 
a1, 1 . . . a1, i−1 0 a1, i . . . a1, n
 .. .. .. .. .. .. .. 
   . . . . . . . 
a1, 1 . . . a1, n  
a
 i−1, 1 . . . ai−1, i−1 0 ai−1, i . . . ai−1, n 
 .. .. ..   
φin, n+1  . . .  :=  0 ... 0 0 0 ... 0 .
 
an, 1 . . . an, n  ai, 1 . . . ai, i−1 0 ai, i . . . ai, n 
 .. .. .. .. .. .. .. 
 . . . . . . . 
an, 1 . . . an, i−1 0 an, i . . . an, n

Uma possı́vel coleção de morfismos coerentes é dada da seguinte forma. Seja a coleção {i a , a ∈  }
onde, para a, o ı́ndice ia assume valores em {1, . . . , a + 1}. Sejam An e Am , com n < m, e
i
φin,n ,...,i
m
m−1
:= φin,n n+1 ◦ . . . ◦ φm−1,
m−1
m.

Note-se porém que morfismos com ı́ndices {in , . . . , im } distintos podem ainda assim ser idênticos. O
que distingue os morfismos entre si é a localização das linhas e colunas nulas.
Cada coleção I = {ia , a ∈  } caracteriza (não univocamente) um limite indutivo algébrico AI .

E. 25.2 Exercı́cio. Suponha que adotemos um sistema indutivo onde I = com a ordem usual, 

n+1,...,m
An = Mat(n, ) e onde os morfismos são dados por φn, m , ou seja, com cada ia assumindo o valor
máximo possı́vel (última linha e coluna de zeros introduzida em cada etapa). Mostre que matrizes como
 
  a b 0
a b
e  c d 0 
c d
0 0 0
são equivalentes e que matrizes como
 
  0 0 0
a b
e  0 a b ,
c d
0 c d
não são equivalentes. 6

Vamos considerar outro exemplo. Seja s ∈ fixo, s 6= 0, e I = {2n s, n ∈ } com a ordem usual.
 

Seja An = Mat(2n s, ) e seja φn m definida da seguinte forma: para todo a ∈ Mat(2n s, C),

| ⊕ a ⊕{z. . . ⊕ a},
φn m (a) := a
2m−n vezes

onde, para uma matriz N × N , a,  


a 0N
a⊕a = ,
0N a
onde 0N é a matriz nula N × N e
 
a 0 N 0N
a ⊕ a ⊕ a =  0N a 0 N  ,
0N 0N a
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1173/1195

etc. Mais genericamente, para q ∈ , q ≥ 2 e s ∈ , s 6= 0, podemos tomar I = {q n s, n ∈


   } com a
ordem usual, An = Mat(q n s, ) e φn m definida da seguinte forma: para todo a ∈ Mat(q n s, ),

| ⊕a⊕
φn m (a) := a {z. . . ⊕ a} .
q m−n vezes
O limite indutivo algébrico assim obtido será caracterizado por q e s: A(q, s).
Vamos agora a mais um exemplo que, num caso especial, engloba o anterior. Seja {q i ∈ , qi ≥ 

2, i ∈ } uma seqüência de números naturais positivos maiores ou iguais a 2 e s ∈ , s 6= 0. Seja


 

Q0 = s e Qn := sq1 · · · qn , n ≥ 1. Tomemos I = {Qn , n ∈ } com a ordem usual, e An = Mat(Qn , )




e φn m definida da seguinte forma. Sejam Tn ∈ Mat(qn , ), n ∈ , n ≥ 1, matrizes idempotentes (ou




seja, que satisfazem Tn2 = Tn ) não nulas e definamos para todo a ∈ Mat(Qn , )

φn, n+1 (a) = a ⊗ Tn+1 .

E. 25.3 Exercı́cio. Verifique que isso define um morfismo de álgebra entre Mat(Q n , ) e Mat(Qn+1 , ).
Por que razão a condição de idempotência Tn2 = Tn é importante? 6

Seja então para todo m > n

φn, m := φn, n+1 ◦ · · · ◦ φm−1, m .

Pela definição é claro que os φ’s assim definidos formam uma coleção coerente de morfismos. O limite
indutivo algébrico assim obtido será aqui denotado por A({q}, s, {T }).

E. 25.4 Exercı́cio. Verifique que o exemplo anterior, A(q, s), corresponde a tomar-se q n = 2 e Tn = q ,
n∈ . 6

Os exemplos acima serão discutidos com mais detalhe quando tratarmos das álgebras AF. Passemos
agora à seguinte discussão. Se as álgebras Ai , i ∈ I forem todas álgebras de Banach estamos muitas
vezes interessados em construir um limite indutivo que seja também uma álgebra de Banach. É preciso
para tal introduzir uma norma conveniente em A a partir das normas das álgebras Ai e construir seu
completamento. Há para tal uma série de problemas dos quais passaremos a tratar.

• O “Limite Indutivo de Banach” de uma Famı́lia de Álgebras de Banach

Vamos considerar agora a situação na qual as álgebras Ai são álgebras de Banach com norma k · ki .
O sistema (A, φ) é dito ser um sistema indutivo normado se todos os φi j forem contı́nuos (ou seja,
limitados) e se tivermos
lim sup kφi j kj < ∞.
j

Pelo teorema de Banach-Steinhaus (A, φ) é um sistema indutivo normado se e somente se tivermos

lim sup kφi j (x)kj < ∞. (25.1)


j

para todo i e para todo x ∈ Ai .


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1174/1195

Podemos fazer de A uma álgebra semi-normada definindo

|||[x]||| := lim sup kφij (x)kj ,


ji

onde x ∈ Ai é um representante de [x].


Precisamos mostrar que a definição acima independe do representante tomado na classe. Para tal
usaremos a propriedade que denominamos “Invariância por Redução Inicial do Domı́nio” à página 880.
Sejam x ∈ Ai e x0 ∈ Ai0 com x ∼ x0 e k ∈ I tal que (k  i) ∧ (k  i0 ) e

φik (x) = φi0 k (x0 ).

Definindo para n ∈ I
In := {m ∈ I| m  n},
tem-se que
k|[x]k| = lim sup kφij (x)kj
j∈Ii
e
k|[x0 ]k| = lim sup kφi0 j (x)kj .
j∈Ii0

Nota: é um exercı́cio simples mostrar que In são também conjuntos dirigidos. A definição de lim sup
pode ser encontrada na Seção 18.3, à página 879.
Dado o conjunto Ii escrevamos Ii = I0 ∪ J onde J := Ik e I0 := Ii \ J. Vamos mostrar que os
conjuntos I0 e J satisfazem as condições requeridas para a propriedade que denominamos “invariância
por redução inicial do domı́nio” à página 880:

1. Para todo i0 ∈ I0 existe pelo menos um j ∈ J tal que i0  j.

2. J é um conjunto dirigido pela mesma relação de ordem .

3. Para todo j ∈ J vale que se l  j então l ∈ J.

A propriedade 2 já foi observada acima. Se j ∈ Ik e l  j então l  k e portanto l ∈ Ik ≡ J,


provando 3. Para provar 1 notemos que se i0 ∈ Ii então, como Ii é um conjunto dirigido deve existir
j ∈ Ii tal que (j  i0 ) ∧ (j  k). A condição j  k diz que j ∈ Ik ≡ J, provando 1.
Pela propriedade de invariância por redução inicial do domı́nio tem-se então que

k|[x]k| = lim sup kφij (x)kj = lim sup kφij (x)kj .


j∈Ii j∈Ik

Mutatis mutantis temos também que

k|[x0 ]k| = lim sup kφi0 j (x0 )kj = lim sup kφi0 j (x0 )kj .
j∈Ii0 j∈Ik

Porém, para j ∈ Ik
φij (x) = φkj ◦ φik (x) = φkj ◦ φi0 k (x0 ) = φi0 k (x0 ),
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1175/1195

provando finalmente que


k|[x]k| = k|[x0 ]k|.

Uma vez estabelecido que k|[x]k| independe do representante tomado na classe [x] vamos agora
provar que |||[x]||| é de fato uma semi-norma.
Proposição 25.1 Para todas as classes [x] e [y] valem:

1. |||α[x]||| = |α| |||[x]|||;


2. |||[x] + [y]||| ≤ |||[x]||| + |||[y]|||;
3. |||[x][y]||| ≤ |||[x]||| · |||[y]|||.

Prova. A prova de 1 é elementar. Para provar 2 notemos o seguinte. Sejam x e y representantes


de [x] e [y], respectivamente, em Ai e Aj , respectivamente. Então, existe k com (k  i) ∧ (k  j) de
forma que
|||[x] + [y]||| = |||[φik (x) + φjk (y)]|||

= lim sup kφk j 00 (φik (x) + φjk (y))k


j 00 k

≤ lim sup kφi j 00 (x)k + lim sup kφj j 00 (y)k


j 00 k j 00 k

≤ lim sup kφi j 00 (x)k + lim sup kφj j 00 (y)k


j 00 i j 00 j

= |||[x]||| + |||[y]|||.

A prova de 3 é análoga. Sejam x, y, i, j como acima. Então existe k tal que


|||[x][y]||| = |||[φik (x)φjk (y)]|||

= lim sup kφk j 00 (φik (x)φjk (y))k


j 00 k

≤ lim sup kφi j 00 (x)k kφj j 00 (y)k


j 00 k

  
≤ lim sup kφi j 00 (x)k lim sup kφj j 00 (y)k
j 00 i j 00 j

= |||[x]||| · |||[y]|||.

O limite indutivo normado de (A, φ) é então definido tomando-se o cociente de A com os vetores
em A com semi-norma ||| · ||| igual a zero. Nesse novo espaço ||| · k|| induz uma norma que também
denotaremos por ||| · |||.
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1176/1195

O limite indutivo de Banach, ou simplesmente limite indutivo é definido tomando-se o completa-


mento do limite indutivo normado de (A, φ) na métrica definida pela norma ||| · |||. É evidente pela
construção que a álgebra assim obtida, que denotaremos por A∞ , é uma álgebra de Banach.
Seja Ai , i ∈ I, uma famı́lia de álgebras C∗ . Uma álgebra C∗ A é dita ser um limite indutivo das
álgebras Ai se existirem morfismos de álgebra C∗ fi : Ai → A para todo i ∈ I tais que ∪i∈I Ai seja
denso em norma em A.
Vamos no próximo item mostrar uma situação geral na qual o limite indutivo de uma famı́lia de
álgebras pode ser construı́do.

• O Limite Indutivo de Álgebras C ∗

Vamos considerar agora o caso em que as álgebras Ai sejam todas álgebras C∗ e que os morfismos φij
sejam *-morfismos, ou seja, tais que para todo i, j ∈ Λ, i  j, e todo a ∈ Ai tenhamos φij (a∗ ) = φij (a)∗ .
Naturalmente que

kφij (a∗ a)kj = kφij (a∗ )φij (a)kj = kφij (a)∗ φij (a)kj = kφij (a)k2j

pela propriedade C∗ das álgebras Aj .


Em um tal caso diremos que o sistema indutivo (A, φ) é um sistema indutivo C∗ .
Definimos no limite indutivo algébrico das álgebras Ai a operação ∗ por [x]∗ = [x∗ ]. Vamos mostrar
que essa definição não depende do representante tomado na classe [x]. Seja para tal y ∈ [x] com x ∈ A i
e y ∈ Aj e seja k ∈ Λ tal que (k  i) ∧ (k  j) e φik (x) = φjk (y). Segue que φik (x∗ ) = φik (x)∗ =
φjk (y)∗ = φjk (y ∗ ). Isso mostra que x∗ e y ∗ são equivalentes, que é o que se queria provar.
Desejamos agora provar a propriedade C∗ da semi-norma ||| · |||. Para tal notemos que, como x e
x∗ pertencem à mesma álgebra (digamos, Ai ) temos [x][x∗ ] = [x x∗ ] (por que?) e assim
 2
∗ ∗ ∗
|||[x] [x]||| = |||[x x ]||| = lim sup kφij (x x )kj = lim sup kφij (x)k2j = lim sup kφij (x)kj = |||[x]|||2 .
ji ji ji

Isso mostrou que a semi-norma ||| · ||| também satisfaz a propriedade C∗ e que o limite indutivo de
Banach de um sistema indutivo C∗ é também uma álgebra C∗ , que denotaremos por A∞ .
Vamos agora construir o sistema de morfismos fi de álgebra C∗ mencionado. Seja, para cada i ∈ Λ,
fi : Ai → A∞ , dado por Ai 3 x 7→ [x] ∈ A∞ . Vamos verificar que, para cada i ∈ Λ, fi é de fato um
morfismo de álgebra C∗ . De fato, para todo x, y ∈ Ai temos fi (x+y) = [x+y] = [x]+[y] = fi (x)+fi (y)
(por que? Justifique a segunda igualdade) e fi (xy) = [xy] = [x][y] = fi (x)fi (y) (por que? Justifique
a segunda igualdade). Fora isso, como já vimos, fi (x∗ ) = [x∗ ] = [x]∗ = fi (x)∗ . Notemos também que,
por construção, ∪i∈Λ (Ai ) é denso em A∞ e assim A∞ é um limite indutivo C∗ da famı́lia Ai , i ∈ Λ.
Referências Bibliográficas

A lista bibliográfica abaixo contém livros-texto onde parte do material contido nestas notas também
pode ser encontrado e outros textos cuja leitura é igualmente recomendada.

[1] R. P. Agarwal e V. Lakshmikantham. Uniqueness and Nonuniqueness Criteria for Ordinary Diffe-
rential Equations. World Scientific (1993).

[2] L. H. Alves Monteiro. Sistemas Dinâmicos, (2002). Ed. Livraria da Fı́sica.

[3] Huzihiro Araki. Mathematical Theory of Quantum Fields. Oxford Science Publications. (1999).

[4] G. Arfken. Mathematical Methods for Physicists. Academic Press Inc. (1970).

[5] V. I. Arnold. Equações Diferenciais Ordinárias. Editora Mir. (1985).

[6] V. I. Arnold. Mathematical Methods of Classical Mechanics. Second Edition. Springer Verlag. (1989).
Versão em português: Métodos Matemáticos da Mecânica Clássica. Ed. Mir, Moscou (1987).

[7] W. B. Arveson. An Invitation to C ∗ -Algebras.

[8] Heinz Bauer. Maß- und Integrationstheorie. Ed. Walter de Gruyter. Berlin, New York. (1992).

[9] F. Brauer and C. Castillo-Chávez. Mathematical Models in Population Biology and Epidemiology.

[10] G. Birkhoff and G. C. Rota. Differential Equations.

[11] R. P. Boas Jr.. Entire Functions. Academis Press. New Yourk. (1954).

[12] H. Bohr. Collected Mathematical Works. In Three Volumes. Dansk Matematisk Forening. Cope-
nhagen. (1952).

[13] W. E. Boyce and R. C. DiPrima. Elementary Differential Equations and Boundary Value Problems.
John Wiley and Sons. New York. (1986).

[14] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics I. Springer
Verlag. (1979).

[15] O. Bratteli and D. W. Robinson. Operator Algebras and Quantum Statistical Mechanics II. Springer
Verlag. (1979).

[16] G. Cain. Introduction to General Topology.

1177
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1178/1195

[17] J. Cigler und H. C. Reichel. Topologie, Eine Grundvorlesung.

[18] C. Chevalley. Theory of Lie Groups.

[19] R. V. Churchill. Variáveis Complexas e suas Aplicações.

[20] E. A. Coddington. An Introduction to Ordinary Differential Equations. Dover Publications, Inc.


New York. (1989).

[21] E. A. Coddington and N. Levinson. Theory of Ordinary Differential Equations.

[22] C. Corduneanu. Almost Periodic Functions. Interscience Publishers - John Wiley & Sons (1968).

[23] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. I Springer Verlag, Berlin,
(2000).

[24] R. Courant and F. John. Introduction to Calculus and Analysis. Vol. II Springer Verlag, Berlin,
(2000).

[25] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. I John Wiley & Sons (1989).

[26] R. Courant and D. Hilbert. Methods of Mathematical Physics. Vol. II John Wiley & Sons (1989).

[27] Richard Courant e Herbert Robbins. O que é Matemática. Editora Ciência Moderna.

[28] K. R. Davidson. C ∗ -Algebras by Example.

[29] Philip J. Davis. Interpolation & Approximation. Dover Publications Inc. (1975).

[30] J. Dieudonnè. History of Functional Analysis. North Holland, (1981).

[31] D. G. de Figueiredo. Análise de Fourier e equações diferenciais parciais. Coleção Euclides. IMPA.

[32] H. M. Edwards Riemann’s Zeta Function. Dover Publications Inc. (1974).

[33] J. P. Elliott and P. G. Dawber. Symmetry in Physics.

[34] L. C. Evans. Partial Differential Equations. American Mathematical Society. (1998).

[35] K. J. Falconer The Geometry of Fractal Sets. Cambridge Univ. Press. (1985).

[36] A. Fazzio e K. Watari. Introdução à Teoria de Grupos.

[37] D. G. de Figueiredo e A. F. Neves. Equações Diferenciais Aplicadas. Coleção Matemática Univer-


sitária. IMPA.

[38] G. Frey. Elementare Zahlenthorie.

[39] J. P. Fernandez. Medida e Integração. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos e
Cientı́ficos, Editora.

[40] A. Galindo e P. Pascual. Quantum Mechanics I. Springer Verlag. (1990).


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1179/1195

[41] A. Galindo e P. Pascual. Quantum Mechanics II. Springer Verlag. (1990).

[42] L. Garding. Encontros com a Matemática. Ed. Universidade de Brası́lia. 2a. Edição (1997).

[43] P. R. Garabedian. Partial Differential Equations. AMS Chelsea Publishing. (1998).

[44] I. M. Gelfand, R. A. Minlos and Z. Ya. Shapiro. Representations of the rotation and Lorentz groups
and their applications.

[45] R. Geroch. Mathematical Physics. The University of Chicago Press. (1985).

[46] J. Glimm and A. Jaffe. Quantum Physics. A Functional Integral Point of View. Second Edition.
Springer-Verlag. (1987).

[47] G. Grätzer. Universal Algebra.

[48] Ronald L. Graham, Donald E. Knuth and Oren Patashnik. Concrete Mathematics - A Foundation
for Computer Science. Addison-Wesley Publishing Company. (1994).

[49] R. Haag. Local Quantum Physics. Second edition. Berlin Heidelberg: Springer Verlag (1996).

[50] P. R. Halmos. Teoria Ingênua dos Conjuntos. Ed. Polı́gono. (1970).

[51] P. R. Halmos. Measure Theory. Springer Verlag. (2000).

[52] Paul R. Halmos. Espaços Vetoriais de Dimensão Finita.

[53] G. H. Hardy and E. M. Wright. An Introduction to the Theory of Numbers. Oxford Univ. Press.

[54] S. W. Hawking and G. F. R. Ellis. The Large Scale Structure of Space-Time. Cambridge Univ.
Press. (1973).

[55] S. Helgason. Geometric Analysis on Symmetric Spaces. Mathematical Surveys and Monographs,
vol. 39. American Mathematical Society. (1991).

[56] E. Henze. Einführung in die Maßtheorie.

[57] H. Heuser. Lehrbuch der Analysis. Teil 1. B. G. Teubner, Stuttgart (1993).

[58] H. Heuser. Lehrbuch der Analysis. Teil 2. B. G. Teubner, Stuttgart (1993).

[59] H. Heuser. Funktionalanalysis. B. G. Teubner, Stuttgart.

[60] H. Heuser. Gewöhnliche Differentialgleichungen. B. G. Teubner, Stuttgart.

[61] J. Hilgert und K.-H. Neeb. Lie Gruppen und Lie Algebren.

[62] E. Hille. Ordinary Differential Equations in the Complex Domain.

[63] Morris W. Hirsch, Stephen Smale and Robert L. Devaney. Differential Equations, Dynamical
Systems & An Introduction to Chaos. Elsevier, Academic Press. (2004)
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1180/1195

[64] Harry Hochstadt. The Functions of Mathematical Physics. Dover Publications Inc. (1971).

[65] Harry Hochstadt. Differential Equations. A Modern Approach. Dover Publications Inc. (1975).

[66] J. Hofbauer and K. Sigmung. The Theory of Evolution and Dynamical Systems. Cambridge Uni-
versity Press, 1988.

[67] N. Jacobson. Lie Algebras.

[68] T. Kato Perturbation Theory of Linear Operators. Springer Verlag, Berlin-Heidelberg-New York
(1976).

[69] Yitzhak Katznelson. An Introduction to Harmonic Analysis. Dover Publications. (1978).

[70] Louis H. Kauffman. Knots and Physics. World Scientific Pub. Co. 3rd edition (2001).

[71] A. Kirillov. Éléments de la Theorie des Représentations.

[72] A. N. Kolmogorov and S. V. Fomin. Introductory Real Analysis.

[73] T. W. Körner Fourier Analysis. Cambridge University Press. (1996).

[74] S. G. Krantz e H. R. Parks The Implicit Function Theorem: History, Theory and Applications.
Birkhäuser (2002).

[75] Erwin Kreyszig. Introductory Functional Analysis with Applications. John Wiley and Sons Inc,
(1989).

[76] L. Landau e E. Lifchitz Curso de Fı́sica. Mecânica. Editora Mir.

[77] L. Landau e E. Lifchitz. Curso de Fı́sica. Mecânica Quântica. Editora Mir.

[78] S. Lang. Algebra.

[79] N. N. Lebedev. Special Functions & their Applications. Dover Publications Inc. (1972).

[80] T. D. Lee. Particle Physics. An Introduction to Field theory.

[81] Elliot H. Lieb and Michael Loss. Analysis.

[82] Elon L. Lima. Espaços Métricos. Projeto Euclides. IMPA, CNPq. (1977). Livros Técnicos e Ci-
entı́ficos, Editora.

[83] Elon L. Lima. Curso de Análise. Vol. 1. Projeto Euclides. IMPA, CNPq. (1976). Livros Técnicos
e Cientı́ficos, Editora.

[84] Elon L. Lima. Curso de Análise. Vol. 2. Projeto Euclides. IMPA, CNPq. (1981). Livros Técnicos
e Cientı́ficos, Editora.

[85] R. S. MacKay and J. D. Meiss, editors. Hamiltonian Dynamical Systems. A reprint selection.
Adam Hilger, Bristol and Philadelphia. (1987).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1181/1195

[86] W. Magnus und F. Oberhettinger. Formel und Sätze für die speziellen Funktionen der mathema-
tischen Physik. Springer Verlag, (1948).

[87] G. Meinardus. Approximation von Funktionen und ihre numerische Behandlung. Springer-Verlag.
Berlin, Göttingen, Heidelberg, New York. (1964).

[88] Richard K. Miller. Non-linear Volterra Integral Equations. W. A. Benjamin, Inc. (1971).

[89] F. Miraglia. Teoria dos Conjuntos. Um Mı́nimo. Edusp 1991.

[90] D. S. Mitrinovic, J. E. Pecaric and A M Fink. Inequalities for functions and their integrals and
derivatives Kluver (1994)

[91] M. E. Munroe. Introduction to Measure and Integration. Addison-Wesley Publishing Company,


Inc. (1953).

[92] Gerard J. Murphy. C∗ -Algebras and Operator Theory. Academis Press. (1990).

[93] M. Naimark et A. Stern. Théorie des Représentations des Groups. Editions Mir. URSS. (1979).

[94] M. Nakahara. Geometry, Topology and Physics.

[95] H. M. Nussenzveig. Curso apresentado na 1a Escola de Verão Jorge André Swieca – Partı́culas
e Campos. (1981). Editado pela Sociedade Brasileira de Fı́sica. Edts. G. da C. Marques e R. C.
Shellard.

[96] I. G. Petrovsky. Lectures on Partial Differential Equations. Dover Publications Inc. (1991).

[97] L. S. Pontriaguin. Continuous Groups.

[98] D. Porter and D. S. G. Stirling. Integral Equations. Cambridge U. P. (1990).

[99] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 1: Functional Analysis.
Academic Press. New York. (1972-1979).

[100] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 2: Fourier Analysis,
Self-Adjointness. Academic Press. New York. (1972-1979).

[101] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 3: Scattering Theory
Academic Press. New York. (1972-1979).

[102] M. Reed and B. Simon. Methods of Modern Mathematical Physics. Vol. 4. Academic Press. New
York. (1972-1979).

[103] F. Riesz and B. Sz.-Nagy. Functional Analysis. Dover Inc, (1955).

[104] H. L. Royden. Real Analysis. Prentice Hall, Inc. (1988).

[105] W. Rudin. Real and Complex Analysis. McGraw-Hill Internatinal Editions. (1987).

[106] W. Rudin. Functional Analysis.


JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1182/1195

[107] H. Sagan. Boundary and Eigenvalue Problems in Mathematical Physics.

[108] J. J. Sakurai. Modern Quantum Mechanics Revised version. Addison-Wesley. (1994).

[109] J. J. Sakurai. Advanced Quantum Mechanics. Addison-Wesley. (1967).

[110] Luiz A. B. San Martin. Álgebras de Lie.

[111] Günter Sharf Quantum Gauge Theories. A True Ghost Story. John Wiley and Sons, Inc. (2001).

[112] A. Schönhage. Approximationstheorie. Walter de Gruyter & Co. Berlin. New York. (1971).

[113] W. R. Scott. Group Theory.

[114] B. Simon. Representations of Finite and Compact Groups. Graduate Studies in Mathematics, vol.
10. Americam Mathematical Society. (1996).

[115] G. F. Simmons. Topology and Modern Analysis.

[116] L. J. Slater. Confluent Hypergeometric Functions. Cambridge University Press. (1960).

[117] J. Sotomayor. Lições de equações diferenciais ordinárias. Projeto Euclides. (1979).

[118] M. Spivak. Calculus.

[119] P. Suppes. Axiomatic Set Theory. Dover Publications Inc.

[120] A. F. Timan. Theory of Approximation of Functions of a Real Variable. Dover Publications Inc.
(1994).

[121] E. C. Titchmarsh. Theory of Functions. Oxford University Press, London and New York. (1939).

[122] E. C. Titchmarsh. (Revised by D. R. Heath-Brown). The Theory of the Riemann Zeta-Function.


Claendon Press, Oxford. (1986).

[123] F. G. Tricomi. Integral Equations. Dover Publications Inc.

[124] F. W. Warmer. Foundations of Differentiable Manifolds and Lie Groups. Springer Verlag. (1983).

[125] G. N. Watson. A Treatise on the Theory of Bessel Functions. Second Edition. Cambridge Uni-
versity Press. (1966).

[126] Hermann Weyl. The Theory of Groups and Quantum Mechanics.

[127] B. Van der Waerden. Die gruppentheoretische Methode in der Quantenmechanik. Springer Verlag,
Berlin, (1932).

[128] S. Weinberg. The Quantum Theory of Fields. Vol. I. Foundations. Cambridge Univ. Press. (1995).

[129] S. Weinberg. The Quantum Theory of Fields. Vol. II. Modern Applications. Cambridge Univ.
Press. (1996).
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1183/1195

[130] E. T. Whittaker and G. N. Watson. A Course of Modern Analysis.

[131] Eugene P. Wigner. Group Theory and Quantum Mechanics. (1931).

[132] K. Yosida. Functional Analysis Springer Verlag.

[133] N. Young. An Introduction to Hilbert Space.

[134] Y. Z. Zhang. Special Relativity and its Experimental Foundations. World Scientific (1997).

[135] D. Zwillinger Handbook of Differential Equations. Academic Press, Inc. (1989).


Índice Remissivo

O Teorema Espectral, 162 A Equação de Laplace em três dimensões em


B(V, W) é um espaço de Banach se W o for, coordenadas esféricas, 495
1019 A Estrutura Causal. Transformações que Pre-
Lp (M, dµ), p ≥ 1, são espaços vetoriais comple- servam a Estrutura Causal, 621
xos e normados, 942 A Forma Determinante, 111
σ-álgebra, 813 A Forma Geral das Matrizes de SU(2), 597
L↑ 3222378+ é um Sub-grupo Normal de L, 636 A Forma Geral das Soluções, 334
L1 (M, dµ) é um espaço vetorial complexo, 938 A Identidade de Polarização, 124
é um anel de divisão, 91 A Multiplicidade Algébrica e a Multiplicidade


+ estendido, 49 Geométrica, 148


A σ-Álgebra Induzida, 829 A Multiplicidade Geométrica de um Autovalor,
A σ-Álgebra Produto, 830 148
A σ-álgebra de Borel, 822 A Noção Usual de Continuidade na Reta Real,
A Adjunta de uma Matriz, 175 889
A Aplicação Diferencial Exponencial dexp, 233 A Noção de σ-Álgebra Gerada, 821
A Coleção de todos os Geradores de Sub-grupos A Noção de Cardinalidade de Conjuntos, 36
Uniparamétricos, 682 A Noção de Produto Tensorial de Dois Espaços
A Construção GNS. Um exemplo, 1087 Vetoriais, 77
A Construção GNS, 1084 A Noção de Produto Tensorial de Dois Grupos,
A Convenção que c = 1, 624 76
A Decomposição Polar de Operadores Limitados A Noção de Soma Direta de Dois Espaços Veto-
em Espaços de Hilbert, 1080 riais, 76
A Definição de Medida, 839 A Noção de Soma Direta de Dois Grupos, 76
A Desigualdade Triangular, 123 A Noção de Topologia Gerada, 818
A Desigualdade de Cauchy para Seqüências. Um A Norma Associada a um Produto Escalar, 122
produto escalar para `2 , 759 A Norma de Operadores Auto-Adjuntos Limita-
A Desigualdade de Cauchy-Schwarz, 113 dos, 1049
A Desigualdade de Hölder. Demonstração, 756 A Relação entre V e V 0 , 102
A Desigualdade de Minkowski. Demonstração, A Relação entre ad e Ad, 231
758 A Relevância de L+ , L↑ 3222378 e L↑+ 3222378
A Desigualdade de Minkowski, 115 na Fı́sica, 635
A Equação de Helmholtz em duas dimensões em A Representação Trivial, 706
coordenadas polares, 493 A Soma Direta de Dois Espaços de Banach, 1033
A Equação de Helmholtz em três dimensões em A Soma Direta de dois Espaços Vetoriais, 80
coordenadas esféricas, 498 A Soma Direta de dois Grupos Abelianos, 80
A Equação de Laplace em duas dimensões em A Topologia τ é Separável, 825


coordenadas polares, 492 A Topologia Fraca de uma Coleção de Funções,

1184
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1185/1195

974 A função geratriz exponencial dos polinômios de


A Topologia Gerada por um Ordenamento To- Laguerre associados, 462
tal, 827 A função geratriz exponencial dos polinômios de
A Topologia Induzida (ou “Relativa”), 828 Laguerre, 458
A Topologia Produto de Espaços Topológicos, A integração de Lebesgue e conjuntos de medida
830 zero, 924
A Topologia de Sorgenfrey de , 820
 A integral de Riemann imprópria e sua relação
A Topologia de Sorgenfrey não é uma Topologia com a de Lebesgue em , 931 

Métrica, 826 A inversa em álgebras de Banach, 1056


A União Disjunta de uma Famı́lia Arbitrária de A noção de espectro de operadores em álgebras
Conjuntos, 26 de Banach, 1059
A álgebra das funções mensuráveis, 950 A noção de ponto singular simples para EDOs
A álgebra das funções simples, 919 de ordem m, 343
A álgebra de Heisenberg gh3 ( ), 576 A notação de Dirac, 1140
A álgebra de Heisenberg ghn ( ), n ≥ 3, 578 A raiz quadrada de um operador compacto, auto-
A cardinalidade de C1/3 , 861 adjunto e positivo, 1108
A condição (7.81) e a constante A, 384 A raiz quadrada de um operador positivo e a
A condição de Lipschitz, 787 unidade, 1079
A construção do operador g(A), 1125 A recuperação de um observável a partir dos
A decomposição de vetores em bases ortogonais seus valores esperados em estados puros,
completas, 1001 1149
A desigualdade de Bessel, 998 A regra de composição para D(t, s), 304
A desigualdade de Cauchy-Schwarz. Um pro- A relação entre D(t, s) e D(t), 303
duto escalar em L2 (M, dµ), 943 A relação entre Jn e J0 , n ∈ , 467

A desigualdade de Young, 764 A relação entre jn e j0 , n ∈ , 479




A equação de Bernoulli, 263 A representação normal, 918


A equação de Euler, 346 A série de Dyson no plano complexo, 319
A equação de Laguerre generalizada, 463 Ação à direita de G sobre (G/H)r , 68
A equação de Riccati generalizada, 264 Ação à esquerda de G sobre (G/H)l , 67
A equação de difusão, 491 Ações à direita e à esquerda sobre o coset por
A equação de onda, 491 um subgrupo normal, 69
A equação não-homogênea, 323 Ações de uma Álgebra Universal sobre uma ou-
A estrutura linear dos conjuntos `p , 753 tra Álgebra Universal, 1166
A estrutura linear dos espaços Lp (M, dµ), 940 Ações, 61
A forma geral das soluções no caso de singulari- Abertos densos, 969
dades simples, 341 Abertos e Fechados, 816
A função caracterı́stica de um conjunto, 915 Advertência, 882
A função degrau, ou função de Heaviside, 315 Ainda mais exemplos de conjuntos de Cantor
A função geratriz das funções de Bessel, 468 (com uma surpresa), 867
A função geratriz dos polinômios de Legendre Alguma Notação, 142
associados, 446 Algumas Propriedades Básicas de Formas Line-
A função geratriz dos polinômios de Legendre, ares Alternantes, 109
440 Algumas Propriedades de Funções Analı́ticas de
A função geratriz exponencial dos polinômios de Matrizes, 221
Hermite, 453 Algumas considerações gerais sobre teorias fı́sicas,
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1186/1195

1141 Autovalores e autovetores de operadores unitários,


Alguns Exemplos, 1171 1046
Alguns Fatos sobre Grupos Topológicos, 674 Autovetores, 147
Alguns esclarecimentos, 922 Base de uma Topologia, 822
Alguns exemplos e contra-exemplos, 1097 Base ortonormal completa de autovetores de um
Anéis com Unidade, 59, 1161 operador compacto auto-adjunto, 1118
Anéis de Divisão, 60, 1162 Bases Algébricas em Espaços Vetoriais, 95
Anéis de Integridade, 60 Bases Topológicas em Espaços Vetoriais, 99
Anéis sem Divisores de Zero, 59, 1161 Bases ortonormais completas e bases topológicas,
Anéis, 55, 1161 1004
Analiticidade da solução, 323 Bases ortonormais completas, 999
Anel de Integridade, 1162 Bolas Abertas em Espaços Métricos, 744
Aplicação para funções numéricas, 948 Caráteres de Grupos Finitos, 724
Aplicações diferenciáveis em espaços de Banach. Caráteres e Funções Centrais, 722
A derivada de Fréchet, 909 Caracterı́stica de um Corpo, 53
Aplicações, Mapeamentos, Mapas, Funcionais, Caso diagonalizável, 306
Operadores, Operações, Produtos etc., Caso não-diagonalizável, 306
22 Centralizadores e Normalizadores, 71
As Aplicações Ad, 231 Certas extensões contı́nuas de funções, 980
As Aplicações ad, 230 Ciclos, 566
As Equações Integrais de Fredholm , 788 Classe de Conjugação, 723
As Equações Integrais de Volterra, 790 Colchetes de Poisson, 58
As Métricas dp em n , 760 Combinações Lineares, 95
As Matrizes de Pauli, 596 Comentário Sobre a Notação, 45, 1157
As desigualdades de Hölder e Minkowski para Comentário ao Teorema 14.6. Continuidade em
seqüências, 754 relação às condições iniciais, 803
As equações de Helmholtz e de Laplace, 492 Comentário ao Teorema 14.6. Continuidade por
As funções de Airy de primeiro e de segundo mudanças de parâmetros, 804
tipo, 366 Comentário final sobre as séries perturbativas,
As funções de Green para o problema, 502, 505 314
As integrais de Riemann e Lebesgue em interva- Comentário sobre Matrizes Bijetoras, 146
los compactos, 930 Comentário sobre a equação de Bessel no inter-
As relações de ortogonalidade das funções de valo J = [0, ∞), 477
Bessel no intervalo [0, 1], 474 Comentário sobre autovalores negativos, 540
Automorfismos de SL( , 2), 644 Comentários e Nomenclatura, 813
Automorfismos descontı́nuos do grupo ( , +),
 Comentários sobre soluções globais. O Exemplo
97 5.17, 289
Autovalores de L2 , 714 Comentários sobre soluções globais. O Exemplo
Autovalores de Operadores Compactos Auto-adjuntos, 5.20, 290
1112 Complementos ortogonais, 990
Autovalores e autovetores de operadores auto- Completeza de Espaços Métricos e sua Topolo-
adjuntos, 1046 gia, 745
Autovalores e autovetores de operadores limi- Completeza, 736
tados. Multiplicidade de um autovalor, Componentes conexas, 972
1045 Comutatividade e Associatividade, 1157
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1187/1195

Condição para os conjuntos C{f } (F ) terem me- Convergência em espaços métricos, 732
dida de Lebesgue não-nula, 869 Corpos Não-comutativos, 60, 1163
Condições de contorno homogêneas caracterizam Corpos e Anéis de Integridade, 61, 1163
um espaço vetorial, 525 Corpos, 60, 1162
Condições de contorno lineares e homogêneas, Cosets à direita, ou “right cosets”, 67
522 Cosets à esquerda, ou “left cosets”, 66
Condições de contorno não-homogêneas caracte- Cosets por subgrupos normais, 69
rizam um espaço convexo, 525 Critério de Lebesgue para integrabilidade de Ri-
Conjuntos Abertos em Espaços Métricos, 743 emann, 905
Conjuntos Bem-Ordenados, 33 De volta ao polinômio mı́nimo, 158
Conjuntos Contáveis, 37 Deficiências da integral de Riemann, 906
Conjuntos Densos em Espaços Métricos, 739 Definição do problema, 526
Conjuntos Dirigidos, 31 Definição geral de EDOs, 249
Conjuntos Fechados em Espaços Métricos e Com- Definindo a Exponenciação de ad, 231
pleteza, 835 Dependência Linear, 94
Conjuntos Limitados, 34 Derivada de uma exponencial em relação a um
Conjuntos conexos, 971 parâmetro, 243
Conjuntos contáveis da reta real têm medida de Derivadas parciais, 913
Lebesgue nula, 857 Desigualdades envolvendo somas de potências,
Conjuntos convexos, 988 765
Conjuntos de Cantor, 973 Detalhando a definição de produto escalar, 116
Conjuntos densos em parte alguma, 968 Determinante de Matrizes, 112
Conjuntos densos em si mesmo, 969 Diagonalização de Matrizes, 160
Conjuntos densos, 968 Diagonalizabilidade de Projetores, 169
Conjuntos desconexos, 970 Diferenciação e integração de funções de uma
Conjuntos fechados em espaços de Hilbert, 987 variável real, 910
Conjuntos ortonormais e séries convergentes, 996 Dilatações, 622
Conjuntos ortonormais, 993 Dimensão Algébrica, 95
Conjuntos perfeitos, 969 Dois Resultados sobre o Grupo de Lorentz, 633
Conjuntos totalmente desconexos, 973 Elementos Maximais e Minimais, 33
Conseqüências do Teorema de Hahn-Banach para Elementos de Matriz dos Geradores L1 , L2 e L3 ,
espaços vetoriais normados, 1030 716
Considerações gerais sobre operadores em espaços Enunciado e Demonstração do Teorema da De-
de Hilbert, 1040 composição de Jordan, 190
Continuidade da norma e do produto escalar, Equações Diferenciais de Segunda Ordem e as
988 Equações Integrais de Volterra, 791
Continuidade de operações algébricas em álgebras Equações Matriciais Complexas, 323
de Banach, 1052 Equações Matriciais, 301
Continuidade e Convergência em Espaços Métricos, Equações Numéricas, 782
892 Equações diferenciais ordinárias com retardo, 254
Continuidade e Convergência em Espaços To- Equações diferenciais ordinárias lineares a coefi-
pológicos Gerais, 893 cientes constantes, 252
Continuidade por partes, 890 Equações diferenciais ordinárias lineares, 251
Continuidade, 127 Equações exatas de ordem n, 274
Convergência de seqüências de conjuntos, 43 Equações exatas de primeira ordem, 271
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1188/1195

Equações lineares homogêneas e não-homogêneas, Fórmula de Rodrigues para os polinômios de


252 Hermite, 454
Equivalência entre Normas, 121 Fórmula de Rodrigues para os polinômios de La-
Equivalência entre Semi-Normas, 122 guerre, 457
Equivalência entre equações de ordem n e siste- Fórmula de Rodrigues para os polinômios de Le-
mas de EDOs, 260 gendre, 438
Equivalência entre normas matriciais, 213 Fórmula de adição das funções de Bessel, 469
Espaços Métricos. O Completamento Canônico, Famı́lias de Conjuntos, 24
739 Famı́lias de Pseudo-Métricas, 748
Espaços Reflexivos, 1022 Fatos básicos sobre o espectro de operadores em
Espaços Topológicos Separáveis e Espaços To- álgebras de Banach e Banach-∗, 1059
pológicos Segundo-Contáveis, 824 Fatos gerais sobre a inversa de operadores em
Espaços Vetoriais, 1163 B(X), 1054
Espaços de Banach, 748 Fecho de Conjuntos em Espaços Métricos, 834
Espaços de Hilbert são reflexivos, 1022 Fechos e complementos ortogonais, 992
Espaços de Hilbert separáveis, 1005 Fecho, 831
Espaços de Hilbert, 749 Formas Alternantes Maximais, 110
Espaços métricos e outros exemplos básicos, 730 Formas Alternantes, 108
Estados em Álgebras C∗ , 1083 Formas Bilineares Não-Degeneradas, 108
Estruturas, 44, 1156 Formas Bilineares Não-Singulares, 108
Exemplo de Operador Não-Limitado. O Funci- Formas Bilineares em n , 129
onal Delta de Dirac, 1015 Formas Bilineares em n , 128

Exemplos Básicos de Álgebras de Lie, 57 Formas Bilineares, 107


Exemplos Simples, 47 Formas Sesquilineares Hermitianas em n , 130
Exemplos básicos de σ-álgebras, 815 Formas Sesquilineares Positivas e Produtos Es-
Exemplos básicos de topologias, 815 calares, 117
Exemplos de Formas Sesquilineares e Produtos Formas Sesquilineares em n , 127
Escalares, 118 Formas Sesquilineares. Definições, 112
Exemplos de Funcionais Lineares, 101 Formas Simpléticas, 109, 129
Exemplos e contra-exemplos, 809 Formas invariantes de spinores, 650
Exemplos. A integral de Lebesgue em , 929
 Formas sesquilineares bicontı́nuas, 1124
Exemplos. Integração com a medida de conta- Formas sesquilineares não-singulares, 113
gem. Relação com os espaços `p , 929 Formas simpléticas reais e produtos escalares re-
Exemplos. Integração com a medida delta de ais, 132
Dirac, 928 Fronteira ou Bordo, 833
Exemplos, 30, 74, 135, 712, 840 Funções Analı́ticas de Matrizes, 216
Existência de extensões majoradas por funcio- Funções Finitárias, 44, 1155
nais convexos, 1025 Funções Sobrejetoras, Injetoras e Bijetoras, 23
Expansão de multipolos, 497 Funções com valores em espaços de Banach. In-
Exponenciação e álgebras de Lie matriciais. Um tegrabilidade de Riemann, 902
contra-exemplo, 701 Funções complexas integráveis, 926
Exponenciais de Matrizes. Comutatividade, 219 Funções complexas mensuráveis, 952
Exponenciais e Logaritmos de Matrizes, 218 Funções contı́nuas são integráveis por Riemann,
Extensões de Funções, 26 901
Extensões de Operadores, 1017 Funções definidas por sup’s e inf’s, 917
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1189/1195

Funções geratrizes de Dirichlet, 433 Intertwiners, 707


Funções geratrizes exponenciais, 433 Intervalos de Tipo Luz, de Tipo Tempo e de
Funções geratrizes, 433 Tipo Espaço, 620
Funções integráveis, 925 Intervalos, 18
Funções mensuráveis complexas, 917 Introdução e motivação, 342
Funções mensuráveis e funções simples, 920 Invariância de µL por translações, 854
Funções mensuráveis entre espaços topológicos, Invariância de Normas Associadas a Produtos
948 Escalares, 123
Funções mensuráveis. Definição e comentários, Invariância por Redução Inicial do Domı́nio, 880
915 Iterando a fórmula de Duhamel, 244
Funções simples, 919 Lema de Schur, 710
Funções, 22 Limitações da integral de Lebesgue, 931
Funcionais Lineares em Álgebras C∗ , 1082 Limite do Supremo e Limite do Ínfimo de um
Funcionais lineares contı́nuos, 1007 Conjunto, 881
Funcionais lineares limitados, 1007 Limite em norma de operadores compactos, 1104
Funcionais lineares, 1007 Limites do Ínfimo e Limites do Supremo de Famı́lias
Funcionais sub-aditivos, sub-lineares e convexos, de Conjuntos, 42
1025 Máximos e Mı́nimos, 32
GL( , n) é Grupo de Lie, 679 Método dos Fatores Integrantes, 272
GL( , n) é um Grupo Topológico, 677 Métricas equivalentes. Métricas que geram a
GL( , n) é uma Variedade Analı́tica, 678 mesma topologia, 745
GL( , n) é denso em Mat( , n), 677 Métricas, 729
GL( , n) é um Conjunto Aberto de Mat( , n), Módulos, 58
676 Mais Exemplos de Topologias: a Topologia Co-
Grupo Abeliano Livremente Gerado por um Con- contável e a Co-finita, 817
junto, 78 Mais Exemplos, 30
Grupos Topológicos Conexos e Desconexos, 673 Mais Sobre O Limite do Supremo e Sobre o Li-
Grupos Topológicos, 672 mite do Ínfimo, 882
Grupos de Lie Nilpotentes, 697 Mais Sobre a Topologia Usual de , 820 

Grupos de Lie, 673 Mais exemplos de conjuntos de Cantor, 864


Grupos de Permutações de n Elementos, 565 Mais propriedades da matriz de monodromia,
Grupos, 46, 1160 330
Homomorfismos Não-Contı́nuos de ( , +), 683
 Majorantes e Minorantes, 34
Imagens e pré-imagens de funções, 23 Matrizes Auto-adjuntas e Diagonalizabilidade,
Inexistência de solução, 283 179
Inexistência de soluções globais, 285 Matrizes Diagonalizáveis e Matrizes Simples, 161
Integração de funções mensuráveis. A integral Matrizes Diagonalizáveis, 159
de Lebesgue, 924 Matrizes Hermitianas, Normais e Unitárias, 176
Integração de funções simples, 921 Matrizes Normais e Diagonalizabilidade, 181
Integração sobre uma medida com valores em Matrizes Similares. Transformações de Similari-
projeções ortogonais, 1136 dade, 146
Integrabilidade de Riemann. Critérios alterna- Matrizes Simples, 149
tivos, 901 Medidas Completas e o Teorema de Caratheo-
Integrais indefinidas de funções simples, 922 dory, 850
Interior, 832 Medidas Completas, 849
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1190/1195

Medidas definidas pela integral de funções sim- O Método de Frobenius, 336


ples não-negativas, 923 O Núcleo e a Imagem de um Operador Linear,
Monóides, 45, 1160 186
Monodromia não trivial. Um exemplo, 331 O Polinômio Caracterı́stico de uma Matriz, 145
Monodromia, 327 O Polinômio Mı́nimo, 153
Morfismos em Espaços Vetoriais, 65 O Produto Cartesiano de uma Famı́lia Arbitrária
Morfismos em Grupos, 64 de Conjuntos, 27
Morfismos em Álgebras, 66 O Produto Direto de Grupos, 72
Morfismos entre Álgebras Universais, 1166 O Produto Semi-Direto de Grupos, 73
Números Reais Algébricos e Transcendentes, 40 O Produto Tensorial de dois Espaços Vetoriais,
Números Reais. A Construção de Cantor. Com- 81
pletamento, 767 O Produto Tensorial de dois Grupos Abelianos,
Não-unicidade de soluções, 284 80
Norma Quaterniônica, 92 O Produto Tensorial de dois Módulos sobre uma
Norma e Produto Escalar, 123 Álgebra Associativa, 81
Normas de Matrizes. A Norma Operatorial, 211 O Sinal, ou Paridade, de uma Permutação, 569
Normas, 120 O Teorema BLT, 1017
Nota Histórica, 265 O Teorema Espectral e distribuições de proba-
Nota sobre as funções de Bessel de ordem inteira bilidade no espectro, 1141
negativa, 399 O Teorema Espectral para operadores auto-adjuntos
Notação Matricial. A Métrica de Minkowski, limitados, 1139
624 O Teorema Espectral para operadores compac-
Notações para produtos escalares, 116 tos auto-adjuntos, 1116
O Adjunto em Espaços de Banach, 1048 O Teorema da Aplicação Aberta, 1034
O Axioma da Escolha, 27 O Teorema da Aplicação Inversa, 1038
O Bi-dual Algébrico de um Espaço Vetorial, 104 O Teorema da Convergência Dominada, 935
O Cálculo Funcional para Matrizes Diagonalizáveis, O Teorema da Convergência Monótona, 933
169 O Teorema de Hahn-Banach para espaços veto-
O Centro de GL( , n), 71 riais complexos, 1028
O Centro de um Grupo, 70 O Teorema de Hahn-Banach para espaços veto-
O Determinante de Exponenciais de Matrizes, riais reais, 1027
222 O Teorema de Hamilton-Cayley e a Inversa de
O Dual Topológico de um Espaço Vetorial, 101 Matrizes, 157
O Espectro de uma Matriz, 144 O Teorema de Hellinger-Toeplitz, 1040
O Exemplo de Vitali, 837 O Teorema de Peter-Weyl. Relações de Ortogo-
O Expoente de Lyapunov, 804 nalidade, 720
O Gráfico de um Operador, 1034 O Teorema de Pitágoras, 995
O Grupo Euclidiano, 614 O Teorema de Riesz-Fischer para seqüências. Com-
O Grupo Quociente de G por N , 70 pleteza dos espaços `∞ e `p , p ≥ 1, 761
O Grupo de Galilei, 639 O Teorema de Weierstrass, 978
O Grupo de Poincaré, 628 O Teorema do Gráfico Fechado, 1038
O Grupo de Tranças, 570 O Teorema do Valor Médio, 912
O Lema de Fatou, 934 O Traço de uma Matriz, 150
O Lema de Zorn, 35 O “Limite Indutivo Algébrico” de uma Famı́lia
O Limite Indutivo de Álgebras C ∗ , 1176 de Álgebras, 1168
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1191/1195

O “Limite Indutivo de Banach” de uma Famı́lia O operador integral de Fredholm, 1109


de Álgebras de Banach, 1173 O operador integral de Volterra, 1110
O caso γ− − γ+ ∈ \ {0}, 380 O operador resolvente e propriedades topológicas
O caso γ− − γ+ ∈ , 378 do espectro, 1061, 1093
O caso γ− − γ+ 6∈ , 378 O princı́pio de sobreposição para equações line-
O caso γ− = γ+ , 378 ares homogêneas, 252
O caso ρ = 2ω0 > 0, 309 O problema de Sturm com condições de con-
O caso ρ = 0, 310 torno não-homogêneas, 531
O caso ρ 6= 2ω0 , 308 O quadro da Fı́sica Quântica, 1146
O caso k = 0, γ = 0. Partı́cula submetida a O raio espectral, 1064
força externa dependente do tempo, 311 O sistema de Lotka-Volterra, 257
O caso comutativo, 317 Observáveis e Distribuições de Probabilidade,
O caso de condições de contorno não-homogêneas, 1142
548 Observações, 300
O caso de equações lineares não-homogêneas, Obtendo Produtos Escalares a Partir de Nor-
253 mas, 125
O caso de operadores compactos não-auto-adjuntos, Operações básicas com famı́lias de conjuntos, 24
1118 Operações e Relações, 44, 1155
O conjunto de Cantor ternário é denso em si Operador de Casimir, 713
mesmo e totalmente desconexo, 863 Operadores Auto-adjuntos, Operadores Unitários
O conjunto de Cantor ternário, 859 e Operadores Normais, 1044
O conjunto resolvente e o espectro de um ope- Operadores Compactos em Espaços de Hilbert
rador, 1091 Separáveis, 1105
O espaço das funções almost-periódicas. Uma Operadores Compactos, 1101
digressão, 994 Operadores Contı́nuos, 1013
O espaço vetorial B(V, W), 1016 Operadores Limitados, 1014
O espectro de operadores auto-adjuntos em espaços Operadores Lineares, 1012
de Hilbert é real, 1096 Operadores Nilpotentes, 185
O espectro de operadores limitados em espaços Operadores Nucleares, 1120
de Hilbert, 1095 Operadores Simétricos e Unitários. Ortogonali-
O espectro de operadores unitários e de operado- dade de Autovetores, 178
res auto-adjuntos em álgebras C∗ , 1067 Operadores compactos e seqüências fracamente
O espectro residual e o pontual em um espaço convergentes, 1101
de Hilbert, 1095 Operadores de posto finito, 1100
O fecho de um subespaço linear é também um Ordem Lexicográfica, 31
subespaço linear, 987 Origens, 464
O grupo P↑3222378
+ em 1+1-dimensões, 641 Os Autovalores de Matrizes Hermitianas e de
O grupo O(1, 1) (O Grupo de Lorentz em 1+1 Matrizes Unitárias, 177

dimensões), 586 Os Corpos ( p), com p Primo, 51
O grupo U(1), 586 Os Corpos p , com p Primo, 51
O grupo de Heisenberg GH3 ( ), 575 Os Geradores do Grupo Euclidiano E2 , 615
O grupo de Heisenberg GHn ( ), n ≥ 3, 577 Os Geradores do Grupo Euclidiano E3 , 614
O método de Newton para zeros de funções, 783 Os Geradores do Grupo de Poincaré, 640
O modelo da Mecânica Clássica, 1144 Os Geradores dos Boosts de Lorentz, 636
O número e é um número irracional, 734 Os Grupos O(n) e SO(n), 582
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1192/1195

Os Grupos O(p, m) e SO(p, m), 582 complexas, 133


Os Grupos U (n) e SU (n), 583 Produtos escalares e formas simpléticas reais,
Os Grupos U (p, m) e SU (p, m), 583 118
Os Grupos n , 48 Produzindo Bases de Topologias, 822
Os Grupos Ortogonais Complexos, 584 Projetores Ortogonais, 179
Os Grupos SL( , 2)/{− , } e L↑+ 3222378 são Projetores e Projetores Ortogonais, 1047
Isomorfos, 648 Projetores, 162
Os Grupos SO(2) e O(2), 584 Propriedades Básicas de Medidas, 842
Os Harmônicos Esféricos, 450 Propriedades adicionais, 472
Os Polinômios de Chebyshev, 368 Propriedades algébricas de operadores compac-
Os Polinômios de Hermite, 363 tos, 1102
Os Polinômios de Legendre, 360 Propriedades elementares da integração de funções
Os Sub-grupos Rot e SRot, 629 complexas, 927
Os Sub-grupos Próprio, Ortócrono e Restrito do Propriedades elementares da integração de funções
Grupo de Lorentz, 634 simples, 923
Os “Boosts” de Lorentz, 630 Propriedades elementares da integração, 925
Os conjuntos Lp (M, dµ), 928 Propriedades elementares de funções, 25
Os espaços L1 (M, dµ), 939 Propriedades genéricas, 970
Os espectro e a operação de adjunção, 176 Propriedades topológicas do grupo dos operado-
Os geradores de SRot, 637 res invertı́veis, 1058
Os grupos GL(n, ), SL(n, ) e SL(n, ), 572 Prova do Teorema de Caratheodory, 845
Os números e e π são irracionais e transcenden- Prova do Teorema de Weierstrass, 981
tes, 41 Quase em toda parte, 858
Outra Caracterização do Fecho de um Conjunto, Quatérnions e Álgebras de Matrizes 2 × 2, 89
833 Quocientes, 93
Outros Completamentos dos Racionais. Números Recordando alguns fatos gerais e um pouco de
p-ádicos, 770 notação, 1053
Outros Isomorfismos entre L↑+ 3222378 e SL( , Redes e Seqüências, 32
2)/{− , }, 648 Reescrevendo a equação diferencial na forma de
Outros Subgrupos de GL( , n) e de GL( , n),
 Liouville, 525
573 Reescrevendo a série de Dyson., 316
Outros problemas que não de valor inicial, 282 Regularidade de µL , 855
Outros resultados análogos, 246 Relações Finitárias, 44, 1156
Pares Ordenados, 21 Relações de Compatibilidade, 29
Partes positiva e negativa de uma função, 918 Relações de Equivalência, 28
Partições, 898 Relações de Ordem Total, 30
Polinômios de Matrizes, 152 Relações de inclusão entre os conjuntos Lp (M, dµ)
Problemas bem-postos, 282 quando µ(M ) < ∞ , 944
Problemas de valor inicial, 280 Relações de ortogonalidade para as funções de
Produto Direto e Soma Direta de Coleções Ar- Bessel esféricas no intervalo [0, 1], 480
bitrárias de Grupos, 82 Relações de ortogonalidade para os polinômios
Produtos Cartesianos e Contabilidade, 41 de Hermite, 452
Produtos Escalares em n , 130 Relações de ortogonalidade para os polinômios
Produtos Internos ou Produtos Escalares, 116 de Laguerre, 456
Produtos escalares complexos sobre estruturas Relações de ortogonalidade para os polinômios
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1193/1195

de Legendre associados, 447 Seqüências de Cauchy, 732


Relações de ortogonalidade para os polinômios Seqüências, 731
de Legendre, 436 Singularidades tipo pólo de S(z). Pontos Singu-
Relações de recorrência para as funções de Bessel lares Regulares, 336
esféricas, 479 Sistemas de primeira ordem, 259
Relações de recorrência para as funções de Bes- Sistemas lineares de primeira ordem, 260
sel, 465 Solução de equações lineares de primeira ordem,
Relações de recorrência para os polinômios de 262
Hermite, 455 Solução para condição inicial em instante ar-
Relações de recorrência para os polinômios de bitrário, 305
Laguerre associados, 462 Soluções da equação de Clairaut. A solução sin-
Relações de recorrência para os polinômios de gular, 276
Laguerre, 457 Soluções da equação de D’Alembert-Lagrange,
Relações de recorrência para os polinômios de 278
Legendre associados, 446 Soluções de equações com pontos singulares sim-
Relações de recorrência para os polinômios de ples, 345
Legendre, 439 Soluções nulas, 323
Relações e Grupos Gerados Módulo Relações, 79 Soma Direta de Coleções Arbitrárias de Espaços
Relações, 22 Vetoriais, 82
Relacionando problemas com condições de con- Soma Direta e Soma Semi-Direta de Álgebras de
torno não-homogêneas e homogêneas, 524 Lie, 696
Representação matricial de sistemas lineares, 260 Somas Diretas de Sub-Espaços, 185
Representações Equivalentes, 707 Somas de Darboux, 903
Representações Irredutı́veis para Operadores, 709 Somas de Riemann. Integrabilidade de Riemann,
Representações Irredutı́veis, 708 899
Representações de Grupos, 63 Spinores, 649
Representações de Álgebras, 64 Sub-Espaços Invariantes, 707
Representações integrais das funções de Bessel, Sub-Grupos Normais, 68
470 Sub-Grupos Uniparamétricos e Álgebras de Lie,
Representações integrais para os polinômios de 687
Legendre associados, 443 Sub-Grupos Uniparamétricos em Sub-Grupos Fe-
Representações integrais para os polinômios de chados, 683
Legendre, 441 Sub-álgebras Abelianas, 90
Reticulados Distributivos, 1159 Sub-espaços Invariantes, 185
Reticulados, 1158 Sub-espaços gerados por conjuntos ortonormais
Revisitando a desigualdade de Hölder, 945 finitos, 997
Revisitando o Teorema 10.8, 638 Sub-espaços invariantes, 1046
SL( , 2) e o Espaço de Minkowski, 644 Sub-espaços, 93
Séries de Potências de Matrizes, 216 Sub-grupos Uniparamétricos de GL( , n) e a
Semi-Normas, 121 Álgebra de Lie Associada a GL( , n),
Semi-grupos, 45, 1159 682
Semi-normas em `p , p ≥ 1, 760 Sub-grupos, 48
Seqüências `∞ e `p , 751 Sub-seqüências, 731
Seqüências de Cauchy de Números Racionais, Suporte de uma função, 78
767 Teorema da decomposição ortogonal, 991
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1194/1195

Teorema do melhor aproximante, 989 Uma pseudo-métrica em L1 (M, dµ), 939


Tipos de Operações e de Relações, 45, 1157 Unicidade de solução para a equação de difusão
Tipos de espectro. O espectros pontual, contı́nuo em regiões finitas, 513
e residual, 1092 Unicidade de solução para a equação de vibrações
Topologia, 813 elásticas em regiões finitas, 517
Transformações Lineares e a Estrutura Causal, Unicidade de soluções para a equação de difusão
625 em um intervalo finito, 486
Transitividade e Espaços Homogêneos, 63 Unicidade de soluções para a equação de ondas
Transposições Elementares e suas Relações, 569 em um intervalo finito, 488
Transposições Elementares, 568 Unicidade dos projetores espectrais, 1139
Transposições, 567 Uns poucos exemplos, 973
Troca de Paridade e Reversão Temporal, 628 Valores singulares de um operador compacto,
Um Exemplo, 540 1119
Um Limite Inferior para os Autovalores, 541 Variâncias e estados puros, 1143
Um Teorema de Fuchs, 346 Variedades Diferenciáveis, 671
Um comentário sobre a matriz de monodromia, Varredura Linear, 95
333 Vetores Cı́clicos, 1083
Um comentário sobre a ortonormalidade das funções Zeros das funções de Bessel, 473
ψp, l, m , 510 Álgebras Associativas e Não-Associativas, 1165
Um comentário, 340 Álgebras Associativas, 1050
Um exemplo de operador compacto a se ter em Álgebras Booleanas, 1159
mente, 1107 Álgebras com Involução, 1051
Um exemplo. A seqüência de Fibonacci, 434 Álgebras de Banach-∗, 1052
Um problema de teoria de perturbações, 313 Álgebras de Banach, 1052
Um resultado útil, 143 Álgebras de Divisão, 60
Um subgrupo conexo não-fechado de GL( , 2), Álgebras de Lie Nilpotentes, 694
700 Álgebras de Lie Simples e Semi-Simples, 695
Um teorema sobre existência e unicidade de soluções, Álgebras de Lie Solúveis, 695
523 Álgebras de Lie, 56, 1165
Uma Condição Suficiente para Diagonalizabili- Álgebras C∗ , 1052
dade, 170 Álgebras, 55, 1164
Uma Métrica no Conjunto dos Racionais, 766 Ínfimo e Supremo, 34
Uma condição para mensurabilidade de funções, Órbita de uma ação, 63
947
Uma conseqüência da identidade de polarização,
125
Uma conseqüência de (8.98) empregada no es-
tudo do átomo de hidrogênio, 461
Uma ilustração elementar do Teorema de Ca-
ratheodory, 848
Uma notação, 526
Uma observação importante, 527
Uma propriedade da norma, 987
Uma propriedade da solução das equações ho-
mogêneas, 296
JCABarata. Curso de Fı́sica-Matemática Versão de 17 de junho de 2005. Capı́tulo 25 1195/1195

São Paulo, 17 de junho de 2005

João Carlos Alves Barata


Depto. de Fı́sica Matemática
Instituto de Fı́sica
Universidade de São Paulo
Caixa Postal 66 318
05315 970 São Paulo. SP. Brasil
Email: jbarata@if.usp.br
Tel.: (011) 3091 7002
Fax.: (011) 3091 6833

S-ar putea să vă placă și