Documente Academic
Documente Profesional
Documente Cultură
Attux
DCA/FEEC/Unicamp
1 Introdução
O problema de aproximação de uma função g(⋅): X ⊂ ℜm → ℜr por uma função
g$ (⋅, θ) : X×ℜP → ℜr, onde θ ∈ ℜP (P finito) é um vetor de parâmetros, pode ser dividido em
dois sub-problemas básicos:
(1) Representação: que classe de funções g(⋅) podem ser aproximadas por que classes de
funções de aproximação g$ (⋅, θ) ?
(2) Otimização: a partir do conjunto de dados de aproximação, e fixada a função de
aproximação g$ (⋅, θ) , como encontrar um valor ótimo para o vetor de parâmetros
θ ∈ ℜP ?
onde o operador dist(⋅,⋅) mede a distância entre as duas funções em todo o espaço X. O vetor
εl expressa o erro no processo de amostragem, sendo suposto ser de média zero e variância
fixa. A solução deste problema, se existir, é denominada a melhor aproximação e depende
diretamente da classe de funções para a qual g$ pertence.
Dado o problema de aproximação, uma questão natural que surge é como escolher a
função de aproximação que melhor se adapta, ou seja, que tipo de restrição paramétrica deve
ser imposta ao modelo de aproximação. SAMAROV (1993) apresenta algumas alternativas com
impedem a existência de uma solução analítica, mas permitem obter processos iterativos de
solução, a partir de uma condição inicial θ0, na forma:
θ i +1 = θ i + α i d i , i ≥ 0 (3)
i = i+1.
∇J (θ)
Teorema 1: A direção d = − é a direção de maior decrescimento da função J.
∇J (θ)
J (θ + λd) − J (θ)
D( J , d) = lim = ∇J (θ) T d .
λ →0 λ
∇J (θ)
Logo, para provar o teorema basta mostrar que d = − minimiza D(J,d).
∇J (θ)
∇J (θ)
Para d = − , como
∇J (θ)
∇J (θ) T d = − ∇J (θ) ,
∇J (θ)
conclui-se que d = − minimiza D(J,d).
∇J (θ)
∇J (θ i )
θ i +1 = θ i − α i . (4)
∇J (θ i )
Como este problema deve ser resolvido a cada iteração i e levando-se em conta o
elevado custo computacional vinculado à sua solução (J(θ) deve ser avaliado em vários
pontos), é adotado aqui um procedimento alternativo. Em lugar do problema (5), resolve-se
um outro problema de busca unidirecional mais simples:
Este problema pode ser resolvido adotando-se os seguintes passos a cada iteração
(q > 1 e 0 < r < 1):
αi = 1 se i = 0
• ;
αi = q * αi −1 se i > 0
∇J ( θi )
• θiprov
+1 = θi − αi ;
∇J ( θi )
• Enquanto J ( θiprov
+1 ) ≥ J ( θi ) faça:
αi = r*αi;
∇J ( θi )
θiprov
+1 = θi − αi .
∇J ( θi )
• θi +1 = θiprov
+1 ;
• i = i + 1;
Sempre que J(θ) tiver pelo menos um mínimo, o método do gradiente associado a este
procedimento de busca unidirecional vai seguramente fornecer uma solução θ*, mínimo local
do problema (2). No entanto, um problema prático importante está no número de iterações
necessário para atingir esta solução. Utilizando apenas informações de 1a ordem, o método do
gradiente é sabido ser pouco eficiente, apresentando convergência lenta, principalmente nas
vizinhanças de θ* (BAZARAA et al., 1993; LUENBERGER, 1984). A introdução de um termo de
momento junto à equação (4), na forma:
∇J (θ i )
θ i +1 = θ i − α i + β i (θ i − θ i −1 ) (6)
∇J (θ i )
tem a vantagem de permitir acelerar a convergência e até superar mínimos locais, mas a
desvantagem de criar mais um parâmetro a ser arbitrado (βi). A definição de valores
adequados para o par (αi,βi) não é uma tarefa simples, pois agora a lei de ajuste passa a ser
uma equação a diferenças de 2a ordem.
1
J seg ( θ) = J ( θi ) + ∇J ( θi )T ( θ − θi ) + ( θ − θi )T ∇2 J ( θi )( θ − θi ) (7)
2
O vetor θi+1 é, então, a solução que minimiza exatamente J seg (θ) dado pela equação
(7), ou seja,
∂J seg (θ i +1 )
= 0, (8)
∂θ i +1
produzindo
[ ]
−1
θ i +1 = θ i − ∇ 2 J (θ i ) ∇J (θ i ) . (9)
J seg (θ) é tão mais próximo de J(θ) quanto mais próximos estiverem θ de θi (BAZARAA et al.,
1993; LUENBERGER, 1984). Sendo assim, a modificação da lei de ajuste (9) para
[ ]
−1
θ i +1 = θ i − α i ∇ 2 J (θ i ) ∇J (θ i ) (10)
garante a existência de 0 < αi ≤ 1 tal que J(θi+1) < J(θi). Um procedimento de busca
unidirecional pode, então, ser aplicado a cada iteração, na forma:
• αi = 1;
[ ]
−1
• θ i +1 = θ i − α i ∇ 2 J (θ i ) ∇J (θ i ) ;
[ ]
−1
θ i +1 = θ i − α i ∇ 2 J (θ i ) ∇J (θ i ) .
Teorema 2: Uma matriz simétrica é definida positiva se seus autovalores forem todos
positivos.
Corolário 1: Dado que se conhece o menor autovalor λ min de uma matriz simétrica A, é
sempre possível obter uma matriz definida positiva B a partir de A na forma:
• Se λ min > 0 tome B = A;
• Se λ min ≤ 0 tome B = A+(ε − λ min )I, com ε > 0 arbitrário.
θ i +1 = θ i − α i M i−1∇J (θ i ) , (11)
, (12)
M i = ∇ 2 J (θ i ) + (ε − λ[min
i]
)I se λ[min
i]
≤0
com λ[min
i]
sendo o autovalor mínimo de ∇ 2 J ( θi ) .
O método de Newton modificado dado pela equação (11) vai convergir para um
mínimo local sempre que a função J(θ) tiver mínimos. Observe que todos os resultados
obtidos acima são imediatamente aplicáveis a problemas de maximização, desde que se
troque o sinal da matriz hessiana, que agora deve ser definida negativa.
A figura 1 apresenta alguns exemplos da aplicação do método de Newton modificado
na maximização de uma função monovariável J(θ), indicando que o ajuste do método de
curva de traço cheio, enquanto que J seg (θ) (ou sua versão modificada) é representada pela
curva tracejada.
12 7 25
11.5 6
20
11 5
10.5 15
4
10 3 10
9.5 2
5
9 1
8.5 0 0
0.06 0.08 0.1 0.12 0.14 0.02 0.03 0.04 0.05 0.06 0.07 -0.25 -0.2 -0.15 -0.1 -0.05 0
12 7 20
10 6
15
5
8
10
4
6
3 5
4
2
0
2 1
0 0 -5
-0.15 -0.1 -0.05 0 0.15 0.16 0.17 0.18 0.19 0 0.05 0.1 0.15 0.2 0.25
Observe que nos gráficos da coluna central foi necessário negativar a hessiana,
enquanto que nos gráficos da última coluna houve a necessidade de se utilizar αi < 1.
Situações em que estes dois procedimentos sejam necessários simultaneamente também
podem ocorrer.
Voltando ao caso de minimização, é importante mencionar ainda que:
θ* = θ 0 + α 0 d 0 + α1d1 +...
desde que o conjunto {d0, d1, ..., dP−1} forme uma base de ℜP e α = [α 0 L α P−1 ]T seja a
representação de θ* nesta base (CHEN, 1984). Isto implica que dois procedimentos
alternativos podem ser utilizados para obter θ* em até P iterações:
Esta seção apresenta uma forma de obtenção de α *0 , α1* ,..., α *n−1 tal que
P −1
θ* = ∑ α *i d i . (13)
i=0
Teorema 4: Para uma matriz A simétrica e definida positiva, direções A-conjugadas são
necessariamente linearmente independentes.
seguinte procedimento:
P −1
d Tj Aθ * = ∑ α *i d Tj Ad i , j = 0,..., P − 1
i =0
d Tj Aθ *
α *j = , j = 0,..., P − 1. (14)
d Tj Ad j
Esta expressão para α *j , j=0,...,P−1, ainda não representa uma solução viável para se
obter θ*, pois os próprios coeficientes são fornecidos em função de θ*. Para eliminar θ* da
expressão (14), duas hipóteses adicionais devem ser consideradas:
1
J (θ) = θ T Qθ − b T θ , (15)
2
∇J(θ * ) = 0 ⇒ Qθ * − b = 0 ⇒ Qθ * = b ; (16)
• Suponha que A = Q.
d Tj b
α *j = , j = 0,..., P − 1 , (17)
d Tj Qd j
produzindo
P −1 d Tj b
θ* = ∑ dj . (18)
j =0 d Tj Qd j
Logicamente, esta solução é válida apenas no caso da função objetivo J(θ) ser
quadrática, condição para que a matriz Q e o vetor b sejam constantes em todo o espaço ℜP.
Como esta solução vai ser obtida iterativamente a partir de uma condição inicial θ0, é
possível obter um resultado mais interessante, do ponto de vista prático, que a expressão (18),
por permitir a substituição do vetor b. Para tanto, considerando solução iterativa, a solução
ótima θ* é expressa na forma
d Tj Q(θ * − θ 0 )
α *j = , j=1,...,P−1. (20)
d Tj Qd j
permitindo obter
d Tj Qθ 0 = d Tj Qθ j . (22)
d Tj Q(θ * − θ j )
α *j = , j=1,...,P−1. (23)
d Tj Qd j
∇J (θ j ) = Qθ j − b ,
d Tj ∇J (θ j )
α *j =− , j=1,...,P−1. (24)
d Tj Qd j
d iT ∇J (θ i )
θ i +1 = θ i − di , (25)
d iT Qd i
d 0 = −∇J (θ 0 ) ∇J (θ i +1 ) T Qd i
com β i = . (26)
d i +1 = −∇J (θ i +1 ) + β i d i para i ≥ 0 d iT Qd i
• Enquanto ainda não se atingiu a solução, o gradiente ∇J(θi) tem módulo maior que zero e
é ortogonal a todas as direções dj tal que j < i;
• Cada iteração do método do gradiente conjugado é pelo menos tão eficiente quanto uma
iteração do método do gradiente a partir do mesmo ponto;
• A propriedade essencial dos vetores di ∈ ℜP, i=0,...,P−1, está em suas direções e não em
seu módulo;
J ( θ i ) − J (θ i + α i d i )
∆i = , (27)
J (θ i ) − J seg (θ i + α i d i )
que permite comparar a função original J(⋅) e sua aproximação de 2a ordem Jseg(⋅). Quanto
mais próximas estiverem estas duas funções, mais confiável é o passo do algoritmo do
gradiente conjugado.
onde ∆θ representa uma pequena perturbação. Escolhendo ∆θ = av, com a uma constante
positiva próxima de zero e v ∈ ℜP um vetor arbitrário, é possível calcular ∇2J(θ)v como
segue:
∇J (θ + av) − ∇J (θ)
∇ 2 J (θ)v =
1
a
[∇J (θ + av) − ∇J (θ) + O a 2 = ( )] a
+ O( a) . (29)
∇J (θ + av) − ∇J (θ) ∂
∇ 2 J (θ)v = lim = ∇J (θ + av) . (30)
a→ 0 a ∂a a=0
∂
Ψv { f (θ)} = f ( θ + av ) , (31)
∂a a=0
5 Referências
ANDERSON, T.W. Estimating Linear Statistical Relationships. The Annals of Statistics, vol.
12, no. 1, pp. 1-45, 1984.
BAZARAA, M.S., SHETTY, C.M. & SHERALI, H.D. Nonlinear Programming: Theory and
Algorithms. 2nd. edition, New York: John Wiley & Sons, 1993.
BISHOP, C. Exact Calculation of the Hessian Matrix for the Multilayer Perceptron. Neural
Computation, vol. 4, no. 4, pp. 494-501, 1992.
CHEN, C.-T. Linear System Theory and Design. New York: Holt, Rinehart and Winston, 1984.
DENNIS, J., SCHNABEL, R. Numerical Methods for Unconstrained Optimization and
Nonlinear Equations. Englewood Cliffs (NJ): Prentice-Hall, 1983.
FLETCHER, R. Practical Methods of Optimization. New York: John Wiley & Sons, 1987.
FRIEDMAN, J.H., STUETZLE, W. Projection Pursuit Regression. Journal of the American
Statistical Association (JASA), vol. 76, no. 376, pp. 817-823, 1981.
FRIEDMAN, J.H., STUETZLE, W., SCHROEDER, A. Projection Pursuit Density Estimation.
Journal of the American Statistical Association (JASA), vol. 79, no. 387, pp. 599-608,
1984.
HÄRDLE, W., STOKER, T. Investigating Smooth Multiple Regression by the Method of
Average Derivatives. Journal of the American Statistical Association (JASA), vol. 84,
no. 408, pp. 986-995, 1989.
HASTIE, T., TIBSHIRANI, R. Generalized Linear Models (with Discussion). Statistical Science,
vol. 1, no. 3, pp. 297-318, 1986.
HECKMAN, N. Spline Smoothing in Partly Linear Models. Journal of the Royal Statistical
Society B, vol. 48, no. 2, pp. 244-248, 1986.
HESTENES, M.R. Conjugate Direction Methods in Optimization. New York: Springer-
Verlag, 1980.
HUBER, P.J. Projection pursuit (with Discussion). The Annals of Statistics, vol. 13, no. 2, pp.
435-475, 1985.
LI, K.-C. Sliced Inverse Regression for Dimension Reduction. Journal of the American
Statistical Association (JASA), vol. 86, no. 414, pp. 316-342, 1991.
LUENBERGER, D.G. Linear and Nonlinear Programming. 2nd. edition, Reading,
Massachusetts: Addison-Wesley Publishing Company, 1984.
MOLLER, M.F. A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning. Neural
Networks, vol. 6, no. 4, pp. 525-533, 1993.
PEARLMUTTER, B.A. Fast Exact Multiplication by the Hessian. Neural Computation, vol. 6,
no. 1, pp. 147-160, 1994.
ROBINSON, P.M. Root N-Consistent Semiparametric Regression. Econometrica, vol. 56, no.
4, pp. 931-954, 1988.
RUDIN, W. Principles of Mathematical Analysis. London: McGraw-Hill, 1976.
SAMAROV, A.M. Exploring Regression Structure Using Nonparametric Functional
Estimation. Journal of the American Statistical Association (JASA), vol. 88, no. 423, pp.
836-847, 1993.
STONE, C.J. Additive Regression and Other Nonparametric Models. The Annals of Statistics,
vol. 13, no. 2, pp. 689-705, 1985.
STRANG, G. Linear Algebra and its Applications. San Diego: Harcourt Brace Jovanovich
Publishers, 1988.