Sunteți pe pagina 1din 6

Metoda gradientului i metoda Newton

pentu optimizarea fr restricii


Problemele de optimizare ntlnite n practic sunt probleme cu restricii,
dar metodele de calcul pentru optimizarea fr restricii sunt importante prin
faptul c pot fi folosite cu succes dup transformarea problemelor de
optimizare cu restricii n probleme de optimizare fr restricii.
z = f(x) min, x n

Se consider problema:

unde f :RnR este o funcie de dou ori continuu difereniabil pe Rn.

Metoda gradientului.
Ideea metodei gradientului, cunoscut i ca metoda pasului descendent a lui Cauchy, emis de A.L.
Cauchy n secolul XIX(1847) se bazeaz pe o aproximaie de ordinul I, liniar, f (x)L a dezvoltrii
n serie Taylor pentru funcia criteriu f (x) . Fiind repede admis ca una dintre cele mai frecvent
utilizate metode de optimizare, datorit mai ales uurinei de utilizare pentru probleme de
dimensiuni mici. Totui odat cu dezvoltarea tehnicii de calcul metoda a fost eclipsat de
alte metode iterative mult mai complicate din punct de vedere algoritmic, dar
mai eficiente computaional. Virtual, orice metod de minimizare a funciilor suficient de netede
i are originea n metoda gradientului.

1. Principiul metodei. Ideea metodei gradintului de minimizare nerestricionat (liber) este


urmtoarea:
Se genereaz un ir de puncte x0, x1, x2 din Rn, numite n continuare aproximaii. Punctul
iniial x0 este dat, alegerea sa fiind fcut de utilizator n funcie de specificul problemei (P). O dat
obinut aproximaia xk, noua aproximaie xk+1 se determin astfel:

Se alege o direcie de deplasare sk precum i un pas al deplasrii k ; sk este un


vector nenul din Rn de regul s k 1 ; k este un scalar pozitiv.

Se pune:
x k 1 x k k s k

(1)
n principiu, vectorul s este astfel ales nct prin deplasarea din x n direcia s , s se obin cel
puin n prima faz a deplasrii o descretere a valorii funciei de minimizat f.
O dat stabilit direcia de deplasare sk, pasul k se alege astfel nct:
k

Prin urmare:

Figura 1

f ( x k 1 ) f ( x k )
f ( x 0 ) f ( x 1 ) f ( x 2 ) ...

xk

x k 1 x k k s k
sk

Mai precis k se gsete prin minimizarea funciei de o singur variabil:


g ( ) f ( x k s k ) 0

(2)

Pentru a obine o metod efectiv de minimizare este necesar s se precizeze:


modul de alegere a direciei de deplasare sk, k = 0,1,2,;
modul de alegere a pasului k altfel spus, modul n care se execut minimizarea funciei
unidimensionale g() din (2);
procedeul de oprire a procesului iterativ.

Decisiv n diferenierea metodelor concrete att n ceea ce fundamentul teoretic ct i


performanele numerice este prima chestiune, legat de alegerea direciei de deplasare.
Este foarte important de reinut c dac funcia de minimizat nu are proprieti adiionale
bune, cum ar fi aceea de a fi convex, rezultatul aplicrii acestor metode se materializeaz n cel
mai bun caz, ntr-un minim local de regul cel mai apropiat de punctul iniial x0. n practic,
pentru a obine toate minimele locale i n particular minimul global, se procedeaz la repetarea
minimizrii din mai multe puncte iniiale, judicios alese.
La fiecare iteraie a algoritmului din fig.2 direcia de deplasare este dat de relaia:
s k f ( x k )

cu condiia ca

f ( x k ) 0 .

Aceast opiune se bazeaz pe faptul c

f ( x k )

este direcia celei mai rapide descreteri din xk.

Caracteristic acestei metode este faptul c dou direcii de deplasare consecutive sunt
perpendiculare! ntr-adevr, dat direcia sk, lungimea pasului k al deplasrii se afl, aa cum s-a
mai spus, minimiznd funcia unidimensional:
g ( ) f ( x k s k ) , 0

Prin urmare g ( k ) 0 .Am vzut c: g ( ) s k f ( x k s k ) - aa nct:


g ( k ) 0 s k f ( x k k s k ) 0 s k f ( x k 1 ) 0 s k s k 1 0

Pentru funciile sferice de forma:


n

i 1

i 1

f ( x1 , x 2 ,..., x n ) c0 ci xi xi2 c0 cx x

c (c1 , c 2 ,..., c n )

2. Testarea convergenei.
Criteriile cele mai frecvent utilizate pentru aprecierea unei metode de
calcul se refer la precizia rezultatelor, viteza de convergen a procedeului
iterativ, timpul de calcul, volumul necesar de memorie a calculatorului. Primele
dou criterii - precizia i viteza de convergen - sunt cele mai importante, dar
ele nu pot permite o ordonare univoc a tuturor metodelor de calcul, ntruct
estimarea vitezei de convergen a unei metode rmne valabil numai pentru
o clas de probleme, dar nu i pentru altele.
Decizia cu privire la acceptarea unei iterate xk ca o aproximaie adecvat a soluiei se bazeaz pe dou teste:
- dac irul xk este convergent;
- dac xk satisface condiiile suficiente de optimalitate.

Testele de convergen a irului xk se pot formula astfel:


x k x k 1 x x k
f

k 1

f f

Se observ c aceste teste au un caracter relativ i sunt potrivite pentru valori ale lui xk sau ale lui f k
ndeprtate de zero. La valori ale lui xk sau ale lui f k apropiate de zero este necesar ca testele s aib un
caracter absolut. De exemplu:
x k x k 1 x
f

k 1

Testul de satisfacere a condiiilor suficiente de optimalitate poate fi pus sub forma:


xk xk n x xk
f

k n

f f

k
k n
x
sau x x

k
k n
f
sau f f

Dac se utilizeaz derivatele atunci testul satisfacere a condiiilor suficiente capt forma mai simpl:
sk s

Se poate ntmpla ca, din cauza unei nefericite alegeri a aproximaiei iniiale x0 sau a
structurii funciei de minimizat sau din faptul c paii succesivi sunt perpendiculari, procesul
iterativ, dei convergent, s fie foarte lent. Mai precis, dac hipersuprafeele de nivel au o oarecare
excentricitate zig zagul procesului iterativ amendeaz convergena,deoarece n acest caz
direcia gradientului este mult diferit de direcia ctre minim .n asemenea situaii, timpul de calcul
poate atinge valori nepermis de mari. Vom evita acest inconvenient limitnd din start numrul
iteraiilor posibil de efectuat.

3. Schema logic de principiu a metodelor de optimizare nerestricionat.


Consideraiile precedente conduc la schema logic de principiu din fig. 2. Elementele
eseniale ale blocurilor P (alegerea Pasului deplasrii) i O (Oprirea procesului iterativ) au fost deja
discutate n seciunile 6.4 i 6.5.n ceea ce privete blocul D (alegerea Direciei de deplasare) acesta
difer de la metod la metod. Cea mai simpl metod de minimizare nerestricionat, datorat lui
Cauchy va fi prezentat n continuare.

START

Se introduc datele problemei de


minimizare: funcia f, aproximaia x0 de start,parametrii criteriilor
de oprire(nr. maxim de iteraii,
precizia calculului

k=0

BLOCUL D: Se determin direcia sk de


deplasare din aproximaia
curent xk
BLOCUL P Se alege pasul deplasrii k
prin minimizarea funciei unidimensionale
g() = f(xk + sk) , 0

Se calculeaz noua aproximaie:


xk+1 = xk + ksk

k=k+1

NU

BLOCUL O
Sunt verificate criteriile de
oprire ale procesului de calcul?

DA
Se cerceteaz dac ultima aproximaie
calculat poate constitui o aproximare
acceptabil pentru soluia problemei
de minimizare

STOP

Figura 2

Metoda Newton.
n cadrul metode gradientului, pentru stabilirea direciei de coborre am utilizat numai partea
liniar a dezvoltrii n serie Taylor. Dac funcia obiectiv este difereniabil i permite ca pe lng
vectorul gradient f(x) s construim relativ simplu hessianul, putem utiliza pentru minimizarea
funciei metode de ordinul doi, care se bazeaz pe aproximarea cuadratic a funciei obiectiv. Cum
aproximarea ptratic constituie o mai bun aproximare n raport cu cea liniar, este de ateptat ca
aceste metode s sporeasc eficiena procedurilor de calcul.
Metoda Newton necesit evaluarea inversei matricei Hessian, lucru care este foarte costisitor din
punct de vedere numeric. Prima i una din cele mai importante scheme de construcie a inversei
matricei Hessian a fost propus de Davidon (1959). Metoda a fost mai trziu modicat i
mbuntit de Fletcher i Powell (1964), algoritmul propus de ei ind cunoscut sub numele de
algoritmul Davidon-Fletcher-Powell (DFP). O alt variant este cunoscut sub numele BroydenFletcher-Goldfarb-Shanno (BFGS).
Metoda Newton folosete o aproximaie ptratic f (x)P, rezultnd pentru dezvoltarea n serie
n jurul unui punct xk expresia:
f (x)P= f(xk)+

(x-xk)+

(x-xk)T

(x-xk)

(1)

Calculnd gradientul acestei expresiei se obine:


f (x)P =

(x-xk)

(2)

Pentru ca punctul de optim x* s asigure extremul aproximaiei ptratice f (x)P este necesar
anularea gradientului acestei expresii pentru x = x*,rezult:
(x*- xk)=0
Considernd c matricea Hessian

(3)

este inversabil, din (3) se obine:

x*- xk=

-1

(4)

Aceast relaie atest faptul c adoptnd n procesul de iteraie un vector de direcie pk definit de
relaia:
pk =

-1

(5)

se obine o deplasare ctre punctul optim x* .


Astfel, presupunnd deocamdat c n formula gradientului se adopt
xk+1 = xk + pk

, avem:
(6)

nlocuind (5) n (7) se obine metoda Newton clasic de calcul:


xk+1 = xk

-1

(7)

Dac se adopt
(cu respectarea condiiei > 0) i se pstreaz direcia pk din (5), atunci
procesul iterativ este descris de relaia:
xk+1 = xk

-1

(8)

care reprezint metoda Newton cu pas variabil (sau metoda Newton generalizat).
Metodele Newton au avantajul ca aproximeaz funcia criteriu mult mai exact dect
metodele de gradient, asigur o aproximare mai bun a soluiilor prin deplasrile pe direcia pk din
(5) i deci permit obinerea unei convergene mai rapide a procesului iterativ dect n cazul
metodelor de gradient.
n schimb, dup cum s-a mai menionat, calculul matricei Hessian - la fiecare iteraie - este
foarte laborios i necesit un mare numr de operaii aritmetice, ceea ce face ca la metodele Newton
numrul de operaii aritmetice pe iteraie s fie mult mai ridicat dect la metodele de gradient,
reducndu-se astfel eficiena metodelor Newton. De aceea au fost cutate metode de calcul care sa
convearg aproape ca metodele Newton, fr a necesita numrul mare de operaii pe iteraie pe care
l implic metodele Newton.

S-ar putea să vă placă și