Sunteți pe pagina 1din 243

Metode de optimizare numerica

Ion Necoara
Departamentul de Automatic a si Ingineria Sistemelor
Universitatea Politehnica din Bucuresti
Email: ion.necoara@acse.pub.ro
2013
2
Cuprins
Prefat a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
I Introducere 11
1 Teorie convexa 13
1.1 Teoria mult imilor convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.1 Mult imi convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.2 Conuri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.3 Operat ii ce conserv a convexitatea mult imilor . . . . . . . . . . . . . . 18
1.2 Teoria funct iilor convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.1 Funct ii convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.2 Condit ii de ordinul I pentru funct ii convexe . . . . . . . . . . . . . . 22
1.2.3 Condit ii de ordinul II pentru funct ii convexe . . . . . . . . . . . . . . 23
1.2.4 Operat ii ce conserv a convexitatea funct iilor . . . . . . . . . . . . . . 25
2 Concepte fundamentale din teoria optimizarii 27
2.1 Evolut ia teoriei optimizarii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Caracteristicile unei probleme de optimizare . . . . . . . . . . . . . . . . . . 29
2.3 Tipuri de probleme de optimizare . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Programare neliniara (NLP - NonLinear Programming) . . . . . . . . 34
2.3.2 Programare liniar a (LP - Linear Programming) . . . . . . . . . . . . 35
2.3.3 Programare patratic a (QP - Quadratic Programming) . . . . . . . . . 36
2.3.4 Optimizare convexa (CP - Convex Programming) . . . . . . . . . . . 37
2.3.5 Probleme de optimizare neconstransa (UNLP - Unconstrained Non-
Linear Programming) . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.3.6 Programare mixt a cu ntregi (MIP - Mixed Integer Programming) . . 40
II Optimizare fara constrangeri 43
3 Metode de optimizare unidimensionala 45
3.1 Metoda forward-backward pentru funct ii unimodale . . . . . . . . . . . . . . 46
3.2 Metode de cautare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.1 Metoda sect iunii de aur . . . . . . . . . . . . . . . . . . . . . . . . . 47
3
4 Cuprins
3.2.2 Metoda lui Fibonacci . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3 Metode de interpolare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1 Metode de interpolare patratic a . . . . . . . . . . . . . . . . . . . . . 51
3.3.2 Metode de interpolare cubic a . . . . . . . . . . . . . . . . . . . . . . 55
4 Condit ii de optimalitate pentru (UNLP) 59
4.1 Condit ii de ordinul I pentru (UNLP) . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Condit ii de ordinul II pentru (UNLP) . . . . . . . . . . . . . . . . . . . . . . 63
4.3 Condit ii de optimalitate pentru probleme convexe . . . . . . . . . . . . . . . 64
4.4 Analiza perturbat iilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 Convergent a metodelor de descrestere 69
5.1 Metode numerice de optimizare . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2 Convergent a metodelor numerice . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Metode de descrestere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3.1 Strategii de alegere a lungimii pasului . . . . . . . . . . . . . . . . . . 75
5.3.2 Convergent a metodelor de descrestere . . . . . . . . . . . . . . . . . . 76
6 Metode de ordinul I pentru (UNLP) 79
6.1 Metoda gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.1.1 Convergent a globala a metodei gradient . . . . . . . . . . . . . . . . 82
6.1.2 Rata de convergent a globala a metodei gradient . . . . . . . . . . . . 83
6.1.3 Rata de convergent a locala a metodei gradient . . . . . . . . . . . . . 85
6.2 Metoda direct iilor conjugate . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
6.2.1 Metoda direct iilor conjugate pentru probleme QP . . . . . . . . . . . 87
6.2.2 Metoda gradient ilor conjugat i pentru probleme QP . . . . . . . . . . 89
6.2.3 Metoda gradient ilor conjugat i pentru probleme UNLP . . . . . . . . 91
7 Metode de ordinul II pentru (UNLP) 95
7.1 Metoda Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.1.1 Rata de convergent a locala a metodei Newton . . . . . . . . . . . . . 98
7.1.2 Convergent a globala a metodei Newton . . . . . . . . . . . . . . . . . 100
7.2 Metode cvasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2.1 Updat ari de rang unu . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.2.2 Updat ari de rang doi . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.2.3 Convergent a locala a metodelor cvasi-Newton . . . . . . . . . . . . . 106
8 Probleme de estimare si tting 109
8.1 Problema celor mai mici patrate (CMMP): cazul liniar . . . . . . . . . . . . 110
8.1.1 Probleme CMMP liniare prost condit ionate . . . . . . . . . . . . . . 113
8.1.2 Formularea statistic a a problemelor CMMP liniare . . . . . . . . . . 114
8.2 Problema celor mai mici patrate (CMMP): cazul neliniar . . . . . . . . . . . 115
8.2.1 Metoda Gauss-Newton (GN) . . . . . . . . . . . . . . . . . . . . . . . 116
8.2.2 Metoda Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . . 117
5 Cuprins
8.3 Aplicat ie: identicarea unui sistem Hammerstein . . . . . . . . . . . . . . . . 119
III Optimizare cu constrangeri 123
9 Teoria dualitat ii 125
9.1 Funct ia Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
9.2 Problema duala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
9.3 Programare liniar a (LP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
10 Condit ii de optimalitate pentru (NLP) 143
10.1 Condit ii de ordinul I pentru (NLP) av and constrangeri de egalitate . . . . . 144
10.2 Condit ii de ordinul II pentru (NLP) av and constrangeri de egalitate . . . . . 150
10.3 Condit ii de ordinul I pentru (NLP) generale . . . . . . . . . . . . . . . . . . 153
10.4 Condit ii de ordinul II pentru (NLP) generale . . . . . . . . . . . . . . . . . . 156
11 Metode de ordinul I si II pentru (NLP) avand constrangeri convexe 161
11.1 Metode de direct ii de descrestere . . . . . . . . . . . . . . . . . . . . . . . . 162
11.1.1 Metoda gradient condit ional . . . . . . . . . . . . . . . . . . . . . . . 164
11.1.2 Metoda gradient proiectat . . . . . . . . . . . . . . . . . . . . . . . . 166
11.2 Metoda Newton proiectat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
12 Metode de optimizare pentru (NLP) avand constrangeri de egalitate 173
12.1 Metode de optimizare pentru probleme QP cu constrangeri de egalitate . . . 174
12.2 Metode Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
12.2.1 Metoda Lagrange de ordinul I . . . . . . . . . . . . . . . . . . . . . . 179
12.2.2 Metoda Lagrange-Newton . . . . . . . . . . . . . . . . . . . . . . . . 181
12.3 Metoda Newton pentru probleme convexe av and constrangeri de egalitate . . 184
13 Metode de optimizare pentru (NLP) generale 187
13.1 Metoda mult imilor active . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
13.1.1 Metoda mult imilor active pentru problemele (QP) . . . . . . . . . . . 191
13.2 Metoda patratic a secvent ial a . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
13.3 Metode de penalitate si bariera . . . . . . . . . . . . . . . . . . . . . . . . . 196
13.3.1 Metode de penalitate . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
13.3.2 Metode de bariera . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
13.4 Metode de punct interior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
13.4.1 Metode de punct interior pentru probleme convexe . . . . . . . . . . 203
13.4.2 Metode de punct interior pentru probleme neconvexe . . . . . . . . . 204
14 Studii de caz din inginerie 209
14.1 Control optimal liniar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
14.1.1 Formularea (QP) rara far a eliminarea st arilor . . . . . . . . . . . . . 210
14.1.2 Formularea (QP) densa cu eliminarea st arilor . . . . . . . . . . . . . 212
14.1.3 Control optimal pentru urmarirea traiectoriei cu un robot E-Puck . . 214
6 Cuprins
14.1.4 Control optimal pentru pendulul invers . . . . . . . . . . . . . . . . . 217
14.2 Control optimal neliniar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
14.2.1 Formularea (NLP) rara si densa . . . . . . . . . . . . . . . . . . . . . 220
14.2.2 Control optimal aplicat unei instalat ii cu 4 rezervoare . . . . . . . . . 222
14.3 Stabilitatea sistemelor dinamice . . . . . . . . . . . . . . . . . . . . . . . . . 224
14.3.1 Calcularea valorilor proprii ale unei matrici . . . . . . . . . . . . . . . 224
14.4 Problema Google sau ierarhizarea paginilor web . . . . . . . . . . . . . . . . 226
14.5

Inv at are automata si clasicare . . . . . . . . . . . . . . . . . . . . . . . . . 228
A Not iuni de algebra liniara si analiza matematica 233
A.1 Not iuni de analiza matriceala . . . . . . . . . . . . . . . . . . . . . . . . . . 233
A.2 Not iuni de analiza matematica . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Bibliograe 243
7 Cuprins
Prefat a
Lucrarea de fat a este construita pe structura cursului de Tehnici de Optimizare, predat de
autor la Facultatea de Automatic a si Calculatoare a Universitat ii Politehnica din Bucuresti.
Lucrarea de fat a este o sinteza, care trateaza n mod concis, dar si riguros din punct de
vedere matematic, principalele metode numerice de rezolvarea a problemelor de optimizare
neliniara. Optimizarea este un proces de minimizare sau maximizare a unei funct ii obiectiv
si n acelasi timp de satisfacere a unor constrangeri. Natura abund a de exemple unde un
nivel optim este dorit si n multe aplicat ii din inginerie, economie, biologie si numeroase alte
ramuri ale stiint ei se cauta regulatorul, portfoliul sau compozit ia optim( a).
Lucrarea se adreseaz a student ilor din facult at ile cu prol tehnic sau economic, dar n aceeasi
m asura si pentru student ii la programele de master si doctorat cu tematici adiacente. Student ii
ce urmeaza acest curs necesit a cunostint e de algebra liniara (teoria matricilor, concepte din
teoria spat iilor vectoriale) si analiza matematica (not iuni de funct ii diferent iabile, convergent a
sirurilor). Scopul lucr arii este prezentarea unei introduceri n metodele numerice de rezolvare
a problemelor de optimizare care serveste la pregatirea student ilor pentru dezvoltarea si
adaptarea acestor metode la aplicat ii specice ingineriei si ale altor domenii. Tematica in-
clude elemente de optimizare continua ce se concentreaz an special pe programarea neliniara.

In acest sens, structura lucr arii este divizata n trei part i majore:
Partea I: INTRODUCERE - se prezinta formularea matematica a unei probleme gen-
erale de optimizare cu not iunile asociate si se introduce principalele concepte legate de
convexitate (caracterizari si propriet at i ale mult imilor si funct iilor convexe).
Partea II: OPTIMIZARE F

AR

A CONSTR

ANGERI - se prezinta propriet at ile de baz a


ale solut iilor si metodelor numerice, condit ii necesare si suciente de optimalitate pen-
tru o solut ie n cazul convex si nonconvex, analiza metodei de cautare de-a lungul unei
direct ii de descrestere (metoda gradient, Newton, cvasi-Newton), reguli de selectare a
m arimii pasului (Wolfe, backtracking), aplicat ii n estimare si metoda celor mai mici
patrate.
Partea III: OPTIMIZARE CU CONSTR

ANGERI - se prezinta condit iile necesare si


suciente de optimalitate pentru o solut ie n cazul convex si nonconvex av and con-
strangeri, condit iile de tip Karush-Kuhn-Tucker, metode bazate pe funct ii de penali-
tate si bariera, metoda de punct interior si metoda de programare patratic a secvent ial a
pentru probleme generale de optimizare cu constrangeri sub forma de egalitat i si ine-
galitat i.

In nal, se prezinta formularea sub forma unei probleme de optimizare a
unei probleme de control optimal cu orizont nit si rezolvarea numeric a cu metodele
prezentate.
Lucrarea de fat a urmareste familiarizarea student ilor cu formularea corecta a unei probleme
de optimizare, identicarea tipului acestei probleme (convexa sau nonconvexa, cu sau f ar a
8 Cuprins
constr angeri) si rezolvarea numeric a a acestei probleme. Cartea prezinta principalii algoritmi
numerici de optimizare (algoritmi de tip direct ie de descrestere, e.g. gradient, Newton, de
punct interior) pentru care se analizeaza convergent a si necesarul de calcul. Algoritmii
prezentat i sunt apoi testat i pe aplicat ii practice, n particular din inginerie. Pe tot parcursul
cart ii se prezenta multe exemple de aplicat ii si exercit ii rezolvate pentru a face mai accesibil a
nt elegerea teoriei si conceptelor introduse.
Desi cartea prezinta technici si algoritmi de optimizare deja standard gasit i n majoriatea
cart ilor de specialitate [1, 6, 7, 14], am intent ionat de asemenea ca lucrarea sa reecte punc-
tul de vedere modern n acest domeniu.

In acest sens unul din principalele aporturi pe care
aceast a lucare le aduce este conexiunea dintre caracterul analitic al unei probleme de opti-
mizare, exprimat prin condit iile de optimalitate si analiza algoritmilor numerici de optimizare
folosit i pentru rezolvarea problemei. Mai mult, condit iile de optimalitate si algoritmii nu-
merice corespunz atori problemele de optimizare constranse sunt prezentat i ca o generalizare
a condit iilor de optimalitate si respectiv a algoritmilor numerice dezvoltat i pentru probleme
de optimizare far a constrangeri. Aceat a abordare ofera cart i o structur a simpla care permite
cititorului nt elegerea mai usoara a teoriei prezentate dar si posibilitatea dezvoltarii de noi
rezultate n acest domeniu.
Lista de notat ii
Vectori
R mult imea numerelor reale;

R = R
R
n
spat iul Euclidian n dimensional al vectorilor coloan a x cu n componente reale
x
i
R pentru orice i = 1, . . . , n
Span(S) subspat iul liniar generat de vectorii din mult imea S R
n
e
i
, cu i=1,. . . ,n, baza standard a lui R
n
si e vectorul din R
n
cu toate intr arile 1, adica
e =

n
i=1
e
i
x, y = x
T
y =

n
i=1
x
i
y
i
produsul scalar a doi vectori x, y R
n
|x| = x, y
1/2
= (

n
i=1
x
2
i
)
1/2
norma Euclidian a a vectorului x R
n
|x|
p
= (

n
i=1
[x
i
[
p
)
1/p
norma p a vectorului x R
n
, unde p 1; n calcule se utilizeaz a
n special normele |x|
1
=

n
i=1
[x
i
[, |x|
2
= |x| si |x|

= max
i=1,...,n
[x
i
[
oricare ar si exist a
Matrici
R
mn
spat iul Euclidian al matricilor cu m linii si n coloane cu elemente a
ij
R pentru
orice i = 1, . . . , m si j = 1, . . . , n
9 Cuprins
S
n
spat iul matricilor simetrice cu n linii si coloane
A 0 (A0) matrice pozitiv (semi)denita
S
n
+
spat iul matricilor pozitiv semidenite
I
n
matricea identitate de ordinul n
a
ij
sau A
ij
elementul matricei A situat n linia i si coloana j
A
T
transpusa matricei A si A
1
/A
+
inversa/pseudoinversa matricei A
A
T
= (A
1
)
T
= (A
T
)
1
Tr(A) urma matricei patrate A, adica suma elementelor diagonale
det(A) determinantul matricei patrate A

i
(A) valorile proprii ale unei matricei simetrice de dimensiune n ordonate cresc ator;

min
=
1
si
max
=
n

i
(A) valorile singulare ale matricei A ordonate crescator
rang(A) rangul matricei A, adica numarul valorilor singulare nenule
kern(A) nucleul matricei A
A, B = Tr(A
T
B) produsul scalar a dou a matrici reale
|A|
F
= A, A
1/2
norma Frobenius; avem relat ia |A|
F
= (

r
i=1

2
i
)
1/2
, unde r este
rangul lui A
Funct ii
(
k
clasa funct iilor diferent iabile de k ori, cu derivata de ordinul k continua
funct ia scalara f : R

R are domeniul efectiv domf = x R
n
: f(x) <
inf
xX
f(x) = inff(x) : x X inmul funct iei f peste mult imea X; cand inmul se
atinge atunci folosim min n loc de inf
f(x) R
n
gradientul funct iei f, adica (f(x))
i
=
f
x
i
(x) pentru orice i = 1, . . . , n

2
f(x) S
n
Hesiana funct iei f, adica (
2
f(x))
ij
=

2
f
x
i
x
j
(x) pentru orice i, j =
1, . . . , n
h(x) R
pn
Jacobianul funct iei vectoriale h : R
n
R
p
cu h = [h
1
. . . h
p
]
T
, adica
(h(x))
ij
=
h
i
x
j
(x) pentru orice i = 1, . . . , p si j = 1, . . . , n
/(x, , ) Lagrangianul si
x
/(x, , ) =
L
x
(x, , ) derivata part iala n raport cu x
10 Cuprins
Prescurtari
e.g. de exemplu (exempli gratia)
i.e. adica (id est)
NLP programare neliniara (NonLinear Programming)
UNLP programare neliniara far a constrangeri (Unconstrained NonLinear Program-
ming)
QP programare patratic a (Quadratic Programming)
LP programare liniar a (Linear Programming)
CP programare convexa (Convex Programming)
KKT Karush-Kuhn-Tucker
DVS descompunerea valorilor singulare
Partea I
Introducere
11
Capitol 1
Teorie convexa

In acest capitol prezentam not iunile de baz a din teoria mult imilor convexe si a funct iilor
convexe. Aceste not iuni vor utilizate intens n capitolele urmatoare. Prezentarea f acuta n
acest capitol este foarte concisa dar n acelasi timp sucienta pentru scopul acestei cart i. O
prezentare detaliata a teoriei convexitat ii poate gasit a n cartea clasic a a lui Rockafellar,
Convex Theory [9].

In acest capitol prezentam instrumentele de baz a din analiza convexa care sunt necesare
pentru dezvoltarea teoriei optimizarii si a algoritmilor numerici de optimizare din capitolele
urmatoare. Denim mai ntai conceptele algebrice de baz a cum ar mult imile convexe,
hyperplane, conuri, inegalitat i de matrici dar si concepte topologice cu privire la conservarea
convexitat ii sau separarea prin hyperplane. Apoi continuam cu teoria funct iilor convexe si
n special cu acele condit ii de caracterizare a funct iilor convexe.

In cadrul acestui curs xam simpla convent ie de a considera vectorii x R


n
vectori coloan a,
adica x = [x
1
x
n
]
T
R
n
.

In spat iul Euclidian R
n
produsul scalar este denit dup a cum
urmeaza:
x, y = x
T
y =
n

i=1
x
i
y
i
.
Unde nu se specica, norma considerata pe spat iul Euclidian R
n
este norma Euclidian a
standard (adic a norma indus a de acest produs scalar):
|x| =
_
x, x =

_
n

i=1
x
2
i
.
Conceptele standard din algebra liniar a si analiza matematica folosite n cadrul acestui curs
sunt prezentate n Appendix.
13
14 1.1. Teoria mult imilor convexe
1.1 Teoria mult imilor convexe
1.1.1 Mult imi convexe
Mult imile convexe au un rol important n teoria optimizarii.

Incepem aceast capitol cu
prezentarea not iunilor fundamentale din teoria mult imilor convexe.
Denit ia 1.1.1 O mult ime S R
n
este ana daca pentru oricare doi vectori x
1
, x
2
S si
orice scalar R avem x
1
+ (1 )x
2
S (i.e. dreapta generata de oricare doua puncte
din S este inclus a n S).
4 2 0 2 4 6 8 10
2
2.5
3
3.5
4
4.5
5
x2(5,3)
x1(0.5,4)
=1.5
=1
=0.5
=0
=0.5
Figura 1.1: Mult ime an a (dreapta) generata de dou a puncte x
1
= [0.5 4]
T
si x
2
= [5 3]
T
.
De exemplu, mult imea solut iilor unui sistem liniar Ax = b, unde A R
mn
si b R
m
, este
mult ime an a, i.e. mult imea x R
n
: Ax = b este an a.
O combinat ie ana de p vectori x
1
, . . . , x
p
R
n
este denita astfel:
p

i=1

i
x
i
, unde
p

i=1

i
= 1,
i
R.
Acoperirea ana a mult imii S R
n
, notata A(S), reprezinta mult imea ce cont ine toate
combinat iile ane nite posibile ale punctelor din S:
A(S) =
_

iI, I nita

i
x
i
: x
i
S,

iI

i
= 1,
i
R
_
.
Cu alte cuvinte A(S) este mult imea an a cea mai mic a ce l cont ine pe S.
15 Capitol 1. Teorie convexa
Denit ia 1.1.2 Mult imea S R
n
se numeste convexa daca pentru oricare doua puncte
x
1
, x
2
S si un scalar [0, 1] avem x
1
+ (1 )x
2
S (i.e. segmentul generat de
oricare doua puncte din S este inclus n S).
x
1
x
2
x
1
x
2
Figura 1.2: Exemplu de mult ime convexa (stanga) si mult ime neconvexa (dreapta).
Rezult a imediat ca orice mult ime an a este mult ime convexa. Mai departe, o combinat ie
convexa de p vectori x
1
, , x
p
R
n
este denita de:
p

i=1

i
x
i
, unde
p

i=1

i
= 1,
i
0.
Acoperirea convexa a mult imii S, notata Conv(S), reprezinta mult imea ce cont ine toate
combinat iile convexe nite posibile ale punctelor mult imii S:
Conv(S) =
_

iI,I nit

i
x
i
: x
i
S,

iI

i
= 1,
i
0
_
.
Se observa ca acoperirea convexa a unei mult imi este cea mai mic a mult ime convexa ce
cont ine mult imea dat a. Rezult a ca dac a S este convexa, atunci acoperirea convexa a lui S
coincide cu S.
Teorema 1.1.3 (Teorema lui Caratheodory) Daca S R
n
este o mult ime convexa,
atunci orice element din S este o combinat ie convexa de cel mult n + 1 vectori din S.
Figura 1.3: Acoperirea convexa a unei mult imi neconvexe.
Un hiperplan este o mult ime convexa denita de relat ia (vezi Fig. 1.4):
_
x R
n
: a
T
x = b
_
a ,= 0, a R
n
, b R.
16 1.1. Teoria mult imilor convexe
Un semiplan este mult imea convexa denita de relat ia (vezi Fig. 1.4):
_
x R
n
: a
T
x b
_
sau
_
x R
n
: a
T
x b
_
,
unde a ,= 0, a R
n
si b R. Un poliedru este mult imea convexa denit a de un num ar p de
a
T
xb
a
x
0
a
T
xb
a
T
x=b
Figura 1.4: Hiperplanul denit de a
T
x = b si semiplanele corespunz atoare
hiperplane si/sau un numar m de semiplane:
_
x R
n
: a
T
i
x = b
i
i = 1, . . . , p, c
T
j
x d
j
j = 1, . . . , m
_
= x R
n
: Ax = b, Cx d .
O alta reprezentare a poliedrului este dat a de v arfurile (nodurile) sale:
_
n
1

i=1

i
v
i
+
n
2

j=1

j
r
j
:
n
1

i=1

i
= 1,
i
0,
j
0 i, j
_
,
unde v
i
se v arfuri (numite si noduri) si r
j
sunt raze ane. Un politop reprezinta un poliedru
m arginit si n acest caz acesta este denit numai de v arfuri (vezi Fig. 1.5). O bila cu centrul
n punctul x
0
R
n
si raza r > 0 denita de norma Euclidian a | | este o mult ime convexa
dat a de relat ia:
B(x
0
, r) = x R
n
: |x x
0
| r
sau, n mod echivalent:
B(x
0
, r) = x R
n
: x = x
0
+ ru, |u| 1 .
Un elipsoid este mult imea convexa denita astfel:
_
x R
n
: (x x
0
)
T
Q
1
(x x
0
) 1 = x
0
+ Lu : |u| 1
_
,
unde Q este o matrice simetrica pozitiv denita (notat ie Q 0) si Q = L
T
L.
17 Capitol 1. Teorie convexa
a
4
a
5
a
1
a
2
a
3
Figura 1.5: St anga: poliedru nemarginit generat de 3 v arfuri si 2 raze ane. Dreapta:
poliedru m arginit (politop) format din intersect ia a 5 semiplane.
1.1.2 Conuri
Denit ia 1.1.4 O mult ime K se numeste con daca pentru orice x K si R
+
avem
x K. Conul K se numeste con convex daca n plus K este mult ime convexa.
Combinat ia conica de p vectori x
1
, , x
p
R
n
este denita n felul urmator:
p

i=1

i
x
i
, unde
i
0 i.
Acoperirea conica a unei mult imi S, notata Con(S), reprezinta mult imea ce contine toate
combinat iile conice nite posibile cu elemente din S:
Con(S) =
_

iI,I nit

i
x
i
: x
i
S,
i
0
_
.
Se observa ca acoperirea conic a a unei mult imi reprezinta cel mai mic con ce cont ine mult imea
dat a. Pentru un con K dintr-un spat iu Euclidian nzestrat cu un produs scalar , , conul
dual corespunz ator, notat K

, este denit astfel:


K

= y : x, y 0 x K .
Observam ca conul dual este ntotdeauna o mult ime nchisa. Folosind relat ia x, y = |x|
|y| cos (x, y) ajungem la concluzia ca unghiul dintre un vector ce apart ine conului K si
unul ce apart ine conului K

este mai mic decat



2
. Dac a conul K satisface condit ia K = K

,
atunci mult imea K se numeste con auto-dual.
18 1.1. Teoria mult imilor convexe
x1
x2
0
Figura 1.6: Acoperirea conic a generata de doi vectori x
1
si x
2
(stanga) si acoperirea conic a
generata de mult imea S (dreapta).
Exemplu 1.1.5 Prezent am n cele ce urmeaza cateva exemple de conuri:
1. Mult imea R
n
este un con iar conul sau dual este (R
n
)

= 0.
2. R
n
+
= x R
n
: x 0 se numeste conul orthant si este auto-dual n raport cu produsul
scalar uzual x, y = x
T
y, i.e. (R
n
+
)

= R
n
+
.
3. /
n
=
_
[x
T
t]
T
R
n+1
: |x| t
_
se numeste conul Lorentz sau conul de nghet ata si
este de asemenea, auto-dual n raport cu produsul scalar [x
T
t]
T
, [y
T
v]
T
= x
T
y + tv, i.e.
(/
n
)

= /
n
.
4. S
n
+
= X S
n
: X _ 0 reprezinta conul semidenit si este auto-dual n raport cu pro-
dusul scalar X, Y = Tr(XY ), i.e. (S
n
+
)

= S
n
+
.
Figura 1.7: Conul Lorentz pentru n = 2.
1.1.3 Operat ii ce conserva convexitatea mult imilor
Enumer am cateva operat ii pe mult imi care conserv a proprietatea de convexitate:
1. Intersect ia de mult imi convexe este o multime convexa, i.e. dac a familia de mult imi
S
i

iI
este convexa, atunci

iI
S
i
este de asemenea convexa.
19 Capitol 1. Teorie convexa
2. Suma a dou a mult imi convexe S
1
si S
2
este de asemenea convexa, i.e. mult imea S
1
+
S
2
= x + y : x S
1
, y S
2
este convexa. Mai mult, mult imea S = x : x S
este convexa dac a mult imea S este convexa si R.
3. Translat ia unei mult imi convexe S este de asemenea convexa, i.e. e o funct ie an a
f(x) = Ax + b, atunci imaginea lui S prin f, f(S) = f(x) : x S, este convexa.
Similar, preimaginea: f
1
(S) = x : f(x) S este de asemenea convexa.
4. Denim o funct ie p: R
n+1
R
n
, cu dom p = R
n
R
++
prin p(z, t) = z/t, numit a
si funct ie de perspectiv a. Aceasta funct ie scaleaz a (normalizeaz a) vectorii astfel ncat
ultima componenta sa e 1 si apoi eliminat a (funct ia returneaz a doar primele n com-
ponente din vectorul normalizat). Dac a C dom p este o mult ime convexa, atunci
imaginea sa prin p, p(C) = p(x) : x C este o mult ime convexa.
5. O funct ie liniar-fract ional a este formata prin compunerea funct iei perspectiv a cu o
funct ie an a. Fie o funct ie an a g : R
n
R
m+1
, anume:
g(x) =
_
A
c
T
_
x +
_
b
d
_
unde A R
mn
, b R
m
, c R
n
si d R. Funct ia f : R
n
R
m
dat a de f = p g, i.e.
f(x) = (Ax + b)/(c
T
x + d), dom f =
_
x R
n
: c
T
x + d > 0
_
se numeste funct ie liniar-fract ional a. Astfel, dac a mult imea C este convexa si apart ine
domeniului lui f, i.e. c
T
x +d > 0 pentru x C, atunci imaginea sa prin f, f(C), este
convexa.
Inegalitat i Matriceale Liniare (Linear Matrix Inequalities (LMI)): Se poate ar ata
usor ca mult imea matricilor pozitiv semidenite (notat ie S
n
+
) este convexa. Consideram o
funct ie G : R
m
S
n
+
, G(x) = A
0
+

m
i=1
x
i
A
i
, unde x R
m
este un vector iar matricele
A
0
, , A
m
S
n
sunt simetrice. Expresia
G(x)0
se numeste inegalitate matriceala liniara (LMI). Aceasta deneste o mult ime convexa x
R
m
: G(x)0, cu rolul de preimagine a lui S
n
+
prin G(x).
Stabilitatea sistemelor: Fie un sistem liniar discret invariant n timp
z
t+1
= Az
t
,
unde A R
nznz
si z
t
reprezinta starea sistemului la pasul t. Acest sistem este asimptotic
stabil (adic a lim
t
z
t
= 0 pentru orice stare init iala z
0
R
n
) dac a si numai dac a exist a o
funct ie Lyapunov patratic a V (z) = z
T
Pz astfel ncat:
V (z) > 0 z R
n
si V (z
t+1
) V (z
t
) < 0 t 0.
20 1.1. Teoria mult imilor convexe
Aceste inegalitat i de matrici pot exprimate ca (LMI):
A
T
PAP 0 si P 0.

In mod echivalent, sistemul este asimptotic stabil dac a max


i=1,...,n
[
i
(A)[ < 1 (i.e. toate valorile
proprii ale matricei A sunt incluse strict n cercul unitate).

In reglarea automata (control)
ntalnim adesea inegalitat i matriceale cu necunoscutele P si R, de forma:
P A
T
R
1
A 0, P 0
ce pot scrise (prin folosirea complementului Schur), n mod echivalent ca un LMI:
_
P A
T
A R
_
0.
Teorema 1.1.6 (Teorema de separare cu hiperplane) Fie S
1
si S
2
doua mult imi con-
vexe astfel ncat S
1
S
2
= . Atunci, exista un hiperplan ce separa aceste mult imi, i.e.
exista a ,= 0, a R
n
si b R astfel ncat a
T
x b oricare ar x S
1
si a
T
x b oricare ar
x S
2
.
Figura 1.8: Teorema de separare cu hiperplane.
Teorema 1.1.7 (Teorema de suport cu un hiperplan) Fie S o mult ime convexa si x
0

bd(S) = cl(S) int(S). Atunci, exista un hiperplan de suport pentru S n punctul x
0
, adica
exista a ,= 0, a R
n
astfel ncat a
T
x a
T
x
0
oricare ar x S.
21 Capitol 1. Teorie convexa
1.2 Teoria funct iilor convexe
1.2.1 Funct ii convexe

In cadrul acestui curs ne vom concentra atent ia preponderent asupra conceptelor, relat iilor
si rezultatelor ce implica funct ii al caror codomeniu este inclus n

R = R +. Pentru
nceput, o observat ie importanta pentru rigurozitatea rezultatelor ce urmeaza este aceea ca
domeniul efectiv al unei funct ii scalare f se poate extinde (prin echivalent a) la ntreg spat iul
R
n
prin atribuirea valorii +funct iei n toate punctele din afara domeniului sau.

In cele ce
urmeaza consider am ca toate funct iile sunt extinse implicit. O funct ie scalara f : R
n


R
are domeniul efectiv descris de mult imea:
domf = x R
n
: f(x) < +.
Denit ia 1.2.1 Funct ia f se numeste convexa daca domeniul sau efectiv domf este o
mult ime convexa si urmatoarea relat ie are loc:
f(x
1
+ (1 )x
2
) f(x
1
) + (1 )f(x
2
),
pentru orice x
1
, x
2
domf si [0, 1]. Daca n plus
f(x
1
+ (1 )x
2
) < f(x
1
) + (1 )f(x
2
),
pentru orice x
1
,= x
2
domf si (0, 1), atunci f se numeste funct ie strict convexa.
Daca exista o constanta > 0 astfel ncat
f(x
1
+ (1 )x
2
) f(x
1
) + (1 )f(x
2
)

2
(1 )|x
1
x
2
|
2
,
pentru orice x
1
, x
2
domf si [0, 1], atunci f se numeste funct ie tare convexa.
O funct ie f se numeste concava daca f este convexa.
Exemplu 1.2.2 D am n continuare cateva exemple de funct ii convexe:
1. Funct ia denita de orice norma este convexa, i.e. f(x) = |x| este convexa pe R
n
2. Funct ia max denita astfel f(x) = maxx
1
, . . . , x
n
este convexa pe R
n
3. Funct ia f(X) = log det(X) este convexa pe spat iul matricilor pozitiv denite S
n
++
4. Funct ia data de media geometrica f(x) = (

n
i=1
x
i
)
1/n
este concava pe R
n
++
22 1.2. Teoria funct iilor convexe
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
1
x
2
f(x
1
)+(1) f(x
2
)
f(x
1
)
f(x
2
)
f( x
1
+(1)x
2
)
f(x)=x
2
Figura 1.9: Exemplu de funct ie convexa f(x) = x
2
.
Inegalitatea lui Jensen este o generalizare a denit iei anterioare si ne spune ca f este o funct ie
convexa dac a si numai dac a domf este mult ime convexa si
f
_
p

i=1

i
x
i
_

i=1

i
f(x
i
)
pentru orice x
i
domf si

p
i=1

i
= 1 cu
i
[0, 1] pentru orice i = 1, . . . , p. Interpretarea
geometric a a convexitat ii este foarte simpl a. Pentru o funct ie convexa, e dou a puncte
din domeniul sau x
1
, x
2
domf, atunci valorile funct iei evaluate n punctele din intervalul
[x
1
, x
2
] sunt mai mici decat cele de pe segmentul cu capetele (x
1
, f(x
1
)) si (x
2
, f(x
2
)). Cu
alte cuvinte, valorile funct iei (convexe) n punctele x
1
+ (1 )x
2
, pentru [0, 1], sunt
mai mici sau egale cu nalt imea corzii ce uneste coordonatele (x
1
, f(x
1
)) si (x
2
, f(x
2
)).
Remarca 1.2.3 O funct ie f : R
n


R este convexa daca si numai daca restrict ia dome-
niului sau la o dreapta (care intersecteaza domeniul) este de asemenea, convexa. Cu alte
cuvinte, f este convexa daca si numai daca oricare ar x domf si o direct ie d R
n
,
funct ia scalara g(t) = f(x +td) este convexa pe domeniul t R : x +td domf. Aceasta
proprietate este utila n anumite probleme n care se doreste sa se arate convexitatea unei
funct ii.
1.2.2 Condit ii de ordinul I pentru funct ii convexe

In aceast a sect iune prezentam condit iile de convexitate de ordinul ntai pentru funct ii diferen-
t iabile:
23 Capitol 1. Teorie convexa
Teorema 1.2.4 (Convexitatea funct iilor de clasa C
1
) Presupunem ca funct ia f : R
n

R este continuu diferent iabila si domf este o mult ime convexa. Atunci, f este convexa daca
si numai daca
f(x
2
) f(x
1
) +f(x
1
)
T
(x
2
x
1
) x
1
, x
2
domf. (1.1)
Demonstrat ie: Mai ntai ar at am ca dac a funct ia este convexa atunci inegalitatea de mai
sus are loc. Din convexitatea lui f rezulta ca pentru orice x
1
, x
2
domf si oricare [0, 1]
avem:
f(x
1
+ (x
2
x
1
)) f(x
1
) (f(x
2
) f(x
1
)).
Pe de alta parte avem ca:
f(x
1
)
T
(x
2
x
1
) = lim
+0
f(x
1
+ (x
2
x
1
)) f(x
1
)

f(x
2
) f(x
1
).
de unde rezulta inegalitatea (1.1).
Pentru implicat ia inversa, se observa ca pentru orice z = x
1
+(x
2
x
1
) = (1 )x
1
+x
2
se satisface relat ia f(z) (1 )f(x
1
) + f(x
2
). De aceea prin aplicarea relat iei (1.1) de
dou a ori n punctul z se obt in urmatoarele inegalitat i: f(x
1
) f(z) + f(z)
T
(x
1
z) si
f(x
2
) f(z) +f(z)
T
(x
2
z). Prin nmultirea cu ponderile (1 ) si si apoi, nsumarea
celor dou a relat ii avem:
(1 )f(x
1
) + f(x
2
) f(z) +f(z)
T
[(1 )(x
1
z) + (x
2
z)]
. .
=(1)x
1
+x
2
z=0
.

Interpretarea relat iei de mai sus este foarte simpl a: tangenta la gracul unei funct ii convexe
n orice punct, se aa sub grac. O consecint a imediata a acestei teoreme este urmatoarea
inegalitate: e f : R
n
R o funct ie convexa de clas a C
1
, atunci
f(x
1
) f(x
2
), x
1
x
2
0 x
1
, x
2
domf.
1.2.3 Condit ii de ordinul II pentru funct ii convexe
Teorema 1.2.5 (Convexitatea funct iilor de clasa C
2
) Fie o funct ie f : R
n


R de
doua ori continuu diferent iabila si presupunem ca domf este mult ime convexa. Atunci
f este convexa daca si numai daca pentru orice x domf matricea Hesiana este pozitiv
semidenita, adica:

2
f(x)0 x domf. (1.2)
24 1.2. Teoria funct iilor convexe
Demonstrat ie: Mai ntai ar at am ca dac a funct ia este convexa atunci inegalitatea de mai
sus are loc. Folosim aproximarea Taylor de ordin II a lui f n punctul x ntr-o direct ie
arbitrar a d R
n
:
f(x + td) = f(x) + tf(x)
T
d +
1
2
t
2
d
T

2
f(x)d +1(t
2
|d|
2
).
De aici obt inem:
d
T

2
f(x)d = lim
t0
2
t
2
_
f(x + td) f(x) tf(x)
T
d
_
. .
0, datorita (1.1).
+lim
t0
1(t
2
|d|
2
)
t
2
. .
=0
0,
si deci f(x)
2
0. Pe de alta parte, pentru demonstrat ia implicat iei inverse, folosim expresia
restului Taylor pentru un parametru [0, 1]:
f(x
2
) = f(x
1
) +f(x
1
)
T
(x
2
x
1
) +
1
2
(x
2
x
1
)
T

2
f(x
1
+ (x
2
x
1
))(x
2
x
1
)
. .
0, datorita (1.2).
f(x
1
) +f(x
1
)
T
(x
2
x
1
)
si apoi utiliz am condit iile de ordinul I pentru funct ii convexe.
Exemplu 1.2.6
1. Funct ia f(x) = log(x) este convexa pe R
++
= x R : x > 0 deoarece
2
f(x) =
1
x
2
> 0 oricare ar x > 0.
2. Funct ia patratica f(x) =
1
2
x
T
Qx + q
T
x + r este convexa pe R
n
daca si numai daca
Q0, deoarece pentru orice x R
n
Hesiana
2
f(x) = Q. Se observ a ca orice funct ie
ana este convexa si de asemenea, concava.
3. Funct ia f(x, t) =
x
T
x
t
este convexa pe R
n
(0, ) deoarece matricea Hesiana

2
f(x, t) =
_
2
t
I
n

2
t
2
x

2
t
2
x
T 2
t
3
x
T
x
_
este pozitiv denita pe aceasta mult ime. Pentru a scoate n evident a acest lucru, se
nmult este la dreapta si la stanga cu un vector v = [z
T
s]
T
R
n+1
de unde rezulta
v
T

2
f(x, t)v =
2
t
3
|tz sx|
2
0 daca t > 0.
4. Condit ia domf mult ime convexa impusa n toate teoremele precedente este necesara.
De exemplu, consideram funct ia f(x) = 1/x
2
avand domf = R 0 mult ime necon-
vexa. Observam ca Hesiana
2
f(x)0, dar funct ia nu este convexa.
Teorema 1.2.7 (Convexitatea mult imilor subnivel) Pentru un scalar R, mult imea
subnivel x domf : f(x) a unei funct ii convexe f : R
n
R este convexa.
25 Capitol 1. Teorie convexa
Demonstrat ie: Dac a f(x
1
) c si f(x
2
) c atunci pentru orice [0, 1] funct ia f
satisface de asemenea:
f((1 )x
1
+ x
2
) (1 )f(x
1
) + f(x
2
) (1 )c + c = c.

Epigraful funct iei: Fie o funct ie f : R


n
R, atunci epigraful funct iei este denit ca ind
urmatoarea mult ime:
epif =
_
[x
T
t]
T
R
n+1
: x domf, f(x) t
_
.
Teorema 1.2.8 (Proprietatea de convexitate a epigrafului) O funct ie f : R
n
R
este convexa daca si numai daca epiragraful sau este o mult ime convexa.
1.2.4 Operat ii ce conserva convexitatea funct iilor
1. Dac a f
1
si f
2
sunt funct ii convexe si
1
,
2
0 atunci
1
f
1
+
2
f
2
este de asemenea
convexa.
2. Dac a f este convexa atunci g(x) = f(Ax + b) (adic a compunerea unei funct ii convexe
cu o funct ie an a) este de asemenea convexa.
3. Fie f : R
n
R
m
R astfel ncat funct ia f(, y) este convexa pentru orice y S R
m
.
Atunci noua funct ie
g(x) = sup
yS
f(x, y)
este de asemenea convexa.
4. Compunerea cu o funct ie convexa monotona unidimensionala: dac a f : R
n
R este
convexa si g : R R este convexa si monoton crescatoare, atunci funct ia gf : R
n
R
este de asemenea convexa.
5. Dac a g si f sunt multidimensionale, i.e. g : R
k
R, iar f : R
n
R
k
, atunci pentru
funct ia h: R
n
R, h = g f, i.e. h(x) = g(f(x)) = g(f
1
(x), . . . , f
k
(x)), unde
f
i
: R
n
R, putem arma
h este convexa dac a g este convexa, g este monoton crescatoaren ecare argument
iar toate funct iile f
i
sunt convexe
h este convexa dac a g este convexa, g este monoton crescatoaren ecare argument
iar toate funct iile f
i
sunt concave.
26 1.2. Teoria funct iilor convexe
Funct ii conjugate: Fie funct ia f : R
n
R, atunci funct ia conjugata, notata cu f

, se
deneste prin
f

(y) = sup
xdom f
y
T
x f(x)
. .
F(x,y)
.
Din discut ia precedenta rezulta ca funct ia conjugat a f

este convexa indiferent de pro-


priet at ile lui f. Mai mult, domf

= y R
n
: f

(y) nit. O alta consecint a evidenta a


denit iei este inegalitatea Fenchel :
f(x) + f

(y) y
T
x x domf, y domf

.
Exemplu 1.2.9 Pentru funct ia patratica convexa f(x) =
1
2
x
T
Qx, unde Q 0, avem
f

(y) =
1
2
y
T
Q
1
y. Pentru funct ia f(x) = log x, conjugata sa este:
f

(y) = sup
x>0
(xy + log xy) =
_
1 log(y) daca y < 0
altfel.
Capitol 2
Concepte fundamentale din teoria
optimizarii

In cadrul acestui capitol prezentam o scurt a istorie a evolut iei optimizarii si apoi introducem
conceptele fundamentale ale unei probleme de optimizare (valoarea optima, puncte de ex-
trem, mult imea fezabila) mpreun a cu principalele clase de probleme de optimizare (probleme
de optimizare neliniare, liniare, convexe, patratice).
2.1 Evolut ia teoriei optimizarii
Optimizarea are aplicat ii n extrem de numeroase domenii, dintre care putem aminti urma-
toarele (aplicat ii concrete din inginerie sunt prezentate n Capitolul 14):
economie: alocarea resurselor n logistica, investit ii, calcularea unui portofoliu optim.
stiintele exacte: estimare si proiectare de modele pentru seturi de date m asurate,
proiectarea de experimente.
inginerie: proiectarea si operarea n domeniul sistemelor tehnologice (poduri, autove-
hicule, dispozitive electronice), optimizarea motoarelor de cautare, control optimal,
procesarea de semnale.
Aparit ia teoriei optimizarii n problemele de extrem (minimum/maximum) ncepe cu cateva
secole naintea lui Hristos. Matematicienii din antichitate prezentau interes pentru un num ar
de probleme de tip izoperimetric: de exemplu care este curba nchisa de lungime xat a ce
nconjoara suprafat a de arie maxima?

In aceasta perioada au fost folosite abord ari geometrice
27
28 2.1. Evolut ia teoriei optimizarii
pentru rezolvarea problemelor de optimizare si determinarea punctului de optim. Cu toate
acestea, o solut ie riguroas a pentru aceste tipuri de probleme nu a fost gasit a pana n secolul
XIX. Problema izoperimetrica si are originile n legenda reginei Dido, descris a de Virgil n
Eneida.

In primul capitol, Virgil ne povesteste cum, t inut a n captivitate de propriul sau
frate, regina evadeaza si stabileste fundat ia viitorului oras al Cartaginei prin delimitarea sa
cu f asii din piele de bizon.

In acest fel ia nastere problema nconjurarii unei suprafet e de arie
maxima av and constrangerea ca perimetrul gurii rezultate sa e constant. Legenda spune
ca, fenicienii au taiat pielea de bizon n fasii subt iri si n acest fel, au reusit sa ngradeasc a
o suprafat a foarte mare. Nu este exclus faptul ca supusii reginei sa rezolvat o versiune
practic a a problemei. Fundat ia Cartaginei dateaz a din secolul al nou alea nainte de Hristos
cand nu exista nici o urma a geometriei Euclidiene. Problema reginei Dido are o solut ie
unica n clasa gurilor convexe cu condit ia ca partea xat a a frontierei este o linie convexa
poligonal a.
Figura 2.1: Problema reginei Dido (problema izoperimetrica).
Exist a si alte metode pe care matematicienii din perioada ce preced a calculul diferent ial le
foloseau pentru a rezolva probleme de optimizare, si anume abord arile algebrice. Una dintre
cele mai elegante este inegalitatea mediilor:
x
1
+ + x
n
n
(x
1
x
n
)
1/n
x
i
0, n 1,
cu egalitate dac a si numai dac a x
1
= = x
n
. O simpl a aplicat ie este urmatoarea: pentru
a ar ata ca din mult imea tuturor dreptunghiurilor cu arie xa, p atratul are cel mai mic
perimetru, putem folosi acest a simpl a inegalitate algebrica: dac a not am cu x si y laturile
dreptunghiului, atunci problema se reduce la a determina anumite valori pentru x si y astfel
ncat sa se minimizeze perimetrul 2(x +y) cu constrangerea xy = A, unde A este aria dat a.
Din inegalitatea mediilor avem
x + y
2

xy =

A,
cu egalitate dac a x = y =

A, adica gura este un patrat.


Optimizarea deciziilor a devenit o stiint a ncep and cu a doua jumatate a secolului XIX-lea
cand calculul diferent ial a fost puternic dezvoltat. Folosirea metodei gradient (adic a uti-
lizarea derivatei funct iei obiectiv) pentru minimizare a fost prezentat a de Cauchy n 1847.
29 Capitol 2. Concepte fundamentale din teoria optimizarii
Metodele de optimizare moderne au fost pentru prima dat a propusentr-o lucrare de Courant
(1943) unde introduce not iunea de funct ie penalitate, lucrarea lui Dantzig (1951) unde
prezinta metoda simplex pentru programare liniar a, Karush-Kuhn-Tucker care deriveaz a
condit iile de optimalitate KKT pentru probleme de optimizare constrans a (1939,1951). Apoi,
n anii 1960 foarte multe metode au fost propuse pentru a rezolva probleme de optimizare
neliniara: metode pentru optimizare far a constrangeri cum ar metoda gradient ilor conjugat i
dat a de Fletcher and Reeves (1964), metode de tip quasi-Newton dat a de Davis-Fletcher-
Powell (1959). Metode de optimizare cu constrangeri au fost propuse de Rosen (metoda
gradientului proiectat), Zoutendijk a propus metoda direct iilor fezabile (1960), Fiacco si
McCcormick propune nca din anii 1970 metodele de punct interior si exterior. Metodele
de programare patratic a secvent ial a (SQP) au fost de asemenea propuse n anii 1970. Dez-
voltarea de metode de punct interior pentru programarea liniar a a nceput cu lucrarea lui
Karmakar (1984). Aceasta lucrare si patentarea ei ulterioara a determinat comunitatea aca-
demica sa se reorienteze iarasi n direct ia metodelor de punct interior care a culminat cu
aparit ia cart ii lui Nesterov si Nemirovski din 1994. Pe l ang a metodele de tip gradient, au
fost dezvoltate si alte tipuri de metode care nu se bazau pe informat ia de gradient.

In aceast a
direct ie putem aminti metoda simplex a lui Nelder si Meade (1965). Metode speciale care
exploateaz a structur a particular a a unei probleme au fost de asemenea dezvoltate nca din
anii 1960. A aparut de asemenea programarea dinamica ce se baza pe rezultatele lui Bellman
(1952). Lasdon a atras atent ia asupra problemelor de dimensiuni mari prin cartea publicat a
n 1970. Optimalitatea Pareto a fost dezvoltat a pentru optimizarea multiobiectiv. Metode
heuristice au fost de asemenea dezvoltate: algoritmii genetici (1975).
Un exemplu de problem a simpl a de inginerie civila ce poate rezolvata folosind calculul
diferent ial este prezentat n cele ce urmeaza. Fie dou a orase localizate pe maluri diferite
ale unui rau cu l at ime constanta w; orasele se aa la distant a a si respectiv b de rau, cu o
separare lateral a d. Problema const a n a aa locat ia de construct ie a unui pod pentru a
face cat mai scurt a posibil calatoria ntre cele dou a orase. Aceasta problem a se poate pune
ca o problem a de optimizare:
min
x
f(x),
unde f(x) =

x
2
+ a
2
+w+
_
b
2
+ (d x)
2
. Impunand derivata f

(x) = 0, obt inem locat ia


optima: x

=
a
a+b
d.
2.2 Caracteristicile unei probleme de optimizare
O problem a de optimizare cont ine urmatoarele trei ingrediente:
(i) O funct ie obiectiv, f(x), ce va minimizat a sau maximizat a,
(ii) variabile de decizie, x, care se pot alege dintr-o anumita mult ime,
30 2.2. Caracteristicile unei probleme de optimizare
Figura 2.2: Aplicat ie a localizarii optime.
(iii) constr angerile ce vor respectate sunt de forma g(x) 0 (constrangeri de inegalitate)
si/sau h(x) = 0 (constrangeri de egalitate).
Formularea matematica standard a unei probleme de optimizare este urmatoarea:
min
xR
n
f(x)
s.l.: g
1
(x) 0, . . . , g
m
(x) 0
h
1
(x) = 0, . . . , h
p
(x) = 0.
Dac a introducem notat iile g(x) = [g
1
(x) . . . g
m
(x)]
T
si h(x) = [h
1
(x) . . . h
p
(x)]
T
, atunci n
forma compact a problema de optimizare de mai sus se scrie ca:
(NLP) : min
xR
n
f(x)
s.l.: g(x) 0, h(x) = 0.

In aceasta problem a, funct ia obiectiv f : R


n


R, funct ia vectoriala ce deneste con-
strangerile de inegalitate g : R
n
R
m
si funct ia vectoriala ce deneste constr angerile de egal-
itate h : R
n
R
p
se presupun de obicei a diferent iabile. Observam ca o problema de maxim
se poatentodeauna reduce la una de minim datorita echivalent ei max
x
f(x) = min
x
f(x).
Exemplu 2.2.1 Consideram urmatoarea problema de optimizare:
min
xR
2
x
2
1
+ x
2
2
s.l.: x 0, x
2
1
+ x
2
1 0
x
1
x
2
1 = 0.
31 Capitol 2. Concepte fundamentale din teoria optimizarii

In acest exemplu avem:


- Variabila de decizie este x = [x
1
x
2
]
T
R
2
si funct ia obiectiv f(x) = x
2
1
+ x
2
2
este funct ie
patratica convexa .
- Avem 3 constrangeri de inegalitate: g : R
2
R
3
, unde g
1
(x) = x
1
, g
2
(x) = x
2
si
g
3
(x) = x
2
1
+ x
2
1. Observam ca funct ia g are toate cele trei componente funct ii convexe.
- O singura constrangere de egalitate denita de funct ia h(x) = x
1
x
2
1. Observam ca
funct ia h nu este convexa.
Denit ia 2.2.2
1. Mult imea x R
n
: f(x) = c este mult imea nivel a funct iei f pentru valoarea c R.
2. Mult imea fezabila a problemei de optimizare (NLP) este
X = x R
n
: g(x) 0, h(x) = 0.
3. Punctul x

R
n
este un punct de minim global (adesea denumit minim global) daca si
numai daca x

X si f(x

) f(x) oricare ar x X.
4. Punctul x

R
n
este un punct strict de minim global daca si numai daca x

X si
f(x

) < f(x) oricare ar x X x

5. Punctul x

R
n
este minim local daca si numai daca x

X si exista o vecinatate A
a lui x

(e.g. o bila deschisa cu centrul n x

) astfel ncat f(x

) f(x) oricare ar
x X A.
6. Punctul x

R
n
este un punct strict de minim local daca si numai daca x

X si
exista o vecinatate A a lui x

astfel ncat f(x

) < f(x) oricare ar x (XA)x

.
Exemplu 2.2.3 Pentru urmatoarea problema unidimensionala
min
xR
cos 5x
x
s.l.: x 0.1, x 1.1
funct ia obiectiv este f(x) =
cos 5x
x
si mult imea fezabila este un politop (interval) X =
x R : x 0.1, x 1.1 = [0.1, 1.1]
reprezent and grac funct ia n Matlab putem identica trei puncte de minim local
un singur minim global.
32 2.2. Caracteristicile unei probleme de optimizare
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
6
5
4
3
2
1
0
1
2
3
Punct de minim local x
*
L
Punct de minim local x
*
L
Punct de minim global x
*
G
Punct de maxim local
Punct de maxim global
Figura 2.3: Puncte de minim local (x

L
) si punctul de minim global (x

G
) pentru f(x) =
cos(5x)/x n intervalul [0.1, 1.1].
Exemplu 2.2.4 Consideram urmatoarea problema de optimizare
min
xR
2
(x
1
3)
2
+ (x
2
2)
2
s.l.: x
2
1
x
2
3 0, x
2
1 0, x
1
0.
Funct ia obiectiv si cele trei constrangeri de inegalitate sunt: f(x
1
, x
2
) = (x
1
3)
2
+(x
2
2)
2
si respectiv g
1
(x
1
, x
2
) = x
2
1
x
2
3, g
2
(x
1
, x
2
) = x
2
1, g
3
(x
1
, x
2
) = x
1
. Fig 2.4 ilustreaza
mult imea fezabila. Problema se reduce la a gasi un punct n mult imea fezabila cu cea mai mica
valoare a lui (x
1
3)
2
+(x
2
2)
2
. Observam ca punctele [x
1
x
2
]
T
cu (x
1
3)
2
+(x
2
2)
2
= c
sunt cercuri de raza c si centru n [3 2]
T
. Aceste cercuri se numesc mult imile nivel sau
contururile funct iei obiectiv avand valoarea c. Pentru a minimiza f trebuie sa gasim cercul
cu cea mai mica raza c care intersecteaza mult imea fezabila. Dupa cum se observ a din Fig.
2.4, cel mai mic cerc corespunde lui c = 2 si intersecteaza mult imea fezabila n punctul de
optim x

= [2 1]
T
.

In teoria optimizarii un aspect important l reprezinta existent a punctelor de minim. Urm a-


toarea teorem a ne arata cand astfel de puncte de optim exist a:
Teorema 2.2.5 (Weierstrass) Daca mult imea fezabila X R
n
este compacta (adica margi-
nita si nchisa) si f : X R este continua atunci exista un punct de minim global pentru
problema de minimizare min
xX
f(x).
33 Capitol 2. Concepte fundamentale din teoria optimizarii
5 0 5
5
4
3
2
1
0
1
2
3
4
5
zona fezabila
punct optim (2,1)
g
3
contururi functie obiectiv
*
(3,2)
g
1
g
2
Figura 2.4: Solut ia graca a problemei de optimizare.
Demonstrat ie: Observam ca gracul funct iei f poate reprezentat prin G = (x, t)
R
n
R : x X, f(x) = t. Mult imea G este o mult ime compact a si proiect ia lui G pe
ultima sa coordonat a este de asemenea compact a. Mai exact, mult imea Proj
R
G = t R :
x R
n
astfel ncat (x, t) G este un interval compact [f
min
, f
max
] R. Prin construct ie,
exist a cel put in un x

X astfel ncat (x

, f
min
) G.
Din teorema anterioar a concluzionam ca punctele de minim exist an condit ii relativ generale,
de aceea n aceasta carte utiliz am min n loc de inf. Cu toate ca demonstrat ia a fost
constructiva, nu conduce catre un algoritm ecient pentru a g asi punctul de minim. Scopul
acestei lucr ari este de a prezenta principalii algoritmi numerici de optimizare care determina
punctele de optim.
2.3 Tipuri de probleme de optimizare
Pentru alegerea algoritmului potrivit pentru o problem a practic a, avem nevoie de o clasi-
care a algoritmilor existent i si informat ii despre structurile matematice exploatate de ei.

Inlocuirea unui algoritm inadecvat cu unul ecient poate scurta gasirea solut iei cu mai multe
ordine de magnitudine n ceea ce priveste complexitatea aritmetica (num arul total de opi).
34 2.3. Tipuri de probleme de optimizare
2.3.1 Programare neliniara (NLP - NonLinear Programming)
Acest curs trateaza n principal algoritmi proiectat i pentru rezolvarea de probleme generale
de Programare Neliniara (NLP - NonLinear Programming) de forma:
(NLP) : min
xR
n
f(x) (2.1)
s.l.: g(x) 0, h(x) = 0,
unde funct iile f : R
n


R, g : R
n
R
m
si h : R
n
R
p
se presupun a continuu
diferent iabile cel put in o dat a, iar n unele cazuri de dou a sau de mai multe ori diferent iabile.
L
x
1
y
1
l
Figura 2.5: Problema de mpachetare.
Minimizarea dimensiunii unui pachet - Care este cel mai mic pachet ce cont ine 3 obiecte
rotunde de raze r
1
, r
2
si r
3
date? Consideram problema n R
2
, extensia n R
3
este imediata.
Not am cu (x
i
, y
i
) coordonatele plane ale celor 3 obiecte si cu l si L laturile pachetului. Dorim
sa minimizam aria l L astfel ncat urmatoarele constrangeri au loc:
- ecare obiect se aa n pachet:
x
i
r
i
, y
i
r
i
, x
i
l r
i
, y
i
L r
i
i = 1, 2, 3
- dimensiunile sunt numere pozitive
x
i
0, y
i
0, l 0, L 0 i = 1, 2, 3
- cele 3 obiecte nu se suprapun
(x
i
x
j
)
2
+ (y
i
y
j
)
2
(r
i
+ r
j
)
2
i ,= j = 1, 2, 3.
35 Capitol 2. Concepte fundamentale din teoria optimizarii

In acest caz, problema de mai sus se poate pune ca o problem a de optimizare (NLP) unde
variabila de decizie este x = [x
1
y
1
x
2
y
2
x
3
y
3
l L]
T
:
min
xR
8
l L
s.l.: x 0, x
i
r
i
, y
i
r
i
, x
i
l r
i
, y
i
L r
i
(x
i
x
j
)
2
+ (y
i
y
j
)
2
(r
i
+ r
j
)
2
i ,= j = 1, 2, 3.
Observam can problema de mai sus funct ia obiectiv f(x) = lL nu este convexa.

In anumite
situat ii nsa, multe dintre probleme prezinta structuri particulare, care pot exploatate
pentru o rezolvare mai rapid a a acestora.

In cele ce urmeaza enumer am cele mai importante
clase de probleme de optimizare cu structur a speciala.
2.3.2 Programare liniara (LP - Linear Programming)

In cazul n care funct iile f, g si h din formularea generala (2.1) sunt ane, problema (NLP)
devine un Program Liniar (LP - Linear Program). Mai exact, un (LP) poate denit ca:
(LP) : min
xR
n
c
T
x (2.2)
s.l.: Cx d 0, Ax b = 0.
Datele problemei sunt: c R
n
, A R
pn
, b R
p
, C R
mn
si d R
m
. Se observa ca putem
adauga o constanta la funct ia obiectiv, adica f(x) = c
T
x + c
0
, nsa aceasta nu schimba
punctul de minim x

.
Aplicat ie nanciara: Consideram un numar n de active nanciare si x
i
reprezinta suma
investita n activul i. Notam cu r
i
(t) = 1+ rata de rentabilitate si c
i
rata de rentabilitate
medie peste o perioada de T ani a produsului i (i.e. c
i
=
1
T

T
t=1
r
i
(t)). Dorim sa maximizam
protul:
max
xR
n
n

i=1
c
i
x
i
s.l.: x 0,
n

i=1
x
i
= 1.
LP-urile pot rezolvate foarte ecient.

Inca din anii 1940 aceste probleme au putut
rezolvate cu succes, odat a cu aparit ia metodei simplex dezvoltat a de G. Dantzig. Metoda
simplex este o metoda de tip mult ime activa si care este n competit ie cu o clas a la fel de
ecienta de algoritmi numit i algoritmi de punct interior.

In zilele noastre se pot rezolva
LP-uri chiar si cu milioane de variabile si constrangeri, orice student din domeniul nant elor
36 2.3. Tipuri de probleme de optimizare
av and n curriculum principalele metode de rezolvare a acestora. Algoritmii specializat i
pentru LP nu sunt tratat i n detaliu n acest curs, nsa trebuie recunoscut i atunci cand sunt
ntalnit i n practic a av and la dispozit ie mai multe produse software: CPLEX, SOPLEX,
lp solve, lingo, MATLAB (linprog), SeDuMi, YALMIP, CVX.
2.3.3 Programare patratica (QP - Quadratic Programming)
Dac a n formularea generala (NLP) dat a n (2.1) constrangerile g si h sunt ane (ca si n
cazul problemei LP), nsa funct ia obiectiv este o funct ie patratic a, problema care rezulta
se numeste Problema de Programare P atratic a (QP - Quadratic Program). O problem a
generala QP poate formulata dupa cum urmeaza:
(QP) : min
xR
n
1
2
x
T
Qx + q
T
x + r (2.3)
s.l.: Cx d 0, Ax b = 0.
Aici, n plus fat a de datele problemei LP, avem matricea Hesiana simetric a Q R
nn
.
Numele sau provine din relat ia
2
f(x) = Q, unde f(x) =
1
2
x
T
Qx + q
T
x + r.
Dac a matricea Hesiana Q este pozitiv semidenita (i.e. Q _ 0) atunci numim problema QP
(2.3) o problem a QP convexa. QP-urile convexe sunt cu mult mai usor de rezolvat global
dec at QP-urile neconvexe (i.e. unde matricea Hesiana Q este indenit a). Dupa cum vom
ar ata n capitolele urmatoare o problem a convexa are numai minime globale n timp ce una
neconvexa poate avea multe minime locale. Dac a matricea Hesiana Q este pozitiv denit a
(i.e. Q 0) numim problema QP (2.3) o problem a QP strict convexa. QP-urile strict
convexe sunt o subclas a a problemelor QP convexe, dar de cele mai multe ori mai usor de
rezolvat decat QP-urile care nu sunt strict convexe.
Exemplu 2.3.1 Exemplu de QP care nu este convex:
min
xR
2
1
2
x
T
_
5 0
0 1
_
x +
_
0
2
_
T
x
s.l.: 1 x
1
1, 1 x
2
10.
Aceasta problema are minime locale n x

1
= [0 1]
T
si x

2
= [0 10]
T
, nsa doar x

2
este punct
de minim global pentru aceasta problema.
Exemplu de QP strict convex:
min
xR
2
1
2
x
T
_
5 0
0 1
_
x +
_
0
2
_
T
x
s.l.: 1 x
1
1, 1 x
2
10.
37 Capitol 2. Concepte fundamentale din teoria optimizarii
Problema de mai sus are un punct de minim local (strict) unic n x

= [0 1]
T
care este de
asemenea minim global deoarece Hesiana este pozitiv denita.
Aplicat ie nanciara - continuare: Observam ca n problema considerata n sect iunea
2.3.2 nu s-a luat n considerare riscul. Riscul este dat de uctuat ia ratei de rentabilitate
r
i
(t) de-a lungul celor T ani. Minimizarea riscului este echivalenta cu minimizarea variant ei
investit iei (risk averse).

In acest caz, matricea de covariant a Q se exprima astfel:
Q
ij
=
2
ij
=
1
T
T

i=1
(r
i
(t) c
i
)(r
j
(t) c
j
) i, j = 1, . . . , n.
Problema minimizarii riscului poate formulata ca o problem a QP:
min
xR
n
1
2
x
T
Qx
s.l.: x 0,
n

i=1
c
i
x
i
R,
n

i=1
x
i
= 1.
Constr angerea

n
i=1
c
i
x
i
R se impune pentru a asigura cel put in un prot R.

In practic a avem la dispozit ie mai multe produse software pentru rezolvarea de probleme
QP: MOSEK, MATLAB (quadprog), SeDuMi, YALMIP, CVX.
2.3.4 Optimizare convexa (CP - Convex Programming)
Ambele tipuri de probleme LP si QP apart in unei clase mai largi de probleme de optimizare,
si anume probleme de optimizare convexe. O problem a de optimizare cu o mult ime fezabila
X convexa si o funct ie obiectiv f convexa se numeste problema de optimizare convexa (CP
- Convex Programming), i.e.
(CP) : min
xR
n
f(x) (2.4)
s.l.: g(x) 0, Ax b = 0,
unde f : R
n
R si componentele lui g : R
n
R
m
sunt funct ii convexe si constr angerile de
egalitate sunt descrise de funct ii ane h(x) = Axb, unde A R
pn
si b R
p
. Rezult a deci
ca mult imea fezabila asociat a X = x R
n
: g(x) 0, Ax = b este mult ime convexa.
Exemplu 2.3.2 Programare patratica cu constrangeri patratice (QCQP - Quadratically
Constrained Quadratic Program): O problema de optimizare convexa de forma (2.4) cu
38 2.3. Tipuri de probleme de optimizare
funct iile f si componentele lui g patratice convexe, se numeste problema patratica cu con-
strangeri patratice:
(QCQP) : min
xR
n
1
2
x
T
Qx + q
T
x + r
s.l.:
1
2
x
T
Q
i
x + q
T
i
x + r
i
0 i = 1, . . . , m
Ax b = 0.
Alegand Q
1
= = Q
m
= 0 obt inem o problema uzuala QP, iar daca n plus alegem Q = 0
obt inem un LP. De aceea, clasa problemelor QCQP cont ine si clasa LP-urilor si pe cea a
QP-urilor. Daca matricele Q si Q
i
cu i = 1, . . . , m sunt pozitiv semidenite atunci problema
(QCQP) este convexa.
Analiza statistica: Analiza datelor si interpretarea acestora ntr-un sens cat mai corect
este una din preocup arile principale din domeniul statisticii. Problema se formuleaz a n
urmatorul mod: pe baza unei colect ii de date cunoscute (reprezentate n gur a prin puncte),
sa se realizeze predict ia cu o eroare cat mai mic a a unui alt set de date part ial cunoscut.

In termeni matematici, aceasta problem a presupune determinarea unei direct ii de-a lungul
careia elementele date (punctele) tind sa se alinieze, astfel ncat sa se poat a predicta zona
de aparit ie a punctelor viitoare. S-a constatat ca direct ia de cautare este dat a de vectorul
singular corespunz ator celei mai mici valori singulare al matricei formate din colect ia de
puncte date, ce poate gasit prin intermediul unei probleme de optimizare convexa:
min
xR
n
1
2
x
T
A
T
Ax
s.l.: x
T
x 1,
unde A R
mn
reprezinta matricea ale carei coloane sunt vectorii (punctele) cunoscute
init ial a
1
, . . . , a
n
.
Exemplu 2.3.3 Programare semidenita (SDP - SemiDenite Programming) O clasa im-
portanta de probleme de optimizare convexa foloseste inegalitat i liniare matriceale (LMI)
39 Capitol 2. Concepte fundamentale din teoria optimizarii
pentru a descrie mult imea fezabil a. Datorita naturii constrangerilor ce impun ca anumite
matrici sa ramana pozitiv semidenite, aceasta clas a de probleme se numeste programare
semidenita (SDP). O problema generala SDP poate formulata dupa cum urmeaza:
(SDP) : min
xR
n
c
T
x
s.l.: A
0
+
n

i=1
A
i
x
i
0, Ax b = 0,
unde matricile A
i
S
m
oricare ar i = 0, . . . , n. Remarcam ca problemele LP, QP, si
QCQP pot de asemenea formulate ca probleme SDP. Programarea Semidenita este un
instrument des utilizat n teoria sistemelor si reglare (control).
Minimizarea valorii proprii maxime: a unei matrici poate formulata ca o problem a
SDP. Avem o matrice simetrica G(x) care depinde an de anumite variabile structurale
x R
n
, i.e. G(x) = A
0
+

n
i=1
A
i
x
i
cu A
i
S
m
oricare ar i = 0, , n. Dac a dorim sa
minimiz am valoarea proprie maxima a lui G(x) n funct ie de x, i.e. sa rezolv am
min
xR
n

max
(G(x))
putem formula aceasta problem a ca un SDP, dup a cum urmeaza: adaug and o variabil a
auxiliar a t R si t in and cont ca t
max
(G(x)) este echivalent cu un LMI tI
m
G(x),
obt inem
min
tR,xR
n
t
s.l.: tI
m

i=1
A
i
x
i
A
0
0.
Doua produse software excelente pentru formularea si rezolvarea problemelor de optimizare
convexan mediul de programare MATLAB sunt YALMIP si CVX, ce se pot gasi open-source
si sunt foarte usor de instalat. Un software comercial des utilizat este MOSEK.
2.3.5 Probleme de optimizare neconstransa (UNLP - Unconstrained
NonLinear Programming)
Orice problem a NLP far a constrangeri se numeste problema de optimizare neconstransa
(UNLP - Unconstrained NonLinear Programming). Are forma generala:
(UNLP) : min
xR
n
f(x). (2.5)
40 2.3. Tipuri de probleme de optimizare
Metodele numerice de optimizare neliniara far a constrangeri vor forma subiectul P art ii II a
acestei lucr ari, n timp ce algoritmii pentru probleme generale constr anse vor studiat i n
Partea a III-a. Cel mai utilizat software pentru programare neconstr ans a este Matlab cu
funct iile fminunc si fminsearch.
Probleme de optimizare nediferent iabila: dac a una sau mai multe funct ii f, g si h
din structura problemei NLP (2.1) nu sunt diferent iabile avem o problem a de optimizare
nediferent iabila. Problemele de optimizare nediferent iabil a sunt mult mai greu de rezolvat
decat problemele NLP generale. Exista un numar mai redus de algoritmi pentru a rezolva
astfel de probleme: metoda subgradient, metoda Nelder-Mead, cautare aleatoare, algoritmi
genetici, etc. De obicei acesti algorithmi sunt de regul a mult mai slabi din punct de vedere
numeric decat algoritmii bazat i pe informat ie de tip gradient si Hessian a si care sunt subiectul
acestei cart i.
2.3.6 Programare mixta cu ntregi (MIP - Mixed Integer Pro-
gramming)
O problem a de programare mixt a cu ntregi este o problem a n care anumite variabile de
decizie sunt constranse la o mult ime de numere ntregi. Un MIP poate formulat dup a cum
urmeaza:
(MIP) : min
xR
n
,zZ
m
f(x, z)
s.l.: g(x, z) 0, h(x, z) = 0.

In general, aceste probleme sunt foarte greu de rezolvat, datorita naturii combinatoriale
a variabilei z. Cu toate acestea, dac a problema relaxata, unde variabilele z nu mai sunt
restranse la ntregi, ci la mult imi de numere reale, este convexa, de regul a exist a algoritmi
ecient i pentru rezolvarea lor. Algoritmii ecient i de gasire a solut iei sunt adesea bazat i pe
tehnica branch-and-bound, care foloseste probleme part ial relaxate unde unele variabile din z
sunt xate la anumite valori ntregi si unele sunt relaxate exploat and proprietatea ca solut ia
problemelor relaxate este ntotdeauna mai bun a decat orice solut ie cu componente ntregi.

In acest fel, cautarea poate avea loc mult mai ecient decat o pur a vericare a elementelor
mult imii fezabile. Doua exemple importante de asemenea probleme sunt date n cele ce
urmeaza:
(i) Program liniar mixt cu ntregi (MILP - Mixed Integer Linear Programming): dac a
funct iile f, g si h sunt ane n ambele variabile x si z obt inem un program liniar mixt cu
ntregi. O problem a faimoasa din aceasta clas a este problema comis-voiajorului.
(ii) Program patratic mixt cu ntregi (MIQP - Mixed Integer Quadratic Programming):
dac a g si h sunt funct ii ane si f patratic a convexa n ambele variabile x si z rezulta un
program patratic mixt cu intregi (MIQP).
41 Capitol 2. Concepte fundamentale din teoria optimizarii
Probleme (MILP)/(MIQP) de dimensiuni mici/medii (i.e. dimensiunea variabilei n, m <
100) pot rezolvate ecient de pachete de sotware comerciale CPLEX, TOMLAB sau lp_solve.
42 2.3. Tipuri de probleme de optimizare
Partea II
Optimizare fara constrangeri
43
Capitol 3
Metode de optimizare
unidimensionala
Dupa cum vom vedea n capitolele urmatoare metodele bazate pe direct ii de descrestere
presupun gasirea unui pas care, ideal, trebuie ales optim. Astfel de metode se mai numesc si
metode de cautare exacta.

In aceasta situat ie, trebuie sa calculam parametrul optim

ce
determina valoarea minima a funct iei obiectiv f n direct ia d, cu alte cuvinte minimizarea
funct iei () = f(x + d). Din acest motiv, n acest capitol analizam metode numerice de
optimizare unidimensionala, adica pentru funct ii de o singura variabil a f : R R:
min
R
f(). (3.1)
Metodele de optimizare unidimensionala se bazeaz a e pe cautare directa sau pe aproximarea
funct iei f cu un polinom ce se determina prin interpolare folosind valorile funct iei si/sau
derivatele funct iei obiectiv n anumite puncte.

In metodele de cautare principiul de baz a
este urmatorul: se identic a intervalul [a, b] R ce include punctul de minim

, numit
si intervalul de cautare sau intervalul de incertitudine, urmat apoi de o reducere iterativ a
a lungimii acestuia pana la o valoare ce coboar a sub tolerant a impusa pentru a localiza

.
Ecient a acestei abord ari depinde de strategia de construct ie a sirului de intervale [a
k
, b
k
],
k = 1, 2, , ce l cont in pe

. Cele mai renumite metode de cautare unidimensionala sunt:


metoda sect iunii de aur si metoda lui Fibonacci, pe care le vom prezenta n acest capitol.
Metoda clasic a Newton-Raphson si metoda secantei sunt de asemenea considerate membre
ale aceleiasi clase. Pe de alta parte, metodele de interpolare gasesc o aproximare a lui

folosind valori ale funct iei obiectiv f() n puncte din intervalul init ial de cautare [a, b], sau
pot folosi valoarea funct iei obiectiv si derivata sa f

() n anumite puncte din [a b]. Prin


intermediul acestor valori se formeaza polinomul de interpolare de gradul doi sau mai mare,
q(), al funct iei f() si este determinat punctul de minim al funct iei q(). Printre cele
mai renumite metode de interpolare se numara cea patratic a (n doua sau trei puncte) si cea
cubic a.
45
46 3.1. Metoda forward-backward pentru funct ii unimodale
3.1 Metoda forward-backward pentru funct ii unimodale
O metoda simpl a de determinare a unui interval init ial de cautare, adica determinarea unui
interval care cont ine punctul de optim

, este dat a de metoda forward-backward. Ideea de


baz a este urmatoarea: dand un punct init ial si o lungime a pasului se ncearc a determinarea
a dou a puncte pentru care funct ia are o forma geometric a convexa pe acel interval cu capetele
n cele dou a puncte. Metoda presupune urmatorii pasi: e un punct init ial
0
si lungimea
pasului h
0
> 0
- dac a f(
0
+ h
0
) < f(
0
) atunci se ncepe din punctul
0
+ h
0
si se continua cu o lungime
a pasului mai mare cat timp valoarea funct iei creste
- dac a f(
0
+ h
0
) > f(
0
), atunci ne deplasam din
0
napoi pana cand valoarea funct iei
creste.

In acest fel vom obt ine un interval init ial ce cont ine valoarea optima

. Metoda forward-
backward se bazeaz a pe propriet at ile de unimodalitate ale funct iilor.
Denit ia 3.1.1 Fie funct ia f : R R si un interval [a, b] R. Daca exista

[a, b]
astfel incat f este strict descrescatoare pe intervalul [a,

] si strict crescatoare pe intervalul


[

, b], atunci f se numeste funct ie unimodala pe intervalul [a, b]. Intervalul [a, b] se
numeste interval de unimodalitate pentru f.
Se observa imediat ca funct iile unimodale nu implica continuitate si diferent iabilitate. Urm a-
toarea teorem a arata ca dac a f este unimodala atunci intervalul de incertitudine poate
redus comparand valorile lui f n doar dou a puncte ale intervalului.
Teorema 3.1.2 Fie funct ia unimodala f : R R pe intervalul [a, b] si
1
,
2
[a, b] cu

1
<
2
.

In acest caz:
(i) daca f(
1
) f(
2
), atunci [a,
2
] este interval de unimodalitate pentru f.
(ii) daca f(
1
) f(
2
), atunci [
1
, b] este interval de unimodalitate pentru f.
Pentru o expunere mai usoara presupunem ca punctul de minim se gaseste n R
+
. Metoda
forward-backward presupune urmatorii pasi:
Pas 1. Fie un
0
[0, ), h
0
> 0 si coecientul multiplicativ t > 1 (adesea se alege t = 2).
Evalu am f(
0
) = f
0
si k = 0.
Pas 2. Compar am valorile funct iei obiectiv. Actualizam
k+1
=
k
+ h
k
si evalu am f
k+1
=
f(
k+1
). Dac a f
k+1
< f
k
, sarim la Pas. 3; altfel, sarim la Pas. 4.
Pas 3. Pas forward. Actualizam h
k+1
= th
k
, =
k
,
k
=
k+1
, f
k
= f
k+1
si k = k +1, sarim
la Pas 2.
47 Capitol 3. Metode de optimizare unidimensionala
Pas 4. Pas backward. Dac a k = 0, inversam direct ia de cautare. Luam h
k
= h
k
,
k
=
k+1
,
sarim la Pas. 2; altfel, consider am
a = min ,
k+1
, b = max,
k+1
,
returnam intervalul [a, b] ce cont ine punctul de minim

si ne oprim.
3.2 Metode de cautare
Metoda sect iunii de aur si metoda lui Fibonacci sunt metode de partit ionare. Ideea din
spatele acestor metode de minimizare a funct iilor unimodale pe intervalul [a, b] R const an
reducerea iterativ a a intervalului de incertitudine doar comparand valorile funct iei obiectiv.
O dat a ce lungimea intervalului de incertitudine este mai mic a decat o acuratet e prestabilita,
atunci punctele din acest interval pot considerate aproximari ale valorii minime a funct iei.
Aceasta clas a de metode foloseste doar valoarea funct iei obiectiv si are un rol important n
algoritmii de optimizare, n special cand ne confruntam cu funct ii obiectiv nediferent iabile
sau funct ii obiectiv ale caror derivate prezinta forme complicate.
3.2.1 Metoda sect iunii de aur
Consideram funct ia f unimodala pe intervalul [a, b] si denim a
1
= a si b
1
= b. La iterat ia
k, metoda sect iunii de aur determina intervalul [a
k+1
, b
k+1
] astfel ncat

[a
k+1
, b
k+1
].

In
acest moment consider am dou a puncte
k
,
k
[a
k
, b
k
] unde
k
<
k
si calculam f(
k
) si
f(
k
), vezi Fig. 5.2. Din teorema precedenta rezulta:
(i) Dac a f(
k
) f(
k
) atunci a
k+1
= a
k
si b
k+1
=
k
.
(ii) Dac a f(
k
) > f(
k
) atunci a
k+1
=
k
si b
k+1
= b
k
.
R am ane sa discutam alegerea punctelor
k
si
k
.

In acest scop impunem urmatoarele trei
condit ii:
1. Distant ele de la
k
si respectiv
k
la capetele intervalului [a
k
, b
k
] sunt egale:
b
k

k
=
k
a
k
. (3.2)
2. Rata de micsorare a lungimii intervalelor de incertitudine la ecare iterat ie este aceeasi,
rezultand
b
k+1
a
k+1
= (b
k
a
k
), unde (0, 1). (3.3)
48 3.2. Metode de cautare
f()
a
k

k

k
b
k
f(
k
)>f(
k
)

k
a
k
=b
k

k
f(
k
)
f(
k
)
b
k

k
a
k
Figura 3.1: Exemplu de pas pentru metoda sect iunii de aur
3. Este necesara o singura evaluare a funct iei obiectiv pentru o nou a iterat ie.
Dac a substituim valorile ce constituie cazul (i) n (3.3) obt inem
k
a
k
= (b
k
a
k
) si prin
combinarea cu (3.2) avem b
k

k
=
k
a
k
. Prin rearanjarea acestor egalitat i avem:

k
= a
k
+ (1 )(b
k
a
k
) (3.4)

k
= a
k
+ (b
k
a
k
). (3.5)

In acest caz, noul interval este [a


k+1
, b
k+1
] = [a
k
,
k
]. Pentru a reduce intervalul de
incertitudine este necesara select ia parametrilor
k+1
si
k+1
. Din (3.5) rezulta

k+1
= a
k+1
+ (b
k+1
a
k+1
) = a
k
+ (
k
a
k
)
= a
k
+ (a
k
+ (b
k
a
k
) a
k
) = a
k
+
2
(b
k
a
k
). (3.6)
Considerand

2
= 1 (3.7)
rezulta

k+1
= a
k
+ (1 )(b
k
a
k
) =
k
. (3.8)
Astfel,
k+1
coincide cu
k
si funct ia obiectiv nu necesit a o evaluare deoarece valoarea sa
este stocata n
k
. Cazul (ii) poate demonstrat ntr-o manier a similar a, din care rezulta

k+1
=
k
astfel ncat nu este necesara evaluarea funct iei obiectiv. Metoda sect iunii de aur
const a n urmatorii pasi:
49 Capitol 3. Metode de optimizare unidimensionala
Pas 1. Determinam intervalul init ial [a
1
, b
1
] si alegem precizia > 0. Calcul am primele dou a
puncte
1
si
1
:

1
= a
1
+ 0.382(b
1
a
1
)

1
= a
1
+ 0.618(b
1
a
1
)
si evaluam f(
1
) si f(
1
), init ializam k = 1.
Pas 2. Compar am valorile funct iilor. Dac a f(
k
) > f(
k
), trecem la Pas 3; dac a f(
k
)
f(
k
), trecem la Pas 4.
Pas 3. Dac a b
k

k
, ne oprim si returnam
k
; altfel iter am:
a
k+1
=
k
, b
k+1
= b
k
,
k+1
=
k
f(
k+1
) = f(
k
),
k+1
= a
k+1
+ 0.618(b
k+1
a
k+1
).
Evalu am f(
k+1
) si trecem la Pas 5.
Pas 4. Dac a
k
a
k
, ne oprim si returnam
k
; altfel iter am:
a
k+1
= a
k
, b
k+1
=
k
,
k+1
=
k
,
f(
k+1
) = f(
k
),
k+1
= a
k+1
+ 0.382(b
k+1
a
k+1
).
Evalu am f(
k+1
) si trecem la Pas 5.
Pas 5 . Iteram k = k + 1, revenim la Pas 2.
Observam ca acest algoritm produce un sir de intervale [a
k
, b
k
] astfel ncat punctul de minim

al funct iei f se aa n ecare din aceste intervale. Mai departe ne concentr am spre analiza
ratei de reduct ie a intervalului de incertitudine. Rezolvand ecuat ia (3.7) obt inem
=
1

5
2
.
Deoarece > 0 consider am
=
b
k+1
a
k+1
b
k
a
k
=

5 1
2

= 0.618 (3.9)

Inlocuind valoarea lui n (3.4) si (3.5) avem

k
= a
k
+ 0.382(b
k
a
k
) (3.10)

k
= a
k
+ 0.618(b
k
a
k
). (3.11)
Deoarece rata de reduct ie este xa la ecare iterat ie, = 0.618, consider and un interval
init ial [a
1
, b
1
], dup a k iterat ii lungimea intervalului este
k1
(b
1
a
1
), ceea ce arata ca rata
de convergent a a metodei sect iunii de aur este liniar a.
50 3.2. Metode de cautare
3.2.2 Metoda lui Fibonacci

In metoda lui Fibonacci principala diferenta fat a de metoda sectiunii de aur const an denit ia
legii de reduct ie a intervalului de incertitudinen acord cu sirul lui Fibonacci. Cu alte cuvinte,
rata de reduct ie nu este xa n aceasta metoda, ci variaz a de la un interval la altul. Sirul lui
Fibonacci F
k
este denit de urmatoarea lege:
F
0
= F
1
= 1
F
k+1
= F
k
+ F
k1
k = 1, 2, . . .
Dac a in (3.4) si (3.5) nlocuim cu
F
kj
F
kj+1
atunci

j
= a
j
+
_
1
F
kj
F
kj+1
_
(b
j
a
j
) = a
j
+
F
kj1
F
kj+1
j = 1, . . . , k 1

j
= a
j
+
F
kj
F
kj+1
(b
j
a
j
) j = 1, , k 1. (3.12)
Dac a f(
j
) f(
j
) atunci noul interval de incertitudine este [a
j+1
, b
j+1
] = [a
j
,
j
]. Astfel,
prin (3.12) obt inem:
b
j+1
a
j+1
=
F
kj
F
kj+1
(b
j
a
j
),
ceea ce arata reduct ia la ecare iterat ie. Poate usor de observat ca aceast a ecuat ie este
de asemenea valabila pentru f(
j
) > f(
j
). Mai departe, impunem ca lungimea intervalului
nal de incertitudine sa nu depaseasc a o tolerant a dat a > 0, adica b
k
a
k
. Lu and n
considerare
b
k
a
k
=
F
1
F
2
(b
k1
a
k1
) =
F
1
F
2
F
2
F
3

F
k1
F
k
(b
1
a
1
) =
1
F
k
(b
1
a
1
),
avem
F
k

b
1
a
1

. (3.13)
De aceea, av and intervalul init ial [a
1
, b
1
] si marginea superioara putem calcula num arul
Fibonacci F
k
si valoarea k din (3.13). Cautarea are loc pana la iterat ia k . O observat ie
importanta n legatura cu ratele de convergent a ale metodelor studiate este ca odat a ce k
metoda Fibonacci si metoda sect iunii de aur au aceeasi rata de reducere a intervalului de
incertitudine. Considerand F
k
= r
k
atunci din denit ia sirului Fibonacci avem r
2
r +1 = 0
cu radacinile:
r
1
=
1 +

5
2
, r
2
=
1

5
2
.
Solut ia generala a ecuat iei F
k+1
= F
k
+ F
k1
este F
k
= Ar
k
1
+ Br
k
2
. De aceea, din condit iile
init iale F
0
= F
1
= 1 avem A = 1/

5, B = 1/

5 si
F
k
=
1

5
_
_
_
_
1 +

5
2
_
k

_
1

5
2
_
k
_
_
_
.
51 Capitol 3. Metode de optimizare unidimensionala
Cu aceste relat ii deducem ca
lim
k
F
k1
F
k
=

5 1
2
= . (3.14)
De aceea, ambele metode mpart asesc aceeasi rata de convergent a cand k , nsa metoda
lui Fibonacci este optima n clasa metodelor de cautare.
3.3 Metode de interpolare
Metodele de interpolare pentru minimizare unidimensionala sunt o alternativa foarte ecienta
la metoda sect iunii de aur si cea a lui Fibonacci. Cea mai importanta din acest a clas a de
metode aproximeaza funct ia f cu un polinom de ordin doi sau trei, ce are valori identice
cu derivatele funct iei n anumite puncte si n nal, calculeaza valoarea ce minimizeaz a
polinomul.

In cazul general n care funct ia obiectiv prezinta propriet at i analitice bune, cum
ar diferent iabilitatea continua, atunci metodele de interpolare sunt cu mult mai superioare
fat a de metoda sect iunii de aur si cea a lui Fibonacci.
3.3.1 Metode de interpolare patratica
Metoda de interpolare n doua puncte (prima varianta): Fie dou a puncte
1
si

2
. Presupunem cunoscute valorile funct iei f n punctele corespunz atoare f(
1
) si f(
2
)
si derivatele de ordinul I n aceleasi puncte: f

(
1
) si f

(
2
). Construim polinomul de
interpolare de ordinul II:
q() = a
2
+ b + c,
ce satisface urmatoarele condit ii:
q(
1
) = a
2
1
+ b
1
+ c = f(
1
)
q(
2
) = a
2
2
+ b
2
+ c = f(
2
) (3.15)
q

(
1
) = 2a
1
+ b = f

(
1
).
Dac a not am f
1
= f(
1
), f
2
= f(
2
), f

1
= f

(
1
) si f

2
= f(
2
), atunci din (3.15) avem
a =
f
1
f
2
f

1
(
1

2
)
(
1

2
)
2
b = f

1
+ 2
1
f
1
f
2
f

1
(
1

2
)
(
1

2
)
2
.
52 3.3. Metode de interpolare
Mai departe, rezulta ca punctul de minim al polinomului de interpolare este:
=
b
2a
=
1
+
1
2
f

1
(
1

2
)
2

2
f

1
(
1

2
)
=
1

1
2
f

1
(
1

2
)
f

f
1
f
2

2
. (3.16)
Si n nal, obt inem formula de interpolare patratic a:

k+1
=
k

1
2
f

k
(
k

k1
)
f

f
k
f
k1

k1
, (3.17)
unde f
k
= f(
k
), f
k1
= f(
k1
) f

k
= f

(
k
). Algoritmul este foarte simplu: cat timp
k+1
este determinat, se compara cu
k
si
k1
, rezultand o reducere a lungimii intervalului de
incertitudine. Acest proces se repet a pana cand lungimea intervalului scade sub un anumit
prag.
Metoda de interpolare n doua puncte (a doua varianta): Fie dou a puncte
1
si

2
, evaluarile funct iei f n punctele corespunz atoare f(
1
) si f(
2
) si derivatele de ordinul
I n aceleasi puncte f

(
1
) si f

(
2
). Construim polinomul de interpolare
q() = a
2
+ b + c,
ce satisface urmatoarele condit ii:
q(
1
) = a
2
1
+ b
1
+ c = f(
1
)
q

(
1
) = 2a
1
+ b = f

(
1
) (3.18)
q

(
2
) = 2a
2
+ b = f

(
2
).
De aici se obt ine:
=
b
2a
=
1

1
2

2
f

1
f

2
f

1
(3.19)
si formula iterativ a:

k+1
=
k

1
2

k1
f

k
f

k1
f

k
. (3.20)
Teorema urmatoare ilustreaz a rata de convergent a foarte rapid a a acestei metode:
Teorema 3.3.1 Daca f : R R este de trei ori continuu diferent iabila si exista un

astfel
ncat f

) = 0 si f

) ,= 0, atunci sirul
k
generat de iterat ia (3.20) converge la

cu
rata (1 +

5)/2

= 1.618, adica lim


k
|
k+1

|
|
k

|
(1+

5)/2
= cu > 0.
53 Capitol 3. Metode de optimizare unidimensionala
Demonstrat ie: Relat ia (3.19) poate scrisa si prin intermediul formulei de interpolare
Lagrange:
L() =
(
1
)f

2
(
2
)f

1
,
dac a lu am L() = 0. Acum, termenul rezidual al formulei de interpolare Lagrange se
consider a ca ind:
f

() L() =
1
2
f

()(
k
)(
k1
) cu ,
k1
,
k
.
Dac a lu am =
k+1
si observand ca L(
k+1
) = 0, avem:
f

(
k+1
) =
1
2
(
k+1

k
)(
k+1

k1
) cu
k1
,
k
,
k+1
, (3.21)

Inlocuind (3.20) in (3.21) avem:


f

(
k+1
) =
1
2
f

()f

k
f

k1
(
k

k1
)
2
(f

k
f

k1
)
2
. (3.22)
Din teorema valorii medii stim ca:
(f

k
f

k1
)

k
k 1
= f

(
0
) cu
0
[
k1
,
k
], (3.23)
iar drept urmare:
f

i
= f

i
f

) = (
i

)f

(
i
), unde
i
[
i
,

], i = k 1, k, k + 1. (3.24)
Astfel, din ultimele trei ecuat ii rezulta:

k+1

=
1
2
f

()f

(
k
)f

(
k1
)
f

(
k+1
)f

(
0
)
2
(
k

)(
k1

). (3.25)
Dac a not am distant ele de la
i
la punctul optim

prin e
i
= [
i

[, cu i = k 1, k, k, +1
si consider am valorile m
1
, M
1
, m
2
, M
2
si K
1
, K astfel ncat
0 < m
2
[f

()[ M
2
, 0 < m
1
[f

()[ M
1
K
1
= m
2
m
2
1
/(2M
3
1
), K = M
2
M
2
1
/(2m
3
1
).
Atunci:
K
1
e
k
e
k1
e
k+1
Ke
k
e
k1
.
Observand ca f

() si f

() sunt continue n

, avem:

k+1

(
k

)(
k1

)

1
2
f

)
f

)
54 3.3. Metode de interpolare
si obt inem urmatoarea relat ie ntre distant ele pana la punctul de optim:
e
k+1
= Me
k
e
k1
,
unde M = [f

(
1
)/2f

(
2
)[ iar
1

k1
,
k
,

si
2

k1
,
k
. Dac a exist a o precizie
> 0 astfel ncat punctele init iale
0
,
1
(

+ ) si
0
,=
1
, atunci se poate
observa din relat iile anterioare ca sirul
k
va converge catre

. Am demonstrat ca
k
converge la

si ne mai ramane sa demonstram rata de convergent a.



In acest scop not am

i
= Me
i
, y
i
= ln(
i
), i = k 1, k, k + 1, iar conform relat iilor anterioare avem:

k+1
=
k

k1
, y
k+1
= y
k
+ y
k1
. (3.26)
Este evident ca ecuat ia (3.26) reprezinta o secvent a Fibonacci. Ecuat ia caracteristica a
secvent ei Fibonacci si radacinile aferente sunt:
r
2
r 1 = 0, r
1
= (1 +

5)/2 , r
2
= (1

5)/2,
Astfel, secvent a Fibonacci y
k
poate scrisa ca:
y
k
= Ar
k
1
+ Br
k
2
k = 0, 1, . . . ,
unde A si B sunt coecient i ce pot determinat i. Din moment ce progresam cu algoritmul
si k atunci evident y
k
= ln(
k
) At
k
1
, de unde rezulta ca:

k+1

t
1
k

e
(At
k+1
1
)
_
e
(At
k
1
)
_
t
1
= 1
si e
k+1
/e
t
1
k
M
t
1
1
, i.e:
lim
k
[
k+1

[
[
k

[
t
1
= M
t
1
1
si demonstrat ia este completa.
Metoda de interpolare n trei puncte: Aceasta metoda presupune cunoasterea a trei
puncte
i
, i = 1, 2, 3 si de asemenea, evaluarea funct iei f n aceste puncte. Condit iile de
interpolare sunt :
q(
i
) = a
2
i
+ b
i
+ c = f(
i
) = f
i
i = 1, 2, 3. (3.27)
Rezolvand acest sistem avem
a =
(
2

3
)f
1
+ (
3

1
)f
2
+ (
1

2
)f
3
(
1

2
)(
2

3
)(
3

1
)
b =
(
2
2

2
3
)f
1
+ (
2
3

2
1
)f
2
+ (
2
1

2
2
)f
3
(
1

2
)(
2

3
)(
3

1
)
.
55 Capitol 3. Metode de optimizare unidimensionala
De aici rezulta
=
b
2a
=
1
2
(
2
2

2
3
)f
1
+ (
2
3

2
1
)f
2
+ (
2
1

2
2
)f
3
(
2

3
)f
1
+ (
3

1
)f
2
+ (
1

2
)f
3
. (3.28)
=
1
2
(
1
+
2
) +
1
2
(f
1
f
2
)(
2

3
)(
3

1
)
(
2

3
)f
1
+ (
3

1
)f
2
+ (
1

2
)f
3
(3.29)
si formula iterativ a

k+1
=
1
2
(
k
+
k1
) +
1
2
(f
k
f
k1
)(
k1

k2
)(
k2

k
)
(
k1

k2
)f
k
+ (
k2

k
)f
k1
+ (
k

k1
)f
k2
. (3.30)
Metoda interpol arii n trei puncte are urmatorii pasi:
Pas 1. Fie o tolerant a dat a . G aseste un interval de cautare
1
,
2
,
3
astfel ncat sa-l
cont in a pe

; Calculeaza f(
i
), i = 1, 2, 3.
Pas 2. Utilizeaza formula (3.28) pentru a calcula .
Pas 3. Dac a (
1
)(
3
) 0, trecem la Pas 4.; altfel, trecem la Pas 5.
Pas 4. Construim un nou interval de cautare
1
,
2
,
3
utiliz and
1
,
2
,
3
si . Revenim
la Pas 2.
Pas 5. Daca [
2
[ < , ne oprim; altfel, trecem la Pas 4.
Teorema 3.3.2 Fie funct ia f() cel put in de patru ori continuu diferent iabila si

astfel
ncat f(

) = 0 si f

) ,= 0. Atunci sirul
k
generat de (3.30) converge la

cu rata
de ordinul 1.32.
Observam ca metoda celor trei puncte are o rata de convergent a mai mic a dec at cea a
metodelor ce folosesc formula secantei. Explicat ia const an faptul ca metoda celor trei puncte
nu foloseste informat ie dat a de derivatele funct iei f n punctele intervalului de cautare. Cu
alte cuvinte, metoda nu t ine cont de curbura functi ei f.

In general, implementarile avansate
folosesc informat ie de secanta.
3.3.2 Metode de interpolare cubica
Aceste metode aproximeaza funct ia obiectiv f() cu un polinom cubic. Procedura de aprox-
imare implica patru condit ii de interpolare.

In cazul general, interpolarea cubic a are o rat a
56 3.3. Metode de interpolare
de convergent a mai bun a decat interpolarea patratic a, nsa presupune evaluarea derivatelor
funct iei si de aceea este mai costisitoare din punctul de vedere al complexitat ii. Mai pe larg,
e dou a puncte
1
si
2
pentru care cunoastem valorile funct iei obiectiv, f(
1
) si f(
2
) si
de asemenea, derivatele f

(
1
) si f

(
2
). Construim polinomul de interpolare cubic a:
p() = c
1
(
1
)
3
+ c
2
(
1
)
2
+ c
3
(
1
) + c
4
, (3.31)
unde c
i
, i = 1, 2, 3, 4, sunt coecient ii determinat i din urmatoarele condit ii:
p(
1
) = c
4
= f(
1
)
p(
2
) = c
1
(
2

1
)
3
+ c
2
(
2

1
)
2
+ c
3
(
2

1
) + c
4
= f(
2
)
p

(
1
) = c
3
= f

(
1
)
p

(
2
) = 3c
1
(
2

1
)
2
+ 2c
2
(
2

1
) + c
3
= f

(
2
).
Dupa cum stim, condit iile de optimalitate suciente sunt
p

() = 3c
1
(
1
)
2
+ 2c
2
(
1
) + c
3
= 0 (3.32)
si
p

() = 6c
1
(
1
) + 2c
2
> 0. (3.33)
Rezolvand (3.32) avem
=
1
+
c
2

_
c
2
2
3c
1
c
3
3c
1
, dac a c
1
,= 0 (3.34)
=
1

c
3
2c
2
, dac a c
1
= 0. (3.35)
Pentru a satisface (3.33) consider am radacina corespunz atoare semnului + din (3.34), care
mpreun a cu (3.35) conduce la:

1
=
c
2
+
_
c
2
2
3c
1
c
3
3c
1
=
c
3
c
2
+

c
2
3c
1
c
3
. (3.36)

In cazul n care c
1
= 0, (3.36) se transforma n (3.35). Atunci valoarea minim a a lui p()
este
=
1

c
3
c
2
+
_
c
2
2
3c
1
c
3
, (3.37)
exprimat a n funct ie de c
1
, c
2
si c
3
. Problema se reduce la exprimarea sa n funct ie de f(
1
),
f(
2
), f

(
2
) si f

(
2
). Pentru aceasta not am
s = 3
f(
2
) f(
1
)

1
, z = s f

(
1
) f

(
2
), w
2
= z
2
f

(
1
)f

(
2
).
Din condit iile de interpolare avem
s = 3[c
1
(
2

1
)
2
+ c
2
(
2

1
) + c
3
]
57 Capitol 3. Metode de optimizare unidimensionala
z = c
2
(
2

1
) + c
3
w
2
= (
2

1
)
2
(c
2
2
3c
1
c
3
).
Deci rezulta
(
2

1
)c
2
= z c
3
,

c
2
3c
1
c
3
=
w

1
si
c
2
+
_
c
2
2
3c
1
c
3
=
z + w c
3

1
. (3.38)

Ins a c
3
= f

() si substituind (3.4) n (3.37) avem relat ia



1
=
(
2

1
)f

(
1
)
z + w f

(
1
)
,
ce poate rescrisa n urmatoarea forma:

1
=
(
2

1
)f

(
1
)f

(
2
)
(z + w f

(
1
))f

(
2
)
=
(
2

1
)(z
2
w
2
)
f

(
2
)(z + w) (z
2
w
2
)
=
(
2

1
)(w z)
f

(
2
) z + w
.
Aceasta relat ie este lipsit a de utilitate pentru calcularea lui deoarece numitorul este foarte
mic sau chiar se poate anula. De aceea consider am o forma alternativa favorabila:

1
=
(
2

1
)f

(
1
)
z + w f

(
1
)
=
(
2

1
)(w z)
f

(
2
) z + w
(3.39)
=
(
2

1
)(f

(
1
) + w z)
f

(
2
) f

(
1
) + 2w
= (
2

1
)
_
1
f

(
2
) + z + w
f

(
2
) f

(
1
) + 2w
_
,
sau
=
1
+ (
2

1
)
w f

(
1
) z
f

(
2
) f

(
1
) + 2w
. (3.40)

In (3.39) sau (3.40) numitorul f

(
2
) f

(
1
) +2w ,= 0. De fapt, din moment ce f

(
1
) < 0
si f

(
2
) > 0, atunci w
2
= z
2
f

(
1
)f

(
2
) > 0 si dac a lu am w > 0, atunci f

(
2
)f

(
1
)+
2w > 0. Se poate ar ata de asemenea ca aceasta metoda produce un sir
k
ce converge cu
rat a de ordinul 2 la

, adica lim
k
|
k+1

|
|
k

|
2
= cu > 0.
58 3.3. Metode de interpolare
Capitol 4
Condit ii de optimalitate pentru
(UNLP)
Multe probleme din inginerie, economie sau zic a se formuleaa ca probleme de optimizare
far a constrangeri. Astfel de probleme apar n gasirea punctului de echilibru a unui sistem prin
minimizarea energiei acestuia, potrivirea unei funct ii la un set de date folosind cele mai mici
patrate sau determinarea parametrilor unei distribut ii de probabilitate corespunz atoare unui
set de date. Probleme de optimizare far a constrangeri apar de asemenea cand constr angerile
sunt eliminate sau mutate n cost prin folosirea unei funct ii de penalitate adecvat a, dup a
cum vom vedea n partea a treia a acestei lucr ari.

In concluzie, n aceast a parte a cartii ne
concentr am analiza asupra problemelor de optimizare neconstr ans a de forma:
(UNLP) : min
xR
n
f(x). (4.1)

In acest capitol discutam condit iile necesare si suciente de optimalitate pentru problema
generala (UNLP) si apoi particulariz am la cazul problemelor convexe, adica atunci cand
funct ia obiectiv f este convexa. Pentru o expunere mai usoara presupunem c a funct ia obiec-
tiv f : R
n


R are domeniul efectiv domf R
n
mult ime deschisa. Dupa cum am precizat
si n capitolele anterioare, n aceasta lucrare consider am extensia funct iei f la ntreg spat iul
R
n
atribuindu-i valoarea +n punctele din afara domeniului efectiv. De aceea, caut am
punctele de minim ce fac parte din mult imea deschisa domf. Putem avea domf = R
n
,
dar de cele mai multe ori nu este cazul, la fel ca n urmatorul exemplu unde consider am
domf = (0, ) si presupunem ca n afara mult imii domf funct ia ia valoarea +:
min
xR
1
x
+ x,
Reamintim ca un punct x

se numeste punct de minim global pentru problema (UNLP) de


mai sus dac a f(x

) f(x) pentru orice x domf. Mai, mult, f

= f(x

) se numeste
59
60
valoarea optima a problemei de optimizare (UNLP). De asemenea, x

este punct de minim


local dac a exist a un > 0 astfel ncat f(x

) f(x) pentru orice x domf cu |x x

| .
Exemplu 4.0.3

In optimizarea fara constrangeri o funct ie obiectiv des utilizata pentru a
testa performant a algoritmilor este funct ia Rosenbrock. Aceasta este o funct ie neconvexa
avand urmatoarea forma:
f(x) = (1 x
1
)
2
+ 100(x
2
x
2
1
)
2
.
Se poate observa usor ca punctul de minim global este x

= [1 1]
T
unde funct ia ia valoarea
optima f

= f(1, 1) = 0. Acest punct de minim se gaseste ntr-o vale lunga dar ngusta (vezi
Fig. 4.1) ceea ce face dicila determinarea acestui punct de minim cu algoritmi numerici de
optimizare.
Figura 4.1: Funct ia Rosenbrock.
Exemplu 4.0.4 Consideram un sistem neliniar compus din 2 resorturi (Fig. 4.2). Dislo-
carea x
1
si x
2
sub o anumita greutate aplicata poate obt inuta prin minimizarea energiei
potent iale data de expresia:
f(x
1
, x
2
) =
1
2
k
1
E
2
1
+
1
2
k
2
E
2
2
F
1
x
1
F
2
x
2
,
unde extensiile resorturilor ca funct ie de dislocarile lor au urmatoarele expresii:
E
1
=
_
(x
1
+ 10)
2
+ (x
2
10)
2
10

2
E
2
=
_
(x
1
10)
2
+ (x
2
10)
2
10

2.
Problema se reduce la a gasi (x
1
, x
2
) ce minimizeaza
min
xR
2
f(x
1
, x
2
).
Folosind technici numerice de optimizare ce vor discutate n capitolele urmatoare, obt inem
c a pentru k
1
= k
2
= 1 si F
1
= 0, F
2
= 2, solut ia optima este x

1
= 0 si x

2
= 2.55.
61 Capitol 4. Condit ii de optimalitate pentru (UNLP)
Figura 4.2: Un sistem neliniar cu 2 resorturi.
4.1 Condit ii de ordinul I pentru (UNLP)
0 1 2 3 4
1
1.5
2
2.5
3
3.5
4
4.5
5
d
f
x
1
x
2
Figura 4.3: Mult imile nivel si o direct ie de descrestere pentru funct ia f(x) = x
3
1
2x
1
x
2
2
.
Mai ntai denim not iunea de direct ie de descrestere. O direct ie d R
n
se numeste
direct ie de descrestere pentru funct ia f (
1
n punctul x domf dac a
f(x)
T
d < 0.
De exemplu, o direct ie de descrestere este dat a de urmatoarea expresie: d = Bf(x), unde
matricea B este pozitiv denita, adica B0 (vezi Fig. 4.3).
Avem urmatoarea interpretare: dac a d este direct ie de descrestere n x domf atunci
funct ia obiectiv descreste n vecin atatea lui x.

Intr-adev ar, mult imea domf ind deschisa,
putem gasi un t > 0 sucient de mic astfel ncat oricare ar [0, t] avem x +d domf
si f(x+d)
T
d < 0 (datorit a continuitat ii lui f() ntr-o vecin atate a lui x). Din teorema
62 4.1. Condit ii de ordinul I pentru (UNLP)
lui Taylor, exist a un [0, t] astfel ncat
f(x + td) = f(x) + t f(x

+ d)
T
d
. .
<0
< f(x).
Teorema 4.1.1 (Condit ii necesare de ordinul I) Fie f o funct ie diferent iabila cu gra-
dientul continuu (i.e. f (
1
) si x

domf un punct de minim local al problemei de


optimizare (UNLP). Atunci gradientul funct iei satisface relat ia:
f(x

) = 0. (4.2)
Demonstrat ie: Presupunem prin contradict ie ca f(x

) ,= 0. Atunci putem ar ata ca


d = f(x

) este o direct ie de descrestere, i.e. funct ia obiectiv poate lua o valoare mai
mic a n jurul lui x

.

Intr-adev ar, putem gasi un t > 0 sucient de mic astfel ncat oricare ar
[0, t] avem f(x

+ d)
T
d = f(x

f(x

))
T
f(x

) < 0. Mai mult, exist a un


[0, t] ce satisface:
f(x

tf(x

)) = f(x

) tf(x

+ f(x

))
T
f(x

) < f(x

).
Aceasta este o contradict ie cu ipoteza ca x

este un punct de minim local.


Figura 4.4: Exemple de puncte stat ionare.
Orice punct x

domf ce satisface condit iile necesare de ordinul ntai f(x

) = 0 se numeste
punct stat ionar al problemei de optimizare far a constrangeri (UNLP).

In Fig. 4.4 distingem
mai multe tipuri de puncte stat ionare: puncte de minim, puncte de maxim si puncte sa.
Din condit iile necesare de ordinul I concluzionam ca pentru a gasi punctele stat ionare ale
unei probleme (UNLP) trebuie sa rezolv am un sistem neliniar f(x) = 0 de n ecuat ii cu
n necunoscute. Acest sistem, va rezolvat n capitolele urmatoare cu metode numerice
(algoritmi iterativi).
63 Capitol 4. Condit ii de optimalitate pentru (UNLP)
Exemplu 4.1.2 Consideram problema de optimizare (vezi Fig. 4.3)
min
xR
2
f(x) (= x
3
1
2x
1
x
2
2
).
Pentru a gasi punctele stat ionare rezolvam sistemul neliniar de doua ecuat ii f(x) = 0, i.e.:
3x
2
1
2x
2
2
= 0 si 4x
1
x
2
= 0.
Singura solut ie a acestui sistem este x

1
= 0 si x

2
= 0. Solut ia x

= [0 0]
T
nu este punct
de minim sau maxim, este punct sa pentru funct ia f(x) = x
3
1
2x
1
x
2
2
.

Intr-adevar, daca
luam x
1
= x
2
observam ca funct ia obiectiv evaluata n f(x
1
, x
1
) = x
3
1
poate lua atat valori
pozitive cat si valori negative n orice vecinatate a lui 0.
4.2 Condit ii de ordinul II pentru (UNLP)
Pentru a ar ata ca un punct stat ionar este punct de extrem (minm sau maxim local) trebuie sa
folosim informat ie despre Hesiana funct iei obiectiv.

In cele ce urmeaza dam condit ii necesare
si suciente pentru caracterizarea punctelor de minim local utilizand Hesiana.
Teorema 4.2.1 (Condit ii necesare de ordinul II) Fie f o funct ie diferent iabila de doua
ori cu Hesiana continua (i.e. f (
2
) si x

domf un punct de minim local al problemei


(UNLP). Atunci Hesiana n x

este pozitiv semidenita, i.e.:

2
f(x

)0. (4.3)
Demonstrat ie: Dac a condit ia (4.3) nu este satisfacuta atunci exist a o direct ie d R
n
astfel ncat d
T

2
f(x

)d < 0. Atunci, datorita continuitat ii lui


2
f() n jurul lui x

putem
alege un parametru sucient de mic t > 0 astfel ncat oricare ar [0, t] urmatoarea
relat ie are loc:
d
T

2
f(x

+ d)d < 0.
Din teorema lui Taylor rezulta ca exist a un [0, t] astfel ncat:
f(x

+ td) = f(x

) + tf(x

)
T
d
. .
=0
+
1
2
t
2
d
T

2
f(x

+ d)d
. .
<0
< f(x

),
ceea ce intr a n contradict ie cu faptul ca x

este un punct de minim local.


Condit ia necesara de ordinul II (4.3) nu este sucienta pentru ca un punct stat ionar x

sa e
punct de minim. Acest lucru este ilustrat de funct ia f(x) = x
3
pentru care punctul stat ionar
x

= 0 satisface condit iile necesare de ordinul doi dar nu este punct de minim/maxim local.
Observam ca x

= 0 este punct sa.



In sect iunea urmatoare enunt am condit iile suciente de
optimalitate.
64 4.3. Condit ii de optimalitate pentru probleme convexe
Teorema 4.2.2 (Condit ii suciente de ordinul II) Fie f o funct ie diferent iabila de doua
ori cu Hesiana continua (i.e. f (
2
) si x

domf un punct stat ionar (i.e. f(x

) = 0)
astfel ncat Hesiana este pozitiv denita (i.e.
2
f(x

)0). Atunci x

este un punct strict


de minim local al problemei (UNLP).
Demonstrat ie: Fie
min
valoarea proprie minima a matricei
2
f(x

). Evident,
min
> 0
din moment ce este satisfacuta relat ia
2
f(x

)0 si mai mult,
d
T

2
f(x

)d
min
|d|
2
d R
n
.
Din aproximarea Taylor avem:
f(x

+ d) f(x

) = f(x

)
T
d +
1
2
d
T

2
f(x

)d + 1(|d|
2
)


min
2
|d|
2
+1(|d|
2
) = (

min
2
+
1(|d|
2
)
|d|
2
)|d|
2
.
Stiind ca
min
> 0 atunci exist a > 0 si > 0 astfel ncat

min
2
+
R(d
2
)
d
2
pentru orice
|d| , ceea ce conduce la concluzia ca x

este un punct strict de minim local.


Exemplu 4.2.3 Consideram urmatoarea problema de optimizare
min
xR
2
f(x) (= x
3
1
x
2
1
x
2
+ 2x
2
2
).
Punctele stat ionare sunt solut iile sistemului neliniar f(x) = 0, i.e.:
3x
2
1
2x
1
x
2
= 0 si x
2
1
+ 4x
2
= 0.
Acest sistem are doua solutii [0 0]
T
si [6 9]
T
. Hesiana are expresia:

2
f(x) =
_
6x
1
2x
2
2x
1
2x
1
4
_
.
Aceasta matrice este pozitiv semidenita n [0 0]
T
si indenita n [6 9]
T
.

In concluzie, punctul
stat ionar [6 9]
T
nu este punct de extrem (minim sau maximm local).
4.3 Condit ii de optimalitate pentru probleme convexe

In acest a sect iune discutam condit iile suciente de optimalitaten cazul convex, adica funct ia
obiectiv f n problema de optimizare (UNLP) este convexa. Primul rezultat se refer a la
urmatoarea problem a de optimizare constrans a:
65 Capitol 4. Condit ii de optimalitate pentru (UNLP)
Teorema 4.3.1 (Condit ii de optimalitate generale) Fie X o mult ime convexa si f
(
1
(nu neaparat convexa). Pentru problema de optimizare constransa
min
xX
f(x)
urmatoarele condit ii sunt satisfacute:
(i) Daca x

este minim local atunci f(x

)
T
(x x

) 0 x X.
(ii) Daca f este funct ie convexa atunci x

este punct de minim daca si numai daca


f(x

)
T
(x x

) 0 x X.
Demonstrat ie: (i) Presupunem ca exist a un y X astfel ncat
f(x

)
T
(y x

) < 0.
Din teorema lui Taylor rezulta ca pentru un t > 0 exist a un [0, 1] astfel ncat
f(x

+ t(y x

)) = f(x

) + tf(x

+ t(y x

))
T
(y x

).
Din continuitatea lui f, alegand un t sucient de mic avem f(x

+t(yx

))
T
(yx

) < 0
si de aceea f(x

+ t(y x

)) < f(x

) care este n contradict ie cu faptul ca x

este minim
local al problemei de optimizare cu constrangeri din enunt ul teoremei.
(ii) Dac a f este convexa, utiliz and condit iile de convexitate de ordinul ntai avem: f(x)
f(x

) + f(x

)
T
(x x

) pentru orice x X.

Intrucat f(x

)(x x

) 0 rezulta ca
f(x) f(x

) pentru orice x X, adica x

este punct de minim global.


Teorema 4.3.2 Pentru o problema de optimizare convexa min
xX
f(x) (adica X mult ime
convexa si f funct ie convexa), orice minim local este de asemenea minim global.
Demonstrat ie: Fie x

un minim local pentru problema de optimizare convexa de mai


sus. Ar at am ca pentru orice punct y X dat avem f(y) f(x

).

Intr-adev ar, ntrucat x

este minim local, exist a o vecin atate A a lui x

astfel ncat pentru orice x X A avem


f( x) f(x

). Considerand segmentul cu capetele n x

si y. Acest segment este cont inut n


X datorita propriet at ii de convexitate a lui X. Mai departe, alegem un x pe acest segment
n vecin atatea A, nsa diferit de x

, adica alegem x = x

+ t(y x

), unde t (0, 1) astfel


ncat x X A. Datorita optimalitat ii locale, avem f(x

) f( x), si datorita convexitat ii


lui f avem
f( x) = f(x

+ t(y x

)) f(x

) + t(f(y) f(x

)).
Rezult a ca t(f(y) f(x

)) 0, implicand f(y) f(x

) 0 ceea ce conduce la concluzia ca


x

este punct de minim global.


66 4.4. Analiza perturbat iilor
Teorema 4.3.3 (Condit ii suciente de ordinul ntai pentru cazul convex) Fie f
(
1
o funct ie convexa. Daca x

este punct stat ionar al lui f (i.e. f(x

) = 0), atunci x

este punct de minim global al problemei de optimizare convexa fara constrangeri min
xR
n
f(x).
Demonstrat ie:

Intrucat f este convexa avem
f(x) f(x

) +f(x

)
. .
=0
(x x

) = f(x

) x R
n
ceea ce arata ca x

este minim global.

In concluzie, pentru o problem a de optimizare neconstr ans a min


xR
n
f(x), unde f (
1
, o condit ie
necesara pentru ca punctul x

sa e punct de extrem local este


f(x

) = 0. (4.4)

In general, dac a funct ia obiectiv nu este convexa, se rezolv a sistemul neliniar de ecuat ii
f(x

) = 0 si se verica dac a solut ia este punct de minim local sau nu, folosind condit iile
de optimalitate suciente de ordinul doi. Pentru problemele convexe neconstr anse, adica f
este convexa, o condit ie necesara si sucienta pentru ca punctul x

sa e minim global este


dat a de f(x

) = 0.
4.4 Analiza perturbat iilor

In domeniile numerice ale matematicii nu exist a posibilitatea de a evalua o funct ie cu o


precizie mai mare decat cea oferita de masinile de calcul. De aceea, de cele mai multe ori
se calculeaza doar solut ii pentru probleme ale caror date sunt perturbate, iar interesul se
ndreapt a catre minimele stabile la aparit ia perturbat iilor. Acesta este cazul punctelor de
minim strict locale ce satisfac condit iile suciente de ordinul doi.
Consideram funct ii obiectiv de forma f(x, a) ce depind nu doar de variabila de decizie x R
n
dar si de un parametru de perturbat ie a R
m
. Suntem interesat i de familia parametric a de
probleme min
xR
n
f(x, a) ce produce minime de forma x

(a) ce depind de a.
Teorema 4.4.1 (Stabilitatea solut iilor parametrice)
Presupunem ca funct ia f : R
n
R
m


R este de clasa (
2
si consideram minimizarea funct iei
f(, a) pentru o valoare xata a parametrului a R
m
. Daca punctul de minim corespunzator
x satisface condit iile suciente de ordinul doi, i.e.
x
f( x, a) = 0 si
2
x
f( x, a)0, atunci
exista o vecinatate A R
m
n jurul lui a astfel ncat funct ia parametrica de minim x

(a)
67 Capitol 4. Condit ii de optimalitate pentru (UNLP)
este bine denita pentru orice a A, este diferent iabila pe A si x

( a) = x. Derivata sa n
punctul a este data de
(x

( a))
a
=
(
x
f( x, a))
a
_

2
x
f( x, a)
_
1
. (4.5)
Mai mult, ecare x

(a) cu a A satisface condit iile suciente de ordinul doi si deci este un


punct de minim strict local.
Demonstrat ie: Existent a funct iei diferent iabile x

: A R
n
rezulta din teorema funct iilor
implicite (data n Apendix) aplicat a condit iei de stat ionaritate
x
f(x

( a), a) = 0. Pentru
derivarea ecuat iei (4.5) se folosesc regulile standard de diferent iere:
0 =
(
x
f(x

(a), a))
a
=
x

(a)
a

(
x
f(x

(a), a))
x
. .
=
2
x
f
+
(
x
f(x

(a), a))
a
Pentru a ar ata ca punctele de minim x

(a) satisfac condit iile suciente de ordinul doi, se


observa ca Hessiana este continua si se t ine seama de faptul ca
2
x
f( x, a)0.
O analiza extins a a senzitivit at ii solut iilor la perturbat ii si o prezentare detalit a a teoriei
optimizarii parametrice se poate gasi n [5].
68 4.4. Analiza perturbat iilor
Capitol 5
Convergent a metodelor de descrestere

In Capitolul 4 s-a demonstrat ca pentru aarea unui punct de minim local/global core-
spunzator unei probleme de optimizare neconstr ans a
(UNLP) : f

= min
xR
n
f(x), (5.1)
este nevoie de rezolvarea unui sistem neliniar de n ecuat ii cu n necunoscute:
f(x) = 0.

In unele cazuri acest sistem poate rezolvat analitic:


Exemplu 5.0.2 (QP neconstrans) Consideram urmatoarea problema de tip QP necon-
stransa:
min
xR
n
f(x)
_
=
1
2
x
T
Qx q
T
x
_
, (5.2)
unde matricea Q este inversabila (de exemplu daca Q0 atunci funct ia obiectiv este convexa
si deci problema de optimizare este convexa). Din condit ia 0 = f(x) = Qx q, unicul
punct stationar este x

= Q
1
q. Daca Q0, atunci x

= Q
1
q este punct de minim global
si valoarea optim a a problemei (5.2) este data de urmatoarea expresie:
f

= min
xR
n
1
2
x
T
Qx q
T
x =
1
2
q
T
Q
1
q.
Cu toate acestea, n majoritatea cazurilor f(x) = 0 este un sistem de ecuat ii neliniare ce
nu poate rezolvat analitic, ci este nevoie de metode iterative pentru rezolvarea lui. Cea mai
mare parte a acestei lucr ari este dedicata prezentarii si analizei diferit ilor algoritmi pentru
69
70 5.1. Metode numerice de optimizare
rezolvarea problemelor de optimizare (UNLP) sau a sistemului neliniar f(x) = 0. Tot i
algoritmi prezentat i n aceasta lucrare sunt algoritmi iterativi. Prin iterativ ntelegem ca
acesti algoritmi genereaz a un sir de puncte, ecare punct ind calculat pe baza punctelor
gasite anterior. De asemenea, majoritatea algoritmilor sunt de descrestere, adica n ecare
punct nou generat de catre algoritm valoarea funct iei obiectiv este mai mic a dec at n punctul
generat anterior.

In cele mai multe cazuri, vom ar ata ca sirul de puncte generate n acest
mod de catre algoritm converge ntr-un numar nit sau innit de pasi la o solut ie a problemei
originale.
Un algoritm iterativ porneste de la un punct init ial. Dac a pentru orice punct init ial putem
garanta ca algoritmul produce un sir de puncte convergente la o solut ie, atunci pentru acel
algoritm spunem ca este convergent global.

In multe situat ii, algoritmii dezvoltat i nu pot
garanta convergent a globala si numai init ializat i n apropierea unui punct de optim vor
produce un sir de puncte convergente la acel punct de optim. Atunci spunem ca algoritmul
este convergent local.

In general, convergent a algoritmilor de optimizare poate tratat a
printr-o analiza a unei teorii generale a algoritmilor dezvoltat a n anii 1960 de Zangwill.
Vom prezenta aceasta teorie n cele ce urmeaza.
5.1 Metode numerice de optimizare
Consideram problema de optimizare far a constrangeri (5.1). Exista diferite metode iterative
pentru rezolvarea unei astfel de probleme, iar n capitolele urmatoare vom discuta cele mai
importante dintre ele. Presupunem ca o problem a de optimizare apart ine unei anumite clase
de probleme T.

In general, o metoda numeric a este dezvoltat a n scopul rezolv arii diferitelor
probleme ce mp artasesc caracteristici similare (e.g. continuitate, convexitate, etc). Datele
cunoscute din structura problemei se regasesc sub numele de model (i.e. formularea prob-
lemei, funct iile ce descriu problema, etc). Pentru rezolvarea problemei, o metoda numeric a
va trebui sa colecteze informat ia specica, iar procesul de colectare a datelor se realizeaz a
cu ajutorul unui oracol (i.e. unitate de calcul ce returneaza date sub forma unor raspunsuri
la ntrebari succesive din partea metodei).

In concluzie, metoda numeric a rezolv a prob-
lema prin colectarea datelor si manipularea raspunsurilor oracolului. Exist a diferite tipuri
de oracole:
0. oracole de ordinul zero O
0
ce furnizeaz a informat ie bazata doar pe evaluarea funct iei
obiectiv, i.e. f(x)
1. oracole de ordinul ntai O
1
ce furnizeaz a informat ie bazata pe evaluarea funct iei si
gradientului sau, i.e. f(x) si f(x)
2. oracole de ordinul doi O
2
ce furnizeaz a informat ie bazata pe evaluarea funct iei, gradi-
entului si Hessianei, i.e. f(x), f(x) si
2
f(x).
71 Capitol 5. Convergent a metodelor de descrestere
Ecient a unei metode numerice const a n efortul numeric necesar metodei pentru rezolvarea
unei anumite clase de probleme. Rezolvarea unei probleme, n unele cazuri, const a n aarea
unei solut ii exacte, nsan cele mai multe dintre cazuri este posibil a doar aproximarea solut iei.
De aceea, pentru rezolvare este sucienta aarea unei solut ii aproximative cu o acuratet e
prestabilita .

In general, aceasta acuratet e reprezinta de asemenea criteriul de oprire pentru
metoda numeric a aleas a. Pentru cazul particular al problemelor de optimizare neconstr anse
(UNLP), adica (5.1), criteriul de oprire n general utilizat este urmatorul:
|f(x)| .
Pe l ang a acest criteriu, se mai foloseste si criteriul referitor la apropierea valorii funct iei de
minimizat fat a de valoarea sa optima:
[f(x) f

[ .
Anumite implementari utilizeaz a si alte criterii de oprire a iterat iilor, cum ar de exemplu
distant a dintre estimat iile variabilelor:
|x
k+1
x
k
| .
Schema generala a unui algoritm numeric de optimizare iterativ const a n urmatorii pasi:
O metoda generica de optimizare numerica:
1. se ncepe cu un punct init ial dat x
0
, acuratet ea > 0 si contorul k = 0
2. la pasul k not am cu J
k
mult imea ce cont ine toata informat ia acumulata de la oracol
pana la iterat ia k
2.1 se apeleaza oracolul O n punctul x
k
2.2 se actualizeaza informat ia J
k+1
= J
k
O(x
k
)
2.3 se aplica regulile metodei numerice folosind ultimele informat ii J
k+1
pentru cal-
culul urmatorului punct x
k+1
3. se verica criteriul de oprire; dac a criteriul de oprire nu este satisf acut, se repet a pas 2.
Complexitatea unei metode numerice poate exprimat a n urmatoarele forme:
Complexitate analitica, dat a de numarul total de apeluri ale oracolului,
Complexitate aritmetica, dat a de numarul total de operat ii aritmetice.
72 5.1. Metode numerice de optimizare
Rata de convergent a se refer a la viteza cu care sirul x
k
se apropie de solut ie x

. Ordinul de
convergent a este cel mai mare numar pozitiv q ce satisface urmatoarea relat ie:
0 lim
k
|x
k+1
x

|
|x
k
x

|
q
< ,
unde precizam ca limita superioara a unui sir z
k
sup lim este denit a de:
lim
k
z
k
= lim
n
y
n
, unde y
n
= sup
kn
z
k
.
Presupun and ca limita sirului x
k
exist a, atunci q indica comportamentul sirului. C and q este
mare, atunci rata de convergent a este mare, deoarece distant a pana la x

este redus a cu q
zecimale ntr-un singur pas:
|x
k+1
x

| |x
k
x

|
q
.
Convergent a liniara: dac a exist a (0, 1) si q = 1 astfel ncat
|x
k+1
x

| |x
k
x

|
si deci |x
k
x

| c
k
. De exemplu sirul x
k
=
k
, unde (0, 1), converge liniar la
x

= 0.
Convergent a superliniara: dac a lim
k
|x
k+1
x

|
|x
k
x

|
= 0, aici de asemenea q = 1, sau echivalent
|x
k+1
x

|
k
|x
k
x

| cu
k
0.
De exemplu sirul x
k
=
1
k!
converge superliniar la x

= 0, ntrucat
x
k+1
x
k
=
1
k+1
.
Convergent a patratica: dac a lim
k
|x
k+1
x

|
|x
k
x

|
2
= , unde (0, ) si q = 2, sau echivalent
|x
k+1
x

| |x
k
x

|
2
.
De exemplu sirul x
k
=
1
2
2
k
converge patratic la x

= 0, deoarece
x
k+1
(x
k
)
2
=
2
2
k+1
(2
2
k
)
2
= 1 < .
For k = 6, x
k
=
1
2
64
0, de aceea n practic a, convergent a la acuratet ea masinii de calcul se
realizeaz a dup a aproximativ 6 iterat ii.

Intalnim adesea si convergent a subliniara denita astfel:


|x
k
x

|

k
q
,
unde q > 0.
73 Capitol 5. Convergent a metodelor de descrestere
R-convergent a: Dac a sirul de norme |x
k
x

| este m arginit superior de sirul y


k
0,
adica |x
k
x

| y
k
si dac a y
k
converge cu o rata dat a, i.e. liniar a, superliniara sau
patratic a, atunci x
k
converge R-liniar, R-superliniar, sau R-patratic la x

. Aici, R indic a
root, deoarece convergent a R-liniar a poate de asemenea denita prin criteriul radacinii
lim
k
k
_
|x
k
x

| < 1.
Exemplu 5.1.1 Consideram sirul de numere reale convergent la zero:
x
k
=
_
1
2
k
daca k este par
0 altfel.
Acest sir are o convergent a R-liniara, dar nu regulata ca a unui sir ce converge liniar.
Remarca 5.1.2 Cele trei convergent e si ratele de R-convergent a corespunzatoare satisfac
anumite relat ii ntre ele.

In continuare, X Y are semnicat ia: daca sirul converge cu
rata X, atunci aceasta implica ca sirul de asemenea converge cu rata Y .
patratic superliniar liniar

R patratic R superliniar R liniar
Se observa ca rata patratica asigura cea mai rapida convergent a.
5.2 Convergent a metodelor numerice
Considerand spat iul metric (X, ), o metoda numeric a poate privit a ca o aplicat ie punct-
mult ime M : X 2
X
, denita de x
k+1
M(x
k
). Modul cum se alege x
k+1
M(x
k
)
este dat de metoda dezvoltat a. Cu toate acestea, o metoda numeric a nu este un proces
aleator deoarece aceasta genereaz a acelasi sir x
k
cand se porneste din acelasi punct init ial
x
0
. Denit ia metodei n aceasta manier a ofera posibilitatea analizarii ei cu instrumente
matematice mai laborioase.
Exemplu 5.2.1 Consideram urmatoarea aplicat ie punct-mult ime
x
k+1

_

[ x
k
[
n
,
[ x
k
[
n
_
,
pentru care o instant a particulara este denita de un punct init ial x
0
si iterat ia
x
k+1
=
[ x
k
[
n
.
74 5.3. Metode de descrestere
Denit ia 5.2.2 Fie spat iul metric (X, ), o submult ime S X si o metoda descrisa de
aplicat ia punct-mult ime M : X 2
X
. Denim funct ia descrescatoare : X R pentru
perechea (S, M), o funct ie ce satisface urmatoarele condit ii:
(i) pentru orice x S si y M(x) avem (y) (x)
(ii) pentru orice x , S si y M(x) avem (y) < (x).
Exemplu 5.2.3 Fie problema de optimizare min
xX
f(x), unde X este mult ime convexa si f
este diferent iabila. Denim S = x

R
n
: f(x

), x x

0 x X mult imea
punctelor stat ionare (adica mult imea tuturor solut iilor posibile minime locale, maxime
locale, puncte sa). Se observa de asemenea ca n general alegem = f, adica metoda alege
x
k+1
astfel ncat f(x
k+1
) f(x
k
).
Denit ia 5.2.4 O aplicat ie punct-mult ime M : X 2
X
este nchisa n punctul x
0
daca
pentru orice doua siruri x
k
x
0
si y
k
y
0
cu y
k
M(x
k
), avem y
0
M(x
0
). Aplicat ia M
este nchisa daca este nchisa n toate punctele din X.
Teorema 5.2.5 (Teorema de convergent a generala) Fie M o metoda numerica pe spat iul
metric (X, ), sirul x
k+1
M(x
k
), iar S mult imea solut iilor. Presupunem urmatoarele
condit ii satisfacute:
(i) sirul x
k
se aa ntr-o mult ime compacta
(ii) M este o aplicat ie punct-mult ime nchisa pe XS
(iii) exista o funct ie continua decrescatoare pentru perechea (M, S).
Atunci toate punctele limita ale sirului x
k
apart in mult imii S.
5.3 Metode de descrestere

In continuare, consider am o metoda iterativ a de optimizare de forma:


x
k+1
= x
k
+
k
d
k
,
unde presupunem ca d
k
este o direct ie de descrestere pentru f n x
k
, iar
k
(0, 1] este
lungimea pasului (vezi Fig. 5.1). Precizam ca dac a d
k
este o direct ie de descrestere pentru
f n x
k
atunci exist a
k
> 0 sucient de mic astfel ncat f(x
k+1
) < f(x
k
).

In cele ce urmeaza vom analiza felul cum putem alege pasul


k
si direct ia de descrestere d
k
astfel ncat metoda respectiv a sa produc a un sir de puncte convergente la un punct stat ionar
al problemei (UNLP).
75 Capitol 5. Convergent a metodelor de descrestere
x
1
x
2
x
x+ d
f(x)
d
Figura 5.1: Metoda direct iilor de descrestere.
5.3.1 Strategii de alegere a lungimii pasului
Prezentam n aceasta sect iune cele mai des ntalnite proceduri de alegere a lungimii pasului

k
(0, 1]. Ideea de baz a const a n alegerea adecvat a a pasului
k
astfel ncat sa garantam
descrestere sucienta n funct ia obiectiv, adica f(x
k+1
) < f(x
k
), si n acelasi timp sa si
facem avans sensibil catre solut ia problemei, adica lim
k
x
k
= x

.

In calcularea lungimii
pasului trebuie sa facem un compromis ntre o reducere substant iala a funct iei obiectiv f si
calculul numeric necesar determinarii pasului.

In cazul ideal alegem lungimea pasului dup a urmatoarea relat ie:

k
= arg min
01
() (= f(x
k
+ d
k
)).
Dupa cum am v azut, exist a diferite metode eciente pentru determinarea unui punct de
optim al unei probleme de optimizare unidimensionala.

In cele ce urmeaza numim aceast a
procedur a metoda ideala de alegere a lungimii pasului.
Cu toate acestea, n multe situat ii problema de optimizare unidimensionala corespunz atoare
alegerii ideale a lungimii pasului este foarte dicil de rezolvat. De aceea, alte modalit at i
de alegere a lungimii pasului
k
au fost dezvoltate, iar printre acestea cea mai cunoscuta
este denita de condit iile Wolfe: se cauta
k
astfel ncat urmatoarele dou a condit ii sunt
satisfacute (vezi Fig. 5.2)
(W1) f(x
k
+
k
d
k
) f(x
k
) + c
1

k
f(x
k
)
T
d
k
, unde c
1
(0, 1)
(W2) f(x
k
+
k
d
k
)
T
d
k
c
2
f(x
k
)
T
d
k
, unde 0 < c
1
< c
2
< 1.
76 5.3. Metode de descrestere

acceptabil
panta dorita: c
2
f(x
k
)
T
d
k
Conditiile Wolfe:
f(x
k
+
k
d
k
) f(x
k
)+c
1

k
f(x
k
)
T
d
k
f(x
k
+
k
d
k
)
T
d
k
c
2
f(x
k
)
T
d
k
0<c
1
<c
2
<1
f(x
k
)+c
1
f(x
k
)
T
d
k
()=f(x
k
+ d
k
)
Figura 5.2: Condit iile Wolfe.

In general numai condit ia (W1) nu este sucienta pentru a garanta ca algoritmul de opti-
mizare face un progres rezonabil de-a lungul direct iei de cautare.

Ins a dac a lungimea pasului
se alege n mod adecvat astfel ncat sa nu e prea scurt, condit ia (W1) este sucienta. De
aceea, denim o a treia posibilitate de cautare a pasului
k
, mai put in costisitoare dec at
primele dou a metode prezentate mai sus, care se bazeaz a pe backtracking:
0. se alege > 0 si , c
1
(0, 1)
1. cat timp
f(x
k
+ d
k
) > f(x
k
) + c
1

k
f(x
k
)
T
d
k
se actualizeaza =
2. iesirea:
k
= .

In general se consider a valoarea init iala = 1, dar n alte cazuri aceast a valoare trebuie
aleas a cu grija. Se observa ca prin tehnica backtracking putem gasi
k
ntr-un num ar nit
de pasi. Mai mult,
k
gasit prin aceasta metoda nu este prea mic ntrucat
k
are o valoare
apropiata de

k

, valoare respins a la iterat ia precedenta datorita faptului ca inegalitatea (W1)


nu avea loc deoarece pasul era prea lung.
5.3.2 Convergent a metodelor de descrestere

In aceasta sect iune analizam convergent a globala a metodelor de descrestere.


Teorema 5.3.1 (Teorema de convergent a a metodelor de descrestere) Fie problema
de optimizare fara constrangeri min
xR
n
f(x), unde f (
1
este marginita inferior si gradientul
77 Capitol 5. Convergent a metodelor de descrestere
f este Lipschitz continuu. Consideram metoda iterativa x
k+1
= x
k
+
k
d
k
, unde d
k
este o
direct ie de descrestere pentru orice k 0 si pasul
k
este ales astfel ncat cele doua condit ii
Wolfe (W1)-(W2) sunt satisfacute. Atunci

k=0
cos
2

k
|f(x
k
)|
2
< ,
unde
k
este unghiul facut de direct ia d
k
cu gradientul f(x
k
).
Demonstrat ie: Din condit ia Wolfe (W2) avem:
(f(x
k+1
) f(x
k
))
T
d
k
(c
2
1)f(x
k
)
T
d
k
.
Utiliz and inegalitatea Cauchy-Schwartz obt inem:
|f(x
k+1
) f(x
k
)||d
k
| (c
2
1)f(x
k
)
T
d
k
.
Mai departe, din proprietatea de Lipschitz a gradientului avem ca exist a constanta Lipschitz
L > 0 astfel ncat urmatoarea inegalitate are loc
|f(x
k+1
) f(x
k
)| L|x
k+1
x
k
| = L
k
|d
k
|
care nlocuit a n relat ia anterioar a conduce la
L
k
|d
k
|
2
(c
2
1)f(x
k
)
T
d
k
adica

k

c
2
1
L

f(x
k
)
T
d
k
|d
k
|
2
.
Pe de alta parte din condit ia Wolfe (W1) avem:
f(x
k+1
) f(x
k
) + c
1
(f(x
k
)
T
d
k
)
2
|d
k
|
2

c
2
1
L
ce conduce la
f(x
k+1
) f(x
k
) c
1
1 c
2
L

(f(x
k
)
T
d
k
)
2
|f(x
k
)|
2
|d
k
|
2
|f(x
k
)|
2
.

In concluzie, not and c = c


1
1c
2
L
obt inem:
f(x
k+1
) f(x
k
) c cos
2

k
|f(x
k
)|
2
si deci nsumand aceste inegalitat i de la k = 0, . . . , N 1 avem:
f(x
N
) f(x
0
) c
N1

j=0
cos
2

j
|f(x
j
)|
2
.
78 5.3. Metode de descrestere

Intrucat f este marginita inferior, pentru N

k=0
cos
2

k
|f(x
k
)|
2
< .
Se observa de asemenea ca sirul cos
2

k
|f(x
k
)|
2
0.
Dac a n metoda direct iilor de descrestere alegem direct ia d
k
astfel ncat
k
[

2
+,
3
2
],
cu > 0 pentru orice k 0, atunci cos
2

k
,= 0 si deci |f(x
k
)| 0, adica sirul x
k
converge
la un punct stat ionar al problemei de optimizare (UNLP).
Capitol 6
Metode de ordinul I pentru (UNLP)

In acest capitol prezentam metodele numerice de optimizare de ordinul ntai (i.e. metode
bazate pe informat ia provenit a din evaluarea funct iei si a gradientului sau) pentru rezolvarea
problemei neconstr anse de optimizare:
(UNLP) : f

= min
xR
n
f(x),
unde presupunem ca funct ia obiectiv f (
1
.

In particular, ne concentr am pe dou a metode
clasice: metoda gradient si metoda direct iilor conjugate.

In general, orice metoda de min-
imizare a funct iilor diferent iabile si are originea n metoda gradient. Metoda gradient are
caracteristici care sunt de dorit n cadrul oric arui algoritm de optimizare, cum ar simpli-
tatea ei si memoria utilizata foarte redus a (aceasta metoda presupune o singur a evaluare a
gradientului funct iei la ecare iterat ie si const a doar n operat ii cu vectori). Din aceste con-
siderente, de cele mai multe ori noii algoritmi dezvoltat i ncearc a sa modice aceast a metoda
n asa fel ncat sa posede rate de convergent a superioare. De aceea prezentarea si studiul
metodei gradient constituie o cale ideala de ilustrare a metodelor moderne de minimizare
far a restrict ii. O alta metoda importanta care foloseste numai informat ia de gradient este
metoda direct iilor conjugate. Aceasta metoda este de asemenea foarte simpl a, baz andu-se
pe modicarea (devierea) direct iei antigradientului cu direct ia precedenta si, de asemenea,
cere memorie redus a (de exemplun anumite implementari discutate n acest capitol e nevoie
doar de memorarea a trei vectori).
6.1 Metoda gradient
Metoda gradient este una din cele mai vechi si mai cunoscute metode iterative n optimizare,
ind propus a pentru prima dat a de Cauchy n 1847. Metoda gradient mai este cunoscuta
79
80 6.1. Metoda gradient
si sub numele de metoda celei mai abrupte descresteri. Metoda este foarte importanta din
punct de vedere teoretic deoarece este una din cele mai simple metode pentru care exist a o
analiza satisf ac atoare cu privire la convergent a.
1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8
0.4
0.6
0.8
1
1.2
1.4
1.6
x
1
x
2
Figura 6.1: Metoda gradient aplicat a funct iei f(x
1
, x
2
) = (x
1
2)
4
+(x
1
2x
2
)
2
cu alegerea
pasului prin metoda ideala.
Metoda gradient se bazeaz a pe urmatoarea iterat ie:
x
k+1
= x
k

k
f(x
k
),
unde lungimea pasului
k
0 se poate alege n funct ie de una dintre cele trei proceduri
prezentate n capitolul precedent: cea ideala, condit iile Wolfe sau backtracking. Cu alte
cuvinte, din punctul x
k
caut am de-a lungul direct iei opuse gradientului un punct de minim,
iar acest punct de minim este x
k+1
.
0 10 20 30 40 50 60
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
k
f(x
k
)f
*
0 10 20 30 40 50 60
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
k
|| f(x
k
) ||
Figura 6.2: Metoda gradient aplicat a funct iei f(x
1
, x
2
) = (x
1
2)
4
+(x
1
2x
2
)
2
cu alegerea
pasului prin metoda ideala (linie continua) si backtracking (linie punctat a). Evolut ia de-a
lungul iterat iilor a lui f(x
k
) f

(stanga) si |f(x
k
)| (dreapta).
Metoda gradient are diferite interpret ari pe care le enumer am mai jos:
1. Direct ia n metoda gradient (numita adesea si antigradientul) d = f(x) este o
direct ie de descrestere ntrucat f(x)
T
d = |f(x)|
2
< 0 pentru orice x care nu este
punct stat ionar, i.e. orice punct ce satisface f(x) ,= 0.
81 Capitol 6. Metode de ordinul I pentru (UNLP)
f(x)
x x
k+1
x
k
Figura 6.3: Iterat ia metodei gradient folosind aproximarea patratic a n x
k
pentru funct ia
f(x) = x
3
x
2
6x + exp(x)/2.
2. Iterat ia x
k+1
se obt ine prin rezolvarea urmatoarei probleme patratice (QP) convexe:
x
k+1
= arg min
yR
n
f(x
k
) +f(x
k
)
T
(y x
k
) +
1
2
k
|y x
k
|
2
,
adica aproximam local funct ia obiectiv f n jurul lui x
k
printr-un model patratic cu Hes-
siana Q =
1

k
I
n
si apoi urmatoarea iterat ie este dat a de punctul optim al aproximarii
patratice (vezi Fig. 6.3).
3. Metoda gradient prezinta cea mai rapid a descrestere locala. Motiv pentru care aceasta
se mai numeste si metoda celei mai abrupte pante: ntr-adev ar pentru orice direct ie d
cu |d| = 1 avem
f(x + d) = f(x) + f(x)
T
d +1().
Din inegalitatea Cauchy-Schwartz obt inem
f(x)
T
d |f(x)||d| = |f(x)|
ceea ce conduce la urmatoarea inegalitate
f(x + d) f(x) |f(x)| +1().
Pe de alta parte, consider and urmatoarea direct ie particular a

d =
f(x)
f(x)
obt inem
f(x +

d) = f(x) |f(x)| +1().


Ultimile dou a relat ii ne permit sa concluzionam ca cea mai mare descrestere se obt ine
pentru direct ia antigradient

d.
82 6.1. Metoda gradient
6.1.1 Convergent a globala a metodei gradient

In cele ce urmeaza analizam propriet at ile de convergent a globala si locala a metodei gradient.
Mai ntai prezentam un rezultat general de convergent a globala pentru metoda gradient
aplicat a unei probleme (UNLP) pentru care funct ia obiectiv trebuie sa e doar de clas a (
1
.
Teorema 6.1.1 Daca urmatoarele condit ii sunt satisfacute:
(i) f este diferent iabila cu f continuu (i.e. f (
1
)
(ii) mult imea subnivel S
f(x
0
)
= x R
n
: f(x) f(x
0
) este compacta pentru orice punct
init ial x
0
(iii) lungimea pasului
k
satisface prima condit ie Wolfe (W1).
Atunci orice punct limita al sirului x
k
generat de metoda gradient este punct stat ionar pentru
problema (UNLP).
Demonstrat ie: Demonstrat ia se bazeaz a pe teorema de convergent a generala prezentat a
n capitolul precedent (Teorema 5.2.5). Denim aplicat ia:
M(x) = x f(x).

Intrucat funct ia obiectiv f este diferent iabila cu gradientul f continuu rezulta ca M(x)
este o aplicat ie continua punct-punct si deci nchisa. Denim S = x

R
n
: f(x

) = 0,
mult imea solut iilor (adic a mult imea punctelor stat ionare). Mai mult, sirul x
k

k0
S
f
(x
0
),
adica sirul generat de metoda gradient este inclus ntr-o mult ime compact a. De asemenea,
denim = f o funct ie descrescatoare ntrucat prima condit ie Wolfe este satisfacuta ceea ce
implica faptul ca funct ia obiectiv descreste strict de-a lungul iterat iilor generate de metoda
gradient.

In concluzie, teorema de convergent a generala poate aplicat a si deci orice punct
limita al sirului se va regasi n S. Mai mult, se observa ca din condit ia ca sirul x
k
sa e
m arginit, rezulta ca exist a cel put in un subsir convergent.
Acum prezentam o analiza a convergent ei metodei gradient pentru funct ii obiectiv f ce
poseda n plus fat a de ipotezele teoremei precedente, proprietatea ca gradientul f este
Lipschitz continuu.
Teorema 6.1.2 Fie f o funct ie diferent iabila cu gradientul Liptschitz (constanta Lipschitz
L > 0) si marginit a inferior. Mai mult, lungimea pasului
k
se alege pentru a satisface
cele doua condit ii Wolfe. Atunci sirul x
k
generat de metoda gradient satisface proprietatea:
lim
k
f(x
k
) = 0.
83 Capitol 6. Metode de ordinul I pentru (UNLP)
Demonstrat ie: Se observa ca n acest caz particular unghiul dintre gradient si direct ia
considerata n metoda gradient (antigradientul) este

k
= .

In concluzie, din teorema de convergent a pentru metodele de descrestere (Teorema 5.3.1)


avem:

k0
cos
2

k
|f(x
k
)|
2
=

k0
|f(x
k
)|
2
< .
Rezult a ca sirul x
k
satisface proprietatea: f(x
k
) 0 cand k .
Remarca 6.1.3 Remarcam faptul ca din prima teorema de convergent a a metodei gradient
(Teorema 6.1.1) am obt inut ca un subsir al sirului x
k
converge la punctul stat ionar x

, n
timp ce din a doua teorema (Teorema 6.1.2) avem rezultatul mai conservativ ca f(x
k
) 0.
6.1.2 Rata de convergent a globala a metodei gradient

In cazul n care lungimea pasului este constanta pentru toate iterat iile, adica alegem un
astfel ncat x
k+1
= x
k
f(x
k
), suntem interesat i n aarea unui optim ce garanteaza
cea mai rapid a convergent a. Presupunem ca funct ia obiectiv are gradientul f Lipschitz cu
constanta Lipschitz L > 0. Avem atunci urmatoarea relat ie (vezi Apendix):
f(y) f(x) +f(x)
T
(y x) +
L
2
|x y|
2
x, y domf.
Mai departe, aplicand aceasta inegalitate iterat iei de gradient rezulta:
f(x
k+1
) f(x
k
) + |f(x
k
)|
2
+
L
2

2
|f(x
k
)|
2
= f(x
k
) (1
L
2
)|f(x
k
)|
2
.
Lungimea pasului ce garanteaza cea mai mare descrestere per iterat ie se obt ine din condit ia
max
>0
(1
L
2
)
adica

=
1
L
.
Metodei gradient cu pas constant i corespunde o lungime optimal a a pasului dat a de =
1
L
.

In acest caz descresterea la ecare pas este ilustrata de relat ia:


f(x
k+1
) f(x
k
)
1
2L
|f(x
k
)|
2
,
84 6.1. Metoda gradient
iar dac a nsumam aceste inegalitat i de la k = 0 la k = N 1 obt inem:
f(x
N
) f(x
0
)
1
2L
N1

k=0
|f(x
k
)|
2
adica
1
2L
N1

k=0
|f(x
k
)|
2
f(x
0
) f(x
N
) f(x
0
) f

. (6.1)

In continuare denim:
|f
N
| = arg min
k=0, ,N1
|f(x
k
)|.
Din inegalitatea (6.1) si inegalitatea precedenta rezulta:
1
2L
N|f
N
|
2
f(x
0
) f

In concluzie, dup a N = k pasi se obt ine urmatoarea rata de convergent a


|f
k
|
1

k
_
2L(f(x
0
) f

),
adica metoda gradient are, n acest caz, o rata de convergent a subliniara.
Din demonstrat ia teoremei se observa ca orice pas pentru metoda gradient n intervalul

_
0,
2
L
_
asigur a descresterea funct iei obiectiv si, n consecint a, o rata de convergent a subliniara. Mai
mult, pentru N n inegalitatea (6.1) obt inem ca |f(x
k
)| 0 cand k .
Observam ca nu se poate spune nimic n acest caz despre convergent a sirului x
k
la punctul
stat ionar x

sau al lui f(x


k
) la valoarea optima f

. Acest tip de convergent a poate derivat a


n cazul convex.
Mai departe consider am problema de optimizare convexa neconstr ans a min
xR
n f(x), unde
funct ia obiectiv f T
1,1
L
(R
n
) (T
1,1
L
(R
n
) reprezinta clasa de funct ii diferent iabile, convexe,
cu gradient Lipschitz de constanta L) pentru care avem inegalitatea (vezi Apendix):
1
L
|f(x) f(y)|
2
f(x) f(y), x y x, y domf.
De asemenea, pentru un punct de optim global x

not am R
k
= |x
k
x

| distant a de la
punctul x
k
la punctul de optim x

. Atunci, din relat ia precedenta si f(x

) = 0 obt inem:
R
2
k+1
= |x
k
x

f(x
k
)|
2
= R
2
k
2f(x
k
), x
k
x

+
2
|f(x
k
)|
2
R
2
k
(
2
L
) |f(x
k
)|
2
.
85 Capitol 6. Metode de ordinul I pentru (UNLP)
Observam ca pentru pas constant (0
2
L
) avem R
k
R
0
pentru orice k 0. Not and

k
= f(x
k
) f

, din convexitatea lui f si inegalitatea Cauchy-Schwartz, avem:

k
f(x
k
), x
k
x

R
k
|f(x
k
)| R
0
|f(x
k
)| . (6.2)
Din proprietatea Lipschitz avem:
f(x
k+1
) f(x
k
) (1
L
2
)|f(x
k
)|
2
,
de unde sc az and n ambele part i f

si combinand cu inegalitatea (6.2) obt inem

k+1

k


R
2
0

2
k
,
unde = (1
L
2
). Deci,
1

k+1

k
+

R
2
0

k+1

k
+

R
2
0
.
Prin nsumarea acestor inegalitat i de la k = 0 la k = N 1 rezulta urmatoarea inegalitate:
1

0
+

R
2
0
N.
Mai departe, dac a alegem =

=
1
L
obt inem urmatoarea rata de convergent a:
f(x
N
) f

2L(f(x
0
) f

) |x
0
x

|
2
2L|x
0
x

|
2
+ N(f(x
0
) f

)
.
Din proprietatea de Lipschitz avem:
f(x
0
) f

+f(x

), x
0
x

+
L
2
|x
0
x

|
2
= f

+
L
2
|x
0
x

|
2
.
Obt inem atunci (nlocuind N = k) urmatoarea rata de convergent a subliniara a metodei
gradient pentru probleme de optimizare convexe neconstr anse:
f(x
k
) f

2L|x
0
x

|
2
k + 4
.
6.1.3 Rata de convergent a locala a metodei gradient

In aceasta sect iune analizam rata de convergent a locala a metodei gradient. Pentru simpli-
tatea expozit iei studiem mai ntai cazul problemelor patratice:
f

= min
xR
n
f(x)
_
=
1
2
x
T
Qx q
T
x
_
,
86 6.1. Metoda gradient
unde Q este matrice simetrica pozitiv denita.

In acest caz problema de optimizare patratic a
convexa de mai sus are un singur punct de minim global x

ce satisface relat ia Qx

q = 0.
De asemenea, dand x
k
la it erat ia k, denim reziduul r
k
= Qx
k
q = f(x
k
). Atunci, pasul
optim (obt inut prin metoda ideala de alegere a pasului) se obt ine explicit din minimizarea
funct iei patratice unidimensionale n (0, ): () = f(x
k
r
k
):

k
=
r
T
k
r
k
r
T
k
Qr
k
.
Atunci metoda gradient are urmatoarea iterat ie pentru cazul patratic convex:
x
k+1
= x
k

r
T
k
r
k
r
T
k
Qr
k
f(x
k
).
Ca sa evalu am rata de convergent a, introducem urmatoarea funct ie ce m asoara eroarea:
e(x) =
1
2
(x x

)
T
Q(x x

) = f(x) f

,
unde am folosit ca Qx

q = 0 si f

= f(x

). Observam ca eroarea e(x) este zero dac a si


numai dac a x = x

. Prin calcule simple se poate ar ata ca


e(x
k
) e(x
k+1
)
e(x
k
)
=
2
k
r
T
k
Qy
k

2
k
r
T
k
Qr
k
y
T
k
Qy
k
,
unde y
k
= x
k
x

. T in and cont ca Qy
k
= r
k
, obt inem:
e(x
k+1
) =
_
1
(r
T
k
r
k
)
2
(r
T
k
Qr
k
)(r
T
k
Q
1
r
k
)
_
e(x
k
).
Putem ar ata usor utiliz and inegalitatea lui Kantorovich
min
y=0
(y
T
y)
2
(y
T
Qy)(y
T
Q
1
y)
=
4
min

max
(
min
+
max
)
2
ca urmatoarea relat ie are loc:
e(x
k+1
)
( 1)
2
( + 1)
2
e(x
k
),
unde este numarul de condit ionare al matricei Q, adica =
max
/
min
, cu
min
> 0
valoarea proprie minima, iar
max
valoarea proprie maxima a matricei pozitiv denite Q. Din
aceast a relat ie rezulta ca e(x
k
) = f(x
k
) f

0 la o rata liniar a m arginit a de constanta


= ( 1)
2
/( + 1)
2
. Observam ca rata de convergent a este lenta dac a num arul de
condit ionare este mare si depinde de punctul de pornire x
0
. Acest rezultat pentru probleme
QP strict convexe, unde pasul se alege cu metoda ideala, ne arat a ca valorile funct iei f(x
k
)
converg la valoarea optima f

la o rata liniar a.
Pentru funct ii diferent iabile nep atratice rezultate similare au loc:
87 Capitol 6. Metode de ordinul I pentru (UNLP)
Teorema 6.1.4 Presupunem ca funct ia f (
2
si ca iterat iile metodei gradient generate
cu procedura de cautare ideala a pasului converge la un punct x

pentru care
2
f(x

) este
matrice pozitiv denita. Fie un scalar (( 1)
2
/( + 1)
2
1), unde este numarul de
condit ionare al matricei
2
f(x

). Atunci, pentru k sucient de mare avem ca


f(x
k
) f(x

) (f(x
k
) f(x

)).
Demonstrat ia se bazeaz a pe folosirea Hesianei funct iei obiectivn punctul x

n locul matricei
Q corespunz atoare cazului patratic.

In acest caz dac a x

este un punct de minim local astfel


ncat Hesiana
2
f(x

) este pozitiv denita cu un numar de condit ionare , putem ar ata


ca sirul x
k
convergent la x

produs de metoda gradient satisface urmatoarea proprietate:


f(x
k
) f(x

) cu o rata de convergent a liniar a a carui coecient este m arginit inferior de


( 1)
2
/( + 1)
2
. Observam ca n cazul neconvex sirul x
k
generat de metoda gradient
converge catre x

dac a punctul de pornire x


0
este sucient de aproape de x

, adica avem
convergent a locala.
6.2 Metoda direct iilor conjugate
Metoda direct iilor conjugate poate privita ca o metoda intermediar a ntre metoda gradient
(ce foloseste informat ie de ordinul ntai) si metoda Newton (ce foloseste informat ie de ordinul
doi). Aceasta metoda este motivat a de dorint a de a accelera rata de convergent a lenta a
metodei gradient si n acelasi timp de a evita folosirea Hessianei din metoda Newton. Un
caz particular al metodei direct iilor conjugate este metoda gradient ilor conjugat i. Metoda
gradient ilor conjugat i a fost init ial dezvoltat a pentru probleme patratice. Aceasta tech-
nica a fost extins a la probleme de optimizare generale, prin aproximare, deoarece se poate
argumenta ca n apropierea unui punct de minim local funct ia obiectiv este aproximativ
patratic a.
6.2.1 Metoda direct iilor conjugate pentru probleme QP
Metoda direct iilor conjugate este de asemenea o metoda de ordinul ntai, adica foloseste
informat ia extras a din valoarea funct iei si a gradientului acesteia (oracol de ordinul ntai),
nsa prezinta o rata de convergent a mai bun a decat a metodei gradient cel put in pentru cazul
patratic. Sa presupunem urmatoarea problem a QP strict convexa:
min
xR
n
1
2
x
T
Qx q
T
x,
unde Q0 (i.e. matrice pozitiv denita). Solut ia optima a acestei probleme de optimizare
este echivalenta cu rezolvarea urmatorului sistem de ecuat ii liniare
Qx = q.
88 6.2. Metoda direct iilor conjugate

Intrucat Q este inversabil a, solut ia problemei de optimizare sau solut ia sistemului liniar este
x

= Q
1
q.

In cele mai multe cazuri calculul inversei este foarte costisitor, si n general
complexitatea aritmetica a unei metode de calcul numeric matricial pentru gasirea solut iei
este de ordinul O(n
3
).

In cele ce urmeaza vom prezenta o metoda numeric a de optimizare
mai simpl a si n general mai put in costisitoare numeric pentru calculul solut iei x

.
Denit ia 6.2.1 Doi vectori d
1
si d
2
se numesc Q-ortogonali daca d
T
1
Qd
2
= 0. O mult ime
de vectori d
1
, d
2
, , d
k
se numeste Q-ortogonala daca d
T
i
Qd
j
= 0 pentru orice i ,= j.
Se observa ca dac a Q0 si dac a mult imea d
1
, d
2
, , d
k
este Q-ortogonal a, iar vectorii
sunt nenuli, atunci acestia sunt liniar independent i. Mai mult, n cazul n care k = n,
vectorii formeaza o baz a pentru R
n
.

In concluzie, dac a d
1
, d
2
, , d
n
este Q-ortogonal a,
iar vectorii sunt nenuli, exist a
1
, ,
n
R astfel ncat x

=
1
d
1
+
2
d
2
+ +
n
d
n
(adica x

este combinat ie liniar a a vectorilor bazei). Pentru aarea parametrilor


i
avem
relat ia

i
=
d
T
i
Qx

d
T
i
Qd
i
=
d
T
i
q
d
T
i
Qd
i
.
Concluzionam ca
x

=
n

i=1
d
T
i
q
d
T
i
Qd
i
d
i
si deci x

poate obt inut printr-un proces iterativ n care la pasul i adaug am termenul
i
d
i
.
Teorema 6.2.2 Fie d
0
, d
1
, , d
n1
o mult ime Q-ortogonala de vectori cu elemente nenule.
Pentru orice x
0
R
n
sirul x
k
generat de metoda iterativa:
x
k+1
= x
k
+
k
d
k

k
=
r
T
k
d
k
d
T
k
Qd
k
, r
k
= Qx
k
q
converge la x

dupa n pasi, adica x


n
= x

.
Demonstratie: Deoarece vectorii d
0
, d
2
, , d
n1
sunt liniar independent i putem scrie:
x

x
0
=

0
d
0
+

1
d
1
+ +

n1
d
n1
pentru anumit i scalari

k
. Multiplic and aceasta relat ie cu Q si apoi lu and produsul scalar
cu d
k
obt inem

k
=
d
T
k
Q(x

x
0
)
d
T
k
Qd
k
.
89 Capitol 6. Metode de ordinul I pentru (UNLP)
Folosind iterat ia de mai sus pentru calcularea lui x
k+1
obt inem:
x
k
x
0
=
0
d
0
+
1
d
1
+ +
k1
d
k1
si din Q-ortogonalitatea lui d
k
derivam urmatoarea relat ie
d
T
k
Q(x
k
x
0
) = 0.

In concluzie

k
=
d
T
k
Q(x

x
k
)
d
T
k
Qd
k
=
r
T
k
d
k
d
T
k
Qd
k
coincide cu
k
. De aici rezulta ca x
n
x
0
= x

x
0
si deci x
n
= x

.
Se observa ca reziduul r
k
= Qx
k
q coincide cu gradientul funct iei obiectiv patratice.
Folosind argumente similare ca n teorema precedenta se poate ar ata urmatorul rezultat:
Teorema 6.2.3 Fie d
0
, d
1
, , d
n1
o mult ime Q-ortogonala de vectori cu elemente nenule,
denim subspat iul S
k
= Spand
0
, d
1
, , d
k
. Atunci pentru orice x
0
R
n
sirul x
k+1
=
x
k
+
k
d
k
, unde
k
=
r
T
k
d
k
d
T
k
Qd
k
are urmatoarele proprietat i:
(i) x
k+1
= arg min
xx
0
+S
k
1
2
x
T
Qx q
T
x
(ii) reziduul la pasul k este ortogonal cu toate direct iile precedente, adica
r
T
k
d
i
= 0 i < k.
Din teorema precedenta proprietatea (ii) avem ca gradientul este ortogonal pe subspatiul S
k1
:
f(x
k
) S
k1
.
Aceasta teorem a se mai numeste si minimizarea peste subspat iul de extindere.
6.2.2 Metoda gradient ilor conjugat i pentru probleme QP
Metoda gradient ilor conjugat i apart ine clasei de metode de direct ii conjugate cu o propri-
etate speciala: n generarea mult imii de vectori conjugat i, noul vector d
k
poate calculat
folosind numai direct ia anterioar a d
k1
.

In aceasta metoda pentru a calcula d
k
nu trebuie
sa stim toate direct iile conjugate anterioare d
0
, d
1
, , d
k1
. Din construct ie, noua direct ie
d
k
va automat ortogonal a pe aceste direct ii anterioare. Aceasta proprietate a metodei
gradiet ilor conjugat i este foarte importanta deoarece cere put in a memorie si calcule. Metoda
gradient ilor conjugat i pentru rezolvarea unui QP strict convex cuprinde urmatorii pasi:
90 6.2. Metoda direct iilor conjugate
x
1
x
0
f(x
1
)
d
0
x
2
d
1
Figura 6.4: Metoda gradient ilor conjugat i.
1. Fie vectorul x
0
R
n
dat, denim d
0
= f(x
0
) = r
0
= (Qx
0
q)
2. actualiz am iterat ia x
k+1
= x
k
+
k
d
k
, unde
k
=
r
T
k
d
k
d
T
k
Qd
k
3. actualizam direct ia d
k+1
= r
k+1
+
k
d
k
, unde
k
=
r
T
k+1
Qd
k
d
T
k
Qd
k
.
Am utilizat notat ia r
k
= f(x
k
). Se observa ca la ecare pas o nou a direct ie este aleas a
ca o combinat ie liniar a ntre gradientul curent si direct ia precedenta. Metoda gradient ilor
conjugat i are o complexitate sc azuta ntrucat foloseste formule de actualizare simple (adic a
operat ii cu vectori).
Teorema 6.2.4 (Proprietat i ale metodei gradient ilor conjugat i) Metoda gradient ilor
conjugat i satisface urmatoarele proprietat i:
(i) Spand
0
, d
1
, , d
k
= Spanr
0
, r
1
, , r
k
= Spanr
0
, Qr
0
, , Q
k
r
0

(ii) d
T
k
Qd
i
= 0 pentru orice i < k
(iii)
k
=
r
T
k
r
k
d
T
k
Qd
k
(iv)
k
=
r
T
k+1
r
k+1
r
T
k
r
k
.
Demonstrat ie: Relat ia (i) se poate demonstra prin induct ie. Este evident ca (i) este
adevarata la pasul k = 0. Presupunem acum ca egalitat ile de mult imi sunt valide la pasul k
si demonstr am relat ia pentru k + 1. Din iterat ia metodei gradient ilor conjugat i se observa:
r
k+1
= r
k
+
k
Qd
k
.
91 Capitol 6. Metode de ordinul I pentru (UNLP)
Din ipoteza de induct ie avem ca r
k
, Qd
k
Spanr
0
, Qr
0
, , Q
k+1
r
0
. Drept urmare r
k+1

Spanr
0
, Qr
0
, , Q
k+1
r
0
. Considerand acest rezultat si iterat ia:
d
k+1
= r
k+1
+
k
d
k
,
rezulta de asemenea ca d
k+1
Spanr
0
, Qr
0
, , Q
k+1
r
0
.
Pentru a demonstra (ii) folosim iarasi induct ia si lu am n considerare faptul ca
d
T
k+1
Qd
i
= r
T
k+1
Qd
i
+
k
d
T
k
Qd
i
.
Pentru i = k, membrul drept este zero datorita denit iei lui
k
. Pentru i < k, ambii termeni
dispar. Primul termen dispare datorita faptului ca Qd
i
Spand
0
, d
1
, , d
i+1
, a induct iei
ce garanteaza ca metoda este o metoda de direct ii conjugate pana la pasul x
k+1
, si prin
Teorema 6.2.3, ce garanteaza ca r
k+1
este ortogonal pe Spand
0
, d
1
, , d
i+1
. Al doilea
termen dispare prin aplicarea induct iei asupra relat iei (ii).
Pentru a demonstra (iii) observam ca:
r
T
k
d
k
= r
T
k
r
k

k1
r
T
k
d
k1
si apoi utiliz am relat ia
k
=
r
T
k
d
k
d
T
k
Qd
k
, iar al doilea termen este zero conform Teoremei 6.2.3.

In nal, pentru a demonstra (iv) observam ca r


T
k+1
r
k
= 0, deoarece r
k
Spand
0
, d
1
, , d
k

si r
k+1
este ortogonal pe Spand
0
, d
1
, , d
k
. Mai mult, din relat ia
Qd
k
=
1

k
(r
k+1
r
k
)
avem ca r
T
k+1
Qd
k
=
1

k
r
T
k+1
r
k+1
.
Din proprietatea (ii) a teoremei precedente se observa ca metoda gradient ilor conjugat i
produce direct iile d
0
, d
1
, , d
n1
care sunt direct ii Q-ortogonale si deci metoda converge
la solut ia optima x

n exact n pasi, conform Teoremei 6.2.2.


6.2.3 Metoda gradient ilor conjugat i pentru probleme UNLP
Pentru o problem a generala neconstr ans a min
xR
n
f(x), putem aplica metoda gradient ilor conjugat i
folosind aproximari adecvate. Prezentam n cele ce urmeaza cateva abord ari n aceast a
direct ie.

In abordarea aproximarii patratice, se repet a aceleasi iterat ii ca si n cazul patratic folosindu-


se o aproximare patratica cu urmatoarele identic ari:
Q =
2
f(x
k
), r
k
= f(x
k
).
92 6.2. Metoda direct iilor conjugate
Aceste asocieri sunt reevaluate la ecare pas al metodei. Dac a funct ia f este patratic a,
atunci aceste asocieri sunt identitat i, si deci algoritmul este o generalizare la cazul patratic
neconvex. C and o aplicam la probleme nep atratice, atunci metoda gradient ilor conjugat i
nu va produce o solut ie n n pasi.

In acest caz se continua procedura, gasind noi direct ii si
termin and atunci cand un anumit criteriu este satisfacut (de exemplu |f(x
k
)| ). Este
de asemenea posibil ca dup a n sau n + 1 pasi sa reinit ializam algoritmul cu x
0
= x
n
si sa
ncepem metoda gradient ilor conjugat i cu un pas de gradient.
Metoda gradient ilor conjugat i pentru probleme UNLP generale const a n urmatorii pasi:
1. r
0
= f(x
0
) si d
0
= f(x
0
)
2. x
k+1
= x
k
+
k
d
k
pentru orice k = 0, 1, , n 1, unde
k
=
r
T
k
d
k
d
T
k

2
f(x
k
)d
k
3. d
k+1
= f(x
k+1
) +
k
d
k
, unde
k
=
r
T
k+1

2
f(x
k
)d
k
d
T
k

2
f(x
k
)d
k
4. dup a n iterat ii nlocuim x
0
cu x
n
si repet am ntregul proces.
O proprietate atractiva a metodei gradient ilor conjugat i este aceea ca nu e nevoie de cautarea
pe o direct ie, adica nu trebuie sa gasim o lungime a pasului. Pe de alta parte, aceast a
abordare are dezavantajul ca cere evaluarea Hesianei funct iei obiectiv la ecare pas, care de
obicei este costisitoare. De asemenea, se observa ca n cazul general aceast a metoda nu este
convergenta.
Este posibil sa se evite folosirea directa a Hesianei
2
f(x). De exemplu, n locul formulei
pentru
k
dat mai sus, putem gasi lungimea pasului
k
prin metoda de cautare ideal a.
Expresia corespunz atoare va coincide cu cea de mai sus n cazul patratic. De asemenea, al-
goritmul se poate transforma ntr-unul convergent prin modicarea adecvat a a parametrului

k
. Avem la dispozit ie urmatoarele reguli de actualizare:
FletcherReeves :
k
=
r
T
k+1
r
k+1
r
T
k
r
k
PolakRibiere :
k
=
(r
k+1
r
k
)
T
r
k+1
r
T
k
r
k
.
Observam ca aceste formule coincid cu
k
dat n algoritmul precedent n cazul patratic. Din
simul ari s-a observat ca de obicei metoda Polak-Ribiere are un comportament mai bun fat a
de metoda Fletcher-Reeves. Obt inem urmatoarea metoda modicata a gradient ilor conjugat i
pentru probleme UNLP ce const a n urmatorii pasi:
1. r
0
= f(x
0
) si d
0
= f(x
0
)
2. x
k+1
= x
k
+
k
d
k
pentru orice k = 0, 1, , n 1, unde
k
minimizeaz a funct ia
unidimensionala f(x
k
+ d
k
)
93 Capitol 6. Metode de ordinul I pentru (UNLP)
3. d
k+1
= f(x
k+1
) +
k
d
k
, unde
k
este ales cu una din cele dou a formule de mai sus.
4. dup a n iterat ii nlocuim x
0
cu x
n
si repet am ntregul proces.
Convergent a globala a metodei gradient ilor conjugat i modicata se poate demonstra din
simpla observat ie ca la ecare n pasi a acestei metode se realizeaz a o iterat ie de gradient
pur si ca la ceilalt i pasi funct ia obiectiv nu creste, ci de fapt se sper a sa descreasca strict.
De aceea restartarea algoritmului este importanta pentru analiza convergent ei globale a
metodei, deoarece pentru direct iile d
k
produse de metoda nu putem garanta ca sunt direct ii
de descrestere. Proprietat ile de convergent a locala a metodei descrise mai sus poate ar atata
folosindu-ne iarasi de analiza cazului patratic. Presupun and ca la solut ia x

Hesiana este
pozitiv denita, ne astept am la o rata de convergent a cel put in la fel de bun a ca a metodei
gradient. Mai mult, n general metoda converge patratic n raport cu ecare ciclu de n
pasi. Cu alte cuvinte, observam ca n ecare ciclu se rezolv a o problem a patratic a la fel
cum metoda Newton rezolv a ntr-un pas aceasta problem a patratica, si deci ne astept am ca
|x
k+n
x

| c|x
k
x

|
2
pentru o anumita constanta c > 0 si k = 0, n, 2n, . . . .

In concluzie,
metoda gradient ilor conjugat i modicata poseda o convergent a superioara metodei gradient,
iar pe de alta parte are o implementare simpl a. De aceea, este adesea preferata n favoarea
metodei gradient pentru rezolvarea problemelor de optimizare far a constr angeri.
94 6.2. Metoda direct iilor conjugate
Capitol 7
Metode de ordinul II pentru (UNLP)
Metodele de ordinul doi sunt cele mai complexe metode numerice de optimizare deoarece
folosesc informat ie despre curbura funct iei obiectiv sau matricea Hesiana. De obicei aceste
metode converg mult mai rapid decat metodele de ordinul ntai dar sunt n general dicil
de implementat deoarece calcularea si memorarea matricei Hesiane poate costisitoare din
punct de vedere numeric. Metoda Newton este un exemplu de metoda de ordinul doi care
const an devierea direct iei antigradientului prin premultiplicarea lui cu inversa matricei Hes-
iane. Aceasta operat ie este motivat a prin gasirea unei direct ii adecvate pentru aproximarea
Taylor de ordinul doi a funct iei obiectiv.

In general, pentru probleme de dimensiuni mari, se
prefer a implementarea unei metode de ordinul ntai care ia n calcul structura funct iei obiec-
tiv. Adesea un sir de gradient i pot folosit i la aproximarea curburii de ordinul doi a funct iei
obiectiv. Metode ce se bazeaz a pe aceasta procedur a se numesc metode cvasi-Newton.

In acest capitol ne ocup am de rezolvarea unei probleme generale neliniare de optimizare


neconstr ans a (UNLP) cu metode numerice ce utilizeaz a informat ie furnizata de gradient
si Hesiana (informat ie de ordin doi) sau o aproximare a acesteia (adic a ce se bazeaz a pe
informat ie de ordinul ntai):
(UNLP) : f

= min
xR
n
f(x), (7.1)
unde funct ia obiectiv este de dou a ori diferent iabila cu Hesiana continua (i.e. f (
2
).
7.1 Metoda Newton

In analiza numeric a si optimizare, metoda lui Newton (sau metoda Newton-Raphson) este
o metoda de calcul al radacinilor unui sistem de ecuat ii. Consideram sistemul neliniar:
F(y) = 0,
95
96 7.1. Metoda Newton
unde y R
n
si F : R
n
R
n
o funct ie diferent iabila. Acest sistem poate rezolvat prin
metoda Newton care const a n liniarizarea ecuat iei n punctul curent y
k
:
F(y
k
) +
F
y
(y
k
)(y y
k
) = 0. (7.2)
Aceasta procedur a, ce const a n rezolvarea sistemului liniar n y, conduce la urmatoarea
iterat ie Newton, sub ipoteza ca Jacobianul (notat F(y
k
) =
F
y
(y
k
)) este matrice inversabil a:
y
k+1
= y
k

_
F
y
(y
k
)
_
1
F(y
k
).
Consideram acum condit iile necesare de optimalitate de ordinul ntai pentru probleme UNLP,
ce se reduc la un sistem de ecuat ii neliniare:
f(x) = 0,
cu gradientul f : R
n
R
n
. Acest sistem are numarul de ecuat ii egale cu num arul de
variabile. Metoda Newton va liniariza sistemul neliniar n punctul x
k
pentru a gasi urmatorul
punct x
k+1
:
f(x
k
) +
2
f(x
k
)(x
k+1
x
k
) = 0,
iar din aceasta relat ie putem deriva metoda Newton care const a in urmatoarea iterat ie:
x
k+1
= x
k
(
2
f(x
k
))
1
f(x
k
).
0.4 0.6 0.8 1 1.2 1.4 1.6
0.6
0.8
1
1.2
1.4
1.6
x
1
x
2
Figura 7.1: Metoda Newton aplicata funct iei f(x
1
, x
2
) = (x
1
x
3
2
)
2
+ 3(x
1
x
2
)
4
.
Direct ia in metoda Newton este dat a de expresia
d
k
= (
2
f(x
k
))
1
f(x
k
),
97 Capitol 7. Metode de ordinul II pentru (UNLP)
numit a si directia Newton. Observam ca dac a
2
f(x
k
)0, atunci direct ia Newton d
k
este
direct ie de descrestere. Reamintim ca direct ia n metoda gradient este dat a de antigradientul
f(x
k
), adica n locul matricei (
2
f(x
k
))
1
din metoda Newton, n metoda gradient se
foloseste matricea identitate I
n
.
x
f(x)
x
k
x
k+1
Figura 7.2: Iterat ia metodei Newton folosind aproximarea patratic a Taylor n x
k
pentru
funct ia f(x) = x
3
x
2
6x + exp(x)/2.
O alta interpretare a metodei numerice de optimizare Newton poate obt inut a din aprox-
imarea Taylor de ordinul doi a funct iei obiectiv f. Reamintim condit iile de optimalitate
suciente de ordinul doi ce se denesc astfel: dac a exist a un x

ce satisface
f(x

) = 0 si
2
f(x

)0
atunci x

este un minim local. Dac a punctul x

satisface condit iile de mai sus, atunci exist a


o vecin atate a lui x

notata A astfel ncat pentru orice x A avem


2
f(x)0. Din
aproximarea Taylor obt inem ca:
f(x
k+1
) f(x
k
) +f(x
k
)
T
(x
k+1
x
k
) +
1
2
(x
k+1
x
k
)
T

2
f(x
k
)(x
k+1
x
k
)
si deci iterat ia Newton este dat a de (vezi Fig. 7.2)
x
k+1
= arg min
y
f(x
k
) +f(x
k
)
T
(y x
k
) +
1
2
(y x
k
)
T

2
f(x
k
)(y x
k
).
Se observa ca dac a x
k
este sucient de aproape de x

atunci
2
f(x
k
)0 si din condit iile
de optimalitate corespunzatoare unei probleme QP strict convexe obt inem din nou x
k+1
=
x
k
(
2
f(x
k
))
1
f(x
k
), adica aceeasi formu

la, nsa cu o interpretare diferit a. Fac and


analogia cu interpretarea metodei gradient, observam ca n ambele metode iterat ia x
k+1
se
genereaz a din rezolvarea unei aproximari patratice n care termenul liniar este acelasi dar
termenul patratic n metoda gradient este (y x
k
)
T
I
n
(y x
k
) n timp ce n metoda Newton
este (y x
k
)
T

2
f(x
k
)(y x
k
). Este clar ca aproximarea patratic a a funct iei f folosita n
98 7.1. Metoda Newton
metoda Newton este mai bun a decat cea folosita n metoda gradient si deci ne astept am ca
metoda Newton sa performeze mai bine decat metoda gradient.
Putem ntr-o manier a similar a cu cea de mai sus sa interpret am derivarea direct iei Newton,
si anume din aproximarea Taylor avem:
f(x
k
+ d) f(x
k
) +f(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d
si deci denim direct ia Newton
d
k
= arg min
d
f(x
k
) +f(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d.
Se observa ca dac a
2
f(x
k
)0, din condit iile de optimalitate corespunzatoare unei probleme
QP strict convexe obt inem din nou direct ia Newton d
k
=
2
f(x
k
)
1
f(x
k
).
7.1.1 Rata de convergent a locala a metodei Newton

In aceasta sect iune vom analiza convergent a locala a metodei Newton n forma standard
(adic a pasul
k
= 1):
x
k+1
= x
k
(
2
f(x
k
))
1
f(x
k
).
Vom ar ata n urmatoarea teorem a ca aceasta metoda converge local cu rata patratic a, adica
exist a > 0 astfel ncat |x
k+1
x

| |x
k
x

|
2
pentru orice k 0, sub ipoteza ca x
0
este sucient de aproape de x

.
Teorema 7.1.1 (Convergent a locala cu rata patratica a metodei Newton) Fie f
C
2
si x

un minim local ce satisface condit iile suciente de ordinul II (i.e. f(x

) = 0 si

2
f(x

) 0). Fie o constanta l > 0 astfel ncat

2
f(x

) _ lI
n
.
Mai mult, presupunem ca
2
f(x) este Lipschitz, i.e.
|
2
f(x)
2
f(y)| M|x y| x, y domf,
unde M > 0. Daca x
0
este sucient de aproape de x

, adica
|x
0
x

|
2
3

l
M
,
atunci iterat ia Newton x
k+1
= x
k
(
2
f(x
k
))
1
f(x
k
) are proprietatea ca sirul x
k
generat
converge la x

cu rata patratica, adica |x


k+1
x

|
3M
2l
|x
k
x

|
2
pentru orice k 0.
99 Capitol 7. Metode de ordinul II pentru (UNLP)
Demonstrat ie:

Intrucat x

este un minim local atunci f(x

) = 0. Mai mult, din teorema


lui Taylor n forma integrala avem:
f(x
k
) = f(x

) +
_
1
0

2
f(x

+ (x
k
x

))(x
k
x

)d.
Se obt ine:
x
k+1
x

= x
k
x

(
2
f(x
k
))
1
f(x
k
)
= (
2
f(x
k
))
1
[
2
f(x
k
)(x
k
x

) f(x
k
) +f(x

)]
= (
2
f(x
k
))
1
[
2
f(x
k
)(x
k
x

)
_
1
0

2
f(x

+ (x
k
x

))(x
k
x

)d]
= (
2
f(x
k
))
1
_
1
0
[
2
f(x
k
)(x
k
x

)
2
f(x

+ (x
k
x

))(x
k
x

)d]
= (
2
f(x
k
))
1
_
1
0
[
2
f(x
k
)
2
f(x

+ (x
k
x

))](x
k
x

)d.

Intrucat
|
2
f(x
k
)
2
f(x

)| M|x
k
x

|
rezulta ca (vezi Apendix):
M|x
k
x

|I
n
_
2
f(x
k
)
2
f(x

) _ M|x
k
x

|I
n
.
Mai mult, vom avea:

2
f(x
k
) _
2
f(x

) M|x
k
x

|I
n
_ lI
n
M|x
k
x

|I
n
0,
sub ipoteza ca |x
k
x

|
2
3
l
M
, de unde rezulta
0 (
2
f(x
k
))
1
_
1
l M|x
k
x

|
I
n
.
Concluzionam urmatoarele:
|x
k+1
x

| = |(
2
f(x
k
))
1
| |
_
1
0

2
f(x
k
)
2
f(x

+ (x
k
x

))d| |x
k
x

1
l M|x
k
x

|
_
1
0
M(1 )|x
k
x

|d|x
k
x

1
l M|x
k
x

|
_
1
0
M(1 )d|x
k
x

|
2

1
l M|x
k
x

|
M
2
|x
k
x

|
2
.
Prin induct ie se arata usor ca dac a |x
0
x

| 2l/3M, atunci |x
k
x

| 2l/3M pentru
orice k 0. Observam ca
1
lMx
k
x

M
2

3M
2l
< si deci |x
k+1
x

|
3M
2l
|x
k
x

|
2
.
100 7.1. Metoda Newton
Remarca 7.1.2 Din teorema anterioara putem concluziona ca metoda Newton are o rata
de convergent a foarte rapida n apropierea punctului de optim local. Mai mult, observ am
ca metoda Newton converge ntr-un singur pas pentru probleme patratice convexe. Deci n
comparat ie cu metodele de ordinul ntai unde n cel mai bun caz convergent a se atinge n
n pasi, n metoda Newton obt inem convergent a n exact un pas pentru problemele patratice
convexe. Principalul dezavantaj al acestei metode este necesitatea de a calcula Hessiana
funct iei f si inversarea acestei matrici. Aceste operat ii sunt costisitoare, complexitatea ind
de ordinul O(n
3
), si deci pentru dimeniuni mari ale problemei de optimizare (UNLP), de
exemplu n > 10
3
, aceste operat ii sunt foarte greu de realizat pe un computer obisnuit.
7.1.2 Convergent a globala a metodei Newton
Dac a pornim dintr-un punct x
0
ce nu este intr-o vecin atate a lui x

, atunci metoda Newton


va trebui modicata pentru a garanta convergent a ei catre un punct stat ionar. Modicarea
const a n alegerea dimensiunii pasului
k
,= 1 astfel ncat de exemplu condit ia Wolfe (W1)
sa e satisfacuta.

In acest caz metoda Newton (numita si metoda Newton cu pas variabil )
devine:
x
k+1
= x
k

k
(
2
f(x
k
))
1
f(x
k
).

In general lungimea pasul


k
se alege cu procedura ideala (adic a se obt ine din minimizarea
funct iei unidimensionale min
0
f(x
k
+ d
k
), unde d
k
= (
2
f(x
k
))
1
f(x
k
)) sau cu pro-
cedura backtracking. Bazat pe una din aceste proceduri, observam ca dac a x
k
este sucient
de apropiat de x

, pasul
k
va deveni 1.
2 4 6 8 10 12 14
0
0.05
0.1
0.15
0.2
0.25
|f(x
k
)f
*
|
k
2 4 6 8 10 12 14
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
|| f(x
k
) ||
k
Figura 7.3: Metoda Newton aplicat a funct iei f(x
1
, x
2
) = (x
1
x
3
2
)
2
+3(x
1
x
2
)
4
cu alegerea
pasului prin metoda ideala (linie continua), backtracking (linientrerupta-punctat a) si
k
= 1
(linie ntrerupta). Evolut ia de-a lungul iterat iilor f(x
k
) f

(stanga) si |f(x
k
)| (dreapta).
Urm atoarea teroema furnizeaz a condit ii suciente ce garanteaza convergent a global a a metodei
Newton catre un punct stat ionar.
101 Capitol 7. Metode de ordinul II pentru (UNLP)
Teorema 7.1.3 (Convergent a globala a metodei Newton) Fie funct ia obiectiv f (
2
cu gradientul f Lipschitz. Consideram metoda Newton cu pas variabil x
k+1
= x
k

k
(
2
f(x
k
))
1
f(x
k
), unde
k
se alege folosind backtracking. Mai departe presupunem
ca Hesiana satisface condit ia
1
I
n
_ (
2
f(x
k
))
1
_
2
I
n
pentru orice k 0, unde 0 <

1

2
. Atunci, metoda Newton produce un sir x
k
cu proprietatea ca e f(x
k
) 0, ori
f(x
k
) (adica funct ia f nu este marginita inferior).
Demonstrat ie: Presupunem ca algoritmul Newton produce un sir x
k
astfel ncat sirul
f(x
k
) este m arginit inferior. Din moment ce alegem
k
cu metoda backtracking, avem ca
condit ia Wolfe (W1) este satisfacuta si deci f(x
k+1
) f(x
k
). Stim ca un sir descresc ator si
m arginit inferior este convergent, deci exist a f

astfel ncat f(x


k
) f

. Aceasta implica de
asemenea ca [f(x
k
) f(x
k+1
)] 0. Din condit ia Wolfe (W1) avem ca:
f(x
k
) f(x
k+1
) c
1

k
f(x
k
)
T
d
k
= c
1

k
f(x
k
)
T
(
2
f(x
k
))
1
f(x
k
)
c
1

1
|f(x
k
)|
2
.
Trecand la limita pentru k obt inem ca
c
1

1
|f(x
k
)|
2
0. (7.3)
Este sucient sa ar at am ca
k

min
> 0 pentru orice k 0. Vom ar ata n cele ce urmeaza
ca atunci cand lungimea pasului
k
este aleas a conform procedurii backtracking avem ca

k

min
, unde
min
= min1,
(1c
1
)
L
2
> 0 si L este constanta Lipschitz pentru gradientul
f, adica |f(x) f(y)| L|x y|.
Pentru pas complet
k
= 1 avemn mod evident satisfacuta relat ia
k

min
.

In celalat caz,
datorita procedurii de backtracking pentru alegerea lungimii pasului, avem ca pasul anterior
=

k

nu satisface condit ia Wolfe (W1), pentru ca n caz contrar ar fost folosit acest pas,
si deci:
f(x
k
+

k

d
k
) > f(x
k
) + c
1

f(x
k
)
T
d
k
f(x
k
+

k

d
k
) f(x
k
) > c
1

f(x
k
)
T
d
k
.
Folosind Taylor avem ca exist a (0,

k

) astfel ncat f(x


k
+

k

d
k
) f(x
k
) =

k

f(x
k
+
d
k
)
T
d
k
. Mai departe, obt inem:
f(x
k
+ d
k
)
T
d
k
> c
1
f(x
k
)
T
d
k
(f(x
k
+ d
k
) f(x
k
))
T
. .
Ld
k

2
d
k
> (1 c
1
) (f(x
k
)
T
d
k
)
. .
=d
k
T

2
f(x
k
)d
k
.
102 7.2. Metode cvasi-Newton

In concluzie, t in and seama ca



k

, avem:

L|d
k
|
2
> (1 c
1
)d
T
k

2
f(x
k
)d
k

1 c
1

2
|d
k
|
2
,
ceea ce conduce la
k
>
(1c
1
)

2
L
> 0, adica sirul
k
este m arginit inferior de o constanta
pozitiv a
min
=
(1c
1
)

2
L
. Am folosit faptul ca valorile proprii ale matricei Hesiane satisfac
condit ia:
1

1
(
2
f(x
k
))
1

2
. Din faptul ca
k

min
> 0 si relat ia (7.3) obt inem ca
|f(x
k
)| 0 pentru k .
O observat ie importanta legat a de aceasta metoda t ine de faptul ca direct ia Newton este
direct ie de descrestere dac a
2
f(x
k
) 0. Dac a aceasta condit ie nu este satisfacuta, atunci
n locul matricei
2
f(x
k
) vom considera matricea
k
I
n
+
2
f(x
k
) pentru o valoare adecvat a

k
> 0 astfel ncat noua matrice devine pozitiv denita.

In acest caz metoda Newton cu pas
variabil devine:
x
k+1
= x
k

k
_

k
I
n
+
2
f(x
k
)
_
1
f(x
k
), (7.4)
unde ca si mai nainte lungimea pasului
k
se alege prin metoda ideal a sau backtracking.

In cele ce urmeaza denim o procedur a de alegere a constantei


k
. Observ am ca dac a
alegem
k
prea mic pentru ca iterat ia de mai sus sa e aproximativ similar a cu cea a metodei
Newton (care are rata de convergent a patratic a locala) atunci putem avea probleme numerice
datorita faptului ca Hesiana este prost condit ionat a cand este aproape singular a. Pe de alta
parte, dac a
k
este foarte mare atunci matricea
k
I
n
+
2
f(x
k
) este diagonal dominanta
si deci metoda va avea un comportament similar cu algoritmul gradient (care are rat a de
convergent a liniar a). Dand o iterat ie x
k
si
k
> 0, ncercam sa calculam factorizarea Cholesky
L
T
L a matricei
k
I
n
+
2
f(x
k
). Dac a aceasta factorizare nu este posibil a atunci multiplic am

k
cu un factor (de exemplu putem alege = 4) si repet am pana cand aceast a factorizare
este posibil a. Odat a ce aceasta factorizare este posibil a, o folosimn aarea direct iei Newton,
adica o folosim n rezolvarea sistemului L
T
L d
k
= f(x
k
).
Convergent a globala a metodei Newton modicata (7.4) se demonstreaz a n aceeasi manier a
ca n Teorema 7.1.3.
7.2 Metode cvasi-Newton
Dupa cum am ment ionat anterior, principalul dezavantaj al metodei Newton const a in faptul
ca la ecare iterat ie este nevoie sa calculam Hesiana si inversa sa, operat ii costisitoare in
general de ordinul O(n
3
). Metodele cvasi-Newton au scopul de a nlocui inversa Hesianei

2
f(x
k
)
1
cu o matrice H
k
ce poate calculata mult mai usor dar in acelasi timp de a pastra
rata de convergent a rapid a a metodei Newton.

In metodele cvasi-Newton se construieste
103 Capitol 7. Metode de ordinul II pentru (UNLP)
de asemenea o aproximare patratic a a funct iei obiectiv unde Hesiana funct iei patratice se
construieste pe baza diferent elor de gradient, deci aceste metode folosesc numai informat ie
de ordinul ntai. Mai mult, costul per iterat ie la metodele cvasi-Newton este de ordinul
O(n
2
). Consideram urmatoarea iterat ie:
x
k+1
= x
k

k
H
k
f(x
k
).
Se observa ca direct ia d
k
= H
k
f(x
k
) este una de descrestere dac a matricea H
k
0:
f(x
k
)
T
d
k
= f(x
k
)
T
H
k
f(x
k
) < 0.

In metoda cvasi-Newton pasul


k
se alege de obicei cu procedura ideal a sau pe baz a de
backtracking.

In general, ca si n cazul metodei Newton, dac a x
k
este sucient de apropiat
de solut ia x

alegem
k
= 1.
Obiectivul nostru este de a gasi reguli de actualizare pentru matricea H
k
astfel ncat aceasta
sa convearga asimptotic la adev arata inversa a Hesianei, adica
H
k

2
f(x

)
1
.
Din aproximarea Taylor avem:
f(x
k+1
) f(x
k
) +
2
f(x
k
)(x
k+1
x
k
).

In concluzie, din aproximarea adev aratei Hesiane


2
f(x
k
) cu matricea B
k+1
obt inem urmatoarea
relat ie
f(x
k+1
) f(x
k
) = B
k+1
(x
k+1
x
k
) (7.5)
sau echivalent, not and H
k+1
= B
1
k+1
obt inem
H
k+1
(f(x
k+1
) f(x
k
)) = x
k+1
x
k
. (7.6)
Relat iile (7.5) sau (7.6) se numesc ecuat ia secantei.
Pentru H
1
k+1
=
2
f(x
k
) recuper am metoda Newton. Se observa ca avem o interpretare
similar a cu cea a metodei Newton, si anume ca la ecare iterat ie, consider am o aproximare
patratic a convexa a funct iei obiectiv (i.e. B
k
0) si o minimizam pentru a obt ine direct ia de
la urmatorul pas:
d
k
= arg min
dR
n
f(x
k
) +f(x
k
)
T
d +
1
2
d
T
B
k
d. (7.7)

Intrucat Hesiana este simetrica este necesar ca matricile B


k+1
si H
k+1
sa e simetrice de
asemenea.

In concluzie avem n ecuat ii (din relat ia (7.6)) cu
n(n+1)
2
necunoscute (prin im-
punerea simetriei asupra matricei H
k+1
) si deci se obt ine un numar innit de solut ii.

In
continuare vom enunt a diferite reguli de actualizare a matricei B
k+1
sau H
k+1
ce satisfac
ecuat ia secantei (7.5) sau (7.6) si simetria.
104 7.2. Metode cvasi-Newton
7.2.1 Updatari de rang unu
Cea mai simpl a updatare posibil a pentru matricea B
k
sau echivalent pentru matricea H
k
este cea de rang unu.

In acest caz consider am o matrice simetrica pozitiv denit a init iala
B
0
dat a si apoi actualizam matricea B
k+1
prin urmatoarea formul a:
B
k+1
= B
k
+
k
u
k
u
T
k
,
unde
k
R si u
k
R
n
sunt alese astfel ncat ecuat ia secantei (7.5) sa e satisfacuta.
Observam ca dac a matricea simetrica B
0
0 si
k
0 atunci matricile B
k
sunt simetrice si
pozitiv denite pentru orice k 0. Introducem urmatoarele notat ii:

k
= x
k+1
x
k
and
k
= f(x
k+1
) f(x
k
).
Impunem asupra matricei B
k+1
condit ia (7.5):
B
k+1

k
=
k
.
Aceasta conduce la

k
= B
k

k
+
k
(u
T
k

k
)u
k
.
Concluzionam ca u
k
= (
k
B
k

k
) pentru un anumit scalar si nlocuind aceasta expresie
n egalitatea precedenta obt inem:

k
B
k

k
=
k

2
[(
k
B
k

k
)
T

k
](
k
B
k

k
).
Din aceast a relat ie rezulta ca
k
si trebuie alese astfel ncat:

k
= sgn((
k
B
k

k
)
T

k
), = [(
k
B
k

k
)
T

k
[
1/2
.

In concluzie obt inem urmatoarea formul a pentru actualizarea lui B


k+1
:
B
k+1
= B
k
+
1
(
k
B
k

k
)
T

k
(
k
B
k

k
)(
k
B
k

k
)
T
.
Aplicand formula Sherman-Morrison pentru H
k+1
= B
1
k+1
obt inem urmatoarea actualizare
pentru H
k+1
:
H
k+1
= H
k
+
1

T
k
(
k
H
k

k
)
(
k
H
k

k
)(
k
H
k

k
)
T
.
Pentru a garanta ca H
k+1
0 este necesara satisfacerea urmatoarei inegalitat i:

T
k
(
k
H
k

k
) > 0.

Ins a n practic a se poate observa ca exist a si cazuri cand


T
k
(
k
H
k

k
) = 0. O strategie
folosita n aceasta situat ie este urmatoarea: dac a
T
k
(
k
H
k

k
) este mic, de exemplu
[
T
k
(
k
H
k

k
)[ < r|
k
| |
k
H
k

k
|, pentru un r < 1 sucient de mic, atunci consider am
H
k+1
= H
k
.
105 Capitol 7. Metode de ordinul II pentru (UNLP)
7.2.2 Updatari de rang doi

In updat arile de rang doi pornim de asemenea de la ecuat ia secantei (7.5). Din moment ce
avem o innitate de matrici simetrice ce satisfac aceasta ecuat ie, determinam B
k+1
n mod
unic prin impunerea condit iei ca aceasta matrice sa e cat mai aproape posibil de matricea
de la iterat ia precedenta B
k
:
B
k+1
= arg min
B=B
T
, B
k
=
k
|B B
k
|,
unde | | este o anumita norm a pe matrici. Pentru o rezolvare explicit a a problemei de
optimizare de mai sus putem considera norma
|A|
W
= |W
1/2
AW
1/2
|
F
,
adica norma Frobenius, unde matricea W este aleas a astfel ncat sa e pozitiv denit a
satisf ac and condit ia W
k
=
k
.

In acest caz solut ia B
k+1
a problemei de optimizare de mai
sus este dat a de urmatoarea formul a:
B
k+1
= (I
n

T
k
)B
k
(I
n

T
k
) +
k

T
k
,
unde
k
=
1

T
k

k
. Folosind formula Sherman-Morrison-Woodbury obt inem ca updatarea
pentru H
k+1
= B
1
k+1
este dat a de expresia:
H
k+1
= H
k
+
1

T
k

T
k

1

T
k
H
k

k
(H
k

k
)(H
k

k
)
T
.
Metoda de optimizare cvasi-Newton bazata pe aceasta updatare a matricei H
k+1
sa numeste
metoda Davidon-Fletcher-Powell (DFP).
Ca si mai nainte alegem matricea init iala H
0
0. Metoda (DFP) satisface urmatoarele
propriet at i
(i) Toate matricile H
k
0 pentru orice k 0.
(ii) Dac a f(x) =
1
2
x
T
Qx q
T
x este patratic a si strict convexa atunci metoda (DFP)
furnizeaz a direct ii conjugate, adica vectorii d
k
= H
k
f(x
k
) sunt direct ii Q-conjugate.
Mai mult, H
n
= Q
1
si n particular dac a H
0
= I
n
atunci direct iile d
k
coincid cu
direct iile din metoda gradient ilor conjugat i. De aceea, putem gasi solut ia unei probleme
de optimizare patratice n maximum n pasi cu ajutorul metodei cvasi-Newton (DFP).
Dac a n locul problemei de optimizare anterioare consider am problema
H
k+1
= arg min
H=H
T
, H
k
=
k
|H H
k
|,
106 7.2. Metode cvasi-Newton
unde folosim aceeasi norm a pe matrici ca si nainte, dar de data aceasta matricea pozitiv
denita W satisface condit ia W
k
=
k
. Obt inem urmatoarea solut ie, numit a si metoda
Broyden-Fletcher-Goldfarb-Shanno (BFGS):
H
k+1
= H
k

T
k

k
_
(H
k

k
)
T
k
+
k
(H
k

k
)
T
_
+
k
(
k

T
k
)

k
=
1

T
k

k
_
1 +

T
k

k

T
k

k
_
.
Aceleasi propriet at i sunt valide si pentru metoda (BFGS) ca si n cazul metodei (DFP).
Cu toate acestea, din punct de vedere numeric, (BFGS) este considerata cea mai stabila
metoda. Se observa ca metodele cvasi-Newton necesit a doar informat ie de ordinul ntai (adic a
avem nevoie de informat ie de tip gradient). Observam de asemenea ca num arul de operat ii
aritmetice pentru updatarea matricilor H
k+1
si apoi pentru calcularea noului punct x
k+1
este de ordinul O(n
2
), mult mai mic decat n cazul metodei Newton care are complexitate
de ordinul O(n
3
). Mai mult, direct iile generate de metodele cvasi-Newton sunt direct ii de
descrestere dac a asiguram satisfacerea condit iei H
k
0.

In general H
k
(
2
f(x

))
1
pentru k , iar n anumite condit ii vom ar ata ca aceste metode au rat a de convergent a
superliniara.
7.2.3 Convergent a locala a metodelor cvasi-Newton

In aceasta sect iune analizam rata de convergent a locala a metodelor cvasi-Newton, n par-
ticular ar at am convergent a superliniara pentru aceste metode:
Teorema 7.2.1 Fie x

un punct ce satisface condit iile suciente de optimalitate de ordinul


II. Presupunem iterat ia cvasi-Newton de forma x
k+1
= x
k
H
k
f(x
k
), unde H
k
este in-
versabila pentru orice k 0 si satisface urmatoarea condit ie Lipschitz:
|H
k
(
2
f(x
k
)
2
f(y))| M|x
k
y| y R
n
,
si condit ia de compatibilitate
|H
k
(
2
f(x
k
) H
1
k
)|
k
(7.8)
cu 0 < M < si
k
< 1. De asemenea presupunem ca
|x
0
x

|
2(1 )
M
. (7.9)
Atunci x
k
converge la x

cu rata superliniara sub ipoteza ca


k
0 sau rata liniara daca

k
> > 0.
107 Capitol 7. Metode de ordinul II pentru (UNLP)
Demonstratie: Ar at am ca |x
k+1
x

|
k
|x
k
x

|, unde
k
< .

In acest scop, avem
urmatoarele relat ii:
x
k+1
x

= x
k
x

H
k
f(x
k
)
= x
k
x

H
k
(f(x
k
) f(x

))
= H
k
(H
1
k
(x
k
x

)) H
k
_
1
0

2
f(x

+ (x
k
x

))(x
k
x

)d
= H
k
(H
1
k

2
f(x
k
))(x
k
x

)
H
k
_
1
0
_

2
f(x

+ (x
k
x

))
2
f(x
k
)
_
(x
k
x

)d.
Aplicand norma n ambele part i, rezulta:
|x
k+1
x

|
k
|x
k
x

| +
_
1
0
M|x

+ (x
k
x

) x
k
|d |x
k
x

|
=
_

k
+ M
_
1
0
(1 )d|x
k
x

|
_
|x
k
x

|
=
_

k
+
M
2
|x
k
x

|
_
|x
k
x

|.
Avem urmatoarea rata de convergent a:
|x
k+1
x

|
k
|x
k
x

|,
unde
k
=
k
+
M
2
|x
k
x

|. Observam ca obt inem rata de convergent a superliniara dac a

k
0, care are loc cand
k
0.
Convergent a globala a metodelor cvasi-Newton se poate ar ata n aceeasi manier a ca n
Teorema 7.1.3 corespunz atoare cazului metodei Newton. Metodele cvasi-Newton care se
bazeaz a pe aproximarea inversei Hesianei reprezinta clasa de metode cea mai sosticata
pentru rezolvarea problemelor de optimizare far a constrangeri si constituie punctul culmi-
nant n dezvoltarea de algoritmi ecient i pentru aceste tipuri de probleme. Desi folosesc
numai informat ie de gradient, n special prin m asurarea schimbarilor n gradient i, metodele
cvasi-Newton construiesc o aproximare patratic a a funct iei obiectiv sucient de bun a pen-
tru a produce convergent a superliniara. Aceste metode sunt implementate n majoritatea
pachetelor software existente: Matlab, IPOPT, etc.
108 7.2. Metode cvasi-Newton
Capitol 8
Probleme de estimare si tting
Problemele de estimare si tting sunt probleme de optimizare av and funct ii obiectiv cu
structura speciala, si anume de tipul celor mai mici patrate:
min
xR
n
1
2
| /(x)|
2
. (8.1)
In aceasta problem a de optimizare, R
m
sunt m masuratori si / : R
n
R
m
este
un model, iar x R
n
se numesc parametrii modelului. Dac a adev arata valoare a lui x ar
cunoscuta, am putea evalua modelul /(x) pentru a obt ine predict iile corespunz atoare
m asuratorilor. Calculul lui /(x), ce poate reprezenta o funct ie foarte complexa si de ex-
emplu include n structura sa solut ia unei ecuat ii diferent iale, se numeste uneori problema
forward: pentru intr ari date ale modelului, se determina iesirile corespunz atoare.
In problemele de estimare si tting se cauta setul de parametri ai modelului x ce realizeaz a
o predict ie /(x) cat mai exacta pentru m asuratorile date. Aceasta problem a este denu-
mit a uzual problema inversa: pentru un vector de iesiri ale modelului , se cauta intr arile
corespunz atoare folosind un model ce depinde de setul de parametri x R
n
. Aceasta clas a
de probleme de optimizare (8.1) este frecvent intalnita n cadrul unor aplicat ii cum ar :
aproximare de funct ii si estimare de parametri
estimare online pentru controlul proceselor dinamice
prognoz a meteo (asimilare de date meteorologice)
109
110 8.1. Problema celor mai mici patrate (CMMP): cazul liniar
Figura 8.1: Aproximarea funct iei sin(x) cu polinoame de grad unu pana la gradul patru.
8.1 Problema celor mai mici patrate (CMMP): cazul
liniar
Reamintim mai ntai denit ia pseudo-inversei unei matrici:
Denit ia 8.1.1 (Pseudo-Inversa Moore-Penrose) Fie matricea J R
mn
cu rang(J)
= r, iar descompunerea valorilor singulare (DVS) corespunzatoare lui J data de J = UV
T
.
Atunci, pseudo-inversa Moore-Penrose J
+
are expresia:
J
+
= V
+
U
T
,
unde
1
, . . . ,
r
sunt valorile singulare ale matricei J si pentru
=
_

1
.
.
.

r
0
_

_
, denim
+
=
_

1
1
.
.
.

1
r
0
_

_
.
Teorema 8.1.2 Daca rank(J) = n, atunci
J
+
= (J
T
J)
1
J
T
.
Daca rank(J) = m, atunci
J
+
= J
T
(JJ
T
)
1
.
Demonstrat ie: Observam urmatoarele relat ii:
(J
T
J)
1
J
T
= (V
T
U
T
UV
T
)
1
V
T
U
T
= V (
T
)
1
V
T
V
T
U
T
= V (
T
)
1

T
U
T
= V
+
U
T
.
111 Capitol 8. Probleme de estimare si tting
Se urmeaza un rat ionament similar si n cel de-al doilea caz.
Se observa ca dac a rank(J) = n, i.e. coloanele lui J sunt liniar independente atunci J
T
J
este inversabil a.
Intalnim frecvent n aplicat ii de estimare si tting modele descrise de funct ii liniare n x.
Dac a / este liniar, adica /(x) = Jx, atunci funct ia obiectiv devine f(x) =
1
2
| Jx|
2
,
ceea ce reprezinta o funct ie convexa patratic a datorita faptului ca Hesiana
2
f(x) = J
T
J0.

In acest caz denim problema CMMP liniar a ca:


min
xR
n
f(x)
_
=
1
2
| Jx|
2
_
.
Deoarece n problema CMMP liniar a funct ia obiectiv f este patratic a convexa, condit iile de
optimalitate de ordinul ntai f(x) = 0 sunt suciente pentru determinarea unui punct de
optim global.

In concluzie, orice solut ie a sistemului J
T
Jx J
T
= 0 este punct de minim
global al problemei CMMP. Presupun and ca rank(J) = n, punctul de minim global este unic
si se determina prin urmatoarea relat ie:
J
T
Jx

J
T
= 0 x

= (J
T
J)
1
J
T
= J
+
. (8.2)
Exemplu [Problema mediei]: Fie urmatoarea problem a simpl a de optimizare:
min
xR
1
2
m

i=1
(
i
x)
2
.
Observam ca se incadreaza n clasa de probleme liniare de tip CMMP, unde vectorul si
matricea J R
m1
sunt date de
=
_

1
.
.
.

m
_

_
, J =
_

_
1
.
.
.
1
_

_
. (8.3)
Deoarece J
T
J = m, se observa usor ca
J
+
= (J
T
J)
1
J
T
=
1
m
_
1 1 1

si din acest motiv concluzionam ca punctul de minim este egal cu media a punctelor date

i
, adica:
x

= J
+
=
1
m
m

i=1

i
= .
112 8.1. Problema celor mai mici patrate (CMMP): cazul liniar
Exemplu [Regresie liniara]: Se da setul de date t
1
, . . . , t
m
cu valorile corespunz atoare

1
, . . . ,
m
. Dorim sa determinam vectorul parametrilor x = (x
1
, x
2
), astfel ncat polinomul
de ordinul ntai p(t; x) = x
1
+ x
2
t realizeaz a predict ia lui la momentul t. Problema de
optimizare se prezinta sub forma:
min
xR
2
1
2
m

i=1
(
i
p(t
i
; x))
2
= min
xR
2
1
2
_
_
_
_
J
_
x
1
x
2
__
_
_
_
2
,
unde este acelasi vector ca si n cazul (8.3), iar J este dat de
J =
_

_
1 t
1
.
.
.
.
.
.
1 t
n
_

_
.
Punctul de minim local este determinat de ecuat ia (8.2), unde calculul matricei (J
T
J) este
trivial:
J
T
J =
_
m

t
i

t
i

t
2
i
_
= m
_
1

t

t

t
2
_
.
Pentru a obt ine x

, n primul rand se calculeaza (J


T
J)
1
:
(J
T
J)
1
=
1
m(

t
2
(

t)
2
)
_

t
2

t 1
_
. (8.4)

In al doilea rand, calculam J


T
dup a cum urmeaza:
J
T
=
_
1 1
t
1
t
m
_
_

1
.
.
.

m
_

_
=
_

i
t
i
_
= m
_

t
_
. (8.5)
Deci, punctul de minim local este determinat de combinarea expresiilor (8.4) si (8.5). Se
observa ca:

t
2
(

t)
2
=
1
m

(t
i

t)
2
=
2
t
,
unde ultima relat ie rezulta din denit ia standard a variantei
t
. Coecientul de corelat ie
este denit similar de expresia:
=

(
i
)(t
i

t)
m
t

.
Vectorul parametrilor x = (x
1
, x
2
) este determinat de:
x

=
1

2
t
_

t
2

t

t

t +

t
_
=
_

_
.
In nal, expresia poate formulata ca un polinom de gradul ntai:
p(t; x

) = + (t

t)

t
.
113 Capitol 8. Probleme de estimare si tting
8.1.1 Probleme CMMP liniare prost condit ionate
Dac a J
T
J este inversabil a, mult imea solut iilor optime X

cont ine un singur punct de op-


tim x

, determinat de ecuat ia (8.2): X

= (J
T
J)
1
J. Dac a J
T
J nu este inversabil a,
mult imea solut iilor X

este dat a de
X

= x R
n
: f(x) = 0 = x R
n
: J
T
Jx J
T
= 0.
Pentru alegerea celei mai bune solut ii din aceaste mult ime, se cauta solut ia cu norma minima,
adica vectorul x

cu norma minima ce satisface condit ia x

.
min
xX

1
2
|x|
2
. (8.6)
Ar at am mai departe ca aceasta solut ie cu norm a minima este dat a de pseudo-inversa Moore-
Penrose, adica solut ia optima a problemei de optimizare (8.6) este dat a de x

= J
+
. Solut ia
cu norma minima, adica solut ia problemei de optimizare (8.6), poate determinat a dintr-o
problema regularizat a CMMP liniar a si anume:
min
xR
n

f(x)
_
=
1
2
| Jx|
2
+

2
|x|
2
_
, (8.7)
cu o constanta > 0 sucient de mic a. Se stie ca problema de optimizare (8.7) este echiva-
lenta cu problema de optimizare (8.6) cu condit ia ca sucient de mic este ales n mod
adecvat. Condit iile de optimalitate pentru problema patratic a convexa (8.7) sunt:

f(x) = J
T
Jx J
T
+ x = (J
T
J + I
n
)x J
T
= 0
x

= (J
T
J + I
n
)
1
J
T
. (8.8)
Lema 8.1.3 Urmatoarea relat ie are loc pentru o matrice J R
mn
:
lim
0
(J
T
J + I
n
)
1
J
T
= J
+
.
Demonstrat ie: Din descompunerea DVS corespunz atoare matricei J = UV
T
avem ca
matricea (J
T
J + I
n
)
1
J
T
poate scrisa n forma:
(J
T
J + I
n
)
1
J
T
= (V
T
U
T
UV
T
+ I
n
..
V V
T
)
1
J
T
..
U
T
V
T
= V (
T
+ I
n
)
1
V
T
V
T
U
T
= V (
T
+ I
n
)
1

T
U
T
.
Partea dreapt a a ecuat iei are expresia:
V
_

2
1
+
.
.
.

2
r
+

_
1
_

1
.
.
.

r
0
_

_
U
T
114 8.1. Problema celor mai mici patrate (CMMP): cazul liniar
Calcularea produsului de matrici conduce la:
V
_

2
1
+
.
.
.
r

2
r
+
0

_
U
T
.
Se observa usor ca pentru 0 ecare element diagonal are forma:
lim
0

2
i
+
=
_
1

i
daca
i
,= 0
0 daca
i
= 0.

Am ar atat ca pseudo-inversa Moore-Penrose J


+
rezolv a problema (8.7) pentru o constanta
sucient de mic a > 0. Din acest motiv, se realizeaz a select ia unei solut ii x

cu norma
minim a.
8.1.2 Formularea statistica a problemelor CMMP liniare
O problem a CMMP liniar a (8.1) poate interpretata n sensul determinarii unui set de
parametri x R
n
ce explica m asuratorile perturbate n cel mai bun mod. Fie
1
, . . . ,
m
valorile observate ale unei variabile aleatoare av and densitatea P([x) ce depinde de setul
de parametri x. Presupunem
i
= M
i
(x) +
i
, cu x valoarea adevarata a parametrului si
i
zgomot Gaussian cu media E(
i
) = 0 si varianta E(
i

i
) =
2
i
. Mai mult presupunem ca
i
si
j
sunt independente. Atunci denim functia de verosimilitate:
P([x) =
m

i=1
P(
i
[ x) =
m

i=1
exp
_
(
i
M
i
(x))
2
2
2
i
_
. (8.9)
Metoda verosimilitat ii maxime (introdus a de Fischer in 1912) presupune ca estimatorul x

al adev aratului set de parametrii x este egal cu valoarea optima ce maximizeaza funct ia de
verosimilitate. Estimatorul astfel obt inut se numeste estimator de verosimilitate maxima.

In general, funct iile P([x) si log P([x) si ating maximul n acelasi punct x

. Pentru a
determina deci punctul de maxim al funct iei de verosimilitate P([x) determinam punctul
de maxim al funct iei log P([x):
log P([x) =
m

i=1

(
i
M
i
(x))
2
2
2
i
.
115 Capitol 8. Probleme de estimare si tting
Deci parametrul ce maximizeaza P([x) este dat de:
x

= arg max
xR
n
P([x) = arg min
xR
n
log(P([x))
= arg min
xR
n
m

i=1
(
i
M
i
(x))
2
2
2
= arg min
xR
n
1
2
|S
1
( M(x))|
2
,
unde S = diag(
2
1
, . . . ,
2
m
). Deci, concluzionam ca problema CMMP are o interpretare
statistic a. Se observa ca datorita faptului ca putem avea diferite deviat ii standard
i
pentru
diferite masuratori
i
, se recomand a scalarea masuratorilor si funct iilor modelului pentru a
obt ine o funct ie obiectiv n forma uzual a CMMP |

M(x)|
2
2
, dup a cum urmeaza
min
x
1
2
n

i=1
_

i
M
i
(x)

i
_
2
= min
x
1
2
|S
1
( M(x))|
2
= min
x
1
2
|S
1
S
1
M(x)|
2
.
8.2 Problema celor mai mici patrate (CMMP): cazul
neliniar
Problemele CMMP liniare se pot rezolva usor folosind metode numerice matriceale cla-
sice, cum ar factorizarea QR. Pe de alta parte, rezolvarea globala a problemelor neliniare
CMMP este n general NP-hard, dar pentru determinarea unui minim local se poate real-
iza iterativ. Principiul de baz a const a n faptul ca la ecare iterat ie aproximam problema
original a cu propria liniarizare n punctul curent.

In acest fel obt ine o apreciere mai bun a
pentru urmatoarea iterat ie, obt in and acelasi procedeu prin care metoda Newton determina
radacinile unui polinom dat.

In mod uzual, pentru probleme neliniare CMMP de forma:


min
xR
n
1
2
| M(x)|
2
se aplic a metoda Gauss-Newton sau metoda Levenberg-Marquardt. Pentru a descrie aceste
metode, introducem mai ntai cateva notat ii convenabile:
F(x) = M(x)
si redenim funct ia obiectiv prin:
f(x) =
1
2
|F(x)|
2
,
unde F(x) este o funct ie neliniara F : R
n
R
m
, cu m > n (adic a consider am un num ar
mai mare de m asuratori decat parametri).
116 8.2. Problema celor mai mici patrate (CMMP): cazul neliniar
8.2.1 Metoda Gauss-Newton (GN)
Metoda Gauss-Newton este o metoda specializat a pentru a rezolva problema CMMP neliniara:
min
xR
n
f(x)
_
=
1
2
|F(x)|
2
_
. (8.10)

Intr-un punct dat x


k
la iterat ia k, F(x) este liniarizat
F(x) F(x
k
) + J(x
k
)(x x
k
),
unde J(x) este Jacobianul lui F(x) denit de
J(x) =
F(x)
x
,
iar urmatoarea iterat ie x
k+1
se obt ine prin rezolvarea unei probleme liniare CMMP. In con-
cluzie, x
k+1
poate determinat ca o solut ie a urmatoarei probleme liniare CMMP:
x
k+1
= arg min
xR
n
1
2
|F(x
k
) + J(x
k
)(x x
k
)|
2
.
Pentru simplitate, n locul notat iei J(x
k
) folosim J
k
, iar n locul lui F(x
k
) folosim F
k
si dac a
presupunem ca J
T
k
J
k
este inversabil a atunci:
x
k+1
= arg min
xR
n
1
2
|F
k
+ J
k
(x x
k
)|
2
= x
k
+ arg min
dR
n
1
2
|F
k
+ J
k
d|
2
= x
k
(J
T
k
J
k
)
1
J
T
k
F
k
.
Observam ca n iterat ia metodei Gauss-Newton direct ia
d
k
= (J
T
k
J
k
)
1
J
T
k
F
k
= J
+
k
F
k
= arg min
dR
n
1
2
|F
k
+ J
k
d|
2
este o direct ie de descrestere pentru funct ia f deoarece f(x
k
) =
_
F(x
k
)
x
_
T
F(x
k
) = J
T
k
F
k
si matricea J
T
k
J
k
este pozitiv denita. Pentru a asigura convergent a metodei Gauss-Newton
de obicei, introducem de asemenea si un pas de lungime
k
, adica
x
k+1
= x
k

k
(J
T
k
J
k
)
1
J
T
k
F
k
,
unde
k
se alege cu una din procedurile descrise n capitolele anterioare (ideala, satisf ac and
condit iile Wolfe sau backtracking). Se poate observa ca n apropierea punctului de minim
local lungimea pasului devine 1, adica
k
= 1.
117 Capitol 8. Probleme de estimare si tting
8.2.2 Metoda Levenberg-Marquardt
Aceasta metoda reprezinta generalizarea metodei Gauss-Newton, ce se aplic a n cazurile
particulare cand J
T
k
J
k
nu este inversabil a si poate conduce la o convergent a mai robust a
pornind dintr-o regiune ndep artat a fat a de solut ie. Metoda Levenberg-Marquardt realizeaz a
un avans mai redus prin penalizarea normei acestuia. Directia n aceast a metoda este dat a
de urmatoarea expresie:
d
k
= arg min
d
1
2
|F
k
+ J
k
d|
2
2
+

k
2
|d|
2
2
(8.11)
= (J
T
k
J
k
+
k
I
n
)
1
J
T
k
F
k
(8.12)
cu scalarul
k
> 0 ales astfel ncat matricea J
T
k
J
k
+
k
I
n
este pozitiv denit a. Utiliz and
aceast a direct ie, iterat ia n metoda Levenberg-Marquardt este dat a de urmatoarea expresie:
x
k+1
= x
k

k
(J
T
k
J
k
+
k
I
n
)
1
J
T
k
F
k
, (8.13)
unde
k
se alege iarasi cu una din procedurile descrise n capitolele anterioare.

In mod
similar, n apropierea punctului de minim local lungimea pasului devine 1, adica
k
= 1.
Observam ca dac a valoarea scalarului
k
se consider a foarte mare, nu am aplica nici o
corect ie punctului curent x
k
pentru ca dac a
k
atunci direct ia n metoda Levenberg-
Marquardt satisface d
k
0. Mai precis, n acest caz d
k

1

k
J
T
k
F
k
0. Pe de alta parte,
pentru valori mici ale lui
k
, adica pentru
k
0 avem ca direct ia n metoda Levenberg-
Marquardt satisface d
k
J
+
k
F
k
(conform Lemmei 8.1.3) si deci coincide cu direct ia din
metoda Gauss-Newton.

In cele ce urmeaza ar at am ca aceste dou a metode au legatura strans a cu metoda New-


ton. Este interesant de observat ca gradientul funct iei obiectiv aferenta problemei CMMP
neliniara f(x) =
1
2
|F(x)|
2
2
este dat de relat ia:
f(x) = J(x)
T
F(x),
unde reamintim ca J(x) este Jacobianul funct iei F(x).

In mod evident acest gradient se
regaseste n iterat iile metodelor Gauss-Newton sau Levenberg-Marquardt. Deci, dac a gra-
dientul este nul, atunci direct iile n cele dou a metode sunt de asemenea nule. Aceasta
este o condit ie necesara pentru convergent a la puncte stat ionare a unei metode: ambele
metode Gauss-Newton si Levenberg-Marquardt nu avanseaz a dintr-un punct stat ionar x
k
cu
f(x
k
) = 0. Mai departe not am cu F
i
componenta i a funct iei multivectoriale F. Utiliz and
calcul diferent ial standard observam ca Hesiana funct iei obiectiv f este dat a de urmatoarea
expresie:

2
f(x) = J(x)
T
J(x) +
m

i=1
F
i
(x)
2
F
i
(x).

In concluzie, n cele dou a metode Gauss-Newton si Levenberg-Marquardt neglij am cel de-al


doilea termen al Hesianei funct iei obiectiv f, adica termenul

m
i=1
F
i
(x)
2
F
i
(x). Deci n
118 8.2. Problema celor mai mici patrate (CMMP): cazul neliniar
aceste metode salvam calcule prin neluarea n calcul al acestui termen

m
i=1
F
i
(x)
2
F
i
(x),
ceea ce n principiu conduce la o deteriorare a ratei de convergenta a acestor metode fat a
de rata de convergent a a metodei Newton. Pe de alta parte dac a acest termen

m
i=1
F
i
(x)

2
F
i
(x) este mic n apropierea unei solut ii locale, atunci rata de convergent a a acestor dou a
metode este comparabil a cu cea a metodei Newton. Observam c a acest termen este mic n
apropierea unei solut ii dac a funct ia F(x) este aproape liniar a sau dac a componentele F
i
(x)
sunt mici in apropiere de solut ie. De exemplu, dac a se cauta o solutie a sistemului neliniar
F(x) = 0, cu m = n, atunci termenul neglijat este nul la solut ie. Mai mult dac a matricea
J
k
= J(x
k
) R
nn
este inversabil a, atunci direct ia n metoda Gauss-Newton este dat a de
(J
T
k
J
k
)
1
J
T
k
F
k
= J
1
k
F
k
.
Deci iterat ia n aceasta metoda devine
x
k+1
= x
k
(J(x
k
))
1
F(x
k
),
si deci coincide cu iterat ia din metoda Newton standard pentru rezolvarea sistemului F(x) =
0.

In acest caz de obicei rata de convergent a este superliniara.
Convergent a globala si locala a metodelor Gauss-Newton si Levenberg-Marquardt poate
derivat a utiliz and argumente similare ca cele din capitolul precedent pentru metoda (cvasi-)
Newton. Pentru convergent a locala avem urmatorul rezultat:
Teorema 8.2.1 Fie x

un punct ce satisface condit iile suciente de ordinul doi. Iterat ia


metodelor Gauss-Newton sau Levenberg-Marquardt n apropierea punctului x

are forma
x
k+1
= x
k
H
k
f(x
k
), unde matricea H
k
este data e de H
k
= (J
T
k
J
k
)
1
sau de H
k
=
(J
T
k
J
k
+
k
I
n
)
1
. Pentru matricea inversabila pozitiv denita H
k
presupunem satisfacuta
urmatoarea condit ie Lipschitz:
|H
k
(
2
f(x
k
)
2
f(y))| M|x
k
y| k N, y R
n
si, de asemenea, condit ia de compatibilitate
|H
k
(
2
f(x
k
) H
1
k
)|
k
k N (8.14)
cu 0 < M < si
k
< 1. Presupunem de asemenea ca
|x
0
x

|
2(1 )
M
. (8.15)
Atunci x
k
converge la x

cu rata liniara daca


k
> > 0.
Demonstratie: Vezi demonstrat ia Teoremei 7.2.1.
119 Capitol 8. Probleme de estimare si tting
8.3 Aplicat ie: identicarea unui sistem Hammerstein
Un sistem dinamic Hammerstein este un sistem discret de tip cascad a format dintr-o com-
ponenta neliniara, urmata de o dinamica liniar a (vezi Fig. 8.2). Multe sisteme practice pot
modelate folosindu-se acest tip de dinamica neliniara, e.g. modelarea liniilor de transmisie
sau amplicatoarelor de putere nalta, etc. Componenta statica neliniara este reprezentat a
de o funct ie neliniara G(), n timp ce componenta dinamica liniar a este descris a de o funct ie
de transfer H(q) = q
1
Ap(q
1
)
Bp(q
1
)
, unde A
p
si B
p
sunt polinoame. Problema const a n gasirea
coecient ilor a
i
si b
j
pentru orice i = 1, . . . , n
A
si j = 0, . . . , n
B
, unde n
A
si n
B
sunt gradele
polinoamelor A
p
(q
1
) si B
p
(q
1
) si aproximarea componentei neliniare G(), folosind numai
date de intr ari, u
t
, si iesiri, y
t
. Consideram de asemenea ca e
t
reprezinta erori de m asurare.
Principala caracteristica a acestei probleme este aceea ca semnalul intermediar, x
t
, nu este
accesibil pentru m asuratori, si deci componenta neliniara G() nu se poate determina direct
din teoria de aproximare a funct iilor.
Figura 8.2: Sistem dinamic discret Hammerstein.
Ecuat iile ce descriu sistemul Hammerstei sunt urmatoarele:
_

_
A(q
1
)y
t
= B(q
1
) x
t1
+ A(q
1
)e
t
x
t
= G(u
t
)
A(q
1
) = 1 + a
1
q
1
+ a
2
q
2
+ + a
n
A
q
n
A
B(q
1
) = b
0
+ b
1
q
1
+ b
2
q
2
+ + b
n
B
q
n
B
.
(8.16)
Pentru problema aproximarii componentei neliniare G() utiliz am aproximarea bazata pe
funct ii de baz a:
G(u
t
) =

i
f
i
(u
t
) +
t
, (8.17)
unde f
i
() sunt functii de baz a (e.g. funct ii polinomiale) si
t
reprezinta eroarea de aproxi-
mare.

Inlocuind ecuat ia (8.17) n (8.16), obt inem:
y
t
=a
1
y
t1
a
2
y
t2
a
n
A
y
tn
A
(8.18)
+ b
0

i
f
i
(u
t1
) + + b
n
B

i
f
i
(u
tn
B
1
) + v
t
,
120 8.3. Aplicat ie: identicarea unui sistem Hammerstein
pentru orice t = N
0
, , N
max
, unde v
t
= A
p
(q
1
)e
t
+ B
p
(q
1
)
t1
reprezinta eroarea de
aproximare total a. Suntem interesat i n gasirea coecient ilor polinoamelor A
p
si B
p
si a
ponderilor
i
corespunz atoare funct iilor de baz a f
i
folosind metoda celor mai mici patrate
pentru relat ia (8.18). Introducem urmatoarele notat ii:
_
_
_
x
a
= [a
1
a
2
a
n
A
]
T
x
b
= [b
0
b
1
b
n
B
]
T
x

= [
1

2

n
]
T
,
(8.19)
unde pentu consistent a not am
i
pentru i cu
1
,
2
, ,
m
(m reprezinta cardinalitatea
mult imii ) si cu f
i
, funct iile de baz a corespunz atoare ponderilor
i
pentru orice i = 1, , m.
Ecuat ia (8.18) ne conduce la forma vectoriala clasic a a problemei celor mai mici patrate:
y
t
=
T
(t)x + v
t
, (8.20)
unde vectorii din ecuat ia (8.20) au urmatoarele expresii:
x = [x
T
a

T

1

T

2

T
m
]
T
,

j
= [b
0

j
b
1

j
b
n
B

j
]
T
(t) = [
T
a
(t)
T
1
(t)
T
2
(t)
T
m
(t)]
T
(8.21)

a
(t) = [y
t1
y
t2
y
tn
A
]
T

i
(t) = [f
i
(u
t1
) f
i
(u
tn
B
1
)]
T
pentru orice i = 1, , m si t = N
0
, , N
max
. Dorim sa gasim parametrii x
a
, x
b
si x

prin rezolvarea unei probleme de tipul celor mai mici patrate ce rezulta din relat ia (8.18) cu
metoda Gauss-Newton. Ecuat ia (8.18) poate scrisa compact dup a cum urmeaza:
y
t
=
a
(t)
T
x
a
+ x
T
b
Q
t
x

, (8.22)
unde matricea Q
t
este dat a de
Q
t
=
_

1
(t)
m
(t)

,
pentru tot i t = N
0
, , N
max
. Denim funct ia biliniara:
F(x
a
, x
b
, x

)=
_
_
y
N
0

a
(N
0
)
T
x
a
x
T
b
Q
N
0
x


y
Nmax

a
(N
max
)
T
x
a
x
T
b
Q
Nmax
x

_
_
Atunci, putem estima parametrii x
a
, x
b
si x

prin rezolvarea unei probleme de tipul celor


mai mici patrate neliniara n forma:
(x

a
, x

b
, x

) = arg min
xa,x
b
,x
|F(x
a
, x
b
, x

)|
2
, (8.23)
unde F are o structur a biliniara, x =
_
x
T
a
x
T
b
x
T

T
R
n
si n = n
A
+ n
B
+ m. Observ am
ca funct ia F(x
a
, x
b
, x

) este diferent iabila:


F(x
a
, x
b
, x

) =
_
_

a
(N
0
)
T
x
T

B
T
N
0
x
T
b
B
N
0

a
(N
max
)
T
x
T

B
T
Nmax
x
T
b
B
Nmax
_
_
.
121 Capitol 8. Probleme de estimare si tting
0 50 100 150 200 250 300
0.04
0.02
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
300 masuratori
y
,

y
m


y estimat
y
m
masurat
Figura 8.3: Pentru N
max
= 300 date de intrare si iesire reprezentam iesirea y
m
m asurat a si
iesirea y produs a de sistemul Hammerstei a carui parametri au fost identicat i prin procedura
descris a mai sus.
Din Fig. 8.3 se observa o urmarire foarte bun a a traiectoriei m asurate y
m
de catre sistemul
Hammerstei a carui parametri au fost obt inuti ca solut ie a problemei celor mai mici patrate
neliniara rezolvat a cu metoda Gauss-Newton.
Comentarii nale: Cu aceste dou a metode prezentate n acest capitol, Gauss-Newton si
Levenberg-Marquardt, ncheiem partea a doua a acestei cart i dedicata metodelor numerice de
optimizare pentru probleme far a constrangeri (UNLP): min
xR
n
f(x). Mai multe detalii despre
metodele prezentate n aceasta parte a cart ii cat si alte metode care nu au fost prezentate
aici se pot gasi n cart ile clasice de optimizare neliniara ale lui Bertsekas [1], Luenberger [6],
Nesterov [7] si Nocedal si Wright [14]. Teoria optimizarii dezvoltat an partea a doua a acestei
cart i urmeaza n linii mari prezentarea din [6]. Pentru cazul convex o analiza complet a a
metodelor de optimizare existente se gaseste n [7]. Dintre cart ile dedicate implementarii
numerice a acestor metode de optimizare amintim de exemplu cartea lui Gill, Murray si
Wright [8]. O descriere detaliata a pachetelor software existente pe piat a este dat a n More
si Wright [13].
122 8.3. Aplicat ie: identicarea unui sistem Hammerstein
Partea III
Optimizare cu constrangeri
123
Capitol 9
Teoria dualitat ii

In aceast a parte nala a cart ii nendreptam din nou atent ia asupra problemelor de optimizare
cu constrangeri (NLP). Expunerea noastr a va prezenta cazul constr ans ca o generalizare a
cazului neconstr ans: vom deni condit iile de optimalitate pentru cazul constr ans (de ordinul
ntai si doi), apoi vom ar ata cum metodele numerice de optimizare de ordinul ntai si doi
pentru probleme de optimizare neconstr anse pot extinse la cazul n care avem constrangeri.

In nal vom discuta algoritmi specializat i pentru cazul particular al problemelor convexe
constr anse.

Incepem expunerea nostr a cu teoria dualitat ii, fundamanetala n nt elegerea algoritmilor de


optimizare prezentat i ulterior. Reamintim ca o problem a neliniara cu constr angeri (NLP)
(NonLinear Programming) n forma standard poate scrisa sub forma:
min
xR
n
f(x)
s.l.: g
1
(x) 0, . . . , g
m
(x) 0
h
1
(x) = 0, . . . , h
p
(x) = 0.
Dac a introducem notat iile g(x) = [g
1
(x) . . . g
m
(x)]
T
si h(x) = [h
1
(x) . . . h
p
(x)]
T
, atunci n
forma compact a problema de optimizare de mai sus se rescrie astfel:
(NLP) : min
xR
n
f(x)
s.l.: g(x) 0, h(x) = 0,
unde funct ia obiectiv f : R
n


R, funct ia vectoriala ce deneste constr angerile de inegalitate
g : R
n
R
m
si funct ia vectoriala ce deneste constrangerile de egalitate h : R
n
R
p
se
presupune a de doua ori diferent iabile.

In acest caz, mult imea fezabila asociat a problemei
(NLP) este:
X = x R
n
: g(x) 0, h(x) = 0
125
126
si astfel putem rescrie problema (NLP) si sub forma:
min
xX
f(x).
Exemplu 9.0.1 (Optimizarea rutarii ntr-o ret ea de comunicat ie) Consideram o
ret ea de comunicat ie de date modelata ca un graf direct ionat G = (V, E), unde V este
mult imea nodurilor si E mult imea perechilor ordonate e = (i, j). Nodul i se numeste origine
si nodul j destinat ie. Pentru orice pereche e consideram scalarul r
e
reprezentand tracul de
Figura 9.1: Optimizare n ret ea de comunicat ie.
intrare n e.

In contextul rutarii de date ntr-o ret ea, r
e
este rata de trac ce intra si iese
din ret ea prin originea si destinat ia lui e (masurata n unitat i de date/secunda). Obiectivul
de rutare este acela de a mpart i ecare trac r
e
ntre diferitele rute existente de la originea
i la destinat ia j n asa fel ncat uxul total rezultat minimizeaza o funct ie cost adecvata.
Notam cu P
e
mult imea tuturor rutelor existente ntre originea i si destinat ia j a lui e si cu
x
c
partea de trac din r
e
atribuita rutei c P
e
, numit de asemenea uxul rutei c. Colect ia
tuturor uxurilor de date x
c
: c P
e
, e E trebuie sa satisfaca urmatoarea constrangere:

cPe
x
c
= r
e
e E
si de asemenea x
c
0 pentru orice c P
e
si e E. Fluxul total t
ij
corespunzator arcului
(i, j) este suma tuturor uxurilor tranversand arcul:
t
ij
=

c: (i,j)c
x
c
.
Putem deni o funct ie cost de forma:

(i,j)E
f
ij
(t
ij
). Problema este sa gasim toate uxurile
x
c
care minimizeaza aceasta funct ie cost cu constrangerile de mai sus:
min
xc, t
ij

(i,j)E
f
ij
(t
ij
)
s.l. : x
c
0 c P
e
, e E

cPe
x
c
= r
e
e E, t
ij
=

c: (i,j)c
x
c
(i, j) E.
127 Capitol 9. Teoria dualitat ii
Se observa ca putem elimina variabila t
ij
din problema de mai sus folosind egalitatea t
ij
=

c: (i,j)c
x
c
, adica putem obt ine o problema de optimizare doar n variabila x
c
si cu mai put ine
cosntrangeri de egalitate dar, n acest caz funct ia obiectiv nu mai are structura separabila de
mai sus (e.g. dupa eliminare, Hesiana funct iei obiectiv nu mai este diagonala).
Exemplu 9.0.2 (Proiect ia Euclidiana) O not iune fundamentala n geometrie si opti-
mizare este proiect ia Euclidiana a unui vector x
0
R
n
pe multimea X R
n
denit ca
acel vector din X care se aa la cea mai mica distant a Euclidiana de x
0
. Matematic aceasta
problema se formuleaza sub forma unei probleme de optimizare constransa:
min
xX
|x x
0
|
2
.
Se observa ca funct ia obiectiv pentru problema proiect iei Euclidiene este tot timpul o funct ie
patratica convexa cu Hesiana matricea identitate. Cand mult imea X este nevida, convexa
si nchisa, se poate arata ca exista o singura solut ie a problemei de optimizare de mai sus,
i.e. proiect ia este unic a. Mai mult, daca X este convexa, atunci problema de mai sus este
problema de optimizare convexa.

In particular, daca mult imea X este un polyhedron, adica
X = x R
n
: Ax = b, Cx d atunci proiect ia este o problema de optimizare QP strict
convexa. De exemplu, daca presupunem ca mult imea X este un hiperplan X = x R
n
:
Figura 9.2: Proiect ia vectorului x
0
= [1 1 1]
T
pe politopul X = x R
3
: x 0, x
1
+ x
2
+
x
3
1 (stanga) si originii (x
0
= 0) pe un hiperplan X = x R
3
: a
T
x = b (dreapta).
a
T
x = b, unde b ,= 0, atunci proiect ia originii x
0
= 0 devine o problema patratica cu o
forma simpla:
min
x{xR
n
: a
T
x=b}
|x|
2
.
Se stie ca vectorul a este perpendicular pe hiperplan, deci proiect ia lui x
0
= 0 pe X este
coliniar cu a, adica x = ta pentru un scalar t.

Inlocuind x = ta n ecuat ia ce deneste
128 9.1. Funct ia Lagrange
hiperplanul si rezolvand pentru scalarul t obt inem t = b/(a
T
a), iar proiect ia este data de
expresia:
x

=
b
a
T
a
a.
Exemplu 9.0.3 (Problema localizarii) Problema localizarii are foarte multe aplicat ii n
inginerie, cum ar localizarea unei t inte, localizarea unui robot, etc. Consideram ca avem un
numar m de senzori avand locat iile cunoscute s
i
R
3
si cunoastem, de asemenea dinstant ele
R
i
de la acesti senzori la obiectul necunoscut a carei pozit ie trebuie determinata. Geometric
(vezi Fig. 9.3), din datele cunoscute avem ca obiectul se g aseste la intersect ia a m sfere
de centre s
i
si raze R
i
. Dorim sa estimam pozit ia obiectului si de asemenea sa masuram
marimea/volumul intersect iei acestor sfere. Putem considera problema gasirii celei mai mari
sfere inclus a n aceasta intersect ie. Este usor de observat ca o sfera de centru x si raza R
este cont inuta ntr-o sfera de centru s
i
si raza R
i
daca si numai daca diferent a dintre raze
este mai mare decat distant a dintre centre. Putem atunci formula urmatoarea problema de
optimizare convexa cu constrangeri patratice:
max
xR
3
, R>0
R
s.l. : R
i
R +|s
i
x| i = 1, . . . , m.
Figura 9.3: Problema localizarii.
9.1 Funct ia Lagrange
Funct ia Lagrange, denumita astfel dup a matematicianul Joseph Louis Lagrange, este foarte
importanta n teoria dualitat ii.

Incepem prin a deni not iuni standard din teoria dualitat i.
129 Capitol 9. Teoria dualitat ii
Denit ia 9.1.1 (Problema de optimizare primala) Vom nota valoarea optima globala
a problemei de optimizare (NLP) cu f

si o vom numi valoarea optima primala:


f

=
_
min
xR
n
f(x) : g(x) 0, h(x) = 0
_
. (9.1)
Vom numi problema de optimizare (NLP) ca problema de optimizare primala, iar variabila
de decizie x variabila primala. Notam de asemenea cu
X = x R
n
: g(x) 0, h(x) = 0
mult imea fezabila primala a problemei (NLP).

In concluzie, problema de optimizare primal a este denita astfel:


(NLP) : f

= min
xX
f(x).
Se observa ca putem determina relativ usor o margine superioara pentru valoarea optima
f

: select am un punct fezabil x X si atunci avem f

f( x).

In mod natural ne putem
ntreba cum se determina o margine inferioara pentru f

. Vom arata n cele ce urmeaza


ca aceasta margine inferioara se poate determina folosind teoria dualitat ii. Vom vedea de
asemenea, ca anumite probleme de optimizare pot rezolvate folosind teoria dualitat ii. Cea
mai popular a forma a dualitat ii pentru problemele de optimizare constr anse este dualitatea
Lagrange. Desi dualitatea Lagrange poate dezvoltat a pentru probleme generale de opti-
mizare constrans a cele mai interesante rezultate se dau pentru cazul problemelor convexe
constr anse. Reamintim ca problema (NLP) de mai sus este problem a de optimizare convexa
dac a funct iile f si g
1
, , g
m
sunt funct ii convexe, iar funct iile h
1
, . . . , h
p
sunt funct ii ane.

Incepem prin a deni funct ia Lagrange (sau Lagrangianul):


Denit ia 9.1.2 (Funct ia Lagrange si multiplicatorii Lagrange) Denim funct ia La-
grange sau Lagrangianul, / : R
n
R
m
R
p


R, ca ind:
/(x, , ) = f(x) +
T
g(x) +
T
h(x). (9.2)

In aceasta funct ie am introdus doua variabile noi, vectorii R


m
si R
p
, numit i multi-
plicatorii Lagrange sau variabile duale.
Funct ia Lagrange joac a un rol principal at at n optimizarea convexa cat si n cea neconvexa.

In mod obisnuit, se impune ca multiplicatorii pentru constrangerile de inegalitate sa nu e


negativi, adica 0, n timp ce multiplicatorii de egalitate sunt arbitrari. Aceste cerint e
sunt motivate de urmatoarea lem a:
Lema 9.1.3 (Marginirea superioara a funct iei Lagrange) Pentru orice variabila pri-
mala x fezabila pentru problema de optimizare (NLP) (i.e. g( x) 0 si h( x) = 0) si pentru
orice variabila dual a (

, ) R
m
R
p
satisfacand

0, urmatoarea inegalitate are loc:
/( x,

, ) f( x). (9.3)
130 9.2. Problema duala
Demonstrat ie: Demonstrat ia urmeaza imediat din denit ia funct iei Lagrange si din faptul
ca

0, g( x) 0 si h( x) = 0:
/( x,

, ) = f( x) +

T
g( x) +
T
h( x) f( x).

9.2 Problema duala


Din lema precedenta se observa ca putem determina o margine inferioar a pentru valoarea
optima primal a a problemei (NLP). Mai mult, suntem interesat i n determinarea celei mai
bune margini inferioare pentru f

. Pentru aceasta introducem mai ntai funct ia duala.


Denit ia 9.2.1 (Funct ia duala) Denim funct ia duala q : R
m
R
p


R ca inmul necon-
strans al Lagrangianului n funct ie de variabila x, pentru multiplicatorii si xat i:
q(, ) = inf
xR
n
/(x, , ). (9.4)
Aceasta funct ie va lua adesea valoarea , caz n care spunem ca perechea (, ) este dual
infezabila. Funct ia duala are propriet at i foarte interesante, pe care le demonstr am n cele ce
urmeaza:
Lema 9.2.2 (Marginirea superioara a funct iei duale) Pentru orice pereche duala (

, )
fezabila, adica

0 si R
p
, urmatoarea inegalitate are loc:
q(

, ) f

. (9.5)
Demonstrat ie: Aceasta lem a este o consecint a directa a ecuat iei (9.3) si a denit iei
funct iei duale: pentru x fezabil (i.e. g( x) 0 si h( x) = 0) avem
q(

, ) /( x,

, ) f( x) x X,

R
m
+
, R
p
.
Acest a inegalitate este satisfacuta n particular pentru punctul de minim global x

(care este
de asemenea fezabil, adica x

X), ceea ce conduce la: q(

, ) f(x

) = f

.
Teorema 9.2.3 (Concavitatea funct iei duale) Funct ia duala q : R
m
R
p


R este
ntodeauna funct ie concava.
131 Capitol 9. Teoria dualitat ii
Demonstrat ie: Se obseva ca Lagrangianul /(x, , ) este o funct ie an a n multiplicatorii
(, ) pentru x xat. Fie [0, 1], atunci pentru (
1
,
1
) si (
2
,
2
) avem:
q(
1
+ (1 )
2
,
1

1
+ (1 )
2
)
= inf
xR
n
/(x,
1
+ (1 )
2
,
1

1
+ (1 )
2
)
= inf
xR
n
/(x,
1
,
1
) + (1 )/(x,
2
,
2
)
inf
xR
n
/(x,
1
,
1
) + (1 ) inf
xR
n
/(x,
2
,
2
)
= q(
1
,
1
) + (1 )q(
2
,
2
).
Din denit ia concavit at ii rezulta ca funct ia duala q este concav a.
O ntrebare naturala ar urmatoarea: care este cea mai bun a margine inferioar a ce poate
obt inut a dintr-o funct ie duala? R aspunsul este simplu: se obt ine prin maximizarea dualei
dup a toate valorile fezabile ale multiplicatorilor, obt in andu-se astfel asa-numita problema
duala.
Denit ia 9.2.4 (Problema duala) Problema duala este denita ca ind problema de max-
imizare concava a funct iei duale:
q

= max
0, R
p
q(, ), (9.6)
unde notam cu q

valoarea optima duala.


Este interesant de observat ca problema duala este ntotdeauna problem a convexa chiar dac a
problema primal a (UNLP) nu este convexa. Denim mult imea fezabila duala
= R
m
+
R
p
.
Ca o consecint a imediata a ultimei leme, obt inem urmatorul rezultat fundamental numit
dualitatea slaba:
Teorema 9.2.5 (Dualitate slaba) Urm atoarea inegalitate are loc pentru orice problema
de optimizare (NLP):
q

. (9.7)
Se observa ca dac a exist a x

fezabil pentru problema primal a si (

) fezabil pentru prob-


lema duala astfel ncat q(

) = f(x

) atunci x

este punct de minim global pentru prob-


lema primal a si (

) este punct de maxim global pentru problema duala. Mai mult, daca
problema primal a este nemarginit a inferior (adic a f

= ), atunci q(, ) = pentru


orice (, ) (adic a pentru orice pereche duala fezabila). De asemenea, dac a q

= ,
atunci problema primal a este infezabila.
132 9.2. Problema duala
Interpretarea geometrica: Dam o interpretare simpl a a funct iei duale si a dualitat ii slabe
n termeni geometrici. Pentru a vizualiza grac consider am un caz particular al problemei
(NLP) de forma min
xR
nf(x) : g(x) 0, av and o singura constr angere de inegalitate.
Denim mult imea
S = (u, t) : x R
n
, f(x) = t, g(x) = u.
Deoarece fezabilitatea cere ca g(x) 0, problema primal a presupune gasirea celui mai de
jos punct al lui S situat n partea st ang a a axei verticale (vezi Fig. 9.4).
Figura 9.4: Interpretarea geometric a a dualitat ii: dualitatea slaba (stanga) si dualitatea
puternic a (dreapta).
Este clar ca pentru un scalar dat funct ia duala se obt ine din urmatoarea problem a de
minimizare
q() = min
(u,t)S
u + t.

In concluzie, observam ca inegalitatea

T
u + t q()
deneste un hiperplan suport pentru mult imea S denit de vectorul [ 1]
T
si mai mult,
intersect ia acestui hiperplan cu axa verticala (i.e. pentru u = 0) da q().
Diferent a f

se numeste duality gap. Se observa ca dualitatea slaba este valabila pentru


orice problem a de optimizare (NLP), nsan anumite cazuri (e.g. optimizarea convexan care
mult imea fezabila ndeplineste condit ii speciale) exist a o versiune mai puternic a a dualitat ii,
numit a dualitatea puternic a. Pentru a obt ine dualitatea puternic a avem nevoie de anumite
propriet at i de convexitate pentru problema (NLP):
Condit ia Slater: Presupunem ca problema (NLP) este convexa (i.e. f si g
1
, , g
m
sunt
funct ii convexe, iar h
1
, . . . , h
p
sunt funct ii ane) si ca exist a x R
n
fezabil astfel ncat
g( x) < 0 si h( x) = 0.
133 Capitol 9. Teoria dualitat ii
Pentru a demonstra dualitatea puternic a vom utiliza teorema de separare prin hiperplane:
Teorema 9.2.6 (Dualitatea puternica) Daca problema de optimizare convexa primala
(NLP) satisface condi tia Slater, atunci valorile optime pentru problemele primale si duale
sunt egale, adica
q

= f

(9.8)
si mai mult (

)
T
g(x

) = 0, unde x

este punct de minim global pentru problema primala si


(

) este punct de maxim global pentru problema duala.


Demonstrat ie: Introducem urmatoarea mult ime convexa S
1
R
m
R
p
R denit a
explicit sub forma:
S
1
= (u, v, t) : x R
n
, g
i
(x) u
i
i = 1, . . . , m, h
i
(x) = v
i
i = 1, . . . , p, f(x) t.
Deoarece h este funct ie an a exist a matricea A R
pn
si b R
p
astfel ncat h(x) = Ax b.
Presupunem de asemenea ca rang(A) = p si ca f

este nit. Denim o a doua mult ime


convexa
S
2
= (0, 0, s) R
m
R
p
R : s < f

.
Se observa imediat ca mult imile S
1
si S
2
sunt convexe si nu se intersecteaz a. Din teorema
de separare prin hiperplane avem ca exist a (

, , ) ,= 0 si R astfel ncat:

T
u +
T
v + t (u, v, t) S
1
si

T
u +
T
v + t (u, v, t) S
2
.
Din prima inegalitate se observa ca

0 si 0 (altfel

T
u +t este nemarginit a inferior
peste mult imea S
1
). A doua inegalitate implica t pentru orice t < f

si deci f

.
Din aceast a discut ie putem concluziona ca pentru orice x R
n
:
f(x) +

T
g(x) +
T
(Ax b) f

.
Presupunem ca > 0.

In acest caz imp art ind ultima inegalitate prin obt inem:
/(x,

/, /) f

x R
n
.
Introduc and notat iile =

/, = / si minimizand dup a x n inegalitatea precedenta
obt inem q(, ) f

, ceea ce implica q(, ) = f

, adica dualitatea puternic a are loc n


acest caz.
Dac a = 0 avem ca pentru orice x R
n
:

T
g(x) +
T
(Ax b) 0.
134 9.2. Problema duala
Aplicand aceasta relat ie pentru vectorul Slater x avem:

T
g( x) 0.
Dar stim ca g
i
( x) < 0 si

0 ceea ce conduce la

= 0. Dar avem (

, , ) ,= 0, ceea ce
implica ,= 0.

In concluzie obt inem ca pentru orice x R
n
avem
T
(Ax b) 0. Dar
pentru vectorul Slater x avem
T
(A x b) = 0 si deci exist a vectori x R
n
astfel ncat

T
(Ax b) < 0, except ie fac and cazul n care A
T
= 0. Dar A
T
= 0 nu este posibil
deoarece rang(A) = p si ,= 0.

In concluzie, cazul = 0 nu poate avea loc.
Condit ia Slater poate relaxata cand anumite constrangeri de inegalitate g
i
sunt funct ii
ane. De exemplu, dac a primele r m constrangeri de inegalitate sunt descrise de funct iile
g
1
, . . . , g
r
ane, atunci dualitatea puternic a are loc dac a urmatoarea condit ie Slater relaxat a
este satisfacuta: funct iile f si g
r+1
, , g
m
sunt funct ii convexe, iar funct iile g
1
, . . . , g
r
si
h
1
, . . . , h
p
sunt funct ii ane si exist a x astfel ncat g

( x) 0 pentru = 1, . . . , r, g
l
( x) < 0
pentru l = r + 1, . . . , m si h( x) = 0.
Interpretarea minimax: Se observa ca dualitatea puternic a poate prezentat a utiliz and
teorema minimax (vezi Apendix): dac a urmatoarea relat ie are loc
inf
xR
n
sup
0
/(x, , ) = sup
0
inf
xR
n
/(x, , ),
atunci q

= f

.

Intr-adevar, observam ca partea dreapt a a acestei relat ii este problema
duala. Pe de alta parte, expresia din st anga, la prima vedere, nu are legatura cu problema
primal a. Dar se observa ca funct ian x denita ca valoarea optima a problemei de maximizare
sup
0
/(x, , ) este nita dac a g(x) 0 si h(x) = 0, iar n acest caz sup
0
/(x, , ) =
f(x), ceea ce ne conduce la problema primal a.

In concluzie, dac a relat ia minimax de mai
sus este valid a avem dualitate puternic a. Deci dualitatea puternic a poate avea loc si pentru
probleme (NLP) neconvexe care satifac egalitatea minimax de mai sus.
Exemplu 9.2.7 Un exemplu de problema de optimizare neconvexa, des ntalnita n teoria
sistemelor si control, pentru care dualitatea puternica are loc este urmatorul:
min
xR
n
1
2
x
T
Qx + q
T
x + r
s.l.:
1
2
x
T
Q
1
x + q
T
1
x + r
1
0,
unde matricile simetrice Q si Q
1
nu sunt pozitiv semidenite. Deci aceasta problema de
optimizare cu funct ie obiectiv patratica si o singura constrangere de inegalitate descrisa de
asemenea de o funct ie patratica nu este convexa. Se poate arata ca dualitatea puternica are
loc pentru aceasta problema sub ipoteza ca exista x pentru care inegalitatea este stricta, adica
1
2
x
T
Q
1
x + q
T
1
x + r
1
< 0.
135 Capitol 9. Teoria dualitat ii

In concluzie, dualitatea puternic a are loc si pentru probleme particulare neconvexe (NLP).

In toate aceste situat ii, dualitatea puternic a ne permite sa reformul am o problem a de opti-
mizare (NLP) ntr-o problem a echivalenta duala, dar care este ntodeauna problem a convexa
(deoarece duala este funct ie concav a). Pentru a nt elege mai bine reformularea duala a unei
probleme (NLP), vom prezenta urmatorul exemplu:
Exemplu 9.2.8 (Duala unei probleme QP strict convexa) Fie problema QP strict con-
vexa de forma:
f

= min
xR
n
1
2
x
T
Qx + q
T
x
s.l.: Cx d 0, Ax b = 0.
Presupunem ca Q 0 si ca mult imea fezabila X = x R
n
: Cx d 0, Ax b = 0
este nevida. Din expunerea anterioara avem ca n acest caz dualitatea puternica are loc.
Lagrangianul este dat de urmatoarea expresie:
/(x, , ) =
1
2
x
T
Qx + q
T
x +
T
(Cx d) +
T
(Ax b)
=
T
d
T
b +
1
2
x
T
Qx +
_
q + C
T
+ A
T

_
T
x.
Funct ia dual a este inmumul neconstrans al Lagrangianului n funct ie de variabila x, La-
grangian ce este o funct ie patratica de x. Obt inem ca duala are forma:
q(, ) =
T
d
T
b + inf
xR
n
_
1
2
x
T
Qx +
_
q + C
T
+ A
T

_
T
x
_
=
T
d
T
b
1
2
_
q + C
T
+ A
T

_
T
Q
1
_
q + C
T
+ A
T

_
,
unde n ultima egalitate am utilizat rezultate de baza pentru optimizarea neconstransa convexa
p atratica. Se observa ca funct ia dula este de asemenea patratica n variabilele duale (, ).
Mai mult, funct ia dual a este concava deoarece Hesiana este negativ semidenita. Astfel,
problema de optimizare duala a unui QP strict convex este data de expresia:
q

= max
0, R
p

1
2
_

_
T
_
C
A
_
Q
1
_
C
A
_
T
_

_
d + CQ
1
q
b + AQ
1
q
_
T
_

1
2
q
T
Q
1
q. (9.9)
Datorita faptului ca funct ia obiectiv este concava, aceasta problema duala este ea nsasi un
QP convex, dar n general nu este strict convex (adica Hesiana nu mai este pozitiv denita).

Insa formularea QP dual a data de (9.9) are constrangeri mult mai simple, adica mult imea
fezabila este descrisa de constrangeri foarte simple: 0 si R
p
. Observam ca ultimul
termen n funct ia dual a este o constanta, care trebuie nsa pastrata pentru ca q

= f

, adica
dualitatea puternic a sa e ment inuta.
136 9.3. Programare liniar a (LP)
9.3 Programare liniara (LP)
Programarea liniar a ocup a un loc deosebit de important, at at n teorie cat si n aplicat iile
practice din inginerie, economie, etc. Reamintim ca o problem a de programare liniar a (LP)
are urmatoarea forma:
f

= min
xR
n
c
T
x
s.l.: Cx d 0, Ax b = 0.
Exemplu 9.3.1 (Dieta economica) Dorim sa determinam o dieta cat mai put in costisi-
toare care sa acopere nsa n totalitate substant ele nutritive necesare organismului uman
(aceasta aplicat ie apart ine clasei de probleme de alocare a resurselor, de exemplu dieta unei
armate). Presupunem ca exista pe piat a n alimente care se vand la pret ul c
i
pe bucata si, de
asemenea, exista m ingrediente nutrit ionale de baza pe care ecare om trebuie sa le consume
ntr-o cantitate de minim d
j
unitat i. Mai stim, de asemenea, ca ecare aliment i cont ine c
ji
unitat i din elemntul nutrit ional j.
Problema este sa se determine numarul de unitat i din alimentul i, notat x
i
, care sa min-
imizeze costul total si n acelasi timp sa satisfaca constrangerile nutrit ionale, adica avem
urmatoarea problema de optimizare (LP):
min
xR
n
c
1
x
1
+ + c
n
x
n
s.l.: c
11
x
1
+ + c
1n
x
n
d
1
. . .
c
m1
x
1
+ + c
mn
x
n
d
m
x
i
0 i = 1, . . . , n.
Exemplu 9.3.2 La o problema de programare operativa a product iei restrict iile se refera
la o serie de masini (utilaje) cu care se executa produsele dorite, d
i
ind timpul disponibil
utilajului i pe perioada analizata, iar c
ij
timpul necesar prelucrarii unui produs de tipul j pe
utilajul i, scopul ind maximizarea product iei. Ca urmare, problema se pune ca un (LP),
unde x
i
reprezinta numarul de unitat i de produs i pe perioada analizata:
min
xR
n
x
1
+ + x
n
s.l.: c
j1
x
1
+ + c
jn
x
n
d
j
j = 1, . . . , m
x
i
0 i = 1, . . . , n.
Ideea de baz a n programarea liniar a este ca trebuie sa caut am solut ia problemei ntr-o
mult ime cu un numar nit de solut ii de baz a care sunt punctele de extrem ale poliedrului ce
137 Capitol 9. Teoria dualitat ii
deneste mult imea fezabila:
X = x R
n
: Cx d 0, Ax b = 0.
Enunt am aceasta teorem a pentru cazul n care mult imea fezabila este m arginit a, adica este
un politop:
Teorema 9.3.3 Presupunem ca mult imea fezabi

la X este un politop, atunci exista un punct


de minim al problemei (LP) ntr-unul din varfurile politopului.
Demonstrat ie: Dac a mult imea fezabila X este politop, atunci X este acoperirea convexa
generata de punctele de extrem (varfurile politopului):
X = Conv(v
1
, . . . , v
q
).
Mai mult, din faptul ca X este marginita avem ca un punct de minim x

exist a pentru
problema (LP). Deoarece x

este fezabil avem


x

=
q

i=1

i
v
i
,
unde
i
0 si

q
i=1

i
= 1. Este clar ca c
T
v
i
f

, deoarece v
i
este fezabil pentru orice i.
Not am cu J mult imea de indecsi denita astfel: J = i :
i
> 0. Dac a exist a i
0
J astfel
ncat c
T
v
i
0
> f

, atunci
f

= c
T
x

=
i
0
c
T
v
i
0
+

iI\{i
0
}

i
c
T
v
i
>

iI

i
f

= f

si deci obt inem o contradict ie. Aceasta implica ca orice punct de extrem pentru care
i
> 0
este un punct de minim.
Figura 9.5: Solut ia unui LP.
138 9.3. Programare liniar a (LP)
Din teorema anterioar a se poate observa ca pentru a gasi o solut ie optima pentru problema
(LP) este sucient sa determinam v arfurile politopului ce descriu mult imea fezabila X, sa
evaluam apoi funct ia obiectiv n aceste v arfuri si sa consider am solut ia corespunz atoare celei
mai mici valori (vezi Fig. 9.5). Se poate observa ca n anumite cazuri aceast a metoda nu este
ecienta deoarece exist a multe clase de mult imi de tip politop des ntalnite n aplicat ii pentru
care numarul de v arfuri este exponent ial, de exemplu politopul X = x R
n
: |x|


1 are 2
n
v arfuri. Pentru o astfel de problem a, la n = 100 de variabile, avem nevoie sa
caut am solut ia printre 2
100
10
30
v arfuri, ceea ce presupune un efort de calcul imposibil de
realizat pe baza calculatoarelor actuale. Exista nsa metode alternative mai eciente pentru
rezolvarea unui (LP).
Problemele de optimizare (LP) se rezolv a de obicei cu algoritmul simplex. Acest algoritm a
fost dat de Dantzig n 1947. Algoritmul se bazeaz a pe not iunea de solut ie fundamentala a
unui sistem de ecuat ii. Se poate ar ata ca un (LP) general poate ntotdeauna scris n forma
standard:
min
xR
n
c
T
x : Ax = b, x 0,
prin folosirea de variabile suplimentare (numite si variabile articiale).

Intr-adevar, ob-
serv am urmatoarele:
(i) orice restrict ie de inegalitate poate transformat a n egalitate, prin introducerea unei
variabile suplimentare care nu este negativ a si folosind relat iile:
x d x + y = d, y 0 si x d x y = d, y 0.
(ii) orice variabil a far a restrict ie de semn poate nlocuit a cu dou a variabile cu restrict ie de
semn pozitiv, folosind relat ia:
x oarecare x = y z, y 0, z 0.
Folosind aceste dou a transformari putem aduce orice problem a (LP) n forma (LP) standard
de mai sus.
Pentru problema (LP) standard presupunem ca matricea A R
pn
are rangul p < n (adic a
num arul de ecuat ii este mai mic decat numarul de variabile si deci avem suciente grade
de libertate pentru a optimiza). Fie o matrice B R
pp
nesingulara (numit a si matrice
de baz a) formata din coloanele lui A si e x
k
solut ia unica a sistemul de ecuat ii Bx
k
= d.
Denim solut ia fundamentala a sistemului Ax = b, vectorul x
k
R
n
obt inut extinz and x
k
cu zerourile corespunz atoare componentelor ce nu sunt asociate coloanelor lui B. Denim
de asemenea solut iile fundamentale fezabile, adica solut iile fundamentale x
k
care satisfac n
plus constr angerea x
k
0. Observam ca v arfurile (punctele de extrem) mult imii fezabile
pentru problema (LP) standard, adica v arfurile poliedrului X = x : R
n
: Ax = b, x 0,
sunt de fapt solut iile fundamentale fezabile si reciproc.
Exemplu 9.3.4 Consideram politopul (numit adesea si simplex) X = x R
3
: x
0, x
1
+ x
2
+ x
3
= 1. Observam ca varfurile acestui politop coincid cu cele trei solut ii de
baza ale ecuat iei x
1
+ x
2
+ x
3
= 1 (vezi Fig. 9.6).
139 Capitol 9. Teoria dualitat ii
Figura 9.6: Varfurile unui simplex in R
3
.
Se poate ar ata ca o solut ie optimala a problemei (LP) n forma standard (n cazul n
care aceasta exist a) se gaseste printre solut iile fundamentale fezabile. Acest rezultat este
consecint a Teoremei 9.3.3, observand ca v arfurile (punctele de extrem) mult imii fezabile
X = x : R
n
: Ax = b, x 0 coincid cu solut iile fundamentale fezabile. Aceasta ne per-
mite sa caut am solut ia optima a problemei (LP) n submult imea solut iilor fundamentale care
sunt cel mult
n!
p!(np)!
la numar (corespunzatoare diverselor modalitat i de a alege p coloane
din n coloane). Ideea de baz a n metoda simplex este urmatoarea: pornind de la o solut ie
fundamentala fezabila gasim o nou a solut ie fundamentala fezabila n care funct ia obiectiv sa
descreasca si aceasta cautare se face folosind tabelul simplex, care desi necesit a o matematica
extrem de simpl a nu se poate exprima usor ntr-o forma matriceala compact a.
A durat mult timp pana s-a demonstrat ca algoritmul simplex standard nu are complexitate
polinomial a. Un exemplu ind clasa de probleme de mai jos, gasit a de Klee si Minty n 1972,
n care algoritmul trebuie sa analizeze 2
n
baze (n numarul de necunoscute) pana la gasirea
celei optime:
min
xR
n
n

i=1
10
ni
x
i
s.l.:
_
2
i1

j=1
10
ij
x
j
_
+ x
i
100
i1
i = 1, . . . , n
x
i
0 i = 1, . . . , n.
Pentru o astfel de problem a, la 100 de variabile, algoritmul va avea 2
100
10
30
iterat ii,
si chiar la o vitez a de un miliard iterat ii pe secund a (mult peste puterea unui calculator
actual) va termina n 10
13
ani. Nu se stie nca dac a exist a sau nu o alta modalitate de
trecere de la o baz a la alta, folosind tabelele simplex, prin care algoritmul simplex standard
sa devina polinomial. Au fost nsa gasit i algoritmi alternativi care nu se bazeaz a pe tabele
simplex, primul de acest gen ind algoritmul de punct interior al lui Karmakar, despre care
s-a demonstrat ca are complexitate polinomiala.
140 9.3. Programare liniar a (LP)

In ciuda dezavantajelor de mai sus, algoritmul simplex ramane si n zilele noastre cel mai
ecient algoritm n ceea ce priveste viteza de lucru, simplitatea si implementarea pe calcu-
lator. Mai mult, folosirea acestuia aduce informat ii mult mai ample dec at gasirea solut iei
propriu-zise, este mult mai maleabil n cazul modicarilor ulterioare ale datelor problemei si
se preteaza mult mai bine la interpret ari economice. Un argument n plus n favoarea aces-
tui algoritm este acela ca nca nu a aparut o problem a pr actic a n fat a caruia sa clacheze.
Algoritmii de punct interior raman doar ca alternative teoretice sau pentru cazurile n care
algoritmul simplex este lent, dar ei nu-l pot nlocui complet.
Funct ia Lagrange asociat a unui (LP) general este dat a de expresia:
/(x, , ) = c
T
x +
T
(Cx d) +
T
(Ax b)
=
T
d
T
b +
_
c + C
T
+ A
T

_
T
x.
Observam ca Lagrangianul este de asemenea liniar n variabila x. Atunci funct ia duala
corespunz atoare este dat a de expresia:
q(, ) =
T
d
T
b + inf
xR
n
_
c + C
T
+ A
T

_
T
x
=
T
d
T
b +
_
0 dac a c + C
T
+ A
T
= 0
altfel.
Astfel, funct ia obiectiv duala q(, ) este de asemenea liniar a si ia valoarea n toate
punctele ce nu satisfac egalitatea liniar a c + C
T
+ A
T
= 0. Din moment ce vrem sa
maximizam funct ia duala, aceste puncte pot privite ca puncte nefezabile a problemei
duale (de aceea le numim dual nefezabile), si putem scrie n mod explicit duala LP-ului de
mai sus ca:
q

= max
R
m
, R
p
_
d
b
_
T
_

_
s.l.: 0, c + C
T
+ A
T
= 0.
Se observa ca problema duala este de asemenea un (LP).

In anumite situat ii problema (LP)
duala este mai simpl a decat problema (LP) primal a (e.g. constrangerile problemei duale
sunt mai simple decat ale problemei primale) si deci n acest caz este de preferat rezolvarea
dualei. Rat ionand ca mai nainte, problema primal a si duala (LP) standard au urmatoarea
forma:
Primala: min
xR
n
c
T
x : Ax = b, x 0 Duala: max
R
n
b
T
: A
T
c
Din dualitatea slaba avem valabila inegalitatea:
b
T
c
T
x
pentru orice x si fezabile pentru problema primal a si respectiv duala. De asemenea,
se poate ar ata urmatoarea teorem a, cunoscuta sub numele de teorema de dualitate pentru
programarea liniara:
141 Capitol 9. Teoria dualitat ii
Teorema 9.3.5 (Teorema de dualitate pentru (LP)) Daca una dintre problemele (LP),
primala sau dual a, are solut ie optima atunci si cealalta problema are solut ie optima si val-
orile optime corespunzatoare sunt egale. Mai mult, daca una dintre probleme, primala sau
duala, are funct ie obiectiv nemarginita atunci cealalta problema nu are puncte fezabile.
O consecint a imediata a acestei teoreme si dualitatea slaba este lema Farkas (sau alterna-
tivei): e A R
pn
si b R
p
, atunci una si numai una din urmatoarele relat ii are loc:
(i) exist a x R
n
astfel ncat Ax = b si x 0
(ii) exist a R
p
astfel ncat A
T
0 si b
T
< 0.
Lema Farkas are foarte multe aplicat ii, e.g. poate folosita n programarea liniar a, in teoria
jocurilor sau n derivarea condit iilor de optimalitate de ordinul ntai pentru probleme de
optimizare (NLP) generale.
142 9.3. Programare liniar a (LP)
Capitol 10
Condit ii de optimalitate pentru
(NLP)

In acest capitol vom deni condit iile necesare si suciente de optimalitate pentru cazul
problemelor constranse. Vom ar ata ca aceste condit ii de optimalitate pot privite ca o
generalizare a cazului neconstr ans la cel constrans n care n locul funct iei obiectiv folosim
Lagrangianul. Reamintim problema (NLP) n forma standard:
(NLP) :
min
x R
n
f(x) (10.1a)
s.l.: g(x) 0, h(x) = 0,
n care funct iile f : R
n
R, g : R
n
R
m
si h : R
n
R
p
sunt funct ii diferent iabile de dou a
ori. Mult imea fezabila a problemei (NLP) este mult imea punctelor ce satisfac contr angerile
aferente, adica X = x R
n
: g(x) 0, h(x) = 0. Cu aceste notat ii putem rescrie
problema (NLP) ntr-o forma compact a:
min
xX
f(x).
Pentru aceasta problem a constransa (NLP) vom deni condit iile necesare si suciente de
optimalitate. Primul rezultat se refer a la urmatoarea problem a de optimizare constr ansa
(demonstrat ia acestui rezultat a fost dat a n Capitolul 4, Teorema ??):
Teorema 10.0.6 (Condit ii de ordinul I pentru (NLP) avand constrangeri convexe)
Fie X o mult ime convexa si f (
1
(nu neaparat convexa). Pentru problema de optimizare
constransa min
xX
f(x) urmatoarele condit ii de optimalitate sunt satisfacute: daca x

este
minim local atunci
f(x

)
T
(x x

) 0 x X.
143
144 10.1. Condit ii de ordinul I pentru (NLP) av and constr angeri de egalitate
Daca n plus f este funct ie convexa atunci x

este punct de minim daca si numai daca


f(x

)
T
(x x

) 0 x X.
Punctele x

ce satisfac inegalitatea de mai sus se numesc puncte stat ionare pentru problema
(NLP) cu constrangeri convexe.

Inainte sa continuam cu denirea altor condit ii de optimali-
tate mai generale, vom avea nevoie sa introducem not iunea de constr angere activa/inactiv a.
Denit ia 10.0.7 (Constragere activa/inactiva) O constrangere de inegalitate g
i
(x)
0 se numeste activ a n punctul fezabil x X daca si numai daca g
i
(x) = 0, altfel ea se
numeste inactiva. Desigur, orice constrangere de egalitate h
i
(x) = 0 este activa ntr-un
punct fezabil.
Denit ia 10.0.8 (Mult imea activa) Mult imea de indicsi /(x) 1, . . . , m corespunza-
toare constrangerilor active este numita mult imea activa n punctul x X.
Considerarea constrangerilor active este esent iala deoarece ntr-un punct fezabil x aces-
tea restrict ioneaza domeniul de fezabilitate aat ntr-o vecinatate a lui x, n timp ce con-
strangerile inactive nu inuent eaza aceasta vecin atate.

In particular, se poate observa usor
ca dac a x

este un punct de minim local al problemei (NLP), atunci x

este de asemenea
minim local pentru probleme de optimizare numai cu constrangeri de egalitate:
min
xR
n
f(x)
s.l.: g
i
(x) = 0 i /(x

), h(x) = 0.
Astfel, pentru studierea propriet at ilor unui punct de minim local ne putem rezuma la
studierea constrangerilor active. Prezentam mai ntai condit iile de optimalitate de ordinul
ntai si doi pentru cazul cand problema (NLP) are numai constrangeri de egalitate si apoi
extindem aceste condit ii la cazul general.
10.1 Condit ii de ordinul I pentru (NLP) avand con-
strangeri de egalitate
Pentru a deni condit iile de optimalitate necesare si suciente de ordinul I si II pentru
probleme NLP generale, mai ntai studiem condit iile de optimalitate pentru probleme NLP
care au doar constrangeri de egalitate:
(NLPe) : min
xR
n
f(x) (10.2a)
s.l.: h(x) = 0.
145 Capitol 10. Condit ii de optimalitate pentru (NLP)
Observat iile obt inute din aceasta categorie de probleme, n care toate constr angerile sunt
considerate active, vor utilizate ulterior pentru problemele (NLP) generale. Mai ntai nsa,
trebuie sa denim anumite not iuni ce se vor dovedi esent iale n analiza noastr a. O curba pe o
suprafat a S este o mult ime de puncte x(t) S continuu parametrizate n t, pentru a t b.
O curba este diferent iabil a dac a x(t) =
dx(t)
dt
exist a si este de dou a ori diferent iabila dac a
x(t) exist a. O curba x(t) trece prin punctul x

dac a x

= x(t

) pentru un t

ce satisface
a t

b. Derivata curbei n x

este desigur denita ca x(t

). Acum, consider am toate


curbele diferent iabile aate pe suprafat a S, ce trec printr-un punct x

. Planul tangent i n
x

S este denit ca mult imea tuturor derivatelor acestor curbe diferent iabile in t

, adica
mult imea tuturor vectorilor de forma x(t

) denite de curbele x(t) S.


Pentru o funct ie h: R
n
R
p
, cu h(x) = [h
1
(x) . . . h
p
(x)]
T
not am Jacobianul sau prin h(x),
unde reamintim ca h(x) este o matrice p n cu elementul
h
i
(x)
x
j
pe pozit ia (i, j):
h(x) =
_

_
h
1
(x)
x
1
. . .
h
1
(x)
xn
.
.
.
.
.
.
.
.
.
hp(x)
x
1
. . .
hp(x)
xn
_

_
=
_

_
h
1
(x)
T
.
.
.
h
p
(x)
T
_

_
(10.3)
Introducem acum un subspat iu:
M = d R
n
: h(x

)d = 0
si investigam acum sub ce condit ii acest subspat iu M este egal cu planul tangent n x

la
suprafat a S = x R
n
: h(x) = 0.

In acest scop trebuie sa introducem not iunea de punct
regulat.
Denit ia 10.1.1 (Punct regulat) Un punct x

ce satisface contrangerea h(x

) = 0 se
numeste punct regulat daca gradient ii h
1
(x

), . . . , h
p
(x

) sunt liniar independent i.


De exemplu, dac a h(x) este an a, adica h(x) = Ax b cu A R
pn
, atunci condit ia de
regularitate este echivalenta cu matricea A sa aiba rangul egal cu p.
Teorema 10.1.2

Intr-un punct regulat x

al suprafet ei S denita de constrangerile de egal-


itate h(x) = 0, planul tangent este egal cu:
M = d R
n
: h(x

)d = 0.
Demonstrat ie: Notam prin T planul tangent in x

. Pentru ca T = M trebuie sa demon-


stram incluziunea dubla T M si M T. Este clar ca T M, chiar dac a x

este regulat
sau nu, deoarece orice curba x(t) ce trece prin x

la t = t

, av and derivata x(t

) astfel ncat
146 10.1. Condit ii de ordinul I pentru (NLP) av and constr angeri de egalitate
h(x

) x(t

) ,= 0 nu ar n S (t inem seama ca h(x(t)) = 0 pentru orice a t b). Pentru


a demonstra ca M T, trebuie sa ar at am ca pentru un d M exist a o curba n S ce trece
prin x

cu derivata d n t

. Pentru a construi o asemenea curba, consider am ecuat ia


h(x

+ td +h(x

)
T
u(t)) = 0
unde pentru un t xat, consider am u(t) R
p
ca ind necunoscuta. Aceasta ecuat ie este un
sistem de p ecuat ii si p necunoscute, parametrizat n mod continuu prin t. La t = 0 avem
solut ia u(0) = 0. Jacobianul sistemului n funct ie de u la t = 0 este matricea
h(x

)h(x

)
T
R
pp
,
ce este nesingulara din moment ce x

este un punct regulat si astfel h(x

) este de rang
maxim. Astfel, prin teorema funct ie implicite (vezi Apendix), exista o solut ie continuu
diferent iabila u(t) ntr-o regiune a t a. Curba x(t) = x

+td+h(x

)
T
u(t) este astfel,
prin construct ie, o curba in S. Prin derivarea sistemului la t = 0 avem:
0 =
d
dt
h(x(t))

t=0
= h(x

)d +h(x

)h(x

)
T
u(0).
Din denit ia lui d avem h(x

)d = 0 si astfel, din moment ce h(x

)h(x

)
T
este nesingu-
lara, tragem concluzia ca x(0) = 0. Astfel
x(0) = d +h(x

)
T
x(0) = d
iar curba construita are n x

derivata d.
Exemplu 10.1.3 (Plan tangent) Fie constrangerea h(x): R
3
R, h(x) = x
2
1
+x
2
2
+3x
1
+
3x
2
+ x
3
1 si punctul x

= [0 0 1]
T
astfel ncat h(x

) = 0. Jacobianul lui h(x) va :


h(x) =
_
2x
1
+ 3 2x
2
+ 3 1

iar h(x

) = [3 3 1], ceea ce arata ca x

este punct regulat. Astfel, din denit ia planului


tangent (conform teoremei anterioare), orice direct ie tangenta d = [d
1
d
2
d
3
]
T
va trebui sa
satisfaca
h(x

)d = 0,
si anume 3d
1
+ 3d
2
+ d
3
= 0.

In Fig. 10.1 am reprezentat suprat a denita de h(x) = 0 si
planul tangent n punctul x

= [0 0 1]
T
.
Prin cunoasterea reprezentarii planului tangent, derivarea condit iilor necesare si suciente
pentru ca un punct sa e un punct de minim local pentru probleme cu constr angeri de
egalitate este destul de simpl a.
147 Capitol 10. Condit ii de optimalitate pentru (NLP)
10
0
10
10
5
0
5
10
250
200
150
100
50
0
50
x
1 x
2
x
3
Figura 10.1: Suprafat a pentru h(x) = 0 si planul tangent aferent punctului x

= [0 0 1]
T
.
Lema 10.1.4 Fie x

un punct regulat al constrangerilor h(x) = 0 si punct de extrem local


(minim sau maxim local) al problemei de optimizare (NLPe). Atunci, orice d R
n
ce
satisface
h(x

)d = 0
trebuie sa satisfaca si
f(x

)
T
d = 0.
Demonstrat ie Fie un vector d n planul tangent n x

si x(t) e orice curba neted a pe


suprafat a de constrangere ce trece prin x

cu derivata d, i.e. x(0) = x

, x(0) = d si h(x(t)) =
0, cu a t a pentru un a > 0. Din moment ce x

este un punct regulat, planul tangent


este identic cu mult imea de d-uri ce satisfac h(x

)d = 0. Astfel, din moment ce x

este
punct de extrem local constrans al lui f avem:
d
dt
f(x(t))

t=0
= 0,
sau, n mod echivalent
f(x

)
T
d = 0.

Teorema 10.1.5 (Condit ii necesare de ordinul I pentru (NLPe)) Fie x

un punct de
extrem al funct iei obiectiv f supusa la constrangerile h(x) = 0, i.e. al problemei de optimizare
(NLPe), si presupunem ca x

este un punct regulat pentru aceste constrangeri. Atunci, exista


un multiplicator Lagrange

R
p
astfel ncat
(KKT - NLPe) : f(x

) +h(x

)
T

= 0 si h(x

) = 0.
148 10.1. Condit ii de ordinul I pentru (NLP) av and constr angeri de egalitate
Demonstrat ie Din Lema 10.1.4 tragem concluzia ca valoarea optima a LP-ului:
max
dR
n
f(x

)
T
d
s.l.: h(x

)d = 0
este zero. Astfel, din moment ce LP-ul are o valoare optima nita, atunci din teorema
dualitat ii pentru LP, duala ei va fezabila.

In particular, exist a un

R
p
astfel ncat
f(x

) +h(x

)
T

= 0.
Punctele x

pentru care exist a

astfel ncat condit iile (KKT-NLPe) sunt satisf acute se


numesc puncte stat ionare pentru problema (NLPe). Observam ca dac a exprimam La-
grangianul asociat problemei constranse:
/(x, ) = f(x) +
T
h(x)
atunci condit iile necesare de ordinul I pot rescrise sub forma:

x
/(x

) = 0

/(x

) = 0
sau echivalent sub forma
/(x

) = 0.
Dupa cum observam aceste condit ii seam ana foarte mult cu condit iile de optimalitate de
ordinul I pentru cazul neconstr ans (i.e. f(x

) = 0). Pentru cazul constr ans n locul funct iei


obiectiv f se consider a Lagrangianul /. Condit iile de ordinul I se reduc la rezolvarea unui
sistem /(x

) = 0 de n + p ecua

tii (de obicei neliniare) cu n + p necunoscute. Deci,


acest sistem de ecuat ii ar trebui sa permit a, cel putin local, determinarea unei solut ii. Dar
ca si n cazul neconstr ans, o solut ie a sistemului dat de condit iile necesare de ordinul I nu
este neaparat un minim (local) al problemei de optimizare; poate la fel de bine un maxim
(local) sau un punct sa.
Exemplu 10.1.6 Consideram problema:
min
xR
2
: h(x)=x
2
1
+x
2
2
2=0
x
1
+ x
2
.
Mai ntai observam ca orice punct fezabil este regulat (punctul x = [0 0]
T
nu este fezabil).
In concluzie orice minim local al acestei probleme satisface sistemul /(x, ) = 0 care se
poate scrie explicit astfel:
2x
1
= 1
2x
2
= 1
x
2
1
+ x
2
2
= 2.
149 Capitol 10. Condit ii de optimalitate pentru (NLP)
Figura 10.2: Condit iile de ordinul I.
Aceste sistem de trei ecuat ii cu trei necunoscute x
1
, x
2
si are urmatoarele doua solut ii:
(x

1
, x

2
,

) = (1, 1, 1/2) si (x

1
, x

2
,

) = (1, 1, 1/2). Se poate observa (vezi Fig. 10.2)


ca prima solut ie este un minim local n timp ce cealalta solut ie este un maxim local.
Este important sa observam ca pentru ca un punct de minim sa satisfac a condit iile de ordinul
I este necesar sa avem regularitate. Cu alte cuvinte, condit iile de optimalitate de ordinul I
pot sa nu aib a loc la un punct de minim local care nu este regulat.
Exemplu 10.1.7 Consideram problema:
min
xR
2
x
1
s.l.: h
1
(x) = (1 x
1
)
3
+ x
2
= 0, h
2
(x) = (1 x
1
)
3
x
2
= 0.
Se observa ca aceasta problema are un singur punct fezabil x

= [1 0]
T
care este de aseme-
nea si minimul global. Pe de alta parte avem ca f(x

) = [1 0]
T
, h
1
(x

) = [0 1]
T
si
h
2
(x

) = [0 1]
T
si deci x

nu este punct regulat. Se observa ca n acest caz condit iile de


optimalitate de ordinul I nu pot satisfacute, adica nu exista
1
si
2
astfel ncat:

1
_
0
1
_
+
2
_
0
1
_
=
_
1
0
_
.
Acest exemplu ilustreaza ca un punct de minim e posibil sa nu satisfaca condit iile de stat ionaritate
pentru Lagrangian daca punctul nu este regulat.
150 10.2. Condit ii de ordinul II pentru (NLP) av and constr angeri de egalitate
10.2 Condit ii de ordinul II pentru (NLP) avand con-
strangeri de egalitate

In mod asem anator condit iilor de optimalitate de ordinul II denite pentru probleme de
optimizare far a constrangeri, putem deriva condit iile corespunzatoare pentru probleme con-
stranse. Consideram din nou probleme av and constrangeri de tip egalitate (10.2):
Teorema 10.2.1 (Condit ii necesare de ordinul II pentru (NLPe)) Presupunem ca x

este un punct de minim local al problemei (NLPe) denita n (10.2) si un punct regulat pentru
constrangerile aferente. Atunci exista un

R
P
astfel ncat
f(x

) +h(x

)
T

= 0 si h(x

) = 0.

In plus, daca notam prin M planul tangent n x

M = d R
n
: h(x

)d = 0, atunci
matricea Hesiana a Lagrangianului n raport cu x

2
x
/(x

) =
2
f(x

) +
p

i=1

2
h
i
(x

)
este pozitiv semidenita pe M, adica d
T

2
x
/(x

)d 0 pentru orice d M.
Demonstrat ie Este clar ca pentru orice curba de dou a ori diferent iabila pe suprafat a de
constr angeri S ce trece prin x

(cu x(0) = x

) avem
d
2
dt
2
f(x(t))

t=0
0. (10.4)
Prin denit ie avem:
d
2
dt
2
f(x(t))

t=0
= x(0)
T

2
f(x

) x(0) +f(x

)
T
x(0). (10.5)
Mai mult, dac a derivam relatia h(x(t))
T

= 0 de dou a ori, obt inem:


x(0)
T
_
p

i=1

2
h
i
(x

)
_
x(0) + (

)
T
h(x

) x(0) = 0. (10.6)
Adaugand (10.6) la (10.5) si t in and cont de (10.4), obt inem:
d
2
dt
2
f(x(t))

t=0
= x(0)
T

2
x
/(x

, ) x(0) 0.
Din moment ce x(0) este arbitrar n M, atunci demonstrat ia este complet a.
151 Capitol 10. Condit ii de optimalitate pentru (NLP)
Exemplu 10.2.2 Consideram problema de optimizare din Exemplul 10.1.6. Se observ a ca
matricea Hesiana a funct iei Lagrange n variabila x este

2
x
/(x, ) =
2
f(x) +
2
h(x) =
_
2 0
0 2
_
,
si o baza a planului tangent la un punct x ,= 0 este de forma D(x) = [x
2
x
1
]
T
. Atunci,
avem relat ia
D(x)
T

2
x
/(x, )D(x) = 2(x
2
1
+ x
2
2
).
Pentru prima solut ie a sistemului rezultat din condit ia de stat ionaritate a Lagrangianului
avem d
T
1

2
x
/(1, 1, 1/2)d
1
= 2 > 0, unde d
1
= D(1, 1), si deci aceasta solut ie satisface
condit iile necesare de ordinul II. Pe de alta parte, pentru cea de-a doua solut ie avem expresia
d
T
2

2
x
/(1, 1, 1/2)d
2
= 2 < 0, unde d
2
= D(1, 1), si deci aceasta solut ie nu poate minim
local.
Teorema 10.2.3 (Condit ii suciente de ordinul II pentru (NLPe)) Presupunem un
punct x

R
n
si un

R
p
astfel ncat
f(x

) +h(x

)
T

= 0 si h(x

) = 0. (10.7)
Presupunem de asemenea ca matricea
2
x
/(x

) =
2
f(x

)+

p
i=1

2
h
i
(x

) este pozitiv
denita pe planul tangent M = d : h(x

)d = 0. Atunci x

este punct de minim local


strict al problemei avand constrangeri de egalitate (NLPe) denita n (10.2).
Demonstrat ie Dac a x

nu ar un punct de minim local strict, atunci ar exista un sir de


puncte fezabile z
k
ce converge catre x

astfel ncat f(z


k
) f(x

). Putem scrie z
k
= x

+
k
s
k
,
unde s
k
R
n
, |s
k
| = 1, si
k
> 0.

In mod clar
k
0, iar sirul s
k
ind marginit, va trebui
sa convearga catre un s

,= 0. Avem de asemenea ca h(z


k
) h(x

) = 0 si prin mp art irea cu

k
vom observa, pentru k , ca h(x

)s

= 0, adica s

este vector tangent. Acum, prin


Teorema lui Taylor, avem pentru orice j:
0 = h
j
(z
k
) = h
j
(x

) +
k
h
j
(x

)s
k
+

2
k
2
s
T
k

2
h
j
(
j
)s
k
(10.8)
si
0 f(z
k
) f(x

) =
k
f(x

)s
k
+

2
k
2
s
T
k

2
f(
0
)s
k
, (10.9)
unde
j
sunt puncte pe segmentul de dreapta dintre x

si z
k
si deci converge la x

.

Inmult ind
acum ecuat iile (10.8) cu

j
, adaugandu-le la (10.9), si t in and cont de (10.7), obt inem:
s
T
k
_

2
f(
0
) +
p

i=1

2
h
i
(
i
)
_
s
k
0,
152 10.2. Condit ii de ordinul II pentru (NLP) av and constr angeri de egalitate
relat ie contradictorie pentru k deoarece s
k
converge la vectorul tangent s

,= 0. Am
t inut cont de faptul ca
j
sunt convergente la x

.
Putem iarasi concluziona ca aceste condit ii de ordinul II pentru cazul constr ans sunt foarte
similare cu cele corespunz atoare cazului neconstr ans.

In cazul problemelor constr anse nsa,
n locul funct iei obiectiv se foloseste Lagrangianul.
Exemplu 10.2.4 Consideram problema:
min
xR
3
: x
1
+x
2
+x
3
=3
x
1
x
2
x
1
x
3
x
2
x
3
.
Condit iile de ordinul I conduc la un sistem liniar de patru ecuat ii cu patru necunoscute:
(x
2
+ x
3
) + = 0
(x
1
+ x
3
) + = 0
(x
1
+ x
2
) + = 0
x
1
+ x
2
+ x
3
= 3.
Se poate observa usor ca x

1
= x

2
= x

3
= 1 si

= 2 satisface acest sistem. Mai mult


Hesiana Lagrangianului n orice punct x are forma:

2
x
/(x, ) =
2
f(x) =
_
_
0 1 1
1 0 1
1 1 0
_
_
,
si o baza a planului tangent la suprafat a denita de constrangerea h(x) = x
1
+x
2
+x
3
3 = 0
n orice punct x fezabil este
D(x) =
_
_
0 2
1 1
1 1
_
_
.
Obt inem
D(x

)
T

2
x
/(x

)D(x

) =
_
2 0
0 2
_
0,
adica este pozitiv denita.

In concluzie punctul x

este punct de minim strict local. Interesant


de observat este faptul ca Hesiana funct iei obiectiv evaluata n x

este matrice indenita.


Interpretarea multiplicatorilor Lagrange folosind senzitivitatea: Dupa cum am
vazut, cu ajutorul multiplicatorilor Lagrange putem muta constrangerile in funct ia obiectiv.
O interpretare interesanta a multiplicatorilor Lagrange este data cu ajutorul senzitivit at ii
(pentru mai multe detalii se poate consulta cartea clasic a [4]). Pentru simplitate consider am
o problem a (NLP) denita numai de egalitat i:
min
xR
n
f(x) : h(x) = 0
153 Capitol 10. Condit ii de optimalitate pentru (NLP)
si apoi asociem acesteia problema perturbat a
v(y) = min
xR
n
f(x) : h(x) = y.
Fie x

solut ia optima a problemei originale si e (y) solut ia optima a problemei perturbate.


Atunci avem ca v(0) = f(x

) si (0) = x

. Mai mult, din identitatea h((y)) = y pentru


orice y, avem :

y
h((y)) = I
p
=
x
h((y))
T

y
(y).
Fie

multiplicatorul Lagrange optim (solut ia optima duala) pentru problema original a


neperturbat a. Atunci,

y
v(0) =
x
f(x

)
y
(0) =

x
h(x

)
T

y
(0) =

In concluzie, multiplicatorul Lagrange optim

poate interpretat ca senzitivitatea funct iei


obiectiv f n raport cu constrangerea h(x) = 0. Altfel spus,

indic a cat de mult valoarea


optima s-ar schimba dac a constrangerea ar perturbat a. Aceasta interpretare poate
extins a la probleme generale (NLP) denite si de constrangeri de inegalitate. Multiplicatorii
Lagrange optimi

corespunz atori unei constrangeri active g(x) 0 pot interpretat i ca


senzitivitatea lui f(x

) n raport cu o perturbat ie n constrangeri de forma g(x) y.



In
acest caz, pozitivitatea multiplicatorilor Lagrange urmeaza din faptul ca prin cresterea lui y,
mult imea fezabila este relaxata si deci valoarea optima nu poate creste . Pentru inegalitat ile
inactive, interpretarea n termeni de senzitivitate explica de asemenea de ce multiplicatorii
Lagrange sunt zero, pentru ca o perturbat ie foarte mic a n aceste constr angeri lasa valoarea
optima neschimbat a.
10.3 Condit ii de ordinul I pentru (NLP) generale

In aceasta sect iune extindem condit iile de optimalitate de la cazul problemelor av and con-
strangeri de egalitate la cel al problemelor de optimizare generale:
(NLP) : min
xR
n
f(x)
s.l.: g(x) 0, h(x) = 0.
Denit ia 10.3.1 Fie un punct x

ce satisface constrangerile problemei (NLP), adica avem


h(x

) = 0, g(x

) 0 si /(x

) mult imea constrangerilor active. Numim punctul x

punct
regulat daca gradient ii funct iilor de constrangere, h
i
(x

) pentru i = 1, . . . , p, si g
j
(x

)
pentru j /(x

) sunt liniari independent i.


Teorema 10.3.2 (Condit ii necesare de ordinul I pentru (NLP)) Fie x

un punct de
minim local pentru problema NLP generala si presupunem c a x

este si regulat. Atunci exista


154 10.3. Condit ii de ordinul I pentru (NLP) generale
un vector

R
m
si un vector

R
p
astfel ncat condit iile Karush-Kuhn-Tucker (KKT)
au loc:
(KKT) : f(x

) +h(x

)
T

+g(x

)
T

= 0 (10.10)
g(x

)
T

= 0 (10.11)
g(x

) 0, h(x

) = 0

R
p
,

0.
Demonstrat ie: Observam mai ntai, ca din moment ce

0 si g(x

) 0, relat ia (10.11)
este echivalenta cu a spune ca o componenta

i
a vectorului

poate nenul a doar dac a


constr angerea sa corespunz atoare g
i
(x

) este activa. Astfel, faptul ca g


i
(x

) < 0 implica

i
= 0, iar

i
> 0 implica g
i
(x

) = 0. Din moment ce x

este punct de minim pentru


problema (NLP) denita de mult imea de constrangeri X = x : g(x) 0, h(x) = 0, atunci
este un punct de minim si pentru problema de optimizare av and submult imea mult imii X
de constrangeri denita prin setarea constrangerilor active la zero. Drept urmare, pentru
problema av and constrangeri de egalitate ce ar rezulta, denita pentru o vecin atate a lui x

,
exist a multiplicatori Lagrange. Astfel, tragem concluzia ca relat ia (10.10) este satisf acuta
pentru

i
= 0 dac a g
i
(x

) ,= 0 iar drept urmare si relat ia (10.11) este satisf acuta. Mai trebuie
sa ar at am ca

i
0 pentru constrangerile active g
i
(x

) = 0. Presupunem o componenta

k
<
0. Fie S
k
si M
k
suprafat a si respectiv planul tangent denit de toate celelalte constr angeri
active n x

cu except ia constrangerii active g


k
(x

) = 0. Din moment ce am presupus ca x

este un punct regulat, atunci exist a un d M


k
astfel ncat g
k
(x

)d < 0. Fie x(t) o curba


n S
k
ce trece prin x

la t = 0, cu x(0) = d. Atunci, pentru un t 0 sucient de mic, x(t)


este fezabil si folosind prima relat ie (KKT) obt inem
df(x(t))
dt

t=0
= f(x

)d < 0
ce ar contrazice minimalitatea lui x

.
Punctele x

ce satisfac condit iile (KKT) se numesc puncte stat ionare pentru problema (NLP)
generala. Observam ca prima relat ie din condit iile (KKT) exprima ca x

este punct stat ionar


pentru funct ia Lagrange, adica condit ia de optimalitate de ordinul I:

x
/(x

) = 0.
Cea dea dou a relat ie din condit iile (KKT) este complementaritatea: deoarece

0 si
g(x

) 0, atunci g(x

)
T

= 0 implica ca dac a g
i
(x

) < 0 atunci

i
= 0, iar dac a

i
> 0
atunci g
i
(x

) = 0. Ultimile dou a relat ii din condit iile (KKT) exprima fezabilitatea primal a
si duala, adica x

este fezabil pentru problema primal a si perechea (

) este fezabila
pentru problema duala. Condit iile (KKT) sunt numite dupa Karush a carui teza de master
nepublicata din 1939 a fost introdus a n cartea publicat a de Kuhn si Tucker n 1951.
155 Capitol 10. Condit ii de optimalitate pentru (NLP)
Exemplu 10.3.3 Consideram problema de optimizare
min
xR
3
f(x) =
1
2
(x
2
1
+ x
2
2
+ x
2
3
)
s.l.: g
1
(x) = x
1
+ x
2
+ x
3
+ 3 0, g
2
(x) = x
1
0.
Dorim sa calcul am punctele KKT asociate problemei. Evident, vom avea R
2
. Observam
c a orice punct fezabil pentru aceasta problema este un punct regulat, iar din condit ia de
optimalitate f(x

) +

2
i=1

i
g
i
(x

) = 0 avem:
x

1
+

1
+

2
= 0
x

2
+

1
= 0
x

3
+

1
= 0.
Din condit ia de complementaritate putem distinge 4 cazuri:
1. Presupunem constrangerile g
1
si g
2
sunt amandoua inactive, adica x

1
+ x

2
+ x

3
< 3
si x

1
< 0, de unde rezulta ca

1
= 0 si

2
= 0. Din condit iile de optimalitate avem
x

1
= x

2
= x

3
= 0, ceea ce contrazice faptul ca g
1
si g
2
ar inactive.
2. Presupunem g
1
inactiva iar g
2
activa, adica x

1
+ x

2
+ x

3
< 3 si x

1
= 0, iar

1
= 0,

2
0. Din condit iile de optimalitate avem ca

1
=

2
= 0, iar implicit x

2
= x

3
= 0
ce conduce din nou la o contradict ie.
3. Presupunem g
1
activ a si g
2
inactiva, adica x

1
+ x

2
+ x

3
= 3 si x

1
< 0, iar

1
0
si

2
= 0, Astfel, putem lua x

1
= x

2
= x

3
= 1 si

1
= 1 ce satisfac condit iile KKT,
deci aceasta solut ie este un punct KKT.
4. Preuspunem ca ambele constrangeri sunt active, adica x

1
+ x

2
+ x

3
= 3 si x

1
= 0,
iar

1
,

2
0. Atunci obt inem x

2
= x

3
=
3
2
, iar

1
=
3
2
si

2
=
3
2
, ce contrazice
condit ia

2
0.
Exemplu 10.3.4 Consideram problema de optimizare:
min
xR
2
2x
2
1
+ 2x
1
x
2
+ x
2
2
10x
1
10x
2
s.l: x
2
1
+ x
2
2
5, 3x
1
+ x
2
6.
Condit iile (KKT) sunt n acest caz urmatoarele:
4x
1
+ 2x
2
10 + 2
1
x
1
+ 3
2
= 0, 2x
1
+ 2x
2
10 + 2
1
x
2
+
2
= 0

1
(x
2
1
+ x
2
2
5) = 0,
2
(3x
1
+ x
2
6) = 0
x
2
1
+ x
2
2
5, 3x
1
+ x
2
6,
1
0,
2
0.
Pentru a gasi o solut ie ncercam diferite combinatii de constrangeri active si veric am semnul
multiplicatorilor Lagrange rezultat i. Pentru acest exemplu putem considera doua constrangeri
156 10.4. Condit ii de ordinul II pentru (NLP) generale
active, una sau nici una. Presupunem ca prima constrangere este activa si a doua este
inactiva si rezolvam sistemul de trei ecuat ii corespunzator:
4x
1
+ 2x
2
10 + 2
1
x
1
= 0
2x
1
+ 2x
2
10 + 2
1
x
2
= 0
x
2
1
+ x
2
2
5 = 0.
Obt inem solut ia: x

1
= 1, x

2
= 2 si

1
= 1,

2
= 0. Observam ca aceasta solut ie veric a
3x
1
+ x
2
6 si
1
0 si deci aceasta solut ie satisface condit iile (KKT).
10.4 Condit ii de ordinul II pentru (NLP) generale
Condit iile de optimalitate de ordinul II, at at necesare cat si suciente pentru probleme (NLP)
generale, sunt derivaten mod esent ial prin considerarea doar a problemei av and constr angeri
de egalitate echivalenta ce este implicat a de constrangerile active. Planul tangent n x

core-
spunzator pentru aceste probleme generale (NLP) este planul tangent pentru constr angerile
active:
M = d : g
j
(x

)
T
d = 0 j /(x

), h
i
(x

)
T
d = 0 i = 1, . . . , p.
Teorema 10.4.1 (Condit ii necesare de ordinul II pentru (NLP)) Fie f, g si h funct ii
continuu diferent iable de doua ori si un punct x

punct regulat pentru constrangerile din prob-


lema (NLP) generala. Daca x

este un punct de minim local pentru problema (NLP), atunci


exista un

R
m
si un

R
p
, astfel ncat condit iile (KKT) sunt satisfacute, iar n plus
Hesiana Lagrangianului n raport cu x

2
x
/(x

) =
2
f(x

) +
p

i=1

2
h
i
(x

) +
m

i=1

2
g
i
(x

)
este pozitiv semidenita pe subspat iul tangent al constrangerilor active n x

, adica avem
d
T

2
x
/(x

)d 0 pentru orice d M.
Demonstratie Dim moment ce x

este punct de minim pentru constr angerile din problema


(NLP) generala, atunci este punct de minim si pentru problema n care constr angerile active
sunt luate drept constrangeri de egalitate si neglijate constrangerile inactive.

In acest fel
demonstrat ia urmeaza imediat din condit iile necesare de ordinul II pentru probleme av and
constr angeri numai de egalitate.
Ca si n teoria minimizarii neconstr anse, putem formula pentru problema (NLP) generala
n mod asem anator condit ii suciente de ordinul II. Prin analogie cu rezultatul din cazul
157 Capitol 10. Condit ii de optimalitate pentru (NLP)
neconstr ans, condit ia necesara este ca matricea
2
x
/(x

) sa e pozitiv denit a pe
planul tangent M corespunz ator constrangerilor active. Acest fapt este ntr-adev ar sucient
n majoritatea cazurilor, mai exact n cazurile nedegenerate.
Teorema 10.4.2 (Condit ii suciente de ordinul II pentru (NLP)) Fie f, g si h funct ii
continuu diferent iabile de doua ori. Fie de asemenea un punct regulat x

R
n
si variabilele
duale

R
m
si

R
p
pentru care condit iile (KKT) sunt satisfacute si pentru care nu
avem constrangeri de inegalitate degenerate, adica

j
> 0 pentru orice j /(x

). Daca, de
asemenea, Hesiana Lagrangianului
2
x
/(x

) este pozitiv denita pe subspat iul tangent


M =
_
d : h(x

)d = 0, g
j
(x

)
T
d = 0 j /(x

)
_
, atunci x

este un punct de minim


local strict pentru problema (NLP) generala.
Demonstrat ie Similar cu demonstrat ia din cazul problemelor av and constr angeri de egal-
itate, presupunem ca x

nu este un punct de minim strict. Fie astfel un sir de puncte fezabile


z
k
ce converge la x

si pentru care f(z


k
) f(x

). Putem scrie z
k
= x

+
k
s
k
, cu |s
k
| = 1 si

k
> 0. Putem presupune ca
k
0 si s
k
converge catre un punct nit, adica s
k
s

. Vom
avea astfel f(x

)
T
s

0 si h
i
(x

)
T
s

= 0 pentru tot i i = 1, . . . , p. De asemenea, pentru


ecare constr angere activa g
j
avem g
j
(z
k
) g
j
(x

) 0 iar drept urmare


g
j
(x

)
T
s

0,
dac a g
j
(x

)
T
s

= 0 pentru tot i j /(x

). Atunci, demonstrat ia ar continua ca si n cazul


problemelor doar cu constrangeri de egalitate.

In schimb, dac a g
j
(x

)
T
s

< 0 pentru cel


put in un j /(x

), atunci
0 f(x

)
T
s

= (s

)
T
g(x

)
T

(s

)
T
h(x

)
T

> 0,
relat ie de altfel contradictorie.
De remarcat este faptul ca dac a avem constrangeri de inegalitate degenerate, adica con-
strangeri de inegalitate active g
i
(x

) = 0 cu multiplicatorul Lagrange asociat

i
= 0, atunci
n teorema precedenta trebuie sa cerem ca Hesiana Lagrangianului
2
x
/(x

) sa e
pozitiv denita pe un subspat iu mai mare decat M si anume pe subspat iul:
M

=
_
d : h(x

)d = 0, g
j
(x

)
T
d = 0 j /
+
(x

), g
j
(x

)
T
d 0 j /
0
(x

)
_
,
unde /
+
(x

) =
_
j : g
j
(x

) = 0,

j
> 0
_
si /
0
(x

) =
_
j : g
j
(x

) = 0,

j
= 0
_
.
Exemplu 10.4.3 Consideram problema:
min
xR
2
: x
2
1
+x
2
2
10
x
2
.
158 10.4. Condit ii de ordinul II pentru (NLP) generale

In mod evident punctul de minim global al acestei probleme este x

= [0 1]
T
. Vom arata
ca acesta este de fapt punct de minim strict. Pentru aceasta observ am ca prima condit ie
(KKT) are forma:
2x
1
= 0, 1 + 2x
2
= 0,
de unde rezulta ca > 0 si deci constrangerea este activa. Din sistemul de trei ecuat ii dat de
cele doua ecuat ii de mai sus si x
2
1
+x
2
2
1 = 0 obt inem solut ia x

= [0 1]
T
si

= 1/2. Mai
departe, planul tanget n x

este dat de M = d : [0 2]d = 0 = d : d


2
= 0. Observam de
asemenea ca Hesiana Lagrangianului este
2
x
/(x

) = 2

I
2
, care binenteles este pozitiv
denita pe M. Aceasta arata ca x

este punct de minim strict.

In nal analizam condit iile de optimalitate pentru cazul convex. Reamintim ca problema
(NLP) generala este o problema convexa (CP) dac a funct iile f si g
1
, , g
m
sunt funct ii
convexe iar funct iile h
1
, . . . , h
p
sunt funct ii ane. Dac a funct ia h este an a atunci exist a
A R
pn
si b R
p
astfel ncat h(x) = Ax b.

In acest caz condit iile de ordinul I (KKT)
sunt necesare si suciente. De remarcat este faptul ca n cazul convex condit iile necesare de
ordinul I au loc sub condit ia: x

punct de minim global si regulat.


Teorema 10.4.4 (Condit iile suciente de ordinul I pentru probleme convexe) Fie
o problema convexa (CP) de forma:
(CP) : f

= min
xR
n
f(x)
s.l: g(x) 0, Ax = b,
unde funct iile f si g
1
, , g
m
sunt funct ii convexe. Daca urmatoarele condit ii (KKT) sunt
satisfacute pentru tripletul (x

):
(KKT-CP) : f(x

) +g(x

)
T

+ A
T

= 0
g(x

)
T

= 0
g(x

) 0, Ax

= b

R
p
,

0,
atunci x

este punct de minim global pentru problema convexa (CP), (

) este punct de
maxim global pentru problema duala si strong dualitatea are loc, adica f

= q

.
Demonstrat ie: Deoarece funct ia Lagrange este convexa n variabila x si t in and cont
ca prima relat ie din condit iile (KKT-CP) nseamn a
x
/(x

) = 0, implica x

=
arg min
xR
n /(x,

) si q(

) = /(x

). Combinand propriet at ile funct iei duale


cu aceste condit ii (KKT-CP) avem:
f

q(

) = /(x

)
= f(x

) + g(x

)
T

+ (Ax

b)
T

= f(x

) f

.
159 Capitol 10. Condit ii de optimalitate pentru (NLP)

In concluzie, avem f(x

) = f

si cum x

este fezabil pentru problema convexa (CP) atunci


este punct de minim global pentru aceasta problem a. Mai departe, din dualitatea slaba si
faptul ca f

= q(

) obt inem f

= q

.
Exemplu 10.4.5 Consideram problema proiect iei originii x
0
= 0 pe subspat iul X = x
R
n
: Ax = b, unde A R
pn
si are rangul p cu p < n. Aceasta problema se formuleaza ca
o problema convexa (CP):
min
x: Ax=b
|x|
2
.
Condit iile (KKT-CP) pentru aceasta problema devin:
x

+ A
T

= 0, Ax

= b.
De aici obt inem AA
T

= b si t inand seama ca AA
T
este matrice inversabila, ajungem la
x

= A
T
(AA
T
)
1
b = A
+
b, unde A
+
= A
T
(AA
T
)
1
este pseudoinversa lui A.
Acest rat ionament poate extins la funct ii patratice convexe generale:
min
x: Ax=b
1
2
x
T
Qx + q
T
x,
unde Q 0. Pentru aceasta problema convexa condit iile (KKT-CP) devin:
Qx

+ q + A
T

= 0, Ax

= b.

Intr-o maniera similara obt inem ca solut iile optime primale si duale sunt date de expresiile:

= (AQ
1
A
T
)
1
[AQ
1
q + b] si x

= Q
1
A
T

Q
1
q.
Figura 10.3: Condit iile KKT pentru problem a convexa (10.12).
160 10.4. Condit ii de ordinul II pentru (NLP) generale
Exemplu 10.4.6 Consideram urmatoarea problema convexa:
min
xR
2
(x
1
5)
2
+ (x
2
5)
2
(10.12)
g
1
(x) = x
2
1
+ x
2
2
5 0, g
2
(x) = x
1
+ 2x
2
4 0, g
3
(x) = x
1
0, g
4
(x) = x
4
0.
Condit iile (KKT-CP) devin:
_
2(x

1
5)
2(x

2
5)
_
+
_
2x

1
1/2 1 0
2x

2
1 0 1
_

= 0
g
i
(x

) 0,

i
0,

i
g
i
(x

) = 0 i = 1, . . . , 4.
Presupunem (vezi Fig. 10.3) ca primele doua inegalitat i sunt active. Atunci avem

3
=

4
=
0 si deci condit iile (KKT-CP) se reduc la un sistem de 4 ecuat ii cu 4 necunoscute:
_
2(x

1
5)
2(x

2
5)
_
+
_
2x

1
1/2
2x

2
1
_ _

2
_
= 0
(x

1
)
2
+ (x

2
)
2
5 = 0, x

1
+ 2x

2
4 = 0,
care are solut ia x

= [2 1]
T
, si deci x

este punct de minim global pentru problema convexa


considerata.
Capitol 11
Metode de ordinul I si II pentru
(NLP) avand constrangeri convexe

In acest capitol vom analiza metode numerice de optimizare pentru probleme (NLP) unde
mult imea fezabila este convexa, adica
min
xX
f(x), (11.1)
unde f este o funct ie diferent ibila (nu neaparat convexa), dar mult imea X este nevida,
nchisa si convexa. Reamintim un rezultat fundamental, condit iile de optimalitate necesare
de ordinul I, pentru problema de optimizare de forma (11.1) (vezi Teorema (10.0.6)): dac a
x

este punct de minim local atunci


f(x

)
T
(x x

) 0 x X.
Reamintim ca un punct x

satisfac and realt ia de mai sus se numeste punct stat ionar pentru
problema de optimizare (11.1).
Exemplu 11.0.7 (Proiect ia Euclidiana) Revenim la problema proiect iei Euclidiene a unui
vector x
0
R
n
pe mult imea convexa X R
n
ce se formuleaza matematic astfel:
min
xX
|x x
0
|
2
.
Notam cu [x
0
]
(In,X)
solut ia optima a acestei probleme, adica proiect ia [x
0
]
(In,X)
este acel
vector din X care se aa la cea mai mica distant a de x
0
. Din condit iile de optimalitate
precedente avem relat ia:
([x
0
]
(In,X)
x
0
)
T
(x [x
0
]
(In,X)
) 0 x X. (11.2)
161
162 11.1. Metode de direct ii de descrestere
O alta proprietate importanta a proiect iei este cea de nonexpansivitate:
|[x
0
]
(In,X)
[y
0
]
(In,X)
| |x
0
y
0
| x
0
, y
0
R
n
. (11.3)
Aceasta proprietate se deriveaza usor din condit iile de optimalitate. Intr-adevar, aplicand
condit ia de optimalitate pentru x
0
cu x = [y
0
]
(In,X)
X obtinem
([x
0
]
(In,X)
x
0
)
T
([y
0
]
(In,X)
[x
0
]
(In,X)
) 0.
Aplicand acelasi procedeu pentru y
0
cu x = [x
0
]
(In,X)
X obt inem
([y
0
]
(In,X)
y
0
)
T
([x
0
]
(In,X)
[y
0
]
(In,X)
) 0.
Adunand aceste doua relat ii, aranjand termenii si apoi aplicand inegalitatea Caucly-Schwartz
obt inem rezultatul dorit.
Metodele prezentate n acest capitol vor generalizarea la cazul constr ans al metodelor
direct iilor de descrestere (de exemplu gradient si Newton) dezvoltate pentru cazul prob-
lemelor neconstr anse. Algoritmii ce vor analizat i n aceasta parte a lucr arii apart in clasei
de metode bazate pe direct ii fezabile.
11.1 Metode de direct ii de descrestere
Pentru un punct fezabil x X, o direct ie fezabila la x este un vector d pentru care x + d
este fezabil pentru orice sucient de mic. O metode a direct iilor fezabile porneste dintr-un
punct fezabil x
0
X si genereaz a un sir de vectori pe baza urmatoarei iterat ii:
x
k+1
= x
k
+
k
d
k
,
unde, dac a x
k
nu este punct stat ionar, d
k
este o direct ie fezabila la x
k
, adica:
f(x
k
)
T
d
k
< 0
si pasul
k
> 0 este ales astfel ncat x
k
+
k
d
k
X.

In particular consider am metode de
direct ii fezabile care sunt si metode de descrestere, adica pasul
k
se alege astfel ncat
f(x
k
+
k
d
k
) < f(x
k
) k.
Deoarece X este mult ime convexa, atunci direct iile fezabile la x
k
sunt vectori de forma
d
k
= ( x
k
x
k
),
163 Capitol 11. Metode de ordinul I si II pentru (NLP) av and constr angeri convexe
unde > 0 si x
k
este un vector fezabil.

In acest caz avem iterat ia:
x
k+1
= x
k
+
k
( x
k
x
k
),
unde
k
[0, 1] si dac a x
k
nu este punct stat ionar atunci stim ca exist a x
k
X astfel
ncat f(x
k
)
T
( x
k
x
k
) < 0. Este evident ca dac a mult imea fezabila X este convexa atunci
x
k
+
k
( x
k
x
k
) X pentru orice
k
[0, 1]. Procedurile de alegerea a pasului
k
sunt
aceleasi ca si n cazul neconstr ans: putem alege
k
prin procedura ideal a, prin backtracking
sau pas constant
k
= 1.
Observam ca dac a x
k
este punct stat ionar, atunci metoda se opreste, adica x
k+1
= x
k
.

In
concluzie, un posibil criteriu de oprire pentru aceste metode de direct ii de descrestere ce vor
prezentate n acest capitol este urmatorul:
|x
k+1
x
k
| ,
pentru o acuratet e xat a > 0.

In cele ce urmeaza presupunem ca direct iile d


k
sunt alese astfel ncat ele sunt conectate
prin gradient la x
k
: adica pentru orice sir x
k
care converge la un punct nestat ionar, sirul
corespunz ator d
k
este m arginit si satisface
lim
k
sup
k0
f(x
k
)
T
d
k
< 0.
Teorema 11.1.1 Fie un sir x
k
generat de metoda direct iilor fezabile x
k+1
= x
k
+
k
d
k
.
Presupunem ca direct iile d
k
sunt conectate prin gradient la x
k
si pasul
k
este ales prin
metoda ideala sau backtracking. Atunci orice punct limit a a sirului x
k
este punct stat ionar.
Demonstrat ie: Ar at am aceasta teorem a prin reducerea la absurd. Consideram cazul cand
alegem
k
prin backtracking (cazul cand se alege prin metoda ideal a se trateaza ntr-o
manier a similar a). Pentru simplitate presupunem ca intreg sirul x
k
este convergent la x
care nu este punct stat ionar. Deoarece sirul f(x
k
) este descrescator atunci el este convergent
si datorita continuitat ii lui f converge la f( x). Din aceasta relat ie avem:
f(x
k
) f(x
k+1
) 0.
Conform strategiei de backtracking pentru alegerea pasului, avem
f(x
k
) f(x
k+1
) c
1

k
f(x
k
)
T
d
k
.
Deci si
k
f(x
k
)
T
d
k
0. Pe de alta parte am presupus ca d
k
sunt conectate prin gradient
la x
k
si deci d
k
sunt m arginite si lim
k
sup
k0
f(x
k
)
T
d
k
< 0, ceea ce implica:

k
0.
164 11.1. Metode de direct ii de descrestere
Din aceasta relat ie si din denit ia procedurii de backtracking, rezulta ca exist a un index

k
sucient de mare astfel ncat
f(x
k
) f(x
k
+ (
k
/)d
k
) < c
1
(
k
/)f(x
k
)
T
d
k
k

k.
Din m arginirea sirului d
k
, nseamn a ca exist a un subsir convergent. Pentru simplitate pre-
supunem ca intreg sirul d
k
este convergent si are punctul limita

d. Din inegalitarea precedenta
avem:
f(x
k
) f(x
k
+
k
d
k
)

k
< c
1
f(x
k
)
T
d
k
k

k,
unde
k
=
k
/. Din teorema valorii medii avem ca exist a scalarul
k
[0,
k
] astfel ncat
f(x
k
+
k
d
k
)
T
d
k
< c
1
f(x
k
)
T
d
k
k

k.
Luand limita n ambele part i obt inem:
f( x)
T

d c
1
f( x)
T

d
sau echivalent
0 (1 c
1
)f( x)
T

d.
Dar c
1
< 1 si deci
0 f( x)
T

d,
ceea ce contrazice presupunerea noastr a ca d
k
este conectat prin gradient la x
k
.

In cele ce urmeaza vom da cateva metode de a alege direct iile fezabile d


k
= ( x
k
x
k
), unde
x
k
X.
11.1.1 Metoda gradient condit ional
Cea mai evidenta modalitate de a alege o direct ie fezabila este urmatoarea: alegem x
k
ca
ind solut ia optima a subproblemei de optimizare
x
k
= arg min
xX
f(x
k
)
T
(x x
k
).
Metoda direct iilor de descrestere corespunz atoare acestei alegeri a direct iei fezabile se numeste
metoda gradient condit ional. Observam ca problema de optimizare ce trebuie sa e rezol-
vat a la ecare pas este o problema convexa (funct ia obiectiv este liniar a). Binent eles ca
aceast a metoda face sens at ata timp cat costul pe iterat ie (complexitatea numeric a pentru
rezolvarea subproblemei) este mult mai mic decat costul total pentru rezolvarea problemei
originale (11.1). Acest lucru se ntampl a de exemplu atunci cand funct ia obiectiv f este
165 Capitol 11. Metode de ordinul I si II pentru (NLP) av and constr angeri convexe
Figura 11.1: Iteratiile metodei gradient condit ional.
neconvexa si mult imea fezabila este simpl a (e.g. dac a X este un hipercub n R
n
sau simplex
atunci subproblema devine un (LP) ce poate rezolvat ecient).
Folosind teoria anterioar a de convergent a putem ar ata ca metoda gradient condit ional are
convergent a asimptotica. Presupunem ca X este mult ime compact a.

Intr-adev ar este su-
ciente sa ar at am ca aceasta metoda produce direct ii conectate prin gradient. Presupunem
ca sirul x
k
este convergent la un punct x care nu este punct stat ionar. Atunci trebuie sa
ar at am ca:
lim
k
sup
k0
f(x
k
)
T
( x
k
x
k
) < 0, lim
k
sup
k0
| x
k
x
k
| < .
Deoarece X este compact a, atunci este evident ca cea de-a doua relat ie are loc. Pentru a
demonstra prima relat ie, observam mai ntai
f(x
k
)
T
( x
k
x
k
) f(x
k
)
T
(x x
k
) x X
si lu and limita obt inem
lim
k
sup
k0
f(x
k
)
T
( x
k
x
k
) f( x)
T
(x x) x X.
Luand minimum peste x X si tinant cont de faptul ca x nu este punct stat ionar obt inem
lim
k
sup
k0
f(x
k
)
T
( x
k
x
k
) min
xX
f( x)
T
(x x) < 0
ceea ce ne conduce la prima relat ie care trebuia demonstrat a.

In ceea ce priveste rata de convergenta, medota gradient condit ional are rat a de convergenta
nceata. De exemplu, se poate ar ata ca pentru anumite tipuri de mult imi X (e.g. politop)
sirul f(x
k
) f

sau |x
k
x

| nu converge linear. Explicat ia este urmatoarea: vectorul x


k
166 11.1. Metode de direct ii de descrestere
folosit n algoritm coincide de obicei cu v arfurile politopului X si astfel direct iile fezabile
folosite de acest algoritm pot sa e ortogonale pe direct ia ce conduce la punctul de minim
(conform Fig. 11.1).
11.1.2 Metoda gradient proiectat
Metoda gradient condit ional foloseste o direct ie fezabila obtinut a prin rezolvarea unei sub-
probleme cu funct ie obiectiv liniar a. Metoda gradientului proiectat foloseste n locul acesteia
o subproblem a cu funct ie obiectiv patratic a. Desi n general aceast a subproblem a poate
mai complexa, rata de convergent a va mai bun a dup a cum vom ar ata n cele ce urmeaza.
Metoda gradientului proiectat apart ine de asemenea clasei de metode de direct ii de de-
screstere de forma:
x
k+1
= x
k
+
k
( x
k
x
k
),
unde
x
k
= [x
k
s
k
f(x
k
)]
(In,X)
.

In aceasta metoda pasii sunt alesi astfel:


k
(0 1] si s
k
> 0. Reamintim ca notat ia
[z]
(In,X)
reprezinta proiect ia Euclidian a pe mult imea X a vectorului z. Deci pentru a obt ine
x
k
lu am un pas s
k
n direct ia antigradientului f(x
k
), ca n metoda gradient pentru cazul
neconstr ans, apoi proiect am (folosind norma Euclidian a) pe X vectorul x
k
s
k
f(x
k
).
Putem vedea s
k
de asemenea ca un pas: de exemplu dac a lu am
k
= 1 pentru orice k, atunci
x
k+1
= x
k
, ceea ce conduce la gradientul proiectat clasic (vezi Fig. 11.2):
x
k+1
= [x
k
s
k
f(x
k
)]
(In,X)
,
sau astfel spus
x
k+1
= arg min
xX
|x x
k
+ s
k
f(x
k
)|
2
= arg min
xX
f(x
k
)
T
(x x
k
) +
1
2s
k
(x x
k
)
T
I
n
(x x
k
).
Observam ca dac a x
k

k
f(x
k
) X atunci iterat ia acestei metode coincide cu iterat ia
metodei gradient pentru cazul neconstr ans. Mai mult, avem x

= [x

sf(x

)]
(In,X)
dac a
si numai dac a x

este punct stat ionar pentru problema (11.1).



In mod evident metoda
gradient proiectat este ecienta dac a proiect ia se calculeza usor (e.g. cand mult imea X este
un hipercub sau hiperplan).
Avem diferite posibilit at i de alegere a pasului
k
si s
k
:
(i) Fix am s
k
= s constant si
k
este ales cu metoda ideala pe baza direct iei fezabile
d
k
= x
k
x
k
, adica:

k
= arg min
[0, 1]
f(x
k
+ ( x
k
x
k
)).
167 Capitol 11. Metode de ordinul I si II pentru (NLP) av and constr angeri convexe
Figura 11.2: Iterat iile metodei gradient proiectat.
(ii) Fix am s
k
= s constant si
k
este ales cu procedura de backtracking pe baza direct iei
fezabile d
k
= x
k
x
k
.

In particular alegem c
1
> 0 si (0, 1) si apoi lu am
k
=
m
k
,
unde m
k
este primul numar natural pentru care:
f(x
k
+
m
( x
k
x
k
)) f(x
k
) + c
1

m
f(x
k
)
T
( x
k
x
k
).
(iii) Fix am
k
= 1 constant si alegem s
k
cu procedura de backtracking.

In particular,
denim x
k
(s) = [x
k
sf(x
k
)]
(In,X)
si alegem s > 0, c
1
> si (0, 1). Atunci
denim s
k
=
m
k
s, unde m
k
este primul numar natural pentru care:
f(x
k
(
m
s)) f(x
k
) + c
1
f(x
k
)
T
(x
k
x
k
(
m
s)).
(iv) Fix am
k
= 1 si s
k
= s constante.
(v) Fix am
k
= 1 si alegem s
k
0 astfel ncat

k=0
s
k
= , de exemplu s
k
= 1/k.
Rezultatele de convergent a pentru metoda gradient proiectat sunt similare celor corespunz atoare
metodei gradient pentru cazul neconstr ans.

In cele ce urmeaza enunt am cateva teoreme de
convergent a corespunz atoare diferitelor posibilit at i de alegere a pasilor.
Teorema 11.1.2 Fie x
k
sirul generat de metoda gradient proiectat cu pasul s
k
constant si

k
ales prin metoda ideala sau backtracking de-a lungul direct iilor fezabile. Atunci orice
punct limita al sirului x
k
este punct stat ionar.
Demonstrat ie: Vom ar ata ca direct iile x
k
x
k
sunt conectate prin gradient la x
k
.

Intr-
adev ar presupunem ca sirul x
k
este convergent la un punct x care nu este punct stat ionar.
168 11.1. Metode de direct ii de descrestere
Trebuie sa ar at am ca
lim
k
sup
k0
f(x
k
)
T
( x
k
x
k
) < 0, lim
k
sup
k0
| x
k
x
k
| < .
Folosind continuitatea proiect iei avem
lim
k
x
k
= [ x sf( x)]
(In,X)
si deci cea dea doua relat ie are loc deoarece | x
k
x
k
| converge la |[ x sf( x)]
(In,X)

x|. Pentru a ar ata si prima relat ie folosim propriet at ile proiect iei, si anume condit iile de
optimalitate pentru proiect ie implica:
(x
k
sf(x
k
) x
k
)
T
(x x
k
) 0 x X.
Lu and n aceasta relat ie x = x
k
ot inem
f(x
k
)
T
( x
k
x
k
)
1
s
|x
k
x
k
|
2
. (11.4)
Aplicand limita n relat ia de mai sus obt inem
lim
k
sup
k0
f(x
k
)
T
( x
k
x
k
)
1
s
| x [ x sf( x)]
(In,X)
|
2
.
Deoarece x nu este punct stat ionar, partea dreapt a a acestei inegalitat i este strict nega-
tiv a ceea ce implica lim
k
sup
k0
f(x
k
)
T
( x
k
x
k
) < 0, adica prima relat ie care trebuia
demonstrat a.
Teorema 11.1.3 Fie x
k
sirul generat de metoda gradient proiectat cu pasul s
k
= s constant
si
k
= 1. Presupunem de asemenea ca funct ia obiectiv are gradientul Lipschitz (i.e. exista
L > 0 astfel ncat |f(x) f(y)| L|xy| pentru orice x, y X). Daca s (0, 2/L),
atunci orice punct limita al sirului x
k
este punct stat ionar.
Demonstrat ie: Din proprietatea de Lipschitz avem:
f(x
k+1
) f(x
k
) = f( x
k
) f(x
k
) f(x
k
)
T
( x
k
x
k
) +
L
2
| x
k
x
k
|
2
.
Folosind aceasta relat ie si inegalitatea (11.4) obt inem
f(x
k+1
) f(x
k
) (
L
2

1
s
)| x
k
x
k
|
2
.
Dac a s (0, 2/L), partea dreapt a a acestei relat ii este negativ a si deci dac a sirul x
k
este
convergent, partea st ang a tinde la 0.

In concluzie, sirul | x
k
x
k
| tinde la 0 si deci pentru
169 Capitol 11. Metode de ordinul I si II pentru (NLP) av and constr angeri convexe
orice punct limita x al sirului x
k
avem x = [ x sf( x)]
(In,X)
, i.e. x este punct stat ionar.
Rata de convergent a a metodei gradient proiectat este n esent a similar a cu cea core-
spunzatoare cazului neconstr ans. De exemplu, consider am cazul patratic:
f(x) =
1
2
x
T
Qx q
T
x,
unde Q este matrice pozitiv denita. Fie x

unicul punct de minim a lui f peste mult imea


fezabila X. Consideram cazul cand
k
= 1 si s
k
= s. Folosind propriet at ile proiect iei (n
particular proprietatea de nonexpansiune) avem:
|x
k+1
x

| = |[x
k
sf(x
k
)]
(In,X)
[x

sf(x

)]
(In,X)
|
|x
k
sf(x
k
) (x

sf(x

))| = |(I
n
sQ)(x
k
x

)|
max[1 s
min
[, [1 s
max
[|x
k
x

|,
adica rat a de convergent a liniar a. De aceea, n partea nal a a acestui capitol vom consid-
era metode bazate pe scalare, adica aplicarea metodei gradient proiectat ntr-un sistem de
coordonate diferit. Un caz particular al acestor metode este metoda Newton.
11.2 Metoda Newton proiectat
Presupunem ca f este de dou a ori diferent iabila si Hesiana
2
f(x) este pozitiv denit a
pentru orice x X. Consideram urmatoarea iterat ie pentru metoda Newton proiectat:
x
k+1
= x
k
+
k
( x
k
x
k
),
unde
x
k
= arg min
xX
f(x
k
)
T
(x x
k
) +
1
2s
k
(x x
k
)
T

2
f(x
k
)(x x
k
). (11.5)
Putem interpreta problema de optimizare (11.5) ca o problem a de proiect ie generalizat a.

In particular, x
k
este vectorul din X care se aa la distant a minim a de vectorul x
k

s
k
(
2
f(x
k
))
1
f(x
k
) dar cu distant a m asurat an funct ie de norma |z|
2

2
f(x
k
)
= z
T

2
f(x
k
)z,
dup a cum vom ar ata n cele ce urmeaza.

Intr-adev ar, pentru cazul cand
k
= 1, obt inem
urmatoarea iterat ie:
x
k+1
= x
k
= arg min
xX
f(x
k
)
T
(x x
k
) +
1
2s
k
(x x
k
)
T

2
f(x
k
)(x x
k
)
= arg min
xX
|x x
k
+ s
k
(
2
f(x
k
))
1
f(x
k
)|
2

2
f(x
k
)
= [x
k
s
k
(
2
f(x
k
))
1
f(x
k
)]
(
2
f(x
k
),X)
,
170 11.2. Metoda Newton proiectat
unde am considerat norma |z|
2

2
f(x
k
)
= z
T

2
f(x
k
)z si [y]
(
2
f(x
k
),X)
reprezinta proiect ia
vectorului y pe mult imea X n raport cu aceasta norm a. Putem interpreta aceast a iterat ie
si n felul urmator: metoda Newton proiectat se obt ine prin aplicarea metodei gradient
proiectat ntr-un alt sistem de coordonate.

Intr-adevar, la iteratia k e matricea pozitiv
denita H
k
si consider am urmatoarea schimbare de variabil a:
x = H
1/2
k
y.
Atunci, problema originala (11.1) se rescrie n variabila y astfel:
min
yY
k
f
k
(y)
_
= f(H
1/2
k
y)
_
,
unde mult imea Y
k
este denita n felul urmator
Y
k
= y : H
1/2
k
y X.
Aplicam metoda gradient proiectat pentru aceasta nou a problem a de optimizare:
y
k+1
= y
k
+
k
( y
k
y
k
), y
k
= [y
k
s
k
f
k
(y
k
)]
(In,Y
k
)
.
Atunci, y
k
este solut ia problemei patratice
y
k
= arg min
yY
k
f
k
(y
k
)
T
(y y
k
) +
1
2s
k
|y y
k
|
2
.
Folosind schimbarea de variabil a de mai sus avem:
x
k
= H
1/2
k
y
k
, x
k
= H
1/2
k
y
k
, f
k
(y
k
) = H
1/2
k
f(x
k
).
Pe baza iterat iei gradient proiectat pentru y
k
obt inem urmatoarea iterat ie n x
k
:
x
k+1
= x
k
+
k
( x
k
x
k
),
unde x
k
se obt ine din
x
k
= arg min
xX
f(x
k
)
T
(x x
k
) +
1
2s
k
(x x
k
)
T
H
k
(x x
k
) (11.6)
= [x
k
s
k
H
1
k
f(x
k
)]
(H
k
,X)
.
De obicei ne referim la aceasta iteratie, ce depinde de felul cum alegem matricea H
k
, prin
metoda gradient scalat proiectat.
Metoda Newton proiectat se obt ine pentru H
k
=
2
f(x
k
). Observam ca dac a s
k
= 1 atunci
funct ia patratic a din (11.5) este aproximarea Taylor de ordinul II n jurul lui x
k
a lui f.

In
particular, dac a
k
= 1 si s
k
= 1, atunci x
k+1
este vectorul care minimizeaz a aproximarea
Taylor de ordinul II n jurul lui x
k
al funct iei f supus la constrangerea x X.

In concluzie
ne asteptam la urmatorul comportament pentru aceasta metoda: dac a punctul de pornire
171 Capitol 11. Metode de ordinul I si II pentru (NLP) av and constr angeri convexe
x
0
este sucient de aproape de punctul de minim local, atunci metoda Newton proiectat cu
pasii
k
= s
k
= 1 converge la x

superliniar.
Principala dicultate n folosirea metodei Newton proiectat consta n faptul ca subproblema
ce trebuie rezolvat a la ecare pas este complexa. De aceea au fost dezvoltate metode care sa
pastreze rata de convergent a rapid a a metodei Newton proiectat, dar care n acelasi timp sa
aiba o iterat ie mai put in costisitoare numeric. De exemplu putem nlocui Hesiana
2
f(x
k
)
cu o matrice pozitiv denita H
k
, asa cum am ar atat mai nainte, adica metoda gradient
scalat proiectat, unde direct ia se calculeaza pe baza relat iei (11.6). O posibila alegerea
pentru H
k
este matrice diagonala cu elementele de pe diagonala identice cu cele ale matricei
Hesiane
2
f(x
k
). Proprietatea de convergent a asimptotica a metodei Newton proiectat
este prezentata n urmatoarea teorem a a carei demonstrat ie este aproape identica cu cea a
Teoremei 11.1.2.
Teorema 11.2.1 Fie x
k
sirul generat de metoda Newton proiectat cu pasul s
k
constant si

k
ales prin metoda ideala sau backtracking de-a lungul direct iilor fezabile. Presupunem de
asemenea ca exista scalarii pozitivi
1
si
2
astfel ncat

1
I
n

2
f(x)
2
I
n
x X.
Atunci orice punct limita al sirului x
k
este punct stat ionar.

In ceea ce priveste rata de convergent a locala a metodei Newton proiectat, avem urmatorul
rezultat:
Teorema 11.2.2 Fie f de doua ori diferent iabila cu Hesiana pozitiv denita si Lipschitz
continua. Fie, de asemenea, x

un punct de minim local pentru problema (11.1). Atunci


exista > 0 astfel ncat daca |x
0
x

| < , sirul x
k
produs de metoda Newton proiectat cu

k
= s
k
= 1 satisface |x
k
x

| < si x
k
converge la x

cu rata de convergent a superliniara.


Demonstrat ie: Pentru simplitate not am cu H
k
=
2
f(x
k
) si consider am norma vectoriala
|z|
2
H
k
= z
T
H
k
z pentru orice z R
n
. Pe baza acestei norme denim si norma indus a
pentru matrici: |A|
H
k
= sup
z=0
|Az|
H
k
/|z|
H
k
pentru orice matrice A R
nn
. Folosind
propriet at ile proiect iei putem deriva urmatorul sir de inegalitat i:
|x
k+1
x

|
H
k
= |[x
k

k
(
2
f(x
k
))
1
f(x
k
)]
(H
k
,X)
x

|
H
k
|x
k

k
(
2
f(x
k
))
1
f(x
k
) x

|
H
k
.
Folosind aceleasi argumente ca n demonstrat ia convergent ei metodei Newton pentru cazul
neconstr ans, putem ar ata inegalitatea:
|x
k+1
x

|
H
k
M
_
1
0
|
2
f(x
k
)
2
f(x

+ (x
k
x

))|
H
k
d |x
k
x

|
H
k
,
172 11.2. Metoda Newton proiectat
pentru un M > 0. Datorita continuitat ii lui
2
f putem alege > 0 sucient de mic pentru
a asigura |x
k
x

|
H
k
< si termenul de sub integrala devine arbitrar de mic. Din aceast a
proprietate, convergent a superliniara a lui x
k
la x

rezulta imediat.
Capitol 12
Metode de optimizare pentru (NLP)
avand constrangeri de egalitate

In acest capitol consider am metode numerice de optimizare pentru problema (NLP) av and
constr angeri de tip egalitate:
(NLPe) : min
xR
n
f(x) (12.1)
s.l.: h(x) = 0, (12.2)
unde f : R
n
R si h : R
n
R
p
sunt funct ii de dou a ori diferent iabile. Reamintim condit iile
de optimalitate de ordinul I pentru aceasta problem a (condit iile KKT): e x

punct de minim
atunci exist a

R
p
astfel ncat
(KKT NLPe) :
x
/(x

) = 0
h(x

) = 0,
unde /(x, ) = f(x) +
T
h(x) este Lagrangianul. Reamintim ca aceste condit ii de optimal-
itate au loc sub presupunerea ca x

este punct regulat: adica rangul matricei h(x

) este
p. Observam ca h(x) =

/(x, ) , deci condit iile precedente de optimalitate se pot scrie


compact n forma:
/(x

) = 0.
Avem un sistem neliniar de n + p ecuat ii cu n + p necunoscute formate din x

si

. Acest
sistem se numeste sistemul Lagrange.
Exemplu 12.0.3 (Control optimal) Consideram sistemul dinamic liniar discret:
z
t+1
= A
t
z
t
+ B
t
u
t
t 0,
173
174 12.1. Metode de optimizare pentru probleme QP cu constr angeri de egalitate
unde z
t
R
nz
este starea si u
t
R
nu
intrarea sistemului. De exemplu consider am un rezervor
cu apa ce este folosit la fabricarea unui produs. Notam cu z
t
volumul de apa din rezervor si
cu u
t
apa utilizata n perioada t. Atunci volumul de apa din rezervor evolueaza astfel:
z
t+1
= z
t
u
t
.
Presupunem de asemenea un cost pe etapa asociat starilor
z
t
(z
t
) si intrarilor
u
t
(u
t
), unde

z
t
: R
nz
R si
u
t
: R
nu
R. De exemplu, putem considera
z
t
(z
t
) = 1/2|z
t
z
ref
t
|
2
Qt
si

u
t
(u
t
) = 1/2|u
t
u
ref
t
|
2
Rt
, unde z
ref
t
si u
ref
t
sunt referint e dorite pentru nivelul rezervorului si
pentru volumul de apa utilizat n perioada t. De asemenea introducem un orizont de control
(predict ie) N pentru sistemul dinamic dat. Atunci problema de control optimal devine:
min
zt,ut
N

t=1

z
t
(z
t
) +
N1

t=0

u
t
(u
t
) (12.3)
s.l.: z
t+1
= A
t
z
t
+ B
t
u
t
t = 0, . . . , N 1.
Problema de control optimal (12.3) se reduce la o problema de optimizare cu constrangeri de
egalitate n forma (NLPe).

Intr-adevar, denim variabila de optimizare:
x = [u
T
0
z
T
1
u
T
1
. . . u
T
N1
z
T
N
]
T
R
N(nz+nu)
si funct ia obiectiv
f(x) =
N

t=1

z
t
(z
t
) +
N1

t=0

u
t
(u
t
).
Observam ca funct ia obiectiv este bloc separabila si deci Hesiana lui f este bloc diagonala:

2
f(x) = diag(R
0
(x), Q
1
(x), . . . , R
N1
(x), Q
N
(x)),
unde R
t
(x) =
2

u
t
(u
t
) si Q
t
(x) =
2

z
t
(z
t
). Colectam toate constrangerile de egalitate date
de dinamici pentru t = 0, . . . , N1 n Ax = b (i.e. h(x) = Axb), unde A R
NnzN(nz+nu)
si b R
Nnz
sunt date de urmatoarele expresii:
A =
_

_
B
0
I
nz
0 0 . . . 0 0 0
0 A
1
B
1
I
nz
. . . 0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 . . . A
N1
B
N1
I
nz
_

_
si b =
_

_
A
0
z
0
0
.
.
.
0
_

_
.
12.1 Metode de optimizare pentru probleme QP cu
constrangeri de egalitate
Fie problema de optimizare patratic a:
(QPe) : min
xR
n
1
2
x
T
Qx q
T
x
s.l.: Ax = b,
175 Capitol 12. Metode de optimizare pentru (NLP) av and constr angeri de egalitate
unde matricea Q R
nn
este simetrica (posibil indenit a) si A R
pn
. Condit iile KKT
conduc la sistemul de ecuat ii liniare (sistemul Lagrange):
Qx q + A
T
= 0
Ax = b,
sau n notat ie matriceala:
_
Q A
T
A 0
_ _
x

_
=
_
q
b
_
.
Denim matricea K =
_
Q A
T
A 0
_
numita matricea (KKT).
Lema 12.1.1 Observam ca matricea (KKT) este ntotdeauna indenita. Daca matricea
A R
pn
are rangul p si pentru orice d kernel(A) cu d ,= 0 avem d
T
Qd > 0, atunci
matricea (KKT) este inversabila.
Demonstrat ie: Reamintim denit ia subspat iului kernel(A) = x R
n
: Ax = 0. O
formulare echivalenta a propriet at ii de inversabilitate pentru o matrice patratic a implica
faptul ca singura solut ie a sistemului:
_
Q A
T
A 0
_
y = 0, (12.4)
este vectorul 0. Dac a partit ionam solut iile sistemului astfel: y =
_
u
v
_
, ram ane de ar atat
ca singurele instant e ale vectorilor u si v care satisfac sistemul (12.4) sunt nule. Din (12.4)
avem:
Qu + A
T
v = 0 si Au = 0.
A doua ecuat ie indica u kernel(A).

Inmult ind la st anga n prima ecuat ie cu u
T
obt inem:
u
T
Qu + u
T
A
T
v = 0. (12.5)
Tin and cont ca u kernel(A), iar n enunt am presupus ca u
T
Qu > 0, concluzionam ca
relat ia (12.5) este imposibil de satisfacut pentru orice u ,= 0. Pe de alta parte, consider and
u = 0 si v ,= 0, prima ecuat ie a sistemului (12.4) devine A
T
v = 0. Deoarece matricea A
are rang maxim pe linii, matricea A
T
are rang maxim pe coloane, si deci singurul vector ce
satisface A
T
v = 0 este v = 0.

In nal, am ar atat ca unicul vector ce satisface sistemul (12.4)
este vectorul nul.
176 12.1. Metode de optimizare pentru probleme QP cu constr angeri de egalitate
Dac a A are rang p atunci condit ia de regularitate este indeplinita pentru orice punct x R
n
n problema (QPe) de mai sus. Mai departe, dac a pentru orice d kernel(A) cu d ,= 0
avem d
T
Qd > 0, atunci condit iile suciente de ordinul II sunt satisf acute pentru (QPe).

In
concluzie, pentru o problem a patratic a cu constrangeri de egalitate n forma (QPe), existent a
unui minim local este echivalenta cu inversabilitatea matricei (KKT). Exist a multe modalit at i
de rezolvare a sistemului (KKT) de mai sus. Dintre aceste metode, enumer am:
(i) Metoda factorizarii LU se bazeaz a pe factorizarea LU a matricei KKTsi apoi rezolvarea
celor dou a sisteme triunghiulare. Datorita faptului ca K este matrice indenit a nu
putem folosi factorizare Cholesky.

In schimb, putem utiliza eliminarea gausian a cu
pivotare part iala pentru a obt ine factorii L si U.

In aceasta factorizare nu lu am n
calcul simetria. De aceea, n general se utilizeaz a o factorizare Cholesky indenit a:
P
T
KP = LDL
T
, unde P este o matrice de permutare, L este inferior triunghiulara si
D este o matrice bloc diagonala cu blocuri de dimensiune 1 sau 2. Putem de asemenea
utiliza metode iterative din algebra liniar a sau optimizare (e.g. metoda gradient ilor
conjugat i sau metode Krylov).
(ii) Metoda complementului Schur presupune ca matricea Q este inversabil a si A are rangul
p si se bazeaz a pe eliminarea lui x din prima ecuat ie
x = Q
1
(A
T
q)
si apoi introducerea aceastei expresii n cea de-a doua ecuat ie obt in and
AQ
1
A
T
= AQ
1
q b.
Rezolv am sistemul liniar n cu matricea AQ
1
A
T
pozitiv denit a si apoi recuper am
x. Aceasta metoda necesit a ca Q sa e inversabil a, ceea ce nu este ntotdeauna valabil,
si apoi calcularea factoriz arii matricei AQ
1
A
T
, care este complementul Schur al lui Q
n matricea K.
(iii) Metoda spat iului nul se bazeaz a pe gasirea unei baze Z R
n(np)
pentru kernel(A) si
apoi se deneste x = Zv+y, unde y este o solut ie particular a a sistemului Ay = b. Orice
x = Zv + y satisface Ax = b, astfel ncat trebuie sa lu am n considerare doar prima
ecuat ie din sistemul (KKT). Aceasta se poate reformula ca o problem a de minimizare
neconstr ans a:
min
vR
np
1
2
(Zv + y)
T
Q(Zv + y) q
T
(Zv + y).
Condit iile de ordinul I pentru probleme de optimizare far a constr angeri conduc la:
Z
T
QZv + Z
T
Qy Z
T
q = 0 v = (Z
T
QZ)
1
(Z
T
q Z
T
Qy).
Matricea Z
T
QZ este numita Hesiana redusa. Dac a v

este o solut ie a problemei QP


f ar a constrangeri, atunci x

= Zv

+y. Aceasta metoda poate aplicat a dac a condit iile


suciente de ordinul II sunt satisfacute.
177 Capitol 12. Metode de optimizare pentru (NLP) av and constr angeri de egalitate
Exemplu 12.1.2 Consideram problema de optimizare patratica:
min
xR
3
3x
2
1
+ 2x
1
x
2
+ x
1
x
3
+ 2.5x
2
2
+ 2x
2
x
3
+ 2x
2
3
8x
1
3x
2
3x
3
s.l.: x
1
+ x
2
= 3, x
2
+ x
3
= 0.

In acest caz matricile corespunzatoare acestui (QP) sunt:


Q =
_
_
6 2 1
2 5 2
1 2 4
_
_
, q =
_
_
8
3
3
_
_
, A =
_
1 0 1
0 1 1
_
, b =
_
3
0
_
.
Observam ca matricea ce deneste spat iul nul al lui A este Z = [1 1 1]
T
.

In acest
caz problema redusa neconstransa n variabila v este unidimensionala. Putem gasi imediat
solut ia x

= [2 1 1]
T
si

= [3 2]
T
care, datorita faptului ca Q este matrice pozitiv
denita, este solut ia de minim global al problemei (QP).

In cele ce urmeaza vom prezenta diferite metode pentru rezolvarea sistemului Lagrange pe
cazul general (KKT-NLPe).
12.2 Metode Lagrange
Metodele Lagrange se bazeaz a pe condit iile (KKT-NLPe):

x
/(x, ) = 0, h(x) = 0 /(x, ) = 0.
Denim variabila:
y =
_
x

_
si F(y) = /(x, ) =
_

x
/(x, )
h(x)
_
,
unde y R
n+p
si F : R
n+p
R
n+p
, astfel ncat solut iile problemei de optimizare (NLPe) se
gasesc printre radacinile sistemului neliniar:
F(y) = 0,
Acest sistem poate rezolvat prin metode Lagrange de tip gradient sau Newton. Metodele
Lagrange au urmatoarea forma generic a:
(ML) : x
k+1
= L(x
k
,
k
)

k+1
= H(x
k
,
k
),
unde funct iile L : R
np
R
n
si H : R
np
R
p
sunt funct ii diferent iabile.

In plus, iterat ia
de mai sus converge la un (x

) dac a aceste funct ii satisfac condit iile x

= L(x

) si
178 12.2. Metode Lagrange

= H(x

). Mai mult, pentru a asigura convergent a globala a acestor metode, iterat iile
pot dependente si de un pas
k
. Exista diferite posibilit at i de alegerea a pasului n metodele
Lagrange, nsa cea mai des utilizata se bazeaz a pe o funct ie merit asociat a problemei (NLPe).
O posibil a funct ie merit este urmatoarea:
/(x, ) =
1
2
|
x
/(x, )|
2
+
1
2
|h(x)|
2
.
Remarc am ca /(x, ) 0 si /(x, ) = 0 dac a si numai dac a
x
/(x, ) = 0 si h(x) =
0, adica aceasta funct ie m asoara cat de aproape este un punct (x, ) de solut ie. Asadar,
punctele de minim global ale funct iei merit /(x, ) satisfac condit iile necesare de ordinul I
(KKT-NLPe) pentru problema cu constrangeri de egalitate (NLPe) studiata n acest capitol.

In concluzie, putem minimiza funct ia merit far a constrangeri


min
xR
n
,R
p
/(x, )
_
=
1
2
|
x
/(x, )|
2
+
1
2
|h(x)|
2
_
(12.6)
si orice punct de minim global (x

) al acestei probleme far a constr angeri satisface relat ia


/(x

) = 0.

Ins a, funct ia merit de mai sus poate avea si minime locale, care n general
nu sunt folositoare n gasirea solut iei optime a problemei (NLPe). Suntem interesat i n
gasirea condit iilor suciente care garanteaza ca un punct de minim local al problemei f ar a
constr angeri (12.6) este minim global.
Lema 12.2.1 Presupunem ca (x

) este punct de minim local al problemei (12.6) care


satisface condit iile necesare de ordinul I. Presupunem de asemenea ca rangul lui h(x

) este
p si Hesiana
2
x
/(x

) este pozitiv denita. Atunci (x

) este punct de minim global


pentru (12.6), adica /(x

) = 0.
Demonstrat ie: Cum (x

) satisface condit iile necesare de ordinul I pentru o problem a


de optimizare far a constrangeri avem ca gradientul lui /n acest punct este 0:

2
x
/(x

)
x
/(x

) + (h(x

))
T
h(x

) = 0
h(x

)
x
/(x

) = 0.
Multiplic and prima relat ie cu
x
/(x

) si folosind apoi cea de-a doua relat ie obt inem


(
x
/(x

))
T

2
x
/(x

)
x
/(x

) = 0. Deoarece
2
x
/(x

) este pozitiv denit a,


obt inem ca
x
/(x

) = 0. Folosind iarasi prima relat ie de optimalitate avem urmatoarea


identitate (h(x

))
T
h(x

) = 0 si cum rangul lui h(x

) este p rezulta h(x

) = 0.
Din condit iile de optimalitate de ordinul I observam ca un posibil criteriu de oprire pentru
metodele ce vor dezvoltate n acest capitol este urmatorul:
|/(x
k
,
k
)| ,
pentru o acuratet e xat a > 0.
179 Capitol 12. Metode de optimizare pentru (NLP) av and constr angeri de egalitate
12.2.1 Metoda Lagrange de ordinul I
Cea mai simpl a metoda Lagrange, numita si metoda Lagrange de ordinul I, este dat a de
iterat ia:
(ML I) : x
k+1
= x
k

x
/(x
k
,
k
)

k+1
=
k
+
k
h(x
k
),
unde
k
> 0 este un pas. Dac a utiliz am notat ia de mai sus y = [x
T

T
]
T
, atunci iterat ia
precedenta se scrie sub forma:
y
k+1
= y
k

k
F(y
k
) y
k+1
= y
k

k
/(y
k
),
care binenteles poate interpretata ca metoda gradient pentru sistemul de ecuat ii neliniare
F(y

) = /(y

) = 0.
Pe de alta parte putem interpreta iterat ia (ML-I) ca o metoda de descrestere pentru prob-
lema f ar a constrangeri (12.6) dac a presupunem ca Hesiana Lagrangianului
2
x
/(x, ) este
pozitiv denita ntr-o regiune de interes.

Intr-adev ar se poate ar ata ca direct ia dat a de
(
x
/(x
k
,
k
), h(x
k
)) este o direct ie de descrestere pentru funct ia /n punctul (x
k
,
k
).
Pentru o mai simpl a expozit ie, introducem notat iile: L
k
=
2
x
/(x
k
,
k
), l
k
=
x
/(x
k
,
k
),
h
k
= h(x
k
) si A
k
= h(x
k
). Atunci, produsul scalar dintre aceasta direct ie si gradientul lui
/ cap at a urmatoarea forma:
[(L
k
l
k
+ A
T
k
h
k
)
T
(A
k
l
k
)
T
][l
T
k
h
T
k
]
T
= l
T
k
L
k
l
k
h
T
k
A
k
l
k
+ l
T
k
A
T
k
h
k
= l
T
k
L
k
l
k
< 0,
sub ipoteza ca Hesiana L
k
=
2
x
/(x
k
,
k
) este pozitiv denita si l
k
=
x
/(x
k
,
k
) ,= 0.

In
concluzie, putem alege pasul
k
care minimizeaza funct ia merit de-a lungul acestei direct ii
de descrestere:

k
= arg min
0
/(x
k

x
/(x
k
,
k
),
k
+ h(x
k
)).
Folosind rezultatele de convergent a ale metodelor de descrestere din partea a doua a aces-
tei lucr ari, putem concluziona ca iterat ia (ML-I) va converge catre un punct ce satisface

x
/(x

) = 0. Dar, nu putem garanta ca h(x

) = 0. Putem mbun at at i propriet at ile de


convergent a a acestei metode prin alegerea altei funct ii merit. De exemplu, putem utiliza
urmatoarea funct ie merit:
/

(x, ) =
1
2
|
x
/(x, )|
2
+
1
2
|h(x)|
2
/(x, ),
unde > 0 este sucient de mic.

In aceeasi manier a ca mai sus se poate ar ata ca direct ia
(
x
/(x
k
,
k
), h(x
k
)) este o direct ie de descrestere pentru /

, si anume:
[(L
k
l
k
+ A
T
k
h
k
l
k
)
T
(A
k
l
k
h
k
)
T
][l
T
k
h
T
k
]
T
= l
T
k
(L
k
I
n
)l
k
h
2
k
< 0,
180 12.2. Metode Lagrange
sub ipoteza ca Hesiana L
k
=
2
x
/(x
k
,
k
) este pozitiv denita si l
k
=
x
/(x
k
,
k
) ,= 0 sau
h
k
= h(x
k
) ,= 0.

In concluzie, dac a alegem
k
care minimizeaza funct ia merit /

de-a
lungul acestei direct ii de descrestere se poate ar ata ca iterat ia (ML-I) converge catre un
punct ce satisface
x
/(x

) = 0 si h(x

) = 0, adica catre un punct ce satisface condit iile


(KKT-NLPe) pentru problema originala (NLPe).
Vom analiza acum convergent a metodei (ML-I) pentru pas constant
k
= . Pentru aceasta
introducem not iunea de punct de atract ie. O pereche (x

) se numeste punct de atract ie


pentru iterat ia (ML) dac a exist a o mult ime deschisa V R
np
astfel ncat pentru orice
(x
0
,
0
) S sirul (x
k
,
k
) generat de iterat ie ramane n S si converge la (x

).
Teorema 12.2.2 Fie L : R
np
R
n
si H : R
np
R
p
funct ii diferent iabile astfel ncat
x

= L(x

) si

= H(x

). Mai mult, presupunem ca toate valorile proprii ale matricei


de dimensiune (n + p) (n + p)
R

=
_

x
L(x

)
x
H(x

L(x

H(x

)
_
sunt n interiorul cercului unitate. Atunci, (x

) este un punct de atract ie al iterat iei (ML)


si cand sirul generat (x
k
,
k
) converge la (x

), rata de convergent a este liniara.


Demonstrat ie: Notam cu y = [x
T

T
]
T
si cu M(y) = [L(x, ) H(x, )]. Din teorema
valorii medii avem ca pentru orice doi vectori y si y:
M( y) M(y) = R
T
( y y),
unde R este o matrice av and coloana i gradientul M
i
( y
i
) al componentei i a lui M evaluat
ntr-un vector y
i
ce se gaseste pe segmentul av and capetele n y si y. Lu and y si y sucient
de aproape de y

, putem face aceasta matrice R sa e apropiata de R

si deci putem asigura


existent a valorilor proprii ale matricei R sau echivalent R
T
n cercul unitate.

In concluzie
exist a o vecin atate S a lui y

= [(x

)
T
(

)
T
]
T
astfel ncat n aceast a vecin atate norma
matricei R
T
este mai mic a decat 1 , unde este un scalar pozitiv. Aplicand norma n
relat ia de mai sus obt inem:
|M( y) M(y)| |R
T
|| y y|.

In concluzie, n vecin atatea S a lui (x

) operatorul M este o contract ie si rezultatul


urmeaza apoi din teorema de contract ie (vezi Apendix).
Demonstr am acum convergent a locala a metodei Lagrange de ordinul I:
Teorema 12.2.3 Presupunem ca f si h sunt funct ii de doua ori diferent iabile, x

este punct
de minim local pentru care exista

satisfacand condit iile (KKT-NLPe). Presupunem de


asemenea ca x

este regulat si Hesiana


2
x
/(x

) este pozitiv denita. Atunci exista > 0


astfel ncat pentru orice (0 ], (x

) este un punct de atract ie al iterat iei (ML-I) si


daca sirul generat (x
k
,
k
) converge la (x

), atunci rata de convergent a este liniara.


181 Capitol 12. Metode de optimizare pentru (NLP) av and constr angeri de egalitate
Demonstrat ie: Vom ar ata ca pentru sucient de mic ipotezele teoremei anterioare sunt
satisf acute. Consideram funct ia
M

(x, ) =
_
x
x
/(x, )
+

/(x, )
_
.
Este clar ca M

(x

) = [(x

)
T
(

)
T
]
T
si M

(x

) = I
n+p
B, unde
B =
_

2
x
/(x

) h(x

)
h(x

) 0
_
.
Ar at am ca partea real a a ecarei valori proprii a matricei B este strict pozitiv a. Pentru
orice vector y, not am y conjugatul lui si cu Re() partea real a a unui num ar complex. Fie
o valoare proprie a lui B av and vectorul propriu corespunz ator y = [z
T
w
T
]
T
,= 0. Avem:
Re( y
T
By) = Re()(|z|
2
+|w|
2
),
si n acelasi timp
Re( y
T
By) = Re
_
z
T

2
x
/(x

)z + z
T
h(x

)w w
T
h(x

)z
_
.
Deoarece Re( z
T
Dw) = Re( w
T
Dz) pentru orice matrice D cu intr ari numere reale, obt inem:
Re( y
T
By) = Re
_
z
T

2
x
/(x

)z
_
= Re()(|z|
2
+|w|
2
).
Dar pentru orice matrice D pozitiv denita avem Re( z
T
Dz) > 0 pentru orice z ,= 0.

In
concluzie din relat ia precedenta avem e Re() > 0 sau z = 0. Dar dac a z = 0, din denit ia
valorii proprii By = y obt inem h(x

)w = 0.

Ins a x

este punct regulat si deci h(x

)
are rangul p ceea ce implica ca w = 0. Aceasta contrazice faptul ca vectorul propriu y ,= 0.
Obt inem ca Re() > 0.
12.2.2 Metoda Lagrange-Newton
Dorim acum sa aplicam metoda Newton pentru a rezolva sistemul de ecuat ii dat de condit iile
(KKT - NLPe):
/(x, ) = 0
h(x) = 0.
Utiliz and notat iile de mai nainte dorim sa rezolv am sistemul neliniar
F(y) = 0,
182 12.2. Metode Lagrange
unde y =
_
x

_
R
n+p
si F : R
n+m
R
n+m
, F(y) =
_
/(x, )
h(x)
_
. Acest sistem poate
rezolvat prin metoda Newton:
F(y
k
) +
F
y
(y
k
)(y y
k
) = 0 (12.7)
care conduce la urmatoarea iterat ie Newton, sub ipoteza ca Jacobianul F(y
k
) =
F
y
(y
k
)
este matrice inversabil a:
y
k+1
= y
k

_
F
y
(y
k
)
_
1
F(y
k
).
Iterat ia (12.7) poate scrisa n termeni de gradient i astfel:

x
/(x
k
,
k
) +
2
x
/(x
k
,
k
)(x x
k
) + (h(x
k
))
T
(
k
) = 0
h(x
k
) +h(x
k
)(x x
k
) = 0.
Scris a n forma matriceala, obt inem urmatorul sistem liniar:
_

2
x
/(x
k
,
k
) (h(x
k
))
T
h(x
k
) 0
_
. .
matricea KKT
_
x x
k

k
_
=
_

x
/(x
k
,
k
)
h(x
k
)
_
.
Este clar ca pentru orice solut ie (x

) pentru care condit iile suciente de ordinul II sunt


satisf acute, matricea KKT este inversabil a ntr-o vecin atate a lui (x

).

In acest caz avem
solut ie unica pentru sistemul liniar de mai sus. Obt inem urmatoarea iterat ie Newton:
(ML N) : x
k+1
= x
k
+ d
k

k+1
=
k
+ d

k
,
unde direct iile (d
k
, d

k
) sunt solut ia sistemului
_

2
x
/(x
k
,
k
) (h(x
k
))
T
h(x
k
) 0
_ _
d
k
d

k
_
=
_

x
/(x
k
,
k
)
h(x
k
)
_
. (12.8)
Rezultatele standard de convergent a locala ale metodei Newton aplicat a unui sistem de
ecuat ii neliniare sunt aplicabile si pentru sistemul neliniar F(y) = 0 de mai sus. Aceste
rezultate arm a ca dac a sistemul liniarizat la solut ia (x

) este inversabil (n cazul nostru


aceast a condit ie este indeplinita dac a condit iile suciente de ordinul II n (x

) au loc
pentru problema (NLPe)) si dac a punctul init ial (x
0
,
0
) este sucient de aproape de solut ia
(x

), atunci sirul (x
k
,
k
) generat de metoda Newton (ML-N) este convergent si converge
catre solut ie cu rata cel put in patratic a.
Putem ar ata ca direct ia generata de metoda Newton este o direct ie de descrestere pentru
funct ia merit:
/(x, ) =
1
2
|
x
/(x, )|
2
+
1
2
|h(x)|
2
.
183 Capitol 12. Metode de optimizare pentru (NLP) av and constr angeri de egalitate
0.8 1 1.2 1.4 1.6 1.8 2
2
1.5
1
0.5
0
0.5
1
1.5
2
x
1
x
2
Figura 12.1: Iterat ia metodei (ML-N) cu punctul init ial x
0
= [2 2]
T
pentru problema
neconvexa min
xR
2
: x
2
1
+x
2
2
=1
(x
1
6)
4
+ (x
1
4x
2
)
2
.
Reamintim notat iile: L
k
=
2
x
/(x
k
,
k
), l
k
=
x
/(x
k
,
k
), h
k
= h(x
k
) si A
k
= h(x
k
).
Atunci, produsul scalar dintre direct iile Newton (d
k
, d

k
) si gradientul lui /cap at a urmatoarea
forma:
[L
k
l
k
+ A
T
k
h
k
A
k
l
k
][d
T
k
(d

k
)
T
]
T
= l
T
k
L
k
d
k
+ h
T
k
A
k
d
k
+ l
T
k
A
T
k
d

k
= |l
k
|
2
|h
k
|
2
.
Aceasta expresie este strict negativ a cu except ia cazului cand l
k
= 0 si h
k
= 0 (adic a condit iile
(KKT-NLPe)). Din interpretarea metodei Lagrange-Newton ca o metoda de descrestere
pentru o funct ie merit, putem concluziona ca metoda Newton are propriet at i de convergent a
global a cand iterat ia se ia cu un pas variabil. Denim metoda Lagrange-Newton generala
prin urmatoarea iterat ie:
(ML N

) : x
k+1
= x
k
+
k
d
k

k+1
=
k
+
k
d

k
,
unde (d
k
, d

k
) sunt direct iile Newton din sistemul (12.8) si
k
este ales sa minimizeze funct ia
merit, i.e.

k
= arg min
0
/(x
k
+ d
k
,
k
+ d

k
).
Folosind rezultatele de convergent a a metodelor de descrestere pentru cazul problemelor
de optimizare neconstr ans a (Capitolul ??) se poate ar ata ca orice punct limit a al sirului
generat de metoda Lagrange-Newton cu pas variabil (MLN

) satisface condit iile necesare


de ordinul I pentru problema cu constrangeri de egalitate (NLPe), adica condit iile (KKT-
NLPe).
Interpretarea metodei Lagrange-Newton folosind formularea QP secvent iala: Dac a
adaug am expresia (h(x
k
))
T

k
n prima ecuat ie a sistemului (12.8), atunci acest sistem se
rescrie n forma:
_

2
x
/(x
k
,
k
) (h(x
k
))
T
h(x
k
) 0
_ _
d
k

k+1
_
=
_
f(x
k
)
h(x
k
)
_
.
184 12.3. Metoda Newton pentru probleme convexe av and constr angeri de egalitate
Sistemul liniar (12.8) se scrie explicit astfel:
f(x
k
) +
2
x
/(x
k
,
k
)d
k
+ (h(x
k
))
T

k+1
= 0, h(x
k
) +h(x
k
)d
k
= 0.
Aceste dou a relat ii sunt de fapt condit iile (KKT) pentru o problem a patratic a, adica d
k
si

k+1
sunt solut iile optime (punctele stat ionare) obt inute din rezolvarea unui QP de forma:
min
dR
n
f(x
k
)
T
d +
1
2
d
T

2
x
/(x
k
,
k
)d (12.9)
s.l.: h(x
k
) +h(x
k
)d = 0.
Aceasta metoda se mai numeste si metoda patratica secvent iala deoarece pentru problema
original a (NLP) se construieste un model patratic pentru funct ia obiectiv si constr angerile de
egalitate se liniarizeaz a n punctul curent. Mai general, putem nlocui Hesiana Lagrangian-
ului
2
x
/(x
k
,
k
) printr-o aproximare B
k
, unde B
k
= B
T
k
si adesea B
k
_ 0. Matricea B
k
poate aleas a n diferite moduri. O posibilitate ar sa alegem matricea B
k
constanta
de-a lungul tuturor iterat iilor. O alta posibilitate ar sa alegem B
k
folosind informat ie din

2
x
/(x
k
,
k
), de exemplu B
k
este egala cu diagonala lui
2
x
/(x
k
,
k
).

In nal, matricea B
k
se
poate actualiza folosind updat ari cvasi Newton de rang unu sau doi pe baza ecuat iei secantei:
B
k+1
(x
k+1
x
k
) =
x
/(x
k+1
,
k+1
)
x
/(x
k
,
k+1
).
12.3 Metoda Newton pentru probleme convexe avand
constrangeri de egalitate
O problem a de optimizare convexa av and constrangeri de egalitate are forma:
(CPe) : min
xR
n
f(x) (12.10)
s.l.: Ax = b, (12.11)
unde f : R
n
R este funct ie convexa si A R
pn
are rangul p.

In aces caz condit iile (KKT)
sunt necesare si suciente, adica x

este punct de minim dac a si numai dac a exist a

R
p
astfel ncat:
(KKT CPe) : f(x

) + A
T

= 0, Ax

= b.

In problema (CPe) putem elimina constrangerile de egalitate pe baza observat iei:


x : Ax = b = Zv + y : v R
np
,
unde coloanele lui Z reprezinta o baz a pentru kernel(A) si y este o solut ie particular a a
sistemului Ax = b.

In acest caz putem rezolva problema de optimizare convexa f ar a con-
strangeri:
min
vR
np

f(v) (= f(Zv + y)). (12.12)


185 Capitol 12. Metode de optimizare pentru (NLP) av and constr angeri de egalitate
Dac a v

este o solut ie a problemei convexe far a constrangeri, atunci x

= Zv

+ y este o
solut ie a problemei originale.
Exemplu 12.3.1 Consideram problema de alocare optima avand constrangeri pe resurse:
min
xR
n
: x
1
++xn=b
f(x).
Putem elimina de exemplu x
n
= b x
1
x
n1
care corespunde lui y = be
n
si Z =
_
I
n1
e
T
_
R
nn1
. Problema fara constrangeri devine:
min
xR
n1
f(x
1
, . . . , x
n1
, b x
1
x
n1
).
Prezentamn cele ce urmeaza o extensie a metodei Newton pentru cazul neconstr ans la cel cu
constr angeri de egalitate pentru probleme convexe: e x
k
fezabil, urmatorul punct al iterat iei
Newton se calculeaza folosind direct ia Newton d
k
ce rezulta din aproximarea patratic a de
ordinul II a lui f n jurul lui x
k
, i.e.
d
k
=arg min
dR
n
f(x
k
) +f(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d (12.13)
s.l.: A(x
k
+ d) = b.
0 2 4 6 8 10
0
2
4
6
8
10
x
1
x
2
Figura 12.2: Iterat iile metodei Newton cu pasul
k
= 1 pentru problema convexa
min
xR
2
:x
1
+2x
2
=16
(x
1
2)
4
+ (x
1
2x
2
)
2
.
Subproblema (12.13) este o problem a QP convexa av and constrangeri de egalitate Ad = 0.
Asadar direct ia Newton este caracterizata de sistemul liniar:
_

2
f(x
k
) A
T
A 0
_ _
d
k

k+1
_
=
_
f(x
k
)
0
_
,
186 12.3. Metoda Newton pentru probleme convexe av and constr angeri de egalitate
unde
k+1
este multiplicatorul Lagrange optim asociat problemei patratice convexe (12.13).
Introducem decrementul Newton:
(x
k
) =
_
d
T
k

2
f(x
k
)d
k
_
1/2
.
Putem observa ca
f(x
k
) min
d
_
f(x
k
) +f(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d : Ad = 0
_
= (x
k
)
2
/2,
ceea ce arata ca decrementul Newton poate folosit ca si criteriu de oprire. De asemenea
d
dt
f(x
k
+ td
k
)

t=0
= f(x
k
)
T
d
k
= (x
k
)
2
,
adica direct ia Newton este direct ie de descrestere dac a alegem t sucient de mic.

In concluzie,
metoda Newton generala pentru cazul convex (CPe) este dat a de iterat ia:
(MNe) : x
k+1
= x
k
+
k
d
k
,
unde direct ia Newton d
k
este solut ia problemei QP (12.13), pasul
k
se alege prin procedura
backtracking n raport cu direct ia d
k
si criteriul de oprire folosit este
(x
k
)/2 ,
pentru o acuratet e xat a . Alegerea pasului
k
prin backtracking const a n alegerea unui
(0, 1) si respectiv c
1
(0, 1) si atunci
k
=
m
k
, unde m
k
este primul ntreg ne-negativ
ce satisface:
f(x
k
+
m
d
k
) f(x
k
) + c
1

m
f(x
k
)
T
d
k
.

In ceea ce priveste convergent a acestei metode, se poate ar ata usor ca iterat iile metodei New-
ton (MNe) pentru o problem a convexa cu constrangeri de egalitate (CPe) coincid cu iterat iile
metodei Newton pentru problema convexa redus a far a constrangeri (12.12).

In concluzie,
performant a metodei Newton pentru cazul constrangerilor de egalitate este similar a cu cea
a metodei Newton pentru cazul neconstr ans.

In particular, dac a x
k
este aproape de solut ia
optima x

, convergent a este cel put in patratic a.


Capitol 13
Metode de optimizare pentru (NLP)
generale

In acest capitol vom prezenta metode numerice de optimizare pentru cazul general al prob-
lemelor (NLP) n forma standard:
(NLP) :
min
x R
n
f(x) (13.1a)
s.l.: g(x) 0, h(x) = 0,
n care funct iile f : R
n
R, g : R
n
R
m
si h : R
n
R
p
sunt funct ii diferent iabile de dou a
ori. Metodele dezvoltate n acest capitol au la baz a condit iile de optimalitate de ordinul I:
dac a x

este minim local pentru (NLP) si regulat, atunci exist a un vector

R
m
si un
vector

R
p
astfel ncat condit iile (KKT) au loc:
(KKT) : f(x

) +h(x

)
T

+g(x

)
T

= 0
g(x

)
T

= 0
g(x

) 0, h(x

) = 0

R
p
,

0.
Exemplu 13.0.2 (Alocarea optima de combustibil n generatoare electrice:)

In
doua generatoare de electricitate se foloseste atat petrol cat si gaz pentru producerea de energie
electrica. Energia care trebuie produsa de cele doua generatoare este de 50 MW. Cantitatea de
gaz disponibila este de 10 unitat i/ph. Se doreste selectarea de combustil (petrol si gaz) pentru
ecare generator astfel ncat sa se minimizeze cantitatea de petrol utilizata. Din datele de
operare ale ecarui generator s-a construit o curba de tting astfel ncat combustibilul necesar
187
188
n generatorul 1 pentru producerea de x
1
MW poate exprimata sub forma:
w
1
= 1.46 + 0.15x
1
+ 0.0014x
2
1
w
2
= 1.57 + 0.16x
1
+ 0.0013x
2
1
,
unde w
1
si w
2
sunt cantitat ile de petrol, respectiv de gaz n unitat i pe ora. Similar pentru gen-
eratorul 2; pentru a produce cantitatea de x
2
MW cerint ele de combustibil sunt urmatoarele:
v
1
= 0.8 + 0.2x
2
+ 0.0009x
2
2
v
2
= 0.72 + 0.22x
2
+ 0.0007x
2
2
,
unde v
1
si v
2
sunt cantitat ile de petrol, respectiv de gaz n unitat i pe ora. De asemenea
generatorul 1 poate produce putere n intervalul [18, 30] MW si generatorul doi n intervalul
[14, 25] MW. De asemenea, combustibilul poate combinat aditiv, adica pentru a produce
o cantitate x
1
de energie orice combinat ie liniara de rate de combustibil utilizat va produce
aceeasi cantitate de electricitate:
x
3
w
1
(x
1
) + (1 x
3
)w
2
(x
1
),
unde x
3
[0, 1]. La fel pentru generatorul 2. Problema de optimizare se pune astfel: sa se
determine ratele de producere a energiei x
1
si x
2
cat si fract iunea de combustibil mixat x
3
si
x
4
astfel ncat sa se minimizeze consumul total de petrol, i.e.
min
xR
4
x
3
(1.46 + 0.15x
1
+ 0.0014x
2
1
) + x
4
(0.8 + 0.2x
2
+ 0.0009x
2
2
)
s.l.: x
1
+ x
2
= 50
(1 x
3
)(1.57 + 0.16x
1
+ 0.0013x
2
1
) + (1 x
4
)(0.72 + 0.22x
2
+ 0.0007x
2
2
) 10
18 x
1
30, 14 x
2
25, 0 x
3
1, 0 x
4
1.
Acesta este un exemplu de problema neconvexa (NLP) avand constrangeri de egalitate liniare
si constrangeri de inegalitate de tip box si neconvexe.
Exemplu 13.0.3 (Compresia multi-nivel a unui gaz) O anumita cantitate de gaz cu
un ux de moli pe ora la presiunea de 1 atmosfera se urmareste a comprimat la 64
atmosfere folosind un compresor cu trei nivele. Presupunem ca procesul de compresie are loc
reversibil si adiabatic; dupa ecare nivel de compresie gazul este racit pana la temperatura
init iala T. De cele mai multe ori, se urmareste n mod crucial procesul de compresie cu un
consum de energie minim. De aceea, o problema de optimizare (NLP) intervine n alegerea
optima a presiunilor inter-nivel astfel ncat comsumul de energie sa e minim.
Pentru compresia reversibila adiabatica a gazului pe un singur nivel, consumul de energie
este dat de expresia:
Ener = RT

1
_
P
out
P
in
_
(1)/
RT

1
,
189 Capitol 13. Metode de optimizare pentru (NLP) generale
unde reprezinta raportul capacitat ilor de ncalzire ale gazului, T temperatura, R constanta
ideala a gazului, iar P
in
si P
out
reprezinta presiunea gazului la intrarea, respectiv iesirea
dintr-un nivel. Pentru compresia pe trei nivele, efortul energetic este dat de:
Ener
totala
= RT

1
_
x

1
+
_
x
2
x
1

_
+
_
64
x
2

_
3
_
.
unde x
1
este presiunea gazului la iesirea din primul nivel, x
2
presiunea la iesirea din cel de-al
doilea nivel si = ( 1)/. Daca consideram cazul particular cand =
1
4
, iar parametrii
si T sunt xat i, presiunile optimale impuse x
1
si x
2
inter-nivel sunt solut iile urmatoarei
probleme de optimizare avand constrangeri de inegalitate (NLP):
min
xR
2
f(x) = x
1
4
1
+
_
x
2
x
1
1
4
_
+
_
64
x
2
1
4
_
s.l.: x
1
1, x
2
x
1
, 64 x
2
,
unde constrangerile sunt impuse pentru a asigura o presiune a gazului crescatoare de la
intrare la iesire n cele 3 nivele.
13.1 Metoda mult imilor active
Ideea de baz a n metoda mult imilor active const a n partit ionarea constr angerilor de inegal-
itate n dou a grupuri: cele care sunt tratate ca constrangeri active si, respectiv, constr angeri
inactive. Constr angerile inactive sunt apoi n esent a ignorate. Condit iile (KKT) de mai sus
pot exprimate, folosind aceasta partit ionare, ntr-o forma mai simpl a: e /(x

) mult imea
de indecsi ai constrangerilor active n punctul x

, adica cont ine mult imea de indecsi i pentru


care g
i
(x

) = 0. Atunci condit iile (KKT) devin:


(KKT) : f(x

) +h(x

)
T

iA

i
g
i
(x

) = 0
g
i
(x

) < 0 i , /(x

), g
i
(x

) = 0 i /(x

), h(x

) = 0

i
0 i /(x

),

i
= 0 i , /(x

),

R
p
.
Este evident ca dac a mult imea activa n x

ar cunoscuta, problema original a (NLP) ar


putea nlocuit a cu o problem a de optimizare corespunz atoare av and numai constr angeri
de egalitate. Cum mult imea activa nu e cunoscuta a priori, vom alege o mult ime de indecsi
si vom rezolva problema cu constrangeri de egalitate rezultat a cu una din metodele descrise
n capitolul anterior. Apoi vom verica pentru solut ia obt inut a dac a celalalte constr angeri
sunt satisfacute si multiplicatorii Lagrange sunt ne-negativi, n caz armativ, aceast a solut ie
va cea cautata pentru problema originala (NLP).

In concluzie, n metoda mult imilor active vom deni la ecare iterat ie un set de constr angeri
active, numit set de lucru, care va tratat ca mult imea activa. Setul de lucru se alege
190 13.1. Metoda mult imilor active
dintr-un subset al constrangerilor care sunt active n punctul curent si deci punctul curent
este fezabil pentru setul de lucru. Algoritmul va produce un nou punct cu performant e mai
bune ce se gaseste pe aceasta suprafat a denita de setul de lucru. Noul punct va gasit
prin utilizarea unei metode de optimizare descris a n capitolul anterior pentru rezolvarea
problemelor neliniare cu constrangeri de egalitate. Presupunem ca pentru o mult ime activa
de indecsi / rezolv am probleme de optimizare cu constrangeri de egalitate corespunz atoare
min
xR
n
f(x) (13.2)
h(x) = 0, g
i
(x) = 0 i /
si obt inem solut ia x
A
. Presupunem, de asemenea, ca punctul x
A
veric a inegalitat ile g
i
(x
A
) <
0 pentru orice i , /. Atunci, acest punct satisface condit iile necesare de ordinul I:
f(x
A
) +h(x
A
)
T
+

iA

i
g
i
(x
A
) = 0.
Dac a
i
0 pentru orice i /, atunci punctul x
A
este o solut ie locala (punct stat ionar)
pentru problema (NLP) generala. Pe de alta parte, dac a exist a i / astfel ncat
i
< 0,
atunci valoarea funct iei obiectiv poate micsorat a prin relaxarea constr angerii i (aceasta
rezulta din interpretarea senzitivit at ii multiplicatorilor Lagrange). Astfel, prin eliminarea din
setul de lucru al constrangerii i se poate obt ine o solut ie mbun at at it a. Adesea se ntampl a
ca n timp ce ne misc am pe suprafat a de lucru o nou a constrangere de inegalitate devine
activa.

In acest caz este preferabil sa adaug am aceasta constrangere la setul de lucru si sa
continuam cautarea pe aceasta suprafat a cu o dimensiune mai mic a dec at cea anterioar a. O
strategie pentru metodele de mult imi active se bazeaz a pe aceste dou a principii.

Incepem
cu un set de lucru si minimizam peste suprafat a de lucru corespunz atoare. Dac a noile
constr angeri devin active n timpul minimizarii problemei cu constrangeri de egalitate atunci
ele pot adaugate la suprafat a de lucru dar nici o constrangere nu este scoas a din setul de
lucru.

In nal, se obt ine un punct care minimizeaza funct ia f peste aceast a suprafat a. Apoi,
multiplicatorii Lagrange sunt determinat i si se verica semnul lor. Dac a tot i sunt ne-negativi
atunci solut ia obt inut a este optima pentru problema originala (NLP). Altfel, una sau mai
multe constr angeri corespunz atoare multiplicatorilor negativi se elimina din setul de lucru.
Procedura se repet a cu acest nou set de lucru. O astfel de metoda converge, dup a cum este
demonstrat mai jos:
Teorema 13.1.1 Daca pentru orice mult ime activa /, problema cu constrangeri de egalitate
(13.2) are o singura solut ie nedegenerata (adica pentru orice i / avem
i
,= 0), atunci
sirul generat de metoda mult imilor active converge la un punct stat ionar (punct ce satisface
condit iile (KKT)) pentru problema generala (NLP).
Demonstrat ie: Dupa ce o solut ie corespunz atoare unui set de lucru este gasit a, o de-
screstere strict a n funct ia obiectiv este realizata si deci nu este posibil a rentoarcerea la
aceast a mult ime activa. Cum exist a un numar nit de mult imi active, procesul se termin a
dup a un numar nit de iterat ii.
191 Capitol 13. Metode de optimizare pentru (NLP) generale
13.1.1 Metoda mult imilor active pentru problemele (QP)
Consideram problema (QP) av and constrangeri de inegalitate (extensia la cazul general cand
avem si constrangeri de egalitate este evidenta):
min
xR
n
1
2
x
T
Qx q
T
x
s.l.: Cx d.
Presupunem un (QP) convex (i.e. matricea Q _ 0). Cazul n care Q este matrice indenit a
ridica multe probleme n algoritmii numerici de optimizare si nu va tratat n aceast a carte.
Condit iile (KKT) sunt, n acest caz, necesare si suciente pentru optimalitatea global a:
Qx

q + C
T

= 0
(Cx

d)
T

= 0
Cx

d,

0
Denim o mult ime de indecsi / corespunz atoare unor constrangeri active si apoi introducem
si complementara acestei mult imi J = 1, . . . , m/ (corespunzatoare constr angerilor inac-
tive). Partit ionam matricile si vectorii corespunz atori astfel:
C =
_
C
A
C
I
_
, d =
_
d
A
d
I
_
si deci putem partit iona constrangerile de inegalitate dup a cum urmeaza:
C
A
x = d
A
, C
I
x < d
I
.
Lema 13.1.2 Punctul x

este minim global pentru problema (QP) convexa daca si numai


daca exista o mult ime de indecsi /

si J

si un vector

A
astfel ncat:
Qx

q + C
T
A

A
= 0
C
I
x

d
I
< 0, C
A
x

d
A
= 0

A
0.

In plus,

= [(

A
)
T
(

I
)
T
]
T
, unde

I
= 0.
Principalii pasi n metoda mult imilor active pentru problemele (QP) sunt:
1. alegem un punct init ial fezabil x
0
cu mult imea activa corespunz atoare /
0
, pentru k 0
repet am urmatorii pasi:
192 13.2. Metoda patratic a secvent ial a
2. rezolv am sistemul liniar n ( x
k
,
k
)
Q x
k
+ C
T
A
k

k
= q
C
A
k
x
k
= d
A
k
3. denim x
k+1
= x
k
+
k
( x
k
x
k
), unde pasul
k
[0, 1] astfel ncat x
k+1
sa e
fezabil pentru problema originala. Dac a t
k
< 1 adaug am la mult imea de indecsi /
k
un index nou i
k
corespunz ator unei constrangeri pentru care x
k
nu este fezabil, i.e.
/
k+1
= /
k
i
k
. Dac a t
k
= 1, atunci x
k
este fezabil si veric am dac a
k
0.
Dac a aceasta inegalitate are loc atunci ne oprim. Altfel, eliminam indexul

i
k
din /
k
corespunz ator inegalitat ii (
k
)
i
k
< 0, iar /
k+1
= /
k

i
k

13.2 Metoda patratica secvent iala

In aceasta sect iune prezentam o importanta clas a de metode pentru optimizarea constr ans a,
numita metoda patratica secvent iala (Sequential Quadratic Programming (SQP)). Consideram
problema (NLP) generala si liniariz am aceasta problem a at at n constr angerile de egalitate
cat si n cele de inegalitate n punctul curent si construim un model patratic pentru funct ia
obiectiv pentru a obt ine o problem a (QP):
min
dR
n
f(x
k
)
T
d +
1
2
d
T

2
x
/(x
k
,
k
,
k
)d (13.3)
s.l.: g(x
k
) +g(x
k
)d 0
h(x
k
) +h(x
k
)d = 0.
Se observa ca aceasta metoda este generalizarea metodei Lagrange-Newton descris a n capi-
tolul anterior n (12.9) pentru probleme cu constrangeri de egalitate la cazul n care avem
si constr angeri de tip inegalitat i. De asemenea, putem folosi algoritmul de mult imi active
descris anterior pentru rezolvarea acestei probleme patratice (13.3). Local, ntr-o vecin atate
a unei solut ii (x

) putem deni iterat ia metodei patratice secvent iale n forma:


(x
k+1
= x
k
+ d
k
,
k+1
,
k+1
),
unde d
k
si (
k+1
,
k+1
)) sunt solut ia si respectiv multiplicatorii Lagrange pentru inegalitat i
si egalitat i ai problemei patratice de mai sus (13.3).

In aceasta abordare, mult imea de
constr angeri active /
k
la solut ia problemei (13.3) o putem presupune a cea corespunz atoare
problemei generale (NLP) atunci cand x
k
este sucient de apropiat de x

. Urm atoarea
teorem a furnizeaz a condit iile n care aceasta proprietate are loc.
Teorema 13.2.1 Presupunem ca x

este un punct de minim local al problemei (NLP) la care


condit iile (KKT) sunt satisfacute (si deci x

este de asemenea punct regulat). De asemenea,


193 Capitol 13. Metode de optimizare pentru (NLP) generale
presupunem ca condit iile sucinete de ordinul II au loc si nu exista solut ie degenerata (adica

j
> 0 pentru orice j /(x

)). Atunci daca (x


k
,
k
,
k
) este sucient de aproapre de
(x

), exista o solut ie locala a problemei (13.3) pentru care mult imea activa de indici
satisface /
k
= /(x

), adica solut ia problemei patratice are aceeasi mult ime activa ca si


problema (NLP).
Demonstrat ie: Pentru aceasta demonstrat ie folosim teorema funct iilor implicite (vezi
Apendix). Denim /

= /(x

) si complementara acestei mult imi J

. Consideram funct ia
F n variabila (x, d,
A
, ) date de urmatoarea expresie:
f(x) +
2
x
/(x,
A
, )d +h(x)
T
+ g
A
(x)
T

A
= 0
h(x) +h(x)d = 0
g
A
(x) +g
A
(x)d = 0.
Aceasta deneste o funct ie implicita:
(x) =
_
_
d(x)
(x)

A
(x)
_
_
cu d(x

) = 0, (x

) =

si
A
(x) =

A
si t inem cont ca

I
= 0.

Intr-adevar,
urmatoarele relat ii au loc:
f(x

) +
2
x
/(x,

A
,

)0 +h(x

)
T

+g
A
(x

)
T

A
= 0 (
x
/(x

) = 0)
h(x

) +h(x

)0 = 0
g
A
(x) +g
A
(x

)0 = 0.
deoarece h(x

) = 0, g
A
(x

) = 0, g
I
(x

) < 0 si

I
= 0. Observam ca

A
> 0 datorita
complementaritat ii stricte. Pentru x x

, datorita continuitat ii lui d(x) si


A
(x), avem n
continuare g
I
(x) < 0 si
A
(x) > 0. Mai mult:
g
I
(x) +g
I
(x)d(x) < 0.
Astfel, o solut ie a problemei patratice (13.3) are aceeasi mult ime activa ca si problema (NLP)
si satisface complementaritatea strict a.

In concluzie, metoda patratic a secvent ial a va identica corect mult imea activa la optim/(x

)
si deci va avea un comportament asem anator metodei Lagrange-Newton pentru problemele
de optimizare cu constrangeri de egalitate, adica va converge local foarte rapid. Este de
asemenea remarcabil ca departe de solut ie metoda patratic a secvent ial a este capabila sa
mbun at at easca estimarea mult imii active si dirijeaz a iterat iile catre solut ie. Departe de
solut ie, iterat ia metodei patratice secvent iale are nevoie de un pas
k
variabil. Alegerea
pasului se face pe baza urmatoarei funct ii merit:
/(x, ) = f(x) + |h(x)|
1
+
m

i=1
[max0, g
i
(x)[ .
194 13.2. Metoda patratic a secvent ial a
Mai exact, e d
k
si (

k+1
,
k+1
)) solut ia si respectiv multiplicatorii Lagrange pentru ine-
galit at i si egalitat i ai probleme patratice (13.3). Denim de asemenea d

k
=
k+1

k
si
d

k
=

k+1

k
. Atunci algorimul general are urmatoarea iterat ie:
(SQP) : x
k+1
= x
k
+
k
d
k
,
k+1
=
k
+
k
d

k
,
k+1
=
k
+
k
d

k
,
unde pasul
k
se alege prin metoda de backtracking pentru funct ia merit de mai sus, adica

k
=
m
k
pentru un (0, 1) si c
1
(0, 1), unde m
k
este primul ntreg ne-negativ care
satisface:
/(x
k
+
m
d
k
,
k
) /(x
k
,
k
) + c
1

m
/

(x
k
,
k
; d
k
).
Reamintim ca /

(x
k
,
k
; d
k
) reprezinta derivata direct ional a a lui /n punctul (x
k
,
k
) de-a
lungul direct iei d
k
. Mai mult,
k
este un parametru care se ajusteaz a la ecare iterat ie, de
exemplu putem alege

k

f(x
k
)
T
d
k
+ 1/2d
T
k

2
x
/(x
k
,
k
,
k
)d
k
(1 )(|h(x
k
)|
1
+

m
i=1
[max0, g
i
(x
k
)[)
,
unde (0, 1). Funct ia fmincon din Matlab utilizeaz a aceasta metoda pentru gasirea unui
punct de minim local al problemei generale (NLP). Ca si n capitolul anterior, putem aprox-
ima Hesiana Lagrangianului
2
x
/(x
k
,
k
,
k
) cu o matrice B
k
, unde B
k
se poate actualiza
folosind updat ari cvasi-Newton de rang unu sau doi derivate din ecuat ia secantei:
B
k+1
(x
k+1
x
k
) =
x
/(x
k+1
,
k+1
,
k+1
)
x
/(x
k
,
k+1
,
k+1
).
Exemplu 13.2.2 Consideram urmatoarea problema:
min
xR
2
f(x) = 6
x
1
x
2
+
x
2
x
1
s.l.: h(x) = x
1
x
2
2 = 0, g(x) = 1 x
1
x
2
0.
Rezolvam aceasta problema cu metoda patratica secvent iala pornind din punctul init ial x
0
=
[2 1]
T
,
0
= 0 si
0
= 0. Derivatele necesare pentru construct ia subproblemei QP sunt:
f(x) =
_
6
x
2

2x
2
x
3
1

6x
1
x
2
2
+
1
x
2
1
_
T
,
2
f(x) =
_
6x
2
x
4
1

6
x
2
2

2
x
3
1

6
x
2
2

2
x
3
1
12x
1
x
3
2
_
h(x) = [x
2
x
1
]
T
, g(x) = [1 1]
T
.

In punctul x
0
, f(x
0
) = 12.25, h(x
0
) = 0 si g(x
0
) = 2 < 0. De aici rezulta prima subprob-
lema QP:
min
xR
2
q(d; x
0
)
_
=
_
23
4

47
4

d +
1
2
d
T
_
3
8

25
4

25
4
24
_
d
_
s.l.: [1 2]d = 0, [1 1]d 2 0.
195 Capitol 13. Metode de optimizare pentru (NLP) generale
Eliminand prima constrangere de egalitate, problema se reduce la una unidimensionala ce se
poate rezolva analitic obt inand solut ia d
0
=
_
0.92079 0.4604

T
. Mai departe prima iterat ie
a metodei patratice secvent iale cu pas unitar este
x
1
= x
0
+ d
0
=
_
1.07921 1.4604

T
.
Din moment ce constrangerea de inegalitate este satisfacuta strict n aceasta solut ie (adica
[1 1]d
0
2 < 0), consideram
1
= 0. Multiplicatorul corespunzator constrangerii de
egalitate poate calculat prin rezolvarea condit iilor de optimalitate necesare ale subproblemei.
Mai exact q(d; x
0
) + h(x
0
) = 0, sau explicit
_
23
4

47
4
_
+
_
3
8

25
4

25
4
24
_
d
0
+
_
1
2
_
= 0,
de unde avem
1
= 2.52723.

In concluzie, prima iterat ie si valorile aferente sunt date de:
x
1
= [1.07921 1.4604]
T
, f(x
1
) = 5.68779, h(x
1
) = 0.42393, g(x
1
) < 0.
Observam ca funct ia a progresat substant ial nsa constrangerea de egalitate nu este sat-
isfacuta. A doua subproblema necesita urmatoarele derivate:
f(x
1
) = [1.78475 2.17750]
T
h(x
1
) = [1.4604 1.07921]
T

2
f(x
1
) =
_
6.45944 4.40442
4.40442 4.15790
_
,
2
h(x
1
) =
_
0 1
1 0,
_
,
iar Hesiana termenului patratic va (reamintim ca
1
= 0):

2
x
/ =
2
f +
2
h =
_
6.45924 6.93165
6.93165 4.15790
_
.

In concluzie, a doua subproblema este data de:


min
xR
2
q(d; x
1
)
_
=
_
1.78475 2.17750

d +
1
2
d
T
_
6.45924 6.93165
6.93165 4.15790
_
d
_
s.l.: 1.4604d
1
+ 1.07921d
2
= 0.42393, [1 1]d 1.539604 0,
cu solut ia d
1
= [0.00614 0.38450]
T
si apoi calculam x
2
= x
1
+d
1
= [1.08535 1.8449]
T
. Din
nou, avand constrangea de inegalitate strict satisfacuta [1 1]d
1
1.539604 < 0, atunci

2
= 0. Mai mult
2
se obt ine din condit iile de optimalitate ale subproblemei rezultand n

2
= 0.5757.

In nal avem f(x
2
) = 5.09594, g(x
2
) < 0 si h(x
2
) = 2.36 10
3
. Repetand
aceeasi pasi pentru urmatoarele 2 iterat ii obt inem:

3
= 0,
3
= 0.44046, x
3
= [0.99266 2.00463]
T
f(x
3
) = 4.99056, g(x
3
) < 0, h(x
3
) = 1.008 10
2

4
= 0,
4
= 0.49997 x
4
= [0.99990 2.00017]
T
f(x
4
) = 5.00002, g(x
4
) < 0, h(x
4
) = 3.23 10
5
.
196 13.3. Metode de penalitate si bariera
13.3 Metode de penalitate si bariera
Metodele de penalitate si bariera sunt procedeuri de aproximare a unei probleme de opti-
mizare constr ans a cu o probleme neconstr ans a. Aproximarea se realizeaz a n cazul metode-
lor de penalitate prin adaugarea unui termen la funct ia obiectiv care atribuie un cost mare
violarii constrangerilor, n timp ce n metodele de tip bariera se adaug a un termen la funct ia
obiectiv care favorizeaz a punctele din interiorul mult imii fezabile fat a de cele de pe frontiera
acestei mult imi. Problema neconstr ans a se rezolv a apoi cu metode standard (de tip gradient
sau Newton) din optimizarea neconstr ans a prezentate n partea a doua a cart ii.
13.3.1 Metode de penalitate
Consideram problema de optimizare:
min
xX
f(x), (13.4)
unde f este funct ie diferent iabila si X R
n
este mult imea fezabila.

In general, mult imea
X este descris a de un set de egalitat i si inegalitat i. Denim o funct ie P : R
n
R, numit a
penalitate cu urmatoarele propriet at i:
(i) P este continua si ne-negativ a, adica P(x) 0 pentru orice x R
n
(ii) P(x) = 0 dac a si numai dac a x X.
Atunci nlocuim problema de optimizare constrans a (13.4) cu una far a constr angeri de forma:
min
xR
n
F(x, ) (= f(x) + P(x)),
unde > 0 este un parametru de penalitate.
Exemplu 13.3.1 Presupunem ca mult imea fezabila X = x R
n
: g(x) 0, h(x) = 0.
O funct ie de penalitate n acest caz este urmatoarea:
P(x) = |h(x)|
q
q
+
m

i=1
[ max0, g
i
(x)[
q
, (13.5)
unde q > 0 si ||
q
reprezinta norma vectoriala q. Pentru q = 2 funct ia din (13.5) se numeste
funct ie de penalitate patratica.
197 Capitol 13. Metode de optimizare pentru (NLP) generale
Procedura de baz a n metodele de penalitate const a n urmatoarele: e
k
un sir ce tinde la
astfel ncat
k+1
>
k
0 pentru orice k. La ecare iterat ie k, rezolv am problema f ar a
constr angeri folosind metode de ordinul I sau II din optimizarea neconstr ans a
min
xR
n
F(x,
k
)
a carei solut ie (punct de minim global) o not am cu x
k
.
Lema 13.3.2 Urmatoarele relat ii au loc:
F(x
k
,
k
) F(x
k+1
,
k+1
), P(x
k
) P(x
k+1
) si f(x
k
) f(x
k+1
).
Demonstrat ie: Avem urmatoarele inegalitat i valide:
F(x
k+1
,
k+1
)) = f(x
k+1
) +
k+1
P(x
k+1
) f(x
k+1
) +
k
P(x
k+1
)
f(x
k
) +
k
P(x
k
) = F(x
k
,
k
),
si deci prima relat ie din lem a este demonstrat a. De asemenea:
f(x
k
) +
k
P(x
k
) f(x
k+1
) +
k
P(x
k+1
)
f(x
k+1
) +
k+1
P(x
k+1
) f(x
k
) +
k+1
P(x
k
).
Adun and aceste dou a relat ii obt inem:
(
k+1

k
)P(x
k+1
) (
k+1

k
)P(x
k
)
ceea ce conduce la a doua relat ie din lem a.

In nal,
f(x
k+1
) +
k
P(x
k+1
) f(x
k
) +
k
P(x
k
),
adica ultima inegalitate din lem a.
Fie x

un punct de minim local al problemei (13.4). Atunci,


f(x

) = f(x

) +
k
f(x

) f(x
k
) +
k
P(x
k
) = F(x
k
,
k
) f(x
k
) k 0.
Convergent a globala a metodelor de penalitate este demonstrat a n urmatoarea teorem a:
Teorema 13.3.3 Orice punct de acumulare al sirului x
k
generat de o metoda de penalitate
este un punct de minim global al problemei de optimizare (13.4).
198 13.3. Metode de penalitate si bariera
Demonstrat ie: Pentru simplitatea expozit iei presupunem ca ntreg sirul x
k
converge la
x. Din continuitatea lui f avem ca f(x
k
) converge la f( x). Notam cu f

valoarea optima
global a a problemei (13.4). Atunci, din lema precedenta urmeaza ca sirul F(x
k
,
k
) este
nedescresc ator si m arginit superior si deci acest sir are limita lim
k
F(x
k
,
k
) = F

.
Obt inem atunci lim
k

k
P(x
k
) = F

f( x). Cum P(x


k
) 0 si
k
obt inem lim
k
P(x
k
) =
0. Folosind continuitatea lui P obt inem P( x) = 0 si deci x este fezabil pentru problema
(13.4). Pe de alta parte, f( x) = lim
k
f(x
k
) f

si deci x este minim global pentru problema


de optimizare constrans a (13.4).
Exemplu 13.3.4 Consideram problema de optimizare cu o singura constrangere de egali-
tate:
min
x
1
+x
2
5=0
(x
1
4)
2
+ (x
2
4)
2
si folosim funct ia de penalitate patratica pentru egalitat i (i.e. q = 2 in (13.5))
F(x, ) = (x
1
4)
2
+ (x
2
4)
2
+ (x
1
+ x
2
5)
2
.
Cautam punctele stat ionare ale acestei funct ii, i.e.
x
F(x, ) = 0:
2(x
1
4) + 2(x
1
+ x
2
5) = 0
2(x
2
4) + 2(x
1
+ x
2
5) = 0
cu solut ia x
1
= x
2
=
5+4
2+1
. Observam ca pentru obt inem x
1
= x
2
= 2.5. Pe de alta
parte se observa ca x

= [2.5 2.5]
T
este si solut ia problemei originale. Punctele stat ionare
Table 13.1: Punctele stat ionare si valorile funct iilor f, h si F pentru diferite valori .

k
(x
k
)
1
= (x
k
)
2
f(x
k
) h(x
k
) F(x
k
,
k
)
0 4 0 3 0
0.1 3.75 0.125 2.5 0.75
1 3 2 1 3
10 2.5714 4.0818 0.1428 4.2857
100 2.5075 4.4551 0.015 4.4776
2.5 4.5 0 4.5
ale problemei neconstranse mpreuna cu valorile corespunzatore funct iilor f, h si F pentru
diferite valori ale lui sunt date n Tabel 13.1.
Exemplu 13.3.5 Consideram acum problema de optimizare cu o singura inegalitate:
min
x
1
+x
2
50
(x
1
4)
2
+ (x
2
4)
2
199 Capitol 13. Metode de optimizare pentru (NLP) generale
si folosim funct ia de penalitate patratica pentru inegalitat i (i.e. q = 2 in (13.5))
F(x, ) = (x
1
4)
2
+ (x
2
4)
2
+ max0, x
1
+ x
2
5
2
.
Cautam punctele stat ionare ale acestei funct ii, adic a
x
F(x, = 0):
2(x
1
4) + 2 max0, x
1
+ x
2
5 = 0
2(x
2
4) + 2 max0, x
1
+ x
2
5 = 0
cu solut ia x
1
= x
2
ca si n exemplul precedent.

In concluzie, (x
1
4)+ max0, 2x
1
5 = 0.
Avem trei cazuri: 2x
1
5 este zero, pozitiv sau negativ. Presupunem ca 2x
1
5 si atunci
obt inem x
1
= x
2
=
5+4
2+1
. Observam ca pentru obt inem x
1
= x
2
= 2.5. Cand
variaza de la 0 la , punctele stat ionare ale problemei neconstranse se misca pe segmentul
determinat de capetele [4 4]
T
(solut ia neconstransa) si [2.5 2.5]
T
(solut ia problemei originale).
Observam de asemenea ca pentru toate valorile lui < punctele stat ionare ale problemei
neconstranse de penalitate sunt nefezabile pentru problema originala.
13.3.2 Metode de bariera

In continuare consider am problema de optimizare de forma:


min
xX
f(x), (13.6)
unde f este funct ie diferent iabila si mult imea fezabila X R
n
are interiorul nevid si este
posibil sa ajungem la orice punct de pe frontier a din interiorul mult imii.

In general, o astfel
de mult ime X este descris a de un set de inegalitat i. Denim o funct ie B : R
n
R, numit a
bariera, cu urmatoarele propriet at i:
(i) B este continua si ne-negativ a, adica B(x) 0 pentru orice x domB
(ii) B(x) dac a x se apropie de frontiera lui X.
Atunci nlocuim problema de optimizare cu constrangeri (13.6) cu una f ar a constr angeri de
forma:
min
xR
n
F(x, ) (= f(x) + B(x)),
unde > 0 este un parametru de bariera.
Exemplu 13.3.6 Presupunem ca mult imea fezabila X = x R
n
: g(x) 0. Funct ii de
penalitate pot n acest caz e.g.:
B(x) =
m

i=1
1
g
i
(x)
sau B(x) =
m

i=1
ln(g
i
(x)).
200 13.3. Metode de penalitate si bariera
Cea de-a doua funct ie se numeste bariera logaritmica si este cea mai des utilizata n algoritmii
de optimizare.
Procedura n metodele de bariera este similar a cu cea a metodelor de penalitate: e
k
un
sir ce tinde la 0 astfel ncat 0 <
k+1
<
k
pentru orice k. La ecare iterat iei k, rezolv am
folosind metode de ordinul I sau II din optimizarea neconstr ans a urmatoarea problem a f ar a
constr angeri
min
xR
n
F(x,
k
)
a carei solut ie o not am cu x
k
. Acelasi comportament l au si metodele de bariera ca cel al
metodelor de penalitate.

In particular, orice punct de acumulare al sirului x
k
este solut ie a
problemei (13.6).
Exemplu 13.3.7 Consideram problema de optimizare cu o singura inegalitate:
min
x
1
+x
2
50
(x
1
4)
2
+ (x
2
4)
2
si folosim funct ia barier a logaritmica
F(x, ) = (x
1
4)
2
+ (x
2
4)
2
log(5 x
1
x
2
).
Cautam punctele stat ionare ale acestei funct ii, adic a
x
F(x, ) = 0:
2(x
1
4) +
1
5 x
1
x
2
= 0
2(x
2
4) + 2
1
5 x
1
x
2
= 0
cu solut ia x
1
= x
2
. Obt inem 2x
2
1
13x
1
+ 20 /2 = 0 cu singura radacina fezabila
x
1
= 13/4 1/4

9 + 4. Observam ca pentru 0 obt inem x


1
= x
2
= 2.5. Pe de alta
parte, se observa ca x

= [2.5 2.5]
T
este si solut ia problemei originale. Punctele stat ionare
Table 13.2: Punctele stat ionare si valorile funct iilor f, g si F pentru diferite valori .

k
(x
k
)
1
= (x
k
)
2
f(x
k
) g(x
k
) log(g(x
k
)) F(x
k
,
k
)
100 -1.80 67.41 8.61 -215.31 -147.89
10 1.5 12.5 2 -6.93 5.56
1 2.34 5.45 0.30 1.19 6.64
0.1 2.483 4.59 0.0034 0.34 4.94
0.01 2.498 4.51 0.0034 0.056 4.566
0 2.5 4.5 0 0 4.5
ale problemei neconstranse mpreuna cu valorile corespunzatore funct iilor f, h si F pentru
diferite valori ale lui sunt date n Tabel 13.2.
201 Capitol 13. Metode de optimizare pentru (NLP) generale
13.4 Metode de punct interior
Metodele de punct interior reprezinta o alternativa la metoda mult imilor active si chiar
pentru alte metode prezentate anterior pentru rezolvarea problemei de optimizare constr ans a
(NLP). Metodele anterioare ntampina probleme deoarece condit iile (KKT) sunt ne-netede
(non-smooth), n particular condit ia de complementaritate
i
g
i
(x) = 0 mpreun a cu cele de
fezabilitate g(x) 0 si 0 sunt dicil de rezolvat datorita faptului ca nu sunt netede.
Ideea de baz a n metodele de punct interior este de a nlocui aceste condit ii ne-netede cu
condit ii netede (ce sunt o aproximare a celor originale), si anume:
i
g
i
(x) = , unde > 0
dar arbitrar de mic. Condit iile KKT devin acum o problem a neted a de gasire a radacinilor
sistemului:
(KKT IP) : f(x) +h(x)
T
+g(x) = 0
g(x) = e
h(x) = 0
mpreun a cu constrangerile de inegalitate
g(x) 0, 0.
Am folosit notat ia e = [1 . . . 1] R
m
si = diag(
1
, . . . ,
m
). Condit iile (KKT-IP) se
numesc condit iile (KKT) perturbate. Este clar ca pentru = 0 obt inem condit iile (KKT)
pentru problema generala (NLP). Procedura de baz a n metodele de punct interior const a
n rezolvarea (aproximativa) a sistemului (KKT) perturbat (folosind de exemplu metoda
Newton), adica sistemul de ecuat ii dat n (KKT-IP), cu solut iile (x(), (), ()) si apoi
se doreste ca n limita pentru 0 aceste solut ii sa convearga la o solut ie (x

)
a problemei (NLP). Traiectoria descris a de solut ia sistemul perturbat (x(), (), ()) se
numeste calea centrala (central path).
1000 900 800 700 600 500 400 300 200 100 0
6
4
2
0
2
4


=1
=0.5
=0.1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
0
0.5
1
1.5
2
2.5
3
3.5
4


=1
=0.5
=0.1
Figura 13.1: Aproximarea funct iei indicator pentru mult imea (, 0] (stanga) si [1, 1]
(dreapta) cu bariera logaritmica ( log(x) si respectiv (log(1+x) +log(1x))) pentru
diferite valori ale lui .
202 13.4. Metode de punct interior
Metodele de punct interior pot interpretate ca o metoda de bariera. Ideea principala din
spatele acestor metode este de a reformula problema (NLP) ca o problem a av and constr angeri
de egalitate, prin mutarea constrangerilor de inegalitate n funct ia obiectiv:
min
x
f(x) +
m

i=1
I

(g
i
(x))
s.l.: h(x) = 0,
unde I

: R R este funct ia indicator pentru mult imea numerelor nepozitive R

=
(, 0]:
I

(y) =
_
0, daca y 0
, daca y > 0.
(13.7)
Prin aceasta reformulare am eliminat constrangerile de inegalitate, nsa apare problema
major a a nediferent iabilitat ii noii funct ii obiectiv.

In acest scop, funct ia indicator I

se
aproximeaza cu una diferent iabila folosindu-se o funct ie bariera (vezi Fig. 13.1), mai exact
consider am aproximarea:
min
x
f(x)
m

i=1
log(g
i
(x)) (13.8)
s.l: h(x) = 0.
unde se numeste parametru de bariera si am utilizat funct ia B(x) =

m
i=1
log(g
i
(x)),
numit a si bariera logaritmica pentru problema (NLP). Aceasta aproximare a problemei orig-
inale poate rezolvat a acum prin metoda Lagrange-Newton pentru probleme av and con-
strangeri de egalitate descris a n capitolul anterior. Pentru a simplica calculele viitoare,
ment ion am ca gradientul si Hesiana barierei logaritimice sunt date de urmatoarele expresii:
B(x) =
m

i=1
1
g
i
(x)
g
i
(x)

2
B(x) =
m

i=1
1
g
i
(x)
2
g
i
(x)g
i
(x)
T

1
g
i
(x)

2
g
i
(x).
Condit iile (KKT) pentru aceasta formulare (13.8) sunt:
f(x)
m

i=1

g
i
(x)
g
i
(x) +h(x)
T
= 0
h(x) = 0.
Datorita domeniului de denit ie a funct iei log(), avem automat ndeplinit a condit ia g(x) < 0
si dac a not am cu
i
=

g
i
(x)
> 0, observam ca aceste condit ii conduc la sistemul (KKT-IP).

In concluzie, metodele de punct interior rezolv a problema (13.8) (folosind metode de ordinul
I sau II pentru probleme cu constrangeri de egalitate) pentru un sir de parametri
k+1
<
k
astfel ncat
k
0.
203 Capitol 13. Metode de optimizare pentru (NLP) generale
13.4.1 Metode de punct interior pentru probleme convexe
Consideram problema convexa (CP) generala:
(CP) : min
xR
n
f(x)
s.l.: g(x) 0, Ax = b,
unde funct ia obiectiv f : R
n
R si funct ia vectoriala ce deneste constr angerile de inegali-
tate g : R
n
R
m
sunt convexe si de dou a ori diferent iabile, iar A R
pn
cu rangul p < n.
Metodele de punct interior rezolv a problema (CP) sau condit iile KKT corespunz atoare prin
aplicarea metodei Newton asupra unei secvent e de probleme cu constr angeri de egalitate, sau
asupra unei secvent e de condit ii (KKT) perturbate.

In acest scop, consider am aproximarea
problemei originale (CP) cu o problem a ce cont ine doar constrangeri liniare de egalitate:
min
x
f(x)
m

i=1
log(g
i
(x)) (13.9)
s.l: Ax = b.
unde am utilizat funct ia B(x) =

m
i=1
log(g
i
(x)), numita si bariera logaritmica pentru
problema (CP). Aceasta aproximare a problemei originale este de asemenea o problem a
convexa si poate rezolvat a prin metoda Newton pentru probleme av and constr angeri de
egalitate descris a n capitolul anterior. Un concept esent ial n metodele de punct interior
este acela de cale central a: punctele x() se aa pe calea central a dac a sunt strict fezabile,
si anume satisfac:
Ax() = b, g(x()) < 0,
si exist a un R
p
astfel ncat
f(x()) + B(x()) + A
T
= 0.
Astfel, putem deriva o proprietate importanta a punctelor de pe calea central a: orice punct
de pe aceasta cale produce un punct dual fezabil, si astfel o limita inferioar a a lui f

.

In
mod specic, dac a lu am

i
() =

g
i
(x())
si () = ,
se poate demonstra usor ca perechea () si () este dual fezabila. Astfel, funct ia duala
q((), ()) este nita iar:
q((), ()) = f(x()) +
m

i=1

i
()g
i
(x()) + ()
T
(Ax() b)
= f(x()) m.

In mod particular, diferent a de dualitate dintre funct iile f si q, asociat a cu punctul x() si
perechea duala fezabila ((), ()) este simplu cantitatea m. Drept urmare, avem
f(x()) f

m,
204 13.4. Metode de punct interior
ceea ce conrma ideea intuitiva ca x() converge catre punctul de optim cand 0, adica
avem o aproximare cat mai bun a a problemei (CP). Iterat iile metodei de punct interior sunt:
se dau un punct init ial x
0
strict fezabil, un
0
> 0, un < 1 si o acuratet e > 0
Cat timp m
k
se repet a urmatorii pasi
1. Calculam solut ia x
k+1
= x(
k
) a problemei convexe cu constrangeri de egalitate (13.9)
pornind din punctul init ial x
k
(warm start)
2. Descrestem parametrul
k+1
=
k
.
Dupa cum se observa si n practic a, pentru aceasta metoda un aspect esent ial este selectarea
unei actualiz ari corespunz atoare pentru la ecare pas, n particular este esent ial felul cum
alegem . O caracteristica importanta a metodei de punct interior este strategia de warm
start: metoda folosita n rezolvarea problemei convexe (13.9) la
k
porneste din solut ia
problemei precedente corespunz atoare parametrului
k1
.
Analiza convergent ei metodei de punct interior pentru cazul convex este imediata. Pre-
supunand ca problema perturbat a (13.9) se rezolv a cu metoda Lagrange-Newton pentru
=
0
,
0
,
2

0
, . . . ,
k

0
, atunci dup a k pasi distant a de la funct ia obiectiv la valoarea
optima este mai mic a decat m
0

k
. Pe de alta parte, pentru anumite clase de probleme
convexe (de exemplu pentru probleme (CP) cu funct ia obiectiv self-concordanta) se poate
determina riguros o margine superioara asupra numarului total de iterat ii Newton necesare
pentru rezolvarea problemei, n particular se poate ar ata ca metoda de punct interior are
complexitate polinomiala [2, 11].
Exemplu 13.4.1 Fie problema de optimizare convexa:
min
xR
2
(x
1
4)
4
+ (x
1
6x
2
)
2
s.l.: x
2
1
+ x
2
2
25, Ax = b
unde A =
_
2 3

si b = 12. Rezolvam aceasta problema prin metoda de punct interior. Va


trebui sa pornim dintr-un punct init ial fezabil, exemplu x
0
= [3 2]
T
.

In Fig. 13.2 putem
observa convergent a foarte rapida a metodei.
13.4.2 Metode de punct interior pentru probleme neconvexe

In cazul neconvex se prefer a urmatoarea reformulare pentru problema (NLP):


min
xR
n
,sR
m
f(x)
s.l.: g(x) + s = 0, h(x) = 0, s 0.
205 Capitol 13. Metode de optimizare pentru (NLP) generale
1 2 3 4 5 6 7
2
1.5
1
0.5
0
0.5
1
1.5
2
2.5
3
x
1
x
2
Figura 13.2: Liniile de contur si punctele obt inute prin metoda de punct interior.

Intr-o manier a similar a ca n prima parte a acestei sect iuni mut am constr angerile de inegal-
itate n cost printr-o funct ie bariera de tip logaritm:
min
x,s
f(x)
m

i=1
log(s
i
) (13.10)
s.l.: g(x) + s = 0, h(x) = 0.
Condit iile (KKT) perturbate (adic a condit iile de optimalitate pentru problema (13.10)) au
n acest caz urmatoarea formulare neliniara:
(KKT IPs) : f(x) +h(x)
T
+g(x) = 0
s e = 0
g(x) + s = 0, h(x) = 0,
mpreun a cu s 0 si 0. Pentru o anumita valoare dorim sa rezolv am sistemul neliniar
perturbat (KKT-IPs) cu ajutorul metodei Newton. Aplicand metoda Newton sistemului
neliniar (KKT-IPs) n variabilele (x, s, , ) obt inem:
_

2
x
/ 0 h
T
g
T
0 0 S
h 0 0 0
g I 0 0
_

_
_

_
d
x
d
s
d

_
=
_

_
f +h
T
+g
T

s e
h
g + s
_

_
, (13.11)
unde S = diag(s
1
, . . . , s
m
) si /(x, s, , ) = f(x)+(g(x)+s)
T
+h(x)
T
. Sistemul de mai sus
se numeste sistemul liniar primal-dual. Pentru o rezolvare numeric a mai ecienta sistemul
primal-dual se aduce ntr-o forma simetrica. De obicei, n aceasta metoda pentru a deni
criteriul de oprire introducem urmatoarea funct ie:
E(x, s, , ; ) = max|f(x) +h
T
(x) +g
T
(x)|, |s e|, |h(x)|, |g(x) + s|.
206 13.4. Metode de punct interior
Metoda Newton pentru rezolvarea sistemului perturbat (KKT-IPs) corespunz ator unei valori
xate
k
are urmatoarea iterat ie:
(MNs) : x
k+1
= x
k
+
x
k
d
x
k
, s
k+1
= s
k
+
x
k
d
s
k

k+1
=
k
+

k
d

k
,
k+1
=
k
+

k
d

k
,
unde direct iile (d
x
k
, d
s
k
, d

k
, d

k
) sunt solut ia sistemul primal-dual (13.11) n (x
k
, s
k
,
k
,
k
). De
asemenea, pasul

k
se ia ntr-un interval de forma (0,

max
], iar pasul
x
k
se aleg pe baza
unei funct ii merit. De obicei se consider a urmatoarea funct ie merit:
/

(x, s, ) = f(x)
m

i=1
log(s
i
) + |h(x)|
1
+
m

i=1
[max0, g
i
(x)[ .
Mai exact, pasul
x
k
se alege prin metoda de backtracking pentru funct ia merit de mai sus,
adica
x
k
=
m
k
pentru un (0, 1) si c
1
(0, 1), unde m
k
este primul ntreg ne-negativ
care satisface:
/

(x
k
+
m
d
x
k
, s
k
+
m
d
s
k
,
k
) /

(x
k
, s
k
,
k
) + c
1

m
/

(x
k
, s
k
,
k
; d
x
k
, d
s
k
).
Reamintim ca /

(x
k
, s
k
,
k
; d
x
k
, d
s
k
) reprezinta derivata direct ional a a lui /

n punctul
(x
k
, s
k
,
k
) de-a lungul direct iei (d
x
k
, d
s
k
).
Metoda de punct interior const a n acest caz n rezolvarea unui sir de sisteme neliniare
perturbate corespunz atoare unui sir de valori
k
. Mai precis, pentru ecare
k
se rezolv a
sistemul neliniar (KKT-IPs) aproximativ folosind iterat ia de mai sus (MNs). Criteriul de
oprire folosit pentru rezolvarea aproximativa a sistemului perturbat (KKT-IPs) poate
E(x
k
, s
k
,
k
,
k
;
l
)
k
. Apoi se actualizeaza
k+1
=
k
pentru un (0, 1) si iarasi se
rezolv a sistemul perturbat pana cand criteriul de oprire
E(x
k
, s
k
,
k
,
k
; 0)
este satisfacut pentru o acuratet e dorit a. O caracteristica importanta a metodei de punct
interior este aceea ca se bazeaz a pe warm start: punctul de pornire n metoda Newton
pentru rezolvarea sistemul perturbat (KKT-IPs) corespunz ator lui
k+1
coincide cu solut ia
aproximativa a sistemului perturbat corespunz ator lui
k
.
Pentru cazul neconvex, analiza convergent ei metodei de punct interior este mult mai dicil a
si rezultatele sunt mai slabe decat pentru cazul convex. Totusi, sub anumite condit ii se
poate ar ata ca metoda de punct interior converge la un punct stat ionar (solut ie a sistemului
(KKT)) al problemei (NLP) generale si local avem convergent a superliniara.
Comentarii nale: Cu metodele de punct interior, ncheiem partea a treia a acestei
cart i dedicata metodelor numerice de optimizare pentru probleme cu constr angeri (NLP).
Metodele de punct interior sunt cele mai eciente pentru rezolvarea problemelor (NLP) con-
vexe sau neconvexe ind implementate n majoritatea pachetelor software de optimizare:
207 Capitol 13. Metode de optimizare pentru (NLP) generale
CVX, IPOPT, MOSEK, etc. Analiza complexitat ii polinomiale ale metodelor de punct
interior pentru cazul convex poate gasit a n [2, 11]. Mai multe detalii despre metodele
prezentate n aceasta parte a lucr arii cat si alte metode care nu au fost prezentate aici se
pot gasi n cart ile clasice de optimizare neliniara ale lui Bertsekas [1], Luenberger [6], Nes-
terov [7] si Nocedal si Wright [14]. Dintre cart ile dedicate implementarii numerice a acestor
metode de optimizare amintim de exemplu cartea lui Gill, Murray si Wright [8]. O descriere
detaliata a pachetelor software existente pe piat a este dat a de More si Wright n [13].

In ultimul capitol al acestei cart i prezentamn detaliu cateva aplicat ii moderne din inginerie
(control optimal, stabilitatea sistemelor, clasicare, nv at are automata, ierarhizarea paginilor
web) si ar at am ca ele pot formulate ca probleme de optimizare pe care le vom rezolva cu
metodele numerice prezentate n aceasta lucrare.
208 13.4. Metode de punct interior
Capitol 14
Studii de caz din inginerie

In acest capitol nal prezentam cateva studii de caz ce implica optimizarea unor sisteme din
domeniul ingineriei.

In primul studiu de caz analizam problema de control optimal al unui
sistem dinamic supus la constrangeri, n particular urmarirea unei referint e impuse pentru
un robot si o instalat ie cu patru rezorvoare. O alta aplicat ie importanta din teoria sistemelor
este analiza stabilitat i unui sistem liniar dinamic pe care o vom formula ca o problem a de
optimizare.

In nal, vom analiza problema Google (ierarhizarea paginilor web) si nv at area
automata sau clasicarea de obiecte. Fiecare studiu de caz ilustreaz a formul ari specice si
strategii de pregatire a modelului matematic de optimizare pentru sistemul respectiv. Acest
capitol demonstreaza astfel aplicabilitatea metodelor numerice de optimizare prezentate n
capitolele anterioare la exemple reale si actuale din inginerie.
14.1 Control optimal liniar
Fie un sistem liniar cu dinamica discret a:
z
t+1
= A
z
z
t
+ B
u
u
t
unde z
t
R
nz
reprezinta vectorul de stare al sistemului, u
t
R
nu
reprezinta vectorul de
intr ari a sistemului, iar matricele A
z
R
nznz
si B
u
R
nznu
sunt matricele ce descriu
dinamica sistemului. Consideram de asemenea constrangeri de inegalitate liniare pe stare si
intrare de forma:
lb
z
z
t
ub
z
, C
u
u
t
d
u
t 0,
209
210 14.1. Control optimal liniar
unde C
u
R
n
i
nz
si d
u
R
n
i
. Formul am acum problema de control optimal de urmarire a
referint ei pe un orizont nit N, n care utiliz am funct ii de cost pe etapa patratice:
min
zt,ut
1
2
N

t=1
|z
t
z
ref
t
|
2
Qt
+
N1

t=0
|u
t
u
ref
t
|
2
Rt
(14.1)
s.l: z
0
= z, z
t+1
= A
z
z
t
+ B
u
u
t
lb
z
z
t
ub
z
, C
u
u
t
d
u
t = 0, . . . , N 1,
unde presupunem cunoscuta starea iniat iala a sistemului z
0
= z si denim |z z
ref
|
2
Q
=
(z z
ref
)
T
Q(z z
ref
). Mai mult presupunem ca matricile Q
t
si R
t
sunt pozitiv denite
pentru orice t si z
ref
t
si respectiv u
ref
t
reprezinta anumite referint e impuse peste orizontul
de predict ite pentru starea si intrarea sistemului. Vom ar ata mai ntai ca aceast a problem a
de control optimal pe orizont nit poate formulata ca o problem a patratic a convexa de
optimizare si apoi aplicam acest tip de control pe aplicat ii practice.
14.1.1 Formularea (QP) rara fara eliminarea starilor

In acest caz, vom deni varibila de decizie x R


N(nz+nu)
care sa cuprinda variabilele de stare
si intrare peste ntreg orizontul de predict ie N, i.e.:
x =
_
u
T
0
z
T
1
u
T
1
z
T
2
. . . u
T
N1
z
T
N

T
.
Din problema de control optimal (14.1) vor rezulta constrangeri de egalitate si de inegalitate
liniare.

Intr-adev ar, constrangerile de egalitate vor rezulta din faptul ca variabilele de stare
si intrare trebuie sa respecte dinamica procesului z
t+1
= A
z
z
t
+B
u
u
t
peste ntreg orizontul de
predict ie, adica pentru t = 0, . . . , N1. Luandn calcul forma variabilei x, putem concatena
aceste constr angeri ntr-o constrangere de forma Ax = b, unde matricea A R
NnzN(nz+nu)
si vectorul b R
Nnz
vor de forma:
A =
_

_
B
u
I
nz
0 0 . . . 0 0 0
0 A
z
B
u
I
nz
. . . 0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 . . . A
z
B
u
I
nz
_

_
, b =
_

_
A
z
z
0
0
.
.
.
0
_

_
.
Fiecare linie de blocuri din sistemul Ax = b reprezinta satisfacerea constr angerilor rezul-
tate din dinamici la un pas k, adica prima linie va asigura z
1
= A
z
z
0
+ B
u
u
0
sau rescris
B
u
u
0
+I
nz
z
1
= A
z
z
0
, a doua linie va asigura A
z
z
1
B
u
u
1
+I
nz
z
2
= 0, etc. Observ am ca
matricea A ce descrie constrangerile de egalitate are o structur a bloc tridiagonal a.

In ceea
ce priveste constrangerile de inegalitate, observam ca avem constrangeri de tip box pe stare
si constr angeri poliedrale pe intrare. Dorim sa concatenam toate aceste constr angeri peste
ntreg orizontul de predict ie ntr-o singura constrangere de forma Cx d. Constr angerea de
211 Capitol 14. Studii de caz din inginerie
tip box pentru stare poate rescrisa ca:
_
I
nz
I
nz
_
. .
Cz
z
t

_
ub
z
lb
z
_
. .
dz
Matricea C R
N(2nz+n
i
)N(nz+nu)
si vectorul d vor avea astfel urmatoarea forma:
C =
_

_
C
u
0 0 0 0
0 C
z
0 0 0
0 0
.
.
. 0 0
0 0 0 C
u
0
0 0 0 0 C
z
_

_
, d =
_

_
d
u
d
z
.
.
.
d
u
d
z
_

_
.
Observam can acest caz matricea C este bloc diagonala.

In privint a funct iei obiectiv, putem
lua un vector care sa concateneze referint ele pentru stare si intrare peste ntreg orizontul de
predict ie:
x
ref
=
_
(u
ref
0
)
T
(z
ref
1
)
T
. . . (u
ref
N1
)
T
(z
ref
N
)
T
_
T
R
N(nz+nu)
.
Cu x si x
ref
denit i anterior putem rescrie ntreaga funct ie cost din (14.1) sub forma:
1
2
|x x
ref
|
2
Q
=
1
2
(x x
ref
)
T
Q(x x
ref
),
unde Q R
N(nz+nu)N(nz+nu)
va bloc diagonala de forma:
Q =
_

_
R
0
0 . . . 0 0
0 Q
1
. . . 0 0
0 0
.
.
. 0 0
0 0 . . . R
N1
0
0 0 . . . 0 Q
N
_

_
. (14.2)
Mai mult, matricea Q este pozitiv denita deoarece am presupus ca toate matricile Q
t
si R
t
sunt pozitiv denite. Pentru a aduce n nal problema la forma (QP), observam:
1
2
(x x
ref
)
T
Q(x x
ref
) =
1
2
_
x
T
Qx x
T
Qx
ref
(x
ref
)
T
Qx + (x
ref
)
T
Qx
ref
_
=
1
2
x
T
Qx x
T
Qx
ref
+
1
2
(x
ref
)
T
Qx
ref
.
Dac a lu am q = Qx
ref
si ignor am termenul constant (x
ref
)
T
Qx
ref
din moment ce nu depinde
de variabila x, atunci problema (14.1) poate rescrisa ca o problem a (QP) convexa cu
matricile ce descriu modelul rare (i.e. aceste matrici au foarte multe intr ari nule):
min
xR
N(nz+nu)
1
2
x
T
Qx + q
T
x (14.3)
s.l.: Ax = b, Cx d.
212 14.1. Control optimal liniar
14.1.2 Formularea (QP) densa cu eliminarea starilor
Pentru a elimina st arile din problema (14.1), utiliz am dinamica sistemului z
t+1
= A
z
z
t
+B
u
u
t
pentru a exprima st arile de-a lungul ntregului orizont de predict ie N n funct ie de starea
init iala z
0
si intr arile sistemului (u
0
. . . u
N1
):
z
1
= A
z
z
0
+ B
u
u
0
z
2
= A
z
z
1
+ B
u
u
1
= A
2
z
z
0
+ A
z
B
u
u
0
+ B
u
u
1
z
3
= A
z
z
2
+ B
u
u
2
= A
3
z
z
0
+ A
2
z
B
u
u
0
+ A
z
B
u
u
1
+ B
u
u
2
.
.
.
z
N
= A
z
z
N1
+ B
u
u
N1
= A
N
z
z
0
+ A
N1
z
B
u
u
0
+ A
N2
z
B
u
u
1
+ + A
2
z
B
u
u
N3
+ A
z
B
u
u
N2
+ B
u
u
N1
.
Dac a eliminam st arile, atunci singurele variabile de decizie raman intr arile. Not am astfel
x = [u
T
0
. . . u
T
N1
]
T
R
Nnu
si de asemenea introducem notat ia z = [z
T
1
. . . z
T
N
]
T
R
Nnz
. Ecuat iile anterioare pot scrise
sub forma z =

ABx + A
p
z
0
, unde matricile

AB R
NnzNnu
si A
p
R
Nnznz
sunt denite
astfel:

AB =
_

_
B
u
0 0 0 . . . 0
A
z
B
u
B
u
0 0 . . . 0
A
2
z
B
u
A
z
B
u
B
u
0 . . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
N1
z
B
u
A
N2
z
B
u
A
N3
z
B
u
A
N4
z
B
u
. . . B
u
_

_
, A
p
=
_

_
A
z
A
2
z
A
3
z
.
.
.
A
N
z
_

_
.
Dac a rescriem constrangerile de tip box pentru stare sub forma C
z
z
t
d
z
, similar cazului n
care nu eliminam st arile, si le concatenam peste ntreg orizontul de predict ie astfel ncat sa
avem

C
z
z

d
z
, unde

C
z
= diag(C
z
, C
z
, . . . , C
z
) si

d
z
= [d
T
z
d
T
z
. . . d
T
z
]
T
, atunci constr angerile
de inegalitate pentru stare se transforma n constrangeri poliedrale pentru intrare de forma
C

x
x d

x
, unde C

x
R
2NnzNnu
si d

x
R
2Nnz
sunt date de expresiile:

C
z
z

d
z


C
z
(

ABx + A
p
z
0
)

d
z


C
z

AB
. .
=C

x
x

d
z


C
z
A
p
z
0
. .
=d

x
.
Pentru constrangerile de inegalitate pentru intrare lu am C

x
x d

x
, unde denim matricea
C

x
= diag(C
u
, C
u
, . . . , C
u
) R
Nn
i
Nnu
si vectorul d

x
= [d
T
u
d
T
u
. . . d
T
u
]
T
R
Nn
i
. Con-
caten am acum cele dou a constrangeri pe stare si intrare peste orizontul de predict ie ntr-una
singur a de forma Cx d, unde:
C =
_
C

x
C

x
_
, d =
_
d

x
d

x
_
.
213 Capitol 14. Studii de caz din inginerie
Observam ca matricea C R
N(2nz+n
i
)Nnu
este bloc inferior triunghiulara deoarece matricea

AB este bloc inferior triunghiulara si matricea



C
z
este bloc diagonala.
Privind funct ia obiectiv, observam ca funct iile de cost corespunz atoare st arilor sistemului
pot rescrise sub forma:
1
2
N

t=1
|z
t
z
ref
t
|
2
Qt
=
1
2
| z z
ref
|
2

Q
=
1
2
|

ABx + A
p
z
0
z
ref
|
2

Q
=
1
2
x
T

AB
T

Q

ABx +
_
z
T
0
A
T
p

Q

AB ( z
ref
)
T

Q

AB
_
x + constant,
unde am folosit notat iile

Q = diag(Q
1
, . . . , Q
N
) R
NnzNnz
si z
ref
= [(z
ref
1
)
T
. . . (z
ref
N
)
T
]
T

R
Nnz
. Se observa ca

Q este matrice pozitiv denita deoarece am presupus ca matricile
Q
t
sunt pozitiv denite peste orizontul de predict ie. Pe de alta parte funct iile de cost
corespunz atoare intr arilor sistemului pot rescrise astfel:
N1

t=0
|u
t
u
ref
t
|
2
Rt
= |x x
ref
|
2

R
=
1
2
x
T

Rx ( x
ref
)
T

Rx +
1
2
( x
ref
)
T

R x
ref
,
unde am notat cu

R = diag(R
0
, . . . , R
N1
) R
NnuNnu
si x
ref
= [(u
ref
0
)
T
. . . (u
ref
N1
)
T
]
T

R
Nnu
. Matricea

R este pozitiv denita deoarece am presupus ca matricile R
t
sunt pozitiv
denite peste orizontul de predict ie. Ignorand termenii constant i, funct ia obiectiv devine
patratic a convexa:
1
2
x
T
Qx + q
T
x
unde matricea Q R
NnuNnu
n acest caz este dat a de expresia
Q =

R +

AB
T

Q

AB.
Se observa imediat ca matricea Q este pozitiv denita deoarece matricile

Q si

R sunt pozitiv
denite nsa are o structur a densa datorita termenului

AB
T

Q

AB, unde reamintim ca

AB
este bloc inferior triunghiulara. Mai mult, vectorul q are urmatoarea expresie:
q =

AB
T

QA
p
z
0


AB
T

Q z
ref


R x
ref
.

In nal obt inem urmatoarea problem a patratic a convexa av and numai constr angeri de ine-
galitate:
min
xR
Nnu
1
2
x
T
Qx + q
T
x (14.4)
s.l.: Cx d.
Aceasta problem a de optimizare (14.4) are matricile Q si C dense, n particular, matricea
C este inferior bloc triunghiulara iar matricea Q este complet densa. Pe de alta parte
214 14.1. Control optimal liniar
matricile ce descriu problema (QP) din (14.3) ce se obt ine cand nu se elimina st arile au o
structur a foarte rara, n particular matricea Hesiana corespunz atoare funct iei obiectiv este
bloc diagonala. Totusi, dimensiunea problemei (QP) din (14.3) este N(n
z
+ n
u
) mult mai
mare dec at dimensiunea Nn
u
a problemei (QP) din (14.4). Desi ambele formul ari sunt
folosite n aplicat ii, n anumite situat ii (e.g. pentru orizont de predict ie N mare sau sistem
dinamic de dimensiune (n
z
, n
u
) mare) se prefer a formularea rara (14.3) datorita avantajelor
pe care acest model de optimizare l ofera n calculele numerice.
14.1.3 Control optimal pentru urmarirea traiectoriei cu un robot
E-Puck
O aplicat ie des ntalnita, simpl a si favorabila pentru testarea algoritimilor de optimizare si
control este robotul E-Puck (vezi Fig. 14.1). Acest sistem robotic reprezinta un ansam-
blu electronic mobil ce suporta implementarea numeric a si experimentarea cu algoritmi de
optimizare de complexitate relativ ridicat a. Mai exact, structura mecanic a a robotulului
E-Puck este sust inut a de dou a motoare pas-cu-pas atasate ambelor rot i, iar cea electronic a
este denita de urmatoarele componente: microcontroler dsPIC30 (16-bit), dispozitiv de
comunicat ie Bluetooth (folosit n simularea sistemelor de tip ret ea), senzori infrarosu, camera
video CMOS (rez. 640 480), senzor ultrasunete, accelerometru 3D, etc.
Un exemplu de test simplu si ecient al unei metode de optimizare cunoscute este problema
Rendez-Vous: pentru o repartizare init iala a unui colectiv de robot i pe o suprafat a plana,
sa se determine traiectoria optima a ecarui robot pana la un punct comun de ntalnire.
Aceasta problem a se formuleaz a usor n termeni de optimizare, si poate denit a ca un
suport de test pentru diferit i algoritmi numerici de optimizare. Chiar si pentru cele mai
Figura 14.1: Robot e-Puck.
simple probleme ce implica sisteme multi-robot, modelul matematic al unui sistem robotic
este crucial n proiectarea de algoritmi numerici.

In aceasta sect iune consider am un model simplicat al robotului E-Puck si anume, cel
restrict ionat doar la deplasarea nainte (far a a considera posibilitatea de deplasare napoi).
215 Capitol 14. Studii de caz din inginerie
Modelul dinamic simplicat este liniar, continuu si este denit de urmatoarele ecuat ii:
y =
ru
1
2
+
ru
2
2

=
ru
1
2l

ru
2
2l
,
unde y reprezinta distant a parcursa n direct ia nainte, unghiul de viraj, r raza rot ilor,
l distant a de la roata la centrul de greutate al robotului, iar u
1
si u
2
reprezinta viteza
unghiular a a primei rot i si respectiv, a celei de-a doua rot i. Pentru a respecta consistent a
notat iilor, not am starea sistemului cu z =
_
y

_
si intrarea cu u =
_
u
1
u
2
_
. Mai departe,
rescrierea modelului de mai sus va avea urmatoarea forma:
z =

A
z
z +

B
u
u,
unde

A
z
= 0 R
22
si

B
u
=
_
r
2
r
2
r
2l

r
2l
_
. Pentru a putea sa efectu am experimente numerice,
avem nevoie de discretizarea sistemului liniar continuu de mai sus. Una dintre metodele
cele mai vechi si mai simple este metoda Euler de discretizare, ce presupune aproximarea
derivatei unei funct ii diferent iabile f(t) cu urmatoarea expresie:
df
dt
(t)
f(t + t) f(t)
t
,
unde intervalul t se determina n funct ie de viteza de evolut ie a procesului. Obt inem
aproximarea discret a a modelului pentru robot dat a de urmatoarea relat ie de recurent a:
z
t+1
=
_
I
2
t

A
z
_
z
t
+ t

B
u
u
t
,
unde I
2
este matricea identitate de ordin 2. Aleg and t = 0.5 secunde, obt inem sistemul
dinamic si matricile sistemului de forma:
z
t+1
= A
z
z
t
+ B
u
u
u
, unde A
z
= I
2

1
2

A
z
, B
u
=
1
2

B
u
.
Un exemplu simplu de problem a de control optimal poate denit de urmarirea unei traiec-
torii sinusoidale pe o suprafa

ta plana de catre robotul E-Puck.



In acest caz, denim traiecto-
ria discret a z
ref
t
= (y
ref
t
,
ref
t
)
T
ce se doreste a urmarit a. Caracteristica discret a a referint ei
impune esantionarea funct iei sinus continue cu o anumita perioada T (n simul ari am consid-
erat T = 0.1). Acuratet ea cu care robotul urmareste o curba sinusoidala variaz an funct ie de
perioada de esantionare a funct iei sinus, orizontul de predict ie considerat si de constr angerile
aplicate problemei de control optimal.

In cel mai simplu caz, consider am ca robotul pleac a din origine si dorim urmarirea unui sir
de puncte (x
t
, sin x
t
), unde x
t+1
x
t
= T.

In acest caz, nu putem considera ca referint a
este denita de sirul propriu-zis de puncte deoarece m arimile x
t
si sin x
t
difer a de m arimile
st arii sistemului date de distant a parcursa y
ref
t
si unghiul de orientare
ref
t
. Pentru a realiza
conversia m arimilor facem urmatoarele observat ii:
216 14.1. Control optimal liniar
observam ca orice punct de pe gracul funct iei sin x se aa la un unghi = arctancos x
fat a de orizontala.
distant a dintre doua puncte din sirul denit anterior este dat a de
y =
_
(x
t+1
x
t
)
2
+ (sin x
t+1
sin x
t
)
2
.

In concluzie, putem realiza conversia sirului (x


t
, sin x
t
) si obt inem referint a:
z
ref
t
= (y
ref
t
,
ref
t
) =
_
_
(x
t+1
x
t
)
2
+ (sin x
t+1
sin x
t
)
2
, arctan cos x
t
_
, u
ref
t
= 0.
Aleg and orizontul de predict ie N = 2, problema de control optimal ce rezulta din urmarirea
traiectoriei sinusoidale, se poate enunt a astfel:
min
zt,ut
1
2
_
(z
1
z
ref
1
)
T
Q
1
(z
1
z
ref
1
) + (z
2
z
ref
2
)
T
Q
2
(z
2
z
ref
2
)

+
1
2
_
u
T
0
R
0
u
0
+ u
T
1
R
1
u
1
_
s.l.: z
0
= z, z
1
= A
z
z
0
+ B
u
u
0
, z
2
= A
z
z
1
+ B
u
u
1
,
u
min
u
0
u
max
, u
min
u
1
u
max
,
unde consider am Q
1
= Q
2
= I
2
si R
0
= R
1
= 0.1I
2
. Mai mult consider am r = 2 cm,
l = 1 cm, u
max
= [20 20]
T
si u
min
= [2 2]
T
. Aplicam metoda de punct interior
pentru rezolvarea acestei probleme (QP). Folosim de asemenea procedura de control bazata
pe orizontul alunecator (i.e. la ecare pas se m asoara/estimeaza starea sistemului si se
rezolv a problema de control optimal cu orizont nit de mai sus; se obt ine o secvent a de
N intr ari optimale dar se aplica doar primele N
c
N intr ari din aceast a secvent a, dup a
care procedura se repet a). Metoda de control bazata pe principiul orizontului alunec ator se
numeste control predictiv (MPC - Model Predictive Control). Rescriem compact problema
de control optimal pentru starea init iala z
0
= z sub forma:
min
xR
8
1
2
x
T
Qx + q
T
x (14.5)
s.l.: Ax = b, Cx d,
unde matricile si vectorii corespunz atori problemei sunt date de:
x =
_

_
u
0
z
1
u
1
z
2
_

_
, Q =
_

_
R
0
0 0 0
0 Q
1
0 0
0 0 R
1
0
0 0 0 Q
2
_

_
, A =
_
B
u
I
2
0 0
0 A
z
B
u
I
2
_
,
q =
_

_
0
Q
1
z
ref
1
0
Q
2
z
ref
2
_

_
b =
_
A
z
z
0
0
_
, C =
_

_
I
2
0 0 0
I
2
0 0 0
0 0 I
2
0
0 0 I
2
0
_

_
, d =
_

_
u
max
u
min
u
max
u
min
_

_
.
217 Capitol 14. Studii de caz din inginerie
Reamintim ca primul pas din metoda de punct interior pentru o problem a convexa presupune
transformarea echivalenta a problemei (14.5) ntr-una far a inegalitat i:
min
x
1
2
x
T
Qx
8

i=1
log(d
i
C
i
x) (14.6)
s.l.: Ax = b,
unde C
i
reprezinta linia i a matricei C. Apoi, aplicam algoritmul propriu-zis:
1. Se dau un punct init ial x strict fezabil, > 0, < 1, tolerant a > 0 si parametrul m
numarul de inegalitat i.
2. C at timp m repet a:
(i) Calculeaza x() ca solut ie a problemei (14.6) pornind din x.
(ii) Actualizeaza x = x() si = .
0 20 40 60 80 100
1.5
1
0.5
0
0.5
1
1.5
t
T
r
a
i
e
c
t
o
r
i
e


Pozitia z
Referinta
0 20 40 60 80 100
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
t
I
n
t
r
a
r
i

o
p
t
i
m
e

(
u
1
,

u
2
)


viteza unghiulara 1
viteza unghiulara 2
Figura 14.2: Traiectoria robotului folosind control optimal cu orizont alunec ator: evolut ia
st arilor sistemului (stanga) si intr arilor optimale (dreapta).
Rezultatele obt inute pe baza strategiei de control predicitiv, unde la ecare pas problema
de control optimal se rezolva cu metoda de punct interior pentru probleme convexe, sunt
prezentate n Fig. 14.2. Se observa o urmarire bun a a traiectoriei impuse robotului.

In cea
de-a doua gura reprezentam traiectoria optima a intr arilor peste orizontul de simulare.
14.1.4 Control optimal pentru pendulul invers
Consideram problem de control optimal al aducerii pendulului invers n pozit ie vertical a si
ment inerea lui n aceasta stare. Pendulul invers este compus dintr-un carucior de masa M
218 14.1. Control optimal liniar
care aluneca unidimensional de-a lungul axei Ox pe o suprafat a orizontala, si un pendul for-
mat dintr-o bila de masa m aata la cap atul unei tije de lungime l considerata imponderabil a
(vezi Fig. 14.3). Vectorul de stare al sistemului este z R
4
, unde z
1
= este unghiul f acut de
tija cu verticala, z
2
=

este viteza unghiular a, z
3
reprezinta pozit ia pendului (c aruciorului)
pe axa Ox, iar z
4
este viteza sa.
Figura 14.3: Pendulul invers.
Dinamica liniar a discret a a sistemului este exprimat a prin z
t+1
= A
z
z
t
+ B
u
u
t
, unde u
t
R
este intrarea sistemului, reprezentand o corect ie de deplasare orizontala aplicat a caruciorului.
Matricele dinamicilor n acest caz sunt:
A
z
=
_

_
1.0259 0.504 0 0
1.0389 1.0259 0 0
0.0006 0 1 0.05
0.0247 0.0006 0 1
_

_
si B
u
=
_

_
0.0013
0.0504
0.0006
0.025
_

_
.
La pendulul invers obiectivul de control este sa ment inem tija sucient de aproape de verti-
cala, anume sa ment inem starea z
1
= ntr-un interval admisibil centrat n 0

, adica
min

z
1

max
, ce reprezinta constrangeri pe stare ale sistemului, unde
max
=
min
= 10

.
Astfel, formul am problema de control optimal pe un orizont nit N, cu scopul ment inerii
tijei n pozit ie verticala (n acest caz z
ref
t
= 0 si u
ref
t
= 0 pentru orice t 0):
min
zt,ut
N

k=1
1
2
z
T
t
Q
0
z
t
+
N1

t=0
1
2
R
0
u
2
t
(14.7)
s.l.: z
0
= z, z
t+1
= A
z
z
t
+ B
u
u
t

min
(z
t
)
1

max
t = 0, . . . , N 1,
unde z este starea init iala a pendulului iar matricele din costurile de etapa sunt:
Q
0
=
_

_
1 0 0 0
0 0.01 0 0
0 0 1 0
0 0 0 0.01
_

_
si R
0
= 10.
Dupa cum am ar atat aceasta problem a (14.7) se formuleaz a ca o problem a (QP) convexa.
Consideram formularea (QP) rara far a eliminarea st arilor din (14.3) si rezolv am cu algo-
ritmul de punct interior. Observam ca nu avem constrangeri pe intrare. Considerand ca
219 Capitol 14. Studii de caz din inginerie
z R
4
, constrangerea ca prima componenta a vectorului de stare z
t
se aa n intervalul
corespunz ator, anume
min
(z
t
)
1

max
poate rescrisa matriceal sub forma
C
z
z
t
d
z
, unde C
z
=
_
1 0 0 0
1 0 0 0
_
si d
z
=
_

max

min
_
.
Pentru ntreg orizontul de predict ie vom avea Cx d unde C si d vor de forma:
C =
_

_
0 C
z
0 0 . . . 0
0 0 0 C
z
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 0 . . . C
z
_

_
, d =
_

_
d
z
d
z
.
.
.
d
z
_

_
Deoarece referint a este 0, atunci funct ia obiectiv a problemei (QP) va de forma f(x) =
x
T
Qx, adica n acest caz q = 0, unde Q este bloc diagonala, formata din matricele ce denesc
costurile pe etapa pentru stare si intrare:
Q = diag(R
0
, Q
0
, . . . , R
0
, Q
0
).
Problema QP nala va de forma:
min
x
1
2
x
T
Qx
s.l.: Ax = b, Cx d.
0 5 10 15 20 25
0.25
0.2
0.15
0.1
0.05
0
0.05
0.1
0.15
0.2
0.25
u
n
g
h
i
u
l
(

)
t
Figura 14.4: Traiectoria unghiului pentru un orizont de predict ie N = 25.
Problema este rezolvat a prin metoda de punct interior pentru probleme convexe si traiectoria
unghiului (z
t
)
1
=
t
pentru t = 0, 1, . . . , N, unde N = 25, este prezentat a in Fig. 14.4. Se
observa ca la pasul t = 2 constrangerea pe unghi este activa si dupa pasul t = 15 unghiul
format de tija cu axa verticala devine = 0.

In concluzie, strategia de control optimal
este capabila sa stabilizeze pendulul si n acelasi timp sa satisfac a constr angerile impuse
pendulului.
220 14.2. Control optimal neliniar
14.2 Control optimal neliniar
Consideram un sistem dinamic discret cu dinamici neliniare:
z
t+1
= (z
t
, u
t
) (14.8)
unde u
t
R
nu
este intrarea si z
t
R
nz
starea sistemului la pasul t, iar : R
nz
R
nz
. Pentru
simplitate nu presupunem constrangeri pe stare si intrare, desi astfel de constr angeri pot
incorporate usor n problema de control optimal ntr-o maniera similar a cu cea prezentat a la
cazul sistemelor liniare. Problema de control optimal neliniar peste un orizont de predict ie
N se deneste asfel:
min z
t
, u
t
N

t=1

z
t
(z
t
) +
N1

t=0

u
t
(u
t
) (14.9)
s.l.: z
0
= z, z
t+1
(z
t
, u
t
) = 0 t = 0, . . . , N 1, (14.10)
unde
z
t
: R
nz
R si
u
t
: R
nu
R sunt costurile pe etapa t pentru st ari si intr ari.
14.2.1 Formularea (NLP) rara si densa
Ca si n cazul liniar n formularea rara far a eliminarea st arilor denim variabila de decizie:
x =
_
u
T
0
z
T
1
u
T
1
z
T
2
. . . u
T
N1
z
T
N

T
R
N(nz+nu)
.
Problema de control optimal neliniar se poate aduce la o problem a de optimizare neconvexa
de forma:
min
xR
N(nz+nu)
f(x) (14.11)
s.l: h(x) = 0,
unde funct ia obiectiv este f(x) =

N
t=1

z
t
(z
t
) +

N1
t=0

u
t
(u
t
), iar funct ia h : R
N(nz+nu)

R
Nnz
ce descrie constrangerile de egalitate este dat a de expresia:
h(x) =
_

_
z
1
(z
0
, u
0
)
z
2
(z
1
, u
1
)
.
.
.
z
N
(z
N1
, u
N1
)
_

_
.
Funct ia Lagrange pentru multiplicatorii = [
T
1
. . .
T
N
]
T
are forma:
/(x, ) = f(x) +
T
h(x)
=
N

t=1

z
t
(z
t
) +
N1

t=0

u
t
(u
t
) +
N1

t=0

T
t+1
(z
t+1
(z
t
, u
t
)).
221 Capitol 14. Studii de caz din inginerie
Condit iile KKT ale problemei sunt:

x
/(x, ) = 0, h(x) = 0.
Mai detaliat, derivata lui / n funct ie de z
t
sau u
t
are o structur a speciala. De exemplu,
pentru t = 1, . . . , N 1 obt inem urmatoarele expresii:

zt
/(x, ) =
z
t
(z
t
) +
t


z
t
(z
t
, u
t
)
T

t+1
= 0

ut
/(x, ) =
u
t
(u
t
)

u
t
(z
t
, u
t
)
T

t+1
= 0.
Sistemul Lagrange poate rezolvat cu metodele prezentate n capitolele anterioare, e.g.
metoda Lagrange-Newton.

In aceasta metoda iterat ia are forma:
x
k+1
= x
k
+ d
k
,
k+1
=
QP
k
unde direct ia d
k
este solut ia optima a problemei (QP) din (14.12) cu multiplicatorul Lagrange
optim asociat constrangerilor
QP
k
:
min
d
f(x
k
)
T
d +
1
2
d
T
B
k
d (14.12)
s.l.: h(x
k
) +h(x
k
)d = 0,
unde B
k
=
2
x
/(x
k
,
k
). Aceasta problem a patratic a (14.12) are o structur a rar a unde
matricea B
k
este bloc diagonala iar matricea ce deneste egalitat ile (Jacobianul h(x
k
))
este tridiagonal a (i.e. structura acestei probleme (QP) din (14.12) este similar a cu problema
(QP) rar a (14.3) corespunz atoare cazului liniar).
Alta abordare ar sa eliminam st arile ntr-o manier a similar a cazului liniar.

In acest caz
obt inem o problem a de optimizare far a constrangeri. Idea de baz a const a n a pastra doar z
0
si a deni variabila de decizie x = [u
T
0
, . . . , u
T
N1
]
T
R
Nnu
. St arile z
1
, . . . , z
N
sunt eliminate
n mod recursiv prin relat iile:

0
(z
0
, x) = z

t+1
(z
0
, x) = (
t
(z
0
, x), u
t
).

In acest caz, problema de control optimal este echivalenta cu o problem a f ar a constr angeri
si cu mai put ine variabile:
min
x R
Nnu
N

t=1

z
t
(
t
(z
0
, x)) +
N1

t=0

u
t
(u
t
).
Aceasta problem a este numita problema de control optimal redus a. Poate rezolvat a ecient
prin metode de tip gradient sau Newton pentru cazul neconstr ans prezentaten partea a doua
a cart ii.
222 14.2. Control optimal neliniar
14.2.2 Control optimal aplicat unei instalat ii cu 4 rezervoare

In aceasta subsect iune, consider am o instalat ie cu 4 rezervoare interconectate prezentat a


n Fig. 14.5, dispusa cu 2 pompe de propulsie a apei. Modelul matematic corespunz ator
instalat iei este neliniar, dat de urmatoarele ecuat ii diferent iale:
dh
1
dt
=
a
1
S
_
2gh
1
+
a
4
S
_
2gh
4
+

a
S
q
a
,
dh
2
dt
=
a
2
S
_
2gh
2
+
a
3
S
_
2gh
3
+

b
S
q
b
,
dh
3
dt
=
a
3
S
_
2gh
3
+
(1
a
)
S
q
a
,
dh
4
dt
=
a
4
S
_
2gh
4
+
(1
b
)
S
q
b
,
unde funct iile h
1
, h
2
, h
3
, h
4
reprezinta dinamicile nivelelor lichidului n rezervoare, cu rolul
de st ari ale sistemului, iar q
a
, q
b
reprezinta debitele de intrare, cu rolul de comenzi (intr ari).
Pentru consistent a cu sect iunea anterioar a, vom renota nivelul h
i
cu z
i
pentru i = 1, . . . , 4,
iar debitele (q
a
, q
b
) cu (u
1
, u
2
).
Figura 14.5: Structura instalat iei cu 4 rezervoare.
Pentru discretizare, utiliz am metoda Euler pentru care putem alege perioada de esantionare
t = 5 sec, deoarece procesul este unul lent. Pentru o prezentare simplicata, scriem
compact sistemul neliniar discret de mai sus prin intermediul urmatoarelor notat ii: z
t+1
=
(z
t
) + B
u
u
t
, unde
: R
4
R
4
, (z) =
_

_
z
1

5a
1
S

2gz
1
+
5a
4
S

2gz
4
z
2

5a
2
S

2gz
2
+
5a
3
S

2gz
3
z
3

5a
3
S

2gz
3
z
4

5a
4
S

2gz
4
_

_
B
u
=
_

_
5a
S
0
0
5
b
S
5(1a)
S
0
0
5(1
b
)
S
_

_
.
223 Capitol 14. Studii de caz din inginerie
Valorile parametrilor din cadrul modelului se pot identica experimental prin diferite tehnici.
Valorile aproximative identicate n laborator sunt prezentate n tabelul 14.1. Formul am o
Parametrii S a
1
a
2
a
3
a
4

a

b
Valori 0.02 5.8e5 6.2e5 2e5 3.6e5 0.58 0.54
Unitate m
2
m
2
m
2
m
2
m
2
Table 14.1: Parametrii procesului cu 4 rezervoare.
problem a de control optimal pentru modelul neliniar al instalat iei, consider ad un orizont de
predict ie N si referint e pentru intrare si stare date z
ref
t
si u
ref
t
:
min
zt,ut
1
2
N

t=1
|z
t
z
ref
t
|
2
Q
0
+
1
2
N1

t=0
|u
t
u
ref
t
|
2
R
0
s.l.: z
0
= z, z
t+1
= (z
t
) + B
u
u
t
t = 0, . . . , N 1.
Observam ca problema de optimizare neconvexa ce rezulta din problema de control optimal
f ar a eliminarea st arilor are forma:
min
xR
6N
1
2
x
T
Qx + q
T
x (14.13)
s.l.: h(x) = 0,
unde matricea Q si vectorul q este denit n Sect iunea 14.1.1 iar funct ia h este denit a n
Sect iunea 14.2.1. Rezolvam problema neconvexa cu constrangeri de egalitate prin metoda
Newton-Lagrange. Reamintim ca metoda Newton-Lagrange se bazeaz a pe iterat ia Newton
pentru rezolvarea sistemului de ecuat ii:
Qx + q +h(x)
T
= 0, h(x) = 0. (14.14)

In Fig. 14.6 consider am dou a referint e pentru ecare rezervor. Mai exact, consider am
15
20
25
30
35
40
0 500 1500 timp(sec)
n
i
v
e
l
(
c
m
)

h
1
h
1
ref
h
4
h
4
r
ef
10
15
20
25
30
35
40
0 500 1500 timp(sec)
n
i
v
e
l
(
c
m
)

h
2
h
2
ref
h
3
h
3
ref
Figura 14.6: Curba nivelului de apa din cele patru rezervoare.
referint e constanta pentru 500 sec si apoi modicam aceste referint e la alte valori constante
pentru nca 1000 sec. Se observa ca sistemul urmarest e foarte bine aceste referint e prin
strategia de control optimal folosind principiul de orizont alunecator cu N = 5.
224 14.3. Stabilitatea sistemelor dinamice
14.3 Stabilitatea sistemelor dinamice

In aceast a aplicat ie facem conexiuneantre teoria sistemelor cu cea a optimizarii. Consideram


de exemplu clasa de sisteme liniare discrete autonome:
z
t+1
= Az
t
, (14.15)
unde matricea A R
nn
.

In particular, analizam clasa sistemelor liniare pozitive. Pentru a
deni matematic aceasta clas a de sisteme liniare pozitive, introducem mai ntai not iunea de
matrice ne-negativ a: o matrice A R
nn
se numeste ne-negativ a, dac a pentru orice x R
n
ce satisface x 0 avem Ax 0. Pe baza acestei denit ii putem introduce not iunea de
sistem liniar pozitiv: un sistem liniar discret se numeste pozitiv dac a matricea de stare A
din denit ia (14.15) este matrice ne-negativ a.
Sistemele pozitive se regasesc n foarte multe domenii din economie, biologie, probabilistic a,
ret elistica (modele ce includ protocolul TCP), controlul tracului, probleme de sincronizare
si control n ret ele wireless, etc.

In toate asceste aplicat ii starea sistemului este reprezen-
tat a numeric de numere ne-negative, adica traiectoria unui astfel de sistem evolueaz a n
R
n
+
. Analiza stabilitat ii sistemelor pozitive liniare se verica prin calcularea valorilor proprii
extreme corespunz atoare spectrului matricei de stare. Un astfel de sistem este asimptotic
stabil dac a raza spectrala a matricei A este strict mai mic a decat 1. De aceea, n continuare
ne propunem sa calculam valorile proprii ale unei matrici ne-negative.
14.3.1 Calcularea valorilor proprii ale unei matrici
Proprietat ile oric arei matrici patratice sunt denite fundamental de spectrul acesteia (setul de
valori proprii). Complexitatea calcularii spectrului reprezinta subiectul central de studiu n
domeniul algebrei liniare. Majoritatea algoritmilor ce trateaza problema calcularii spectrului
unei matrici patratice sunt metode iterative (e.g. algoritmul QR).

Ins a, n anumite cazuri,
experimentele numerice indica o ecient a numeric a vizibil mai ridicat a a abord arii calcularii
spectrului prin intermediul metodelor de optimizare.
O tehnica des folosita pentru calculareantregului spectru a unei matrici simetrice presupune
calcularea valorii proprii maxime, reducerea spectrului prin operat ia de deat ie si apoi,
reiterarea ntregului proces pana la eliminarea tuturor valorilor proprii. Problema calcularii
valorii proprii maxime a unei matrici simetrice A R
nn
, se poate formula prin urmatoarea
problem a neconvexa si neconstr ans a:
max
xR
n
,x=0
x
T
Ax
x
T
x
. (14.16)
Observam ca funct ia obiectiv din cadrul problemei (14.16) este neconvexa, iar punctele
stat ionare (vectorii ce satisfac condit iile de ordinul I) sunt date de vectorii proprii ai matricei
225 Capitol 14. Studii de caz din inginerie
A. Presupun and ca matricea A are n vectori proprii distinct i, orice metoda de ordin I sau II
prezentat a n aceasta carte va converge la unul dintre acesti vectori proprii. Din acest motiv,
apar dicult ati n a garanta ca metoda aleas a de noi converge la vectorul propriu maximal al
matricei A.

Ins a, se pot observa propriet at i except ionale ale matricilor ne-negativen legatura
cu vectorul propriu maximal. Din teorema Perron-Frobenius se poate deduce usor ca vectorul
propriu maximal al unei matrici ne-negative ireductibile este singurul din setul de vectori
proprii ce are componente ne-negative.

In concluzie, dac a adaugam un set de constr angeri
x 0 problemei (14.16), putem garanta ca metodele de ordinul I sau II prezentate n
aceasta carte pot converge la punctul de maxim global (vectorul propriu maximal). Deoarece
subspat iul invariant denit de vectorii proprii ai unei matrici este liniar, pentru a garanta
o solut ie nita a problemei (14.16) consider am vectorul normalizat si rezolv am urmatoarea
problema de optimizare neconvexa si constrans a:
max
xR
n
x
T
Ax
x
T
x
(14.17)
s.l.: e
T
x = 1, x 0.
Punctul de optim (global) al acestei probleme reprezinta vectorul propriu corespunz ator
valorii proprii maxime a matricei A ne-negativ a si ireductibil a, iar valoarea optima este dat a
de valoarea proprie maxima a matricei A. Pentru un scalar > 0, aplic am mai ntai metoda
de penalitate pentru a muta constrangerile de egalitate n cost si apoi rezolv am problema
corespunz atoare cu metoda gradient proiectat, i.e.:
max
xR
n
x
T
Ax
x
T
x
+ (e
T
x 1)
2
(14.18)
s.l.: x 0.
Diferent a dintre problemele (14.17) si (14.18) este penalizarea constr angerii de egalitate cu
parametrul . Pentru a aplica forma standard a metodei gradient proiectat, aducem modelul
(14.17) la forma unei probleme de minimizare observand urmatoarea echivalent a:
max
xR
n
,x=0
x
T
Ax
x
T
x
= min
xR
n
,x=0
x
T
x
x
T
Ax
.

In concluzie, pentru un > 0 sucient de mare putem considera problema de optimizare:


min
xR
n
F(x, )
_
=
x
T
x
x
T
Ax
+ (e
T
x 1)
2
_
(14.19)
s.l.: x 0.
Deoarece mult imea fezabila a problemei (14.19) este convexa si simpl a, proiect ia pe aceast a
mult ime se poate obt ine analitic. Mai exact, e un vector x R
n
, proiect ia pe mult imea
vectorilor cu elemente ne-negative R
n
+
= x R
n
: x 0 este dat a de:
[x]
(In,R
n
+
)
= [max0, x
1
. . . max0, x
n
]
T
.
226 14.4. Problema Google sau ierarhizarea paginilor web
Aplicam metoda de gradient proiectat pentru rezolvarea problemei neconvexe (14.19) cu pas
constant > 0 pentru anumite valori ale parametrului de penalitate :
x
k+1
= [x
k
F(x
k
, )]
(In,R
n
+
)
.
Rezultatele obt inute sunt prezentate in Fig. 14.7. Se observa o rata de convergent a relativ
rapid a (liniara) a valorilor funct iei f(x
k
) catre valoarea optima f

indiferent de valoarea
parametrului de penalitate . Din simul ari observam ca nu trebuie sa lu am valori foarte
mari pentru parametrul de penalitate .
0 0.5 1 1.5 2 2.5 3 3.5 4
x 10
4
0
5
10
15
20
25
30
35
40
45
50
Iteratii
E
r
o
a
r
e

f
(
x
k
)


f
*


=1
=5
=10
=50
=150
Figura 14.7: Convergent a metodei gradient proiectat pentru diferite valori ale parametrului
de penalitate pe o problema de dimensiune n = 10
3
.
14.4 Problema Google sau ierarhizarea paginilor web
Internetul este dominat progresiv de motoare de cautare, n sprijinul select iei si gasirii surselor
de informat ii cu relevant a maxima. Unul dintre cele mai vechi si eciente motoare de cautare
este Google, care se aa n continua dezvoltare pe masura ce progresele n domeniul algorit-
milor avanseaz a. Tehnica folosita de Google pentru cautarea si clasicarea paginilor web, se
numeste PageRank, iar pasul central din aceasta tehnica presupune clasicarea (ranking-ul)
unui num ar urias de pagini web.

In acest fel, rezulta o lista ordonat a de site-uri n sensul
descresc ator al relevant ei n legatura cu subiectul cautat.
Datorita conexiunilor permanente dintre paginile web n ret eaua internet-ului, putem sa
reprezentam structura legaturilor dintre pagini prin intermediul unui graf ponderat orien-
tat. Nodurile grafului reprezinta paginile, iar muchiile au rolul link-urilor. Ponderea p
ij
(corespunzatoare muchiei dintre nodurile i si j) reprezinta probabilitatea ca la o navigarea
aleatoare n reteaua de pagini sa se ajung a din pagina i n pagina j.

In plus, putem atribui
grafului o matrice de adiacent a E R
nn
, cu componenta E
ij
,= 0 dac a ntre nodurile i si
227 Capitol 14. Studii de caz din inginerie
j exist a muchie, iar E
ij
,= 0 dac a nodurile i si j nu sunt legate de o muchie. Numarul de
muchii din graf se reecta n numarul de elemente nenule ale matricei E; de aceea, pentru
un graf rar (cu put ine muchii), matricea de adiacent a va rara (va cont ine preponderent
zerouri).
Figura 14.8: Exemplu de graf orientat.
Pentru a analiza mai ndeaproape propriet at ile matricei de adiacent a rezultat a din graful
paginilor web, introducem urmatoarele not iuni:
Denit ia 14.4.1 O matrice E R
mn
se numeste stochastica pe linii daca are elemente
nenegative (i.e. E
ij
0), iar suma pe ecare linie este egala cu 1. O matrice E R
mn
se numeste stochastica pe coloane daca are elemente nenegative (i.e. E
ij
0), iar suma pe
ecare coloana este egala cu 1.
Deoarece componentele nenule ale matricei de adiacent a E au rolul de probabilit at i, acestea
sunt nenegative, iar matricea E este stochastica pe coloane. Forma algebric a a problemei
Google se reduce la a gasi vectorul propriu corespunz ator valorii proprii maxime 1, adica
solut ia urmatorului sistem liniar supus la constrangeri:
_
Ex = x
e
T
x = 1, x 0.
Problema gasirii solut iei sistemului de mai sus se poate formula usor n termeni de optimizare:
min
xR
n
f(x)
_
=
1
2
|Ex x|
2
_
(14.20)
s.l.: e
T
x = 1, x 0,
unde e = [1 . . . 1]
T
, matricea E R
nn
este rara (elementele au valori preponderent nule).
Observam ca problema rezultata este constrans a, nsa dac a alegem un parametru > 0
sucient de mare, putem obt ine o formulare echivalenta far a constrangeri folosind funct ia de
penalitate patratic a:
min
xR
n
F(x, )
_
=
1
2
|Ex x|
2
+

2
(e
T
x 1)
2
_
. (14.21)
228 14.5.

Inv at are automata si clasicare
Pe baza teoremei Peron-Frobenius, observam ca putem elimina constr angerile de inegalitate
x 0, deoarece solut ia optima globala a problemei de optimizare (14.21) satisface automat
aceast a constrangere. Datorita dimensiunilor foarte mari ale ambelor probleme considerate
(14.20) si (14.21), ne orientam atent ia catre algoritmi de ordinul I deoarece au o complexitate
scazuta per iterat ie:
metoda de gradient proiectat pentru cazul constrans (14.20)
x
k+1
= [x
k
f(x
k
)]
(In,n)
metoda gradient pentru cazul neconstr ans (14.21)
x
k+1
= x
k
F(x
k
, )
unde
n
=x : e
T
x = 1, x 0 este mult imea numita simplex si > 0 este un pas constant.
Rezultatele obt inute sunt prezentate n Fig. 14.9. Se observa o convergent a rapid a n ambele
metode. De asemenea, observam ca metoda de penalitate produce o solut ie optima pentru
problema originala pentru valori relativ mici ale parametrului de penalitate .
0 5 10 15 20 25
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Iteratii (k)
f
(
x
k
)


f
*
0 0.5 1 1.5 2 2.5 3 3.5 4
x 10
4
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Iteratii (k)
f
(
x
k
)


f
*
0 1 2 3 4 5
x 10
4
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Iteratii (k)
f
(
x
k
)


f
*


=5
=10
=15
=30
=50
(a) (b) (c)
Figura 14.9: (a) Curba de convergent a a metodei de gradient proiectat aplicat a unei probleme
Google cu dimensiunea n = 10
2
; (b) curba de convergenta a metodei de gradient pentru
problema Google cu n = 10
3
, = 50; (c) dependenta convergent ei metodei gradient de
parametrul aplicat a problemei Google pe n = 10
3
.
14.5

Invat are automata si clasicare
Tehnicile de nvat are automata si clasicare sunt not iuni centrale n domeniul statisticii,
calculatoarelor, prelucr arii semnalelor, etc. Ambele se ocup a n mod fundamental cu prob-
lema recunoasterii tiparelor (pattern recognition) prin dezvoltarea de modele matematice ce
229 Capitol 14. Studii de caz din inginerie
suport a o etapa preliminara de antrenare (experient a), pe baza careia realizeaz a operat ii de
clasicare/regresie de obiecte si funct ii.
O parte din numeroasele aplicat ii ale acestor tehnici cuprinde:
1. recunoasterea email-urilor de tip spam sau malware
2. recunosterea vocii/fet ei
3. compresia cantitat ilor uriase de date
4. detect ia de tipare n cadrul unei imagini
5. recunoasterea scrisului de m ana
Figura 14.10: Hiperplan de separare a doua clase de obiecte.
Una dintre cele mai renumite tehnici de recunoastere/clasicare este SVM - Support Vector
Machine. Aceasta tehnica presupune determinarea unui model matematic ce separ a dou a sau
mai multe clase de obiecte cu o anumita acuratet e.

In vederea clasic arii sau recunoasterii
unui obiect necunoscut, se introduc datele obiectului n modelul matematic, iar la iesire se
primeste id-ul clasei din care face parte.

In cele mai simple cazuri, modelul matematic cautat
este reprezentat de un hiperplan H = y R
n
: a
T
y = b caracterizat de parametrii a R
n
si b R. De aceea, problema se reduce la a gasi parametrii optimi (a, b) care sa separe cat
mai bine clasele de obiecte.
Fie setul de puncte recunoscute a priori y
i
cu i = 1, . . . , m, reprezentate n Fig. 14.10 de
puncte av and dou a culori diferite. Termenul recunoscute denota ca pentru ecare punct y
i
cunoastem clasa din care face parte. Dac a lu am ca exemplu Fig. 14.10 putem argumenta
ca se cunoaste un parametru auxiliar c
i
cu valoarea +1 dac a obiectul y
i
este e.g. de culoare
rosie, iar c
i
= 1 dac a obiectul este de culoare albastra. Dac a datele de antrenare sunt
liniar separabile, atunci putem selecta doua hiperplane n asa fel ncat ele separ a datele, nu
cont in puncte ntre ele si maximizeaza dinstant a ntre cele dou a hiperplane. Aceste dou a
hiperplane pot descrise de ecuat iile: a
T
y b = 1 si a
T
y b = 1. Regiunea dintre aceste
dou a hiperplane se numeste margine si este descris a de expresia 2/|a|.
230 14.5.

Inv at are automata si clasicare

In termenii teoriei optimizarii, problema se formuleaz a dup a cum urmeaza:


min
aR
n
,bR
1
2
|a|
2
(14.22)
s.l.: c
i
_
a
T
y
i
b
_
1 i = 1, . . . , m,
unde a si b reprezinta parametrii hiperplanului, iar c
i
indica clasa din care face parte obiectul
y
i
. Variabilele de decizie x = [a
T
b]
T
reprezinta parametrii unui hiperplan de separare
a claselor de obiecte/imagini asa cum se observa n Fig. 14.10. Problema de optimizare
convexa patratic a av and numai constrangeri de inegalitate (14.22) o rezolv am prin metoda
de punct interior aplicat a problemelor convexe (CP), metoda descris a n capitolul anterior.
(a)
(b)
Figura 14.11: Mult imea de antrenare a modelului matematic de separare: (a) imagini ce fac
parte din clasa I; (b) imagini ce fac parte din clasa II.

In continuare, exemplicam o aplicat ie practic a a tehnicii SVM prin problema recunoasterii


cifrei 7 dintr-o imagine. Se cunoaste ca orice imagine poate reprezentat a sub forma unei
serii de pixeli, unde ecare pixel la randul sau este denit de o valoare (e.g. ntre 0256) dat a
de culoarea acestuia. Pentru a simplica exemplul, consider am imagini mono-colore compuse
din 49 de pixeli, n care pixelii sunt reprezentat i de nivele de gri cu valori intre 05 (vezi Fig.
14.11).

In etapa de init ializare a tehnicii SVM se xeaza o mult ime de antrenare compusa din
diferite imagini ce cont in variante ale cifrei 7 (ce fac parte din clasa I de obiecte) si imagini
aleatoare complet diferite de cifra 7 (ce fac parte din clasa II de obiecte). Deoarece, aceast a
etapa se mai numeste si antrenare, se cunoaste pentru ecare imagine clasa din care face
231 Capitol 14. Studii de caz din inginerie
parte. Fiec arei imagini i i se asociaz a un vector de 49 de componente (ecare componenta
lu and valori ntregi ntre 0 si 5) si un parametru c ce reprezinta ndexul clasei din care face
parte imaginea respectiv a (daca c = 1 atunci imaginea cont ine cifra 7, dac a c = 1 atunci
imaginea este aleatoare). Pe baza acestei mult imi de antrenare, urmarim realizarea unui
hiperplan de separare a acestor dou a clase.
Dorim sa rezolv am problema SVM (14.22) n contextul prezentat mai sus si de aseme-
nea sa test am ecient a solut iei (hiperplanului) obt inut prin evaluarea ratei de succes n
recunoasterea cifrei 7. Pentru aceasta alegem un set de imagini ale cifrei 7 (vezi Fig. 14.11
(a)) si un set de imagini aleatoare (vezi Fig. 14.11 (b)) ce reprezinta mult imea de antrenare
a hiperplanului de separare.
Figura 14.12: Exemple de imagini de test aleatoare, ce cont in cifra 7 sau cu densitate ridicat a
de pixeli gri.
Transform am aceste imagini din Fig. 14.11 n vectori de pixeli dupa cum am descris mai
sus, apoi acestia vor introdusi ntr-o funct ie Matlab si folosit i n rezolvarea problemei
(14.22).

In nal, pentru a testa solut ia gasit a x

= [(a

)
T
b

]
T
din rezolvarea problemei
convexe patratice (14.22), calculam pentru anumite puncte de test (imagini de test date in
Fig. 14.12) valoarea hiperplanului:
a
T
y b
_
< 0, atunci imaginea dat a de y nu cont ine cifra 7
0, atunci imaginea dat a de y cont ine cifra 7.
232 14.5.

Inv at are automata si clasicare
Putem trage urmatoarele concluzii:
dac a test am hiperplanul cu diferite imagini aleatoare cu densitate mare de pixeli
gri (vezi Fig. 14.12) si respectiv, imagini cu cifra 7 transformat a n diverse mod-
uri (translat ie la st anga/dreapta, nclinare, etc.) atunci rezulta o rat a de succes (re-
cunoastere corecta) de aproximativ 80%.
dac a pentru testare consider am imagini aleatoare cu densitate mic a (vezi Fig. 14.11
(b)) si respectiv, imagini cu cifra 7 transformat a n diverse moduri (translat ie la
st anga/dreapta, inclinare, din Fig. 14.12), atunci rezulta o rat a de succes de aproxi-
mativ 52%.
Motivat ia ratei mici de succes n cel de-al doilea caz este dat a de doi factori: (i) similaritatea
ridicat a ntre imaginile cu densitate mic a de pixeli si cele ce cont in cifra 7; (ii) num arul
relativ mic de imagini de antrenare, n cazul nostru 20 de imagini test. Evident, cu cat
mult imea de antrenare cont ine mai multe date (imagini) cu at at hiperplanul rezultat este
mai ecient n recunoasterea noilor obiecte.
Apendix A
Not iuni de algebra liniara si analiza
matematica

In acest capitol reamintim pe scurt not iunile de baz a din algebra liniar a si analiza matematica
ce se vor utilizate n aceasta carte. Pentru mai multe detalii si demonstrat ii ale rezultatelor
prezentaten acest capitol, se poate consulta cart ile [3, 12, 16] pentru algebra liniar a si [10, 15]
pentru analiza matematica.
A.1 Not iuni de analiza matriceala

In cadrul acestui curs xam simpla convent ie de a considera vectorii x R


n
vectori coloan a,
i.e. x = [x
1
x
n
]
T
R
n
.

In spat iul Euclidian R
n
produsul scalar este denit dup a cum
urmeaza:
x, y = x
T
y =
n

i=1
x
i
y
i
.
Unde nu se specica, norma considerata pe spat iul Euclidian R
n
este norma Euclidian a
standard (i.e. norma indus a de acest produs scalar):
|x| =
_
x, x =

_
n

i=1
x
2
i
.
Alte norme vectoriale des ntalnite sunt:
233
234 A.1. Not iuni de analiza matriceal a
|x|
1
=
n

i=1
[x
i
[ si |x|

= max
i=1,...,n
[x
i
[.
Unghiul [0, ] dintre doi vectori nenuli x si y din R
n
este denit de:
cos =
x, y
|x| |y|
.
Orice norm a | | n R
n
are o norma duala corespunz atoare | |

denit a de:
|y|

= max
xR
n
:x=1
x, y y R
n
.
Se poate ar ata ca |x|

= |x|

1
si |x|
1
= |x|

pentru orice vector x R


n
.
O relat ie fundamentala ce se foloseste intens n acest curs este inegalitatea Cauchy-Schwarz
denit a de urmatoarea relat ie ntre produsul scalar dintre doi vectori si normele duale core-
spunzatoare:
[x, y[ |x| |y|

x, y R
n
,
egalitatea av and loc dac a si numai dac a vectorii x si y sunt vectori liniar dependent i. Ob-
servam ca aceasta inegalitate este o consecint a imediata a denit iei normei duale.
Spat iul matricilor de dimensiune (m, n) este notat cu R
mn
. Urma unei matrici patratice
Q = [Q
ij
]
ij
R
nn
este denita de relat ia:
Tr(Q) =
n

i=1
Q
ii
.

In spat iu matricilor de dimensiune (m, n) denim produsul scalar folosind not iunea de urma:
Q, P = Tr(Q
T
P) = Tr(QP
T
) Q, P R
mn
.
Din propriet at ile produsului scalar rezulta:
Tr(QPR) = Tr(RQP) = Tr(PRQ),
oricare ar matricile Q, P si R de dimensiuni compatibile.

In consecint a, pentru matricile
patratice Q R
nn
avem de asemenea relat ia:
x
T
Qx = Tr(Qxx
T
) x R
n
.
Pentru o matrice patratic a Q R
nn
, un scalar C si un vector nenul x ce satisfac
ecuat ia Qx = x se numesc valoare proprie si respectiv, vector propriu al matricii Q. O
relat ie echivalenta ce descrie perechea valoare-vector propriu este dat a de:
(I
n
Q)x = 0, x ,= 0,
235 Apendix A. Not iuni de algebra liniar a si analiza matematica
i.e. matricea I
n
Q este singular a, de aceea,
det(I
n
Q) = 0.

In acest scop, polinomul caracteristic al matricii Q este denit de


p
Q
() = det(I
n
Q).
Evident, mult imea de solut ii ale ecuat iei p
Q
() = 0 coincide cu mult imea de valori proprii ale
lui Q. Mult imea tuturor valorilor proprii corespunz atoare matricii Q este denumit a spectrul
matricii Q si se noteaz a cu (Q) =
1
, ,
n
. Folosind aceasta notat ie avem
p
Q
() = (
1
) (
n
)
si rezulta p
Q
(0) =

n
i=1
(
i
). Din discut ia precedenta se obt ine urmatorul rezultat:
Lema A.1.1 Urmatoarele relat ii au loc pentru orice matrice patratica Q R
nn
:
det(Q) =
n

i=1

i
si Tr(Q) =
n

i=1

i
(Q
k
) =
k
i
si
i
(I
n
+ Q) = +
i
, R si i = 1, , n.
Not am cu S
n
spat iul matricilor simetrice:
S
n
= Q R
nn
: Q = Q
T
.
Pentru o matrice simetrica Q S
n
valorile proprii corespunz atoare sunt reale, i.e. (Q) R.
O matrice simetrica Q S
n
este pozitiv semidenita (notat ie Q _ 0) dac a
x
T
Qx 0 x R
n
si pozitiv denita (notat ie Q 0) dac a
x
T
Qx > 0 x R
n
, x ,= 0.
Precizam ca Q _ P dac a Q P _ 0. Notam mult imea matricilor pozitiv (semi)denite cu
(S
n
+
)S
n
++
. Mai departe, avem urmatoarea caracterizare a unei matrici pozitiv semidenite:
Lema A.1.2 Urmatoarele echivalent e au loc pentru orice matrice simetrica Q S
n
:
(i) Matricea Q este pozitiv semidenita
(ii) Toate valorile proprii ale matricii Q sunt ne-negative (adica
i
0 i = 1, ..., n)
(iii) Tot i minorii principali ai lui Q sunt ne-negativi
(iv) Exista o matrice L astfel ncat Q = L
T
L.
236 A.2. Not iuni de analiza matematica

In continuare, folosim notat ia


min
si
max
pentru cea mai mic a si respectiv, cea mai mare
valoare proprie a unei matrici simetrice Q S
n
. Atunci,

min
= min
xR
n
: x=0
x
T
Qx
x
T
x
= min
xR
n
: x=1
x
T
Qx

max
= max
xR
n
: x=0
x
T
Qx
x
T
x
= max
xR
n
: x=1
x
T
Qx.

In concluzie avem:

min
I
n
_ Q _
max
I
n
.
Putem deni norme matriceale utiliz and norme vectoriale. Fie normele vectoriale | |

pe
R
n
si | |

pe R
m
, atunci putem deni o norm a matriceala indus a pe spat iul matricilor R
mn
prin urmatoarea relat ie:
|Q|
,
= sup
xR
n
: x=0
|Qx|

|x|

= sup
xR
n
: x

=1
|Qx|

Q R
mn
.
Pentru norma vectoriala Euclidian a norma matriceala indus a este dat a de:
|Q| =
_

max
(Q
T
Q)
_
1/2
.
De asemenea, norma Frobenius a unei matrici este denita prin relat ia:
|Q|
F
=
_
m

i=1
n

j=1
Q
2
ij
_
1/2
.
Reamintim de asemenea o formul a pentru inversarea de matrici, numit a formula Sherman-
Morrison-Woodbury: e o matrice A R
nn
inversabil a si dou a matrici U si V n R
np
, cu
p n. Atunci matricea A+UV
T
este inversabil a dac a si numai dac a matricea I
n
+V
T
A
1
U
este inversabil a si n acest caz avem:
(A+ UV
T
)
1
= A
1
A
1
U(I
n
+ V
T
A
1
U)
1
V
T
A
1
.
Un caz particular al acestei formule este urmatorul: pentru doi vectori u, v R
n
(A+ uv
T
)
1
= A
1

1
1 + v
T
A
1
u
A
1
uv
T
A
1
.
A.2 Not iuni de analiza matematica

In cadrul acestui curs ne vom concentra atent ia preponderent asupra conceptelor, relat iilor
si rezultatelor ce implica funct ii al caror codomeniu este inclus n

R = R +. Pentru
237 Apendix A. Not iuni de algebra liniar a si analiza matematica
nceput, o observat ie importanta pentru rigurozitatea rezultatelor ce urmeaza este aceea ca
domeniul efectiv al unei funct ii scalare f se poate extinde (prin echivalent a) la ntreg spat iul
R
n
prin atribuirea valorii +funct iei n toate punctele din afara domeniului sau.

In cele ce
urmeaza consider am ca toate funct iile sunt extinse implicit. O funct ie scalara f : R
n


R
are domeniul efectiv descris de mult imea:
domf = x R
n
: f(x) < +.
Funct ia f se numeste diferent iabila n punctul x domf dac a exist a un vector s R
n
astfel
ncat urmatoarea relat ie are loc:
f(x + y) = f(x) +s, y +1(|y|) y R
n
,
unde lim
y0
R(y)
y
= 0 si 1(0) = 0. Vectorul s se numeste derivata sau gradientul funct iei f
n punctul x si se noteaz a cu f(x). Cu alte cuvinte, funct ia este diferent iabila n x dac a
admite o aproximare liniar a de ordinul I n punctul x. Observam ca gradientul este unic
determinat si este denit de vectorul cu componentele:
f(x) =
_

_
f(x)
x
1

f(x)
xn
_

_
.
Funct ia f se numeste diferent iabila pe mult imea X domf dac a este diferent iabila n toate
punctele din X.
Expresia (n condit iile n care limita de mai jos exist a)
f

(x; d) = lim
t+0
f(x + td) f(x)
t
se numeste derivata direct ionala a funct iei f n punctul x domf de-a lungul direct iei d
R
n
. Precizam ca derivata direct ional a poate exista de asemenea pentru funct ii nediferent iabile,
dup a cum observam din urmatorul exemplu:
Exemplu A.2.1 Pentru funct ia f : R
n
R, f(x) = |x|
1
avem ca derivata direct ionala
n punctul x = 0 de-a lungul oricarei direct ii d R
n
este data de expresia f

(0; d) = |d|
1
,
nsa f nu este diferentiabila n punctul x = 0.

In cazul n care funct ia este diferent iabila, atunci


f

(x; d) = f(x), d.
238 A.2. Not iuni de analiza matematica
O funct ie scalara f : R
n
R se numeste diferent iabila de doua ori n punctul x domf
dac a este diferent iabila n x si exist a o matrice simetrica H R
nn
astfel ncat:
f(x + y) = f(x) +f(x), y +
1
2
x
T
Hx +1(|y|
2
) y R
n
,
unde lim
y0
R(y
2
)
y
2
= 0. Matricea H se numeste matricea Hesiana si se noteaz a cu
2
f(x).

In
concluzie, o funct ie este diferent iabila de dou a ori n punctul x dac a admite o aproximare
patratic a de ordin doi n vecin atatea lui x. Ca si n cazul gradientului, matricea Hesiana
este unica n cazurile n care exist a si este simetrica av and componentele:

2
f(x) =
_

2
f(x)

2
x
1


2
f(x)
x
1
xn

2
f(x)
xnx
1


2
f(x)

2
xn
_

_
.
Funct ia f se numeste diferent iabila de dou a ori pe mult imea X domf dac a este diferent iabila
de dou a ori n ecare punct din X. Matricea Hessian a poate considerata derivata vectorului
f:
f(x + y) = f(x) +
2
f(x)y +1(|y|).
Exemplu A.2.2 Fie f o funct ie patratica
f(x) =
1
2
x
T
Qx + q
T
x + r,
unde Q R
nn
este matrice simetrica. Atunci, este evident ca gradientul lui f n orice
punct x R
n
este
f(x) = Qx + q
iar matricea Hesiana n punctul x este

2
f(x) = Q.
O funct ie diferent iabila cel put in o dat a se numeste funct ie neteda (smooth). O funct ie
diferent iabila de k ori, cu derivata de ordinul k continua apart ine clasei de funct ii (
k
.
Pentru o funct ie diferent iabila g : R R, avem aproximarea Taylor de ordinul I exprimat a
n termeni de valoare medie sau integrala:
g(b) g(a) = g

()(b a) =
_
b
a
g

()d,
pentru un anumit [a, b]. Aceste egalitat i pot extinse la orice funct ie diferent iabila
f : R
n
R folosind relat iile precedente adaptate pentru funct ia g(t) = f(x + t(y x)) si
utiliz and regulile de diferent iere:
g

() = f(x + (y x)), y x
239 Apendix A. Not iuni de algebra liniar a si analiza matematica
si deci pentru orice x, y domf
f(y) = f(x) +f(x + (y x)), y x [0, 1]
f(y) = f(x) +
_
1
0
f(x + (y x)), y xd.
Urm atoarele extensii sunt posibile:
f(y) = f(x) +
_
1
0

2
f(x + (y x)), y xd
f(y) = f(x) +f(x), y x +
1
2
(y x)
T

2
f(x + (y x))(y x) [0, 1].
O funct ie diferent iabila f : R
n
R are gradient Lipschitz continuu dac a exist a o constanta
L > 0 astfel ncat
|f(x) f(y)| L|x y| x, y domf.
Folosind aproximarea Taylor se obt ine urmatorul rezultat:
Lema A.2.3 (i) O funct ie diferent iabila de doua ori f : R
n
R are gradient Lipschitz
continuu daca si numai daca urmatoarea inegalitate are loc:
|
2
f(x)| L x domf.
(ii) Daca o funct ie diferent iabila f are gradientul Lipschitz continuu, atunci urmatoarea
inegalitate are loc:
[f(y) f(x) f(x), y x[
L
2
|y x|
2
x, y domf.
Din Lemma A.2.3 rezulta ca funct iile diferent iabile cu gradient Lipschitz continuu sunt
m arginite superior de o funct ie patratic a, cu forma speciala careia i corespunde o matrice
Hesiana L I
n
:
f(y)
L
2
|y x|
2
+f(x), y x + f(x) x, y domf.
Not am cu T
1,1
L
(R
n
) clasa de funct ii diferent iabile, convexe, cu gradient Lipschitz continuu.
Pentru o funct ie f din aceasta clas a, urmatoarea inegalitate are loc:
1
L
|f(x) f(y)|
2
f(x) f(y), x y x, y domf.
O funct ie diferent iabila de dou a ori are Hesiana Lipschitz continua dac a exist a o constanta
M > 0 astfel ncat
|
2
f(x)
2
f(y)| M|x y| x, y domf.
Pentru aceasta clas a de funct ii avem urmatoarea caracterizare:
240 A.2. Not iuni de analiza matematica
Lema A.2.4 Pentru o funct ie diferent iabila de doua ori f : R
n
R cu Hesiana Lipschitz
continua avem:
|f(y) f(x)
2
f(x)(y x)|
M
2
|y x|
2
x, y domf.
Mai mult, urmatoarea inegalitate are loc:
M|x y|I
n

2
f(x)
2
f(y)M|x y|I
n
x, y domf.
Pentru o funct ie h: R
n
R
p
, cu h(x) = [h
1
(x) . . . h
p
(x)]
T
, not am Jacobianul sau prin h(x),
unde h(x) este o matrice p n cu elementul
h
i
(x)
x
j
pe pozit ia (i, j):
h(x) =
_

_
h
1
(x)
x
1
. . .
h
1
(x)
xn
.
.
.
.
.
.
.
.
.
hp(x)
x
1
. . .
hp(x)
xn
_

_
=
_

_
h
1
(x)
T
.
.
.
h
p
(x)
T
_

_
.
Teorema funct iilor implicite se foloseste des n optimizare si n alte domenii ale matematicii.
Teorema A.2.5 (Teorema funct iilor implicite) Fie F : R
n
R
m
R
n
o funct ie con-
tinua astfel ncat:
(i) F(x

, 0) = 0 pentru un x

R
n
(ii) Funct ia F este de clasa (
1
ntr-o vecinatate a lui (x

, 0)
(iii)
x
F(x, u) este inversabila n punctul (x, u) = (x

, 0).
Atunci exista o vecinatate A
1
a lui x

, o vecinatate A
2
a lui 0 si o funct ie continua : A
1

A
2
astfel ncat (0) = x

si F((u), u) = 0 pentru orice u A


2
. Mai mult, este denita
n mod unic si daca F este n clasa (
k
pentru un k > 0, atunci si funct ia implicita este
n clasa (
k
cu Jacobianul dat de expresia:
(u) = (
x
F((u), u))
1

u
F((u), u).
Presentam, de asemenea teorema minimax care are foarte multe aplicat ii n teoria jocurilor,
dar dup a cum vom vedea se aplica si n teoria optimizarii. Aceasta teorem a a fost formulata
si analizat a de von Neumann n 1928 pentru funct ii biliniare si apoi extins a la funct ii mai
generale. Teorema trateaza o clas a de probleme de optim care implica o combinat ie ntre
maximizare si minimizare. Consideram o funct ie F : R
n
R
m
R si dou a mult imi convexe
241 Apendix A. Not iuni de algebra liniar a si analiza matematica
X R
n
si R
m
. Pentru orice u putem considera minimum funct iei F(u, x) pe
x X si apoi lua supremum acestui inmum ca funct ie pe , i.e.:
sup
u
inf
xX
F(u, x).
Pe de alta parte putem considera si
inf
xX
sup
u
F(u, x).
Dac a valorile optime ale celor dou a probleme sunt egale, i.e. sup inf si inf sup sunt egale,
atunci valoare optima comuna se numeste valoarea minimax sau valoarea sa. Se pune
problema determinarii de condit ii cand valoarea minimax exist a. Se poate ar ata usor ca
urmatoarea inegalitate are loc:
sup
u
inf
xX
F(u, x) inf
xX
sup
u
F(u, x).
Se observa de asemenea ca valoarea minimax este atins a daa exist a o pereche (u

, x

) astfel
ncat (u

, x

) X si
F(u, x

) F(u

, x

) F(u

, x) u , x X.
Numim o astfel de pereche (u

, x

) punct sa.
Teorema A.2.6 (Teorema minimax) Fie si X mult imi convexe si cel put in una din
ele compacta si presupunem ca funct ia F este continua si concava n variabila u si convexa
n variabila x. Atunci:
sup
u
inf
xX
F(u, x) = inf
xX
sup
u
F(u, x).
Mult i algoritmi iterativi de optimizare pot scrisi sub forma:
x
k+1
= M(x
k
) k 0,
unde funct ia M : X X cu X R
n
. Un vector x

X ce satisface condit ia x

= M(x

)
se numeste punct x pentru M si pentru iterat ie. De asemenea, dac a exist a 0 < 1 astfel
ncat operatorul M satisface condit ia
|M(x) M(y)| |x y| x, y X
atunci acest operator se numeste contract ie. Urm atoarea teorem a furnizeaz a propriet at i
importante pentru o contract ie:
Teorema A.2.7 (Teorema contract iei) Presupunem ca M este o contract ie si X este
mult ime nchisa. Atunci, exista un punct x unic x

X pentru M si pentru orice x


0
X
sirul generat de iterat ia x
k+1
= M(x
k
) converge la punctul x x

.

In particular, rata de
convergent a este liniara: |x
k
x

|
k
|x
0
x

| pentru orice k 0.
242 A.2. Not iuni de analiza matematica
Bibliograe
[1] D.P. Bertsekas. Nonlinear Programming. Athena Scientic, 1999.
[2] S. Boyd and L. Vandenberghe. Convex Optimization. Cambridge University Press, 2004.
[3] B. Dumitrescu, C. Popeea, and B. Jora. Metode de calcul numeric matriceal: algoritmi
fundamentali. Editura All, 1998.
[4] A.V. Fiacco. Introduction to sensitivity and stability analysis in nonlinear programming.
Academic Press, 1983.
[5] T. Gal. Postoptimal analyses, parametric programming, and related topics. de Gruyter,
Berlin, 1995.
[6] D.G. Luenberger. Linear and nonlinear programming, 2nd Edition. Kluwer, 1994.
[7] Y. Nesterov. Introductory Lectures on Convex Optimization: A Basic Course. Kluwer,
2004.
[8] W. Murray si M.H. Wright P.E. Gill. Practical Optimization. Academic Press, 1981.
[9] R.T. Rockafellar. Convex Analysis. Princeton University Press, 1970.
[10] W. Rudin. Principles of Mathematical Analysis. McGraw-Hill, 1976.
[11] Y. Nesterov si A. Nemirovskii. Interior Point Polynomial Algorithms in Convex Pro-
gramming. SIAM Studies in Applied Mathematics, 1994.
[12] R.A. Horn si C.R. Johnson. Matrix Analysis. Cambridge University Press, 1985.
[13] J. Moore si S. Wright. Optimization Software Guide. SIAM Studies in Applied Mathe-
matics, 1993.
[14] J. Nocedal si S. Wright. Numerical Optimization. Springer Verlag, 2006.
[15] O. Stanasila. Analiza matematica. Editura Didactica si Pedagogica, 1981.
[16] G. Strang. Introduction to Linear Algebra. Wellesley-Cambridge Press, 1993.
243

S-ar putea să vă placă și