Sunteți pe pagina 1din 167

Tehnici de optimizare

Ion Necoara
Departamentul de Automatica si Ingineria Sistemelor
Universitatea Politehnica din Bucuresti
Email: ion.necoara@acse.pub.ro
2013
Cuprins
1 Prefat a 4
I Introducere 5
2 Not iuni introductive 6
2.1 Not iuni de analiza matriceala . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Not iuni de analiza matematica . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Teorie convexa 16
3.1 Teoria mult imilor convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.1 Mult imi convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.2 Conuri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.3 Operat ii ce conserv a proprietatea de convexitate a mult imilor . . . 22
3.2 Teoria funct iilor convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Funct ii convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 Condit ii de ordinul I pentru funct ii convexe . . . . . . . . . . . . . 27
3.2.3 Condit ii de ordinul II pentru funct ii convexe . . . . . . . . . . . . . 28
3.2.4 Operat ii ce conserv a proprietatea de convexitate a funct iilor . . . . 29
4 Concepte fundamentale din teoria optimizarii 31
4.1 Evolut ia teoriei optimizarii . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.2 Care sunt caracteristicile unei probleme de optimizare? . . . . . . . . . . . 34
4.3 Tipuri de probleme de optimizare . . . . . . . . . . . . . . . . . . . . . . . 38
4.3.1 Programare neliniara (NLP - NonLinear Programming) . . . . . . . 38
4.3.2 Programare liniar a (LP - Linear Programming) . . . . . . . . . . . 40
4.3.3 Programare patratic a (QP - Quadratic Programming) . . . . . . . . 41
4.3.4 Optimizare convexa (CP - Convex Programming) . . . . . . . . . . 42
1
CUPRINS 2
4.3.5 Probleme de optimizare neconstransa (UNLP - Unconstrained Non-
Linear Programming) . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.6 Programare mixt a cu ntregi (MIP - Mixed Integer Programming) . 45
II Optimizare neconstransa 47
5 Metode de optimizare unidimensionala 48
5.1 Metoda forward-backward pentru funct ii unimodale . . . . . . . . . . . . . 49
5.2 Metode de cautare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.1 Metoda sect iunii de aur . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2.2 Metoda lui Fibonacci . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Metode de interpolare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Metode de interpolare patratic a . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Metode de interpolare cubic a . . . . . . . . . . . . . . . . . . . . . 60
6 Condit ii de optimalitate pentru UNLP 63
6.1 Condit ii necesare de optimalitate . . . . . . . . . . . . . . . . . . . . . . . 65
6.2 Condit ii suciente de optimalitate . . . . . . . . . . . . . . . . . . . . . . . 68
6.3 Condit ii de optimalitate pentru probleme convexe . . . . . . . . . . . . . . 68
6.4 Analiza perturbat iilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7 Convergent a metodelor de descrestere 72
7.1 Metode numerice de optimizare . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Convergent a metodelor numerice . . . . . . . . . . . . . . . . . . . . . . . 77
7.3 Metode de descrestere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.3.1 Strategii de alegere a lungimii pasului . . . . . . . . . . . . . . . . . 78
7.3.2 Convergent a metodelor de descrestere . . . . . . . . . . . . . . . . . 80
8 Metode de ordinul ntai 83
8.1 Metoda gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.1.1 Convergent a global a a metodei gradient . . . . . . . . . . . . . . . 86
8.1.2 Alegera optima a pasului constant : rate de convergent a globale . 88
8.1.3 Rata de convergent a locala liniar a a metodei gradient . . . . . . . . 91
8.2 Metoda direct iilor conjugate . . . . . . . . . . . . . . . . . . . . . . . . . . 92
8.2.1 Metoda direct iilor conjugate pentru probleme QP . . . . . . . . . . 93
8.2.2 Metoda gradient ilor conjugat i pentru probleme QP . . . . . . . . . 95
8.2.3 Metoda gradient ilor conjugat i pentru probleme generale
UNLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
CUPRINS 3
9 Metode de ordinul doi 101
9.1 Metoda Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
9.1.1 Rata de convergent a locala a metodei Newton . . . . . . . . . . . . 104
9.1.2 Convergent a global a a metodei Newton . . . . . . . . . . . . . . . . 106
9.2 Metode cvasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
9.2.1 Updat ari de rang unu . . . . . . . . . . . . . . . . . . . . . . . . . . 111
9.2.2 Updat ari de rang doi . . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.2.3 Convergent a locala superliniara a metodelor cvasi-Newton . . . . . 114
10 Probleme de estimare si tting 116
10.1 Problema celor mai mici patrate (CMMP): cazul liniar . . . . . . . . . . . 117
10.1.1 Probleme CMMP liniare rau condit ionate . . . . . . . . . . . . . . 120
10.1.2 Formularea statistic a a problemelor CMMP liniare . . . . . . . . . 122
10.2 Problema celor mai mici patrate (CMMP): cazul neliniar . . . . . . . . . . 123
10.2.1 Metoda Gauss-Newton (GN) . . . . . . . . . . . . . . . . . . . . . . 124
10.2.2 Metoda Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . . 125
III Optimizare constransa 128
11 Teoria dualitatii 129
11.1 Functia Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
11.2 Problema duala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
11.3 Programare liniara (LP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
12 Conditii de Optimalitate pentru (NLP) 148
12.1 Conditii necesare de ordin I pentru probleme cu constrangeri de egalitate . 150
12.2 Conditii de ordin II pentru probleme cu constrangeri de egalitate . . . . . 155
12.3 Conditii de ordin I pentru probleme NLP generale . . . . . . . . . . . . . . 160
12.4 Conditii de ordin II pentru probleme NLP generale . . . . . . . . . . . . . 162
Bibliography 166
Chapter 1
Prefat a
Lucrarea de fat a este construita pe structura cursului de Tehnici de Optimizare, predat de
autor la Facultatea de Automatic a si Calculatoare a Universitat ii Politehnica din Bucuresti.
Lucrare prezinta ntr-un mod riguros principalele metode numerice de rezolvarea a prob-
lemelor de optimizare neliniara. Optimizarea este un proces de minimizare sau maximizare
a unei funct ii obiectiv si n acelasi timp de satisfacere a unor constr angeri. Natura abund a
de exemple unde un nivel optim este dorit si n multe aplicat ii din inginerie, economie,
biologie si numeroase alte ramuri ale stiint ei se cauta regulatorul, portfoliul sau compozit ia
optim( a).
Lucrarea se adreseaz a student ilor din facult at ile cu prol tehnic sau economic, dar n aceeasi
m asura si pentru student ii la programele de master si doctorat cu tematici adiacente.
Scopul lucr arii este prezentarea unei introduceri n metodele numerice de rezolvare a prob-
lemelor de optimizare care serveste la pregatirea student ilor pentru dezvoltarea si adaptarea
acestor metode la aplicat ii specice ingineriei si ale altor domenii. Tematica include ele-
mente de optimizare continua ce se concentreaz a n special pe programarea neliniara.

In
acest sens, structura lucr arii este divizata n dou a part i majore:
I. optimizare neconstransa
II. optimizare constrans a
Student ii ce urmeaza acest curs necesit a cunostint e solide de algebr a liniar a (e.g. teo-
ria matricilor, concepte de spat ii vectoriale, etc) si analiza matematica (not iuni de funct ii
diferent iabile, convergent a sirurilor, etc).
4
Part I
Introducere
5
Chapter 2
Not iuni introductive

In acest capitol reamintim pe scurt not iunile de baz a din algebra liniar a si analiza
matematica ce se vor dovedi esent iale pentru capitolele urmatoare.
2.1 Not iuni de analiza matriceala

In cadrul acestui curs xam simpla convent ie de a considera vectorii x R


n
vectori coloan a,
i.e. x = [x
1
x
n
]
T
R
n
.

In spat iul Euclidian R
n
produsul scalar este denit dup a cum
urmeaza:
x, y = x
T
y =
n

i=1
x
i
y
i
.
Unde nu se specica, norma considerata pe spat iul Euclidian R
n
este norma Euclidian a
standard (i.e. norma indus a de acest produs scalar):
|x| =
_
x, x =

_
n

i=1
x
2
i
.
Alte norme vectoriale des ntalnite sunt:
6
CHAPTER 2. NOTIUNI INTRODUCTIVE 7
|x|
1
=
n

i=1
[x
i
[ si |x|

= max
i=1,...,n
[x
i
[.
Unghiul [0 ] dintre doi vectori nenuli x si y din R
n
este denit de:
cos =
x, y
|x||y|
.
Orice norm a | | n R
n
are o norma duala corespunz atoare | |

denit a de:
|y|

= max
xR
n
:x=1
x, y.
Se poate ar ata ca |x|

= |x|

1
pentru orice vector x R
n
.
O relat ie fundamentala ce se foloseste intens n acest curs este inegalitatea Cauchy-Schwarz
denita de urmatoarea relat ie ntre produsul scalar dintre doi vectori si normele duale
corespunz atoare:
[x, y[ |x| |y|

x, y R
n
,
egalitatea av and loc dac a si numai dac a vectorii x si y sunt vectori liniar dependent i.
Observ am ca aceasta inegalitate este o consecint a imediata a denit iei normei duale.
Spat iul matricilor de dimensiune (m, n) este notat cu R
mn
. Urma unei matrici patratice
Q = [Q
ij
]
ij
R
nn
este denita de relat ia:
Tr(Q) =
n

i=1
Q
ii
.

In acest spat iu al matricilor de dimensiune (m, n) denim produsul scalar folosind not iunea
de urma:
Q, P = Tr(Q
T
P) = Tr(QP
T
) Q, P R
mn
.
Din propriet at ile produsului scalar rezulta:
Tr(QPR) = Tr(RQP) = Tr(PRQ),
oricare ar matricile Q, P si R de dimensiuni compatibile.

In consecint a, pentru matricile
patratice Q R
nn
avem de asemenea relat ia:
x
T
Qx = Tr(Qxx
T
) x R
n
.
CHAPTER 2. NOTIUNI INTRODUCTIVE 8
Pentru o matrice patratic a Q R
nn
, un scalar C si un vector nenul x ce satisfac
ecuat ia Qx = x se numesc valoare proprie si respectiv, vector propriu al matricii Q. O
relat ie echivalenta ce descrie perechea valoare-vector propriu este dat a de:
(I
n
Q)x = 0, x ,= 0,
i.e. matricea I
n
Q este singular a, de aceea,
det(I
n
Q) = 0.

In acest scop, polinomul caracteristic al matricii Q este denit de


p
Q
() = det(I
n
Q).
Evident, mult imea de solut ii ale ecuat iei p
Q
() = 0 coincide cu mult imea de valori proprii
ale lui Q. Mult imea tuturor valorilor proprii corespunz atoare matricii Q este denumit a
spectrul matricii Q si se noteaz a cu (Q) =
1
, ,
n
. Folosind aceast a notat ie avem
p
Q
() = (
1
) (
n
)
si rezulta p
Q
(0) =

n
i=1
(
i
). Din discut ia precedenta se obt ine urmatorul rezultat:
Lemma 2.1.1 Urmatoarele relat ii au loc pentru orice matrice patratica Q R
nn
:
det(Q) =
n

i=1

i
si Tr(Q) =
n

i=1

i
(Q
k
) =
k
i
si
i
(I
n
+ Q) = +
i
, R si i = 1, , n.
Not am cu S
n
spat iul matricilor simetrice:
S
n
= Q R
nn
: Q = Q
T
.
Pentru o matrice simetrica Q S
n
valorile proprii corespunz atoare sunt reale, i.e. (Q)
R. O matrice simetrica Q S
n
este pozitiv semidenita (notat ie Q _ 0) dac a
x
T
Qx 0 x R
n
si pozitiv denita (notat ie Q 0) dac a
x
T
Qx > 0 x R
n
, x ,= 0.
Preciz am ca Q _ P dac a QP _ 0. Notam mult imea matricilor pozitiv (semi)denite cu
(S
n
+
)S
n
++
. Mai departe, avem urmatoarea caracterizare a unei matrici pozitiv semidenite:
CHAPTER 2. NOTIUNI INTRODUCTIVE 9
Lemma 2.1.2 Urmatoarele echivalent e au loc pentru orice matrice simetrica Q S
n
:
(i) Matricea Q este pozitiv semidenita
(ii) Toate valorile proprii ale matricii Q sunt ne-negative (i.e.
i
0 i = 1, ..., n)
(iii) Tot i minorii principali ai lui Q sunt ne-negativi
(iv) Exista o matrice L astfel ncat Q = L
T
L.

In continuare, folosim notat ia


min
si
max
pentru cea mai mic a si respectiv, cea mai mare
valoare proprie a unei matrici simetrice Q S
n
. Atunci,

min
= min
xR
n
: x=0
x
T
Qx
x
T
x
= min
xR
n
: x=1
x
T
Qx

max
= max
xR
n
: x=0
x
T
Qx
x
T
x
= max
xR
n
: x=1
x
T
Qx.

In concluzie avem:

min
I
n
_ Q _
max
I
n
.
Putem deni norme matriceale utiliz and norme vectoriale. Fie normele vectoriale | |

pe
R
n
si | |

pe R
m
, atunci putem deni o norm a matriceala indus a pe spat iul matricilor
R
mn
prin urmatoarea relat ie:
|Q|
,
= sup
xR
n
: x=0
|Qx|

|x|

= sup
xR
n
: x

=1
|Qx|

Q R
mn
.
Pentru norma vectoriala Euclidiana norma matriceala indus a este dat a de:
|Q| =
_

max
Q
T
Q
_
1/2
.
De asemenea, norma Frobenius a unei matrici este denita prin:
|Q|
F
=
_
m

i=1
n

j=1
Q
2
ij
_
1/2
.
Reamintim de asemenea o formul a pentru inversarea de matrici, numit a formula Sherman-
Morrison-Woodbury: e o matrice A R
nn
inversabil a si dou a matrici U si V n R
np
, cu
p n. Atunci matricea A+UV
T
este inversabil a dac a si numai dac a matricea I
n
+V
T
A
1
U
este inversabil a si n acest caz avem:
(A+ UV
T
)
1
= A
1
A
1
U(I
n
+ V
T
A
1
U)
1
V
T
A
1
.
CHAPTER 2. NOTIUNI INTRODUCTIVE 10
Un caz particular al acestei formule este urmatorul: pentru u, v R
n
(A+ uv
T
)
1
= A
1

1
1 + v
T
A
1
u
A
1
uv
T
A
1
.
2.2 Not iuni de analiza matematica

In cadrul acestui curs ne vom concentra atent ia preponderent asupra conceptelor, relat iilor
si rezultatelor ce implica funct ii al caror codomeniu este inclus n

R = R +. Pentru
nceput, o observat ie importanta pentru rigurozitatea rezultatelor ce urmeaza este aceea
ca domeniul efectiv al unei funct ii scalare f se poate extinde (prin echivalent a) la ntreg
spat iul R
n
prin atribuirea valorii + funct iei n toate punctele din afara domeniului sau.

In cele ce urmeaza consider am ca toate funct iile sunt extinse implicit. O funct ie scalara
f : R
n


R are domeniul efectiv descris de mult imea:
domf = x R
n
: f(x) < +.
Funct ia f se numeste diferent iabila n punctul x domf dac a exist a un vector s R
n
astfel ncat urmatoarea relat ie are loc:
f(x + y) = f(x) +s, y +1(|y|) y R
n
,
unde lim
y0
R(y)
y
= 0 si 1(0) = 0. Vectorul s se numeste derivata sau gradientul funct iei f
n punctul x si se noteaz a cu f(x). Cu alte cuvinte, funct ia este diferent iabila n x dac a
admite o aproximare liniar a de ordinul ntai n punctul x. Observ am ca gradientul este
unic determinat si este denit de vectorul cu componentele:
f(x) =
_

_
f(x)
x
1

f(x)
xn
_

_
.
Funct ia f se numeste diferent iabila pe mult imea X domf dac a este diferent iabila n
toate punctele din X.
Expresia (n condit iile n care limita de mai jos exist a)
f

(x; d) = lim
t+0
f(x + td) f(x)
t
CHAPTER 2. NOTIUNI INTRODUCTIVE 11
se numeste derivata direct ionala a funct iei f n punctul x domf de-a lungul direct iei
d R
n
. Precizam ca derivata direct ional a poate exista, de asemenea, pentru funct ii
nediferent iabile, dup a cum observam din urmatorul exemplu:
Example 2.2.1 Pentru funct ia f : R
n
R, f(x) = |x|
1
avem ca derivata direct ionala
n punctul x = 0 de-a lungul oricarei direct ii d R
n
este data de expresia f

(0; d) = |d|
1
,
nsa f nu este diferentiabila n punctul x = 0.

In cazul n care funct ia este diferent iabila, atunci


f

(x; d) = f(x), d.
O funct ie scalara f denita pe R
n
se numeste diferent iabila de doua ori n punctul x
domf dac a este diferent iabila n x si exist a o matrice simetrica H R
nn
astfel ncat:
f(x + y) = f(x) +f(x), y +
1
2
x
T
Hx +1(|y|
2
) y R
n
,
unde lim
y0
R(y
2
)
y
2
= 0. Matricea H se numeste matricea Hessiana si se noteaz a cu
2
f(x).

In concluzie, o funct ie este diferent iabila de dou a ori n punctul x dac a admite o aproximare
patratic a de ordin doi n vecin atatea lui x. Ca si n cazul gradientului, matricea Hessian a
este unica n cazurile n care exist a si este simetrica cu componentele:

2
f(x) =
_

2
f(x)

2
x
1


2
f(x)
x
1
xn

2
f(x)
xnx
1


2
f(x)

2
xn
_

_
.
Funct ia f se numeste diferent iabila de dou a ori pe mult imea X domf dac a este diferent iabila
de dou a ori n ecare punct din X. Matricea Hessian a poate considerata derivata
vectorului f:
f(x + y) = f(x) +
2
f(x)y +1(|y|).
Example 2.2.2 Fie f o funct ie patratica
f(x) =
1
2
x
T
Qx + q
T
x + r,
CHAPTER 2. NOTIUNI INTRODUCTIVE 12
unde Q R
nn
este matrice simetrica. Atunci, este evident ca gradientul lui f n orice
x R
n
este
f(x) = Qx + q
iar matricea Hessiana n punctul x este

2
f(x) = Q.
O funct ie diferent iabila cel put in o dat a se numeste funct ie neteda (smooth). O funct ie
diferent iabila de k ori, cu derivata de ordinul k continua, spunem ca apart ine clasei de
funct ii (
k
.
Pentru o funct ie diferent iabila g : R R, avem aproximarea Taylor de ordinul ntai
exprimat a n termeni de valoare medie sau integrala:
g(b) g(a) = g

()(b a) =
_
b
a
g

()d,
pentru un anumit [a b].
Aceste egalitat i pot extinse la orice funct ie diferent iabila f : R
n
R folosind relat iile
precedente adaptate pentru funct ia g(t) = f(x+t(y x)) si folosind regulile de diferent iere
avem ca:
g

() = f(x + (y x)), y x.
si deci pentru orice x, y domf
f(y) = f(x) +f(x + (y x)), y x [0 1]
f(y) = f(x) +
_
1
0
f(x + (y x)), y xd.
Urm atoarele extensii sunt posibile:
f(y) = f(x) +
_
1
0

2
f(x + (y x)), y xd
f(y) = f(x) +f(x), y x +
1
2
(y x)
T

2
f(x + (y x))(y x), [0 1].
CHAPTER 2. NOTIUNI INTRODUCTIVE 13
O funct ie diferent iabila f : R
n
R are gradient Lipschitz continuu dac a exist a o constanta
L > 0 astfel ncat
|f(x) f(y)| L|x y| x, y domf.
Folosind aproximarea Taylor precizata anterior se obt ine urmatorul rezultat:
Lemma 2.2.3 (i) O funct ie diferent iabila de doua ori f : R
n
R are gradient Lipschitz
continuu daca si numai daca urmatoarea inegalitate are loc:
|
2
f(x)| L x domf.
(ii) Daca o funct ie diferent iabila f are gradientul Lipschitz continuu, atunci urmatoarea
inegalitate are loc:
[f(y) f(x) f(x), y x[
L
2
|y x|
2
x, y domf.
Din Lemma 2.2.3 rezulta ca funct iile diferent iabile cu gradient Lipschitz continuu sunt
m arginite superior de o funct ie patratic a ce depinde de un vector x domf cu forma
speciala careia i corespunde o matrice Hessian a L I
n
:
f(y)
L
2
|y x|
2
+f(x), y x + f(x) y domf.
Not am cu T
1,1
L
(R
n
) clasa de funct ii diferent iabile, convexe, cu gradient Lipschitz. Pentru
o funct ie f din aceasta clas a, urmatoarea inegalitate are loc:
1
L
|f(x) f(y)|
2
f(x) f(y), x y x, y domf.
O funct ie diferent iabila de dou a ori are Hessiana Lipschitz continua dac a exist a o constanta
M > 0 astfel ncat
|
2
f(x)
2
f(y)| M|x y| x, y domf.
Pentru aceasta clas a de funct ii avem urmatoarea caracterizare:
Lemma 2.2.4 Pentru o funct ie diferent iabila de doua ori f : R
n
R cu Hessiana Lips-
chitz continua avem:
|f(y) f(x)
2
f(x)(y x)|
M
2
|y x|
2
x, y domf.
CHAPTER 2. NOTIUNI INTRODUCTIVE 14
Mai mult, urmatoarea inegalitate are loc:
M|x y|I
n

2
f(x)
2
f(y)M|x y|I
n
x, y domf.
Pentru o funct ie h: R
n
R
p
, cu h(x) = [h
1
(x) . . . h
p
(x)]
T
, not am Jacobianul sau prin
h(x), unde h(x) este o matrice p n cu elementul
h
i
(x)
x
j
pe pozit ia (i, j):
h(x) =
_

_
h
1
(x)
x
1
. . .
h
1
(x)
xn
.
.
.
.
.
.
.
.
.
hp(x)
x
1
. . .
hp(x)
xn
_

_
=
_

_
h
1
(x)
T
.
.
.
h
p
(x)
T
_

_
.
Teorema funct iilor implicite se foloseste des n optimizare si n alte domenii ale matematicii.
Lemma 2.2.5 Fie F : R
n
R
m
R
n
o funct ie continua astfel ncat:
(i) F(x

, 0) = 0 pentru un x

R
n
(ii) Funct ia F este de clasa (
1
ntr-o vecinatate a lui (x

, 0)
(iii)
x
F(x, u) este inversabila n punctul (x, u) = (x

, 0).
Atunci exista o vecinatate A
1
a lui x

, o vecinatate A
2
a lui 0 si o funct ie continua :
A
1
A
2
astfel ncat (0) = x

si F((u), u) = 0 pentru orice u A


2
. Mai mult, este
denita n mod unic si daca F este n clasa (
k
pentru un k > 0, atunci si funct ia implicita
este n clasa (
k
cu Jacobianul dat de expresia:
(u) =
u
F((u), u)
T
(
x
F((u), u))
1
.
In nal presentam teorema minimax care are foarte multe aplicatii in teoria jocurilor, dar
dupa cum vom vedea se aplica si in teoria optimizarii. Aceasta teorema a fost formulata
si analizata de von Neumann in 1928 pentru functii biliniare si apoi extinsa la functii mai
generale. Theorema trateaza o clasa de probleme de optim care implica o combinatie intre
maximizare si minimizare. Consideram o functie F : R
n
R
m
R si doua multimi convexe
CHAPTER 2. NOTIUNI INTRODUCTIVE 15
X R
n
si R
m
. Pentru orice u putem considera minimum functiei F(u, x) pe
x X si apoi lua supremum acestui inmum ca functie pe , adica:
sup
u
inf
xX
F(u, x).
Pe de alta parte putem considera si
inf
xX
sup
u
F(u, x).
Daca valorile optime ale celor doua probleme sunt egale, adica sup inf si inf sup sunt egale,
atunci valoare optima comuna se numeste valoarea minimax sau valoarea sa. Se pune
problema determinarii de conditii cand valoarea minimax exista. Se poate arata usor ca
urmatoarea inegalitate are loc:
sup
u
inf
xX
F(u, x) inf
xX
sup
u
F(u, x).
Se observa de asemenea ca valoarea minimax este atinsa daca exista o pereche (u

, x

) astfel
ncat (u

, x

) X si
F(u, x

) F(u

, x

) F(u

, x) u , x X.
Numim o astfel de pereche (u

, x

) punct sa.
Theorem 2.2.6 (Teorema minimax) Fie si X multimi convexe si cel putin una din
ele compacta si presupunem ca functie F este continua si concava in variabila u si convexa
in variabila x. Atunci:
sup
u
inf
xX
F(u, x) = inf
xX
sup
u
F(u, x).
Chapter 3
Teorie convexa

In acest capitol prezentam not iunile de baz a din teoria mult imilor convexe si a funct iilor
convexe.
3.1 Teoria mult imilor convexe
3.1.1 Mult imi convexe
Denition 3.1.1 O mult ime S R
n
este ana daca pentru oricare doi vectori x
1
, x
2
S
si orice scalar R avem x
1
+ (1 )x
2
S (i.e. dreapta generata de oricare doua
puncte din S este inclus a n S).
Example 3.1.2 Mult imea solut iilor unui sistem liniar Ax = b, unde A R
mn
si b R
m
,
este mult ime ana, i.e. mult imea x R
n
: Ax = b este ana.
O combinat ie ana de p vectori x
1
, . . . , x
p
R
n
este denita astfel:
p

i=1

i
x
i
, unde
p

i=1

i
= 1,
i
R.
16
CHAPTER 3. TEORIE CONVEX

A 17
sup
u
inf
xX
F(u, x) inf
xX
sup
u
F(u, x).
4 2 0 2 4 6 8 10
2
2.5
3
3.5
4
4.5
5
x2(5,3)
x1(0.5,4)
=1.5
=1
=0.5
=0
=0.5
Figure 3.1: Mult ime an a generata de dou a puncte: x
1
si x
2
.
Acoperirea ana a mult imii S R
n
, notata A(S), reprezinta mult imea ce cont ine toate
combinat iile ane nite posibile ale punctelor din S:
A(S) =
_

iI, I nita

i
x
i
: x
i
S,

i
= 1,
i
R
_
.
Cu alte cuvinte A(S) este mult imea an a cea mai mic a ce l cont ine pe S.
Denition 3.1.3 Mult imea S R
n
se numeste convexa daca pentru oricare doua puncte
x
1
, x
2
S si un scalar [0 1] avem x
1
+ (1 )x
2
S (i.e. segmentul generat de
oricare doua puncte din S este inclus n S).
Rezult a imediat ca orice mult ime an a este mult ime convexa. Mai departe, o combinat ie
convexa de p vectori x
1
, , x
p
R
n
este denita de:
p

i=1

i
x
i
, unde
p

i=1

i
= 1,
i
0.
CHAPTER 3. TEORIE CONVEX

A 18
x
1
x
2
x
1
x
2
Figure 3.2: Exemplu de mult ime convexa (stanga) si mult ime neconvexa (dreapta).
Acoperirea convexa a mult imii S, notata Conv(S), reprezinta mult imea ce cont ine toate
combinat iile convexe nite posibile dintre punctele mult imii S:
Conv(S) =
_

iI,I nit

i
x
i
: x
i
S,

i
= 1,
i
0
_
.
Se observa ca acoperirea convexa a unei mult imi este cea mai mic a mult ime convexa ce
cont ine mult imea dat a. Rezult a ca dac a S este convexa, atunci acoperirea convexa a lui S
coincide cu S.
Theorem 3.1.4 (Teorema lui Caratheodory) Daca S R
n
este o mult ime convexa
atunci orice element din S este o combinat ie convexa de cel mult n + 1 vectori din S.
Figure 3.3: Acoperirea convexa a unei mult imi neconvexe.
Un hiperplan este o mult ime convexa denita de relat ia:
_
x R
n
: a
T
x = b
_
, a ,= 0, b R.
Un semiplan este mult imea convexa denita de relat ia:
_
x R
n
: a
T
x b
_
sau
_
x R
n
: a
T
x b
_
,
CHAPTER 3. TEORIE CONVEX

A 19
a
T
xb
a
x
0
a
T
xb
a
T
x=b
Figure 3.4: Hiperplanul denit de a
T
x = b si semiplanele corespunz atoare
unde a ,= 0 si b R. Un poliedru este mult imea convexa denit a de un num ar m de
hiperplane si/sau un numar p de semiplane:
_
x R
n
: a
T
i
x b
i
i = 1, . . . , m, c
T
j
x = d
j
j = 1, . . . , p
_
= x R
n
: Ax b, Cx = d .
O alta reprezentare a poliedrului este dat a de v arfurile (nodurile) sale:
_
n
1

i=1

i
v
i
+
n
2

j=1

j
r
j
:
n
1

i=1

i
= 1,
i
0,
j
0 i, j
_
,
unde v
i
se numesc v arfuri (noduri) si r
j
se numesc raze ane. Un politop reprezinta un
poliedru m arginit si n acest caz acesta este denit numai de v arfuri.
O bila cu centrul n punctul x
0
R
n
si raza r > 0 este o mult ime convexa denit a de
relat ia:
B(x
0
, r) = x R
n
: |x x
0
| r
sau, n mod echivalent:
B(x
0
, r) = x R
n
: x = x
0
+ ru, |u| 1 .
Un elipsoid este mult imea convexa denita de:
_
x R
n
: (x x
0
)
T
Q
1
(x x
0
) 1 = x
0
+ Lu : |u| 1
_
,
unde Q 0 si Q = L
T
L.
CHAPTER 3. TEORIE CONVEX

A 20
Figure 3.5: Poliedru nemarginit generat de 3 v arfuri si 2 raze ane.
3.1.2 Conuri
Denition 3.1.5 O mult ime K se numeste con daca pentru orice x K si R
+
avem
x K. Conul K se numeste con convex daca n plus K este mult ime convexa.
Combinat ie conica de p vectori x
1
, , x
p
R
n
este denita n felul urmator:
p

i=1

i
x
i
, unde
i
0 i.
Acoperirea conica a unei mult imi S, notata Con(S), reprezinta mult imea ce contine toate
combinat iile conice nite posibile ale elementelor din S:
Con(S) =
_

iI,I nit

i
x
i
: x
i
S,
i
0
_
Se observa ca acoperirea conic a a unei mult imi reprezinta cel mai mic con ce cont ine
mult imea dat a.
Pentru un con K dintr-un spat iu Euclidian nzestrat cu un produs scalar , , conul dual
aferent, notat K

, este denit astfel:


K

= y : x, y 0 x K .
CHAPTER 3. TEORIE CONVEX

A 21
a
4
a
5
a
1
a
2
a
3
Figure 3.6: Poliedru m arginit (politop), format din intersect ia a 5 semiplane.
Observ am ca conul dual este ntotdeauna o mult ime nchisa. Folosind relat ia x, y =
|x||y| cos (x, y) ajungem la concluzia ca unghiul dintre un vector ce apart ine lui K si
unul ce apart ine lui K

este mai mic decat



2
. Dac a conul K satisface condit ia K = K

,
atunci mult imea K se numeste con auto-dual.
Example 3.1.6 Expunem n cele ce urmeaza exemple de conuri:
1. Mult imea R
n
este un con iar conul sau dual este (R
n
)

= 0.
2. R
n
+
= x R
n
: x 0 se numeste conul orthant si este auto-dual n raport cu pro-
dusul scalar uzual x, y = x
T
y, i.e. (R
n
+
)

= R
n
+
.
3. /
n
=
_
[x
T
t]
T
R
n+1
: |x| t
_
se numeste conul Lorentz sau conul de nghet ata si este de asemenea, auto-dual n
raport cu produsul scalar [x
T
t]
T
, [y
T
v]
T
= x
T
y + tv, i.e. (/
n
)

= /
n
.
4. S
n
+
= X S
n
: X _ 0 reprezinta conul semidenit si este auto-dual n raport cu
produsul scalar X, Y = Tr(XY ), i.e. (S
n
+
)

= S
n
+
.
CHAPTER 3. TEORIE CONVEX

A 22
x1
x2
0
Figure 3.7: Acoperirea conic a generata de x
1
si x
2
.
3.1.3 Operat ii ce conserva proprietatea de convexitate a mult imilor
n cele ce urmeaza enunt am cateva operat ii pe mult imi care conserv a proprietatea de con-
vexitate.
1. intersect ia de mult imi convexe este o multime convexa, i.e. dac a familia de mult imi
S
i

iI
este convexa, atunci

iI
S
i
este de asemenea convexa.
2. suma a dou a mult imi convexe S
1
si S
2
este de asemenea convexa: adica mult imea S
1
+
S
2
= x + y : x S
1
, y S
2
este convexa. Mai mult, mult imea S = x : x S
este convexa dac a mult imea S este convexa si R.
3. translat ia unei mult imi convexe S este de asemenea convexa, i.e. e o funct ie an a
f(x) = Ax + b, atunci imaginea lui S prin f, f(S) = f(x) : x S, este convexa.
Similar, preimaginea: f
1
(S) = x : f(x) S este de asemenea convexa.
4. denim o funct ie p: R
n+1
R
n
, cu dom p = R
n
R
++
ca p(z, t) = z/t, numit a si
funct ie de perspectiv a. Aceasta funct ie scaleaz a (normalizeaz a) vectori astfel ncat
ultima componenta sa e 1 si apoi eliminat a (funct ia returneaz a doar primele n
componente din vectorul normalizat). Dac a C dom p este o mult ime convexa,
atunci imaginea sa prin p, p(C) = p(x) : x C este o mult ime convexa.
5. o funct ie liniar-fract ional a este formata prin compunerea funct iei perspectiv cu o
CHAPTER 3. TEORIE CONVEX

A 23
Figure 3.8: Acoperirea conic a generata de mult imea S.
Figure 3.9: Conul Lorentz.
funt ie an a. Fie o funct ie an a g : R
n
R
m+1
, anume:
g(x) =
_
A
c
T
_
x +
_
b
d
_
unde A R
mn
, b R
m
, c R
n
si d R. Funct ia f : R
n
R
m
dat a de f = p g, i.e
f(x) = (Ax + b)/(c
T
x + d), dom f =
_
x R
n
: c
T
x + d > 0
_
se numesste funct ie liniar-fract ional a. Astfel, dac a mult imea C este convexa si apart ine
domeniului lui f, i.e. c
T
x + d > 0 pentru x C, atunci imaginea sa prin f, f(C),
este convexa.
CHAPTER 3. TEORIE CONVEX

A 24
Inegalitat i Matriceale Liniare (Linear Matrix Inequalities - LMI): Se poate ar ata
usor ca mult imea matricilor pozitiv semidenite S
n
+
este convexa. Consideram o funct ie
G : R
m
S
n
+
, G(x) = A
0
+

m
i=1
x
i
A
i
, unde x R
m
este un vector iar matricele
A
0
, , A
m
S
n
sunt simetrice. Expresia
G(x)0
se numeste inegalitate matriceala liniara (LMI). Aceasta deneste o mult ime convexa x
R
m
: G(x)0, cu rolul de preimagine a lui S
n
+
prin G(x).
Exemplu din controlul sistemelor: Fie un sistem discret liniar invariant n timp (LTI):
x
t+1
= Ax
t
,
unde A R
nn
. Acest sistem este asimptotic stabil (adic a lim
t
x
t
= 0 pentru orice stare
init iala x
0
R
n
) dac a si numai dac a exist a o funct ie Lyapunov patratic a V (x) = x
T
Px
astfel ncat:
V (x) > 0 x R
n
si V (x
t+1
) V (x
t
) < 0 t 0.
Aceste inegalitat i de matrici pot exprimate ca LMI:
A
T
PAP 0 si P 0.
n mod echivalent, sistemul este asimptotic stabil dac a max
i=1,...,n
[
i
(A)[ < 1.
n control ntalnim adesea inegalitat i matriceale cu necunoscutele P si R, de forma:
P A
T
R
1
A 0, P 0
ce pot scrise (prin folosirea complementului Schur), n mod echivalent ca un LMI:
_
P A
T
A R
_
0.
Theorem 3.1.7 (Teorema de separare cu hiperplane) Fie S
1
si S
2
doua mult imi con-
vexe astfel ncat S
1
S
2
= . Atunci, exista un hiperplan ce separa aceste mult imi, adica
exista a ,= 0 si b R astfel ncat a
T
x b oricare ar x S
1
si a
T
x b oricare ar
x S
2
.
Theorem 3.1.8 (Teorema de suport cu hiperplane) Fie S o mult ime convexa si x
0

bd(S) = cl(S) int(S). Atunci exista un hiperplan de suport pentru S n punctul x
0
, adica
exista a ,= 0 astfel ncat a
T
x a
T
x
0
oricare ar x S.
CHAPTER 3. TEORIE CONVEX

A 25
Figure 3.10: Teorema de separare cu hiperplane.
3.2 Teoria funct iilor convexe
3.2.1 Funct ii convexe
Fie dat a o funct ie f : R
n


R, reamintim ca domeniul sau efectiv este mult imea: domf =
x R
n
: f(x) < .
Denition 3.2.1 Funct ie f se numeste convex daca domeniul sau efectiv domf este o
mult ime convexa si urmatoarea relat ie are loc:
f(x
1
+ (1 )x
2
) f(x
1
) + (1 )f(x
2
),
pentru orice x
1
, x
2
domf si [0, 1].
Daca
f(x
1
+ (1 )x
2
) < f(x
1
) + (1 )f(x
2
),
pentru orice x
1
,= x
2
domf si (0, 1), atunci f se numeste funct ie strict convexa.
Daca exista o constanta > 0 astfel ncat
f(x
1
+ (1 )x
2
) f(x
1
) + (1 )f(x
2
)

2
(1 )|x
1
x
2
|
2
,
pentru orice x
1
, x
2
domf si [0, 1], atunci f se numeste funct ie tare convexa.
CHAPTER 3. TEORIE CONVEX

A 26
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
1
x
2
f(x
1
)+(1) f(x
2
)
f(x
1
)
f(x
2
)
f( x
1
+(1)x
2
)
f(x)=x
2
Figure 3.11: Exemplu de funct ie convexa f(x) = x
2
.
Inegalitatea lui Jensen este o generalizare a denit iei anterioare si ne spune ca f este o
funct ie convexa dac a si numai dac a domf este mult ime convexa si
f
_
p

i=1

i
x
i
_

i=1

i
f(x
i
)
pentru orice x
i
domf si

p
i=1

i
= 1 cu
i
[0 1] pentru orice i = 1, . . . , p. Interpretarea
geometric a a convexitat ii este foarte simpl a. Pentru o funct ie convexa, e dou a puncte din
domeniul sau x, y domf, atunci valorile funct iei evaluate n punctele din intervalul [x y]
sunt mai mici decat cele de pe segmentul cu capetele (x, f(x)) si (y, f(y)). Cu alte cuvinte,
valorile funct iei (convexe) n punctele x + (1 )y, pentru [0, 1], sunt mai mici sau
egale cu nalt imea corzii ce uneste coordonatele (x, f(x)) si (y, f(y)).
Remark 3.2.2 O funct ie f : R
n


R este convexa daca si numai daca restrict ia dome-
niului sau la o dreapta (care intersecteaza domeniul) este de asemenea, convexa. Cu alte
cuvinte, f este convexa daca si numai daca oricare ar x domf si o direct ie d R
n
,
funct ia g() = f(x + d) este convexa pe domeniul R : x + d domf. Aceasta
proprietate este utila n anumite probleme n care se doreste sa se arate convexitatea unei
funct ii.
O funct ie f : R
n


R se numeste concava dac a f este convexa.
CHAPTER 3. TEORIE CONVEX

A 27
3.2.2 Condit ii de ordinul I pentru funct ii convexe
n aceasta sect iune prezentam condit iile de convexitate de ordinul ntai pentru funct ii
diferent iabile.
Theorem 3.2.3 (Convexitatea funct iilor de clasa C
1
) Presupunem ca funct ia f : R
n


R
este continuu diferent iabila si domf este o mult ime convexa. Atunci f este convexa daca
si numai daca
f(x
2
) f(x
1
) +f(x
1
)
T
(x
2
x
1
) x
1
, x
2
domf. (3.1)
Demonstrat ie: Mai ntai ar at am ca dac a funct ia este convexa atunci inegalitatea de
mai sus are loc. Din convexitatea lui f rezulta ca pentru orice x
1
, x
2
domf si oricare
[0, 1] avem:
f(x
1
+ (x
2
x
1
)) f(x
1
) (f(x
2
) f(x
1
)),
Pe de alta parte avem ca:
f(x
1
)
T
(x
2
x
1
) = lim
+0
f(x
1
+ (x
2
x
1
)) f(x
1
)

f(x
2
) f(x
1
).
de unde rezulta inegalitatea (3.1).
Pentru implicat ia inversa, se observa ca pentru orice z = x
1
+(x
2
x
1
) = (1)x
1
+x
2
se satisface relat ia f(z) (1 )f(x
1
) + f(x
2
). De aceea prin aplicarea relat iei (3.1) de
dou a ori n punctul z se obt in urmatoarele inegalitat i: f(x
1
) f(z) + f(z)
T
(x
1
z) si
f(x
2
) f(z)+f(z)
T
(x
2
z). Prinnmultirea cu ponderile (1) si si apoi, nsumarea
celor dou a relat ii avem:
(1 )f(x
1
) + f(x
2
) f(z) +f(z)
T
[(1 )(x
1
z) + (x
2
z)]
. .
=(1)x
1
+x
2
z=0
.

Interpretarea relat iei de mai sus este foarte simpl a: tangenta la gracul unei funct ii convexe
n orice punct, se aa sub grac. O consecint a imediata a acestei teoreme este urmatoarea
inegalitate: e f : R
n
R o funct ie convexa de clas a C
1
, atunci
f(x
1
) f(x
2
), x
1
x
2
0 x
1
, x
2
domf.
CHAPTER 3. TEORIE CONVEX

A 28
3.2.3 Condit ii de ordinul II pentru funct ii convexe
Theorem 3.2.4 (Proprietatea de convexitate pentru funct ii de clasa C
2
) Fie f : R
n


R
o funct ie de doua ori continuu diferent iabila si domf este mult ime convexa. Atunci f
este convexa daca si numai daca pentru orice x domf matricea Hessiana este pozitiv
semidenita, i.e.

2
f(x)0 x domf. (3.2)
Demonstrat ie: Mai ntai ar at am ca dac a funct ia este convexa atunci inegalitatea de
mai sus are loc. Folosim aproximarea Taylor de ordin II a lui f n punctul x ntr-o direct ie
arbitrar a d R
n
:
f(x
1
+ td) = f(x
1
) +f(x
1
)
T
td +
1
2
t
2
d
T

2
f(x
1
)d +1(t
2
|d|
2
).
De aici obt inem
d
T

2
f(x
1
)d = lim
t0
2
t
2
_
f(x
1
+ td) f(x
1
) tf(x
1
)
T
d
_
. .
0, datorita (3.1).
+lim
t0
1(t
2
|d|
2
)
t
2
. .
=0
0.
Pe de alta parte, pentru demonstrat ia implicat iei inverse, folosim expresia restului Taylor
pentru un parametru [0, 1]:
f(x
2
) = f(x
1
) +f(x
1
)
T
(x
2
x
1
) +
1
2
(x
2
x
1
)
T

2
f(x
1
+ (x
2
x
1
))(x
2
x
1
)
. .
0, datorita (3.2).
f(x
1
) +f(x
1
)
T
(x
2
x
1
)
si apoi utiliz am condit iile de ordinul I.
Example 3.2.5
1. Funct ia f(x) = log(x) este convexa pe R
++
deoarece
2
f(x) =
1
x
2
> 0 oricare ar
x > 0.
2. Funct ia patratica f(x) =
1
2
x
T
Qx + q
T
x + r este convexa pe R
n
daca si numai daca
Q0, deoarece x R
n
:
2
f(x) = Q. Se observa ca orice funct ie ana este convexa
si de asemenea, concava.
CHAPTER 3. TEORIE CONVEX

A 29
3. Funct ia f(x, t) =
x
T
x
t
este convexa pe R
n
(0, ) deoarece matricea Hessiana

2
f(x, t) =
_
2
t
I
n

2
t
2
x

2
t
2
x
T 2
t
3
x
T
x
_
este pozitiv denita pe aceasta mult ime. Pentru a scoate n evident a acest lucru, se
nmult este la dreapta si la stanga cu v = [z
T
s]
T
R
n+1
de unde rezulta v
T

2
f(x, t)v =
2
t
3
|tz sx|
2
0 daca t > 0.
Theorem 3.2.6 (Convexitatea mult imilor subnivel) Pentru un scalar R, mult imea
subnivel x
1
domf : f(x
1
) a unei funct ii convexe f : R
n
R este convexa.
Demonstrat ie: Dac a f(x
1
) c si f(x
2
) c atunci pentru orice [0, 1] funct ia f
satisface de asemenea:
f((1 )x
1
+ x
2
) (1 )f(x
1
) + f(x
2
) (1 )c + c = c.
Epigraful funct iei: Fie o funct ie f : R
n
R, atunci epigraful funct iei este denit ca
ind urmatoarea mult ime:
epif =
_
[x
T
t]
T
R
n+1
: x domf, f(x) t
_
.
Theorem 3.2.7 (Proprietatea de convexitate a epigrafului) O funct ie f : R
n
R este
convexa daca si numai daca epiragraful sau este o mult ime convexa.
3.2.4 Operat ii ce conserva proprietatea de convexitate a funct iilor
1. Dac a f
1
si f
2
sunt funct ii convexe si
1
,
2
0 atunci
1
f
1
+
2
f
2
este de asemenea
convexa.
2. Dac a f este convexa atunci g(x) = f(Ax + b) (i.e. compunerea unei funct ii convexe
cu o funct ie an a) este de asemenea, convexa.
CHAPTER 3. TEORIE CONVEX

A 30
3. Fie f : R
n
R
m
R astfel ncat funct ia f(, y) este convexa pentru orice y S R
m
.
Atunci noua funct ie
g(x) = sup
yS
f(x, y)
este de asemenea, convexa.
4. Compunerea cu o funct ie convexa monotona unidimensionala: dac a f : R
n
R
este convexa si g : R R este convexa si monoton cresc atoare, atunci funct ia
g f : R
n
R este de asemenea, convexa.
5. Dac a g si f sunt multidimensionale, i.e. g : R
k
R, iar f : R
n
R
k
, atunci pentru
funt ia h = g f, h: R
n
R, h(x) = g(f(x)) = g(f
1
(x), . . . , f
k
(x)), unde f
i
: R
n
R
putem arma,
h este convexa dac a g este convexa, g este monoton cresc atoare n ecare argu-
ment iar toate funct iile f
i
sunt convexe
h este convexa dac a g este convexa, g este monoton cresc atoare n ecare argu-
ment iar toate funct iile f
i
sunt concave.
Funct ii conjugate: Fie funct ia f : R
n
R, atunci funct ia conjugata, notata cu f

, se
deneste prin
f

(y) = sup
xdom f
y
T
x f(x)
. .
F(x,y)
Din discut ia precedenta rezulta ca funct ia conjugat a f

este convexa indiferent de pro-


priet at ile lui f. Mai mult, domf

= y R
n
: f

(y) nit. O alta consecint a evidenta a


denit iei este inegalitatea Fenchel :
f(x) + f

(y) y
T
x x domf, y domf

.
Example 3.2.8 Pentru funct ia patratica convexa f(x) =
1
2
x
T
Qx, unde Q 0, avem
f

(y) =
1
2
y
T
Q
1
y.
Chapter 4
Concepte fundamentale din teoria
optimizarii
Optimizarea are aplicat ii n extrem de numeroase domenii, dintre care se pot exemplica
urmatoarele:
economie: alocarea resurselor n logistica, investit ii, calcularea unui portfoliu optim.
stiintele exacte: estimare si proiectare de modele pentru seturi de date m asurate,
proiectarea de experimente.
inginerie: proiectarea si operarea n domeniul sistemelor tehnologice (poduri, autove-
hicule, dispozitive electronice), optimizarea motoarelor de cautare.
4.1 Evolut ia teoriei optimizarii
Aparit ia teoriei optimizarii n problemele de extrem (minimum/maximum) ncepe cu cateva
secole naintea lui Hristos. Matematicienii din antichitate prezentau interes pentru un
numar de probleme de tip izoperimetric: e.g. care este curba nchisa de lungime xat a
ce nconjoara suprafat a de arie maxima?

In aceasta perioada au fost folosite abord ari
geometrice pentru rezolvarea problemelor de optimizare si determinarea punctului de optim.
31
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 32
Cu toate acestea, o solut ie riguroas a pentru aceste tipuri de probleme nu a fost gasit a pana
n secolul XIX. Problema izoperimetrica si are originile n legenda reginei Dido, descris a
de Virgil n Eneida.

In primul capitol, Virgil ne povesteste cum, t inut a n captivitate de
propriul sau frate, regina evadeaza si stabileste fundat ia viitorului oras al Cartaginei prin
delimitarea sa cu fasii din piele de bizon.

In acest fel ia nastere problema nconjurarii unei
suprafet e de arie maxima cu constrangerea ca perimetrul gurii rezultate sa e constant.
Legenda spune ca, fenicienii au taiat pielea de bizon n fasii subt iri si n acest fel, au reusit
sangradeasca o suprafat a foarte mare. Nu este exclus faptul ca supusii reginei sa rezolvat
o versiune practic a a problemei. Fundat ia Cartaginei dateaz a din secolul al nou alea nainte
de Hristos cand nu exista nicio urma a geometriei Euclidiene. Problema reginei Dido are o
solut ie unica n clasa gurilor convexe cu condit ia ca partea xat a a frontierei este o linie
convexa poligonal a.
Figure 4.1: Problema reginei Dido (problema izoperimetrica)
Exist a si alte metode pe care matematicienii din perioada ce preced a calculul diferent ial
le foloseau pentru a rezolva probleme de optimizare, si anume abord arile algebrice. Una
dintre cele mai elegante este inegalitatea mediilor:
x
1
+ + x
n
n
(x
1
x
n
)
1/n
x
i
0, n 1
cu egalitate dac a si numai dac a x
1
= = x
n
. O simpl a aplicat ie este urmatoarea: pentru
a ar ata ca din mult imea tuturor dreptunghiurilor cu arie xa, patratul are cel mai mic
perimetru, putem folosi acest a simpl a inegalitate algebrica: dac a not am cu x si y laturile
dreptunghiului, atunci problema se reduce la a determina anumite valori pentru x si y astfel
ncat sa se minimizeze perimetrul 2(x+y) cu constrangerea xy = A, unde A este aria dat a.
Din inegalitatea mediillor avem
x + y
2

xy =

A
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 33
cu egalitate dac a x = y =

A.
Optimizarea deciziilor a devenit o stiint a ncep and cu a doua jumatate a secolului XIX-lea
cand calculul diferent ial a fost puternic dezvoltat. Folosirea metodei gradient (adic a uti-
lizarea derivatei funct iei obiectiv) pentru minimizare a fost presentata de Cauchy n 1847.
Metode de optimizare moderne au fost pentru prima dat a propuse ntr-o lucrare de Courant
(1943) unde introduce not iunea de funct ie penalitate, lucrarea lui Dantzig (1951) unde
prezinta metoda simplex pentru programare liniar a, Karush-Kuhn-Tucker care deriveaz a
condit iile de optimalitate KKT pentru probleme de optimizare constrans a (1939,1951).
Apoi, n anii 1960 foarte multe metode au fost propuse pentru a rezolva probleme de opti-
mizare neliniara: metode pentru optimizare far a constrangeri cum ar metoda gradient ilor
conjugat i dat a de Fletcher and Reeves (1964), metode de tip quasi-Newton dat a de Davis-
Fletcher-Powell (1959). Metode de optimizare cu constrangeri au fost propuse de Rosen
(metoda gradientului proiectat), Zoutendijk a propus metoda direct iilor fezabile (1960),
Fiacco si McCcormick propune nca din anii 1970 metodele de punct interior si exterior.
Metodele de programare patratic a secvent iala (SQP) au fost de asemenea propuse n anii
1970. Dezvoltarea de metode de punct interior pentru programarea liniar a a nceput cu
lucrarea lui Karmakar (1984). Aceasta lucrare si patentarea ei ulterioara a determinat
communitatea academica sa se reorienteze iarasi n direct ia metodelor de punct interior
care a culminat cu cartea lui Nesterov si Nemirovski din 1994. Pe lang a metodele de tip
gradient, au fost dezvoltate si alte tipuri de metode care nu se bazau pe informat ia de
gradient.

In aceasta direct ie putem aminti metoda simplex a lui Nelder si Meade (1965).
Metode speciale care exploateaz a structur a particular a a unei probleme au fost de asemenea
dezvoltate nca din anii 1960. A aparut de asemenea programarea dinamic a ce se baza pe
rezultatele lui Bellman (1952). Lasdon a atras atent ia asupra problemelor de dimensiuni
mari prin cartea publicat a n 1970. Optimalitatea Pareto a fost dezvoltat a pentru opti-
mizare multiobiectiv. Metode heuristice au fost de asemenea dezvoltate: algoritmii genetici
(1975).
Un exemplu de problem a simpl a de inginerie civila ce poate rezolvata prin calcule este
prezentata n cele ce urmeaza. Fie dou a orase localizate pe maluri diferite ale unui rau cu
l at ime constanta w; orasele se aa la distant a a si respectiv b de rau, cu o separare lateral a
d. Problema const a n a aa locat ia de construct ie a unui pod pentru a face cat mai scurt a
posibil calatoria ntre cele dou a orase. Aceasta problem a se poate pune ca o problem a de
optimizare:
min
x
f(x),
unde f(x) =

x
2
+ a
2
+w+
_
b
2
+ (d x)
2
. Impunand f

(x) = 0, obt inem locat ia optima


CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 34
x

=
ad
a+b
.
Figure 4.2: Aplicat ie a localizarii optime.
4.2 Care sunt caracteristicile unei probleme de opti-
mizare?
O problem a de optimizare cont ine urmatoarele trei incrediente:
O funct ie obiectiv, f(x), ce va minimizat a sau maximizat a,
variabile de decizie, x, care se pot alege dintr-o anumita mult ime, si
constrangerile ce vor respectate, e.g. de forma g(x) 0 (constrangeri de inegalitate)
si/sau h(x) = 0 (constrangeri de egalitate).
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 35
Formularea matematica n forma standard a unei probleme de optimizare este urmatoarea:
min
xR
n
f(x)
s.l.: g
1
(x) 0, . . . , g
m
(x) 0
h
1
(x) = 0, . . . , h
p
(x) = 0.
Daca introducem notat iile g(x) = [g
1
(x) . . . g
m
(x)]
T
si h(x) = [h
1
(x) . . . h
p
(x)]
T
, atunci n
forma compact a problema de optimizare de mai sus se scrie ca:
(NLP) : min
xR
n
f(x)
s.l.: g(x) 0, h(x) = 0.

In aceasta problem a, funct ia obiectiv f : R


n


R, funct ia vectoriala ce deneste con-
strangerile de inegalitate g : R
n
R
m
si funct ia vectoriala ce deneste constr angerile de
egalitate h : R
n
R
p
se presupune de obicei a diferent iabile.
Example 4.2.1
min
xR
2
x
2
1
+ x
2
2
s.l. x 0, x
2
1
+ x
2
1 0
x
1
x
2
1 = 0.

In acest exemplu avem:


- funct ia obiectiv f(x) = x
2
1
+ x
2
2
este funct ie convexa
- avem 3 constrangeri de inegalitate: g : R
2
R
3
, unde g
1
(x) = x
1
, g
2
(x) = x
2
si
g
3
(x) = x
2
1
+ x
2
1
- o singura constrangere de egalitate: h(x) = x
1
x
2
1
Denition 4.2.2
1. Mult imea x R
n
: f(x) = c este mult imea nivel a funct iei f pentru valoarea c R.
2. Mult imea fezabila a problemei de optimizare(NLP) este
X = x R
n
: g(x) 0, h(x) = 0.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 36
3. Punctul x

R
n
este un punct de minim global (adesea denumit minim global) daca
si numai daca x

X si f(x

) f(x) oricare ar x X.
4. Punctul x

R
n
este un punct strict de minim global daca si numai daca x

X si
f(x

) < f(x) oricare ar x X x

5. Punctul x

R
n
este minim local daca si numai daca x

X si exista o vecinatate
A a lui x

(e.g. o bila deschisa cu centrul n x

) astfel ncat f(x

) f(x) oricare ar
x X A.
6. Punctul x

R
n
este un punct strict de minim local daca si numai daca x

X si
exista o vecinatate A a lui x

astfel ncat f(x

) < f(x) oricare ar x (XA)x

.
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
6
5
4
3
2
1
0
1
2
3
Punct de minim local x
*
L
Punct de minim local x
*
L
Punct de minim global x
*
G
Punct de maxim local
Punct de maxim global
Figure 4.3: Puncte de minim local (x

L
) si punctul de minim global (x

G
) pentru f(x) =
cos(5x)/x n intervalul [0.1 1.1].
Example 4.2.3 Pentru urmatoarea problema unidimensionala
min
xR
cos 5x
x
s.l. x 0.1, x 1.1
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 37
funct ia obiectiv este f(x) =
cos 5x
x
si mult imea fezabila este X = x R : x
0.1, x 1.1 = [0.1 1.1]
reprezent and grac funct ia n Matlab putem identica trei puncte de minim local
un singur minim global.
Example 4.2.4 Consideram urmatoarea problema de optimizare
min
xR
2
(x
1
3)
2
+ (x
2
2)
2
s.l. x
2
1
x
2
3 0, x
2
1 0, x
1
0.
Funct ia obiectiv si cele trei constrangeri de inegalitate sunt: f(x
1
, x
2
) = (x
1
3)
2
+ (x
2

2)
2
, g
1
(x
1
, x
2
) = x
2
1
x
2
3, g
2
(x
1
, x
2
) = x
2
1, g
3
(x
1
, x
2
) = x
1
. Fig 4.4 ilustreaza
mult imea fezabila. Problema se reduce la a gasi un punct n mult imea fezabila cu cea mai
mica valoare a lui (x
1
3)
2
+(x
2
2)
2
. Observam ca punctele [x
1
x
2
]
T
cu (x
1
3)
2
+(x
2
2)
2
=
c sunt cercuri de raza c cu centru n [3 2]
T
. Aceste cercuri se numesc mult imile nivel sau
contururile funct iei obiectiv avand valoarea c. Pentru a minimiza c trebuie sa gasim cercul
cu cea mai mica raza care intersecteaza mult imea fezabila. Dupa cum se observ a din Fig.
4.4, cel mai mic cerc corespunde lui c = 2 si intersecteaza mult imea fezabila n punctul de
optim x

= [2 1]
T
.
5 4 3 2 1 0 1 2 3 4 5
5
4
3
2
1
0
1
2
3
4
5
g
1
g
3
contururi functie obiectiv
punct optim (2,1)
zona fezabila
g
2
(3,2)
Figure 4.4: Solut ia graca a problemei de optimizare.

In teoria optimizarii un aspect important l reprezinta existent a punctelor de minim.


Urm atoarea teorem a ne arata cand astfel de puncte de optim exist a:
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 38
Theorem 4.2.5 (Weierstrass) Daca mult imea fezabila X R
n
este compacta (i.e. marginita
si nchisa) si f : X R este continua atunci exista un punct de minim global pentru prob-
lema de minimizare min
xX
f(x).
Proof: Observam ca gracul funct iei f poate reprezentat prin G = (x, t) R
n
R :
x X, f(x) = t. Mult imea G este o mult ime compact a si proiect ia lui G pe ultima sa
coordonat a este de asemenea compact a. Mai exact, mult imea Proj
R
G = t R : x
R
n
astfel ncat (x, t) G este un interval compact [f
min
f
max
] R. Prin construct ie,
exist a cel put in un x

X astfel ncat (x

, f
min
) G.
Din teorema anterioar a concluzionam ca punctele de minim exist a n condit ii relativ gen-
erale. Cu toate ca demonstrat ia a fost constructiva, nu conduce catre un algoritm ecient
pentru a gasi punctul de minim. Scopul acestei lucr ari este de a prezenta principalii algo-
ritmi numerici de optimizare care determina punctele de optim.
4.3 Tipuri de probleme de optimizare
Pentru alegerea algoritmului potrivit pentru o problem a practica, avem nevoie de o clasi-
care a acestora si informat ii despre structurile matematice exploatate de ei.

Inlocuirea
unui algoritm inadecvat cu unul ecient poate scurta gasirea solut iei cu mai multe ordine
de magnitudine.
4.3.1 Programare neliniara (NLP - NonLinear Programming)
Acest curs trateaza in principal algoritmi proiectat i pentru probleme generale de Progra-
mare Neliniara (NLP) de forma:
(NLP) : min
xR
n
f(x) (4.1)
s.l. g(x) 0, h(x) = 0,
unde funct iile f : R
n


R, g : R
n
R
m
si h : R
n
R
p
, se presupun a continuu
diferent iabile cel put in odat a, iar in unele cazuri de dou a sau de mai multe ori.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 39
L
x
1
y
1
l
Figure 4.5: Problema de mpachetare.
Minimizarea dimensiunii unui pachet - Care este cel mai mic pachet ce cont ine 3
obiecte rotunde de raze r
1
, r
2
si r
3
date? Consideram problema n R
2
, extensia n R
3
este
imediata. Notam cu (x
i
, y
i
) coordonatele plane ale celor 3 obiecte si cu l si L laturile
pachetului. Dorim sa minimizam aria l L astfel ncat urmatoarele constr angeri au loc:
- ecare obiect se aa n pachet:
x
i
r
i
, y
i
r
i
, x
i
l r
i
, y
i
L r
i
i = 1, 2, 3
- dimensiunile sunt numere pozitive
x
i
0, y
i
0, l 0, L 0 i = 1, 2, 3
- cele 3 obiecte nu se suprapun
(x
i
x
j
)
2
+ (y
i
y
j
)
2
(r
i
+ r
j
)
2
i ,= j = 1, 2, 3.

In acest caz, problema de mai sus se poate pune ca o problem a de optimizare (NLP) unde
variabila de decizie este x = [x
1
y
1
x
2
y
2
x
3
y
3
l L]
T
:
min
xR
8
l L
s.l. x 0, x
i
r
i
, y
i
r
i
, x
i
l r
i
, y
i
L r
i
(x
i
x
j
)
2
+ (y
i
y
j
)
2
(r
i
+ r
j
)
2
i ,= j = 1, 2, 3.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 40
Observ am ca n problema de mai sus funct ia obiectiv f(x) = l L nu este convexa.

In
anumite situat ii nsa, multe dintre probleme prezinta structuri particulare, care pot ex-
ploatate pentru o rezolvare mai rapid a a acestora.

In cele ce urmeaza enumer am cele mai
importante clase de probleme de optimizare.
4.3.2 Programare liniara (LP - Linear Programming)

In cazul in care funct iile f, g si h din formularea generala (4.1) sunt ane, problema NLP
devine un Program Liniar (LP - Linear Program). Mai exact, un LP poate denit ca:
(LP) : min
xR
n
c
T
x (4.2)
s.l. Cx d 0, Ax b = 0.
Datele problemei sunt: c R
n
, A R
pn
, b R
p
, C R
mn
, si d R
m
. Se observa ca
putem adauga o constanta la funct ia obiectiv, i.e. avem f(x) = c
T
x + c
0
, nsa asta nu
schimba punctul de minim x

.
Aplicat ie nanciara: Consideram un numar n de produse nanciare si x
i
reprezinta suma
investita n activul i. Notam cu r
i
(t) = 1+ rata de rentabilitate si c
i
rata de rentabilitate
medie peste o perioada de T ani (adica c
i
=
1
T

T
t=1
r
i
(t)) a produsului i. Dorim sa
maximizam protul:
max
xR
n
n

i=1
c
i
x
i
s.l. x 0,
n

i=1
x
i
= 1.
LP-urile pot rezolvate foarte ecient.

Inca din anii 1940 aceste probleme au putut
rezolvate cu succes, odat a cu aparit ia metodei simplex dezvoltat a de G. Dantzig. Metoda
simplex este o metoda de tip mult ime activa si care este n competit ie cu o clas a la fel de
ecienta de algoritmi numit i algoritmi de punct interior.

In zilele noastre se pot rezolva LP-
uri chiar si cu milioane de variabile si constrangeri, orice student din domeniul nant elor
av and n curriculum principalele metode de rezolvare a acestora. Algoritmii specializat i
pentru LP nu sunt tratat i n detaliu in acest curs, nsa trebuie recunoscut i atunci cand sunt
ntalnit i n practic a av and la dispozit ie mai multe produse software: CPLEX, SOPLEX,
lp solve, lingo, MATLAB (linprog), SeDuMi, YALMIP.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 41
4.3.3 Programare patratica (QP - Quadratic Programming)
Dac a n formularea generala NLP (4.1) constrangerile g si h sunt ane (ca si n cazul prob-
lemei LP), nsa funct ia obiectiv este o functie patratic a, problema care rezulta se numeste
Problema de Programare P atratic a (QP - Quadratic Program). O problem a generala QP
poate formulata dupa cum urmeaza:
(QP) : min
xR
n
1
2
x
T
Qx + q
T
x + r (4.3)
s.l. Cx d 0, Ax b = 0.
Aici, n plus fat a de datele problemei LP, avem matricea Hessiana simetric a Q R
nn
.
Numele sau provine din relat ia
2
x
f(x) = Q, unde f(x) =
1
2
x
T
Qx + q
T
x + r.
Dac a matricea Hessian a Q este pozitiv semi-denit a (i.e. Q _ 0) atunci numim problema
QP (4.3) o problem a QP convexa. QP-urile convexe sunt cu mult mai usor de rezolvat global
dec at QP-urile neconvexe (i.e., unde matricea Hessian a Q nu este pozitiv semi-denit a),
ce pot avea diferite minime locale. Dac a matricea Hessian a Q este pozitiv denit a (i.e.
Q 0) numim problema QP (4.3) o problem a QP strict convexa. QP-urile strict convexe
sunt o subclas a a problemelor QP convexe, dar de cele mai multe ori mai usor de rezolvat
dec at QP-urile care nu sunt strict convexe.
Example 4.3.1 Exemplu de QP care nu este convex:
min
xR
2
1
2
x
T
_
5 0
0 1
_
x +
_
0
2
_
T
x
s.t. 1 x
1
1
1 x
2
10.
Aceasta problema are minime locale n x

1
= [0 1]
T
si x

2
= [0 10]
T
, nsa doar x

2
este
minim global.
Exemplu de QP strict convex:
min
xR
2
1
2
x
T
_
5 0
0 1
_
x +
_
0
2
_
T
x
s.t. 1 x
1
1
1 x
2
10.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 42
Problema de mai sus are un punct de minim local (strict) unic n x

= [0 1]
T
care este
de asemenea minim global.
Aplicat ie nanciara - continuare: Observam ca n problema considerata n sect iunea
4.3.2 nu s-a luat n considerare riscul. Riscul este dat de uctuat ia ratei de rentabilitate
r
i
(t) de-a lungul celor T ani. Minimizarea riscului este echivalenta cu minimizarea variantei
investit iei (risk averse).

In acest caz, matricea de covariant a Q se exprima astfel:
Q
ij
=
2
ij
=
1
T
T

i=1
(r
i
(t) c
i
)(r
j
(t) c
j
).
Problema minimizarii riscului poate formulata ca un QP:
min
xR
n
1
2
x
T
Qx
s.l. x 0,
n

i=1
c
i
x
i
R,
n

i=1
x
i
= 1.
Constr angerea

n
i=1
c
i
x
i
R se impune pentru a asigura cel put in un prot R.

In practic a avem la dispozit ie mai multe produse software pentru rezolvarea de QP-uri:
MOSEC, MATLAB (quadprog), SeDuMi, YALMIP.
4.3.4 Optimizare convexa (CP - Convex Programming)
Ambele tipuri de probleme LP si QP apart in unei clase mai largi de probleme de optimizare,
si anume probleme de optimizare convexe. O problem a de optimizare cu o mult ime fezabila
X convexa si o funct ie obiectiv f convexa se numeste problema de optimizare convexa (CP
- Convex Programming), i.e.
(CP) : min
xR
n
f(x) (4.4)
s.l. g(x) 0, Ax b = 0,
unde f : R
n
R si componentele lui g : R
n
R
m
sunt funct ii convexe si constr angerile
de egalitate sunt descrise de funct ii ane h(x) = Ax b, unde A R
pn
si b R
p
.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 43
Example 4.3.2 Programare patratica cu constrangeri patratice (Quadratically Constrained
Quadratic Program (QCQP)): O problema de optimizare convexa de forma (4.4) cu funct iile
f si componentele lui g patratice convexe, se numeste problema patratica cu constrangeri
patratice:
(QCQP) : min
xR
n
1
2
x
T
Qx + q
T
x + r
s.l.
1
2
x
T
Q
i
x + q
T
i
x + r
i
0 i = 1, . . . , m
Ax b = 0.
Alegand Q
1
= = Q
m
= 0 obt inem o problema uzuala QP, iar daca n plus alegem Q = 0
obt inem un LP. De aceea, clasa problemelor QCQP cont ine si clasa LP-urilor si pe cea
a QP-urilor. Daca matricele Q si Q
i
cu i = 1, . . . , m sunt pozitive semidenite atunci
problema (QCQP) este convexa.
Analiza statistica: Analiza datelor si interpretarea acestora ntr-un sens cat mai corect
este preocuparea principala din domeniul statisticii. Problema central a de care se ocup a
aceasta disciplin a se formuleaz a n urmatorul mod: pe baza unei colect ii de date cunoscute
(reprezentate n gura prin puncte), sa se realizeze predict ia cu o eroare cat mai mic a a
unui alt set de date part ial cunoscut.

In termeni matematici, aceast a problem a presupune
determinarea unei direct ii de-a lungul careia elementele date (punctele) tind sa se alinieze,
astfel ncat sa se poat a predicta zona de aparit ie a punctelor viitoare. S-a constatat ca
direct ia de cautare este dat a de vectorul singular corespunz ator celei mai mici valori singu-
lare al matricii formate din colect ia de puncte date, ce poate gasit prin intermediul unei
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 44
probleme de optimizare convexa:
min
xR
n
1
2
x
T
A
T
Ax
s.l. x
T
x 1,
unde A R
mn
reprezinta matricea ale carei coloane sunt vectorii (punctele) cunoscute
init ial a
1
, . . . , a
n
.
Example 4.3.3 Programare semidenita (SDP - Semidenite Programming) O clasa im-
portanta de probleme de optimizare convexa foloseste inegalitat i liniare matriceale (LMI)
pentru a descrie mult imea fezabil a. Datorita naturii constrangerilor ce impun ca anumite
matrice sa ramana pozitiv semi-denite, aceasta clasa de probleme se numeste Programare
Semidenita (SDP). O problema generala SDP poate formulata dupa cum urmeaza:
(SDP) : min
xR
n
c
T
x
s.l. A
0
+
n

i=1
A
i
x
i
0, Ax b = 0,
unde matricile A
i
S
m
oricare ar i = 0, . . . , n. Remarcam ca problemele LP, QP, si
QCQP pot de asemenea formulate ca probleme SDP. Programarea Semidenita este un
instrument des utilizat n teoria sistemelor si control.
Minimizarea valorii proprii maxime: a unei matrici poate formulata ca o problem a
SDP. Avem o matrice simetrica G(x) care depinde an de anumite variabile structurale
x R
n
, i.e. G(x) = A
0
+

n
i=1
A
i
x
i
cu A
i
S
m
oricare ar i = 0, , n. Dac a dorim sa
minimizam valoarea proprie maxima a lui G(x) n funct ie de x, i.e. sa rezolv am
min
xR
n

max
(G(x))
putem formula aceasta problem a ca un SDP, dup a cum urmeaza: adaug and o variabil a
auxiliar a t R si t in and cont ca t
max
(G(x)) este echivalent cu un LMI tI
m
G(x)
obt inem
min
tR,xR
n
t
s.l. tI
m

i=1
A
i
x
i
A
0
0.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 45
Doua produse software excelente pentru formularea si rezolvarea problemelor de optimizare
convexa n mediul de programare MATLAB sunt YALMIP si CVX, ce se pot gasi open-
source si sunt foarte usor de instalat.
4.3.5 Probleme de optimizare neconstransa (UNLP - Unconstrained
NonLinear Programming)
Orice NLP far a constrangeri se numeste problema de optimizare neconstransa (Uncon-
strained Nonlinear Programming (UNLP)). Are forma generala:
(UNLP) : min
xR
n
f(x). (4.5)
Metode numerice de optimizarea neliniara far a constrangeri va subiectul P art ii II a acestei
lucr ari, n timp ce algoritmi pentru probleme generale constranse vor studiate n Partea
a III-a. Cel mai utilizat software pentru programare neconstr ans a este Matlab cu funct iile
fminunc si fminsearch.
Probleme de Optimizare Nediferent iabila: Dac a una sau mai multe funct ii f, g si
h din structura problemei (4.1) nu sunt diferent iabile avem o problem a de optimizare
nediferent iabila. Problemele de optimizare nediferent iabil a sunt mult mai greu de rezolvat
decat NLP-urile generale. Exista un numar mai redus de algoritmi pentru a rezolva astfel de
probleme: metoda subgradient, metoda Nelder-Mead, cautare aleatoare, algoritmi genetici,
etc. De obicei acesti algorithmi sunt de regul a mult mai slabi din punct de vedere numeric
dec at algoritmii bazat i pe informat ie de tip gradient si Hessian a (si care sunt subiectul
acestui curs).
4.3.6 Programare mixta cu ntregi (MIP - Mixed Integer Pro-
gramming)
O problem a de programare mixt a cu ntregi este o problem a n care anumite variabile de
decizie sunt constranse la o mult ime de numere ntregi. Un MIP poate formulat dup a
cum urmeaza:
(MIP) : min
xR
n
,zZ
m
f(x, z)
s.l. g(x, z) 0, h(x, z) = 0.
CHAPTER 4. CONCEPTE FUNDAMENTALE DIN TEORIA OPTIMIZ

ARII 46

In general, aceste probleme sunt foarte greu de rezolvat, datorita naturii combinatoriale
a variabilei z. Cu toate astea, dac a problema relaxata, unde variabilele z nu mai sunt
restranse la ntregi, ci la mult imi de numere reale, este convexa, de regul a exist a algoritmi
ecient i pentru rezolvarea lor. Algoritmii ecient i de gasire a solut iei sunt adesea bazat i
pe tehnica branch-and-bound, care foloseste probleme part ial relaxate unde unele variabile
din z sunt xate la anumite valori ntregi si unele sunt relaxate exploat and proprietatea ca
solut ia problemelor relaxate este ntotdeauna mai bun a decat orice solut ie cu componente
ntregi.

In acest fel, cautarea n trei poate avea loc mult mai ecient dec at o pur a vericare
a elementelor mult imii fezabile. Doua exemple importante de asemenea probleme sunt date
n cele ce urmeaza:
Program liniar mixt cu ntregi (MILP): dac a funct iile f, g si h sunt ane n ambele
variabile x si z obt inem un program liniar mixt cuntregi. O problem a faimoasa din aceasta
clas a este problema comis-voiajorului.
Program patratic mixt cuntregi (MIQP): dac a g si h sunt funct ii ane si f patratic a
convexa n ambele variabile x si z rezulta o problem a (MIQP).
Probleme (MILP)/(MIQP) de dimensiuni mici/medii (adic a dimensiunea variabilei n <
100) pot rezolvate ecient de pachete de sotware comerciale CPLEX, TOMLAB sau lp_solve.
Part II
Optimizare neconstransa
47
Chapter 5
Metode de optimizare
unidimensionala
Dupa cum vom vedea n capitolele urmatoare metodele bazate pe direct ii de descrestere
presupun gasirea unui pas care, ideal, trebuie ales optim. Astfel de metode se mai numesc si
metode de cautare exacta.

In aceasta situat ie, trebuie sa calculam parametrul optim

ce
determina valoarea minima a funct iei obiectiv f n direct ia d, cu alte cuvinte minimizarea
funct iei () = f(x +d). Din acest motiv, n acest capitol analizam metode numerice de
optimizare unidimensionala, adica pentru funct ii de o singura variabil a f : R R:
min
R
f(). (5.1)
Metodele de optimizare unidimensionala se bazeaz a e pe cautare directa sau pe aproxi-
marea funct iei f cu un polinom ce se determina prin interpolare folosind valorile funct iei
si/sau derivatele funct iei obiectiv n anumite puncte.

In metodele de cautare principiul de
baz a este urmatorul: se identic a intervalul [a b] R ce include punctul de minim

,
numit si intervalul de cautare sau intervalul de incertitudine, urmat apoi de o reducere
iterativ a a lungimii acestuia pana la o valoare ce coboar a sub tolerant a impusa pentru
a localiza

. Ecient a acestei abord ari depinde de strategia de construct ie a sirului de


intervale [a
k
b
k
], k = 1, 2, , ce l cont in pe

. Cele mai renumite metode de cautare


unidimensionala sunt: metoda sect iunii de aur si metoda lui Fibonacci, pe care le vom
prezenta n acest capitol. Metoda clasic a Newton-Raphson si metoda secantei sunt de
asemenea considerate membrii ai aceleiasi clase. Pe de alta parte, metodele de interpolare
gasesc o aproximare a lui

folosind valori ale funct iei obiectiv f() n puncte din inter-
48
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 49
valul init ial de cautare [a b], sau pot folosi valoarea funct iei obiectiv si derivata sa f

()
n anumite puncte din [a b]. Prin intermediul acestor valori se formeaza polinomul de
interpolare de gradul doi sau mai mare, q(), al funct iei f() si este determinat punctul
de minim al funct iei q(). Printre cele mai renumite metode de interpolare se num ara
cea patratic a (n doua sau trei puncte) si cea cubic a.
5.1 Metoda forward-backward pentru funct ii unimodale
O metoda simpl a de determinare a unui interval init ial de cautare, adica determinarea
unui interval care cont ine punctul de optim

, este dat a de metoda forward-backward.


Ideea de baz a este urmatoarea: dand un punct init ial si o lungime a pasului se ncearc a
determinarea a dou a puncte pentru care funct ia are o forma geometric a convexa pe acel
interval cu capetele n cele dou a puncte. Metoda presupune urmatorii pasi: e un punct
init ial
0
si lungimea pasului h
0
> 0
- dac a f(
0
+h
0
) < f(
0
) atunci se ncepe din punctul
0
+h
0
si se continua cu o lungime
a pasului mai mare cat timp valoarea funct iei creste ;
- dac a f(
0
+ h
0
) > f(
0
), atunci ne deplasam din
0
napoi pana cand valoarea funct iei
creste.

In acest fel vom obt ine un interval init ial ce cont ine valoarea optima

. Metoda forward-
backward se bazeaz a pe propriet at ile de unimodalitate ale funct iilor .
Denition 5.1.1 Fie funct ia f : R R si un interval [a b] R. Daca exista

[a b]
astfel incat f este strict descrescatoare pe intervalul [a

] si strict crescatoare pe intervalul


[

b], atunci f se numeste funct ie unimodala pe intervalul [a b]. Intervalul [a b] se numeste


interval de unimodalitate pentru f.
Se observa imediat ca funct iile unimodale nu implica continuitate si diferent iabilitate.
Urm atoarea teorem a arata ca dac a f este unimodala atunci intervalul de incertitudine
poate redus comparand valorile lui f n doar dou a puncte ale intervalului.
Theorem 5.1.2 Fie funct ia unimodala f : R R pe intervalul [a b] si
1
,
2
[a b] cu

1
<
2
atunci:
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 50
- daca f(
1
) f(
2
), atunci [a
2
] este interval de unimodalitate pentru f.
- daca f(
1
) f(
2
), atunci [
1
b] este interval de unimodalitate pentru f.
Pentru o expunere mai usoara presupunem ca punctul de minim se gaseste n R
+
.
Algoritm (Metoda forward-backward).
Pas 1. Fie un
0
[0 ), h
0
> 0 si coecientul multiplicativ t > 1 (adesea se alege t = 2).
Evaluam f(
0
) = f
0
si k = 0.
Pas 2. Compar am valorile funct iei obiectiv. Actualizam
k+1
=
k
+ h
k
si evalu am f
k+1
=
f(
k+1
). Dac a f
k+1
< f
k
, sarim la Pas. 3; altfel, sarim la Pas. 4.
Pas 3. Pas forward. Actualizam h
k+1
= th
k
, =
k
,
k
=
k+1
, f
k
= f
k+1
si k = k + 1,
sarim la Pas 2.
Pas 4. Pas backward. Dac a k = 0, inversam direct ia de cautare. Lu am h
k
= h
k
,
k
=
k+1
,
sarim la Pas. 2; altfel, consider am
a = min ,
k+1
, b = max,
k+1
,
returnam intervalul [a b] ce cont ine punctul de minim

si ne oprim.
5.2 Metode de cautare
Metoda sect iunii de aur si metoda lui Fibonacci sunt metode de partit ionare. Ideea din
spatele acestor metode de minimizare a funct iilor unimodale pe intervalul [a b] R este
reducerea iterativ a a intervalului de incertitudine doar comparand valorile funct iei obiectiv.
O dat a ce lungimea intervalului de incertitudine este mai mic a dec at un prag prestabilit,
atunci punctele din acest interval pot considerate aproximari ale valorii minime a funct iei
n direct ia dat a. Aceasta clas a de metode foloseste doar valoarea funct iei obiectiv si are un
rol important n algoritmii de optimizare, n special cand ne confruntam cu funct ii obiectiv
nediferent iabile sau funct ii obiectiv ale caror derivate prezinta forme complicate.
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 51
5.2.1 Metoda sect iunii de aur
Consideram funct ia f unimodala pe intervalul [a b] si denim a
1
= a si b
1
= b. La iterat ia
k, metoda sect iunii de aur determina intervalul [a
k+1
b
k+1
] astfel ncat

[a
k+1
b
k+1
].

In
acest moment consider am dou a puncte
k
,
k
[a
k
b
k
] unde
k
<
k
si calculam f(
k
) si
f(
k
), vezi Fig. 7.2. Din teorema precedenta rezulta:
(i) Dac a f(
k
) f(
k
) atunci a
k+1
= a
k
si b
k+1
=
k
.
(ii) Dac a f(
k
) > f(
k
) atunci a
k+1
=
k
si b
k+1
= b
k
.
f()
a
k

k

k
b
k
f(
k
)>f(
k
)

k
a
k
=b
k

k
f(
k
)
f(
k
)
b
k

k
a
k
Figure 5.1: Exemplu de pas pentru metoda sect iunii de aur
R am ane sa discutam alegerea punctelor
k
si
k
.

In acest scop impunem urmatoarele trei
condit ii:
1. Distant ele de la
k
si respectiv
k
la capetele intervalului [a
k
b
k
] sunt egale:
b
k

k
=
k
a
k
. (5.2)
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 52
2. Rata de micsorare a lungimii intervalelor de incertitudine la ecare iterat ie este
aceeasi, rezultand
b
k+1
a
k+1
= (b
k
a
k
) unde (0 1). (5.3)
3. Este necesara o singura evaluare a funct iei obiectiv pentru o nou a iterat ie.
Dac a substituim valorile ce constituie cazul (i) n (5.3) obt inem
k
a
k
= (b
k
a
k
) si prin
combinarea cu (5.2) avem b
k

k
=
k
a
k
. Prin rearanjarea acestor egalitat i avem:

k
= a
k
+ (1 )(b
k
a
k
) (5.4)

k
= a
k
+ (b
k
a
k
). (5.5)

In acest caz, noul interval este [a


k+1
b
k+1
] = [a
k

k
]. Pentru a reduce intervalul de incerti-
tudine este necesara select ia parametrilor
k+1
si
k+1
. Din (5.5) rezulta

k+1
= a
k+1
+ (b
k+1
a
k+1
) = a
k
+ (
k
a
k
)
= a
k
+ (a
k
+ (b
k
a
k
) a
k
) = a
k
+
2
(b
k
a
k
). (5.6)
Considerand

2
= 1 (5.7)
rezulta

k+1
= a
k
+ (1 )(b
k
a
k
) =
k
. (5.8)
Astfel,
k+1
coincide cu
k
si funct ia obiectiv nu necesit a o evaluare deoarece valoarea sa
este stocata n
k
. Cazul (ii) poate demonstrat intr-o manier a similar a, din care rezulta

k+1
=
k
astfel ncat nu este necesara evaluarea funct iei obiectiv.
Algoritm (Metoda sect iunii de aur).
Pas 1. Pasul init ial. Determina intervalul init ial [a
1
, b
1
] si alege precizia > 0. Calculeaz a
primele dou a puncte
1
si
1
:

1
= a
1
+ 0.382(b
1
a
1
)

1
= a
1
+ 0.618(b
1
a
1
)
si evalueaza f(
1
) si f(
1
), init ializeaza k = 1.
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 53
Pas 2. Compar am valorile funct iilor. Dac a f(
k
) > f(
k
), trecem la Pas 3; dac a f(
k
)
f(
k
), trecem la Pas 4.
Pas 3. Dac a b
k

k
, ne oprim si returnam
k
; altfel iter am:
a
k+1
: =
k
, b
k+1
: = b
k
,
k+1
: =
k
f(
k+1
): = f(
k
),
k+1
: = a
k+1
+ 0.618(b
k+1
a
k+1
)
Evaluam f(
k+1
) si trecem la Pas 5.
Pas 4. Dac a
k
a
k
, ne oprim si returnam
k
; altfel iter am:
a
k+1
: =a
k
, b
k+1
: =
k
,
k+1
: =
k
,
f(
k+1
): =f(
k
),
k+1
: = a
k+1
+ 0.382(b
k+1
a
k+1
)
Evaluam f(
k+1
) si trecem la Pas 5.
Pas 5 . Iteram k: = k + 1, revenim la Pas 2.
Observ am ca acest algoritm produce un sir de intervale [a
k
b
k
] astfel ncat punctul de minim

al funct iei f se aan ecare din aceste intervale. Mai departe ne concentr am spre analiza
ratei de reduct ie a intervalului de incertitudine. Rezolvand ecuat ia (5.7) obt inem
=
1

5
2
.
Deoarece > 0 consider am
=
b
k+1
a
k+1
b
k
a
k
=

5 1
2

= 0.618 (5.9)

Inlocuind valoarea lui n (5.4) si (5.5) avem

k
= a
k
+ 0.382(b
k
a
k
) (5.10)

k
= a
k
+ 0.618(b
k
a
k
). (5.11)
Deoarece rata de reduct ie este xa la ecare iterat ie, = 0.618, consider and un interval
init ial [a
1
b
1
], dup a k iterat ii lungimea intervalului este
k1
(b
1
a
1
), ceea ce arata ca rata
de convergent a a metodei sect iunii de aur este liniar a.
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 54
5.2.2 Metoda lui Fibonacci

In metoda lui Fibonacci principala diferenta fat a de metoda sectiunii de aur const a n
denit ia legii de reduct ie a intervalului de incertitudine n acord cu sirul lui Fibonacci. Cu
alte cuvinte, rata de reduct ie nu este xa n aceasta metoda, ci variaz a de la un interval la
altul. Sirul lui Fibonacci F
k
este denit de urmatoarea lege:
F
0
= F
1
= 1
F
k+1
= F
k
+ F
k1
k = 1, 2, . . .
Dac a in (5.4) si (5.5) nlocuim cu
F
kj
F
kj+1
atunci

j
= a
j
+
_
1
F
kj
F
kj+1
_
(b
j
a
j
) = a
j
+
F
kj1
F
kj+1
j = 1, . . . , k 1

j
= a
j
+
F
kj
F
kj+1
(b
j
a
j
) j = 1, , k 1. (5.12)
Dac a f(
j
) f(
j
) atunci noul interval de incertitudine este [a
j+1
b
j+1
] = [a
j

j
]. Astfel,
prin (5.12) obt inem:
b
j+1
a
j+1
=
F
kj
F
kj+1
(b
j
a
j
),
ceea ce arata reduct ia la ecare iterat ie. Poate usor observat ca aceast a ecuat ie este de
asemenea valabila pentru f(
j
) > f(
j
). Mai departe, impunem ca lungimea intervalului
nal de incertitudine sa nu depaseasc a o tolerant a dat a > 0, adica b
k
a
k
. Lu and n
considerare
b
k
a
k
=
F
1
F
2
(b
k1
a
k1
) =
F
1
F
2
F
2
F
3

F
k1
F
k
(b
1
a
1
) =
1
F
k
(b
1
a
1
),
avem
F
k

b
1
a
1

. (5.13)
De aceea, av and intervalul init ial [a
1
b
1
] si marginea superioara putem calcula num arul
Fibonacci F
k
si valoarea k din (5.13). Cautarea are loc pana la iterat ia k .
O observat ie importanta n legatura cu ratele de convergent a ale metodelor studiate este ca
odat a ce k metoda Fibonacci si metoda sect iunii de aur au aceeasi rat a de reducere
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 55
a intervalului de incertitudine. Considerand F
k
= r
k
atunci din denit ia sirului Fibonacci
avem r
2
r + 1 = 0 cu radacinile:
r
1
=
1 +

5
2
, r
2
=
1

5
2
.
Solut ia generala a ecuat iei F
k+1
= F
k
+F
k1
este F
k
= Ar
k
1
+Br
k
2
. De aceea, din condit iile
init iale F
0
= F
1
= 1 avem A = 1/

5, B = 1/

5 si
F
k
=
1

5
_
_
_
_
1 +

5
2
_
k

_
1

5
2
_
k
_
_
_
.
Cu aceste relat ii deducem ca
lim
k
F
k1
F
k
=

5 1
2
= . (5.14)
De aceea, ambele metode mpart asesc aceeasi rata de convergent a cand k , nsa
metoda lui Fibonacci este optima n clasa metodelor de cautare.
5.3 Metode de interpolare
Metodele de interpolare pentru minimizare unidimensionala sunt o alternativa foarte e-
cienta pentru metoda sect iunii de aur si cea a lui Fibonacci. Cea mai importanta din acest a
clas a de metode aproximeaza funct ia f cu un polinom de ordin doi sau trei, ce are valori
identice cu derivatele funct iei n anumite puncte si n nal, calculeaza valoarea ce mini-
mizeaz a polinomul.

In cazul general n care funct ia obiectiv prezinta propriet at i analitice
bune, cum ar diferent iabilitatea continua, atunci metodele de interpolare sunt cu mult
mai superioare fat a de metoda sect iunii de aur si cea a lui Fibonacci.
5.3.1 Metode de interpolare patratica
A) Metoda de interpolare n doua puncte (prima varianta) Fie dou a puncte
1
si
2
. Presupunem cunoscute valorile funct iei f n punctele corespunz atoare f(
1
) si f(
2
)
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 56
si derivatele de ordinul I n aceleasi puncte: f

(
1
) si f

(
2
). Construim polinomul de
interpolare de ordinul II:
q() = a
2
+ b + c,
ce satisface urmatoarele condit ii:
q(
1
) = a
2
1
+ b
1
+ c = f(
1
)
q(
2
) = a
2
2
+ b
2
+ c = f(
2
) (5.15)
q

(
1
) = 2a
1
+ b = f

(
1
).
Dac a not am f
1
= f(
1
), f
2
= f(
2
), f

1
= f

(
1
) and f

2
= f(
2
), atunci din (5.15) avem
a =
f
1
f
2
f

1
(
1

2
)
(
1

2
)
2
b = f

1
+ 2
1
f
1
f
2
f

1
(
1

2
)
(
1

2
)
2
.
Mai departe, rezulta ca punctul de minim al polinomului de interpolare este:
=
b
2a
=
1
+
1
2
f

1
(
1

2
)
2

2
f

1
(
1

2
)
=
1

1
2
f

1
(
1

2
)
f

f
1
f
2

2
. (5.16)
Si n nal, obt inem formula de interpolare patratic a:

k+1
=
k

1
2
f

k
(
k

k1
)
f

f
k
f
k1

k1
, (5.17)
unde f
k
= f(
k
), f
k1
= f(
k1
) f

k
= f

(
k
). Algoritmul este foarte simplu: cat timp
k+1
este determinat, se compara cu
k
si
k1
, rezultand o reducere a lungimii intervalului de
incertitudine. Acest proces se repet a pana cand lungimea intervalului scade sub un anumit
prag.
B) Metoda de interpolare n doua puncte (a doua varianta) Fie dou a puncte

1
si
2
, evaluarile funct iei f n punctele corespunz atoare f(
1
) si f(
2
) si derivatele de
ordinul I n aceleasi puncte f

(
1
) si f

(
2
). Construim polinomul de interpolare
q() = a
2
+ b + c,
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 57
ce satisface urmatoarele condit ii:
q(
1
) = a
2
1
+ b
1
+ c = f(
1
)
q

(
1
) = 2a
1
+ b = f

(
1
) (5.18)
q

(
2
) = 2a
2
+ b = f

(
2
).
De aici se obt ine:
=
b
2a
=
1

1
2

2
f

1
f

2
f

1
(5.19)
si formula iterativ a:

k+1
=
k

1
2

k1
f

k
f

k1
f

k
. (5.20)
Theorem 5.3.1 Daca f : R R este de trei ori continuu diferentiabila si exista un

astfel ncat f

) = 0 si f

) ,= 0, atunci sirul
k
generat de (12.9) converge la

cu
rata (1 +

5)/2

= 1.618, i.e. lim


k
|
k+1

|
|
k

|
(1+

5)/2
= cu > 0.
Demonstrat ie: Formula (12.8) poate scrisa si prin intermediul formulei de interpolare
Lagrange:
L() =
(
1
)f

2
(
2
)f

1
,
prin luarea lui L() = 0. Acum, termenul rezidual al formulei de interpolare Lagrange se
consider a ca ind:
f

() L() =
1
2
f

()(
k
)(
k1
) cu ,
k1
,
k
.
Dac a lu am =
k+1
si observand ca L(
k+1
) = 0, avem:
f

(
k+1
) =
1
2
(
k+1

k
)(
k+1

k1
) cu
k1
,
k
,
k+1
, (5.21)

Inlocuind (12.9) in (5.21) avem:


f

(
k+1
) =
1
2
f

()f

k
f

k1
(
k

k1
)
2
(f

k
f

k1
)
2
(5.22)
Din teorema valorii medii stim ca:
(f

k
f

k1
)

k
k 1
= f

(
0
) cu
o
[
k1

k
], (5.23)
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 58
iar drept urmare:
f

i
= f

i
f

) = (
i

)f

(
i
), unde
i
[
i

], i = k 1, k, k + 1. (5.24)
Astfel, din ultimele trei ecuat ii rezulta:

k+1

=
1
2
f

()f

(
k
)f

(
k1
)
f

(
k+1
)f

(
0
)
2
(
k

)(
k1

) (5.25)
Dac a not am distant ele de la
i
la punctul optim

prin e
i
= [
i

[, (i = k 1, k, k, +1)
si consider am valorile m
1
, M
1
, m
2
, M
2
si K
1
, K astfel ncat
0 < m
2
[f

()[ M
2
, 0 < m
1
[f

()[ M
1
K
1
= m
2
m
2
1
/(2M
3
1
), K = M
2
M
2
1
/(2m
3
1
).
Atunci:
K
1
e
k
e
k1
e
k+1
Ke
k
e
k1
Observ and ca f

() si f

() sunt continue n

, avem:

k+1

(
k

)(
k1

)

1
2
f

)
f

)
si obt inem urmatoarea relat ie ntre distant ele pana la punctul de optim:
e
k+1
= Me
k
e
k1
,
unde M = [f

(
1
)/2f

(
2
)[ iar
1

k1
,
k
,

si
2

k1
,
k
. Dac a exist a o
precizie > 0 astfel ncat punctele init iale
0
,
1
(

+ ) si
0
,=
1
, atunci se
poate observa din relat iile anterioare ca secvent a
k
va converge catre

. Am demonstrat
ca
k
converge la

si ne mai ramane sa demonstram rata de convergent a.



In acest scop
not am
i
= Me
i
, y
i
= ln
i
, i = k 1, k, k + 1, iar conform relat iilor anterioare avem:

k+1
=
k

k1
y
k+1
= y
k
+ y
k1
(5.26)
Este evident ca ecuat ia (5.26) reprezinta o secvent a Fibonacci. Ecuat ia caracteristica a
secvent ei Fibonacci si radacinile aferente sunt:
t
2
t 1 = 0, t
1
= (1 +

5)/2 , t
2
= (1

5)/2,
Astfel, secvent a Fibonacci y
k
poate scrisa ca:
y
k
= At
k
1
+ Bt
k
2
, k = 0, 1, . . . ,
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 59
unde A si B sunt coecient i ce pot determinat i. Din moment ce progresam cu algoritmul
si k atunci evident y
k
= ln
k
At
k
1
, de unde rezulta ca:

k+1

t
1
k

e
(At
k+1
1
)
_
e
(At
k
1
)
_
t
1
= 1
si e
k+1
/e
t
1
k
M
t
1
1
, i.e:
lim
k
[
k+1

[
[
k

[
t
1
= M
t
1
1
si demonstrat ia este completa.
C) Metoda de interpolare n trei puncte Aceasta metoda presupune cunoasterea a
trei puncte
i
, i = 1, 2, 3 si de asemenea, evaluarea funct iei f n aceste puncte. Condit iile
de interpolare sunt :
q(
i
) = a
2
i
+ b
i
+ c = f(
i
) = f
i
i = 1, 2, 3. (5.27)
Rezolv and acest sistem avem
a =
(
2

3
)f
1
+ (
3

1
)f
2
+ (
1

2
)f
3
(
1

2
)(
2

3
)(
3

1
)
b =
(
2
2

2
3
)f
1
+ (
2
3

2
1
)f
2
+ (
2
1

2
2
)f
3
(
1

2
)(
2

3
)(
3

1
)
.
De aici rezulta
=
b
2a
=
1
2
(
2
2

2
3
)f
1
+ (
2
3

2
1
)f
2
+ (
2
1

2
2
)f
3
(
2

3
)f
1
+ (
3

1
)f
2
+ (
1

2
)f
3
. (5.28)
=
1
2
(
1
+
2
) +
1
2
(f
1
f
2
)(
2

3
)(
3

1
)
(
2

3
)f
1
+ (
3

1
)f
2
+ (
1

2
)f
3
(5.29)
si formula iterativ a

k+1
=
1
2
(
k
+
k1
) +
1
2
(f
k
f
k1
)(
k1

k2
)(
k2

k
)
(
k1

k2
)f
k
+ (
k2

k
)f
k1
+ (
k

k1
)f
k2
(5.30)
Algoritm (Metoda interpol arii n trei puncte).
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 60
Pas 0. Fie o tolerant a dat a . G aseste un interval de cautare
1
,
2
,
3
astfel ncat sa-l
cont in a pe

; Calculeaza f(
i
), i = 1, 2, 3.
Pas 1. Utilizeaza formula (5.28) pentru a calcula .
Pas 2. Dac a (
1
)(
3
) 0, trecem la Pas 3.; altfel, trecem la Pas 4.
Pas 3. Construim un nou interval de cautare
1
,
2
,
3
utiliz and
1
,
2
,
3
si . Revenim
la Pas 1.
Pas 4. Daca [
2
[ < , ne oprim; altfel, trecem la Pas 3.
Theorem 5.3.2 Fie funct ia f() cel put in de patru ori continuu diferent iabila si

astfel
ncat f(

) = 0 si f

) ,= 0 atunci sirul
k
generat de (5.30) converge la

cu rata
de ordinul 1.32.
Observ am ca metoda celor trei puncte are o rata de convergent a mai mic a dec at cea a
metodelor ce folosesc formula secantei. Explicat ia const a n faptul ca metoda celor trei
puncte nu foloseste informat ie dat a de derivatele funct iei f n punctele intervalului de
cautare. Cu alte cuvinte, metoda nu t ine cont de curbura functi ei f.

In general, imple-
mentarile avansate folosesc informat ie de secanta.
5.3.2 Metode de interpolare cubica
Aceste metode aproximeaza funct ia obiectiv f() cu un polinom cubic. Procedura de
aproximare implica patru condit ii de interpolare.

In cazul general, interpolarea cubic a are
o rat a de convergent a mai bun a decat interpolarea patratic a, nsa presupune evaluarea
derivatelor funct iei si de aceea este mai costisitoare din punctul de vedere al complexit at ii.
Mai pe larg, e dou a puncte
1
si
2
pentru care cunoastem valorile funct iei obiectiv, f(
1
)
si f(
2
) si de asemenea, derivatele f

(
1
) si f

(
2
). Construim polinomul de interpolare
cubic a:
p() = c
1
(
1
)
3
+ c
2
(
1
)
2
+ c
3
(
1
) + c
4
, (5.31)
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 61
unde c
i
, i = 1, 2, 3, 4, sunt coecient ii determinat i din urmatoarele condit ii:
p(
1
) = c
4
= f(
1
),
p(
2
) = c
1
(
2

1
)
3
+ c
2
(
2

1
)
2
+ c
3
(
2

1
) + c
4
= f(
2
),
p

(
1
) = c
3
= f

(
1
),
p

(
2
) = 3c
1
(
2

1
)
2
+ 2c
2
(
2

1
) + c
3
= f

(
2
).
Dupa cum stim, condit iile de optimalitate suciente sunt
p

() = 3c
1
(
1
)
2
+ 2c
2
(
1
) + c
3
= 0 (5.32)
si
p

() = 6c
1
(
1
) + 2c
2
> 0. (5.33)
Rezolv and (5.32) avem
=
1
+
c
2

_
c
2
2
3c
1
c
3
3c
1
, dac a c
1
,= 0; (5.34)
=
1

c
3
2c
2
, dac a c
1
= 0. (5.35)
Pentru a satisface (5.33) consider am radacina corespunz atoare semnului + din (5.34), care
mpreun a cu (5.35) conduce la:

1
=
c
2
+
_
c
2
2
3c
1
c
3
3c
1
=
c
3
c
2
+

c
2
3c
1
c
3
. (5.36)

In cazul n care c
1
= 0, (5.36) se transforma n (5.35). Atunci valoarea minim a a lui p()
este
=
1

c
3
c
2
+
_
c
2
2
3c
1
c
3
, (5.37)
exprimat a n funct ie de c
1
, c
2
si c
3
. Problema se reduce la exprimarea sa n funct ie de
f(
1
), f(
2
), f

(
2
) si f

(
2
). Pentru aceasta not am
s = 3
f(
2
) f(
1
)

1
, z = s f

(
1
) f

(
2
), w
2
= z
2
f

(
1
)f

(
2
).
Din condit iile de interpolare avem
s = 3[c
1
(
2

1
)
2
+ c
2
(
2

1
) + c
3
]
CHAPTER 5. METODE DE OPTIMIZARE UNIDIMENSIONAL

A 62
z = c
2
(
2

1
) + c
3
w
2
= (
2

1
)
2
(c
2
2
3c
1
c
3
).
Deci rezulta
(
2

1
)c
2
= z c
3
,

c
2
3c
1
c
3
=
w

1
si
c
2
+
_
c
2
2
3c
1
c
3
=
z + w c
3

1
. (5.38)

Ins a c
3
= f

() si substituind (5.4) n (5.37) avem relat ia



1
=
(
2

1
)f

(
1
)
z + w f

(
1
)
,
ce poate rescrisa n urmatoarea forma:

1
=
(
2

1
)f

(
1
)f

(
2
)
(z + w f

(
1
))f

(
2
)
=
(
2

1
)(z
2
w
2
)
f

(
2
)(z + w) (z
2
w
2
)
=
(
2

1
)(w z)
f

(
2
) z + w
.
Aceasta relat ie este lipsit a de utilitate pentru calcularea lui deoarece numitorul este foarte
mic sau chiar se poate anula. De aceea consider am o forma alternativa favorabila:

1
=
(
2

1
)f

(
1
)
z + w f

(
1
)
=
(
2

1
)(w z)
f

(
2
) z + w
(5.39)
=
(
2

1
)(f

(
1
) + w z)
f

(
2
) f

(
1
) + 2w
= (
2

1
)
_
1
f

(
2
) + z + w
f

(
2
) f

(
1
) + 2w
_
,
sau
=
1
+ (
2

1
)
w f

(
1
) z
f

(
2
) f

(
1
) + 2w
(5.40)

In (5.39) sau (5.40) numitorul f

(
2
) f

(
1
) +2w ,= 0. De fapt, din moment ce f

(
1
) < 0
si f

(
2
) > 0, atunci w
2
= z
2
f

(
1
)f

(
2
) > 0 si dac a lu am w > 0, atunci f

(
2
)
f

(
1
) + 2w > 0. Se poate ar ata de asemenea ca aceasta metoda produce un sir
k
ce
converge cu rata de ordinul 2 la

.
Chapter 6
Condit ii de optimalitate pentru
UNLP
Multe probleme din inginerie, economie sau zic a se formuleaa ca probleme de optimizare
f ar a constrangeri. Astfel de probleme apar n gasirea punctului de echilibru a unui sis-
tem prin minimizarea energiei acestuia, potrivirea unei funct ii la un set de date folosind
cele mai mici patrate sau determinarea parametrilor unei distribut ii de probabilitate core-
spunzatoare unui set de date. Probleme de optimizare far a constr angeri apar de asemenea
cand constrangerile sunt eliminate sau duse n cost prin folosirea unei funct ii de penalitate
adecvat a, dup a cum vom vedea n partea a treia a acestei lucr ari.

In concluzie, n aceast a
parte a lucr arii ne concentr am analiza asupra problemelor de optimizare neconstransa de
forma:
(UNLP) : min
xR
n
f(x). (6.1)

In acest capitol discutam condit iile necesare si suciente de optimalitate pentru problema
generala (UNLP) si apoi particulariz am la cazul problemelor convexe, adica atunci cand
funct ia obiectiv f este convexa.
Pentru o expunere mai usoara presupunem ca funct ia obiectiv f : R
n


R are domeniul
efectiv domf R
n
mult ime deschisa. Dupa cum am precizat si n capitolele anterioare,
n aceasta lucrare consider am extensia funct iei f la ntreg spat iul

R
n
atribuindu-i valoarea
+n punctele din afara domeniului efectiv. De aceea, caut am punctele de minim ce fac
parte din mult imea deschisa domf. Putem avea domf = R
n
, dar de cele mai multe ori nu
este cazul, la fel ca n urmatorul exemplu unde consider am domf = (0 ) si presupunem
63
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 64
ca n afara mult imii domf funct ia ia valoarea +:
min
xR
1
x
+ x,
Reamintim ca un punct x

se numeste punct de minim global pentru problema (UNLP) de


mai sus dac a f(x

) f(x) pentru orice x domf. De asemenea, x

este punct de minim


local dac a exist a un > 0 astfel ncat f(x

) f(x) pentru orice x domf cu |xx

| .
Mai, mult, f

= f(x

) se numeste valoarea optimaa a problemei de optimizare (UNLP).


Example 6.0.3

In optimizarea fara constrangeri o funct ie obiectiv des utilizata pentru a
testa performant a algoritmilor este funct ia Rosenbrock. Aceasta este o funct ie nonconvexa
avand urmatoarea forma:
f(x) = (1 x
1
)
2
+ 100(x
2
x
2
1
)
2
.
Se poate observa usor ca punctul de minim global este x

= [1 1]
T
unde funct ia ia valoarea
optima f

= f(1, 1) = 0. Acest punct de minim se gaseste ntr-o vale lunga dar ngusta ceea
ce face dicila determinarea acestui punct de minim cu algoritmi numerici de optimizare.
Figure 6.1: Funct ia Rosenbrock.
Example 6.0.4 Consideram un sistem neliniar compus din 2 resorturi. Dislocarea x
1
si
x
2
sub o anumita greutate aplicata poate obt inuta prin minimizarea energiei potent iale
data de expresia:
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 65
f(x
1
, x
2
) =
1
2
k
1
E
2
1
+
1
2
k
2
E
2
2
F
1
x
1
F
2
x
2
,
unde extensiile resorturilor ca funct ie de dislocarile lor au urmatoarele expresii:
E
1
=
_
(x
1
+ 10)
2
+ (x
2
10)
2
10

2
E
2
=
_
(x
1
10)
2
+ (x
2
10)
2
10

2.
Problema se reduce la a gasi (x
1
, x
2
) ce minimizeaza
min
xR
2
f(x
1
, x
2
).
Folosind technici numerice de optimizare ce vor discutate n capitolele urmatoare, obt inem
ca pentru k
1
= k
2
= 1 si F
1
= 0, F
2
= 2, solut ia optima este x

1
= 0 si x

2
= 2.55.
Figure 6.2: Un sistem neliniar cu 2 resorturi.
6.1 Condit ii necesare de optimalitate
Mai ntai denim not iunea de direct ie de descrestere. O direct ie d R
n
se numeste direct ie
de descrestere pentru funct ia f (
1
n punctul x domf dac a
f(x)
T
d < 0.
De exemplu, o direct ie de descrestere este dat a de urmatoarea expresie: d = Bf(x),
unde matricea B este pozitiv denita (adic a B0).
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 66
0 0.5 1 1.5 2 2.5 3 3.5 4
1
1.5
2
2.5
3
3.5
4
4.5
5
x
2
x
1
f
d
Figure 6.3: Mult imile nivel ale funct iei f(x) = x
3
1
2x
1
x
2
2
.
Avem urmatoarea interpretare: dac a d este direct ie de descrestere n x domf atunci
funct ia obiectiv descreste n vecin atatea lui x.

Intr-adev ar, mult imea domf ind deschisa,
putem gasi un t > 0 sucient de mic astfel ncat oricare ar [0 t] avem x +d domf
si f(x+d)
T
d < 0 (datorit a continuitat ii lui f() ntr-o vecin atate a lui x). Din teorema
lui Taylor, exist a un [0 t] astfel ncat
f(x + td) = f(x) + t f(x

+ d)
T
d
. .
<0
< f(x).
Theorem 6.1.1 (Condit ii necesare de ordinul ntai) Fie f o funct ie diferent iabila cu
gradientul continuu (adica f (
1
) si x

domf un punct de minim local al problemei de


optimizare (UNLP). Atunci gradientul funct iei satisface relat ia:
f(x

) = 0. (6.2)
Demonstrat ie: Presupunem prin contradict ie ca f(x

) ,= 0. Atunci putem ar ata ca


d = f(x

) este o direct ie de descrestere, i.e. funct ia obiectiv poate lua o valoare mai
mic a n jurul lui x

.

Intr-adev ar, putem gasi un t > 0 sucient de mic astfel ncat oricare
ar [0 t] avem f(x

+ d)
T
d = f(x

f(x

))
T
f(x

) < 0. Mai mult, exist a


un [0 t] ce satisface
f(x

tf(x

)) = f(x

) tf(x

+ f(x

))
T
f(x

) < f(x

).
Aceasta este o contradict ie cu ipoteza ca x

este un punct de minim local.


Orice punct x

domf ce satisface condit iile necesare de ordinul ntai f(x

) = 0 se
numeste punct stat ionar al problemei de optimizare far a constrangeri (UNLP).
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 67
Figure 6.4: Exemple de puncte stat ionare.
Theorem 6.1.2 (Condit ii necesare de ordinul doi) Fie f o funct ie de doua ori diferent iabila
cu Hessiana contin a (adica f (
2
) si x

domf un punct de minim local al problemei


(UNLP). Atunci hessiana n x

este pozitiv semidenita, adica:

2
f(x

)0. (6.3)
Demonstrat ie: Dac a condit ia (6.3) nu este satisfacuta atunci exist a o direct ie d R
n
astfel ncat d
T

2
f(x

)d < 0. Atunci, datorita continuitat ii lui


2
f() n jurul lui x

putem
alege un parametru sucient de mic t > 0 astfel ncat oricare ar [0 t] urmatoarea
relat ie are loc:
d
T

2
f(x

+ d)d < 0.
Din teorema lui Taylor rezulta ca exist a un [0 t] astfel ncat:
f(x

+ td) = f(x

) + tf(x

)
T
d
. .
=0
+
1
2
t
2
d
T

2
f(x

+ d)d
. .
<0
< f(x

),
ceea ce intr a n contradict ie cu faptul ca x

este un punct de minim local.


CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 68
Remarc am ca condit ia necesara de ordinul doi (6.3) nu este sucienta pentru ca un punct
stat ionar x

sa e punct de minim. Acest lucru este ilustrat de funct iile f(x) = x


3
pentru
care punctul stat ionar x

= 0 satisface condit iile necesare de ordinul doi dar nu este punct


de minim/maxim local. Observam ca x

= 0 este punct sa.



In sect iunea urmatoare
enunt am condit iile suciente de optimalitate.
6.2 Condit ii suciente de optimalitate
Theorem 6.2.1 (Condit ii suciente de ordinul doi) Fie f o funct ie de doua ori diferent iabila
cu Hessiana continua (adica f (
2
) si x

domf un punct stat ionar (adica f(x

) = 0)
astfel ncat
2
f(x

)0. Atunci x

este un punct strict de minim local al problemei (UNLP).


Demonstrat ie: Fie
min
valoarea proprie minima a matricii
2
f(x

). Evident,
min
> 0
din moment ce este satisfacuta relat ia
2
f(x

)0 si mai mult,
d
T

2
f(x

)d
min
|d|
2
d R
n
.
Din aproximarea Taylor avem:
f(x

+ d) f(x

) = f(x

)
T
d +
1
2
d
T

2
f(x

)d +1(|d|
2
)


min
2
|d|
2
+1(|d|
2
) = (

min
2
+
1(|d|
2
)
|d|
2
)|d|
2
.
Stiind ca
min
> 0 atunci exist a > 0 si > 0 astfel ncat

min
2
+
R(d
2
)
d
2


2
pentru orice
|d| , ceea ce conduce la concluzia ca x

este un punct strict de minim local.


6.3 Condit ii de optimalitate pentru probleme convexe

In acest a sect iune discutam condit iile suciente de optimalitate n cazul convex, adica
funct ia obiectiv f n problema de optimizare (UNLP) este convexa. Primul rezultat se
refera la urmatoarea problem a de optimizare constrans a:
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 69
Theorem 6.3.1 Fie X o mult ime convexa si f (
1
(nu neaparat convexa). Pentru
problema de optimizare constransa
min
xX
f(x)
urmatoarele condit ii sunt satisfacute:
(i) Daca x

este minim local atunci f(x

)
T
(x x

) 0 x X.
(ii) Daca f este funct ie convea atunci x

este punct de minim daca si numai daca


f(x

)
T
(x x

) 0 x X.
Demonstrat ie: (i) Presupunem ca exist a un y X astfel ncat
f(x

)
T
(y x

) < 0.
Din teorema lui Taylor rezulta ca pentru un t > 0 exist a un [0 1] astfel ncat
f(x

+ t(y x

)) = f(x

) + tf(x

+ t(y x

))
T
(y x

).
Din continuitatea lui f, alegand un t sucient de mic avemf(x

+t(yx

))
T
(yx

) < 0
si de aceea f(x

+ t(y x

)) < f(x

) care este n contradict ie cu faptul ca x

este minim
local.
(ii) Dac a f este convexa, utiliz and condit iile de convexitate de ordinul ntai avem: f(x)
f(x

) + f(x

)
T
(x x

) pentru orice x X.

Intrucat f(x

)(x x

) 0 rezulta ca
f(x) f(x

) pentru orice x X, i.e. x

este punct de minim global.


Theorem 6.3.2 Pentru o problema de optimizare convexa min
xX
f(x) (i.e. X multime con-
vexa si f funct ie convexa), orice minim local este de asemenea minim global.
Demonstrat ie: Fie x

un minim local pentru problema de optimizare convexa de mai


sus. Ar at am ca pentru orice punct y X dat avem f(y) f(x

).

Intr-adev ar, ntrucat
x

este minim local, exist a o vecin atate A a lui x

astfel ncat pentru orice x X A


avem f( x) f(x

). Considerand segmentul cu capetele n x

si y. Acest segment este


cont inut n X datorita propriet at ii de convexitate a lui X. Mai departe, alegem un x pe
acest segment n vecin atatea A,

Ins a diferit de x

, adica alegem x = x

+ t(y x

) unde
t (0 1) astfel ncat x X A. Datorita optimalitat ii locale, avem f(x

) f( x), si
datorita convexitat ii lui f avem
f( x) = f(x

+ t(y x

)) f(x

) + t(f(y) f(x

)).
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 70
Rezult a ca t(f(y) f(x

)) 0, implicand f(y) f(x

) 0 ceea ce conduce la concluzia


ca x

este punct de minim global.


Theorem 6.3.3 (Condit ii suciente de ordinul ntai pentru cazul convex) Fie f
(
1
o funct ie convexa. Daca x

este punct stat ionar al lui f (adica f(x

) = 0), atunci x

este punct de minim global al problemei de optimizare convexa fara constrangeri min
xR
n
f(x).
Demonstratie:

Intrucat f este convexa avem
f(x) f(x

) +f(x

)
. .
=0
(x x

) = f(x

) x R
n
ceea ce arata ca x

este minim global.

In concluzie, pentru o problem a de optimizare neconstr ans a min


xR
n
f(x), unde f (
1
, o
condit ie necesara pentru ca punctul x

sa e punct de extrem local este


f(x

) = 0. (6.4)

In general, dac a funct ia obiectiv nu este convexa, se rezolv a sistemul neliniar de ecuat ii
f(x

) = 0 si se verica dac a solut ia este punct de minim local sau nu, folosind condit iile
de optimalitate suciente de ordinul doi. Pentru problemele convexe neconstr anse, adica
f este convexa, o condit ie necesara si sucienta pentru ca punctul x

sa e minim global
este: f(x

) = 0.
6.4 Analiza perturbat iilor

In domeniile numerice ale matematicii, nu exist a posibilitatea de a evalua o funct ie cu o


precizie mai mare decat cea oferita de masinile de calcul. De aceea, de cele mai multe ori
se calculeaza doar solut ii pentru probleme ale caror date sunt perturbate, iar interesul se
ndreapt a catre minimele stabile la aparit ia perturbat iilor. Acesta este cazul punctelor de
minim strict locale ce satisfac condit iile suciente de ordinul doi.
CHAPTER 6. CONDIT II DE OPTIMALITATE PENTRU UNLP 71
Consideram funct ii obiectiv de forma f(x, a) ce depind nu doar de variabila de decizie
x R
n
dar si de un parametru de perturbat ie a R
m
. Suntem interesat i de familia
parametric a de probleme min
xR
n
f(x, a) ce produce minime de forma x

(a) ce depind de a.
Theorem 6.4.1 (Stabilitatea solut iilor parametrice)
Presupunem ca funct ia f : R
n
R
m


R este de clasa (
2
si consider am minimizarea funct iei
f(, a) pentru o valoare xata a parametrului a R
m
. Daca punctul de minim corespunzator
x satisface condit iile suciente de ordinul doi, i.e.
x
f( x, a) = 0 si
2
x
f( x, a)0, atunci
exista o vecinatate A R
m
n jurul lui a astfel ncat funct ia parametrica de minim x

(a)
este bine denita pentru orice a A, este diferent iabila pe A si x

( a) = x. Derivata sa n
punctul a este data de
(x

( a))
a
=
_

2
x
f( x, a)
_
1
(
x
f( x, a))
a
. (6.5)
Mai mult, ecare x

(a) cu a A satisface condit iile suciente de ordinul doi si deci este


un punct de minim strict local.
Demonstrat ie: Existent a funct iei diferent iabile x

: A R
n
rezulta din teorema
funct iilor implicite aplicat a condit iei de stat ionaritate
x
f(x

( a), a) = 0. Pentru derivarea


ecuat iei (6.5) se folosesc regulile standard de diferent iere:
0 =
(
x
f(x

(a), a))
a
=
(
x
f(x

(a), a))
x
. .
=
2
x
f

(a)
a
+
(
x
f(x

(a), a))
a
Pentru a ar ata ca punctele de minim x

(a) satisfac condit iile suciente de ordinul doi, se


observa ca Hessiana este continua si se t ine seama de faptul ca
2
x
f( x, a)0.
Chapter 7
Convergent a metodelor de
descrestere

In Capitolul 6 s-a demonstrat ca pentru aarea unui punct de minim local/global core-
spunzator unei probleme de optimizare neconstr ans a
(UNLP) : min
xR
n
f(x), (7.1)
este nevoie de rezolvarea unui sistem neliniar de n ecuat ii cu n necunoscute:
f(x) = 0.

In unele cazuri acest sistem poate rezolvat analitic:


Example 7.0.2 (QP neconstrans) Consideram urmatoarea problema de tip QP necon-
stransa:
min
xR
n
f(x)
_
=
1
2
x
T
Qx + q
T
x + r
_
, (7.2)
unde matricea Q este inversabila (de exemplu daca Q0 atunci funct ia obiectiv este convexa
si deci problema de optimizare este convexa). Din condit ia 0 = f(x) = Qx + q, unicul
punct stationar este x

= Q
1
q. Daca Q0 atunci x

= Q
1
q este punct de minim
global si valoarea optim a a problemei (7.2) este data de urmatoarea expresie:
f

= min
xR
n
1
2
x
T
Qx + q
T
x + r =
1
2
q
T
Q
1
q + r.
72
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 73
Cu toate acestea, n majoritatea cazurilor f(x) = 0 este un sistem de ecuat ii neliniare ce
nu poate rezolvat analitic, ci este nevoie de metode iterative pentru rezolvarea lui. Cea
mai mare parte a acestei lucr ari este dedicata prezentarii si analizei diferit ilor algoritmi
pentru rezolvarea problemelor de optimizare. Tot i algoritmii prezentat i n aceast a lucrare
sunt algoritmi iterativi. Prin iterativ ntelegem ca acesti algoritmi genereaz a un sir de
puncte, ecare punct ind calculat pe baza punctelor calculate anterior. De asemenea,
majoritatea algoritmilor sunt de descrestere, adica n ecare punct nou generat de catre
algoritm valoarea funct iei obiectiv este mai mic a decat n punctul generat anterior.

In cele
mai multe cazuri, vom ar ata ca sirul de puncte generate n acest mod de catre algoritm
converge ntr-un numar nit sau innit de pasi la o solut ie a problemei originale.
Un algoritm iterativ porneste de la un punct init ial. Dac a pentru orice punct init ial putem
garanta ca algoritmul produce un sir de puncte convergente la o solut ie, atunci pentru acel
algoritm spunem ca este convergent global.

In multe situat ii, algoritmii dezvoltat i nu pot
garanta convergent a globala si numai init ializat i n apropierea unui punct de optim vor
produce un sir de puncte convergente la acel punct de optim. Atunci spunem ca algoritmul
este convergent local.
Din fericire, convergent a algoritmilor de optimizare poate tratat a printr-o analiza a unei
teorii generale a algoritmilor dezvoltat a n anii 60 de Zangwill. Vom prezenta aceast a
teorie n cele ce urmeaza.
7.1 Metode numerice de optimizare
Consideram problema de optimizare (7.1). Exista diferite metode iterative pentru re-
zolvarea unei astfel de probleme, iar n capitolele urmatoare vom discuta cele mai impor-
tante dintre ele. Presupunem ca o problem a de optimizare apart ine unei anumite clase de
probleme T.

In general, o metoda numeric a este dezvoltat a n scopul rezolv arii diferitelor
probleme ce mp artasesc caracteristici similare (de exemplu: continuitate, convexitate etc).
Datele cunoscute din structura problemei se regasesc sub numele de model (adic a formu-
larea problemei, functiile ce descriu problema etc). Pentru rezolvarea problemei, o metoda
numeric a va trebui sa colecteze informat ia specica, iar procesul de colectare a datelor se
realizeaz a cu ajutorul unui oracol (i.e. unitate de calcul ce returneaz a date sub forma unor
raspunsuri la ntrebari succesive din partea metodei).

In concluzie, metoda numeric a
rezolv a problema prin colectarea datelor si manipularea r aspunsurilor oracolului. Exist a
diferite tipuri de oracole:
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 74
0. oracole de ordinul zero O
0
ce furnizeaz a informat ie bazata doar pe evaluarea funct iei
obiectiv, i.e. f(x)
1. oracole de ordinul ntai O
1
ce furnizeaz a informat ie bazata pe evaluarea funct iei si
gradientului sau, i.e. f(x) si f(x)
2. oracole de ordinul doi O
2
ce furnizeaz a informat ie bazata pe evaluarea funct iei, gra-
dientului si Hessianei, i.e. f(x), f(x) si
2
f(x).
Ecient a unei metode numerice const an efortul numeric necesar metodei pentru rezolvarea
unei anumite clase de probleme. Rezolvarea unei probleme, n unele cazuri, const an aarea
unei solut ii exacte, nsa n cele mai multe dintre cazuri este posibil a doar aproximarea
solut iei. De aceea, pentru rezolvare este sucienta aarea unei solut ii aproximative cu o
acuratet e prestabilita .

In general, aceasta acuratet e reprezinta de asemenea criteriul de
oprire pentru metoda numeric a aleas a. Pentru cazul particular al problemelor de optimizare
neconstr anse (UNLP), i.e. (7.1), criteriul de oprire n general utilizat este urmatorul:
|f(x)| .
Pe l ang a acest criteriu, se mai foloseste si criteriul referitor la apropierea valorii funct iei de
minimizat fat a de valoarea sa optima:
[f(x) f

[ .
Anumite implementari utilizeaz a si alte criterii de oprire a iterat iilor, cum ar de exemplu
distant a dintre estimat iile variabilelor:
|x
k+1
x
k
| .
Schema generala a unui algoritm numeric de optimizare iterativ const a n urmatorii pasi:
Algoritm (O metoda numeric a de optimizare).
0. se ncepe cu un punct init ial dat x
0
, acuratet ea > 0 si contorul k = 0
1. la pasul k not am cu J
k
mult imea ce cont ine toata informat ia acumulata de la oracol
pana la iterat ia k
1.1 se apeleaza oracolul O n punctul x
k
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 75
1.2 se actualizeaza informat ia J
k+1
= J
k
O(x
k
)
1.3 se aplica regulile metodei numerice folosind ultimele informat ii J
k+1
pentru cal-
culul urmatorului punct x
k+1
2. se verica criteriul de oprire; dac a criteriul de oprire nu este satisf acut, se repet a
pasul 1.
Complexitatea unei metode numerice poate exprimat a n urmatoarele forme:
Complexitate analitica, dat a de numarul total de apeluri ale oracolului,
Complexitate aritmetica, dat a de numarul total de operat ii aritmetice.
Rata de convergent a se refer a la viteza cu care sirul x
k

k
se apropie de solut ie x

. Ordinul
de convergent a este cel mai mare numar pozitiv q ce satisface urmatoarea relat ie:
0 lim
k
|x
k+1
x

|
|x
k
x

|
q
< ,
unde precizam ca sup lim a sirului z
k

k
este denita de:
lim
k
z
k
= lim
n
y
n
, unde y
n
= sup
kn
z
k
.
Presupun and ca limita exist a, atunci q indica comportamentul sirului. C and q este mare,
atunci rata de convergent a este mare, deoarece distant a pana la x

este redus a cu q zecimale


ntr-un singur pas:
|x
k+1
x

| |x
k
x

|
q
.
Convergent a liniara: dac a (0 1) si q = 1 atunci
|x
k+1
x

| |x
k
x

|
si deci |x
k
x

| c
k
. De exemplu sirul x
k
=
k
, unde (0 1), converge liniar.
Convergent a superliniara: dac a lim
k
|x
k+1
x

|
|x
k
x

|
= 0, (aici q = 1 de asemenea), sau
echivalent
|x
k+1
x

|
k
|x
k
x

| cu
k
0.
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 76
De exemplu sirul x
k
=
1
k!
converge superliniar, ntrucat
x
k+1
x
k
=
1
k+1
.
Convergent a patratica: dac a lim
k
|x
k+1
x

|
|x
k
x

|
2
= , unde (0 ) si q = 2, ce este
echivalent cu
|x
k+1
x

| |x
k
x

|
2
.
De exemplu sirul x
k
=
1
2
2
k
converge patratic, deoarece
x
k+1
(x
k
)
2
=
2
2
k+1
(2
2
k
)
2
= 1 < . For k = 6,
x
k
=
1
2
64
0, de aceea n practic a, convergent a la acuratet ea masinii de calcul se realizeaz a
dup a aproximativ 6 iterat ii.

Intalnim adesea si convergent a subliniara denita astfel:


|x
k
x

|

k
q
,
unde q > 0.
R-convergenta: Dac a sirul de norme |x
k
x

| este m arginit superior de sirul y


k
0, i.e.
|x
k
x

| y
k
si dac a y
k
converge cu o rata dat a, i.e. liniar a, superliniara sau patratic a,
atunci x
k
converge R-liniar, R-superliniar, sau R-patratic la x

. Aici, R indic a root,


deoarece , e.g., convergent a R-liniar a poate de asemenea denit a prin criteriul radacinii
lim
k
k
_
|x
k
x

| < 1.
Example 7.1.1
x
k
=
_
1
2
k
daca k este par
0 altfel
(7.3)
Acest sir are o convergent a R-liniara, dar nu regulata ca a unui sir ce converge liniar.
Remark 7.1.2 Cele trei convergent e si ratele de R-convergent a corespunzatoare satisfac
anumite relat ii ntre ele.

In continuare, X Y are semnicat ia Daca sirul converge
cu rata X, atunci aceasta implica ca sirul de asemenea converge cu rata Y .
patratic superliniar liniar

R patratic R superliniar R liniar
Se observa ca rata patratica asigura cea mai rapida convergent a.
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 77
7.2 Convergent a metodelor numerice
Considerand spat iul metric (X, ), o metoda numeric a poate privit a ca o aplicat ie punct-
mult ime M : X 2
X
, denita de x
k+1
M(x
k
). Modul cum se alege x
k+1
M(x
k
)
este dat de metoda dezvoltat a. Cu toate acestea, o metoda numeric a nu este un proces
aleator deoarece aceasta genereaz a acelasi sir x
k

k
cand se porneste din acelasi punct init ial
x
0
. Denit ia metodei n aceasta manier a ofera posibilitatea analizarii ei cu instrumente
matematice mai laborioase.
Example 7.2.1 Consideram urmatoarea aplicat ie punct-mult ime
x
k+1
[
[ x
k
[
n
,
[ x
k
[
n
],
pentru care o instant a particulara este denita de un punct init ial x
0
si iterat ia
x
k+1
=
[ x
k
[
n
.
Denition 7.2.2 Fie spat iul metric (X, ), o submult ime S X si o metoda descrisa de
aplicat ia punct-mult ime M : X 2
X
. Denim funct ia descrescatoare : X R pentru
perechea (S, M) o funct ie ce satisface urmatoarele condit ii:
(i) pentru orice x S si y M(x) avem (y) (x)
(ii) pentru orice x , S si y M(x) avem (y) < (x)
Example 7.2.3 Fie problema de optimizare min
xX
f(x), unde X este mult ime convexa si f
este diferent iabila. Denim S = x

R
n
: f(x

), x x

0 x X mult imea
punctelor stat ionare (i.e. mult imea tuturor solut iilor posibile minime locale, minime
globale, maxime locale, etc). Se observa de asemenea ca n general alegem = f, i.e.
metoda alege x
k+1
astfel ncat f(x
k+1
) f(x
k
).
Denition 7.2.4 O aplicat ie punct-mult ime M : X 2
X
este nchisa n punctul x
0
daca
pentru orice x
k
x
0
si y
k
y
0
cu y
k
M(x
k
) avem y
0
M(x
0
). Aplicat ia M este
inchisa daca este nchisa n toate punctele din X.
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 78
Theorem 7.2.5 (Teorema de convergent a generala) Fie M o metoda numerica pe
spat iul metric (X, ), sirul x
k+1
M(x
k
), iar S mult imea solut iilor. Presupunem urmatoarele
condit ii satisfacute:
(i) sirul x
k

k
se aa ntr-o mult ime compacta
(ii) M este o aplicat ie punct-mult ime nchisa pe XS
(iii) exista o funct ie continua decrescatoare pentru perechea (M, S)
Atunci toate punctele limita ale sirului x
k

k0
apart in mult imii S.
7.3 Metode de descrestere

In continuare, consider am o metoda iterativ a


x
k+1
= x
k
+
k
d
k
,
unde presupunem ca d
k
este o direct ie de descrestere pentru f n x
k
, iar
k
(0 1] este
lungimea pasului. Precizam ca dac a d
k
este o direct ie de descrestere pentru f n x
k
atunci
exist a
k
> 0 sucient de mic astfel ncat f(x
k+1
) < f(x
k
).

In cele ce urmeaza vom analiza felul cum putem alege pasul


k
si direct ia de descrestere
d
k
astfel ncat metoda respectiv a sa produc a un sir de puncte convergente la un punct
stat ionar.
7.3.1 Strategii de alegere a lungimii pasului
Prezentamn aceasta sect iune cele mai des ntalnite proceduri de alegere a lungimii pasului

k
(0 1]. Ideea de baz a const a n alegerea adecvat a a pasului
k
astfel ncat sa garantam
descrestere sucienta n funct ia obiectiv, adica f(x
k+1
) < f(x
k
), si n acelasi timp sa si
facem avans sensibil catre solut ia problemei, adica lim
k
x
k
= x

.

In calcularea lungimii
pasului trebuie sa facem un compromis ntre o reducere substant iala a funct iei obiectiv f
si calculul numeric necesar determinarii pasului.
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 79
x
f(x)
d
x+ d
Figure 7.1: Metoda direct iilor de descrestere.

In cazul ideal alegem lungimea pasului dup a urmatoarea relat ie:

k
= arg min
01
f(x
k
+ d
k
).
Dupa cum am v azut, exist a diferite metode eciente pentru determinarea unui punct de
optim a unei probleme de optimizare unidimensionala.

In cele ce urmeaza numim aceast a
procedur a metoda ideala de alegere a lungimii pasului.
Cu toate acestea, n multe situat ii problema de optimizare unidimensionala corespunz atoare
alegerii ideale a lungimii pasului este foarte dicil de rezolvat. De aceea, alte modalit at i
de alegere a lungimii pasului
k
au fost dezvoltate, iar printre acestea cea mai cunoscuta
este denita de condit iile Wolfe: se cauta
k
astfel ncat urmatoarele dou a condit ii sunt
satisf acute
(W1) f(x
k
+
k
d
k
) f(x
k
) + c
1

k
f(x
k
)
T
d
k
, unde c
1
(0, 1)
(W2) f(x
k
+
k
d
k
)
T
d
k
c
2
f(x
k
)
T
d
k
, unde 0 < c
1
< c
2
< 1.

In general numai condit ia (W1) nu este sucienta pentru a garanta ca algoritmul de opti-
mizare face un progres rezonabil de-a lungul direct iei de cautare.

Ins a dac a lungimea pasului
se alege n mod adecvat astfel ncat sa nu e prea scurt, condit ia (W1) este sucienta. De
aceea, denim o a treia posibilitate de cautare a pasului
k
, mai put in costisitoare dec at
primele dou a metode prezentate mai sus, care se bazeaz a pe backtracking:
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 80

acceptabil
panta dorita: c
2
f(x
k
)
T
d
k
Conditiile Wolfe:
f(x
k
+
k
d
k
) f(x
k
)+c
1

k
f(x
k
)
T
d
k
f(x
k
+
k
d
k
)
T
d
k
c
2
f(x
k
)
T
d
k
0<c
1
<c
2
<1
f(x
k
)+c
1
f(x
k
)
T
d
k
()=f(x
k
+ d
k
)
Figure 7.2: Condit iile Wolfe.
0. se alege > 0, , c
1
(0 1)
1. cat timp
f(x
k
+ d
k
) > f(x
k
) + c
1

k
f(x
k
)
T
d
k
se actualizeaza =
2.
k
= .

In general se consider a valoarea init iala = 1, dar n alte cazuri aceast a valoare trebuie
aleas a cu grija. Se observa ca prin tehnica backtracking putem gasi
k
ntr-un num ar nit
de pasi. Mai mult,
k
gasit prin aceasta metoda nu este prea mic ntrucat
k
are o valoare
apropiata de

k

, valoare respins a la iterat ia precedenta datorita faptului ca inegalitatea


(W1) nu avea loc deoarece pasul era prea lung.
7.3.2 Convergent a metodelor de descrestere

In aceasta sect iune analizam convergent a globala a metodelor de descrestere.


CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 81
Theorem 7.3.1 (Teorema de convergent a a metodelor de descrestere) Fie problema
de optimizare fara constrangeri min
xR
n
f(x), unde f (
1
este marginita inferior si f este
Lipschitz continuu. Consideram metoda iterativa x
k+1
= x
k
+
k
d
k
, unde d
k
este o direct ie
de descrestere pentru orice k 0 si pasul
k
este ales astfel ncat cele doua condit ii Wolfe
(W1)-(W2) sunt satisfacute. Atunci

k=0
cos
2

k
|f(x
k
)|
2
< ,
unde
k
este unghiul facut de direct ia d
k
cu gradientul f(x
k
).
Demonstrat ie: Din condit ia Wolfe (W2) avem:
(f(x
k+1
) f(x
k
))
T
d
k
(c
2
1)f(x
k
)
T
d
k
.
Utiliz and inegalitatea Cauchy-Schwartz obt inem:
|f(x
k+1
) f(x
k
)||d
k
| (c
2
1)f(x
k
)
T
d
k
.
Pe de alta parte, din proprietatea de Lipschitz a gradientului avem ca exist a constanta
Lipschitz L > 0 astfel ncat urmatoarea inegalitate are loc
|f(x
k+1
) f(x
k
)| L|x
k+1
x
k
| = L
k
|d
k
|
care nlocuit a n relat ia anterioar a conduce la
L
k
|d
k
|
2
(c
2
1)f(x
k
)
T
d
k
i.e.

k

c
2
1
L

f(x
k
)
T
d
k
|d
k
|
2
.
Pe de alta parte din condit ia Wolfe (W1) avem:
f(x
k+1
) f(x
k
) + c
1
(f(x
k
)
T
d
k
)
2
|d
k
|
2

c
2
1
L
ce conduce la
f(x
k+1
) f(x
k
) c
1
1 c
2
L

(f(x
k
)
T
d
k
)
2
|f(x
k
)|
2
|d
k
|
2
|f(x
k
)|
2
.
CHAPTER 7. CONVERGENT A METODELOR DE DESCRESTERE 82

In concluzie, not and c = c


1
1c
2
L
obt inem:
f(x
k+1
) f(x
k
) c cos
2

k
|f(x
k
)|
2
si deci nsumand aceste inegalitat i de la k = 0, . . . , N 1 avem:
f(x
N
) f(x
0
) c
N1

j=0
cos
2

j
|f(x
j
)|
2
.

Intrucat f este marginita inferior, pentru N

k=0
cos
2

k
|f(x
k
)|
2
< .
Se observa de asemenea ca sirul cos
2

k
|f(x
k
)|
2
0.
Dac a n metoda direct iilor de descrestere alegem direct ia d
k
astfel ncat
k
[

2
+ ],
cu > 0 pentru orice k 0, atunci cos
2

k
,= 0 si deci |f(x
k
)| 0, i.e. x
k
converge la
un punct stat ionar al problemei de optimizare (UNLP).
Chapter 8
Metode de ordinul ntai

In acest capitol prezentam metodele numerice de optimizare de ordinul ntai (i.e. metode
bazate pe informat ia provenit a din evaluarea funct iei si a gradientului sau) pentru re-
zolvarea problemei neconstr anse de optimizare:
(UNLP) : f

= min
xR
n
f(x),
unde presupunem ca funct ia obiectiv f (
1
.

In particular, ne concentr am pe dou a metode
clasice: metoda gradient si metoda direct iilor conjugate.

In general, orice metoda de
minimizare a funct iilor diferent iabile si are originea n metoda gradient. Metoda gradient
are caracteristici care sunt de dorit n cadrul oric arui algoritm de optimizare, cum ar
simplitatea ei si memoria utilizata foarte redus a (aceasta metoda presupune o singur a
evaluare a gradientului funct iei la ecare iterat ie si const a doar n operat ii cu vectori). Din
acest considerent, de cele mai multe ori noii algoritmi dezvoltat i ncearc a sa modice aceast a
metoda n asa fel ncat sa posede rate de convergent a superioare. De aceea prezentarea
si studiul metodei gradient constituie o cale ideala de ilustrare a metodelor moderne de
minimizare far a restrict ii. O alta metoda importanta care foloseste numai informat ia de
gradient este metoda direct iilor conjugate. Aceasta metoda este de asemenea foarte simpl a,
baz andu-se pe modicarea (devierea) direct iei antigradientului cu direct ia precedenta si, de
asemenea, cere memorie modesta (de exemplu n anumite implementari discutate n acest
capitol e nevoie doar de memorarea a trei vectori).
83
CHAPTER 8. METODE DE ORDINUL

INTAI 84
8.1 Metoda gradient
Metoda gradient este una din cele mai vechi si mai cunoscute metode iterativen optimizare,
ind propus a pentru prima dat a de Cauchy n 1847. Metoda gradient mai este cunoscuta
si sub numele de metoda celei mai abrupte descresteri. Metoda este foarte importanta din
punct de vedere teoretic deoarece este una din cele mai simple metode pentru care exist a
o analiza satisfac atoare cu privire la convergent a.
1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8
0.4
0.6
0.8
1
1.2
1.4
1.6
x
1
x
2
Figure 8.1: Metoda gradient aplicat a funct iei f(x
1
, x
2
) = (x
1
2)
4
+(x
1
2x
2
)
2
cu alegerea
pasului prin metoda ideala.
Metoda gradient se bazeaz a pe urmatoarea iterat ie:
x
k+1
= x
k

k
f(x
k
),
unde lungimea pasului
k
0 se poate alege n funct ie de una dintre cele trei proceduri
prezentate n capitolul precedent: cea ideala, condit iile Wolfe sau backtracking. Cu alte
cuvinte, din punctul x
k
caut am de-a lungul direct iei opuse gradientului un punct de minim;
acest punct de minim este x
k+1
.
Metoda gradient are diferite interpret ari pe care le enumer am mai jos:
1. Direct ia n metoda gradient (numita adesea si antigradientul) d = f(x) este o
direct ie de descrestere ntrucat f(x)
T
d = |f(x)|
2
< 0 pentru orice x care nu
este punct stat ionar, adica satisface f(x) ,= 0.
2. Iterat ia x
k+1
se obt ine prin rezolvarea urmatoarei probleme patratice (QP) convexe:
x
k+1
= arg min
yR
n
f(x
k
) +f(x
k
)
T
(y x
k
) +
1
2
k
|y x
k
|
2
,
CHAPTER 8. METODE DE ORDINUL

INTAI 85
0 10 20 30 40 50 60
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
k
f(x
k
)f
*
0 10 20 30 40 50 60
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
k
|| f(x
k
) ||
Figure 8.2: Metoda gradient aplicat a funct iei f(x
1
, x
2
) = (x
1
2)
4
+(x
1
2x
2
)
2
cu alegerea
pasului prin metoda ideala (linie continua) si backtracking (linie punctat a). Evolut ia de-a
lungul iterat iilor a lui f(x
k
) f

(stanga), |f(x
k
)| (dreapta).
i.e. aproximam local funct ia obiectiv f n jurul lui x
k
printr-un model patratic cu
Hessiana Q =
1

k
I
n
; urmatoarea iterat ie este dat a de punctul optim al aproximarii
patratice (vezi Figura 8.3).
3. Metoda gradient prezinta cea mai rapid a descrestere locala. Motiv pentru care aceasta
se mai numeste si metoda celei mai abrupte pante: ntr-adev ar pentru orice direct ie
d cu |d| = 1 avem
f(x + d) = f(x) + f(x)
T
d +1().
Din inegalitatea Cauchy-Schwartz obt inem
f(x)
T
d |f(x)||d| = |f(x)|
ceea ce conduce la urmatoarea inegalitate
f(x + d) f(x) |f(x)| +1().
Pe de alta parte, consider and urmatoarea direct ie particular a d
0
=
f(x)
f(x)
obt inem
f(x + d
0
) = f(x) |f(x)| +1().
Ultimile dou a relat ii ne permit sa concluzionam ca cea mai mare descrestere se obt ine
pentru direct ia antigradient d
0
.
CHAPTER 8. METODE DE ORDINUL

INTAI 86
x
f(x)
x
k
x
k+1
Figure 8.3: Iterat ia metodei gradient folosind aproximarea patratic a n x
k
pentru funct ia
f(x) = x
3
x
2
6x + exp(x)/2.
8.1.1 Convergent a globala a metodei gradient

In cele ce urmeaza analizam propriet at ile de convergent a globala si locala a metodei gra-
dient. Mai ntai prezentam un rezultat general de convergent a global a pentru metoda
gradient aplicat a unei probleme (UNLP) pentru care funct ia obiectiv trebuie sa e doar de
clas a (
1
.
Theorem 8.1.1 Daca urmatoarele condit ii sunt satisfacute:
(i) f este diferent iabila cu f continuu (i.e. f (
1
)
(ii) mult imea subnivel S
f(x
0
)
= x R
n
: f(x) f(x
0
) este compacta pentru orice punct
init ial x
0
(iii) lungimea pasului
k
satisface prima condit ie Wolfe (W1).
Atunci orice punct limita al sirului x
k

k0
generat de metoda gradient este punct stat ionar
pentru problema (UNLP).
CHAPTER 8. METODE DE ORDINUL

INTAI 87
Demonstrat ie: Demonstrat ia se bazeaz a pe teorema de convergent a generala prezentat a
n capitolul precedent (Teorema 7.2.5). Denim aplicat ia:
M(x) = x f(x).

Intrucat funct ia obiectiv f este diferent iabila cu gradientul f continuu rezulta ca M(x)
este o aplicat ie continua punct-punct si deci nchisa. Denim S = x

R
n
: f(x

) = 0,
mult imea solut iilor (i.e. mult imea punctelor stat ionare). Mai mult, sirul x
k

k0
S
f
(x
0
),
adica sirul generat de metoda gradient este inclus ntr-o multime compact a. De asemenea,
denim = f o funct ie descrescatoare ntrucat prima condit ie Wolfe este satisfacuta ceea
ce implica ca funct ia obiectiv sa descreasca strict de-a lungul iterat iilor generate de metoda
gradient.

In concluzie, teorema de convergent a generala poate aplicat a si mai mult, orice
punct limita al sirului se va regasi n S. Mai mult, se observa ca din condit ia ca sirul
x
k

k0
sa e m arginit, rezulta ca exist a cel put in un subsir convergent.
Acum prezentam o analiza a convergent ei metodei gradient pentru funct ii obiectiv f ce
poseda n plus fat a de teorema precedenta proprietatea ca gradientul f este Lipschitz
continuu.
Theorem 8.1.2 Fie f o funct ie diferent iabila cu gradientul Liptschitz (constanta Lipschitz
L > 0) si marginit a inferior. Mai mult, lungimea pasului
k
se alege pentru a satisface cele
doua condit ii Wolfe. Atunci sirul x
k

k0
generat de metoda gradient satisface proprietatea:
lim
k
f(x
k
) = 0.
Demonstrat ie: Se observa ca n acest caz particular unghiul dintre gradient si direct ia
considerata n metoda gradient (antigradientul) este

k
= .

In concluzie, din teorema de convergent a pentru metodele de descrestere (Teorema 7.3.1)


avem:

k0
cos
2

k
|f(x
k
)|
2
=

k0
|f(x
k
)|
2
< .
Rezult a ca sirul x
k

k0
satisface proprietatea: f(x
k
) 0 cand k .
CHAPTER 8. METODE DE ORDINUL

INTAI 88
Remark 8.1.3 Remarcam ca din prima teorema de convergent a a metodei gradient am
obt inut ca un subsir x
k

k0
converge la punctul stat ionar x

, n timp ce din a doua teorema


avem condit ia mai conservativa ca f(x
k
) 0.
8.1.2 Alegera optima a pasului constant : rate de convergent a
globale

In cazul n care lungimea pasului este constanta pentru toate iterat iile, adica alegem un
astfel ncat x
k+1
= x
k
f(x
k
), suntem interesat i n aarea unui optim ce garanteaza
cea mai rapid a convergent a. Presupunem ca funct ia obiectiv are gradientul f Lipschitz
cu constanta Lipschitz L > 0. Avem atunci urmatoarea relat ie:
f(y) f(x) +f(x)
T
(y x) +
L
2
|x y|
2
x, y domf.
Mai departe, rezulta
f(x
k+1
) f(x
k
) + |f(x
k
)|
2
+
L
2

2
|f(x
k
)|
2
= f(x
k
) (1
L
2
)|f(x
k
)|
2
.
Lungimea pasului ce garanteaza cea mai mare descrestere per iterat ie se obt ine din condit ia
max
>0
(1
L
2
)
adica

=
1
L
.
Metodei gradient cu pas constant i corespunde o lungime optimala a pasului dat a de =
1
L
.

In acest caz descresterea la ecare pas este ilustrata de relat ia


f(x
k+1
) f(x
k
)
1
2L
|f(x
k
)|
2
,
,iar dac a nsumam aceste inegalitat i de la k = 0 la k = N 1 obt inem:
f(x
N
) f(x
0
)
1
2L
N1

k=0
|f(x
k
)|
2
CHAPTER 8. METODE DE ORDINUL

INTAI 89
adica
1
2L
N1

k=0
|f(x
k
)|
2
f(x
0
) f(x
N
) f(x
0
) f

. (8.1)

In continuare denim:
|f
N
| = arg min
k=0, ,N1
|f(x
k
)|.
De aici rezulta:
1
2L
N|f
N
|
2
f(x
0
) f

In concluzie, dup a N pasi se obt ine urmatoarea rata de convergent a


|f
N
|
1

N
_
2L(f(x
0
) f

),
adica metoda gradient are, n acest caz, o rata de convergent a subliniara.
Din demonstrat ia teoremei se observa ca orice pas pentru metoda gradient n intervalul
(0
2
L
)
asigura descresterea funct iei obiectiv si, n consecint a, o rata de convergent a subliniara.
Mai mult, pentru N n inegalitatea (8.1) obt inem ca |f(x
k
)| 0 cand k .
Observat i ca nu se poate spune nimic n acest caz despre convergent a sirului x
k

k0
la
punctul stat ionar x

sau al lui f(x


k
) la valoarea optima f

. Acest tip de convergent a poate


derivat a n cazul convex.
Mai departe consider am problema de optimizare convexa neconstr ans a min
xR
n f(x), unde
f T
1,1
L
(R
n
) (reamintim T
1,1
L
(R
n
) reprezinta clasa de funct ii diferent iabile, convexe, cu
gradient Lipschitz de constanta L) pentru care avem inegalitatea (vezi Capitolul 2):
1
L
|f(x) f(y)|
2
f(x) f(y), x y x, y domf.
De asemenea, pentru un punct de optim x

not am R
k
= |x
k
x

|. Atunci, din relat ia


precedenta si f(x

) = 0 obt inem:
R
2
k+1
= |x
k
x

f(x
k
)|
2
= R
2
k
2f(x
k
), x
k
x

+
2
|f(x
k
)|
2
R
2
k
(
2
L
) |f(x
k
)|
2
.
CHAPTER 8. METODE DE ORDINUL

INTAI 90
Observ am ca pentru pas constant (0
2
L
) avem R
k
R
0
. Notand
k
= f(x
k
) f

, din
convexitatea lui f, avem:

k
f(x
k
), x
k
x

R
k
|f(x
k
)| R
0
|f(x
k
)| . (8.2)
Din proprietatea Lipschitz avem:
f(x
k+1
) f(x
k
) (1
L
2
)|f(x
k
)|
2
,
de unde sc az and n ambele part i f

si combinand cu inegalitatea (8.2) obt inem

k+1

k


R
2
0

2
k
,
unde = (1
L
2
). Deci,
1

k+1

k
+

R
2
0

k+1

k
+

R
2
0
.
Prin nsumarea acestor inegalitat i de la k = 0 la k = N 1 obt inem
1

0
+

R
2
0
N.
Mai departe, dac a alegem =

=
1
L
obt inem urmatoarea rata de convergent a:
f(x
N
) f

2L(f(x
0
) f

) |x
0
x

|
2
2L|x
0
x

|
2
+ N(f(x
0
) f

)
.
Din proprietatea Lipschitz avem:
f(x
0
) f

+f(x

), x
0
x

+
L
2
|x
0
x

|
2
= f

+
L
2
|x
0
x

|
2
.
Obt inem atunci urmatoarea rata de convergent a subliniar a pentru metoda gradient pentru
probleme de optimizare convexe neconstr anse:
f(x
N
) f

2L|x
0
x

|
2
N + 4
.
CHAPTER 8. METODE DE ORDINUL

INTAI 91
8.1.3 Rata de convergent a locala liniara a metodei gradient

In aceasta sect iune analizam rata de convergent a locala a metodei gradient. Pentru sim-
plitatea expozit iei studiem mai ntai cazul problemelor patratice:
f

= min
xR
n
f(x)
_
=
1
2
x
T
Qx q
T
x
_
,
unde Q este matrice simetrica pozitiv denita.

In acest caz problema de optimizare
patratic a convexa de mai sus are un singur punct de minim global x

ce satisface relat ia
Qx

q = 0. De asemenea, dand x
k
la it erat ia k, denim r
k
= Qx
k
q = f(x
k
).
Atunci, pasul optim (obt inut prin metoda ideala de alegere a pasului) se obt ine explicit din
minimizarea funct iei patratice unidimensionale n : () = f(x
k
r
k
):

k
=
r
T
k
r
k
r
T
k
Qr
k
.
Atunci metoda gradient are urmatoarea iterat ie pentru cazul patratic convex:
x
k+1
= x
k

r
T
k
r
k
r
T
k
Qr
k
f(x
k
).
Ca sa evaluam rata de convergent a, introducem urmatoarea funct ie ce m asoara eroarea:
e(x) =
1
2
(x x

)
T
Q(x x

) = f(x) f

,
unde am folosit ca Qx

q = 0 si f

= f(x

). Observam ca eroarea e(x) este zero dac a si


numai dac a x = x

. Prin calcule simple se poate ar ata ca


e(x
k
) e(x
k+1
)
e(x
k
)
=
2
k
r
T
k
Qy
k

2
k
r
T
k
Qr
k
y
T
k
Qy
k
,
unde y
k
= x
k
x

. T in and cont ca Qy
k
= r
k
, obt inem:
e(x
k+1
) =
_
1
(r
T
k
r
k
)
2
(r
T
k
Qr
k
)(r
T
k
Q
1
r
k
)
_
e(x
k
).
Putem ar ata usor utiliz and inegalitatea lui Kantorovich
min
y=0
(y
T
y)
2
(y
T
Qy)(y
T
Q
1
y)
=
4
min

max
(
min
+
max
)
2
CHAPTER 8. METODE DE ORDINUL

INTAI 92
ca urmatoarea relat ie are loc:
e(x
k+1
)
( 1)
2
( + 1)
2
e(x
k
),
unde este numarul de condit ionare al matricii Q, adica =
max
/
min
, cu
min
> 0
valoarea proprie minima, iar
max
valoarea proprie maxima a matricii pozitiv denite Q.
Din aceasta relat ie rezulta ca e(x
k
) = f(x
k
) f

0 la o rat a liniar a m arginit a de


constanta = (1)
2
/(+1)
2
. Observam ca rata de convergent a este lenta dac a num arul
de condit ionare este mare si depinde de punctul de pornire x
0
. Acest rezultat pentru
probleme (QP) strict convexe, unde pasul se alege cu metoda ideala, ne arata ca valorile
funct iei f(x
k
) converg la valoarea optima f

la o rata liniar a.
Pentru funct ii diferent iabile nep atratice cu rezultate similare au loc:
Theorem 8.1.4 Presupunem ca funct ia f (
2
si ca iterat iile metodei gradient generate
cu procedura de cautare ideala a pasului converge la un punct x

pentru care
2
f(x

) este
pozitiv denita. Fie un scalar ((1)
2
/(+1)
2
1), unde este numarul de condit ionare
al matricii
2
f(x

). Atunci, pentru k sucient de mare avem ca


f(x
k
) f(x

) (f(x
k
) f(x

)).
Demonstrat ia se bazeaz a pe folosirea Hesianei funct iei obiectiv n punctul x

n locul ma-
tricii Q corespunz atoare cazului patratic.

In acest caz dac a x

este un punct de minim


local astfel ncat Hesiana
2
f(x

) este pozitiv denita cu un num ar de condit ionare ,


putem ar ata ca sirul x
k
convergent la x

produs de metoda gradient satisface urmatoarea


proprietate: f(x
k
) f(x

) cu o rata de convergent a liniar a a carui coecient este m arginit


inferior de ( 1)
2
/( + 1)
2
. Observam ca n cazul neconvex sirul x
k
generat de metoda
gradient converge catre x

dac a punctul de pornire x


0
este sucient de aproape de x

, adica
avem convergent a locala.
8.2 Metoda direct iilor conjugate
Metoda direct iilor conjugate poate privita ca o metoda intermediar a ntre metoda gradi-
ent (ce foloseste informat ie de ordinul ntai) si metoda Newton (ce foloseste informat ie de
CHAPTER 8. METODE DE ORDINUL

INTAI 93
ordinul doi). Aceasta metoda este motivat a de dorint a de a accelera rata de convergent a
lenta a metodei gradient si n acelasi timp de a evita folosirea Hessianei din metoda New-
ton. Un caz particular al metodei direct iilor conjugate este metoda gradient ilor conjugat i.
Metoda gradient ilor conjugat i a fost init ial dezvoltat a pentru probleme patratice. Aceasta
technica va apoi extins a la probleme de optimizare generale, prin aproximare, deoarece
se poate argumenta ca n apropierea unui punct de minim local funct ia obiectiv este aprox-
imativ patratic a.
8.2.1 Metoda direct iilor conjugate pentru probleme QP
Metoda direct iilor conjugate este de asemenea o metoda de ordinul ntai, i.e. foloseste
informat ia extras a din valoarea funct iei si a gradientului acesteia (oracol de ordinul ntai),
nsa prezinta o rata de convergent a mai bun a decat a metodei gradient cel put in pentru
cazul patratic. Sa presupunem urmatoarea problem a QP strict convexa:
min
xR
n
1
2
x
T
Qx q
T
x,
unde Q0 (adic a matrice pozitiv denita). Solut ia optima a acestei probleme de optimizare
este echivalenta cu rezolvarea urmatorului sistem de ecuat ii liniare
Qx = q.

Intrucat Q este inversabil a, solut ia problemei de optimizare sau solut ia sistemului liniar este
x

= Q
1
q.

In cele mai multe cazuri calculul inversei este foarte costisitor, si n general
complexitatea aritmetica a unei metode de calcul numeric matricial pentru gasirea solut iei
este de ordinul O(n
3
).

In cele ce urmeaza vom prezenta o metoda numeric a de optimizare
mai simpl a si n general mai put in costisitoare pentru calculul solut iei x

.
Denition 8.2.1 Doi vectori d
1
si d
2
se numesc Q-ortogonali daca d
T
1
Qd
2
= 0. O mult ime
de vectori d
1
, d
2
, , d
k
se numeste Q-ortogonala daca d
T
i
Qd
j
= 0 pentru orice i ,= j.
Se observa ca dac a Q0 si dac a d
1
, d
2
, , d
k
este Q-ortogonala, iar vectorii sunt nenuli,
atunci acestia sunt liniar independent i. Mai mult, n cazul n care k = n, vectorii formeaza
o baz a pentru R
n
.

In concluzie, dac a d
1
, d
2
, , d
n
este Q-ortogonal a, iar vectorii sunt
CHAPTER 8. METODE DE ORDINUL

INTAI 94
nenuli, exist a
1
, ,
n
R astfel ncat x

=
1
d
1
+
2
d
2
+ +
n
d
n
(adica x

este
combinat ie liniar a a vectorilor bazei). Pentru aarea parametrilor
i
avem relat ia

i
=
d
T
i
Qx

d
T
i
Qd
i
=
d
T
i
q
d
T
i
Qd
i
.
Concluzionam ca
x

=
n

i=1
d
T
i
q
d
T
i
Qd
i
d
i
si deci x

poate obt inut printr-un proces iterativ n care la pasul i adaug am termenul

i
d
i
.
Theorem 8.2.2 Fie d
0
, d
1
, , d
n1
o mult ime Q-ortogonala de vectori cu elemente
nenule. Pentru orice x
0
R
n
sirul x
k
generat de metoda iterativa:
x
k+1
= x
k
+
k
d
k

k
=
r
T
k
d
k
d
T
k
Qd
k
, r
k
= Qx
k
q
converge la x

dupa n pasi, adica x


n
= x

.
Demonstratie: Deoarece vectorii d
1
, d
2
, , d
k
sunt liniar independent i putem scrie:
x

x
0
=

0
d
0
+

1
d
1
+ +

n1
d
n1
pentru anumit i scalari

k
. Multiplic and aceasta relat ie cu Q si apoi lu and produsul scalar
cu d
k
obt inem

k
=
d
T
k
Q(x

x
0
)
d
T
k
Qd
k
.
Folosind iterat ia de mai sus pentru calcularea lui x
k+1
obt inem:
x
k
x
0
=
0
d
0
+
1
d
1
+ +
k1
d
k1
si din Q-ortogonalitatea lui d
k
obt inem
d
T
k
Q(x
k
x
0
) = 0.
CHAPTER 8. METODE DE ORDINUL

INTAI 95

In concluzie

k
=
d
T
k
Q(x

x
k
)
d
T
k
Qd
k
=
r
T
k
d
k
d
T
k
Qd
k
coincide cu
k
. De aici rezulta ca x
n
x
0
= x

x
0
si deci x
n
= x

.
Se observa ca rezidul r
k
= Qx
k
q coincide cu gradientul funct iei obiectiv patratice.
Theorem 8.2.3 Fie d
0
, d
1
, , d
n1
o mult ime Q-ortogonala de vectori cu elemente
nenule, denim subspat iul S
k
= Spand
0
, d
1
, , d
k
. Atunci pentru orice x
0
R
n
sirul
x
k+1
= x
k
+
k
d
k
, unde
k
=
r
T
k
d
k
d
T
k
Qd
k
are urmatoarele proprietat i:
(i) x
k+1
= arg min
xx
0
+S
k
1
2
x
T
Qx q
T
x
(ii) rezidul la pasul k este ortogonal cu toate direct iile precedente, adica
r
T
k
d
i
= 0 i < k.
Din proprietatea (ii) a teoremei precedente obt inem:
f(x
k
) S
k1
.
Aceasta teorem a se mai numeste si minimizarea peste subspat iul de extindere.
8.2.2 Metoda gradient ilor conjugat i pentru probleme QP
Metoda gradient ilor conjugat i apart ine clasei de metode de direct ii conjugate cu o propri-
etate speciala: n generarea mult imii de vectori conjugat i, noul vector d
k
poate calculat
folosind numai direct ia anterioar a d
k1
.

In aceasta metoda pentru a calcula d
k
nu tre-
buie sa stim toate direct iile conjugate anterioare d
0
, d
1
, , d
k1
. Din construct ie, noua
direct ie d
k
va automat ortogonal a pe aceste direct ii anterioare. Aceasta proprietate
a metodei gradiet ilor conjugat i este foarte importanta deoarece cere put in a memorie si
calcule. Metoda gradient ilor conjugat i pentru rezolvarea unui QP strict convex cuprinde
urmatorii pasi:
Algoritm (Metoda gradient ilor conjugat i).
CHAPTER 8. METODE DE ORDINUL

INTAI 96
x
1
x
0
f(x
1
)
d
0
x
2
d
1
Figure 8.4: Metoda gradient ilor conjugat i.
0. Fie vectorul x
0
R
n
dat, denim d
0
= f(x
0
) = r
0
= (Qx
0
q)
1. x
k+1
= x
k
+
k
d
k
cu
k
=
r
T
k
d
k
d
T
k
Qd
k
2. d
k+1
= r
k+1
+
k
d
k
, unde
k
=
r
T
k+1
Qd
k
d
T
k
Qd
k
.
unde r
k
= f(x
k
). Se observa ca la ecare pas o nou a direct ie este aleas a ca o combinat ie
liniar a ntre gradientul curent si direct ia precedenta. Metoda gradient ilor conjugat i are
o complexitate sc azuta ntrucat foloseste formule de actualizare simple (adic a operat ii cu
vectori).
Theorem 8.2.4 (Proprietat i ale metodei gradient ilor conjugat i) Metoda gradient ilor
conjugat i satisface urmatoarele proprietat i:
(i) Spand
0
, d
1
, , d
k
= Spanr
0
, r
1
, , r
k
= Spanr
0
, Qr
0
, , Q
k
r
0

(ii) d
T
k
Qd
i
= 0 pentru orice i < k
(iii)
k
=
r
T
k
r
k
d
T
k
Qd
k
(iv)
k
=
r
T
k+1
r
k+1
r
T
k
r
k
.
CHAPTER 8. METODE DE ORDINUL

INTAI 97
Demonstrat ie: Relat ia (i) se poate demonstra prin induct ie. Este evident ca (i) este
adevarata la pasul k = 0. Presupunem acum ca egalitat ile de mult imi sunt valide la pasul
k si demonstram relat ia pentru k +1. Din iterat ia metodei gradient ilor conjugat i se deduce
ca:
r
k+1
= r
k
+
k
Qd
k
.
Din ipoteza de induct ie avem ca r
k
, Qd
k
Spanr
0
, Qr
0
, , Q
k+1
r
0
. Drept urmare r
k+1

Spanr
0
, Qr
0
, , Q
k+1
r
0
. Considerand acest rezultat si iterat ia:
d
k+1
= r
k+1
+
k
d
k
,
rezulta de asemenea ca d
k+1
Spanr
0
, Qr
0
, , Q
k+1
r
0
.
Pentru a demonstra (ii) folosim iarasi induct ia si lu am n considerare faptul ca
d
T
k+1
Qd
i
= r
T
k+1
Qd
i
+
k
d
T
k
Qd
i
.
Pentru i = k, membrul drept este zero datorita denit iei lui
k
. Pentru i < k, ambii
termeni dispar. Primul termen dispare datorita faptului ca Qd
i
Spand
0
, d
1
, , d
i+1
, a
induct iei ce garanteaza ca metoda este o metoda de direct ii conjugate pana la pasul x
k+1
,
si prin Teorema 8.2.3, ce garanteaza ca r
k+1
este ortogonal pe Spand
0
, d
1
, , d
i+1
. Al
doilea termen dispare prin aplicarea induct iei asupra lui (ii).
Pentru a demonstra (iii) observam ca:
r
T
k
d
k
= r
T
k
r
k

k1
r
T
k
d
k1
si apoi utiliz am faptul ca
k
=
r
T
k
d
k
d
T
k
Qd
k
, iar al doilea termen este zero conform Teoremei
8.2.3.

In nal, pentru a demonstra (iv) observam ca r


T
k+1
r
k
= 0, deoarece r
k
Spand
0
, d
1
, , d
k

si r
k+1
este ortogonal la Spand
0
, d
1
, , d
k
. Mai mult, din relat ia
Qd
k
=
1

k
(r
k+1
r
k
)
avem ca r
T
k+1
Qd
k
=
1

k
r
T
k+1
r
k+1
.
Din proprietatea (ii) a teoremei precedente se observa ca metoda gradient ilor conjugat i
produce direct iile d
0
, d
1
, , d
n1
care sunt direct ii Q-ortogonale si deci metoda converge
la solut ia optima x

n exact n pasi, conform Teoremei 8.2.2.


CHAPTER 8. METODE DE ORDINUL

INTAI 98
8.2.3 Metoda gradient ilor conjugat i pentru probleme generale
UNLP
Pentru o problem a generala neconstr ans a min
xR
n
f(x), putem aplica metoda gradient ilor
conjugat i folosind aproximari adecvate. Prezentam n cele ce urmeaza cateva abord ari
n aceasta direct ie.

In abordarea aproximarii patratice, se repet a aceleasi iterat ii ca si n cazul patratic folosindu-


se o aproximare patratica cu urmatoarele identic ari:
Q =
2
f(x
k
), r
k
= f(x
k
).
Aceste asocieri sunt reevaluate la ecare pas al metodei. Dac a funct ia f este patratic a,
atunci aceste asocieri sunt identitat i, si deci algoritmul este o generalizare la cazul patratic
neconvex. Cand o aplicam la probleme nep atratice, atunci metoda gradient ilor conjugat i
nu va produce o solut ie n n pasi.

In acest caz se continua procedura, gasind noi direct ii
si termin and atunci cand un anumit criteriu este satisfacut (de exemplu |f(x
k
)| ).
Este de asemenea posibil ca dup a n sau n + 1 pasi sa reinit ializam algoritmul cu x
0
= x
n
si sa ncepem metoda gradient ilor conjugat i cu un pas de gradient.
Algoritm (Metoda gradient ilor conjugat i pentru UNLP).
0. r
0
= f(x
0
) si d
0
= f(x
0
)
1. x
k+1
= x
k
+
k
d
k
pentru orice k = 0, 1, , n 1, unde
k
=
r
T
k
d
k
d
T
k

2
f(x
k
)d
k
2. d
k+1
= f(x
k+1
) +
k
d
k
, unde
k
=
r
T
k+1

2
f(x
k
)d
k
d
T
k

2
f(x
k
)d
k
3. dup a n iterat ii nlocuim x
0
cu x
n
si repet am ntregul proces.
O proprietate atractiva a metodei gradient ilor conjugat i este aceea ca nu e nevoie de
cautarea pe o direct ie, adica nu trebuie sa gasim o lungime a pasului. Pe de alta parte,
aceasta abordare are dezavantajul ca cere evaluarea Hesianei funct iei obiectiv la care pas,
care de obicei este costisitoare. De asemenea, se observa ca n cazul general aceast a metoda
nu este convergenta.
CHAPTER 8. METODE DE ORDINUL

INTAI 99
Este posibil sa se evite folosirea directa a Hesianei
2
f(x). De exemplu, n locul formulei
pentru
k
dat mai sus, putem gasi lungimea pasului
k
prin metoda de cautare ideal a.
Expresia corespunz atoare va coincide cu cea de mai sus n cazul patratic. De asemenea, al-
goritmul se poate transformantr-unul convergent prin modicarea adecvat a a parametrului

k
. Avem la dispozit ie urmatoarele reguli de actualizare:
FletcherReeves :
k
=
r
T
k+1
r
k+1
r
T
k
r
k
PolakRibiere :
k
=
(r
k+1
r
k
)
T
r
k+1
r
T
k
r
k
.
Observ am ca aceste formule coincid cu
k
dat n algoritmul precedent n cazul patratic.
Din simul ari s-a observat ca de obicei metoda Polak-Ribiere are un comportament mai bun
fat a de metoda Fletcher-Reeves. Obt inem urmatoarea metoda modicat a:
Algoritm (Metoda gradient ilor conjugat i modicata pentru UNLP).
0. r
0
= f(x
0
) si d
0
= f(x
0
)
1. x
k+1
= x
k
+
k
d
k
pentru orice k = 0, 1, , n 1, unde
k
minimizeaz a funct ia
unidimensionala f(x
k
+ d
k
)
2. d
k+1
= f(x
k+1
) +
k
d
k
, unde
k
este ales cu una din cele dou a formule de mai sus.
3. dup a n iterat ii nlocuim x
0
cu x
n
si repet am ntregul proces.
Convergent a globala a metodei gradient ilor conjugat i modicata se poate demonstra din
simpla observat ie ca la ecare n pasi a acestei metode se realizeaz a o iterat ie de gradient
pur si ca la ceilalt i pasi funct ia obiectiv nu creste, ci de fapt se sper a sa descreasca strict.
De aceea restartarea algoritmului este importanta pentru analiza convergent ei globale a
metodei, deoarece pentru direct iile d
k
produse de metoda nu putem garanta ca sunt direct ii
de descrestere. Proprietat ile de convergent a locala a metodei descrise mai sus poate
ar atata folosindu-ne iarasi de analiza cazului patratic. Presupun and ca la solut ia x

Hesiana
este pozitiv denita, ne astept am la o rata de convergent a cel put in la fel de bun a ca a
metodei gradient. Mai mult, n general metoda converge patratic n raport cu ecare ciclu
de n pasi. Cu alte cuvinte, observam can ecare ciclu se rezolv a o problem a patratic a la fel
cum metoda Newton rezolv a ntr-un pas aceasta problem a patratica, si deci ne astept am
CHAPTER 8. METODE DE ORDINUL

INTAI 100
ca |x
k+n
x

| c|x
k
x

|
2
pentru o anumita constanta c > 0 si k = 0, n, 2n, . . . .

In concluzie, metoda gradient ilor conjugat i modicata posed a o convergent a superioara


metodei gradient, iar pe de alta parte are o implementare simpl a. De aceea, este adesea
preferata n favoarea metodei gradient pentru rezolvarea problemelor de optimizare f ar a
constrangeri.
Chapter 9
Metode de ordinul doi
Metodele de ordinul doi sunt cele mai complexe metode numerice de optimizare deoarece
folosesc informat ie despre curbura funct iei obiectiv sau matricea Hessian a. De obicei aceste
metode converg mult mai rapid decat metodele de ordinul ntai dar sunt n general dicil
de implementat deoarece calcularea si memorarea matricii Hessiane poate costisitoare
din punct de vedere numeric. Metoda Newton este un exemplu de metoda de ordinul
doi care const a n devierea direct iei antigradientului prin premultiplicarea lui cu inversa
matricii Hesiane. Aceasta operat ie este motivat a prin gasirea unei direct ii adecvate pentru
aproximarea Taylor de ordinul doi a funct iei obiectiv.

In general, pentru probleme de
dimensiuni mari, se prefer a implementarea unei metode de ordinul ntai care ia n calcul
structura funct iei obiectiv. Adesea un sir de gradient i pot folosit i la aproximarea curburii
de ordinul doi a funct iei obiectiv. Metode ce se bazeaz a pe aceast a procedur a se numesc
metode cvasi-Newton.

In acest capitol ne ocup am de rezolvarea unei probleme generale neliniare de optimizare


neconstr ans a (UNLP) cu metode numerice ce utilizeaz a informat ie furnizata de gradient
si Hessiana (informat ie de ordin doi) sau o aproximare a acesteia (adic a ce se bazeaz a pe
informat ie de ordinul ntai):
(UNLP) : min
xR
n
f(x), (9.1)
unde funct ia obiectiv este de dou a ori diferent iabila cu Hessiana continua f (
2
.
101
CHAPTER 9. METODE DE ORDINUL DOI 102
9.1 Metoda Newton

In analiza numeric a si optimizare, metoda lui Newton (sau metoda Newton-Raphson) este o
metoda de calcul al radacinilor unui sistem de ecuat ii. consider am condit iile de optimalitate
necesare de ordinul ntai, ce se reduc la un sistem de ecuat ii neliniare:
f(x

) = 0
cu f : R
n
R
n
, care are numarul de ecuat ii egale cu numarul de variabile. Ideea din
spatele metodei Newton const a n liniarizarea ecuat iei neliniare n punctul x
k
pentru a gasi
urmatorul punct x
k+1
:
f(x
k
) +
2
f(x
k
)(x
k+1
x
k
) = 0,
iar din aceasta relat ie putem deriva metoda Newton care const a in urmatoarea iterat ie:
x
k+1
= x
k
(
2
f(x
k
))
1
f(x
k
).
0.4 0.6 0.8 1 1.2 1.4 1.6
0.6
0.8
1
1.2
1.4
1.6
x
1
x
2
Figure 9.1: Metoda Newton aplicata funct iei f(x
1
, x
2
) = (x
1
x
3
2
)
2
+ 3(x
1
x
2
)
4
.
Direct ia in metoda Newton este dat a de expresia
d
k
= (
2
f(x
k
))
1
f(x
k
),
CHAPTER 9. METODE DE ORDINUL DOI 103
numita si directie Newton. observam ca dac a
2
f(x
k
)0 atunci direct ia Newton d
k
este
direct ie de descrestere. Reamintim ca direct ia n metoda gradient este dat a de antigradien-
tul f(x
k
), adica n locul matricii (
2
f(x
k
))
1
din metoda Newton, n metoda gradient
se foloseste matricea identitate I
n
.
f(x)
x x
k+1
x
k
Figure 9.2: Iterat ia metodei gradient folosind aproximarea patratic a Taylor n x
k
pentru
funct ia f(x) = x
3
x
2
6x + exp(x)/2.
O alta interpretare a metodei numerice de optimizare Newton poate obt inut a din aprox-
imarea Taylor de ordinul doi a funct iei obiectiv f. Reamintim ca condit iile de optimalitate
suciente de ordinul doi se denesc astfel: dac a exosta un x

ce satisface
f(x

) = 0 si
2
f(x

)0
atunci x

este un minim local. Dac a punctul x

satisface condit iile de mai sus, atunci exist a


o vecin atate a lui x

notata A astfel ncat pentru x A avem


2
f(x)0. Din aproximarea
Taylor avem ca:
f(x
k+1
) f(x
k
) +f(x
k
)
T
(x
k+1
x
k
) +
1
2
(x
k+1
x
k
)
T

2
f(x
k
)(x
k+1
x
k
)
si deci iterat ia Newton este dat a de (vezi Figura 9.2)
x
k+1
= arg min
y
f(x
k
) +f(x
k
)
T
(y x
k
) +
1
2
(y x
k
)
T

2
f(x
k
)(y x
k
).
Se observa ca dac a x
k
este sucient de aproape de x

atunci
2
f(x
k
)0 si din condit iile
de optimalitate corespunzatoare unei probleme QP strict convexe obt inem din nou x
k+1
=
CHAPTER 9. METODE DE ORDINUL DOI 104
x
k
(
2
f(x
k
))
1
f(x
k
), i.e. aceeasi formu

la, nsa cu o interpretare diferit a. Fac and


analogia cu interpretarea metodei gradient, observam ca n ambele metode iterat ia x
k+1
se
genereaz a din rezolvarea unei aproximari patratice n care termenul liniar este acelasi dar
termenul patratic n metoda gradient este (y x
k
)
T
I
n
(y x
k
) n timp ce n metoda Newton
este (y x
k
)
T

2
f(x
k
)(y x
k
). Este clar ca aproximarea patratic a a funct iei f folosita n
metoda Newton este mai bun a dec at cea folosita n metoda gradient si deci ne astept am
ca metoda Newton sa performeze mai bine decat metoda gradient.
Putemntr-o manier a similar a cu cea de mai sus sa interpret am derivarea direct iei Newton,
si anume din aproximarea Taylor avem ca:
f(x
k
+ d) f(x
k
) +f(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d
si deci denim direct ia Newton
d
k
= arg min
d
f(x
k
) +f(x
k
)
T
d +
1
2
d
T

2
f(x
k
)d.
Se observa ca dac a
2
f(x
k
)0, din condit iile de optimalitate corespunzatoare unei prob-
leme QP strict convexe obt inem din nou d
k
=
2
f(x
k
)
1
f(x
k
).
9.1.1 Rata de convergent a locala a metodei Newton

In aceasta sect iune vom analiza convergent a locala a metodei Newton n forma standard:
x
k+1
= x
k
(
2
f(x
k
))
1
f(x
k
).
Vom ar atan urmatoarea teorem a ca aceasta metoda converge local cu rata patratic a, adica
exist a > 0 astfel ncat |x
k+1
x

| |x
k
x

|
2
pentru orice k 0, cu condit ia ca x
0
este sucient de aproape de x

.
Theorem 9.1.1 (Convergent a locala cu rata patratica a metodei Newton) Fie f
C
2
si x

un minim local ce satisface condit iile suciente de ordinul doi (adica f(x

) = 0
si
2
f(x

) 0). Fie l > 0 astfel ncat

2
f(x

) _ lI
n
.
CHAPTER 9. METODE DE ORDINUL DOI 105
Mai mult, presupunem ca
2
f(x) este Lipschitz, i.e.
|
2
f(x)
2
f(y)| M|x y| x, y domf,
unde M > 0. daca x
0
este sucient de aproape de x

, i.e.
|x
0
x

|
2
3

l
M
,
atunci iterat ia Newton x
k+1
= x
k
(
2
f(x
k
))
1
f(x
k
) are proprietatea ca sirul x
k

k0
converge la x

cu rata patratica, adica |x


k+1
x

|
3M
2l
|x
k
x

|
2
pentru orice k 0.
Demonstratie:

Intrucat x

este un minim local atunci f(x

) = 0. Mai mult, din


teorema lui Taylor n forma integrala avem
f(x
k
) = f(x

) +
_
1
0

2
f(x

+ (x
k
x

))(x
k
x

)d.
Se obt ine:
x
k+1
x

= x
k
x

(
2
f(x
k
))
1
f(x
k
)
= (
2
f(x
k
))
1
[
2
f(x
k
)(x
k
x

) f(x
k
) +f(x

)]
= (
2
f(x
k
))
1
[
2
f(x
k
)(x
k
x

)
_
1
0

2
f(x

+ (x
k
x

))(x
k
x

)d
= (
2
f(x
k
))
1
_
1
0

2
f(x
k
)(x
k
x

)
2
f(x

+ (x
k
x

))(x
k
x

)d
= (
2
f(x
k
))
1
_
1
0
[
2
f(x
k
)
2
f(x

+ (x
k
x

))](x
k
x

)d.

Intrucat
|
2
f(x
k
)
2
f(x

)| M|x
k
x

|
rezulta ca:
M|x
k
x

|I
n
_
2
f(x
k
)
2
f(x

) _ M|x
k
x

|I
n
.
Mai mult, vom avea

2
f(x
k
) _
2
f(x

) M|x
k
x

|I
n
_ lI
n
M|x
k
x

|I
n
0,
CHAPTER 9. METODE DE ORDINUL DOI 106
cu condit ia ca |x
k
x

|
2
3
l
M
are loc, ceea ce conduce la
0 (
2
f(x
k
))
1
_
1
l M|x
k
x

|
I
n
.
Concluzionam ca
|x
k+1
x

| = |(
2
f(x
k
))
1
||
_
1
0

2
f(x
k
)
2
f(x

+ (x
k
x

))d||x
k
x

1
l M|x
k
x

|
_
1
0
M(1 )|x
k
x

|d|x
k
x

1
l M|x
k
x

|
_
1
0
M(1 )d|x
k
x

|
2

1
l M|x
k
x

|
M
2
|x
k
x

|
2
.
Prin induct ie se arata usor ca dac a |x
0
x

| 2l/3M atunci |x
k
x

| 2l/3M pentru
orice k 0. observam ca
1
lMx
k
x

M
2

3M
2l
< si deci |x
k+1
x

|
3M
2l
|x
k
x

|
2
.
Remark 9.1.2
1. Din teorema anterioara putem concluziona ca metoda Newton are o rata de convergent a
foarte rapida n apropierea punctului de optim local. Mai mult, observ am ca metoda
Newton converge ntr-un singur pas pentru probleme patratice convexe. Deci n
comparat ie cu metodele de ordinul ntai unde n cel mai bun caz convergent a se
atinge n n pasi, n metoda Newton obt inem convergent a n exact un pas pentru
problemele patratice convexe. Principalul dezavantaj al acestei metode este necesi-
tatea de a calcula Hessiana funct iei f si inversarea acestei matrici. Aceste operat ii
sunt costisitoare, complexitatea ind de ordinul O(n
3
), si deci pentru dimeniuni mari
ale problemei de optimizare (UNLP), de exemplu n > 10
3
, aceste operat ii sunt foarte
greu de realizat pe un computer obisnuit.
9.1.2 Convergent a globala a metodei Newton
Dac a pornim dintr-un punct x
0
ce nu este aproape de x

atunci metoda Newton va trebui


modicata pentru a garanta convergent a ei catre un punct stat ionar. Modicarea const a
CHAPTER 9. METODE DE ORDINUL DOI 107
n alegerea dimensiunii pasului
k
,= 1 astfel ncat de exemplu condit ia Wolfe (W1) sa e
satisf acuta.

In acest caz metoda Newton (numita si metoda Newton cu pas variabil ) devine:
x
k+1
= x
k

k
(
2
f(x
k
))
1
f(x
k
).

In general lungimea pasul


k
se alege cu procedura ideala (adic a se obt ine din minimizarea
funct iei unidimensionale min
0
f(x
k
+ d
k
), unde d
k
= (
2
f(x
k
))
1
f(x
k
)) sau cu
procedura backtracking. Bazat pe una din aceste proceduri, observam ca dac a x
k
este
sucient de apropiat de x

, pasul
k
va deveni 1.
2 4 6 8 10 12 14
0
0.05
0.1
0.15
0.2
0.25
|f(x
k
)f
*
|
k
2 4 6 8 10 12 14
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
|| f(x
k
) ||
k
Figure 9.3: Metoda gradient aplicat a funct iei f(x
1
, x
2
) = (x
1
x
3
2
)
2
+3(x
1
x
2
)
4
cu alegerea
pasului prin metoda ideala (linie continua), backtracking (linientrerupta-punctat a) si
k
=
1 (linie ntrerupta). Evolut ia de-a lungul iterat iilor lui f(x
k
) f

(stanga), |f(x
k
)|
(dreapta).
Urm atoarea teroema furnizeaz a condit ii suciente ce garanteaza convergent a global a a
metodei Newton catre un punct stat ionar.
Theorem 9.1.3 (convergent a globala a metodei Newton) Fie funct ia obiectiv f
(
2
cu gradientul f Lipschitz. Consideram metoda Newton cu pas variabil x
k+1
= x
k

k
(
2
f(x
k
))
1
f(x
k
), unde
k
se alege folosind backtracking. Mai departe presupunem ca
Hesiana satisface condit ia
1
I
n
_ (
2
f(x
k
))
1
_
2
I
n
pentru orice k 0, unde 0 <
1

2
. Atunci, metoda Newton produce un sir x
k

k0
cu proprietatea ca e f(x
k
) 0, ori
f(x
k
) (adica funct ia f nu este marginita inferior).
Demonstrat ie: Presupunem ca algoritmul Newton produce un sir x
k

k0
astfel ncat
sirul f(x
k
)
k0
este m arginit inferior. Din moment ce alegem
k
cu metoda backtrack-
ing, avem condit ia Wolfe (W1) este satisfacuta si deci f(x
k+1
) f(x
k
). Stim ca un sir
CHAPTER 9. METODE DE ORDINUL DOI 108
descrescator si m arginit inferior este convergent, deci exosta f

astfel ncat f(x


k
) f

.
Aceasta implica de asemenea ca [f(x
k
) f(x
k+1
)] 0. Din condit ia Wolfe (W1) avem ca:
f(x
k
) f(x
k+1
) c
1

k
f(x
k
)
T
d
k
= c
1

k
f(x
k
)
T
(
2
f(x
k
))
1
f(x
k
)
c
1

1
|f(x
k
)|
2
.
Trecand la limita pentru k obt inem ca
c
1

1
|f(x
k
)|
2
0. (9.2)
Este sucient sa ar at am ca
k

min
> 0 pentru orice k 0. Vom ar ata n cele ce urmeaza
ca atunci cand lungimea pasului
k
este aleas a conform procedurii backtracking avem ca

k

min
, unde
min
= min1,
(1c
1
)
L
2
> 0 si L este const anta Lipschitz pentru gradientul
f, adica |f(x) f(y)| L|x y|.
Pentru pas complet
k
= 1 avem n mod evident satisfacuta relat ia
k

min
.

In celalat
caz, datorita procedurii de backtracking pentru alegerea lungimii pasului, avem ca pasul
anterior =

k

nu satisface condit ia Wolfe (W1), pentru ca n caz contrar ar fost folosit


acest pas, si deci:
f(x
k
+

k

d
k
) > f(x
k
) + c
1

f(x
k
)
T
d
k
f(x
k
+

k

d
k
) f(x
k
) > c
1

f(x
k
)
T
d
k
.
Folosind Taylor avem ca exist a (0

k

) astfel ncat f(x


k
+

k

d
k
) f(x
k
) =

k

f(x
k
+
d
k
)
T
d
k
. Mai departe, obt inem:
f(x
k
+ d
k
)
T
d
k
> c
1
f(x
k
)
T
d
k
(f(x
k
+ d
k
) f(x
k
))
T
. .
Ld
k

2
d
k
> (1 c
1
) (f(x
k
)
T
d
k
)
. .
=d
k
T

2
f(x
k
)d
k
.

In concluzie, t in and seama ca



k

, avem:

L|d
k
|
2
> (1 c
1
)d
T
k

2
f(x
k
)d
k

1 c
1

2
|d
k
|
2
,
CHAPTER 9. METODE DE ORDINUL DOI 109
ceea ce conduce la
k
>
(1c
1
)

2
L
> 0, adica sirul
k
este m arginit inferior de o const anta
pozitiva
min
=
(1c
1
)

2
L
. Am folosit faptul ca valorile proprii ale matricii Hessiane satisfac
condit ia:
1

1
(
2
f(x
k
))
1

2
. Din faptul ca
k

min
> 0 si relat ia (9.2) obt inem ca
|f(x
k
)| 0 pentru k .
O alta observat ie importanta legat a de aceasta metoda tine de faptul ca direct ia Newton
este direct ie de descrestere dac a
2
f(x
k
) 0. Dac a aceasta condit ie nu este satisfacuta,
atunci n locul matricii
2
f(x
k
) vom considera matricea
k
I
n
+
2
f(x
k
) pentru o valoare
adecvat a
k
astfel ncat noua matrice devine pozitiv denita.

In acest caz metoda Newton
cu pas variabil devine:
x
k+1
= x
k

k
(
k
I
n
+
2
f(x
k
))
1
f(x
k
), (9.3)
unde ca si mai nainte lungimea pasului
k
se alege prin metoda ideal a sau backtracking.

In
cele ce urmeaza denim o procedur a de alegere a const antei
k
. Observ am ca dac a alegem

k
prea mic pentru ca iterat ia de mai sus sa coincida aproape cu metoda Newton (care are
rata de convergent a patratic a) atunci putem avea probleme numerice dotarita faptului ca
Hessiana este rau condit ionat a cand este aproape singular a. Pe de alta parte, dac a
k
este
foarte mare atunci matricea
k
I
n
+
2
f(x
k
) este diagonal dominanta si deci metoda va avea
un comportament similar cu algoritmul gradient (care are rata de convergent a liniar a).
D and o iterat ie x
k
si
k
> 0, ncercam sa calculam factorizarea Cholesky L
T
L a matricii

k
I
n
+
2
f(x
k
). Dac a aceasta factorizare nu este posibil a atunci multiplic am
k
cu un factor
(de exemplu putem alege = 4) si repet am pana cand aceasta factorizare este posibil a.
Odat a ce aceasta factorizare este posibil a, o folosim n aarea direct iei Newton, adica o
folosim n rezolvarea sistemului L
T
L d
k
= f(x
k
).
Convergent a globala a metodei Newton modicata (9.3) se demonstreaz an aceeasi manier a
ca n Teorema 9.1.3.
9.2 Metode cvasi-Newton
Dupa cum am ment ionat anterior, principalul dezavantaj al metodei Newton const a in fap-
tul ca la ecare iterat ie este nevoie s a calcul am Hessiana si inversa sa, operat ii costisitoare
in general de ordinul O(n
3
). Metodele cvasi-Newton au scopul de a nlocui inversa Hes-
sianei f(x
k
)
1
cu o matrice H
k
ce poate calculata mult mai usor dar in acelasi timp
CHAPTER 9. METODE DE ORDINUL DOI 110
de a pastra rata de convergent a rapid a a metodei Newton.

In metodele cvasi-Newton se
construieste de asemenea o aproximare patratic a a funct iei obiectiv unde Hessiana funct iei
patratice se construieste pe baza diferent elor de gradient, deci aceste metode folosesc numai
informat ie de ordinul ntai. Mai mult, costul per iterat ie la metodele cvasi-Newton este de
ordinul O(n
2
). Consideram urmatoarea iterat ie:
x
k+1
= x
k

k
H
k
f(x
k
).
Se observa ca direct ia d
k
= H
k
f(x
k
) este una de descrestere dac a matricea H
k
0:
f(x
k
)
T
d
k
= f(x
k
)
T
H
k
f(x
k
) < 0.

In metoda cvasi-Newton pasul


k
se alege de obicei cu procedura ideal a sau pe baza de
backtracking.

In general, ca si n cazul metodei Newton, dacax
k
este sucient de apropiat
de solut ia x

alegem
k
= 1.
Obiectivul nostru este de a gasi reguli de actualizare ale matricii H
k
astfelncat aceasta sa
convearga asimptotic la adevarata inversa a Hessianei, adica
H
k

2
f(x

)
1
.
Din aproximarea Taylor avem:
f(x
k+1
) f(x
k
) +
2
f(x
k
)(x
k+1
x
k
).

In concluzie, din aproximarea adev aratei Hessiane


2
f(x
k
) cu matricea B
k+1
obt inem
urmatoarea relat ie
f(x
k+1
) f(x
k
) = B
k+1
(x
k+1
x
k
) (9.4)
sau echivalent, not and H
k+1
= B
1
k+1
obt inem
H
k+1
(f(x
k+1
) f(x
k
)) = x
k+1
x
k
. (9.5)
Relat iile (9.4) sau (9.5) se numesc ecuat ia secantei.
Pentru H
1
k+1
=
2
f(x
k
) recuper am metoda Newton. Se observa ca avem o interpretare
similar a cu cea a metodei Newton, si anume ca la ecare iterat ie, consider am o aproximare
patratic a convexa a funct iei obictiv (i.e. B
k
0) si o minimizam pentru a obt ine direct ia de
la urmatorul pas:
d
k
= arg min
dR
n
f(x
k
) +f(x
k
)
T
d +
1
2
d
T
B
k
d. (9.6)
CHAPTER 9. METODE DE ORDINUL DOI 111

Intrucat Hessiana este simetrica este necesar ca matricile B


k+1
si H
k+1
sa e simetrice
de asemenea.

In concluzie avem n ecuat ii (din relat ia (9.5)) cu
n(n+1)
2
necunoscute (prin
impunerea simetriei asupra matricii H
k+1
) si deci se obt ine un num ar innit de solut ii.

In
continuare vom enunt a diferite reguli de actualizare a matricii B
k+1
sau H
k+1
ce satisfac
ecuat ia secantei (9.4) sau (9.5) si simetria.
9.2.1 Updatari de rang unu
Cea mai simp

la updatare posibila pentru matricea B


k
sau echivalent pentru matricea H
k
este cea de rang unu.

In acest caz consider am o matrice simetric a pozitiv denit a init iala
B
0
dat a si apoi actualizam matricea B
k+1
prin urmatoarea formul a:
B
k+1
= B
k
+
k
u
k
u
T
k
,
unde
k
R si u
k
R
n
sunt alese astfel ncat ecuat ia secantei (9.4) sa e satisfacuta.
Observ am ca dac a matricea simetrica B
0
0 si
k
0 atunci matricile B
k
sunt simetrice
si pozitiv denite pentru orice k 0. Introducem urmatoarele notat ii:

k
= x
k+1
x
k
and
k
= f(x
k+1
) f(x
k
).
Impunem asupra matricii B
k+1
condit ia (9.4):
B
k+1

k
=
k
.
Aceasta conduce la

k
= B
k

k
+
k
(u
T
k

k
)u
k
.
Concluzionam ca u
k
= (
k
B
k

k
) pentru un anumit scalar si nlocuind aceasta expresie
n egalitatea precedenta obt inem:

k
B
k

k
=
k

2
[(
k
B
k

k
)
T

k
](
k
B
k

k
).
Din aceasta relat ie rezulta ca
k
si trebuie alese astfel ncat:

k
= sgn((
k
B
k

k
)
T

k
), = [(
k
B
k

k
)
T

k
[
1/2
.

In concluzie obt inem urmatoarea formul a pentru B


k+1
:
B
k+1
= B
k
+
1
(
k
B
k

k
)
T

k
(
k
B
k

k
)(
k
B
k

k
)
T
.
CHAPTER 9. METODE DE ORDINUL DOI 112
Aplicand formula Sherman-Morrison pentru H
k+1
= B
1
k+1
obt inem urmatoarea updatare
pentru H
k+1
:
H
k+1
= H
k
+
1

T
k
(
k
H
k

k
)
(
k
H
k

k
)(
k
H
k

k
)
T
.
Pentru a garanta ca H
k+1
0 este necesara satisfacerea urmatoarei inegalitat i:

T
k
(
k
H
k

k
) > 0.

Ins a n practic a se poate observa ca exist a si cazuri cand


T
k
(
k
H
k

k
) = 0. O strategie
folosita n aceasta situat ie este urmatoarea: dac a
T
k
(
k
H
k

k
) este mic, de exemplu
[
T
k
(
k
H
k

k
)[ < r|
k
| |
k
H
k

k
|, pentru un r < 1 sucient de mic, atunci consider am
H
k+1
= H
k
.
9.2.2 Updatari de rang doi

In updat arile de rang doi iarasi pornim de la ecuat ia secantei (9.4). Din moment ce avem
o innitate de matrici simetrice ce satisfac aceasta ecuat ie, determinam B
k+1
n mod unic
prin impunerea condit iei ca aceasta matrice sa e cat mai aproape posibil de matricea de
la iterat ia precedenta B
k
:
B
k+1
= arg min
B=B
T
, B
k
=
k
|B B
k
|,
unde | | este o anumita norm a matriciala. Pentru o rezolvare explicit a a problemei de
optimizare de mai sus putem considera norma
|A|
W
= |W
1/2
AW
1/2
|
F
,
adica norma Frobenius, unde matricea W este aleas a astfel ncat sa e pozitiv deni

ta
satisf ac and condit ia W
k
=
k
.

In acest caz solut ia B
k+1
a problemei de optimizare de
mai sus este dat a de urmatoarea formul a:
B
k+1
= (I
n

T
k
)B
k
(I
n

T
k
) +
k

T
k
,
unde
k
=
1

T
k

k
. Folosind formula Sherman-Morrison-Woodbury obt inem ca updatarea
pentru H
k+1
= B
1
k+1
este dat a de expresia:
H
k+1
= H
k
+
1

T
k

T
k

1

T
k
H
k

k
(H
k

k
)(H
k

k
)
T
.
CHAPTER 9. METODE DE ORDINUL DOI 113
Metoda de optimizare cvasi-Newton bazata pe aceasta updatare a matricii H
k+1
sa numeste
metoda Davidon-Fletcher-Powell (DFP).
Ca si mai nainte alegem matricea init iala H
0
0. Metoda (DFP) satisface urmatoarele
propriet at i
(i) toate matricile H
k
0 pentru orice k 0.
(ii) dac a f(x) =
1
2
x
T
Qx + q
T
x este patratic a si strict convexa atunci metoda (DFP)
furnizeaz a direct ii conjugate, adica vectorii d
k
= H
k
f(x
k
) sunt direct ii Q-conjugate.
Mai mult, H
n
= Q
1
si n particular dac a H
0
= I
n
atunci direct iile d
k
coincid cu
direct iile din metoda gradient ilor conjugat i. De aceea, putem gasi solut ia unei prob-
leme de optimizare patratice n maximum n pasi cu ajutorul metodei cvasi-Newton
(DFP).
Dac a n locul problemei de optimizare anterioare consider am problema
H
k+1
= arg min
H=H
T
, H
k
=
k
|H H
k
|,
unde consider am aceeasi norm a matricia

la ca nainte dar de data aceasta matricea pozitiv


denita W satisface condit ia W
k
=
k
obt inem urmatoarea solut ie, numit a si metoda
Broyden-Fletcher-Goldfarb-Shanno (BFGS):
H
k+1
= H
k

T
k

k
_
(H
k

k
)
T
k
+
k
(H
k

k
)
T
_
+
k
(
k

T
k
)

k
=
1

T
k

k
_
1 +

T
k

k

T
k

k
_
.
Aceleasi proprie

tat i sunt valide si pentru metoda (BFGS) ca si n cazul metodei (DFP).


Cu toate acestea, din punct de vedere numeric, (BFGS) este considerata cea mai stabila
metoda. Se observa ca metodele cvasi-Newton necesit a doar informat ie de ordinul ntai
(adic a avem nevoie de informat ie de tip gradient). Observam de asemenea ca numarul
de operat ii aritmetice pentru updatarea matricilor H
k+1
si apoi pentru calcularea noului
punct x
k+1
este de ordinul O(n
2
), mult mai mic decat n cazul metodei Newton care are
complexitate de ordinul O(n
3
). Mai mult, direct iile generate de metodele cvasi-Newton
sunt direct ii de descrestere dac a asiguram satisfacerea condit iei H
k
0.

In general H
k

(
2
f(x

))
1
pentru k , iar n anumite condit ii vom ar ata ca aceste metode au rata de
convergent a superliniara.
CHAPTER 9. METODE DE ORDINUL DOI 114
9.2.3 Convergent a locala superliniara a metodelor cvasi-Newton

In aceasta sect iune analizam rata de convergent a locala a metodelor cvasi-Newton:


Theorem 9.2.1 Fie x

un punct ce satisface condit iile suciente de optimalitate de ordinul


doi. Presupunem iterat ia cvasi-Newton de forma x
k+1
= x
k
H
k
f(x
k
), unde H
k
este
inversabila pentru orice k 0 si satisface urmatoarea condit ie Lipschitz:
|H
k
(
2
f(x
k
)
2
f(y))| M|x
k
y| y R
n
,
si condit ia de compatibilitate
|H
k
(
2
f(x
k
) H
1
k
)|
k
(9.7)
cu 0 < M < si
k
< 1. De asemenea presupunem ca
|x
0
x

|
2(1 )
M
. (9.8)
Atunci x
k
converge la x

cu rata superliniara cu condit ia ca


k
0 sau rata liniara daca

k
> > 0.
Demonstratie: Ae at am ca |x
k+1
x

|
k
|x
k
x

|, unde
k
< .

In acest scop,
avem urmatoarele relat ii:
x
k+1
x

= x
k
x

H
k
f(x
k
)
= x
k
x

H
k
(f(x
k
) f(x

))
= H
k
(H
1
k
(x
k
x

)) H
k
_
1
0

2
f(x

+ (x
k
x

))(x
k
x

)d
= H
k
(H
1
k

2
f(x
k
))(x
k
x

)
H
k
_
1
0
_

2
f(x

+ (x
k
x

))
2
f(x
k
)
_
(x
k
x

)d.
Aplicand norma n ambele part i, rezulta:
|x
k+1
x

|
k
|x
k
x

| +
_
1
0
M|x

+ (x
k
x

) x
k
|d |x
k
x

|
=
_

k
+ M
_
1
0
(1 )d|x
k
x

|
_
|x
k
x

|
=
_

k
+
M
2
|x
k
x

|
_
|x
k
x

|.
CHAPTER 9. METODE DE ORDINUL DOI 115
Avem urmatoarea rata de convergent a:
|x
k+1
x

|
k
|x
k
x

|,
unde
k
=
k
+
M
2
|x
k
x

|. Observam ca obt inem rata de convergent a superliniara dac a

k
0, care are loc dac a
k
0.
Convergent a globala a metodelor cvasi-Newton se poate ar ata n aceeasi manier a ca n
Teorema 9.1.3 corespunz atoare cazului metodei Newton.
Chapter 10
Probleme de estimare si tting
Problemele de estimare si tting sunt probleme de optimizare av and funct ii obiectiv cu
structura speciala, si anume de tipul celor mai mici patrate:
min
xR
n
1
2
| /(x)|
2
. (10.1)
In aceasta problem a de optimizare, R
m
sunt m masuratori si / : R
n
R
m
este
un model, iar x R
n
se numesc parametrii modelului. Dac a adev arata valoare a lui x ar
cunoscuta, am putea evalua modelul /(x) pentru a obt ine predict iile corespunz atoare
m asuratorilor. Calculul lui /(x), ce poate reprezenta o funct ie foarte complexa si de
exemplu include n structura sa solut ia unei ecuat ii diferent iale, se numeste uneori problema
forward: pentru intr ari date ale modelului, se determina iesirile corespunz atoare.
In problemele de estimare si tting se cauta setul de parametri ai modelului x ce realizeaz a
o predict ie /(x) cat mai exacta pentru m asuratorile date. Aceasta problem a este denu-
mit a uzual problema inversa: pentru un vector de iesiri ale modelului , se cauta intr arile
corespunz atoare folosind un model ce depinde de setul de parametri x R
n
.
Aceasta clas a de probleme de optimizare (10.1) este frecvent intalnit a n cadrul unor
aplicat ii cum ar :
aproximare de funct ii
estimare online pentru controlul proceselor dinamice
116
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 117
prognoz a meteo (asimilare de date meteorologice)
estimare de parametri.
Figure 10.1: Aproximarea funct iei sin(x) cu polinoame de grad unu pana la gradul patru.
10.1 Problema celor mai mici patrate (CMMP): cazul
liniar
Reamintim mai ntai denit ia pseudo-inversei unei matrici:
Denition 10.1.1 (Pseudo-Inversa Moore-Penrose) Fie matricea J R
mn
cu rang(J) =
r, iar descompunerea valorilor singulare (DVS) corespunzatoare lui J data de J = UV
T
.
Atunci, pseudo-inversa Moore-Penrose J
+
are expresia:
J
+
= V
+
U
T
,
unde pentru
=
_

1
.
.
.

r
0
_

_
denim
+
=
_

1
1
.
.
.

1
r
0
_

_
.
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 118
Theorem 10.1.2 Daca rank(J) = n, atunci
J
+
= (J
T
J)
1
J
T
.
Daca rank(J) = m, atunci
J
+
= J
T
(JJ
T
)
1
.
Demonstrat ie: Observam urmatoarele:
(J
T
J)
1
J
T
= (V
T
U
T
UV
T
)
1
V
T
U
T
= V (
T
)
1
V
T
V
T
U
T
= V (
T
)
1

T
U
T
= V
+
U
T
.
Se urmeaza un rat ionament similar si n cel de-al doilea caz.
Se observa ca dac a rank(J) = n, i.e. coloanele lui J sunt liniar independente atunci J
T
J
este inversabil a.
Intalnim frecvent n aplicat ii de estimare si tting modele descrise de funct ii liniare n x.
Dac a / este liniar, adica /(x) = Jx, atunci funct ia obiectiv devine f(x) =
1
2
| Jx|
2
ce reprezinta o funct ie convexa patratic a datorita faptului ca Hesiana
2
f(x) = J
T
J0.
n acest caz denim problema CMMP liniar a ca:
min
xR
n
1
2
| Jx|
2
.
Presupun and ca rank(J) = n, punctul de minim global se determina prin urmatoarea
relat ie:
J
T
Jx

J
T
= 0 x

= (J
T
J)
1
J
T
= J
+
. (10.2)
Exemplu [Problema mediei]: Fie urmatoarea problem a simpl a de optimizare:
min
xR
1
2
m

i=1
(
i
x)
2
.
Observ am ca se incadreaza n clasa de probleme liniare de tip CMMP, unde vectorul si
matricea J R
m1
sunt date de
=
_

1
.
.
.

m
_

_, J =
_

_
1
.
.
.
1
_

_. (10.3)
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 119
Deoarece J
T
J = m, se observa usor ca
J
+
= (J
T
J)
1
J
T
=
1
m
_
1 1 1

si din acest motiv concluzionam ca punctul de minim este egal cu media a punctelor date

i
, adica:
x

= J
+
=
1
m
m

i=1

i
= .
Exemplu [Regresie liniara]: Se da setul de date t
1
, . . . , t
m
cu valorile corespunz atoare

1
, . . . ,
m
. Dorim sa determinam vectorul parametrilor x = (x
1
, x
2
), astfel ncat polino-
mul de ordinul ntai p(t; x) = x
1
+ x
2
t realizeaz a predict ia lui la momentul t. Problema
de optimizare se prezinta sub forma:
min
xR
2
1
2
m

i=1
(
i
p(t
i
; x))
2
= min
xR
2
1
2
_
_
_
_
J
_
x
1
x
2
__
_
_
_
2
,
unde este acelasi vector ca si n cazul (10.3), iar J este dat de
J =
_

_
1 t
1
.
.
.
.
.
.
1 t
n
_

_
.
Punctul de minim local este determinat de ecuat ia (10.2), unde calculul matricii (J
T
J) este
trivial:
J
T
J =
_
m

t
i

t
i

t
2
i
_
= m
_
1

t

t

t
2
_
.
Pentru a obt ine x

, n primul rand se calculeaza (J


T
J)
1
:
(J
T
J)
1
=
1
m(

t
2
(

t)
2
)
_

t
2

t 1
_
. (10.4)
n al doilea rand, calculam J
T
dup a cum urmeaza:
J
T
=
_
1 1
t
1
t
m
_
_

1
.
.
.

m
_

_ =
_

i
t
i
_
= m
_

t
_
. (10.5)
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 120
Deci, punctul de minim local este determinat de combinarea expresiilor (10.4) si (10.5). Se
observa ca:

t
2
(

t)
2
=
1
m

(t
i

t)
2
=
2
t
,
unde ultima relat ie rezulta din denit ia standard a variantei
t
. Coecientul de corelat ie
este denit similar de expresia:
=

(
i
)(t
i

t)
m
t

.
Vectorul parametrilor x = (x
1
, x
2
) este determinat de:
x

=
1

2
t
_

t
2

t

t

t +

t
_
=
_

_
.
In nal, expresia poate formulata ca un polinom de gradul ntai:
p(t; x

) = + (t

t)

t
.
10.1.1 Probleme CMMP liniare rau condit ionate
Dact J
T
J este inversabil a, mult imea solut iilor optime X

cont ine un singur punct de optim


x

, determinat de ecuat ia (10.2): X

= (J
T
J)
1
J. Dac a J
T
J nu este inversabil a,
mult imea solut iilor X

este dat a de
X

= x R
n
: f(x) = 0 = x R
n
: J
T
Jx J
T
= 0.
Pentru alegerea celei mai bune solut ii din aceaste mult ime, se cauta solut ia cu norma
minima, i.e. vectorul x

cu norma minima ce satisface condit ia x

.
min
xX

1
2
|x|
2
. (10.6)
Ar at am mai departe ca aceasta solut ie cu norm a 0 minima este dat a de pseudo-inversa
Moore-Penrose, adica solut ia optima a problemei de optimizare (10.6) este dat a de x

=
J
+
.
Solut ia cu norma minima, adica solut ia problemei de optimizare (10.6), poate determinat a
dintr-o problema regularizata CMMP liniar a si anume:
min
xR
n
1
2
| Jx|
2
+

2
|x|
2
, (10.7)
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 121
cu o constanta > 0 sucient de mic a. Se stie ca problema de optimizare (10.7) este
echivalenta cu problema de optimizare (10.6) cu condit ia ca sucient de mic este ales n
mod adecvat.
Condit iile de optimalitate pentru problema patratic a convexa (10.7) sunt:
f(x) = J
T
Jx J
T
+ x = (J
T
J + I
n
)x J
T
= 0
x

= (J
T
J + I
n
)
1
J
T
. (10.8)
Lemma 10.1.3 Urmatoarea relat ie are loc pentru o matrice J R
mn
:
lim
0
(J
T
J + I
n
)
1
J
T
= J
+
.
Demonstrat ie: Din descompunerea DVS corespunz atoare matricii J = UV
T
avem ca
matricea (J
T
J + I
n
)
1
J
T
poate scrisa n forma:
(J
T
J + I
n
)
1
J
T
= (V
T
U
T
UV
T
+ I
n
..
V V
T
)
1
J
T
..
U
T
V
T
= V (
T
+ I
n
)
1
V
T
V
T
U
T
= V (
T
+ I
n
)
1

T
U
T
.
Partea dreapt a a ecuat iei are expresia:
V
_

2
1
+
.
.
.

2
r
+

_
1
_

1
.
.
.

r
0
_

_
U
T
Calcularea produsului de matrici conduce la:
V
_

2
1
+
.
.
.
r

2
r
+
0

_
U
T
.
Se observa usor ca pentru 0 ecare element diagonal are forma:
lim
0

2
i
+
=
_
1

i
daca
i
,= 0
0 daca
i
= 0.
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 122

Am ar atat ca pseudo-inversa Moore-Penrose J


+
rezolv a problema (10.7) pentru o constanta
sucient de mic a > 0. Din acest motiv, se realizeaz a select ia unei solut ii x

cu
norma minima.
10.1.2 Formularea statistica a problemelor CMMP liniare
O problem a CMMP liniar a (10.1) poate interpretata n sensul determinarii unui set
de parametri x R
n
ce explica m asuratorile perturbate n cel mai bun mod. Fie

1
, . . . ,
m
valorile observate ale unei variabile aleatoare av and densitatea P([x) ce depinde
de setul de parametri x. Presupunem
i
= M
i
(x) +
i
, cu x valoarea adevarata a
parametrului si
i
zgomot Gaussian cu media E(
i
) = 0 si varianta E(
i

i
) =
2
i
. Mai
mult presupunem ca
i
si
j
sunt independente. Atunci denim functia de verosimilitate:
P([x) =
m

i=1
P(
i
[ x) =
m

i=1
exp
_
(
i
M
i
(x))
2
2
2
i
_
. (10.9)
Metoda verosimilitat ii maxime (introdus a de Fischer in 1912) presupune ca estimatorul x

al adev aratului set de parametrii x este egal cu valoarea optima ce maximizeaza funct ia de
verosimilitate. Estimatorul astfel obt inut se numeste estimator de verosimilitate maxima.

In general funct iile P([x) si log P([x) it i ating maximul n acelasi punct x

. Pentru a
determina deci punctul de maxim al funct iei de verosimilitate P([x) determinam punctul
de maxim al funct iei log P([x).
log P([x) =
m

i=1

(
i
M
i
(x))
2
2
2
i
.
Deci parametrul ce maximizeaza P([x) este dat de:
x

= arg max
xR
n
P([x) = arg min
xR
n
log(P([x))
= arg min
xR
n
m

i=1
(
i
M
i
(x))
2
2
2
= arg min
xR
n
1
2
|S
1
( M(x))|
2
,
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 123
unde S = diag(
2
1
, . . . ,
2
m
). Deci, concluzionam ca problema CMMP are o interpretare
statistic a. Se observa ca datorita faptului ca putem avea diferite deviat ii standard
i
pentru diferite masuratori
i
, se recomand a scalarea masuratorilor si funct iilor modelului
pentru a obt ine o funct ie obiectiv n forma uzual a CMMP |

M(x)|
2
2
, dup a cum urmeaza
min
x
1
2
n

i=1
_

i
M
i
(x)

i
_
2
= min
x
1
2
|S
1
( M(x))|
2
= min
x
1
2
|S
1
S
1
M(x)|
2
.
10.2 Problema celor mai mici patrate (CMMP): cazul
neliniar
Problemele CMMP liniare se pot rezolva usor folosind metode numerice matriceale clasice,
cum ar factorizarea QR. Pe de alta parte, rezolvarea global a problemelor neliniare
CMMP este n general NP-hard, dar pentru determinarea unui minim local se poate realiza
iterativ. Pricipiul de baz a const a n faptul ca la ecare iterat ie aproximam problema
original a cu propria liniarizare n punctul curent. n acest fel obt ine o apreciere mai bun a
pentru urmatoarea iterat ie, obt in and acelasi procedeu prin care metoda Newton determina
radacinile unui polinom dat.

In mod uzual, pentru probleme neliniare CMMP de forma:


min
xR
n
1
2
| M(x)|
2
se aplic a metoda Gauss-Newton sau metoda Levenberg-Marquardt. Pentru a descrie aceste
metode, introducem mai ntai cateva notat ii convenabile:
F(x) = M(x)
si redenirea funct iei obiectiv prin:
f(x) =
1
2
|F(x)|
2
,
unde F(x) este o funct ie neliniara F : R
n
R
m
, cu m > n, (adic a consider am un num ar
mai mare de m asuratori decat parametri).
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 124
10.2.1 Metoda Gauss-Newton (GN)
Metoda Gauss-Newton este o metoda specializat a pentru a rezolva problema CMMP neliniara:
min
xR
n
f(x)
_
=
1
2
|F(x)|
2
_
. (10.10)

Intr-un punct dat x


k
la iterat ia k, F(x) este liniarizat
F(x) F(x
k
) + J(x
k
)(x x
k
),
unde J(x) este Jacobianul lui F(x) denit de
J(x) =
F(x)
x
,
iar urmatoarea iterat ie x
k+1
se obt ine prin rezolvarea unei probleme liniare CMMP. In
concluzie, x
k+1
poate determinat ca o solut ie a urmatoarei probleme liniare CMMP:
x
k+1
= arg min
xR
n
1
2
|F(x
k
) + J(x
k
)(x x
k
)|
2
Pentru simplitate, n locul notat iei J(x
k
) folosim J
k
, iar n locul lui F(x
k
) folosim F
k
si
dac a presupunem ca J
T
k
J
k
este inversabil a atunci:
x
k+1
= arg min
xR
n
1
2
|F
k
+ J
k
(x x
k
)|
2
= x
k
+ arg min
dR
n
1
2
|F
k
+ J
k
d|
2
= x
k
(J
T
k
J
k
)
1
J
T
k
F
k
.
Observ am ca n iterat ia metodei Gauss-Newton direct ia
d
k
= (J
T
k
J
k
)
1
J
T
k
F
k
= J
+
k
F
k
= arg min
dR
n
1
2
|F
k
+ J
k
d|
2
este o direct ie de descrestere pentru funct ia f deoarece f(x
k
) =
_
F(x
k
)
x
_
T
F(x
k
) = J
T
k
F
k
si matricea J
T
k
J
k
este pozitiv denita. Pentru a asigura convergent a metodei Gauss-Newton
de obicei,introducem de asemenea si un pas de lungime
k
, adica
x
k+1
= x
k

k
(J
T
k
J
k
)
1
J
T
k
F
k
,
unde
k
se alege cu una din procedurile descrise n capitolele anterioare (ideala, satisf ac and
condit iile Wolfe sau backtracking). Se poate observa ca n apropierea punctului de minim
local lungimea pasului devine 1, adica
k
= 1.
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 125
10.2.2 Metoda Levenberg-Marquardt
Aceasta metoda reprezinta generalizarea metodei Gauss-Newton, ce se aplic a n cazurile
particulare cand J
T
k
J
k
nu este inversabil a si poate conduce la o convergent a mai robust a
pornind dintr-o regiune ndep artat a fat a de solut ie. Metoda Levenberg-Marquardt real-
izeaza un avans mai redus prin penalizarea normei acestuia. Directia n aceast a metoda
este dat a de:
d
k
= arg min
d
1
2
|F
k
+ J
k
d|
2
2
+

k
2
|d|
2
2
(10.11)
= (J
T
k
J
k
+
k
I
n
)
1
J
T
k
F
k
(10.12)
cu scalarul
k
> 0 ales astfel ncat matricea J
T
k
J
k
+
k
I
n
este pozitiv denit a. Utiliz and
aceasta direct ie, iterat ian metoda Levenberg-Marquardt este dat a de urmatoarea expresie:
x
k+1
= x
k

k
(J
T
k
J
k
+
k
I
n
)
1
J
T
k
F
k
, (10.13)
unde
k
se alege iarasi cu una din procedurile descrise n capitolele anterioare. In mod
similar, n apropierea punctului de minim local lungimea pasului devine 1, adica
k
= 1.
Observ am ca dac a valoarea scalarului
k
se consider a foarte mare, nu am aplica nicio
corect ie punctului curent x
k
pentru ca dac a
k
atunci direct ia n metoda Levenberg-
Marquardt satisface d
k
0. Mai precis, n acest caz d
k

1

k
J
T
k
F
k
0. Pe de alta parte,
pentru valori mici ale lui
k
, adica pentru
k
0 avem ca direct ia n metoda Levenberg-
Marquardt satisface d
k
J
+
k
F
k
(conform Lemmei 10.1.3) si deci coincide cu direct ia din
metoda Gauss-Newton.
n cele ce urmeaza ar at am ca aceste dou a metode au legatura strans a cu metoda New-
ton. Este interesant de observat ca gradientul funct iei obiectiv aferenta problemei CMMP
neliniara f(x) =
1
2
|F(x)|
2
2
este dat de relat ia:
f(x) = J(x)
T
F(x),
unde reamintim ca J(x) este Jacobianul funct iei F(x). n mod evident acest gradient
se regaseste in iterat iile metodelor Gauss-Newton sau Levenberg-Marquardt. Deci, dac a
gradientul este nul, atunci direct iile n cele dou a metode sunt de asemenea nule. Aceasta
este o condit ie necesara pentru convergent a la puncte stat ionare a unei metode: ambele
metode Gauss-Newton si Levenberg-Marquardt nu avanseaz a dintr-un punct stat ionar x
k
cu f(x
k
) = 0. Mai departe not am cu F
i
component a i a funct iei multivectoriale F.
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 126
Utiliz and calcul diferent ial standard observam ca Hesiana funct iei obiectiv f este dat a de
urmatoarea expresie:

2
f(x) = J(x)
T
J(x) +
m

i=1
F
i
(x)
2
F
i
(x).
n concluzie, n cele dou a metode Gauss-Newton si Levenberg-Marquardt neglij am cel de-al
doilea termen a Hesianei funct iei obiectiv f, adica termenul

m
i=1
F
i
(x)
2
F
i
(x). Deci n
aceste metode salvam calcule prin neluarea n calcul al acestui termen

m
i=1
F
i
(x)
2
F
i
(x),
ceea ce n principiu conduce la o deteriorare a ratei de convergenta a acestor metode fat a
de rata de convergent a a metodei Newton. Pe de alta parte dac a acest termen

m
i=1
F
i
(x)

2
F
i
(x) este mic n apropierea unei solut ii locale, atunci rata de convergent a a acestor dou a
metode este comparabil a cu cea a metodei Newton. Observam ca acest termen este mic n
apropierea unei solut ii dac a funct ia F(x) este aproape liniar a sau dac a componentele F
i
(x)
sunt mici in apropiere de solut ie. De exemplu, dac a se cauta o solutie a sistemului neliniar
F(x) = 0, cu m = n, atunci termenul neglijat este nul la solut ie. Mai mult dac a matricea
J
k
= J(x
k
) R
nn
este inversabil a, atunci direct ia n metoda Gauss-Newton este dat a de
(J
T
k
J
k
)
1
J
T
k
F
k
= J
1
k
F
k
.
Deci iterat ia n aceasta metoda devine
x
k+1
= x
k
(J(x
k
))
1
F(x
k
)
si deci coincide cu iterat ia din metoda Newton standard pentru rezolvarea sistemului
F(x) = 0. n acest caz de obicei rata de convergent a este superliniara.
Convergent a globala si locala a metodelor Gauss-Newton si Levenberg-Marquardt poate
derivat a utiliz and argumete similare ca cele din capitolul precedent pentru metoda (quasi-)
Newton. Pentru convergent a locala avem urmatorul rezultat:
Theorem 10.2.1 Fie x

un punct ce satisface condit iile suciente de ordinul doi. terat ia


metodelor Gauss-Newton sau Levenberg-Marquardt n apropierea punctului x

are forma
x
k+1
= x
k
H
k
f(x
k
), unde matricea H
k
este data e de H
k
= (J
T
k
J
k
)
1
sau de H
k
=
(J
T
k
J
k
+
k
I
n
)
1
. Pentru matricea inversabila pozitiv denita H
k
presupunem satisfacuta
urmatoarea condit ie Lipschitz:
|H
k
(
2
f(x
k
)
2
f(y))| M|x
k
y| k N, y R
n
CHAPTER 10. PROBLEME DE ESTIMARE SI FITTING 127
si, de asemenea, condit ia de compatibilitate
|H
k
(
2
f(x
k
) H
1
k
)|
k
k N (10.14)
cu 0 < M < si
k
< 1. Presupunem de asemenea ca
|x
0
x

|
2(1 )
M
. (10.15)
Atunci x
k
converge la x

cu rata liniara daca


k
> > 0.
Demonstratie: Vezi demonstrat ia Teoremei 9.2.1.
Comentarii nale : Cu aceste dou a metode, Gauss-Newton si Levenberg-Marquardt,
ncheiem partea a doua a acestei cart i dedicata metodelor numerice de optimizare pentru
probleme far a constrangeri (UNLP): min
xR
n
f(x). Mai multe detalii despre metodele prezen-
tate n aceasta parte cat si alte metode care nu au fost prezentate aici se pot gasi n cart ile
clasice de optimizare neliniara ale lui Bertsekas [1], Luenberger [2], Nesterov [3] si Nocedal
si Wright [6]. Dintre cart ile dedicate implementarii numerice a acestor metode de opti-
mizare amintim de exemplu cartea lui Gill, Murray si Wright [4]. O descriere detaliat a a
pachetelor software existente pe piat a este dat a de More si Wright n [5].
Part III
Optimizare constransa
128
Chapter 11
Teoria dualitatii
In aceasta parte nala a cartii ne indreptam din nou atentia asupra problemelor de opti-
mizare cu constrangeri. Expunerea noastra va prezenta cazul constrans ca o generalizare
a cazului neconstrans: vom deni conditiile de optimalitate pentru cazul constrans (de
ordinul intai si doi), apoi vom arata cum metodele numerice de optimizare de ordinul intai
si doi pentru probleme de optimizare neconstranse pot extinse la cazul cand avem con-
strangeri. In nal vom discuta algoritmi specializati pentru cazul particular al problemelor
convexe constranse.
Incepem expunerea nostra cu teoria dualitatii, fundamanetala in intelegerea algoritmilor de
optimizare prezentati ulterior. Reamintim ca o problema neliniara cu constrangeri (NLP)
(nonlinear programming) in forma standard poate scrisa sub forma:
min
xR
n
f(x)
s.l.: g
1
(x) 0, . . . , g
m
(x) 0
h
1
(x) = 0, . . . , h
p
(x) = 0.
Daca introducem notatiile g(x) = [g
1
(x) . . . g
m
(x)]
T
si h(x) = [h
1
(x) . . . h
p
(x)]
T
, atunci in
forma compacta problema de optimizare de mai sus se scrie ca:
(NLP) : min
xR
n
f(x)
s.l.: g(x) 0, h(x) = 0,
unde functia obiectiv f : R
n


R, functia vectoriala ce deneste constrangerile de inegali-
tate g : R
n
R
m
si functia vectoriala ce deneste constrangerile de egalitate h : R
n
R
p
129
CHAPTER 11. TEORIA DUALITATII 130
se presupune a de doua ori diferentiabile. In acest caz, multimea fezabila asociata prob-
lemei (NLP) este:
X = x R
n
: g(x) 0, h(x) = 0
si astfel putem rescrie problema (NLP) sub forma:
min
xX
f(x).
Example 11.0.2 (Optimizare rutarii intr-o retea de comunicatie) Consideram o retea
de comunicatie de date modelata ca un graf directionat G = (V, E), unde V este multimea
nodurilor si E multimea perechilor ordonate e = (i, j). Nodul i se numeste origine si nodul
j destinatie.
Figure 11.1: Optimizare in retea de comunicatie.
Pentru orice pereche e consideram scalarul r
e
reprezentand tracul de intrare in e. In
contextul rutari de date intr-o retea, r
e
este rata de trac ce intra si iese din retea prin
originea si destinatia lui e (masurata in unitati de date/secunda). Obiectivul de rutare este
acela de a imparti ecare trac r
e
intre diferitele rute existente de la originea i la destinatia
j in asa fel incat uxul total rezultat minimizeaza o functie cost adecvata. Notam cu P
e
multimea tuturor rutelor existente intre originea i si destinatia j a lui e si cu x
c
partea
de trac din r
e
atribuita rutei c P
e
, numit de asemenea uxul rutei c. Colectia tuturor
uxurilor de date x
c
: c P
e
, e E trebuie sa satisfaca urmatoarea constrangere:

cPe
x
c
= r
e
e E
si de asemenea x
c
0 pentru orice c P
e
si e E. Fluxul total t
ij
corespunzator arcului
(i, j) este suma tuturor uxurilor tranversand arcul:
t
ij
=

c: (i,j)c
x
c
.
CHAPTER 11. TEORIA DUALITATII 131
Putem deni o functie cost de forma:

(i,j)E
f
ij
(t
ij
). Problema este sa gasim toate ux-
urile x
c
care minimizeaza aceasta functie cost cu constrangerile de mai sus:
min
xc, t
ij

(i,j)E
f
ij
(t
ij
)
s.l. : x
c
0 c P
e
, e E

cPe
x
c
= r
e
e E, t
ij
=

c: (i,j)c
x
c
(i, j) E.
Se observa ca putem elimina variabila t
ij
din problema de mai sus folosind egalitatea t
ij
=

c: (i,j)c
x
c
, adica putem obtine o problema de optimizare doar in variabila x
c
si cu mai putine
cosntrangeri de egalitate dar in acest caz functia obiectiv nu mai are structura separabila
de mai sus (de exemplu dupa eliminare, Hesiana functiei obiectiv nu mai este diagonala).
Example 11.0.3 (Proiectia Euclidiana) O notiune fundamentala in geometrie si opti-
mizare este proiectia Euclidiana a unui vector x
0
R
n
pe multimea X R
n
denit ca acel
vector din X care se aa la cea mai mica distanta Euclidiana de x
0
. Matematic aceasta
problema se formuleaza sub forma unei probleme de optimizare constransa:
min
xX
|x x
0
|
2
.
Se observa ca functia obiectiv pentru problema proiectiei Euclidiene este tot timpul functie
patratica convexa cu Hesiana matricea identitate. Cand multimea X este nevida, convexa
si inchisa, se poate arata ca exista o singura solutie a problemei de optimizare de mai sus,
adica proiectia este unica. Observam ca daca X este convexa problema de mai sus este
problema de optimizare convexa. In particular, daca multimea X este un polyhedron, adica
X = x R
n
: Ax b, Cx = d atunci proiectia este o problema de optimizare QP strict
convexa. De exemplu daca presupunem ca multimea X este un hiperplan X = x R
n
:
a
T
x = b, unde b ,= 0, atunci proiectia originii x
0
= 0 devine o problema patratica cu o
forma simpla:
min
x{xR
n
: a
T
x=b}
|x|
2
.
Se stie ca vextorul a este perpendicular pe hiperplan, deci proiectia lui x
0
= 0 pe X este
coliniar cu a, adica x = ta pentru un scalar t. Inlocuind x = ta in equatia ce deneste
hiperplanul si rezolvand pentru scalarul t obtinem t = b/(a
T
a), si deci proiectia este
x

=
b
a
T
a
a.
CHAPTER 11. TEORIA DUALITATII 132
Figure 11.2: Proiectia vectorului x
0
= [1 1 1]
T
pe politopul X = x R
3
: x 0, x
1
+
x
2
+ x
3
1 (stanga) si a originii (x
0
= 0) pe un hiperplan X = x R
3
: a
T
x = b
(dreapta).
Example 11.0.4 (Problema localizarii) Problema localizarii are foarte multe aplicatii
in inginerie, cum ar localizarea unei tinte. localizarea unui robot, etc. Consideram ca
avem un numar m de sensori avand locatiile cunoscute s
i
R
3
si cunoastem de asemenea
dinstatele R
i
de la acesti senzori la obiectul necunoscut a carei pozitie trebuie determi-
nata. Geometric, din datele cunoscute avem ca obiectul se gaseste la intersectia a m sfere
de centre s
i
si raze R
i
. Dorim sa estimam pozitia obiectului si de asemenea sa masuram
marimea/volumul intersectiei. Putem considera problema gasirii celei mai mari sfere in-
clusa in aceasta intersectie. Este usor de observat ca o sfera de centru x si raza R este
continuta intr-o sfera de centru s
i
si raza R
i
daca si numai daca diferenta dintre raze
este mai mare decat distanta dintre centre. Putem atunci formula urmatoarea problema de
optimizare convexa cu constrangeri patratice:
max
xR
3
, R>0
R
s.l. : R
i
R +|s
i
x| i = 1, . . . , m.
CHAPTER 11. TEORIA DUALITATII 133
Figure 11.3: Problema localizarii.
11.1 Functia Lagrange
Functia Lagrange, denumita astfel dupa matematicianul Joseph Louis Lagrange, este foarte
importanta in teoria dualitatii. Incepem prin a deni notiuni standard in dualitate.
Denition 11.1.1 (Problema de optimizare primala) Vom nota valoarea optima glob-
ala a problemei de optimizare (NLP) cu f

si o vom numi valoarea optima primala:


f

=
_
min
xR
n
f(x) : g(x) 0, h(x) = 0
_
. (11.1)
Vom numi problema de optimizare (NLP) ca problema de optimizare primala, iar variabila
de decizie x variabila primala. Notam de asemenea cu
X = x R
n
: g(x) 0, h(x) = 0
multimea fezabila primala a problemei (NLP).
In concluzie, problema de optimizare primala este denita astfel:
(NLP) : f

= min
xX
f(x).
CHAPTER 11. TEORIA DUALITATII 134
Se observa ca putem determina relativ usor o margine superioara pentru valoarea optima
f

: selectam un punct fezabil x X si atunci avem ca f

f( x). In mod natural ne putem


intreba cum sa determinam o margine inferioara pentru f

. Vom arata in cele ce urmeaza


ca aceasta margine inferioara se poate determina folosind teoria dualitati. Vom vedea de
asemenea ca anumite probleme de optimizare pot rezolvate folosind teoria dualitatii. Cea
mai populara forma a dualitatii pentru probleme de optimizare constranse este dualitatea
Lagrange. Desi dualitatea Lagrange poate dezvoltata pentru probleme generale de opti-
mizare constransa cele mai interesante rezultate se dau pentru cazul problemelor convexe
constranse. Reamintim ca problema (NLP) de mai sus este problema de optimizare con-
vexa daca functiile f si g
1
, , g
m
sunt functii convexe iar functiile h
1
, . . . , h
p
sunt functii
ane. Incepem prin a deni functia Lagrange (sau Lagrangianul):
Denition 11.1.2 (Functia Lagrange si multiplicatorii Lagrange) Denim functia
Lagrange sau Lagrangianul, / : R
n
R
m
R
p
R, ca ind:
/(x, , ) = f(x) +
T
g(x) +
T
h(x). (11.2)
In aceasta functie am introdus doua variabile noi, vectorii R
m
si R
p
, numiti
multiplicatorii Lagrange sau variabile duale.
Functia Lagrange joaca un rol principal atat in optimizarea convexa cat si in cea neconvexa.
In mod obisnuit, se impune ca multiplicatorii pentru constrangerile de inegalitate sa e
nenegativi, adica 0, in timp ce multiplicatorii de egalitate sunt arbitrari. Aceste
cerinte sunt motivate de urmatoarea lema:
Lemma 11.1.3 (Marginirea superioara a functiei Lagrange) Pentru orice variabila
primala x fezabila pentru problema de optimizare (NLP) (adica g( x) 0 si h( x) = 0) si
pentru orice variabila duala (

, ) R
m
R
p
satisfacand

0, urmatoarea inegalitate are
loc:
/( x,

, ) f( x). (11.3)
Demonstratie: Demonstratia urmeaza imediat din denitia functiei Lagrange si din fap-
tul ca

0, g( x) 0 si h( x) = 0:
/( x,

, ) = f( x) +

T
g( x) +
T
h( x) f( x).

CHAPTER 11. TEORIA DUALITATII 135


11.2 Problema duala
Din lemma precedenta se observa ca putem determina o margine inferioara pentru valoarea
optima primala a problemei (NLP). Mai mult, suntem interesati in determinarea celei mai
bune margini inferioare pentru f

. Pentru aceasta introducem mai intai functia duala.


Denition 11.2.1 (Functia duala) Denim functia duala ca inmumul neconstrans al
Lagrangianului in functie de variabila x, pentru multiplicatorii si xati:
d(, ) = inf
xR
n
/(x, , ). (11.4)
Aceasta functie va lua adesea valoarea , caz in care spunem ca perechea (, ) este
dual infezabila. Functia duala are proprietati foarte interesante, pe care le demonstram
in cele ce urmeaza:
Lemma 11.2.2 (Marginire superioara a functiei duale) Pentru orice pereche (

, )
duala fezabila, adica

0 si R
p
, urmatoarea inegalitate are loc:
d(

, ) f

. (11.5)
Demonstratie: Aceasta lema este o consecinta directa a ecuatiei (11.3) si a denitiei
functiei duale: pentru x fezabil (adica g( x) 0 si h( x) = 0) avem
d(

, ) /( x,

, ) f( x) x X,

R
m
+
, R
p
.
Acesta inegalitate este satisfacuta in particular pentru punctul de minim global x

(care
este de asemenea fezabil, adica x

X), ceea ce conduce la: d(

, ) f(x

) = f

.
Theorem 11.2.3 (Concavitatea functiei duale) Functia duala d : R
m
R
p


R este
intodeauna functie concava.
CHAPTER 11. TEORIA DUALITATII 136
Demonstratie: Se obseva ca Lagrangianul /(x, , ) este o functie ana in multiplicatorii
(, ) pentru x xat. Fie [0 1], apoi pentru (
1
,
1
) si (
2
,
2
):
d(
1
+ (1 )
2
,
1

1
+ (1 )
2
)
= inf
xR
n
/(x,
1
+ (1 )
2
,
1

1
+ (1 )
2
)
= inf
xR
n
/(x,
1
,
1
) + (1 )/(x,
2
,
2
)
inf
xR
n
/(x,
1
,
1
) + (1 ) inf
xR
n
/(x,
2
,
2
)
= d(
1
,
1
) + (1 )d(
2
,
2
).

O intrebare naturala ar urmatoarea: care este cea mai buna margine inferioara ce poate
obtinuta dintr-o functie duala? Raspunsul este simplu: o obtinem prin maximizarea dualei
dupa toate valorile posibile fezabile ale multiplicatorilor, obtinandu-se astfel asa-numita
problema duala.
Denition 11.2.4 (Problema duala) Problema duala este denita ca ind problema de
maximizare concava:
d

= max
0, R
p
d(, ), (11.6)
unde notam cu d

valoarea optima duala.


Este interesant de observat ca problema duala este intotdeauna problema convexa chiar
daca problema primala (UNLP) este neconvexa. Denim multimea fezabila duala
= R
m
+
R
p
.
Ca o consecinta imediata a ultimei leme, obtinem un rezultat fundamental numit dualitatea
slaba:
Theorem 11.2.5 (Dualitate slaba) Urmatoarea inegalitate are loc pentru orice prob-
lema de optimizare (NLP):
d

. (11.7)
CHAPTER 11. TEORIA DUALITATII 137
Se observa ca daca exista x

fezabil pentru problema primala si (

) fezabil pentru
problema duala astfel incat d(

) = f(x

) atunci x

este punct de minim global pentru


problema primala si (

) este punct de maxim global pentru problema duala. Mai mult,


daca problema primala este nemarginita inferior (adica f

= ), atunci d(, ) =
pentru orice (, ) (adica pentru orice pereche duala fezabila). De asemenea, daca
d

= , atunci problema primala este infezabila.


Interpretarea geometrica: Dam o interpretare simpla a functiei duale si a dualitatii
slabe in termeni geometrici. Pentru a vizualiza grac consideram un caz particular al
problemei (NLP) de forma min
xR
nf(x) : g(x) 0, avand o singura constrangere de
inegalitate. Denim multimea
S = (u, t) : x R
n
, f(x) = t, g(x) = u.
Deoarece fezabilitate cere ca g(x) 0, problema primala presupune gasirea celui mai de
jos punct a lui S situat in partea stanga a axei verticale.
Figure 11.4: Interpretarea geometrica a dualitatii: dualitatea slaba (stanga) si dualitatea
puternica (dreapta).
Este clar ca pentru un scalar dat functia duala se obtine din urmatoarea problema de
minimizare
d() = min
(u,t)S
u + t.
CHAPTER 11. TEORIA DUALITATII 138
In concluzie, observam ca inegalitatea

T
u + t d()
deneste un hiperplan suport pentru multimea S denit de vectorul [ 1]
T
si mai mult,
intersectia acestui hiperplan cu axa verticala (adica pentru u = 0) da d().
Diferenta f

se numeste duality gap. Se observa ca dualitatea slaba este valabila pen-


tru orice problema de optimizare (NLP), insa in anumite cazuri (de exemplu optimizarea
convexa in care multimea fezabila indeplineste conditii speciale) exista o versiune mai put-
ernica a dualitatii, numita dualitatea puternica. Pentru a obtine dualitatea puternica avem
nevoie de anumite proprietati de convexitate pentru problema (NLP):
Conditia Slater: Presupunem ca problema (NLP) este convexa (adica functiile f si
g
1
, , g
m
sunt functii convexe, iar functiile h
1
, . . . , h
p
sunt functii ane) si ca exista x R
n
fezabil astfel incat g( x) < 0 si h( x) = 0.
Pentru a demonstra dualitatea puternica vom utiliza teorema de separare prin hiperplane:
Theorem 11.2.6 (Dualitate puternica) Daca problema de optimizare convexa primala
(NLP) satisface conditia Slater, atunci valorile optime pentru problemele primale si duale
sunt egale, adica
d

= f

(11.8)
si mai mult (

)
T
g(x

) = 0, unde x

este punct de minim global pentru problema primala


si (

) este punct de maxim global pentru problema duala.


Demonstratie: Introducem urmatoarea multime convexa S
1
R
m
R
p
R denita
explicit ca:
S
1
= (u, v, t) : x R
n
, g
i
(x) u
i
i = 1, . . . , m, h
i
(x) = v
i
i = 1, . . . , p, f(x) t.
Deoarece h este functie ana exista matricea A R
pn
si b R
p
astfel incat h(x) = Axb.
Presupunem de asemenea ca rang(A) = p si ca f

este nit. Denim o a doua multime


convexa
S
2
= (0, 0, s) R
m
R
p
R : s < f

.
CHAPTER 11. TEORIA DUALITATII 139
Se observa imediat ca multimile S
1
si S
2
sunt convexe si nu se intersecteaza. Din teorema
de separare prin hiperplane avem ca exista (

, , ) ,= 0 si R astfel incat:

T
u +
T
v + t (u, v, t) S
1
si

T
u +
T
v + t (u, v, t) S
2
.
Din prima inegalitate se observa ca

0 si 0 (altfel

T
u+t este nemarginita inferior
peste multimea S
1
). A doua inegalitate implica ca t pentru orice t < f

si deci
f

. Din aceasta discutie putem concluziona ca pentru orice x R


n
:
f(x) +

T
g(x) +
T
(Ax b) f

.
Presupunem ca > 0. In acest caz impartind ultima inegalitate prin obtinem:
/(x,

/, /) f

x R
n
.
Introducand notatiile =

/, = / si minimizand dupa x in inegalitatea precedenta
obtinem ca d(, ) f

ceea ce implica ca d(, ) = f

, adica dualitatea puternica are loc


in acest caz.
Daca = 0 avem ca pentru orice x R
n
:

T
g(x) +
T
(Ax b) 0.
Aplicand aceasta relatie pentru vectorul Slater x, avem ca

T
g( x) 0.
Dar stim ca g
i
( x) < 0 si

0 ceea ce conduce la

= 0. Dar avem ca (

, , ) ,= 0, ceea
ce implica ca ,= 0. In concluzie obtinem ca pentru orice x R
n
avem
T
(Ax b) 0.
Dar pentru vectorul Slater x avem ca
T
(A x b) = 0 si deci exista vectori x R
n
astfel
incat
T
(Ax b) < 0, exceptie facand cazul cand A
T
= 0. Dar A
T
= 0 nu este posibil
caci rang(A) = p si ,= 0. Deci cazul = 0 nu poate avea loc.
Conditia Slater poate relaxata cand anumite constrangeri de inegalitate g
i
sunt functii
ane. De exemplu, daca primele r m constrangeri de inegalitate sunt descrise de functiile
g
1
, . . . , g
r
ane, atunci dualitatea puternica are loc daca urmatoarea conditie Slater relaxata
este satisfacuta: functiile f si g
r+1
, , g
m
sunt functii convexe, iar functiile g
1
, . . . , g
r
si
h
1
, . . . , h
p
sunt functii ane si exista x astfel incat g

( x) 0 pentru = 1, . . . , r, g
l
( x) < 0
pentru l = r + 1, . . . , m si h( x) = 0.
CHAPTER 11. TEORIA DUALITATII 140
Interpretarea minimax: Se observa ca dualitatea puternica poate prezentata uti-
lizand teorema minimax: daca urmatoarea relatie are loc
inf
xR
n
sup
0
/(x, , ) = sup
0
inf
xR
n
/(x, , ),
atunci d

= f

. Intr-adevar, observam ca partea dreapta a acestei relatii este problema


duala. Pe de alta parte, expresia din stanga, la prima vedere, nu are legatura cu prob-
lema primala. Dar se observa ca functia in x denita ca valoarea optima a problemei
de maximizare sup
0
/(x, , ) este nita daca g(x) 0 si h(x) = 0 si in acest caz
sup
0
/(x, , ) = f(x), ceea ce ne conduce la problema primala. In concluzie, daca re-
latia minimax de mai sus este valida avem dualitate puternica. Deci dualitatea puternica
poate avea loc si pentru cazul problemelor (NLP) neconvexe care satifac egalitatea minimax
de mai sus.
Example 11.2.7 Un exemplu de problema de optimizare neconvexa, des intalnita in teoria
sistemelor si control, pentru care dualitatea puternica are loc este urmatorul:
min
xR
n
1
2
x
T
Qx + q
T
x + r
s.l.:
1
2
x
T
Q
1
x + q
T
1
x + r
1
0,
unde matricile simetrice Q si Q
1
nu sunt positiv semidenite. Deci aceasta problema de
optimizare cu functie obiectiv patratica si o singura constrangere de inegalitate descrisa de
asemenea de o functie patratica nu este convexa. Se poate arata ca dualitatea puternica
are loc pentru aceasta problema cu conditia ca exista x pentru care inegalitatea este stricta,
adica
1
2
x
T
Q
1
x + q
T
1
x + r
1
< 0.
In concluzie, dualitatea puternica are loc si pentru probleme particulare neconvexe (NLP).
In toate aceste situatii, dualitatea puternica ne permite sa reformulam o problema de
optimizare (NLP) intr-o problema echivalenta duala, dar care este intodeauna problema
convexa (deoarece duala este functie concava). Pentru a intelege mai bine reformularea
duala a unei probleme convexe, vom prezenta urmatorul exemplu.
Example 11.2.8 (Duala unei probleme QP strict convexa) Fie problema QP strict
convexa de forma:
f

= min
xR
n
1
2
x
T
Qx + q
T
x
s.l.: Cx d 0, Ax b = 0.
CHAPTER 11. TEORIA DUALITATII 141
Presupunem ca Q 0 si ca multimea fezabila X = x R
n
: Cx d 0, Ax b = 0
este nevida. Din expunerea anterioara avem ca in acest caz dualitatea puternica are loc.
Lagrangianul este dat de urmatoarea expresie:
/(x, , ) =
1
2
x
T
Qx + q
T
x +
T
(Cx d) +
T
(Ax b)
=
T
d
T
b +
1
2
x
T
Qx +
_
q + C
T
+ A
T

_
T
x.
Functia duala este inmumul neconstrans al Lagrangianului in functie de variabila x, La-
grangian ce este o functie patratica de x. Obtinem ca duala are forma:
d(, ) =
T
d
T
b + inf
xR
n
_
1
2
x
T
Qx +
_
q + C
T
+ A
T

_
T
x
_
=
T
d
T
b
1
2
_
q + C
T
+ A
T

_
T
Q
1
_
q + C
T
+ A
T

_
unde in ultima egalitate am utilizata rezulltate de baza pentru optimizarea neconstransa
convexa patratica. Se observa ca functia dula este de asemenea patratica in variabilele duale
(, ). Mai mult functia duala este concava deoarece Hesiana este negativ semidenita.
Astfel, problema de optimizare duala a unui QP strict convex este data de expresia:
d

= max
0, R
p

1
2
_

_
T
_
C
A
_
Q
1
_
C
A
_
T
_

_
d + CQ
1
q
b + AQ
1
q
_
T
_

1
2
q
T
Q
1
q. (11.9)
Datorita faptului ca functia obiectiv este concava, aceasta problema duala este ea insasi un
QP convex, dar in general nu este strict convex (adica Hesiana nu mai este pozitiv denita).
Insa formularea QP duala data de (11.9) are constrangeri mult mai simple, adica multimea
fezabila este descrisa de constrangeri foarte simple: 0 si R
p
. Observam ca ultimul
termen in functia duala este o constanta, care trebuie insa pastrata pentru ca d

= f

,
adica dualitatea puternica sa e mentinuta.
11.3 Programare liniara (LP)
Programare liniara ocupa un loc deosebit de important, atat in teoria cat si in aplicatiile
practice din inginerie, economie, etc. Reamintim ca o problema de programare liniara (LP)
CHAPTER 11. TEORIA DUALITATII 142
are urmatoarea forma:
f

= min
xR
n
c
T
x
s.l.: Cx d 0, Ax b = 0.
Example 11.3.1 (Dieta economica) Dorim sa determinam o dieta cat mai putin costisi-
toare care sa acopere insa in totalitate substantele nutritive necesare organismului uman
(aceasta aplicatie apartine clasei de probleme de alocare a resurselor, de exemplu dieta unei
armate). Presupunem ca exista pe piata n alimente care se vand la pretul c
i
pe bucata si de
asemenea exista m ingrediente nutritionale de baza pe care ecare om trebuie sa le consume
intr-o cantitate de minim d
j
unitati. Mai stim de asemenea ca ecare aliment i contine c
ji
unitati din elemntul nutritional j.
Problema care se pune este sa se determine numarul de unitati din alimentul i, notat x
i
,
care sa minimizeze costul total si in acelasi timp sa satisfaca constrangerile nutritionale,
adica avem urmatoarea probleme de optimizare (LP):
min
xR
n
c
1
x
1
+ + c
n
x
n
s.l.: c
11
x
1
+ + c
1n
x
n
d
1
. . .
c
m1
x
1
+ + c
mn
x
n
d
m
x
i
0 i = 1, . . . , n.
Example 11.3.2 La o problema de programare operativa a productiei restrictiile se refera
la o serie de masini (utilaje) cu care se executa produsele dorite, d
i
ind disponibilul de
timp al utilajului i pe perioada analizata iar c
ij
timpul necesar prelucrarii unui produs de
tipul j pe utilajul i, scopul ind maximizarea productiei. Ca urmare, problema se pune ca
un (LP), unde x
i
reprezinta numarul de unitati de produs i pe perioada analizata:
min
xR
n
x
1
+ + x
n
s.l.: c
j1
x
1
+ + c
jn
x
n
d
j
j = 1, . . . , m
x
i
0 i = 1, . . . , n.
Ideea de baza in programarea liniara este ca trebuie sa cautam solutia problemei intr-o
multime cu un numar nit de solutii de baza care sunt punctele de extrem ale polihedrului
CHAPTER 11. TEORIA DUALITATII 143
care deneste multimea fezabila:
X = x R
n
: Cx d 0, Ax b = 0.
Enuntam aceasta teorema pentru cazul cand multimea fezabila este marginita, adica este
un politop:
Theorem 11.3.3 Presupunem ca multimea fezabila X este un politop, atunci exista un
punct de minim al problemei (LP) intr-unul din varfurile politopului.
Demonstratie: Daca multimea fezabila X este politop, atunci X este acoperirea convexa
generata de punctele de extrem (varfurile politopului):
X = Conv(v
1
, . . . , v
q
).
Mai mult, din faptul ca X este marginita avem ca un punct de minim x

exista pentru
problema (LP). Deoarece x

este fezabil, avem ca


x

=
q

i=1

i
v
i
,
unde
i
0 si

q
i=1

i
= 1. Este clar ca c
T
v
i
f

, deoarece v
i
este fezabil pentru orice
i. Notam cu J multimea de indecsi denita astfel: J = i :
i
> 0. Daca exista i
0
J
astfel incat c
T
v
i
0
> f

, atunci
f

= c
T
x

=
i
0
c
T
v
i
0
+

iI\{i
0
}

i
c
T
v
i
>

iI

i
f

= f

si deci obtinem o contradictie. Aceasta implica ca orice punct de extrem pentru care
i
> 0
este un punct de minim.
Din teorema anterioara se poate observa ca pentru a gasi o solutie optima pentru problema
(LP) este sucient sa determinam varfurile politopului ce descriu multimia fezabila X, sa
evaluam apoi functia obiectiv in aceste varfuri si sa consideram solutia corespunzatoare celei
mai mici valori. Se poate observa ca in anumite cazuri aceasta metoda nu este ecienta
deoarece exista multe clase de multimi de tip politop des intalnite in aplicatii pentru care
numarul de varfuri este exponential, de exemplu politopul X = x R
n
: |x|

1 are
CHAPTER 11. TEORIA DUALITATII 144
Figure 11.5: Solutia unui LP.
2
n
varfuri. Pentru o astfel de problema, la n = 100 de variabile, avem nevoie sa cautam
solutia printre 2
100
10
30
varfuri, ceea ce presupune un efort de calcul imposibil la ora
actuala. Exista insa metode alternative mai eciente pentru rezolvarea unui (LP).
Problemele de optimizare (LP) se rezolva de obicei cu algoritmul simplex. Acest algoritm
a fost dat de Dantzig in 1947. Algoritmul se bazeaza pe notiunea de solutie fundamentala
a unui sistem de ecuatii. Se poate arata ca un (LP) general poate intotdeauna scris in
forma standard:
min
xR
n
c
T
x : Ax = b, x 0,
prin folosirea de variabile suplimentare (numite si variabile articiale). Intr-adevar, obser-
vam urmatoarele:
(i) orice restrictie de inegalitate poate transformata in egalitate, prin introducerea unei
variabile suplimentare nenegative si folosind relatiile:
x d x + y = d, y 0 si x d x y = d, y 0.
(ii) orice variabila fara restrictie de semn poate inlocuita cu doua variabile cu restrictie
de semn pozitiva, folosind relatia:
x oarecare x = y z, y 0, z 0.
Folosind aceste doua transformari putem aduce orice problema (LP) in forma (LP) standard
de mai sus.
Pentru problema (LP) standard presupunem ca matricea A R
pn
are rangul p < n (adica
numarul de ecuatii este mai mic decat numarul de variabile si deci avem suciente grade
de libertate pentru a optimiza). Fie o matrice B R
pp
nesingulara (numita si matrice de
CHAPTER 11. TEORIA DUALITATII 145
baza) formata din coloane ale lui A si e x
k
solutia unica a sistemul de ecuatii Bx
k
= d.
Denim solutia fundamentala a sistemului Ax = b, vectorul x
k
R
n
obtinut extinzand x
k
cu zerourile corespunzatoare componentelor ce nu sunt asociate coloanelor lui B. Denim
de asemenea solutiile fundamentale fezabile, adica solutiile fundamentale x
k
care satisfac in
plus constrangerea x
k
0. Observam ca varfurile (punctele de extrem) multimii fezabile
pentru problema (LP) standard, adica varfurile polihedrului X = x : R
n
: Ax = b, x
0, sunt de fapt solutiile fundamentale fezabile si reciproc.
Example 11.3.4 Consideram politopul (numit adesea si simplex) X = x R
3
: x
0, x
1
+ x
2
+ x
3
= 1. Observam ca varfurile acestui politop coincid cu cele trei solutii de
baza ale ecuatiei x
1
+ x
2
+ x
3
= 1:
Figure 11.6: Varfurile unui simplex.
Se poate arata ca o solutie optimala a problemei (LP) in forma standard (in cazul in
care aceasta exista) se gaseste printre solutiile fundamentale fezabile. Acest rezultat este
consecinta Teoremei 11.3.3, observand ca varfurile (punctele de extrem) multimii fezabile
X = x : R
n
: Ax = b, x 0 coincid cu solutiile fundamentale fezabile. Aceasta ne
permite sa cautam solutia optima a problemei (LP) in submultimea solutiilor fundamen-
tale care sunt cel mult
n!
p!(np)!
la numar (corespunzatoare modalitatilor diverse de a alege
p coloane din n coloane). Ideea de baza a metodei simplex este ca pornind de la o solutie
fundamentala fezabila sa gasim o noua solutie fundamentala fezabila in care functie obiec-
tiv sa descreasca, si aceasta cautare se face folosind tabelul simplex care desi necesita o
matematica extrem de simpla nu se poate exprima usor intr-o forma matriceala compacta.
CHAPTER 11. TEORIA DUALITATII 146
A durat mult timp pana s-a demonstrat ca algoritmul simplex standard nu are complexitate
polinomiala, un exemplu ind clasa de probleme de mai jos, gasita de Klee si Minty in 1972,
in care algoritmul trebuie sa analizeze 2
n
baze (n numarul de necunoscute) pana la gasirea
celei optime:
min
xR
n
n

i=1
10
ni
x
i
s.l.:
_
2
i1

j=1
10
ij
x
j
_
+ x
i
100
i1
i = 1, . . . , n
x
i
0 i = 1, . . . , n.
Pentru o astfel de problema, la 100 de variabile, algoritmul va avea 2
100
10
30
iteratii,
si chiar la o viteza de un miliard iteratii pe secunda (mult peste puterea unui calculator
actual) va termina in 10
13
ani. Nu se stie inca daca exista sau nu o alta modalitate de
trecere de la o baza la alta, folosind tabelele simplex, prin care algoritmul simplex standard
sa devina polinomial. Au fost insa gasiti algoritmi alternativi care nu se bazeaza pe tabele
simplex, primul de acest gen ind algoritmul de punct interior al lui Karmakar, despre care
s-a demonstrat ca are complexitate polinomiala.
In ciuda dezavantajelor de mai sus, algoritmul simplex ramane si in zilele noastre cel mai
ecient algoritm in ceea ce priveste viteza de lucru, simplitatea si implementarea pe calcu-
lator. Mai mult, folosirea acestuia aduce informatii mult mai ample decat gasirea solutiei
propriu-zise, este mult mai maleabil in cazul modicarilor ulterioare ale datelor problemei si
se preteaza mult mai bine la interpretari economice. Un argument in plus in favoarea aces-
tui algorithm este acela ca inca nu a aparut o problema practica in fata caruia sa clacheze.
Algoritmii de punct interior raman doar ca alternative teoretice sau pentru cazurile in care
algoritmul simplex este lent, dar ei nu-l pot inlocui complet.
Functia Lagrange asociata unui (LP) general este data de expresia:
/(x, , ) = c
T
x +
T
(Cx d) +
T
(Ax b)
=
T
d
T
b +
_
c + C
T
+ A
T

_
T
x.
Observam ca Lagrangianul este de asemenea liniar in variabila x. Atunci functia duala
corespunzatoare este data de expresia:
d(, ) =
T
d
T
b + inf
xR
n
_
c + C
T
+ A
T

_
T
x
=
T
d
T
b +
_
0 daca c + C
T
+ A
T
= 0
altfel.
CHAPTER 11. TEORIA DUALITATII 147
Astfel, functia obiectiv duala d(, ) este de asemenea liniara si ia valoarea in toate
punctele ce nu satisfac egalitatea liniara c + C
T
+ A
T
= 0. Din moment ce vrem sa
maximizam functia duala, aceste puncte pot privite ca puncte nefezabile a problemei
duale (de aceea le numim dual nefezabile), si putem scrie in mod explicit duala LP-ului
de mai sus ca:
d

= max
R
m
, R
p
_
d
b
_
T
_

_
s.l.: 0, c + C
T
+ A
T
= 0.
Se observa ca problema duala este de asemenea un (LP). In anumite situatii problema (LP)
duala este mai simpla decat problema (LP) primala (de exemplu constrangerile problemei
duale sunt mai simple decat ale problemei primale) si deci in acest caz este de preferat
rezolvarea dualei. Rationand ca mai inainte, problema primala si duala (LP) standard au
urmatoarea forma:
Primala: min
xR
n
c
T
x : Ax = b, x 0 Duala: max
R
n
b
T
: A
T
c
Din dualitatea slaba avem valabila inegalitatea:
b
T
c
T
x
pentru orice x si fezabile pentru problema primala si respectiv duala.
De asemenea, se poate arata urmatoarea teorema, cunoscuta sub numele de teorema de
dualitate pentru programarea liniara:
Theorem 11.3.5 (Teorema de dualitate pentru (LP)) Daca una dintre problemele (LP),
primala sau duala, are solutie optima atunci si cealalta problema are solutie optima si val-
orile optime corespunzatoare sunt egale. Mai mult, daca una dintre probleme, primala sau
duala, are functie obiectiv nemarginita atunci cealalta problema nu are puncte fezabile.
O consecinta imediata a acestei teoreme este lema Farkas (sau lema alternativei): e
A R
pn
si b R
p
, atunci una si numai una din urmatoarele relatii are loc:
(i) exista x R
n
astfel incat Ax = b si x 0
(ii) exista R
p
astfel incat A
T
0 si b
T
< 0.
Lema Farkas are foarte multe aplicatii, de exemplu poate folosita la demonstrarea con-
ditiilor de optimalitate de ordinul intai pentru probleme de optimizare constransa (NLP).
Chapter 12
Conditii de Optimalitate pentru
(NLP)
In acest capitol vom deni conditiile necesare si suciente de optimalitate pentru cazul
problemelor constranse. Vom arata ca aceste conditii de optimalitate pot privite ca o
generalizare a cazului neconstrans la cel constrans in care in locul functiei obiectiv folosim
Lagrangianul. Reamintim problema (NLP) in forma standard:
(NLP) :
min
x R
n
f(x) (12.1a)
s.l.: g(x) 0, h(x) = 0,
in care functiile f : R
n
R, g : R
n
R
m
si h : R
n
R
p
sunt functii diferentiabile
de doua ori. Multimea fezabila a problemei (NLP) este multimea punctelor ce satisfac
contrangerile aferente, adica X = x R
n
: g(x) 0, h(x) = 0. cu aceste notatii putem
rescrie problema (NLP) intr-o forma compacta:
min
xX
f(x).
Pentru aceasta problema constransa (NLP) vom deni conditiile necesare si suciente de
optimalitate. Primul rezultat se refera la urmatoarea problema de optimizare constransa
(demonstratia acestui rezultat a fost data in Capitolul 4):
148
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 149
Theorem 12.0.6 (Conditii de ordinul I pentru (NLP) cu constrangeri convexe)
Fie X o multime convexa si f (
1
(nu neaparat convexa). Pentru problema de optimizare
constransa min
xX
f(x) urmatoarele conditii de optimalitate sunt satisfacute: Daca x

este
minim local atunci
f(x

)
T
(x x

) 0 x X.
Daca in plus f este functie convexa atunci x

este punct de minim daca si numai daca


f(x

)
T
(x x

) 0 x X.
Inainte sa continuam cu denirea altor conditii de optimalitate mai generale, vom avea
nevoie sa introducem notiunea de constrangere activa/inactiva.
Denition 12.0.7 (Constragere activa/inactiva) O constrangere de inegalitate g
i
(x)
0 se numeste activa in punctul x X daca si numai daca g
i
(x) = 0, altfel ea se numeste
inactiva. Desigur, orice constrangere de egalitate h
i
(x) = 0 este activa intr-un punct fezabil.
Denition 12.0.8 (Multimea activa) Multimea de indici /(x) 1, . . . , m de con-
strangeri active este numita multimea activa in punctul x X.
Considerarea constrangerilor active este esentiala deoarece intr-un punct fezabil x ele re-
strictioneaza domeniul de fezabilitate aat intr-o vecinatate a lui x, in timp ce constrangerile
inactive nu inuenteaza aceasta vecinatate. In particular, se poate observa usor ca daca x

este un punct de minim local al problemei (NLP), atunci x

este de asemenea minim local


pentru probleme de optimizare numai cu constrangeri de egalitate:
min
xR
n
f(x)
s.l.: g
i
(x) = 0 i /(x

), h
1
(x) = 0, . . . , h
p
(x) = 0.
Astfel, pentru studierea proprietatilor unui punct de minim local ne putem rezuma la
studierea constrangerilor active. Prezentam mai intai conditiile de optimalitate de ordinul
intai si doi pentru cazul cand problema (NLP) are numai constrangeri de egalitate si apoi
extindem aceste conditii la cazul general.
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 150
12.1 Conditii necesare de ordin I pentru probleme cu
constrangeri de egalitate
Pentru a deni conditiile necesare si suciente de ordinul I si II pentru probleme NLP
generale, mai intai studiem conditiile pentru probleme NLP care au doar constrangeri de
egalitate:
(NLPe) : min
xR
n
f(x) (12.2a)
s.l.: h(x) = 0.
Observatiile obtinute din aceasta categorie de probleme, in care toate constrangerile sunt
considerate active, vor utilizate ulterior pentru problemele NLP generale. Mai intai insa,
trebuie sa denim anumite notiuni ce se vor dovedi esentiale. O curba pe o suprafata S
este o multime de puncte x(t) S continuu parametrizate in t, pentru a t b. O
curba este diferentiabila daca x(t) =
dx(t)
dt
exista si este de doua ori diferentiabila daca
x(t) exista. O curba x(t) trece prin punctul x

daca x

= x(t

) pentru un t

ce satisface
a t

b. Derivata curbei in x

este desigur denita ca x(t

). Acum, consideram toate


curbele diferentiabile aate pe suprafata S, ce trec printr-un punct x

. Planul tangent in
x

S este denit ca multimea tuturor derivatelor acestor curbe diferentiabile in t

, adica
multimea tuturor vectorilor de forma x(t

) denite de curbele x(t) S.


Pentru o functie h: R
n
R
p
, cu h(x) = [h
1
(x) . . . h
p
(x)]
T
notam Jacobianul sau prin
h(x), unde reamintim ca h(x) este o matrice p n cu elementul
h
i
(x)
x
j
pe pozitia (i, j):
h(x) =
_

_
h
1
(x)
x
1
. . .
h
1
(x)
xn
.
.
.
.
.
.
.
.
.
hp(x)
x
1
. . .
hp(x)
xn
_

_
=
_

_
h
1
(x)
T
.
.
.
h
p
(x)
T
_

_
(12.3)
Introducem acum un subspatiu:
M = d R
n
: h(x

)d = 0
si investigam acum sub ce conditii acest subspatiu M este egal cu un plan tangent in x

la suprafata S = x R
n
: h(x) = 0. In acest scop trebuie sa introducem notiunea de
punct regulat.
Denition 12.1.1 (Punct regulat) Un punct x

ce satisface contrangerea h(x

) = 0 se
numeste punct regulat daca gradientii h
1
(x

), . . . , h
p
(x

) sunt liniar independenti.


CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 151
De exemplu, daca h(x) este ana, adica h(x) = Ax b cu A R
pn
, atunci conditia de
regularitate este echivalenta cu matricea A sa aiba rangul egal cu p.
Theorem 12.1.2 Intr-un punct regulat x

al suprafetei S denita de constrangerile de


egalitate h(x) = 0, planul tangent este egal cu:
M = d R
n
: h(x

)d = 0.
Demonstratie: Notam prin T planul tangent in x

. Pentru ca T = M trebuie sa demon-


stram ca T M si M T. Este clar ca T M, chiar daca x

este regulat sau nu, deoarece


orice curba x(t) ce trece prin x

la t = t

, avand derivata x(t

) astfel incat h(x

) x(t

) ,= 0
nu ar in S (tinem seama ca h(x(t)) = 0 pentru orice a t b). Pentru a demonstra
ca M T, trebuie sa aratam ca pentru un d M exista o curba in S ce trece prin x

cu
derivata d in t

. Pentru a construi o asemenea curba, consideram ecuatia


h(x

+ td +h(x

)
T
u(t)) = 0
unde pentru un t xat, consideram u(t) R
p
ca ind necunoscuta. Aceasta ecuatie este un
sistem de p ecuatii si p necunoscute, parametrizat in mod continuu prin t. La t = 0 avem
solutia u(0) = 0. Jacobianul sistemului in functie de u la t = 0 este matricea
h(x

)h(x

)
T
R
pp
,
ce este nesingulara din moment ce x

este un punct regulat si astfel h(x

) este de rang
maxim. Astfel, prin teorema functie implicite, exista o solutie continuu diferentiabila u(t)
intr-o regiune a t a. Curba x(t) = x

+td+h(x

)
T
u(t) este astfel, prin constructie,
o curba in S. Prin derivarea sistemului la t = 0 avem:
0 =
d
dt
h(x(t))

t=0
= h(x

)d +h(x

)h(x

)
T
u(0).
Din denitia lui d avem h(x

)d = 0 si astfel, din moment ce h(x

)h(x

)
T
este nesin-
gulara, tragem concluzia ca x(0) = 0. Astfel
x(0) = d +h(x

)
T
x(0) = d
iar curba construita are in x

derivata d.
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 152
Example 12.1.3 (Plan tangent) Fie constrangerea h(x): R
3
R, h(x) = x
2
1
+ x
2
2
+
3x
1
+3x
2
+x
3
1 si punctul x

= [0 0 1]
T
astfel incat h(x

) = 0. Jacobianul lui h(x) va :


h(x) =
_
2x
1
+ 3 2x
2
+ 3 1

iar h(x

) = [3 3 1], ceea ce arata ca x

este punct regulat. Astfel, din denitia planu-


lui tangent (conform teoremei anterioare), directia tangenta d = [d
1
d
2
d
3
]
T
va trebui sa
satisfaca
h(x

)d = 0,
anume 3d
1
+3d
2
+d
3
= 0. In Fig. 12.1 avem suprata denita de h(x) = 0 si planul tangent
in punctul x

= [0 0 1]
T
.
10
5
0
5
10
10
5
0
5
10
250
200
150
100
50
0
50
x
x
1
x
2
x
3
Figure 12.1: Suprafata pentru h(x) = 0 si planul tangent aferent punctului x

= [0 0 1]
T
Prin cunoasterea reprezentarii planului tangent, derivarea conditiilor necesare si suciente
pentru ca un punct sa e un punct de minim local pentru probleme cu constrangeri de
egalitate este destul de simpla.
Lemma 12.1.4 Fie x

un punct regulat al constrangerilor h(x) = 0 si punct de extrem


local (minim sau maxim local) al problemei de optimizare (NLPe). Atunci, orice d R
n
ce
satisface
h(x

)d = 0
trebuie sa satisfaca si
f(x

)d = 0
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 153
Demonstratie Fie un vector d in planul tangent in x

si x(t) e orice curba neteda


pe suprafata de constrangere ce trece prin x

cu derivata d, i.e x(0) = x

, x(0) = d si
h(x(t)) = 0, cu a t a pentru un a > 0. Dim moment ce x

este un punct regulat,


planul tangent este identic cu multimea de d-uri ce satisfac h(x

)d = 0. Astfel, din
moment ce x

este punct de extrem local constrans al lui f avem:


d
dt
f(x(t))

t=0
= 0,
sau in mod echivalent
f(x

)
T
d = 0.

Theorem 12.1.5 (Conditii necesare de ordin I pentru (NLPe)) Fie x

un punct de
extrem al functiei f supusa la constrangerile h(x) = 0, adica al problemei de optimizare
(NLPe), si presupunem ca x

este un punct regulat pentru aceste constrangeri. Atunci,


exista un multiplicator Lagrange

R
p
astfel incat
(KKT - NLPe) : f(x

) +h(x

)
T

= 0 si h(x

) = 0.
Demonstratie Din Lema 12.1.4 tragem concluzia ca valoarea LP-ului:
max
dR
n
f(x

)
T
d
s.l.: h(x

)d = 0
este zero. Astfel, din moment ce LP-ul are o valoare optima nita, atunci prin teorema
dualitatii, duala ei va fezabila. In mod specic, exista un

R
p
astfel incat f(x

) +
h(x

)
T

= 0.
Observam ca daca ar sa exprimam Lagrangianul asociat problemei constranse:
/(x, ) = f(x) +
T
h(x)
atunci conditiile necesare pot exprimate sub forma:

x
/(x

) = 0

/(x

) = 0
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 154
sau echivalent sub forma
/(x

) = 0.
Dupa cum observam aceste conditii seamana foarte mult cu conditiile de optimalitate de
ordinul I pentru cazul necosntrans (f(x

) = 0). Pentru cazul constrans in locul functiei


obiectiv f se considera Lagrangianul /. Conditiile de ordinul I se reduc la rezolvarea unui
sistem /(x

) = 0 de n + p ecuatii (de obicei neliniare) cu n + p necunoscute. Deci,


acest sistem de ecuatii ar trebui sa permita, cel putin local, determinarea unei solutii. Dar
ca si in cazul neconstrans, o solutie a sistemului dat de conditiile necesare de ordinul I nu
este neaparat un minim (local) al problemei de optimizare; poate la fel de bine un maxim
(local) sau un punct sa.
Example 12.1.6 Consideram problema:
min
xR
2
: h(x)=x
2
1
+x
2
2
2=0
x
1
+ x
2
.
Mai intai observam ca orice punct fezabil este regulat (punctul x = [0 0]
T
nu este fezabil).
In concluzie orice minim local al acestei probleme satisface sistemul /(x, ) = 0 care se
poate scrie explicit astfel:
2x
1
= 1
2x
2
= 1
x
2
1
+ x
2
2
= 2.
Aceste sistem de trei ecuatii cu trei necunoscute x
1
, x
2
si are urmatoarele doua solutii:
(x

1
, x

2
,

) = (1, 1, 1/2) si (x

1
, x

2
,

) = (1, 1, 1/2). Se poate observa (vezi Figura


12.2) ca prima solutie este un minim local in timp ce cealalta solutie este un maxim local.
Este important sa observam ca pentru un punct de minim sa satisfaca conditiile de ordinul
I este necesar sa avem regularitate. Cu alte cuvinte, conditiile de ordinul I poate sa nu aiba
loc la un punct de minim local care nu este regulat.
Example 12.1.7 Consideram problema:
min
xR
2
x
1
s.l.: h
1
(x) = (1 x
1
)
3
+ x
2
= 0, h
2
(x) = (1 x
1
)
3
x
2
= 0.
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 155
Figure 12.2: Conditiile de ordinul I.
Se observa ca aceasta problema are un singur punct fezabil x

= [1 0]
T
care este de asemenea
si minimul global. Pe de alta parte avem ca f(x

) = [1 0]
T
, h
1
(x

) = [0 1]
T
si
h
2
(x

) = [0 1]
T
. Se observa ca conditiile de ordinul I nu pot satisfacute, adica nu
exista
1
si
2
astfel incat

1
_
0
1
_
+
2
_
0
1
_
=
_
1
0
_
.
Acest exemplu ilustreaza ca un punct de minim e posibil sa nu satisfaca conditiile de sta-
tionaritate pentru Lagrangian daca punctul nu este regulat
12.2 Conditii de ordin II pentru probleme cu con-
strangeri de egalitate
In mod asemanator cu conditiile de ordin II utilizate pentru probleme de optimizare fara
constrangeri, putem deriva conditiile corespunzatoare pentru probleme constranse. Con-
sideram din nou probleme cu constrangeri de tip egalitate (12.2):
Theorem 12.2.1 (Conditii necesare de ordin II pentru (NLPe)) Presupunem ca x

CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 156


este un punct de minim local al problemei (NLPe) denita in (12.2) si un punct regulat
pentru constrangerile aferente. Atunci exista un

R
P
astfel incat
f(x

) +h(x

)
T

= 0 si h(x

) = 0.
Daca notam prin M planul tangent M = d R
n
: h(x

)d = 0 in x

, atunci matricea
Hesiana a Lagrangianului in raport cu x

2
x
/(x

) =
2
f(x

) +
p

i=1

2
h
i
(x

)
este pozitiv semidenita pe M, adica d
T

2
x
/(x

)d 0 pentru orice d M.
Demonstratie Este clar ca pentru orice curba de doua ori diferentiabila pe suprafata de
constrangere S ce trece prin x

(cu x(0) = x

) avem
d
2
dt
2
f(x(t))

t=0
0. (12.4)
Prin denitie avem:
d
2
dt
2
f(x(t))

t=0
= x(0)
T

2
f(x

) x(0) +f(x

)
T
x(0). (12.5)
Mai mult, daca derivam relatia h(x(t))
T

= 0 de doua ori, obtinem:


x(0)
T
_
p

i=1

2
h
i
(x

)
_
x(0) + (

)
T
h(x

) x(0) = 0 (12.6)
Adaugand (12.6) la (12.5) si tinand cont de (12.4), obtinem:
d
2
dt
2
f(x(t))

t=0
= x(0)
T

2
x
/(x

, ) x(0) 0.
Din moment ce x(0) este arbitrar in M, atunci demonstratia este completa.
Example 12.2.2 Consideram problema de optimizare din Exemplul 12.1.6. Se observa ca
matricea Heasiana a functiei Lagrange in variabila x este

2
x
/(x, ) =
2
f(x) +
2
h(x) =
_
2 0
0 2
_
,
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 157
si o baza a planului tangent la un punct x ,= 0 este de forma D(x) = [x
2
x
1
]
T
. Atunci,
avem ca
D(x)
T

2
x
/(x, )D(x) = 2(x
2
1
+ x
2
2
).
Pentru prima solutie a sistemului rezultat din conditia de stationaritate a Lagrangianului
avem ca d
T
1

2
x
/(1, 1, 1/2)d
1
= 2 > 0, unde d
1
= D(1, 1), si deci aceasta solutie
satisface conditiile necesare de ordinul II. Pe de alta parte, pentru cea dea doua solutie
avem ca expresia d
T
2

2
x
/(1, 1, 1/2)d
2
= 2 < 0, unde d
2
= D(1, 1), si deci aceasta solutie
nu poate minim local.
Theorem 12.2.3 (Conditii suciente de ordin II pentru (NLPe)) Presupunem un
punct x

R
n
si un

R
p
astfel incat
f(x

) +h(x

)
T

= 0 si h(x

) = 0. (12.7)
Presupunem de asemenea ca matricea
2
x
/(x

) =
2
f(x

) +

p
i=1

2
h
i
(x

) este poz-
itiv denita pe planul tangent M = d : h(x

)d = 0. Atunci x

este punct de minim


local strict al problemei cu constrangeri de egalitate (NLPe) denita in (12.2).
Demonstratie Daca x

nu ar un punct de minim local strict, atunci ar exista o secventa


de puncte fezabile z
k
ce converge catre x

astfel incat f(z


k
) f(x

). Putem scrie
z
k
= x

+
k
s
k
, unde s
k
R
n
, |s
k
| = 1, si
k
> 0. In mod clar
k
0, si secventa
s
k
, ind marginita, va trebui sa convearga catre un s

,= 0. Avem de asemenea ca
h(z
k
) h(x

) = 0 si prin impartirea cu
k
vom observa, pentru k ca h(x

)s

= 0,
adica s

este vector tangent. Acum, prin Teorema lui Taylor, avem ca pentru orice j:
0 = h
j
(z
k
) = h
j
(x

) +
k
h
j
(x

)s
k
+

2
k
2
s
T
k

2
h
j
(
j
)s
k
(12.8)
si
0 f(z
k
) f(x

) =
k
f(x

)s
k
+

2
k
2
s
T
k

2
f(
0
)s
k
, (12.9)
unde
j
sunt puncte pe segmentul de dreapta dintre x

si z
k
si deci convergente la x

.
Inmultind acum ecuatiile (12.8) cu

j
, adaugandu-le la (12.9), si tinand cont de (12.7),
obtinem:
s
T
k
_

2
f(
0
) +
p

i=1

2
h
i
(
i
)
_
s
k
0
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 158
relatie contradictorie pentru k deoarece s
k
converge la vectorul tangent s

,= 0. Am
tinut cont de faptul ca
j
sunt convergente la x

.
Putem iarasi concluziona ca conditiile de ordinul II pentru cazul constrans sunt foarte
similare cu cele corespunzatoare cazului neconstrans. In cazul problemelor constranse insa,
in locul functiei obiectiv se foloseste Lagrangianul.
Example 12.2.4 Consideram problema:
min
xR
3
: x
1
+x
2
+x
3
=3
x
1
x
2
x
1
x
3
x
2
x
3
.
Conditiile de ordinul I conduc la un sistem lianiar de patru ecuatii cu patru necunoscute:
(x
2
+ x
3
) + = 0
(x
1
+ x
3
) + = 0
(x
1
+ x
2
) + = 0
x
1
+ x
2
+ x
3
= 3.
Se poate observa usor ca x

1
= x

2
= x

3
= 1 si

= 2 satisface acest sistem. Mai mult


Hesiana Lagrangianului in orice punct x are forma:

2
x
/(x, ) =
2
f(x) =
_
_
0 1 1
1 0 1
1 1 0
_
_
,
si o baza a planului tangent la suprafata denita de constrangerea h(x) = x
1
+x
2
+x
3
3 = 0
in orice punct x fezabil este
D(x) =
_
_
0 2
1 1
1 1
_
_
.
Obtinem ca
D(x

)
T

2
x
/(x

)D(x

) =
_
2 0
0 2
_
0,
adica este pozitiv denita. In concluzie punctul x

este punct de minim strict local. In-


teresant de observat este faptul ca Hesiana functiei obiectiv evaluata in x

este matrice
indenita.
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 159
Interpretarea multiplicatorilor Lagrange folosind senzitivitatea: Dupa cum am
vazut, cu ajutorul multiplicatorilor Lagrange putem muta constrangerile in functia obiectiv.
O interpretare interesanta a multiplicatorilor Lagrange este data cu ajutorul senzitivitatii.
Pentru simplitate consideram o problema (NLP) denita numai de egalitati:
min
xR
n
f(x) : h(x) = 0
si apoi asociem acesteia problema perturbata
v(y) = min
xR
n
f(x) : h(x) = y.
Fie x

solutia optima a problemei originala si e (y) solutia optima a problemei perturbate.


Atunci avem ca v(0) = f(x

) si (0) = x

. Mai mult, din identitatea h((y)) = y pentru


orice y, avem ca

y
h((y)) = I
p
=
x
h((y))
T

y
(y).
Fie

multiplicatorul Lagrange optim (solutia optima duala) pentru problema originala


neperturbata. Atunci,

y
v(0) =
x
f(x

)
y
(0) =

x
h(x

)
T

y
(0) =

.
In concluzie, multiplicatorul Lagrange optim

poate interpretat ca senzitivitatea functiei


obiectiv f in raport cu constrangerea h(x) = 0. Altfel spus,

indica cat de mult valoarea


optima s-ar schimba daca constrangerea ar perturbata. Aceasta interpretare poate
extinsa la probleme generale (NLP) denite si de constrangeri de inegalitate. Multiplicatorii
Lagrange optimi

corespunzatori unei constrangeri active g(x) 0 pot interpretati ca


sensitivitatea lui f(x

) in raport cu o perturbatie in constrangeri de forma g(x) y. In


acest caz, pozitivitatea multiplicatorilor Lagrange urmeaza din faptul ca prin cresterea lui y,
multimea fezabila este relaxata si deci valoarea optima nu poate creste . Pentru inegalitatile
inactive, interpretarea in termeni de senzitivitate explica de asemenea de ce multiplicatorii
Lagrange sunt zero, pentru ca o perturbatie foarte mica in aceste constrangeri lasa valoarea
optima neschimbata.
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 160
12.3 Conditii de ordin I pentru probleme NLP gen-
erale
In aceasta sectiune extindem conditiile de optimalitate de la cazul problemelor cu con-
strangeri de egalitate la cel al problemelor de optimizare generale:
(NLP) : min
xR
n
f(x)
s.l.: g(x) 0, h(x) = 0.
Denition 12.3.1 Fie un punct x

ce satisface constrangerile problemei (NLP), adica


h(x

) = 0, g(x

) 0, si /(x

) multimea constrangerilor active. Numim punctul x

punct
regulat daca gradientii functiilor de constrangere, h
i
(x

) pentru i = 1, . . . , p, si g
j
(x

)
pentru j /(x

) sunt liniari independenti.


Theorem 12.3.2 (Conditii necesare de ordin I pentru (NLP)) Fie x

un punct de
minim pentru problema NLP standard si presupunem ca x

este si regulat. Atunci exista


un vector

R
m
si un vector

R
p
astfel incat conditiile Karush-Kuhn-Tucker (KKT)
au loc:
(KKT) : f(x

) +h(x

)
T

+g(x

)
T

= 0 (12.10)
g(x

)
T

= 0 (12.11)
g(x

) 0, h(x

) = 0

R
p
,

0.
Demonstratie Observam mai intai, ca din moment ce

0 si g(x

) 0, relatia (12.11)
este echivalent cu a spune ca o componenta

i
a vectorului

poate nenula doar daca


constrangerea sa corespunzatoare g
i
(x

) este activa. Astfel, faptul ca g


i
(x

) < 0 implica

i
= 0 iar

i
> 0 implica g
i
(x

) = 0. Din moment ce x

este punct de minim pentru prob-


lema (NLP) denita de multimea de constrangeri X = x : g(x) 0, h(x) = 0, atunci
este un punct de minim si pentru problema de optimizare avand submultimea multimii X
de constrangeri denita prin setarea constrangerilor active la zero. Drept urmare, pentru
problema cu constrangeri de egalitate ce ar rezulta denita pentru o vecinatate a lui x

,
exista multiplicatori Lagrange. Astfel, tragem concluzia ca conditita (12.10) este satisfa-
cuta pentru

i
= 0 daca g
i
(x

) ,= 0 iar drept urmare si relatia (12.11) este satisfacuta. Mai


CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 161
trebuie sa aratam ca

i
0 pentru constrangerile active g
i
(x

) = 0. Presupunem o com-
ponenta

k
< 0. Fie S
k
si M
k
suprafa si respectiv planul tangent denita de toate celelalte
constrangeri active in x

cu exceptia constrangerii active g


k
(x

) = 0. Din moment ce am
presupus ca x

este un punct regulat, atunci exista un d M


k
astfel incat g
k
(x

)d < 0.
Fie x(t) o curba in S
k
ce trece prin x

la t = 0, cu x(0) = d. Atunci, pentru un t 0


sucient de mic, x(t) este fezabil si folosind prima relatie (KKT) obtinem
df(x(t))
dt

t=0
= f(x

)d < 0
ce ar contrazice minimalitatea lui x

.
Observam ca prima relatie din conditiile (KKT) exprima ca x

este punct stationar pentru


functia Lagrange, adica

x
/(x

) = 0.
Cea dea doua relatie din conditiile (KKT) este complementaritatea: deoarece

0 si
g(x

) 0, atunci g(x

)
T
= 0 implica ca daca g
i
(x

) < 0 atunci

i
= 0 iar daca

i
> 0
atunci g
i
(x

) = 0. Ultimile doua relatii din conditiile (KKT) exprima fezabilitatea primala


si duala, adica ca x

este fezabil pentru problema primala si perechea (

) este fezabila
pentru problema duala. Conditiile (KKT) sunt numite dupa Karush a carui teza de master
nepublicata din 1939 a fost introdusa in cartea publicata de Kuhn si Tucker in 1951.
Example 12.3.3 Consideram problema
min
xR
2
2x
2
1
+ 2x
1
x
2
+ x
2
2
10x
1
10x
2
s.l: x
2
1
+ x
2
2
5, 3x
1
+ x
2
6.
Conditiile (KKT) sunt in acest caz urmatoarele:
4x
1
+ 2x
2
10 + 2
1
x
1
+ 3
2
= 0, 2x
1
+ 2x
2
10 + 2
1
x
2
+
2
= 0

1
(x
2
1
+ x
2
2
5) = 0,
2
(3x
1
+ x
2
6) = 0
x
2
1
+ x
2
2
5, 3x
1
+ x
2
6,
1
0,
2
0.
Pentru a gasi o solutie incercam diferite combinatii de constrangeri active si vericam
semnul multiplicatorilor Lagrange rezultati. Pentru acest exemplu putem considera doua
constrangeri active, una sau nici una. Presupunem ca prima constrangere este activa si a
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 162
doua este inactiva si rezolvam sistemul de trei ecuatii corespunzator:
4x
1
+ 2x
2
10 + 2
1
x
1
= 0
2x
1
+ 2x
2
10 + 2
1
x
2
= 0
x
2
1
+ x
2
2
5 = 0.
Obtinem solutia: x

1
= 1, x

2
= 2 si

1
= 1,

2
= 0. Observam ca aceasta solutie verica
3x
1
+ x
2
6 si
1
0 si deci aceasta solutie satisface conditiile (KKT).
12.4 Conditii de ordin II pentru probleme NLP gen-
erale
Conditiile de ordin II, atat necesare cat si suciente, pentru probleme NLP generale, sunt
derivate in mod esential prin considerarea doar a problemei cu constrangeri de egalitate
echivalenta ce este implicata de constrangerile active. Planul tangent in x

corespunzator
pentru aceste probleme generale (NLP) este planul tangent pentru constrangerile active:
M = d : g
i
(x

)
T
d = 0 i /(x

), h
j
(x

)
T
d = 0 i = 1, . . . , p.
Theorem 12.4.1 (Conditii necesare de ordin II pentru (NLP)) Fie f, g, h functii con-
tinuu diferentiable de doua ori si un punct x

punct regulat pentru constrangerile din prob-


lema NLP generala. Daca x

este un punct de minim local pentru problema NLP, atunci


exista un

R
m
, si un

R
p
, astfel incat conditiile (KKT) sa e satisfacute, iar in
plus Hesiana Lagrangianului in raport cu x

2
x
/(x

) =
2
f(x

) +
p

i=1

2
h
i
(x

) +
m

i=1

2
g
i
(x

)
sa e pozitiv semidenita pe subspatiul tangent al constrangerilor active in x

, adica avem
d
T

2
x
/(x

)d 0 pentru orice d M.
Demonstratie Dim moment ce x

este puncte de minim pentru constrangerile din prob-


lema (NLP) generala, atunci este punct de minim si pentru problema in care constrangerile
active sunt luate drep constrangeri de egalitate si neglijate celalate constrangeri inactive.
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 163
In acest fel demonstratia urmeaza imediat din conditiile necesare de ordinul II pentru prob-
leme cu constrangeri numai de egalitate.
Precum in teoria minimizarii neconstranse, putem formula si pentru problema (NLP) gen-
erala in mod asemanator conditii suciente de ordin II. Prin analogie cu cazul necon-
stras, conditia necesara este ca
2
x
/(x

) sa e pozitiv denita pe planul tangent M


corespunzator constrangerilor active. Acest fapt este intr-adevar sucient in majoritatea
cazurilor, mai exact in cazurile nedegenerate:
Theorem 12.4.2 (Conditii suciente de ordin II pentru (NLP)) Fie f, g si h func-
tii continuu diferentiabile de doua ori. Fie de asemenea un punct regulat x

R
n
, si vari-
abilele duale

R
m
si

R
p
pentru care conditiile (KKT) sunt satisfacute si pentru
care nu avem constrangeri de inegalitate degenerate, adica

j
> 0 pentru orice j /(x

).
Daca, de asemenea, Hesiana Lagrangianului
2
x
/(x

) este pozitiv denita pe sub-


spatiul tangent M =
_
d : h(x

)d = 0, g
j
(x

)
T
d = 0 j /(x

)
_
, atunci x

este un
punct de minim local strict pentru problema (NLP) generala.
Demonstratie Precum in demonstratia din cazul problemelor cu constrangeri de egali-
tate, presupunem ca x

nu este un punct de minim strict. Fie astfel o secventa de puncte


fezabile z
k
ce converge la x

si pentru care f(z


k
) f(x

). Putem scrie z
k
= x

+
k
s
k
,
cu |s
k
| = 1 si
k
> 0. Putem presupune ca
k
0 si s
k
converge catre un punct nit, i.e.
s
k
s

. Vom avea astfel f(x

)
T
s

0 si h
i
(x

)
T
s

= 0 pentru toti i = 1, . . . , p. De
asemenea, pentru ecare constrangere active g
j
avem g
j
(z
k
) g
j
(x

) 0 iar drept urmare


g
j
(x

)
T
s

0
Daca g
j
(x

)
T
s

= 0 pentru toti j /(x

), atunci demonstratia ar continua precum


in cazul problemelor doar cu constrangeri de egalitate. In schimb, daca g
j
(x

)
T
s

< 0
pentru cel putin un j /(x

), atunci
0 f(x

)
T
s

= (s

)
T
g(x

)
T

(s

)
T
h(x

)
T

> 0,
relatie de altfel contradictorie.
De remarcat este faptul ca daca avem constrangeri de inegalitate degenerate, adica con-
strangeri de inegalitate active g
i
(x

) = 0 cu multiplicatorul Lagrange asociat

i
= 0,
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 164
atunci in teorema precedenta trebuie sa cerem ca Hesiana Lagrangianului
2
x
/(x

)
sa e pozitiv semidenita pe un subspatiu mai mare decat M si anume pe subspatiul:
M

=
_
d : h(x

)d = 0, g
j
(x

)
T
d = 0 j /
+
(x

), g
j
(x

)
T
d 0 j /
0
(x

)
_
,
unde /
+
(x

) =
_
j : g
j
(x

) = 0,

j
> 0
_
si /
0
(x

) =
_
j : g
j
(x

) = 0,

j
= 0
_
.
Example 12.4.3 Consideram problema:
min
xR
2
: x
2
1
+x
2
2
10
x
2
.
Este clar ca punctul de minim global al acestei probleme este x

= [0 1]
T
. Vom arata
ca acesta este de fapt punct de minim strict. Pentru aceasta observam ca prima conditie
(KKT) are forma: [0 1]
T
+ [2x
1
2x
2
] = 0 de unde rezulta ca > 0 si deci constrangerea
este activa. Din sistemul de trei ecuatii dat de [0 1]
T
+ [2x
1
2x
2
] = 0 si x
2
1
+ x
2
2
1 = 0
obtinem solutia x

= [0 1]
T
si

= 1/2. Mai departe, planul tanget in x

este dat de
M = d : [0 2]d = 0 = d : d
2
= 0. Observam de asemenea ca Hesiana Lagrangianului
este /(x

) = 2

I
2
care binenteles ca este pozitiv denita pe M. Aceasta arata ca x

este punct de minim strict.


In nal analizam canditiile de optimalitate pentru cazul convex. Reamintim ca problema
(NLP) generala este o problema convexa (CP) daca functiile f si g
1
, , g
m
sunt functii
convexe iar functiile h
1
, . . . , h
p
sunt functii ane. Daca functia h este ana atunci exista
A R
pn
si b R
p
astfel incat h(x) = Ax b.
Theorem 12.4.4 (Conditiile suciente de ordin I pentru probleme convexe (CP))
Fie o problema convexa (CP) de forma:
(CP) : min
xR
n
f(x)
s.l: g(x) 0, Ax = b,
unde functiile f si g
1
, , g
m
sunt functii convexe. Daca urmatoarele conditii (KKT) sunt
satisfacute pentru tripletul (x

):
(KKT-CP) : f(x

) +g(x

)
T

+ A
T

= 0
g(x

)
T

= 0
g(x

) 0, Ax

= b

R
p
,

0,
CHAPTER 12. CONDITII DE OPTIMALITATE PENTRU (NLP) 165
atunci x

este punct de minim global pentru problema convexa (CP).


Demonstratie : Deoarece functia Lagrange este convexa in variabila x si tinand cont
ca prima relatie din conditiile (KKT-CP) inseamna
x
/(x

) = 0, implica ca x

=
arg min
xR
n /(x,

). Combinand proprietatile functiei duale cu conditiile (KKT-CP)


avem:
f

d(

) = /(x

)
= f(x

) + g(x

)
T

+ (Ax

b)
T

= f(x

) f

.
In concluzie, avem ca f(x

) = f

si cum x

este fezabil pentru problema convexa (CP)


atunci este punct de minim global.
Bibliograe
[1] D.P. Bertsekas. Nonlinear Programming. Athena Scientic, Belmont, MA, 1999.
[2] D.G. Luenberger. Linear and nonlinear programming, 2nd Edition. Kluwer, Boston,
1994.
[3] Y. Nesterov. Introductory Lectures on Convex Optimization: A Basic Course. Kluwer,
Boston, 2004.
[4] W. Murray si M.H. Wright P.E. Gill. Practical Optimization. Academic Press, N.Y.,
1981.
[5] J. Moore si S. Wright. Optimization Software Guide. SIAM, Philadelphia, 1993.
[6] J. Nocedal si S. Wright. Numerical Optimization. Springer Verlag, 2006.
166