Sunteți pe pagina 1din 30

Motto: ”Ca să iasă chipu-n faţă,

Trandafiri aruncă tineri,


Căci vrajiţi sunt trandafirii
De-un cuvânt al Sfintei Vineri.”
Eminescu - Crăiasa din poveşti

CAPITOLUL 6

CONTROL OPTIMAL

Controlul optimal este ı̂n mare vogă ı̂n matematica de azi. El se bazează pe optimizarea
unor funcţionale cu restricţii ecuaţii diferenţiale sau cu derivate parţiale, toate depinzând de
funcţiile de control. În controlul optimal există trei abordări: calculul variaţional, principiul
de maxim şi programarea dinamică. Cea mai importantă se referă la principiul de maxim ce
asigură condiţii necesare de optim. În condiţii suplimentare, din acest principiu se pot obţine
ecuaţiile Euler-Lagrange sau Hamilton. Condiţiile suficiente de optim sunt mai complicate
şi se vehiculeaza deobicei doar variante simplificate.

1 Probleme de control optimal constrânse de ecuaţii


diferenţiale ordinare
Multe probleme de inginerie şi ştiinţă pot fi formulate ca probleme de op-
timizare guvernate de ecuaţii diferenţiale ordinare de tip ”flow” (sisteme de
evoluţie ı̂n timp, curenţi) şi de funcţionale exprimate ca integrale simple (con-
trol optimal unitemporal). Scopul paragrafului de faţă este descrierea acestor
probleme şi formularea principiului de maxim al lui Pontryaguin, ı̂ntr-o formă
simplificată.
Să analizăm o problemă de control optimal bazată pe o funcţională dată
ca integrală simplă şi pe restricţii de tip 1-flow:
Z t0
max I(u(·)) = X 0 (t, x(t), u(t))dt (1)
u(·),xt0 0

cu restricţiile
ẋi (t) = X i (t, x(t), u(t)), i = 1, ..., n, (2)
u(t) ∈ U(t), ∀t ∈ [0, t0 ]; x(0) = x0 , x(t0 ) = xt0 . (3)
Ingrediente: t ∈ R+ este un parametru de evoluţie sau timpul; [0, t0 ] este inter-
valul de timp; x(t) = (xi (t)) este o funcţie de clasă C 2 , numită vector de stare;

123
124 Control optimal

u(t) = (ua (t)), a = 1, ..., k este un vector de control continuu; costul curent
X 0 (t, x(t), u(t)) este o funcţie de clasă C 1 numită Lagrangian neautonom.
Conform teoriei multiplicatorilor Lagrange exista funcţia (multiplicator La-
grange) p = (pi (t)), numită şi variabilă de co-stare, şi o nouă funcţie Lagrange

L(t, x(t), u(t), p(t)) = X 0 (t, x(t), u(t)) + pi (t)[X i (t, x(t), u(t)) − ẋi (t)]

cu proprietatea că problema de optimizare cu restricţii EDO, (1)+(2)+(3), se


schimbă ı̂ntr-o problemă de optimizare liberă
Z t0
max L(t, x(t), u(t), p(t))dt
u(·),xt0 0

cu restricţiile
u(t) ∈ U(t), ∀t ∈ [0, t0 ]
x(0) = x0 , x(t0 ) = xt0 .
Hamiltonianul de control

H(t, x(t), u(t), p(t)) = X 0 (t, x(t), u(t)) + pi (t)X i (t, x(t), u(t)),

adică
H = L + pi ẋi (dualitate Legendriană modificată),
permite să transcriem această nouă problemă ı̂n forma
Z t0
max [H(t, x(t), u(t), p(t)) − pi (t)ẋi (t)]dt
u(·),xt0 0

cu restricţiile
u(t) ∈ U(t), ∀t ∈ [0, t0 ]
x(0) = x0 , x(t0 ) = xt0 .
Sistemul diferenţial variaţional şi sistemul diferenţial adjunct
Pornim cu sistemul diferenţial (2). Fixăm controlul u(t) şi o soluţie x(t)
a acestui sistem diferenţial. Considerăm o variaţie diferenţiabilă x(t, ε) ce
satisface

ẋi (t, ε) = X i (t, x(t, ε), u(t)), i = 1, ..., n, x(t, 0) = x(t).


∂xi
Prin derivare ı̂n raport cu ε, punând ε = 0 şi notând ∂ε |ε=0 (t) = y i (t),
producem sistemul diferenţial variaţional asociat
∂X i
ẏ i (t) = (t, x(t), u(t))y j (t).
∂xj
TEORII LAGRANGE-HAMILTON 125

Sistemul diferenţial

∂X i
ṗi (t) = −pi (t) (t, x(t), u(t))
∂xj
se numeşte sistem adjunct ı̂n raport cu sistemul diferenţial variaţional deoare-
ce produsul scalar pi (t)y i (t) este o integrala primă pentru cele două sisteme.
Intr-adevăr,
d
(pj y j ) = 0.
dt
Rezolvarea problemei de control optimal
Presupunem că există un control continuu û(t) definit pe intervalul [0, t0 ]
cu û(t) ∈ Int U(t), care este un punct de optim ı̂n problema precedentă. Acum
considerăm o variaţie u(t, ²) = û(t) + ²h(t), unde h este o funcţie vectorială
arbitrară continuă. Deoarece û(t) ∈ Int U(t) şi o funcţie continuă pe un com-
pact [0, t0 ] este marginită, există ²h > 0 astfel ı̂ncât u(t, ²) = û(t) + ²h(t) ∈
Int U(t), ∀|²| < ²h . Acest ² este utilizat ı̂n argumentele noastre variaţionale.
Definim x(t, ²) ca variabilă de stare corespunzatoare variabilei de control
u(t, ²), adică
ẋi (t, ²) = X i (t, x(t, ²), u(t, ²)), ∀t ∈ [0, t0 ]
şi x(0, ²) = x0 . Pentru |²| < ²h , definim funcţia (integrala cu un parametru)
Z t0
I(²) = X 0 (t, x(t, ²), u(t, ²))dt.
0

Deoarece controlul u(t, ²) este fezabil, rezultă că funcţia x(t, ²) este fezabilă.
Pe de alta parte, controlul û(t) trebuie sa fie optimal. In consecinţă

I(²) ≤ I(0), ∀|²| < ²h .

Pentru orice funcţie vectorială continuă

p = (pi ) : [0, t0 ] → Rn ,

avem Z t0
pi (t)[X i (t, x(t, ²), u(t, ²)) − ẋi (t, ²)]dt = 0.
0

În mod necesar, trebuie să utilizăm funcţia lui Lagrange care include variaţiile

L(t, x(t, ²), u(t, ²), p(t)) = X 0 (t, x(t, ²), u(t, ²))

+pi (t)[X i (t, x(t, ²), u(t, ²)) − ẋi (t, ²)]
126 Control optimal

şi funcţia asociată


Z t0
J(²) = L(t, x(t, ²), u(t, ²), p(t))dt.
0

Presupunem că variabila de co-stare p este de clasă C 1 . Introducem Hamil-


tonianul de control

H(t, x(t, ²), u(t, ²), p(t)) = X 0 (t, x(t, ²), u(t, ²)) + pi (t)X i (t, x(t, ²), u(t, ²))

corespunzător variaţiei. Apoi rescriem


Z t0
J(²) = [H(t, x(t, ²), u(t, ²), p(t)) − pi (t)ẋi (t, ²)]dt.
0

Ca să evaluăm integrala Z t0


pi (t)ẋi (t, ²)dt,
0
integrăm prin părţi, folosind formula

d dpi i dxi
(pi xi ) = x + pi ,
dt dt dt
si obţinem
Z t0 Z t0
pi (t)ẋi (t, ²)dt = (pi (t)xi (t, ²))|t00 − ṗi (t)xi (t, ²)dt.
0 0

Substituind, găsim
Z t0
J(²) = [H(t, x(t, ²), u(t, ²), p(t)) + ṗj (t)xj (t, ²)]dt − (pi (t)xi (t, ²))|t00 .
0

Derivând ı̂n raport cu ², deducem


Z t0
J 0 (²) = [Hxj (t, x(t, ²), u(t, ²), p(t)) + ṗj (t)]xj² (t, ²)dt
0
Z t0
+ Hua (t, x(t, ²), u(t, ²), p(t))ha (t)dt − (pi (t)xi² (t, ²))|t00 .
0

Evaluând în ² = 0, obţinem


Z t0
0
J (0) = [Hxj (t, x(t), û(t), p(t)) + ṗj (t)]xj² (t, 0)dt
0
TEORII LAGRANGE-HAMILTON 127

Z t0
+ Hua (t, x(t), û(t), p(t))ha (t)dt − (pi (t)xi² (t, 0))|t00 .
0
unde x(t) este variabila de stare corespunzătoare controlului optimal û(t).
Trebuie să avem J 0 (0) = 0 pentru orice h(t) = (ha (t)). Pe de altă parte,
funcţiile xi² (t, 0) rezolvă problema Cauchy

∇t xi² (t, 0) = Xx (t, x(t, 0), u(t)) · x² (t, 0) + Xu (t, x(t, 0), u(t)) · h(t),

t ∈ [0, t0 ], x² (0, 0) = 0
şi deci aceste funcţii depind de h(t). Acest obstacol este doar aparent. Intr-
adevăr, el este depăşit declarând p(t) = (pj (t)) ca soluţia problemei adjuncte

∂H
ṗj (t) = − (t, x(t), û(t), p(t)), ∀t ∈ [0, t0 ], pj (t0 ) = 0. (4)
∂xj
Prin urmare
Hua (t, x(t), û(t), p(t)) = 0, ∀t ∈ [0, t0 ]. (5)
În plus
∂H
ẋj (t) = (t, x(t), û(t), p(t)), ∀t ∈ [0, t0 ], x(0) = x0 . (6)
∂pj
Observaţii (i) Sistemul algebric (5) descrie punctele critice ale Hamilto-
nianului ı̂n raport cu variabila de control. (ii) Ecuaţiile diferenţiale (4) şi (6)
şi condiţia (5) sunt ecuaţii Euler-Lagrange asociate noului Lagrangian.
În final obţinem principiul de maxim uni-temporal al lui Pontryaguin.
Teoremă (principiul de maxim simplificat; condiţii necesare) Pre-
supunem că problema de maximizare a funcţionalei (1), supusă la restricţiile
EDO (2) şi la condiţiile (3), cu X 0 , X i de clasă C 1 , are o soluţie interioară
û(t) ∈ U(t) care determină variabila de stare x(t). Atunci există o funcţie
co-stare p(t) = (pi (t)) de clasă C 1 definită pe [0, t0 ] astfel ı̂ncât relaţiile (2),
(4), (5) (6) sunt adevărate.
Teoremă (condiţii suficiente) Fie problema de maximizare a funcţionalei
(1) restricţionată prin ecuaţii diferenţiale ordinare (2) şi prin condiţiile (3),
cu X 0 , X i de clasă C 1 . Presupunem că o soluţie din interior û(t) ∈ U(t) şi
variabila de stare corespunzătoare x(t) satisfac relaţiile (4), (5), (6). Dacă,
pentru variabila de co-stare rezultată p(t) = (pi (t)), Hamiltonianianul de con-
trol H(t, x, u, p) este concav ı̂n punctul (x, u) pentru orice t ∈ [0, t0 ], atunci
û(t) şi x(t) corespunzător se constituie ı̂ntr-un punct unic de maxim global al
lui (1).
Demonstraţie Reamintim că am pornit cu maximizarea funcţionalei (1)
supusă la sistemul de evoluţie (2) şi la condiţiile (3). Fixăm perechea (x̂, û),
128 Control optimal

unde û este controlul optimal şi x̂ este evoluţia optimală a stărilor. Notând
cu Iˆ valoarea funcţionalei pentru (x̂, û), să arătăm că
Z t0
Iˆ − I = (X̂ − X)dt ≥ 0,
0

unde inegalitatea strictă are loc sub ipoteza concavităţii stricte. Notând Ĥ =
H(x̂, p̂, û) şi H = H(x, p̂, u), găsim
Z t0 ³ ´
i
Iˆ − I = (Ĥ − p̂i x̂˙ ) − (H − p̂i ẋi ) dt.
0

Integrând prin părţi, obţinem


Z t0 ³ ´
Iˆ − I = (Ĥ + x̂i p̂˙i − (H + xi p̂˙i ) dt + p̂αi (t)xi (t)|t00 − p̂i (t)x̂i (t)|t00 .
0

Luând ı̂n considerare faptul că orice traiectorie admisibilă ı̂ndeplineşte aceleaşi
condiţii iniţiale şi terminale ca şi traiectoria optimală, deducem
Z t0 ³ ´
Iˆ − I = (Ĥ − H) + p̂˙i (x̂i − xi ) dt.
0

Definiţia concavităţii implică


Z t0 ³ ´
(Ĥ − H) + p̂˙i (x̂i − xi ) dt
0

Z t0 Ã !
∂ Ĥ ∂ Ĥ
≥ (x̂ − x )( i + p̂˙i ) + (ûa − ua ) a
i i
dt = 0.
0 ∂x ∂u

Această ultimă egalitate rezultă din faptul că toate variabilele indexate prin
”ˆ” satisfac condiţiile principiului de maxim. În acest mod, Iˆ − I ≥ 0.
Teoremă (condiţii suficiente) Fie problema maximizării funcţionalei
(1) supusă la restricţii de tip EDO (2) şi la condiţiile (3), cu X 0 , X i de
clasă C 1 . Presupunem că o soluţie interioară û(t) ∈ U(t) şi traiectoria core-
spunzătoare a stărilor x(t) satisfac relaţiile (4), (5), (6). Dând variabila de
co-stare p(t) = (pi (t)), definim M (t, x, p) = H(t, x, û(t), p). Dacă M (t, x, p)
este concavă ı̂n x pentru toţi t ∈ [0, t0 ], atunci û(t) si x(t) corespunzător con-
stituie punctul unic de maxim global al lui (1).
TEORII LAGRANGE-HAMILTON 129

1.1 Aplicaţii
Exemplu Să găsim maximul funcţionalei
Z 1
I(u(·)) = − (x(t) + u2 (t))dt
0

cu restricţia
ẋ(t) = u(t), x(0) = 0, x(1) = x1 .
Pentru a rezolva această problemă construim Hamiltonianul

H(x(t), u(t), p(t)) = −(x(t) + u2 (t)) + p(t)u(t).

Rezultă
∂H ∂H 2
= −2u + p = 0 → = −2 < 0;
∂u ∂u2
ṗ = 1 ⇒ p(t) = t + c
p t+c t2 ct
u= = = ẋ(t) ⇒ x(t) = + + b.
2 2 4 2
Din condiţiile x(0) = 0, x(1) = x1 se determină b = 0, c = 2(x1 − 12 ).
Aplicatie Să găsim
Z 1
min I(u(·)) = (2 − 5t)u(t)dt
−1≤u≤1 0

cu restricţiile

ẋ(t) = 2x(t) + 4te2t u(t), x(0) = 0, x(1) = e2 .

Aplicăm principiul de maxim. Construim Hamiltonianul

H = (2 − 5t)u(t) + p(t)(2x(t) + 4te2t u(t)).

∂H
Ecuaţia adjunctă p0 (t) = − (x, u, t) = −2p(t) are soluţia generală p(t) =
∂x
−2t
p0 e , fără condiţie de transversalitate. Deoarece

H = (2 + 4p0 t − 5t)u + 2px

este o funcţie liniară ı̂n controlul u, extremele se pot atinge doar la capete,
adică u ∈ {−1, 1}. Coeficientul 2 + 4p0 t − 5t este funcţia de comutare şi tebuie
să avem cel puţin o trecere de la + la −. În t = 0, avem (2 + 4p0 t − 5t)|t=0 > 0.
130 Control optimal

Fie u∗ = −1 pe intervalul [0, t̂). Dacă u∗ = −1 pe intervalul [0, 1], atunci


ecuaţia diferenţială şi condiţia x(0) = 0 dau x(t) = −2t2 e2t , iar aceasta nu
verifică condiţia x(1) = e2 .
Pe intervalul (t̂, 1], avem 2 + 4p0 t − 5t < 0 şi u∗ = 1. Ecuaţia diferenţială
şi condiţia x(1) = 1 dau x(t) = e2t (2t2 − 1). Pe de altă parte, x∗ trebuie să
1
fie continuă ı̂n punctul t̂, adică e2t̂ (2t̂2 − 1) = −2t̂2 e2t̂ sau t̂ = . Funcţia de
2
1
comutare este zero în t̂, adică p0 = . În final,
4

 1
−2t2 e2t pentru t ∈ [0, ] şi u∗ = −1


x (t) = 2
 e2t (2t2 − 1) pentru t ∈ ( 1 , 1] şi u∗ = 1.

2
Soluţia lui Cristian Ghiu Lucrăm ı̂n următoarele situaţii: (i) controlul
u : [0, 1] → [−1, 1] este funcţie continuă pe porţiuni (dacă şi numai dacă
funcţia u(t) are un număr finit de puncte de discontinuitate de speţa ı̂ntâi);
(ii) controlul u : [0, 1] → [−1, 1] este o funcţie continuă aproape peste tot (dacă
şi numai dacă este o funcţie integrabilă Riemann).
Ecuaţia diferenţială se transcrie ı̂n forma (x(t)e−2t )0 = 4tu(t). Punând
x(t) = y(t)e2t , avem

y 0 (t) = 4tu(t), y(0) = 0, y(1) = 1

sau Z t
y(t) = 4su(s)ds, y(1) = 1.
0
Problema iniţială se schimbă ı̂n
Z 1 Z 1 Z 1 Z 1
5
max I(u(·)) = (2 − 5t)u(t)dt = 2 u(t)dt−5 tu(t)dt = 2 u(t)dt−
−1≤u≤1 0 0 0 0 4
Z 1
cu restricţia izoperimetrică su(s)ds = 1. Cu schimbarea de variabilă t =
0
1
s + , rescriem funcţionala
2
Z 1 µ ¶
2 1 5
I(u(·)) = 2 u s+ ds −
− 12 2 4

şi restricţia
Z 1 µ ¶
2 1
(4s + 2)u s + ds = 1.
1
−2 2
TEORII LAGRANGE-HAMILTON 131

µ ¶
1 1 1
Notând v(s) = u s + , s ∈ [− , ], acestea se transformă ı̂n
2 2 2
Z 1 Z 1 Z 1
2 5 2 2
I(v(·)) = 2 v(s)ds − , 4 sv(s)ds + 2 v(s)ds = 1.
− 12 4 − 12 − 12

Pe de altă parte v(s) = f (s) + g(s), unde f (s) este partea impară, iar g(s) este
partea pară. Prin proprietăţile funcţiilor pare, respectiv impare, rămâne să
Z 1 Z 1
2 5 2
găsim minimul funcţionalei 4 g(s)ds − , cu restricţia 1 = 8 sf (s)ds +
0 4 0
Z 1 Z 1 Z 1
2 2 2
4 g(s)ds. Deoarece f (s) ≤ 1, rezultă 1 ≤ 8sds + 4 g(s)ds sau
Z 10 0
Z 10
2 2
g(s)ds ≥ 0. Egalitatea are loc numai pentru 1 = 8 sf (s)ds sau
Z0 1 0
2 1
s(1 − f (s))ds = 0, adică f (s) = 1, s ∈ [0, ]. Dar f (s) = 1 implică
0 2
1
1 ≥ v(s) = 1 + g(s), adică g(s) ≤ 0. Rămâne g(s) = 0, s ∈ [0, ]. Prin
2
1 1
paritate şi imparitate deducem g(s) = 0, s ∈ [− , ] şi
2 2

 1
 −1 pentru s ∈ [− , 0)
f (s) = 2

 1
1 pentru s ∈ (0, ],
2

cu s punct de continuitate pentru funcţia g sau pentru funcţia f . În concluzie



 1
 −1 pentru s ∈ [− , 0)
v(s) = 2

 1
1 pentru s ∈ (0, ],
2
cu s punct de continuitate pentru funcţia v. Dacă se cere o funcţie v continuă
pe porţiuni, atunci valoarea v(0) se atribuie arbitrar. Dacă se cere o funcţie
continuă aproape peste tot, atunci valoarea v(0) nu este necesară.
1
Revenind la u(t) = v(t − ), găsim
2


 1

 −1 pentru t ∈ [0, )

 2
1
u(t) = a pentru t = (i)

 2

 1

 1 pentru t ∈ ( , 1],
2
132 Control optimal

sau 
 1
 −1 pentru t ∈ [0, )
u(t) = 2 (ii)
 1 pentru t ∈ ( 1 , 1].

2
5
Pentru acest control u se obţine valoarea minimă − . Pe de altă parte, y(t) =
Z 4
t
4su(s)ds devine
0

 1
 −2t2 pentru t ∈ [0, )
y(t) = 2
 2t2 − 1 pentru t ∈ ( 1 , 1]

2
şi conduce la evoluţia optimă

 1
 −2t2 e2t pentru t ∈ [0, )
x(t) = 2
 (2t2 − 1)e2t pentru t ∈ ( 1 , 1].

2

2 Obţinerea ecuaţiilor Euler-Lagrange şi Hamilton


din principiul de maxim al lui Pontryaguin
Principiul de maxim al lui Pontryaguin este o generalizare a problemei La-
grange din calculul variaţional uni-temporal. Aceste probleme sunt echivalente
când domeniul de control este deschis. Ne propunem să arătăm că din prin-
cipiul de maxim uni-temporal rezultă ecuaţiile Euler-Lagrange şi Hamilton.
Pentru aceasta, presupunem că sistemul de evoluţie se reduce la un sistem
diferenţial controlat de tipul

ẋi (t) = ui (t), x(0) = x0 , t ∈ [0, t0 ] ⊂ R+ , (EDO)

şi că funcţionala este o integrală simplă


Z t0
I(u(·)) = X 0 (x(t), u(t))dt, (I)
0

unde costul curent ω = X 0 (x(t), u(t))dt este o 1-formă de clasă C 1 si u = (ui ).


Problema de control conduce necesar la principiul de maxim uni-temporal.
Pentru a o rezolva, avem nevoie de Hamiltonianul de control

H(x, p0 , p, u) = X 0 (x, u) + pi ui
TEORII LAGRANGE-HAMILTON 133

şi de EDO adjunctă


∂X 0
ṗi (t) = − (x(t), u(t)). (ADJ)
∂xi
Presupunem că principiul de maxim uni-temporal simplificat este aplicabil
(vezi relaţia (5))
∂ ∂X 0
H = + pi = 0.
∂ui ∂ui
Apoi obţinem
∂X 0
pi = − i , ui = ẋi . (13)
∂u
Presupunem că funcţia X 0 este dependentă de x (condiţie tare!). Atunci EDO
din (ADJ) arată că
Z t
∂X 0
pi (t) = pi (0) − (x(s), u(s))ds. (14)
0 ∂xi

2.1 EDO Euler-Lagrange uni-temporal


Din relaţiile (13) si (14), rezultă
Z t
∂X 0 ∂X 0
− (x(t), u(t)) = pi (0) − (x(s), u(s))ds.
∂xi 0 ∂xi

Presupunem că X 0 sunt funcţii de clasă C 2 . Aplicăm operatorul de derivare


d
totală şi găsim EDO Euler-Lagrange uni-temporal
dt
∂X 0 d ∂X 0
− = 0.
∂xi dt ∂ ẋi

2.2 Conversiune la EDO Hamilton uni-temporal


(variabile canonice)
Fie u(·) un control optimal, x(·) evoluţia optimală, şi fie p(·) soluţia EDO
(ADJ) care corespunde la u(·) şi x(·). Pe de altă parte, Hamiltonianianul de
∂H
control H = X 0 + pj uj trebuie să satisfacă = 0. Această ultimă relaţie,
∂ui
∂X 0
pi + = 0, defineşte co-starea p ca un moment. Presupunem că ecuaţia de
∂ui
punct critic admite soluţia unică ui (t) = ui (x(t), p(t)) = ẋi (t). Apoi, rescriem
Z t
i i
x (t) = x (0) + ui (x(s), p(s))ds.
0
134 Control optimal

În plus
∂H ∂X 0 ∂uj i ∂uj
= + u + p j = ui
∂pi ∂uj ∂pi ∂pi
sau
∂H
ẋi (t) = (x(t), p(t), u(t)).
∂pi
Acum, relaţia à !
∂H ∂X 0 ∂X 0 ∂uj ∂uj
− i =− + − pj
∂x ∂xi ∂uj ∂xi ∂xi
şi ecuaţia (ADJ) arată
∂H
ṗi (t) = − (x(t), p(t), u(t)).
∂xi
În acest mod găsim variabilele canonice x, p şi EDO Hamilton uni-temporal
∂H ∂H
ẋi (t) = (x(t), p(t)), ṗi (t) = − i (x(t), p(t)).
∂pi ∂x

3 Problema de control optimal cu funcţională inte-


grală multiplă şi restricţii EDP de tip m-flow
Din cauza complexităţii şi naturii infinit dimensionale, restricţiile EDP (ecuaţii
cu derivate parţiale) sunt acum ı̂n centrul atenţiei matematicienilor ce se pre-
ocupă de principii de optimizare. Lucrările noastre recente au arătat că putem
să formulăm un principiu de maxim multi-temporal printr-o schemă care să
mimeze ideile de la principiul de maxim uni-temporal. O versiune simplificată
a acestei idei este prezentată în cele ce urmează.
Să analizăm o problemă de control optimal multi-temporal bazată pe o
funcţională cost integrală multiplă şi restricţii EDP de tip m-flow:
Z
max I(u(·)) = X 0 (t, x(t), u(t))dv (7)
u(·),xt0 Ω0,t0

cu restricţiile
∂xi
(t) = Xαi (t, x(t), u(t)), i = 1, ..., n; α = 1, ..., m, (8)
∂tα
u(t) ∈ U(t), ∀t ∈ Ω0,t0 ; x(0) = x0 , x(t0 ) = xt0 . (9)
Ingrediente: t = (tα ) ∈ R+ m este un multi-parametru de evoluţie sau multi-

timp; dv = dt1 ...dtm este elementul de volum în R+


m; Ω
0,t0 este un paralelipiped
TEORII LAGRANGE-HAMILTON 135

fixat prin punctele diagonal opuse 0 = (0, ..., 0) şi t0 = (t10 , ..., tm
0 ) care este
echivalent cu intervalul ı̂nchis 0 ≤ t ≤ t0 via ordinea produs pe R+ m ; x(t) =
i 2 a
(x (t)) este vectorul de stare de clasă C ; u(t) = (u (t)), a = 1, ..., k este
vectorul de control de clasă C 1 ; costul curent X 0 (t, x(t), u(t)) este o funcţie
de clasă C 1 numită şi Lagrangian neautonom; Xαi (t, x(t), u(t)) sunt funcţii de
clasă C 1 care satisfac condiţiile de complet integrabilitate (problemă de tip
m-flow)
∂Xβi ∂Xαi ∂Xαi γ ∂Xβi γ ∂ua
− + [Xα , Xβ ] = ( a δβ − δ ) .
∂tα ∂tβ ∂u ∂ua α ∂tγ
Conform teoriei multiplicatorilor Lagrange există funcţia p = (pαi ) (multi-
plicator Lagrange), numită şi variabilă de co-stare, şi o nouă funcţie Lagrange

∂xi
L(t, x(t), u(t), p(t)) = X 0 (t, x(t), u(t)) + pαi (t)[Xαi (t, x(t), u(t)) − (t)]
∂tα
cu proprietatea că problema de optimizare constrânsă de EDP, (7)+(8)+(9),
se schimbă ı̂ntr-o problemă de optimizare liberă
Z
max L(t, x(t), u(t), p(t))dv
u(·),xt0 Ω0,t0

cu restricţiile
u(t) ∈ U(t), ∀t ∈ Ω0,t0
x(0) = x0 , x(t0 ) = xt0 .
Hamiltonianul de control

H(t, x(t), u(t), p(t)) = X 0 (t, x(t), u(t)) + pαi (t)Xαi (t, x(t), u(t)),

adică
∂xi
H = L + pαi (dualitate Legendriană modificată),
∂tα
permite să rescriem această nouă problemă ca
Z
∂xi
max [H(t, x(t), u(t), p(t)) − pαi (t) (t)]dv
u(·),xt0 Ω0,t0 ∂tα

cu restricţiile
u(t) ∈ U(t), ∀t ∈ Ω0,t0
x(0) = x0 , x(t0 ) = xt0 .
136 Control optimal

Sistemul variaţional şi sistemul adjunct


Pornim cu sistemul de ecuaţii cu derivate parţiale (8). Fixăm controlul
u(t) şi o soluţie x(t) a acestui sistem sistem de ecuaţii cu derivate parţiale.
Considerăm o variaţie diferenţiabilă x(t, ε), t = (tα ), ε = (εα ) ce satisface

∂xi
(t, ε) = Xαi (t, x(t, ε), u(t)), i = 1, ..., n; α = 1, ..., m, x(t, 0) = x(t).
∂tα
∂xi
Prin derivare parţială ı̂n raport cu εβ , punând ε = 0 şi notând | (t)
∂εβ ε=0
=
yβi (t), producem sistemul variaţional asociat

∂yβi ∂Xαi
(t) = (t, x(t), u(t))yβj (t).
∂tα ∂xj
Sistemul de ecuaţii cu derivate parţiale (de tip divergenţă)

∂pαj α ∂Xαi
(t) = −p i (t) (t, x(t), u(t)), ∀t ∈ Ω0,t0
∂tα ∂xj
se numeşte sistem adjunct al sistemului variaţional de ecuaţii cu derivate
parţiale deoarece tensorul de tipul (1, 1) (produs scalar partial) pαi (t)yβi (t)
este o lege de conservare pentru cele două sisteme. Intr-adevăr, divergenţa
totală este nulă, adică

α
(pαj yβj ) = 0.
∂t
Rezolvarea problemei de control optimal
Presupunem că există un control continuu û(t) definit pe paralelipipedul
Ω0,t0 cu û(t) ∈ Int U(t), care este un punct de optim ı̂n problema precedentă.
Acum considerăm variaţia u(t, ²) = û(t)+²h(t), unde h este o funcţie vectorială
continuă arbitrară. Deoarece û(t) ∈ Int U(t) şi o funcţie continuă pe o mulţime
compactă Ω0,t0 este marginită, există ²h > 0 astfel ı̂ncât u(t, ²) = û(t)+²h(t) ∈
Int U(t), ∀|²| < ²h . Acest ² este utilizat ı̂n argumentele noastre variaţionale.
Definim x(t, ²) ca m-foaia variabilei de stare corespunzătoare variabilei de
control u(t, ²), adică

∂xi
(t, ²) = Xαi (t, x(t, ²), u(t, ²)), ∀t ∈ Ω0,t0
∂tα
şi x(0, ²) = x0 . Pentru |²| < ²h , definim funcţia
Z
I(²) = X 0 (t, x(t, ²), u(t, ²))dv.
Ω0,t0
TEORII LAGRANGE-HAMILTON 137

Deoarece funcţia u(t, ²) este fezabilă, rezultă că funcţia x(t, ²) este fezabilă. Pe
de altă parte, controlul û(t) trebuie să fie optimal. Deci I(²) ≤ I(0), ∀|²| < ²h .
Pentru orice funcţie vectorială continuă

p = (pαi ) : Ω0,t0 → Rnm ,

avem Z
∂xi
pαi (t)[Xαi (t, x(t, ²), u(t, ²)) − (t, ²)]dv = 0.
Ω0,t0 ∂tα
În mod necesar, trebuie să utilizăm funcţia Lagrange care include variaţiile

L(t, x(t, ²), u(t, ²), p(t)) = X 0 (t, x(t, ²), u(t, ²))

∂xi
+pαi (t)[Xαi (t, x(t, ²), u(t, ²)) − (t, ²)]
∂tα
şi funcţia asociată (integrala cu un parametru)
Z
J(²) = L(t, x(t, ²), u(t, ²), p(t))dv.
Ω0,t0

Presupunem că variabila de co-stare p este de clasă C 1 . Introducem Hamil-


tonianul de control

H(t, x(t, ²), u(t, ²), p(t)) = X 0 (t, x(t, ²), u(t, ²))

+pαi (t)Xαi (t, x(t, ²), u(t, ²))


corespunzător variaţiei. Apoi rescriem
Z
∂xi
J(²) = [H(t, x(t, ²), u(t, ²), p(t)) − pαi (t) (t, ²)]dv.
Ω0,t0 ∂tα

Pentru evaluarea integralei multiple


Z
∂xi
pαi (t) (t, ²)dv,
Ω0,t0 ∂tα

integrăm prin părţi, via formula divergenţei


∂ α i ∂pαi i α ∂x
i
(p i x ) = x + p i ,
∂tα ∂tα ∂tα
obţinând
Z Z
∂xi ∂
pαi (t) (t, ²)dv = (pα (t)xi (t, ²))dv
Ω0,t0 ∂tα Ω0,t0 ∂tα i
138 Control optimal

Z
∂pαi
− (t)xi (t, ²)dv.
Ω0,t0 ∂tα
Acum aplicăm formula integrală a divergenţei
Z

(pα (t)xi (t, ²))dv
Ω0,t0 ∂tα i
Z
= δαβ pαi (t)xi (t, ²)nβ (t)dσ,
∂Ω0,t0

unde (nβ (t)) este vectorul normal unitar al frontierei ∂Ω0,t0 . Substituind,
găsim
Z
∂pαj
J(²) = [H(t, x(t, ²), u(t, ²), p(t)) + α (t)xj (t, ²)]dv
Ω0,t0 ∂t
Z
− δαβ pαi (t)xi (t, ²)nβ (t)dσ.
∂Ω0,t0

Derivând în raport cu ², rezultă


Z
0
∂pαj
J (²) = [Hxj (t, x(t, ²), u(t, ²), p(t)) + (t)]xj² (t, ²)dv
Ω0,t0 ∂tα
Z Z
a
+ Hua (t, x(t, ²), u(t, ²), p(t))h (t)dv − δαβ pαi (t)xi² (t, ²)nβ (t)dσ.
Ω0,t0 ∂Ω0,t0

Evaluând ı̂n ² = 0, se obţine


Z
0
∂pαj
J (0) = [Hxj (t, x(t), û(t), p(t)) + (t)]xj² (t, 0)dv
Ω0,t0 ∂tα
Z Z
a
+ Hua (t, x(t), û(t), p(t))h (t)dv − δαβ pαi (t)xi² (t, 0)nβ (t)dσ.
Ω0,t0 ∂Ω0,t0

unde x(t) este m-foaia variabilei de stare corespunzătoare controlului optimal


û(t).
Avem nevoie de J 0 (0) = 0 pentru toate funcţiile h(t) = (ha (t)). Pe de altă
parte, funcţiile xi² (t, 0) rezolvă problema Cauchy

∇t xi² (t, 0) = Xx (t, x(t, 0), u(t)) · x² (t, 0)

+Xu (t, x(t, 0), u(t)) · h(t), t ∈ Ω0,t0 , x² (0, 0) = 0


TEORII LAGRANGE-HAMILTON 139

şi deci aceste funcţii depind de h(t). Acest obstacol este doar aparent. Intr-
adevăr, el este depăşit declarând p(t) = (pαj (t)) ca soluţia problemei adjuncte
cu valori pe frontieră

∂pαj ∂H
(t) = − j (t, x(t), û(t), p(t)), ∀t ∈ Ω0,t0 , (10)
∂tα ∂x

δαβ pαj (t)nβ (t)|∂Ω = 0, (ortogonalitate sau tangenţă).


0,t0

Deci
Hua (t, x(t), û(t), p(t)) = 0, ∀t ∈ Ω0,t0 . (11)

În plus

∂xj ∂H
(t) = α (t, x(t), û(t), p(t)), ∀t ∈ Ω0,t0 , x(0) = x0 . (12)
∂tα ∂pj

Observaţii (i) Sistemul algebric (11) descrie punctele critice ale Hamilto-
nianului ı̂n raport cu variabila de control. (ii) Ecuaţiile cu derivate parţiale
(10) şi (12) şi condiţia (11) sunt EDP Euler-Lagrange asociate noului La-
grangian. (iii) Conditiile de complet integrabilitate ale sistemului de evoluţie
sunt EDP cu necunoscuta u(t). Evident, putem schimba teoria precedentă
incluzand şi aceste ecuaţii cu derivate parţiale ı̂n restricţii.
În final, din raţionamentele precedente obţinem principiul de maxim multi-
temporal care este similar cu principiul de maxim Pontryaguin uni-temporal.
Teoremă (principiul de maxim multi-temporal simplificat; condiţii
necesare) Presupunem că problema maximizării funcţionalei (7) supusă la
restricţii EDP (8) şi la condiţiile (9), cu X 0 , Xαi de clasă C 1 , are o soluţie
interioară û(t) ∈ U(t) care determină m-foaia variabilei de stare x(t). Atunci
există o co-stare p(t) = (pαi (t)) de clasă C 1 , definită pe Ω0,t0 astfel ı̂ncât
relaţiile (8), (10), (11), (12) să aibă loc.
Teoremă (condiţii suficiente) Fie problema maximizării funcţionalei
(7) supusă la restricţii EDP (8) şi la condiţiile (9), cu X 0 , Xαi de clasă C 1 .
Presupunem că o soluţie interioară û(t) ∈ U(t) şi m-foaia corespunzătoare
variabilei de stare x(t) satisfac relaţiile (10), (11), (12). Dacă, pentru vari-
abila de co-stare rezultată p(t) = (pαi (t)), Hamiltonianul de control H(t, x, u, p)
este concav în (x, u), pentru orice t ∈ Ω0,t0 , atunci û(t) şi x(t) determină un
punct unic de maxim global al lui (7).
Demonstraţie Să avem ı̂n minte că trebuie să maximizăm funcţionala (7)
supusă la sistemul de evoluţie (8) şi la condiţiile (3). Fixăm perechea (x̂, û),
140 Control optimal

unde û este candidatul control optimal şi x̂ este candidatul optimal al stărilor.
Notând Iˆ valoarea funcţionalei pentru (x̂, û), să arătam că
Z
Iˆ − I = (X̂ − X)dv ≥ 0,
Ω0,t0

unde inegalitatea strictă are loc sub ipoteza concavitătii stricte. Notând Ĥ =
H(x̂, p̂, û) şi H = H(x, p̂, u), găsim
Z Ã !
∂ x̂i ∂xi
Iˆ − I = (Ĥ − p̂αi α ) − (H − p̂αi α ) dv.
Ω0,t0 ∂t ∂t

Integrând prin părţi, obţinem


Z µ α ¶
∂ p̂α i ∂ p̂i
Iˆ − I = (Ĥ + x̂i αi ) − (H + x α ) dv
Ω0,t0 ∂t ∂t
Z
+ (δαβ p̂αi (t)xi (t)nβ (t) − δαβ p̂αi (t)x̂i (t)nβ (t))dσ.
∂Ω0,t0

Luând ı̂n considerare că orice m-foaie admisibilă are aceleaşi condiţii iniţiale
şi terminale ca şi o m-foaie optimă, deducem
Z µ ¶
∂ p̂α
Iˆ − I = (Ĥ − H) + αi (x̂i − xi ) dv.
Ω0,t0 ∂t

Definiţia concavităţii implică


Z µ ¶
∂ p̂αi i
(Ĥ − H) + (x̂ − xi ) dv
Ω0,t0 ∂tα
Z Ã !
∂ Ĥ ∂ p̂α ∂ Ĥ
≥ (x̂ − x )( i + αi ) + (ûa − ua ) a
i i
dv = 0.
Ω0,t0 ∂x ∂t ∂u
Această ultimă egalitate rezultă din faptul că toate variabilele marcate cu
”ˆ” satisfac condiţiile din principiul de maxim multi-temporal. În acest caz,
Iˆ − I ≥ 0.
Teoremă (condiţii suficiente) Fie problema maximizării funcţionalei
(7) supusă la restricţii EDP (8) şi la condiţiile (9), cu X 0 , Xαi de clasă C 1 .
Presupunem că o soluţie interioară û(t) ∈ U(t) şi variabila de stare core-
spunzătoare x(t) satisfac relaţiile (10), (11), (12). Dând variabila de co-stare
rezultată p(t) = (pαi (t)), definim funcţia M (t, x, p) = H(t, x, û(t), p). Dacă
M (t, x, p) este concavă ı̂n x, pentru toţi t ∈ Ω0,t0 , atunci û(t) şi asociatul x(t)
determină punctul unic de maxim global al lui (7).
TEORII LAGRANGE-HAMILTON 141

3.1 Aplicaţii
Exemple 1) Considerăm problema
Z
max I(u(·)) = − (x(t) + u1 (t)2 + u2 (t)2 )dt1 dt2
u(·),x1 Ω0,1

cu restricţiile
∂x
(t) = uα (t), α = 1, 2,
∂tα
x(0, 0) = 0, x(1, 1) = x1 = liber.
Această problemă ı̂nseamnă să găsim controlul optimal u = (u1 , u2 ) care duce
sistemul dinamic EDP din originea x(0, 0) = 0, la 2-timpul t1 = 0, t2 = 0, la
punctul terminal x(1, 1) = x1 , care este nespecificat, la 2-timpul t1 = 1, t2 = 1,
astfel ı̂ncât să maximizăm funcţionala obiectiv. De asemenea complet integra-
∂u1 ∂u2
bilitatea impune 2 = 1 . Hamiltonianul de control este
∂t ∂t
H(x(t), u(t), p(t)) = −(x(t) + u1 (t)2 + u2 (t)2 ) + p1 (t)u1 (t) + p2 (t)u2 (t).
Deoarece
∂H ∂2H ∂2H
= −2uα + pα , = −2 < 0, = 0,
∂uα ∂u2α ∂uα ∂uβ
∂pα ∂H
punctul critic pα = 2uα este un punct de maxim. Apoi, EDP α
=− se
∂t ∂x
∂p1 ∂p2
reduce la + = 1. De asemenea, deoarece punctul x(1, 1) = x1 este ne-
∂t1 ∂t2
specificat, condiţiile de transversalitate implică p1 (t)n1 (t) + p2 (t)n2 (t)|∂Ω0,1 =
0.
Continuăm prin rezolvarea problemei cu valori pe frontieră
∂p1 ∂p2 ∂p1 ∂p2
+ = 1, =
∂t1 ∂t2 ∂t2 ∂t1
p1 (t)n1 (t) + p2 (t)n2 (t)|∂Ω0,1 = 0.
În consecinţă componentele controlului optimal u(t) = (u1 (t), u2 (t)) sunt
funcţii armonice satisfăcând condiţiile la frontieră
u1 (0, t2 ) = u1 (1, t2 ) = 0, u2 (t1 , 0) = u2 (t1 , 1) = 0.
Sistemul dinamic dx = u1 (t)dt1 + u2 (t)dt2 dă evoluţia optimă
Z
x(t) − x(0) = u1 (s)ds1 + u2 (s)ds2 .
Γ0,t
142 Control optimal

2) Considerăm problema
1
max I(u(·)) = − x(1, 1)2
u(·),x1 2
Z
1
− (u1 (t)2 + u2 (t)2 )dt1 dt2
2 Ω0,1
cu restricţiile
∂x
(t) = −uα (t), α = 1, 2, x(0, 0) = 1.
∂tα
Această problemă ı̂nseamnă găsirea unui control optimal u = (u1 , u2 ) care
duce sistemul dinamic EDP din punctul x(0, 0) = 1, la 2-timpul t1 = 0, t2 = 0,
la punctul terminal x(1, 1) = x1 , ı̂n 2-timpul t1 = 1, t2 = 1, astfel ı̂ncât să max-
imizăm funcţionala obiectiv. De asemenea condiţia de complet integrabilitate
∂u1 ∂u2
impune 2 = 1 . Hamiltonianul de control este
∂t ∂t
1
H(x(t), u(t), p(t)) = − (u1 (t)2 + u2 (t)2 ) − pα (t)uα (t).
2
Deoarece
∂H ∂2H ∂2H
= −uα − pα , = −1 < 0, = 0,
∂uα ∂u2α ∂uα ∂uβ
∂pα ∂H
punctul critic pα = −uα este un punct de maxim. Apoi EDP α
=− =0
∂t ∂x
∂p1 ∂p2
se reduce la + 2 = 0. Condiţia de transversalitate implică
∂t1 ∂t
p1 (t)n1 (t) + p2 (t)n2 (t)|∂Ω0,1 = 0.
Continuăm prin rezolvarea problemei Dirichlet
∂p1 ∂p2 ∂p1 ∂p2
+ = 0, =
∂t1 ∂t2 ∂t2 ∂t1
p1 (t)n1 (t) + p2 (t)n2 (t)|∂Ω0,1 = 0.
Prin urmare componentele controlului optimal u(t) = (u1 (t), u2 (t)) sunt funcţii
armonice satisfacând condiţii la frontieră potrivite. Sistemul dinamic
dx = −u1 (t)dt1 − u2 (t)dt2
conduce la evoluţia optimă
Z
x(t) − x(0) = − u1 (s)ds1 + u2 (s)ds2 .
Γ0,t
TEORII LAGRANGE-HAMILTON 143

4 Problema de control optimal cu funcţională inte-


grală curbilinie şi restricţii EDP de tip m-flow
Funcţionalele cost de tip lucru mecanic sunt foarte importante pentru aplicaţii.
În acest context, să analizam o problemă de control optimal multi-timp for-
mulată utilizând drept functională de cost o integrală curbilinie independentă
de drum: Z
max J(u(·)) = Xα0 (t, x(t), u(t))dtα (13)
u(·),xt0 Γ0,t0

cu restricţiile
∂xi
(t) = Xαi (t, x(t), u(t)), i = 1, ..., n; α = 1, ..., m, (14)
∂tα
u(t) ∈ U(t), ∀t ∈ Ω0,t0 ; x(0) = x0 , x(t0 ) = xt0 . (15)
Ingrediente: t = (tα ) ∈ R+ m este multi-parameterul de evolutie sau multi-

timpul; Γ0,t0 este o curbă de clasă C 1 arbitrară ce uneşte punctele diagonal


opuse 0 = (0, ..., 0) si t0 = (t10 , ..., tm i
0 ) ı̂n paralelipipedul Ω0,t0 ; x(t) = (x (t))
este un vector de stare de clasă C 2 ; u(t) = (ua (t)), a = 1, ..., k este un
vector de control de clasă C 1 ; costul curent, 1-formă Lagrange neautonomă
Xα0 (t, x(t), u(t))dtα este o 1-formă complet integrabilă , adică, Dβ Xα0 = Dα Xβ0 ;
funcţiile Xαi (t, x(t), u(t)) sunt de clasă C 1 şi satisfac condiţiile de complet
integrabilitate (tipul m-flow)
∂Xβi ∂Xαi ∂Xαi γ ∂Xβi γ ∂ua
− + [Xα , Xβ ] = ( δ − δ ) .
∂tα ∂tβ ∂ua β ∂ua α ∂tγ
Aplicăm teoria multiplicatorilor Lagrange. Există variabila de co-stare sau
multiplicatorul Lagrange p = (pi ) şi o nouă 1-formă Lagrange
Lα (t, x(t), u(t), p(t)) = Xα0 (t, x(t), u(t))
∂xi
+pi (t)[Xαi (t, x(t), u(t)) −
(t)]
∂tα
astfel ı̂ncât problema de optimizare constrânsă de EDP, (13)+(14)+(15), să
fie ı̂nlocuită cu o altă problemă
Z
max Lα (t, x(t), u(t), p(t))dtα
u(·),xt0 Γ0,t0

cu restricţiile
u(t) ∈ U(t), ∀t ∈ Ω0,t0
x(0) = x0 , x(t0 ) = xt0 .
144 Control optimal

Dacă utilizăm 1-forma Hamiltonian de control

Hα (t, x(t), u(t), p(t)) = Xα0 (t, x(t), u(t)) + pi (t)Xαi (t, x(t), u(t)),

∂xi
Hα = L α + p i (dualitate Legendriană modificată),
∂tα
putem rescrie
Z
∂xi
max [Hα (t, x(t), u(t), p(t)) − pi (t) (t)]dtα
u(·),xt0 Γ0,t0 ∂tα
cu restricţiile
u(t) ∈ U(t), ∀t ∈ Ω0,t0
x(0) = x0 , x(t0 ) = xt0 .

Sistemul variaţional şi sistemul adjunct


Pornim cu sistemul de ecuaţii cu derivate parţiale (14). Fixăm controlul
u(t) şi o soluţie x(t) a acestui sistem de ecuaţii cu derivate parţiale. Con-
siderăm o variaţie diferenţiabilă x(t, ε), t = (tα ), ε = (εα ) ce satisface

∂xi
(t, ε) = Xαi (t, x(t, ε), u(t)), i = 1, ..., n; α = 1, ..., m, x(t, 0) = x(t).
∂tα
Prin derivare parţială ı̂n raport cu εβ , punând ε = 0 şi notând

∂xi
|ε=0 (t) = yβi (t),
∂εβ
producem sistemul variaţional asociat

∂yβi ∂Xαi
(t) = (t, x(t), u(t))yβj (t).
∂tα ∂xj
Sistemul de ecuaţii cu derivate parţiale

∂pj ∂X i
α
(t) = −pi (t) jα (t, x(t), u(t)), ∀t ∈ Ω0,t0
∂t ∂x
se numeşte sistem adjunct al sistemului variaţional de ecuaţii cu derivate
parţiale deoarece 1-forma (produs scalar partial) pi (t)yβi (t) este ı̂nchisă (lege
de conservare pentru cele două sisteme). Intr-adevăr,


(pj yβj ) = 0.
∂tα
TEORII LAGRANGE-HAMILTON 145

Rezolvarea problemei de control optimal


Presupunem că există un control continuu û(t) definit pe Ω0,t0 cu û(t) ∈
Int U(t) care este optim ı̂n problema precedentă. Acum considerăm variaţia
u(t, ²) = û(t) + ²h(t), unde h este o funcţie vectorială continuă arbitrară.
Deoarece û(t) ∈ Int U(t) şi o funcţie continuă pe un compact Ω0,t0 este marginită,
există ²h > 0 astfel ı̂ncât u(t, ²) = û(t) + ²h(t) ∈ Int U(t), ∀|²| < ²h . Acest ²
este folosit ı̂n argumentele variaţionale care urmează.
Considerăm o funcţie vectorială arbitrară h(t) şi definim x(t, ²) ca m-foaia
variabilei de stare corespunzătoare variabilei de control u(t, ²), adică

∂xi
(t, ²) = Xαi (t, x(t, ²), u(t, ²)), ∀t ∈ Ω0,t0 , x(0, ²) = x0 .
∂tα
Pentru |²| < ²h , definim funcţia (integrala cu un parametru)
Z
J(²) = Xα0 (t, x(t, ²), u(t, ²))dtα .
Γ0,t0

Deoarece funcţia control u(t, ²) este fezabilă, rezultă că funcţia de evoluţie
x(t, ²) este fezabilă. Pe de altă parte, controlul û(t) este presupus optimal. În
consecinţă J(²) ≤ J(0), ∀|²| < ²h .
Pentru orice funcţie continuă p = (pi ) : Ω0,t0 → Rn , avem
Z
∂xi
pi (t)[Xαi (t, x(t, ²), u(t, ²)) − (t, ²)]dtα = 0.
Γ0,t0 ∂tα

Variaţiile determină 1-forma Lagrange

Lα (t, x(t, ²), u(t, ²), p(t)) = Xα0 (t, x(t, ²), u(t, ²))

∂xi
+pi (t)[Xαi (t, x(t, ²), u(t, ²)) − (t, ²)]
∂tα
şi funcţia (integrala cu un parametru)
Z
J(²) = Lα (t, x(t, ²), u(t, ²), p(t))dtα .
Γ0,t0

Presupunem că variabila co-stare p este de clasă C 1 . Introducem 1-forma


Hamiltonian de control

Hα (t, x(t, ²), u(t, ²), p(t)) = Xα0 (t, x(t, ²), u(t, ²))

+pi (t)Xαi (t, x(t, ²), u(t, ²)).


146 Control optimal

Apoi rescriem Z
J(²) = [Hα (t, x(t, ²), u(t, ²), p(t))
Γ0,t0

∂xi
−pi (t) (t, ²)]dtα .
∂tα
Pentru a evalua integrala curbilinie
Z
∂xi
pi (t) (t, ²)dtα ,
Γ0,t0 ∂tα

integrăm prin părţi, via

∂ i ∂pi i ∂xi
(p i x ) = x + p i ,
∂tα ∂tα ∂tα
obţinând
Z
∂xi
pi (t) (t, ²)dtα = (pi (t)xi (t, ²))|t00
Γ0,t0 ∂tα
Z
∂pi
− (t)xi (t, ²)dtα .
Γ0,t0 ∂tα
Substituind, deducem
Z
J(²) = [Hα (t, x(t, ²), u(t, ²), p(t))
Γ0,t0

∂pj
+ (t)xj (t, ²)]dtα − pi (t0 )xi (t0 , ²) + pi (0)xi (0, ²).
∂tα
Rezultă Z
0
J (²) = [Hαxj (t, x(t, ²), u(t, ²), p(t))
Γ0,t0

∂pj
+ (t)]xj² (t, ²)dtα
∂tα
Z
+ Hαua (t, x(t, ²), u(t, ²), p(t))ha (t)dtα
Γ0,t0

−pi (t0 )xi² (t0 , ²) + pi (0)xi² (0, ²).


Evaluând ı̂n ² = 0, găsim
Z
J 0 (0) = [Hαxj (t, x(t), û(t), p(t))
Γ0,t0
TEORII LAGRANGE-HAMILTON 147

∂pj
+ (t)]xj² (t, 0)dtα
∂tα
Z
+ Hαua (t, x(t), û(t), p(t))ha (t)dtα − pi (t0 )xi² (t0 , 0),
Γ0,t0

unde x(t) este m-foaia variabilei de stare corespunzătoare controlului optimal


û(t). Se impune J 0 (0) = 0 pentru orice h(t) = (ha (t)). Obstacolul se elimină
definind pj (t) ca solutia problemei cu valori terminale

∂pj ∂Hα
α
(t) = − j (t, x(t), û(t), p(t)), ∀t ∈ Ω0,t0 ; pj (t0 ) = 0. (10)
∂t ∂x

În consecinţă
Hαua (t, x(t), û(t), p(t)) = 0, ∀t ∈ Ω0,t0 . (11)
În plus

∂xj ∂Hα
α
(t) = (t, x(t), û(t), p(t)), ∀t ∈ Ω0,t0 ; x(0) = x0 . (12)
∂t ∂pj

Observaţii (i) Sistemul algebric (17) descrie punctele critice comune func-
tiilor Hα ı̂n raport cu variabila de control. (ii) EDP (16) şi (18) şi relaţiile (17)
sunt EDP Euler-Lagrange asociate la noua 1-formă Lagrangian. (iii) Condiţiile
de complet integrabilitate ale integralei curbilinii (independenţa de drum), ca
şi condiţiile de complet integrabilitate ale sistemului de evoluţie, sunt EDP
de ordinul ı̂ntâi ı̂n necunoscutele x(t) si u(t). Putem reface teoria precedenta
adugându-le ı̂n Lagrangianul ajutător.
În cele din urmă, obţinem o nouă variantă a principiului de maxim multi-
temporal.
Teoremă (principiul de maxim multi-temporal simplificat; condiţii
necesare) Presupunem că problema maximizării funcţionalei (13) supusă la
restricţii EDP (8) şi la condiţiile (15), cu Xα0 , Xαi de clasă C 1 , are o soluţie
interioară û(t) ∈ U(t) care determină m-foaia variabilei de stare x(t). Atunci
există o co-stare de clasă C 1 p(t) = (pi (t)) definită pe Ω0,t0 astfel ı̂ncât relaţiile
(14), (16), (17), (18) sa fie adevărate.
Teoremă (condiţii suficiente) Fie problema maximizării funcţionalei
(13) supusă la restricţii EDP (14) şi la condiţiile (15), cu Xα0 , Xαi de clasă C 1 .
Presupunem că o soluţie interioară û(t) ∈ U(t) şi m-foaia corespunzătoare a
variabilei de stare x(t) satisfac relaţiile (16), (17) (18). Dacă, pentru variabila
de co-stare p(t) = (pi (t)), 1-forma Hamiltonian de control Hα (t, x, u, p) este
concavă ı̂n (x, u), pentru toţi t ∈ Ω0,t0 , atunci û(t) şi asociatul x(t) determină
un punct unic de maxim global al lui (13).
148 Control optimal

Teoremă (condiţii suficiente) Fie problema maximizării funcţionalei


(13) supusă la restricţii EDP (14) şi la condiţiile (15), cu Xα0 , Xαi de clasă C 1 .
Presupunem că o soluţie interioară û(t) ∈ U(t) şi m-foaia corespunzătoare a
variabilei de stare x(t) satisfac relaţiile (16), (17), (18). Dând variabila de co-
stări rezultată p(t) = (pi (t)), definim 1-forma Mα (t, x, p) = Hα (t, x, û(t), p).
Dacă 1-forma Mα (t, x, p) este concavă în x, pentru toţi t ∈ Ω0,t0 , atunci û(t)
şi corespunzătorul x(t) determină punctul unic de maxim global al lui (13).
Problemă deschisă În locul condiţiei tari Mα = max Hα putem introduce
o problemă de optim Pareto utilizând punctele eficiente. Pentru rezolvarea unei
probleme cu mai multe funcţii obiectiv, avem nevoie de metoda obiectivelor
ponderate, de metoda optimizării ierarhizate, etc din programarea matem-
atică.
Exemplu Fie t = (t1 , t2 ) ∈ Ω0,1 , unde 0 = (0, 0), 1 = (1, 1) sunt puncte
diagonal opuse ı̂n dreptunghiul Ω0,1 . Notăm cu Γ0,1 o curbă arbitrară de clasă
C 1 care uneşte punctele 0 şi 1. Considerăm problema
Z
max J(u(·)) = − (x(t) + uβ (t)2 )dtβ
u(·),x1 Γ0,1

cu restricţiile
∂x
(t) = uα (t), α = 1, 2,
∂tα
x(0, 0) = 0, x(1, 1) = x1 = liber.

Această problemă înseamnă să găsim un control optimal u = (u1 , u2 ) ce duce


sistemul dinamic (EDP) din origine x(0, 0) = 0, la 2-timpul t1 = 0, t2 = 0, ı̂ntr-
un punct terminal x(1, 1) = x1 , care este nespecificat, la 2-timpul t1 = 1, t2 =
1, astfel ı̂ncât sa maximizăm funcţionala obiectiv. De asemenea, condiţiile de
complet integrabilitate impun
∂x ∂u2 ∂x ∂u1 ∂u1 ∂u2
1
+ 2u2 1 = 2 + 2u1 2 , 2
= 1.
∂t ∂t ∂t ∂t ∂t ∂t
Construim 1-forma Hamiltonian de control
Hβ (x(t), u(t), p(t)) = −(x(t) + uβ (t)2 ) + p(t)uβ (t).
Deoarece
∂Hβ ∂ 2 Hβ
= −2uβ + p, = −2 < 0,
∂uβ ∂u2β
p ∂p ∂Hα
punctul critic u1 = u2 = este un punct de maxim. Apoi EDP α = −
2 ∂t ∂x
∂p
se reduce la = 1. De asemenea, deoarece punctul x(1, 1) = x1 este
∂tα
TEORII LAGRANGE-HAMILTON 149

nespecificat, condiţia de transversalitate implică p(1) = 0. Rezultă costarea


1
p(t) = t1 + t2 − 2, controlul optimal û1 (t) = û2 (t) = (t1 + t2 − 2) şi evoluţia
2
optima corespunzătoare

(t1 )2 + (t2 )2 t1 t2
x(t) = + − (t1 + t2 ).
4 2

5 Obţinerea EDP Euler-Lagrange şi Hamilton din


principiul de maxim multi-temporal
Principiul de maxim multi-temporal este o generalizare a problemei Lagrange
din calculul variaţional multi-temporal. Aceste probleme sunt echivalente când
domeniul de control este deschis.
Ne propunem să arătăm că din principiul de maxim multi-temporal rezultă
EDP Euler-Lagrange şi Hamilton multi-temporal. Pentru aceasta, presupunem
că sistemul de evoluţie controlat se reduce la un sistem de EDP complet inte-
grabil
∂xi
(t) = uiα (t), x(0) = x0 , t ∈ Ω0,t0 ⊂ R+
m
, (EDP )
∂tα
şi că funcţionala este o integrală curbilinie independentă de drum
Z
J(u(·)) = Xβ0 (x(t), u(t))dtβ , (J)
Γ0,t0

unde Γ0,t0 este o curbă arbitrară de clasă C 1 pe porţiuni, unind punctele 0 si


t0 , costul curent ω = Xβ0 (x(t), u(t))dtβ este o 1-formă complet integrabilă şi
u = (uiγ ).
Problema de control optimal conduce necesar la principiul de maxim multi-
temporal. Pentru a o rezolva, avem nevoie de 1-forma Hamiltoniană de control

Hβ (x, p0 , p, u) = Xβ0 (x, u) + pi uiβ

şi de EDP adjuncte


∂pi ∂Xβ0
(t) = − (x(t), u(t)). (ADJ)
∂tβ ∂xi
Presupunem că principiul de maxim multi-temporal simplificat este aplicabil
(vezi relatia (16))
∂ ∂Xβ0
H β = + pi δβγ = 0.
∂uiγ ∂uiγ
150 Control optimal

Apoi obţinem
∂Xβ0
pi δβγ = − , uiγ = xiγ . (19)
∂uiγ
Presupunem că funcţiile Xβ0 sunt dependente de x (condiţie tare!). Atunci
EDP din (ADJ) arată că
Z ∂Xβ0
pi (t) = pi (0) − (x(s), u(s))dsβ , (20)
Γ0,t ∂xi

unde Γ0,t este o curbă de clasă C 1 pe portiuni, ce uneşte punctele 0 şi t din
domeniul Ω0,t0 .

5.1 EDP Euler-Lagrange multi-temporală


Din relaţiile (19) şi (20), rezultă

∂Xβ0 Z
γ γ ∂Xλ0
− (x(t), u(t)) = δ p
β i (0) − δ β (x(s), u(s))dsλ .
∂xiγ Γ0,t ∂x
i

Presupunem că Xβ0 sunt funcţii de clasă C 2 . Aplicăm operatorul ”derivată


totală = divergenţă” Dγ şi găsim EDP Euler-Lagrange multi-temporală

∂Xβ0 ∂Xβ0
− Dγ i = 0.
∂xi ∂xγ

5.2 Conversiune la EDP Hamilton multi-temporale (variabile


canonice)
Fie u(·) un control optimal, x(·) evoluţia optimală, şi fie p(·) soluţia EDP
(ADJ) care corespunde la u(·) şi x(·). Pe de altă parte, 1-forma Hamiltonian
∂Hβ
de control Hβ = Xβ0 + pj ujβ trebuie să satisfacă = 0. Această ultimă
∂uiγ
γ ∂Xβ0
relaţie, pi δβ + = 0, defineşte co-starea p ca moment. Presupunem că
∂uiγ
∂xi
ecuaţia de punct critic admite soluţia unică uiγ (t) = uiγ (x(t), p(t)) = γ (t).
∂t
Apoi, utilizând o integrală curbilinie independentă de drum, rescriem
Z
xi (t) = xi (0) + uiγ (x(s), p(s))dsγ .
Γ0,t
TEORII LAGRANGE-HAMILTON 151

În plus
j
∂Hβ ∂Xβ0 ∂ujγ ∂uβ
= j + uiβ + pj = uiβ
∂pi ∂uγ ∂p i ∂pi
sau
∂xi ∂Hβ
(t) = (x(t), p(t), u(t)).
∂tβ ∂pi
Acum, relaţia
à !
∂Hβ ∂Xβ0 ∂Xβ0 ∂ujγ ∂ujβ
− =− + − pj
∂xi ∂xi ∂ujγ ∂xi ∂xi

şi (ADJ) arată


∂pi ∂Hβ
β
(t) = − (x(t), p(t), u(t)).
∂t ∂xi
În acest mod găsim variabilele canonice x, p şi EDP Hamilton multi-temporale
∂xi ∂Hβ ∂pi ∂Hβ
β
(t) = (x(t), p(t)), β
(t) = − (x(t), p(t)).
∂t ∂pi ∂t ∂xi

Bibliografie
1. A. E. Bryson and Y. C. Ho, Applied Optimal Control, New York: Hemi-
sphere, 1975.
2. J. T. Betts, Practical Methods for Optimal Control Using Non- linear
Programming, SIAM, 2001.
3. L. C. Evans, An Introduction to Mathematical Optimal Control Theory,
Lecture Notes, University of California, Department of Mathematics, Berkeley,
2005.
4. I. M. Gelfand and S. V. Fomin, Calculus of Variations, New York:
Dover Publications, 1991.
5. F. L. Lewis and V. L. Syrmos, Optimal Control, John Wiley & Sons,
Inc, 1997.
6. J. Liang, Robust and Optimal Control, Lecture Notes for ECE/MAE
7360, 2003.
7. V. Prepeliţa, T. Vasilache, M. Doroftei, Control Theory, University
Politehnica of Bucharest, 1997.
8. Pierre N. V. Tu, Introductory Optimization Dynamics, Springer-Verlag,
Berlin, 1991.
9. C. Udrişte, Multi-Time Maximum Principle, short communication at
International Congress of Mathematicians, Madrid, August 22-30, 2006.
152 Control optimal

10. C. Udrişte, Multi-Time Controllability, Observability and Bang-Bang


Principle, 6th Congress of Romanian Mathematicians, June 28 - July 4, 2007,
Bucharest, Romania; J. Optim. Theory Appl., 138 (2008), DOI: 101007/s10957-
008-9430-2.
11. C. Udrişte, Multi-time Stochastic Control Theory, Selected Topics
on Circuits, Systems, Electronics, Control&Signal Processing, Proceedings of
the 6-th WSEAS International Conference on Circuits, Systems, Electronics,
Control&Signal Processing (CSECS’07), pp. 171-176; Cairo, Egypt, December
29-31, 2007.
12. C. Udrişte, Simplified Multi-Time Maximum Principle, manuscript,
2008.
13. C. Udrişte, Nonholonomic Approach of Multi-Time Maximum Princi-
ple, manuscript, 2008.

S-ar putea să vă placă și

  • Curs 09
    Curs 09
    Document11 pagini
    Curs 09
    Denis Andrei
    Încă nu există evaluări
  • C4 ConspectBD
    C4 ConspectBD
    Document2 pagini
    C4 ConspectBD
    Denis Andrei
    Încă nu există evaluări
  • Cursul 9
    Cursul 9
    Document9 pagini
    Cursul 9
    Denis Andrei
    Încă nu există evaluări
  • Curs 04
    Curs 04
    Document34 pagini
    Curs 04
    Denis Andrei
    Încă nu există evaluări
  • RC Curs5
    RC Curs5
    Document22 pagini
    RC Curs5
    Denis Andrei
    Încă nu există evaluări
  • Curs 03
    Curs 03
    Document22 pagini
    Curs 03
    Denis Andrei
    Încă nu există evaluări
  • RC Curs9
    RC Curs9
    Document21 pagini
    RC Curs9
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laborator7 2020
    Laborator7 2020
    Document7 pagini
    Laborator7 2020
    Denis Andrei
    Încă nu există evaluări
  • RC Curs2
    RC Curs2
    Document31 pagini
    RC Curs2
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laboratorul 8
    Laboratorul 8
    Document12 pagini
    Laboratorul 8
    Denis Andrei
    Încă nu există evaluări
  • Laborator - Curs7
    Laborator - Curs7
    Document13 pagini
    Laborator - Curs7
    Denis Andrei
    Încă nu există evaluări
  • Laboratorul10 11 Ansamblu
    Laboratorul10 11 Ansamblu
    Document17 pagini
    Laboratorul10 11 Ansamblu
    rottweiler99
    Încă nu există evaluări
  • Laboratorul 8
    Laboratorul 8
    Document12 pagini
    Laboratorul 8
    Denis Andrei
    Încă nu există evaluări
  • Laboratorul10 11 Ansamblu
    Laboratorul10 11 Ansamblu
    Document17 pagini
    Laboratorul10 11 Ansamblu
    rottweiler99
    Încă nu există evaluări
  • Laboratorul 8
    Laboratorul 8
    Document12 pagini
    Laboratorul 8
    Denis Andrei
    Încă nu există evaluări
  • Laborator7 2020
    Laborator7 2020
    Document7 pagini
    Laborator7 2020
    Denis Andrei
    Încă nu există evaluări
  • Laboratorul 8
    Laboratorul 8
    Document12 pagini
    Laboratorul 8
    Denis Andrei
    Încă nu există evaluări
  • Laborator7 2020
    Laborator7 2020
    Document7 pagini
    Laborator7 2020
    Denis Andrei
    Încă nu există evaluări
  • Laborator7 2020
    Laborator7 2020
    Document7 pagini
    Laborator7 2020
    Denis Andrei
    Încă nu există evaluări