Sunteți pe pagina 1din 130

Optimisation Continue

Cours sadressant aux el`eves des EOAA


Edition 2010

Jean-Philippe Pr
eaux

au
x
Pr

Table des mati`


eres

Je

Programmation lin
eaire
I.1 Preliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.1.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.1.2 Representation matricielle . . . . . . . . . . . . . . . . . . . .
I.1.3 Forme canonique . . . . . . . . . . . . . . . . . . . . . . . . .
I.1.4 Exemple de probl`eme `a deux variables - Resolution graphique
I.1.5 Generalisation . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2 Methode du simplexe . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2.1 Probl`eme de programmation lineaire sous forme normale . . .
I.2.2 Algorithme du simplexe I : preparation . . . . . . . . . . . .
I.3 Resolution dans le cas general . . . . . . . . . . . . . . . . . . . . . .
I.3.1 Ecrire un probl`eme de maximisation sous forme normale . . .
I.3.2 Dualite minimum/maximum . . . . . . . . . . . . . . . . . .
I.4 Programmation lineaire en nombres entiers . . . . . . . . . . . . . .
Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Co

py
r

igh
t:

an

-P
hil
ip

pe

Introduction
1
Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Probl`eme doptimisation ; maximum et minimum . . . . . . . . .
1.2
Probl`eme doptimisation continue . . . . . . . . . . . . . . . . . .
1.3
Extremum local . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Exemples de probl`emes doptimisation `a une variable . . . . . . . . . . .
2.1
Minimisation des co
uts dans la fabrication de botes cylindriques
2.2
Position dequilibre dun syst`eme de deux ressorts. . . . . . . . .
3
Probl`emes doptimisation sur plusieurs variables . . . . . . . . . . . . .
3.1
Production optimale dune fonderie . . . . . . . . . . . . . . . . .
3.2
Probl`eme de transport . . . . . . . . . . . . . . . . . . . . . . . .
3.3
Regression lineaire . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4
Modelisation de donnees experimentales . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

7
9
9
10
11
13
13
14
15
15
16
17
17

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

19
19
19
20
20
21
21
24
24
24
28
28
28
30
32

II G
en
eralit
es sur loptimisation
33
II.1 Conditions suffisantes dexistence dextrema globaux . . . . . . . . . . . . . 34
II.1.1 Compacite du domaine . . . . . . . . . . . . . . . . . . . . . . . . . 34
3

`
TABLE DES MATIERES

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

34
36
36
37
39
39
42
43
44
46
46
47
49

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

51
51
51
52
54
56
57
59
62
62
64
65
66
67
71
75

IV Algorithmes it
eratifs
IV.1 Methodes iteratives dans le cas sans contraintes . . . . . . . . . . .
IV.1.1 Methode de Newton . . . . . . . . . . . . . . . . . . . . . .
IV.1.2 Methode de relaxation . . . . . . . . . . . . . . . . . . . . .
IV.1.3 Methode de gradient `a pas optimal . . . . . . . . . . . . . .
IV.1.4 Methode du gradient `a pas fixe . . . . . . . . . . . . . . . .
IV.1.5 Methode du gradient conjugue . . . . . . . . . . . . . . . .
IV.2 Methodes iteratives dans le cas sous contraintes . . . . . . . . . . .
IV.2.1 Methode de relaxation sur un domaine produit dintervalles
IV.2.2 Methode du gradient projete . . . . . . . . . . . . . . . . .
IV.2.3 Methode dUzawa . . . . . . . . . . . . . . . . . . . . . . .
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

77
79
79
81
83
85
86
89
91
92
93
95

py
r

igh
t:

Je

an

-P
hil
ip

III Programmation sous contraintes


III.1 Optimisation sous contraintes egalitaires . . . . . . . . . . . . .
III.1.1 Enonce du probl`eme . . . . . . . . . . . . . . . . . . . .
III.1.2 Exemples en dimension 2. . . . . . . . . . . . . . . . . .
III.1.3 Principe de Lagrange . . . . . . . . . . . . . . . . . . .
III.1.4 Prise en compte de la convexite . . . . . . . . . . . . . .
III.1.5 Conditions, necessaire, suffisante, du second ordre . . .
III.1.6 Programmation quadratique sous contraintes egalitaires
III.2 Optimisation sous contraintes : le cas general . . . . . . . . . .
III.2.1 Conditions de Karush-Kuhn-Tucker . . . . . . . . . . .
III.2.2 Prise en compte de la convexite . . . . . . . . . . . . . .
III.2.3 Qualification de contraintes affines et convexes . . . . .
III.2.4 Programmation quadratique sous contraintes . . . . . .
III.2.5 Conditions necessaire, suffisante, du second ordre . . . .
III.2.6 Points-selles du Lagrangien : introduction `a la dualite .
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Co

au
x

.
.
.
.
.
.
.
.
.
.
.
.
.

Pr

.
.
.
.
.
.
.
.
.
.
.
.
.

pe

II.1.2 Applications coercives . . . . . . . . . . . .


II.2 Recherche dextrema locaux. . . . . . . . . . . . .
II.2.1 Condition necessaire du 1er ordre . . . . . .
II.2.2 Conditions du second ordre . . . . . . . . .
II.3 Programmation convexe . . . . . . . . . . . . . . .
II.3.1 Applications convexes, strictement convexes
II.3.2 Programmation convexe . . . . . . . . . . .
II.3.3 Applications elliptiques . . . . . . . . . . .
II.3.4 Programmation elliptique . . . . . . . . . .
II.4 Programmation quadratique sans contraintes . . .
II.4.1 Applications quadratiques . . . . . . . . . .
II.4.2 Programmation quadratique . . . . . . . . .
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . .

`
TABLE DES MATIERES

.
.
.
.
.
.
.
.
.
.
.
.

97
98
98
99
101
103
104
105
106
107
108
108
110

A Rappels de pr
e-requis Math
ematiques
A.1 Rappels danalyse . . . . . . . . . . . . . . . . .
A.1.1 Lespace euclidien Rn . . . . . . . . . .
A.1.2 Normes de Rn . . . . . . . . . . . . . . .
A.1.3 Topologie de Rn . . . . . . . . . . . . .
A.2 Rappels de calcul differentiel . . . . . . . . . .
A.2.1 Applications differentiables . . . . . . .
A.2.2 Vecteur gradient . . . . . . . . . . . . .
A.2.3 Matrice hessienne . . . . . . . . . . . . .
A.2.4 Developpements de Taylor . . . . . . . .
A.2.5 Espace tangent . . . . . . . . . . . . . .
A.3 Rappels sur les matrices . . . . . . . . . . . . .
A.3.1 Notations . . . . . . . . . . . . . . . . .
A.3.2 Norme matricielle . . . . . . . . . . . .
A.3.3 Matrice (semi-)definie positive/negative

.
.
.
.
.
.
.
.
.
.
.
.
.
.

111
111
111
111
112
113
113
113
113
114
114
116
116
116
117

igh
t:

Je

an

-P
hil
ip

pe

Pr

au
x

V Applications aux Maths num


eriques
V.1 Resolution approchee dun syst`eme dequations . . . . . . . . . . . . . . .
V.1.1 Syst`eme dequations lineaires de Cramer . . . . . . . . . . . . . . .
V.1.2 Syst`eme dequations lineaires `a matrice symetrique definie positive
V.1.3 Inversion dune matrice symetrique definie positive . . . . . . . . .
V.1.4 Resolution approchee dun syst`eme dequations non lineaires . . .
V.2 Approximation dun nuage de points . . . . . . . . . . . . . . . . . . . . .
V.2.1 Approximation lineaire au sens des moindres carres . . . . . . . . .
V.2.2 Exemple important : la droite de regression lineaire . . . . . . . .
V.2.3 Exemple important : le polynome dinterpolation de Lagrange . . .
V.2.4 Approximation minimax . . . . . . . . . . . . . . . . . . . . . . . .
V.2.5 Approximation minimax lineaire . . . . . . . . . . . . . . . . . . .
Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Co

py
r

Correction des exercices

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

119

py
r

Co
igh
t:
pe

-P
hil
ip

an

Je

au
x

Pr

6
`
TABLE DES MATIERES

au
x

Pr

Introduction

Je

an

-P
hil
ip

pe

Loptimisation est une discipline mathematique qui, bien quomnipresente depuis les
origines, a pleinement pris son essor au cours du XXe si`ecle dune part sous la stimulation
du developpement des sciences de lindustrie et de la planification, telles leconomie, la gestion, etc..., et des sciences appliquees aux technologies naissantes, comme lautomatique,
le traitement du signal, etc..., et dautre part grace au developpement de linformatique
qui a rendu efficiente ses methodes algorithmiques jusque l`a impraticables.
Optimiser cest choisir parmi plusieurs possibilites celle qui repond le mieux `a certains crit`eres. En ce sens il nest pas de science ni meme de domaine dactivite qui ne soit
confronte `a un probl`eme doptimisation. Loptimisation, et plus generalement la Recherche
operationnelle, intervient d`es-lors pour appliquer loutil mathematique `a cette resolution,
si tant est que le probl`eme soit formalisable mathematiquement. De nos jours son champ
dapplication est on ne peut plus vaste : optimisation des ressources, des gains, des co
uts
dans lindustrie, optimisation du trafic aerien, ferroviaire, routier, dans le transport, optimisation de la couverture radar, de la reactivite dintervention, de la gestion des stocks
et des troupes dans le domaine militaire, etc..., sans parler des sciences dures, physique,
chimie, informatique, automatique, traitement du signal, etc..., pour lesquels nombre de
probl`emes se ram`enent et se resolvent par optimisation. Cest une discipline fondamentale
dans les sciences de lingenieur, de leconomie et de la gestion, pour ne citer quelles.

Co

py
r

igh
t:

Les premiers probl`emes doptimisation auraient ete formules par le mathematicien Euclide, au IIIe si`ecle av. J.C. dans Les Elements. Trois si`ecles plus tard Heron dAlexandrie
enonce le principe du plus court chemin en optique. Au XVIIe si`ecle lapparition du calcul differentiel sous legide de Newton et de Leibnitz, et la theorie newtonienne de la
mecanique entranent linvention des premi`eres techniques dotimisation, dont la methode
iterative de Newton pour chercher les extrema locaux dune fonction. Durant le XVIIIe
si`ecle Euler et Lagrange developpent le calcul variationnel, branche de lanalyse fonctionnelle dont le but est de trouver une application repondant au mieux `a certains crit`eres.
Ce dernier invente une technique fondamentale en optimisation connue aujourdhui sous
le nom de multiplicateurs de Lagrange. Au XIXe si`ecle lindustrialisation en europe voit
les economistes presenter un interet croissant pour les mathematiques et mettre en place
des mod`eles economiques quil convient alors doptimiser.
Au XXe si`ecle ce furent des aspects contrastes qui converg`erent vers le developpement
de loptimisation, ou encore de la programmation mathematique et de la recherche operationnelle. En Union Sovietique la planification fut une consequence de la pensee commu-

INTRODUCTION

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Pr

au
x

niste et se concretisa par des plan quinquenaux ou encore gosplans, tandis quaux EtatsUnis le developpement du capitalisme accoucha de la recherche operationnelle. Mais cest
avec lapparition de linformatique dans lapr`es-guerre que les techniques doptimisation
prirent toute leur ampleur et sappliqu`erent dans tous les champs dactivite.
Lun des premiers succ`es f
ut la methode du simplexe sappliquant en programmation
lineaire, qui fut inventee en 1947 par le mathematicien americain Georges Dantzig. De par
son efficacite pratique elle est devenue lun des algorithmes les plus utilises de lhistoire
des mathematiques appliquees. Dantzig travaillait alors comme conseiller pour lUS air
force sur la mecanisation des processus de planification, dans le but de les resoudre `a
laide de machines `a cartes perforees. Notons dailleurs que le terme de programmation
(mathematiques), synonyme doptimisation, na rien `a voir avec le sens quon lui donne
en informatique, mais provient en fait du jargon militaire o`
u il signifie planification.
Cest quelques annees auparavant, peu avant la seconde guerre mondiale, que la programmation lineaire avait ete developpee par Leonid Kantorovish, professeur de mathematiques `a luniversite de Leningrad, qui avait ete charge par le gouvernement sovietique en
1938 doptimiser la production indutrielle de contreplaque. Il y trouva des possibilites doptimisation de la production economique sovietique. Il effectua par ailleurs de nombreux
travaux en optimisation continue, dont des conditions de convergence pour la methode de
Newton. Ses theories ne furent publiees quapr`es l`ere stalinienne ; il faillit etre emprisonne
deux fois et ne fut sauve que pour son implication dans le programme nucleaire sovietique ;
en effet ses travaux lavaient conduit indirectement `a reintroduire la theorie de lutilite
marginale qui soppose `a la theorie economique marxiste ; ils ont trouve leurs applications
quelques annees plus tard dans la liberalisation de leconomie sovietique. Conjointement
avec T.Koopmans il obtint le prix nobel deconomie en 1975 for their contributions to
the theory of optimum allocation of ressources 1 .
De nos jours loptimisation et plus generalement la recherche operationnelle, reste
un domaine fecond de la recherche en mathematiques qui beneficie dimportants financements provenant aussi bien du domaine public que du domaine prive, et dont les retombees
sappliquent dans tous les domaines dactivite humaine se pretant `a la modelisation
mathematique.

1. Traduction : pour leurs contributions a


` la theorie de lallocation optimale des ressources.

1. FORMULATION

Formulation

1.1

Probl`
eme doptimisation ; maximum et minimum

Soit n un entier strictement positif et soient :

Pr

D Rn un sous-ensemble non vide de Rn , et

au
x

f : D R une application sur D `a valeurs reelles .

min f (x)

ou

max f (x) .
xD

-P
hil
ip

xD

pe

Un probl`eme doptimisation consiste `a determiner, lorsquil existe, un extremum, minimum ou maximum, de f sur D. On note un tel probl`eme :

Plus precisement :

un minimum (ou minimum global) u de f sur D est un point u D, tel que x D,


f (u) 6 f (x),
un maximum (ou maximum global) u de f sur D est un point u D, tel que x D,
f (u) > f (x).

an

Lorsque linegalite est stricte x D \ {u} on parlera de minimum ou de maximum strict.

Je

La valeur f (u) prise par f en un minimum (resp. maximum) est sa valeur minimale
(resp. maximale) et sera usuellement notee fmin (resp. fmax ).

igh
t:

Lensemble D est appele le domaine admissible, et la fonction f `a minimiser la fonction


co
ut, ou `a maximiser la fonction objectif (ou fonction economique, etc...).

py
r

Un minimum (resp. maximum) de f est un maximum (resp. minimum) de f et


reciproquement, tandis la valeur minimale (resp. maximale) de f est loppose de la valeur
maximale (resp. minimale) de f . Pour cette raison on peut changer tout probl`eme de
minimisation en un probl`eme de maximisation equivalent, et reciproquement.
Loptimisation se scinde essentiellement en deux disciplines dont les outils et methodes
sont tr`es disparates :

Co

Si D est discret (D Zn , fini ou


denombrable), on parle doptimisation
combinatoire. Les outils proviennent essentiellement des mathematiques discr`etes
(theorie des graphes).

Si D est continu, et f est continue, on parle


doptimisation continue. Les outils proviennent essentiellement de lanalyse (calcul differentiel, convexite) et de lalg`ebre
lineaire.

10

INTRODUCTION

au
x

Loptimisation continue est des deux domaines probablement le plus facile car les
outils danalyse (comme les derivees) sont des concepts puissants qui y sont fort utiles,
tant du point de vue theorique que du point de vue algorithmique.

1.2

Probl`
eme doptimisation continue

Pr

Ce cours ne traitera que de loptimisation continue.

D=

(x1 , x2 , . . . , xn ) U Rn |
i (x1 , . . . , xn ) 6 0,
|
{z

i = 1, . . . , p, j (x1 , . . . , xn ) = 0,
} |
{z

an

-P
hil
ip

pe

Sous la forme enoncee, la classe des probl`emes doptimisation continue est bien trop
large pour esperer obtenir une methode de resolution generale efficiente. Aussi restreint-on
cette classe de probl`emes `a des sous-classes, o`
u des hypoth`eses restrictives permettent dy
etablir des methodes de resolution specifiques. De telles hypoth`eses doivent etre suffisamment fortes pour y etablir des methodes utilisables en pratique, et suffisamment faibles
pour englober une large classe de probl`emes.
En optimisation continue, dans la plupart des cas le domaine admissible D est donne
sous la forme (restrictive) suivante : soit U un ouvert de Rn ,

contraintes in
egalitaires


j = 1, . . . , q
}

contraintes
egalitaires

Je

Les applications i , j sont appelees les applications contraintes et sont supposees non
constantes ; les premi`eres etant qualifiees dinegalitaires et les derni`eres degalitaires.

igh
t:

On se restreint `a des sous-classes de probl`emes en posant des hypoth`eses sur les applications f, i , j .
On parle de :
Programmation lin
eaire : lorsque f , 1 , . . . , p , 1 , . . . , q sont des applications affines 2 et U = Rn .

py
r

Programmation quadratique : lorsque f est une application quadratique, 1 , . . . , p ,


1 , . . . , q sont des applications affines et U = Rn .
Programmation convexe : probl`eme de minimisation lorsque f et 1 , . . . , p sont des
applications convexes, 1 , . . . , q sont des applications affines, et U est convexe.

Co

Dans ce cadre on verra comment etablir des methodes generales et des algorithmes
pour les resoudre.

2. Rappelons quune application est affine sil existe une application constante telle que soit
lineaire.

1. FORMULATION

1.3

11

Extremum local

Pr

au
x

Afin de rester general, on accordera une grande importance `a la differentiabilite des


applications considerees (`a un ordre suffisant) qui procure des outils puissants et dans
de nombreux cas des calculs efficients pour donner des conditions necessaires, suffisantes,
dexistence dextrema locaux. Cependant ces notions etant locales elles ne procurent une
information que localement ; mais alliees `a dautres considerations (compacite, coercivite,
convexite) elles peuvent se reveler fort utiles pour la recherche dextrema.
Un point u D Rn est un minimum local de f sur D si il existe un voisinage V(u) de
u dans Rn , tel que x V(u) D, f (u) 6 f (x).

pe

Un point u D Rn est un maximum local de f sur D si il existe un voisinage V(u)


de u dans Rn , tel que x V(u) D, f (u) > f (x).

-P
hil
ip

Lorsque les inegalites sont strictes x V(u) D \ {u} on parle de minimum local ou
de maximum local strict.

an

Clairement tout extremum global est aussi un extremum local (prendre V(u) =
Rn ). La reciproque est evidemment fausse, comme le montre lexemple de la figure 1.

py
r

igh
t:

Je

y = ex

y = ex sin(x)

Figure 1 Lapplication x ex sin(x) a une infinite de minima locaux (en 2 + 2k)


et de maxima locaux (en 2 + 2k) mais aucun extremum global.

Co

La recherche des extrema locaux dune application f (suffisamment) differentiable sur


un ouvert se fait usuellement via une etude locale. Sur un ouvert, en un extremum local
les derivees partielles sannulent (condition dEuler). Cest une condition necessaire non
suffisante ; il est utile de regarder les derivees partielles secondes ; lorsque ces derni`eres
sannulent il faut regarder les derivees dordre 3, etc... (voir figure 2).

12

INTRODUCTION

au
x

En fait pour une application definie sur un ouvert de R et infiniment differentiable, on


a le resultat suivant :

Pr

Th
eor`
eme .1 (Extrema locaux dune application analytique r
eelle) Soit U un
ouvert de R et f : U R une application infiniment derivable. Soit un point u U
en lequel au moins une des derivees successives de f est non nulle.
Alors u est un extremum local de f si et seulement si il existe un entier n impair tel
que :
i = 1, . . . , n, f [i] (u) = 0, et f [n+1] (u) 6= 0
De plus si f [n+1] (u) > 0 alors cest un minimum local et sinon cest un maximum local.

f [n+1] (u) n+1


t
+ o(|t|n+1 )
(n + 1)!
| {z }

-P
hil
ip

f (u + t) = f (u) +

pe

D
emonstration. Soit n le plus grand entier tel que k, 1 6 k 6 n, f [k] (u) = 0, sil existe, et n = 0 sinon.
Consid
erons le d
eveloppement de Taylor-Young de f au voisinage de u `
a lordre n + 1.

6=0

Il en d
ecoule que si n + 1 est impair, on peut trouver t aussi proche que lon veut de 0 tel que f (u + t) f (u) et
f (u t) f (u) soient de signes strictement oppos
es, et donc u nest pas extremum local. Et si n + 1 est pair alors
pour tout t suffisamment proche de z
ero, f (u + t) f (u) garde un signe constant et donc f (u) est un extremum

f 0 (1) = 0
f 00 (1) > 0

f 0 (1) = 0
f 00 (1) = 0
f 000 (1) > 0

Je

igh
t:

f 0 (1) = 0
f 00 (1) < 0

an

local, minimum si f [n+1] (u) > 0 et maximum si f [n+1] (u) < 0.

py
r

Figure 2 Trois types de points critiques pour f : R R : un maximum local, un


minimum local et un point dinflexion.

Co

Ce resultat se generalise en dimension superieure, mais sa formulation y est bien plus


technique et sans grande utilite (par cause de labsence dune theorie spectrale des p-formes
lorsque p > 2) ; nous ne laborderons pas. Cest pourquoi nous ne verrons des conditions,
necessaires, suffisantes en dimension superieure, que jusqu`a lordre 2.
Attention, sur un domaine D non ouvert, un extremum local nest pas necessairement
un zero de la derivee (cf. figure 3). Nous verrons comment lequation dEuler se generalise

`
` UNE VARIABLE
2. EXEMPLES DE PROBLEMES
DOPTIMISATION A

13

au
x

en ce quon appelle les conditions de Lagrange (dans le cas o`


u toutes les contraintes sont
egalitaires) ainsi que les conditions de Karush-Kuhn-Tucker (dans le cas de contraintes
egalitaires et inegalitaires).

Pr

4
y=x

max

min

-P
hil
ip

pe

Figure 3 Sur lintervalle ferme [1, 4] lapplication derivable f (x) = x a un minimum en


1 et un maximum en 4, en lesquels la derivee de f ne sannule pas.

Exemples de probl`
emes doptimisation `
a une variable

2.1

an

Minimisation des co
uts dans la fabrication de botes cylindriques

igh
t:

Je

Dans la fabrication de botes de conserve cylindriques


on minimise les co
uts de mati`ere premi`ere en cherchant le
cylindre de surface minimale `a volume constant. Considerons
un cylindre, donne par sa hauteur h et le rayon r de sa base.
Le volume est : r2 h = K = constante.
Laire est : 2r2 + 2rh.
Le probl`eme doptimisation secrit :

min 2r2 + 2rh


r,h
2

py
r

r h = K
r, h > 0

Co

On utilise la contrainte egalitaire pour se ramener `a un probl`eme `a une variable :


h=

K
2K
= Aire(r) = 2r2 +
2
r
r
min A(r) = r2 +
r>0

K
r

14

INTRODUCTION

2r3 K
K
= A0 (r) > 0 r >
A (r) = 2r 2 =
r
r2
0

A0

K
2

+


@
R
@

Amin

Le minimum est :
r

Alors hmin =

K
3

K2
4 2

q
3

4K

= 2rmin

2
Airemin = 2rmin
+ 2rmin hmin

K
2

-P
hil
ip

rmin =

K
2

Pr

pe

au
x

On etudie les variations de A(r) :

hmin = 2rmin
q
q

3
3 K2
K2
= 2 42 + 4 3 4
K 2
2 = 3

Position d
equilibre dun syst`
eme de deux ressorts.

Je

2.2

an

3
Airemin = 3 K 2 .

igh
t:

Deux ressorts de coefficients de tension k1 , k2 et ayant meme longueur `a vide, ont


chacun une extremite fixe, et lautre `a distance mutuelle d. Lorsquon les attache par leur
extremite libre, comment sexprime leur position dequilibre (figure ci-dessous) ?

Co

py
r

k1

k2

a da

`
3. PROBLEMES
DOPTIMISATION SUR PLUSIEURS VARIABLES

15

Lenergie potentielle `a lequilibre du premier ressort est :

du deuxi`eme ressort :

au
x

1
E1 = k1 a2
2

Pr

1
E2 = k2 (a d)2
2

Lenergie totale du syst`eme est :


1
E = E1 + E2 = (k1 a2 + k2 (a d)2 )
2

pe

La position dequilibre est celle pour laquelle lenergie potentielle du syst`eme est minimale.
Il sagit donc dun probl`eme doptimisation qui sexprime :

min E(a) = k1 a2 + k2 (a d)2

-P
hil
ip

06a6d

E 0 (a) = 2(k1 + k2 )a 2k2 d ; donc E 0 (a) > 0 a >


a

E0

d2

k1 d2

an

k2
E

k2 d
k1 + k2
0

k2
d
k1 + k2

R
@

Emin

Je

La position dequilibre est atteinte pour :

igh
t:

a=

k2
d
k1 + k2

da=

k1
d
k1 + k2

Probl`
emes doptimisation sur plusieurs variables
Production optimale dune fonderie

py
r

3.1

Co

Une fonderie fabrique 3 qualites de bronze `a partir de cuivre et detain, en proportions


variables. Elle dispose dune quantite mensuelle de 65 tonnes de cuivre et de 5 tonnes
detain.
Qualite
A
B
C

Benefice brut (Ke/t)


2
1.6
1.8

% cuivre
90
93
95

% etain
10
7
5

16

INTRODUCTION

La fonction benefice brut mensuel `a maximiser secrit :


f (x, y, z) = 2x + 1.6y + 1.8z

pe

sous les contraintes inegalitaires :

Pr

Notons :
x la quantite mensuelle produite (en tonne) de bronze de qualite A.
y la quantite mensuelle produite (en tonne) de bronze de qualite B.
z la quantite mensuelle produite (en tonne) de bronze de qualite C.

au
x

Quelle production maximise le benefice mensuel ?

90x + 93y + 95z 6 6500


10x + 7y + 5z 6 500

-P
hil
ip

x, y, z > 0

Comment le resoudre ? Toutes les fonctions etant lineaires, on est dans le cadre de la
programmation lineaire.

3.2

Probl`
eme de transport

an

On consid`ere un probl`eme de ravitaillement ; il fait partie dune large classe de probl`eme


(amplement etudiee que ce soit en optimisation continue ou en optimisation combinatoire,
et que lon sait resoudre efficacement) tr`es utile dans la pratique, plus generalement appele
probl`eme de transport.

igh
t:

Je

On souhaite ravitailler en carburant 3 sites `a partir de 2 depots de capacite limitee.


Lacheminement en carburant dun depot `a un site a un co
ut unitaire. Le tableau suivant
resume chacun de ces co
uts ainsi que la demande de chaque site, et le stock disponible
dans chaque depot.

depot 1
depot 2
demande

site 1
10
11
200

site 2
12
11
250

site 3
9
10
250

diponibilite
300
450

py
r

Notons xij , i = 1, 2, j = 1, 2, 3 la quantite de carburant (en unite de volume) acheminee


du depot i au site j. Le co
ut dacheminement est donne par la fonction co
ut :
f (x11 , x12 , x13 , x21 , x22 , x23 ) = 10x11 + 12x12 + 9x13 + 11x21 + 11x22 + 10x23

Co

quil sagit de minimiser, sous les contraintes :


Contraintes egalitaires provenant de la demande :

x11 + x21 = 200


x12 + x22 = 250

x13 + x23 = 250

`
3. PROBLEMES
DOPTIMISATION SUR PLUSIEURS VARIABLES

x11 , x12 , x13 , x21 , x22 , x23 > 0.

Pr

Contraintes de signe : (S)

au
x

Contraintes inegalitaires provenant du stock disponible :



x11 + x12 + x13 6 300
x21 + x22 + x23 6 450

Il sagit encore dun probl`eme de programmation lineaire.

3.3

17

R
egression lin
eaire

,R

kyn xn k2

-P
hil
ip

N
X

min

pe

On consid`ere un nuage de points (xn )n=1,..N dans R2 . On cherche la droite affine qui
approche le mieux ce nuage de points au sens des moindres carres. Si lon note xn =
(xn , yn ), et : y = x + , on cherche :

i=1

ce qui equivaut au probl`eme de programmation quadratique :


min

,R

N
X

(yn xn )2

i=1

Mod
elisation de donn
ees exp
erimentales

Je

3.4

an

On verra pourquoi ce probl`eme admet toujours une solution, et lon retrouvera les formules
bien connues de la droite de regression lineaire.

igh
t:

Plus generalement supposons que lon ait effectue une serie de p mesures dependant
dun param`etre (evolution dune concentration chimique, ou de toute autre grandeur physique, en fonction du temps, etc...).
param`etre
valeur mesuree

t1
y1

t2
y2

tp
yp

Co

py
r

On souhaite modeliser ces donnees experimentales par une certaine application mathematique F (1 , . . . , n ) : R R dependant de param`etres reels (1 , . . . , n ) D Rn .
On cherche `a determiner les param`etres pour lesquels les valeurs prises par la fonction aux
points t1 , . . . , tp collent au mieux aux valeurs mesurees, dans un certain sens, disons par
exemple au sens des moindres carres.
Il sagit alors du probl`eme doptimisation :
min
(1 ,...,p )D

N
X

(yn F (1 , . . . , n )(xn ))2

i=1

Ce probl`eme est fondamental en sciences experimentales.

py
r

Co
igh
t:
pe

-P
hil
ip

an

Je

au
x

Pr

18
INTRODUCTION

au
x
pe

Programmation lin
eaire

Pr

Chapitre I

-P
hil
ip

Nous etudions dans ce chapitre la programmation lineaire, cest `a dire la classe des
probl`emes doptimisation o`
u la fonction objectif et les contraintes sont toutes affines. Il
sagit dun domaine dont le champ dapplication est enorme. Nous nous focalisons sur
une methode systematique de resolution, certainement la plus importante, la methode du
simplexe de Georges Dantzig. Ce nest cependant pas la seule : pour des probl`emes de
grande taille on utilise en general plutot la methode des points interieurs, que nous ne
verrons pas (de toute facon, dans ce cas, les logiciels informatiques sen chargent).

I.1
I.1.1

igh
t:

Je

an

Contrairement aux autres chapitres, nous ne donnerons pas ici les preuves des resultats
enonces, nous en tenant aux idees directrices. Il aurait ete autrement necessaire de naborder ce chapitre que plus tard dans le deroulement du cours, bien quil sagisse du domaine presentant le plus grand interet pratique. Par ailleurs la linearite des applications
considerees permet une resolution systematique, qui ne necessite pas pour son application
une comprehension fine, contrairement aux autres notions que nous aborderons par la
suite.

Pr
eliminaires
Formulation

Co

py
r

Dans tout ce chapitre n designe un entier strictement positif et p designe un entier.


Soit f : Rn R une application lineaire. Soient 1 , . . . , p : Rn R, p applications
lineaires, et (b1 , . . . , bp ) Rp . Notons x = (x1 , . . . , xn ) Rn ; un probl`eme de programmation lineaire sexprime sous la forme :
trouver le minimum (respectivement le maximum) de f : Rn R
min
f (x)
max
x

19


CHAPITRE I. PROGRAMMATION LINEAIRE

20
soumis aux contraintes :

au
x

1 (x1 , . . . , xn ) 6 b1

2 (x1 , . . . , xn ) 6 b2
..

p (x1 , . . . , xn ) 6 bp

n
X

ci xi = hc, xi

i (x) =

i=1

aij xj = hai , xi .

j=1

o`
u h. , .i designe le produit scalaire usuel de Rn .

Repr
esentation matricielle

-P
hil
ip

I.1.2

n
X

pe

f (x) =

Pr

f, 1 , . . . , p etant des formes lineaires sur Rn , on peut toujours noter pour certains vecteurs c = (c1 , . . . , cn ) Rn , ai = (ai1 , . . . , ain ) Rn , et x = (x1 , . . . , xn ) Rn :

Considerons, ce que nous appellerons la matrice des contraintes, et le vecteur des


contraintes :

a11 a1n
b1

..
A = (aij ) i=1p = ...
Mp,n (R) ; b = ... Rp .
.
j=1n
ap1 apn pn
bp

an

Le probl`eme doptimisation secrit alors sous forme matricielle :


min
hc, xi
max

Je

Ax 6 b

I.1.3

igh
t:

Si de plus x1 , . . . , xn > 0, on note x > 0.


Attention : Linegalite entre vecteur >, 6 doit etre comprise comme linegalite terme `a
terme, et ne definit pas un ordre sur les vecteurs !

Forme canonique

Co

py
r

En programmation lineaire, un probl`eme doptimisation sous forme canonique est un


probl`eme sous la forme :
max hc, xi
x

Ax 6 b
x>0

Ce nest pas restrictif : tout probl`eme peut se mettre sous forme quadratique grace `a :
min hc, xi equivaut `a maxhc, xi,

+
si xi 6> 0, poser xi = x+
i xi avec xi , xi > 0.


I.1. PRELIMINAIRES

I.1.4

21

Exemple de probl`
eme `
a deux variables - R
esolution graphique

Pr

au
x

Exemple. Un societe fabrique deux types de produits A et B (par exemple deux types de
syst`eme audio), dont la vente lui rapporte un benefice brut respectif de 150 u.m. et de 450
u.m. ; sa production est limitee respectivement `a 120 et 70 unites. Une meme pi`ece P (par
exemple un lecteur CD) rentre dans la fabrication dune unite de A, ainsi que dans la fabrication dune unite de B. Une meme pi`ece Q (par exemple un haut-parleur) rentre dans
la fabrication dune unite de A, tandis que deux pi`eces Q sont necessaires `a la fabrication
dune pi`ece B. Elle dispose dun stock de 140 pi`eces P et de 180 pi`eces Q. Comment gerer
au mieux sa production en produits A, B pour en retirer le benefice maximal ?

-P
hil
ip

pe

Notons :
x la quantite de produits A fabriques,
y la quantite de produits B fabriques,
f (x, y) = 150x + 450y la fonction economique qui donne le benefice brut pour une production (x, y)
Le probl`eme doptimisation se formalise alors :
max f (x, y) = 150x + 450y
(x,y)

x 6 120
y 6 70

an

x + y 6 140

x + 2y 6 180
x, y > 0 (S)

Je

Le domaine admissible est le polygone D = {(x, y) R2 | 0 6 x 6 120, 0 6 y 6 70, x+y 6


140, x + 2y 6 180} de R2 .

py
r

igh
t:

Constatations : On constate sur cet exemple (cf. figure I.1) :


le domaine admissible est un hexagone convexe,
la ligne de niveau k est la droite 150x + 450y = k ; les lignes de niveau forment un
faisceau de droites parall`eles, de pente 1/3.
On en d
eduit : le maximum est atteint sur lun des sommets de lhexagone. Il suffit
donc de calculer la valeur prise par f sur ses 6 sommets (0, 0), (0, 70), (120, 0), (40, 70),
(100, 40). Le calcul direct nous donne fmax = 37500 est atteint au point umax = (40, 70).
Il faut produire 40 unites de A et 70 unites de B.

Co

La figure I.3 represente la nappe representative de f au dessus du domaine D. Cest la


portion (hexagonale) `a la verticale de D R2 du plan dequation z = 150x + 450y.

I.1.5

G
en
eralisation

On tire ici des principes generaux, en dimension n quelconque, apr`es les constatations
faites sur lexemple en dimension 2 de la section precedente.

180

y = 70

2y
=

x+

=
14
0

(40, 70)

x = 120
e de
nive
au f
ma

Pr

Lign

au
x

CHAPITRE I. PROGRAMMATION LINEAIRE

22

Le domaine admissible D

Lign

-P
hil
ip

e de
nive
au k

pe

k
450

Figure I.1 Le domaine admissible D R2 , deux lignes de niveau, et le maximum


(40, 70) de f sur C.

py
r

igh
t:

Je

an

Chaque contrainte inegalitaire est lequation dun demi-espace. Sa fronti`ere est un hyperplan affine (i.e. un sous-espace affine de codimension 1) dans lespace Rn . Ainsi le domaine
admissible est une intersection dun nombre fini de demi-espaces. Cest donc un polytope 1
convexe, ayant un nombre fini de sommets. Il peut etre borne, ou non borne (cf. figure
I.2).

borne

non borne

Figure I.2 Deux polygones convexes de R2 , lun borne, lautre non borne.

Co

Le domaine est un ferme, aussi lorsque il est de plus borne cest un compact de Rn .

1. Un polytope generalise a
` toute dimension la notion de polygone dans R2 et de poly`edre dans R3 . Ici
ce que lon denote par polytope, polygone, ou poly`edre est un peu plus general que la definition usuelle,
puisquil peut etre non borne. Une definition rigoureuse dun polytope convexe est : etant donne un nombre
fini de segments et de demi-droites, cest le plus petit convexe de Rn les contenant.


I.1. PRELIMINAIRES

23

au
x

Or une application lineaire sur Rn est continue. Ainsi lorsque le domaine est borne, f y
prend un minimum ainsi quun maximum (cf. 2.1.1).

Pr

Lorsque f 6= 0 les hyperplans de niveau (lhyperplan de niveau k a pour equation


hc, xi = k) sont tous parall`eles (car de vecteur normal c). Avec ce qui prec`ede, cela a pour
consequence que si un extremum existe il est atteint sur lun des sommets du domaine
polytope (eventuellement sur tous les points dune de ses faces, et en particulier sur lun
des sommets aussi).
On resume toutes ces constatations dans le theor`eme suivant :

(40, 70, fmax )

an

-P
hil
ip

pe

Th
eor`
eme I.1 (Programmation lin
eaire) En programmation lineaire, le domaine
n
admissible, sil est ni vide ni tout R , est un polytope convexe ayant un nombre fini de
sommets, qui peut etre borne ou non borne. Si un extremum existe alors il est atteint sur
lun des sommets du polytope. Un point dans linterieur du domaine nest jamais extremal
si f 6= 0. Lorsque le polytope est borne, f y prend un minimum ainsi quun maximum.

py
r

igh
t:

Je

{(x, y, f (x, y)) R3 | (x, y) D}

DR

Figure I.3 La nappe representative de f au dessus du domaine D.

Co

Ce theor`eme fournit dej`a une solution geometrique `a un probl`eme de programmation


lineaire : il suffit de construire le polytope (on determine ses sommets, aretes, faces, etc...)
en resolvant des syst`emes dequations lineaires. Sil est non borne certaines aretes sont des
demi-droites et en restreignant f `a celles-ci on determine si la fonction y tend vers +
ou . Ce faisant on sait alors si f admet un minimum ou un maximum. Si cest le cas
il suffit de calculer la valeur de f sur chacun des sommets pour determiner un extremum.


CHAPITRE I. PROGRAMMATION LINEAIRE

24

M
ethode du simplexe

Pr

I.2

au
x

Il faut cependant eviter cette methode qui ne peut etre utile quen petite dimension
(6 3) et lorsque le nombre de contraintes est faible. Nous allons voir dans la suite une
methode algebrique systematique pour resoudre un probl`eme de programmation lineaire :
la methode du simplexe.

Probl`
eme de programmation lin
eaire sous forme normale

-P
hil
ip

I.2.1

pe

La methode du simplexe est une methode algebrique, algorithmique, qui met `a profit
ces constations geometriques. En partant dun sommet elle se deplace successivement sur
des sommets voisins qui accrot la valeur de la fonction, jusqu`a -si arret il y a- etre parvenu
sur un minimum local. La linearite, et plus encore la convexite (cf. 2.3), assure alors
quil sagit dun minimum global.

Un probl`eme de programmation lineaire est sous forme normale, lorsquil secrit :


max hc, xi
x

Ax 6 b
b>0
c>0

forme canonique

(S)
)

conditions de positivite

an

x>0

I.2.2

igh
t:

Je

cest `a dire lorsquen plus detre sous forme canonique il verifie les deux conditions de
positivite. Une telle forme est restrictive, et lon nappliquera la methode du simplexe
qu`a des probl`emes de programmation lineaire sous forme normale. On verra cependant
par la suite comment ramener tout probl`eme de programmation lineaire `a un probl`eme
equivalent ecrit sous forme normale.

Algorithme du simplexe I : pr
eparation

Afin dappliquer la methode du simplexe on commence par proceder de la facon suivante :

Co

py
r

a. On change chacune des p contraintes inegalitaires en une contrainte egalitaire en introduisant une variable decart notee si (i = 1, . . . , p) :

hai , xi 6 bi

hai , xi + si = bi
si > 0

(en presence de contraintes egalitaires, on les laisse inchangees).


b. On constitue la matrice suivante :


I.2. METHODE
DU SIMPLEXE
xn

s1

a11
..
.

a1n
..
.

1
..

ap1

apn

c1

cn

{z

c>

sp

b1
..
.

bp

f 0

)
partie centrale

} ligne resultat

au
x

Pr

x1

25

-P
hil
ip

pe

La premi`ere ligne est optionnelle et purement nominative ; la derni`ere ligne sappelle ligne
resultat ; on travaillera sur cette derni`ere ainsi que sur la partie centrale. Le trait vertical
symbolise legalite ; il separe la partie gauche de la colonne droite.

Algorithme du simplexe II : Impl


ementation

igh
t:

Je

an

Pour implementer lalgorithme du simplexe, on applique une suite de transformations


sur cette matrice, inserees dans une boucle while. Chacune consiste en un saut sur lun
des sommets voisins du polytope, qui maximise localement f , (du moins en labsence dun
phenom`ene retors dit de cyclage, voir plus loin). A letape initiale il faut comprendre que
lon se trouve au sommet origine ; f 0 dans la ligne resultat colonne droite signifie :
en ce point, la valeur de f est 0.
Algorithme.

Faire tant que la ligne resultat contient un terme > 0 dans sa partie gauche.

Co

py
r

Le plus grand element > 0 de la ligne resultat partie gauche determine la colonne
pivot j.
Choisir un pivot dans la colonne pivot j. Cest un element (i, j), que lon note ij
dans la colonne pivot partie centrale choisi de facon `a ce que bi /ij soit > 0 et
minimal.
Si un tel element pivot nexiste pas alors quitter : il ny a pas de solution.
Sinon le pivot choisi determine la ligne pivot (L) (ou ligne de limitation). Ajouter
autant de fois que necessaire la ligne pivot aux autres lignes jusqu`a annuler tous
les termes de la colonne pivot, autres que le pivot.
Fin tant que.


CHAPITRE I. PROGRAMMATION LINEAIRE

26

a1j /aij (L)

aij
..
.
apj
cmax > 0

bi
..
.
bp
f R

bi /aij minimal

au
x

bj
..
.

apj /aij (L)


c/aij (L)

Pr

(L) :

a1j
..
.

Colonne
pivot

bj a1j bi /aij
..
.

pe

0
..
.

bi
..
.
bp apj bi /aij
f R cj bi /aij

-P
hil
ip

aij
..
.
0
0

Lorsque lalgorithme sarrete en concluant `a lexistence dun maximum :

Je

an

Barrer dans la matrice toutes les colonnes `a la verticale delements non nuls de la ligne
resultat partie gauche. Poser que chacune des variables correspondantes est egale `a 0.
Puis determiner la valeur des autres variables (on na en fait besoin que des x1 , . . . , xn )
en resolvant le syst`eme lineaire dans la partie centrale du tableau.

ri < 0

00

igh
t:

00

xi = 0

rj < 0

)
(S)
00

f fmax

sj = 0

py
r

= On obtient le maximum (x1 , x2 , . . . , xn ) ; la valeur maximale fmax de f se lit


dans la ligne resultat partie droite.

Co

Remarque. Meme lorsquun maximum existe lalgorithme ne converge pas necessairement


et peut tourner indefiniment dans certains cas exceptionnels ! En fait par construction, la
suite (uk )kN construite verifie f (uk+1 ) > f (uk ). Le plus souvent, pour tout k, f (uk+1 ) >
f (uk ) et on a dans ce cas construit une suite de sommets du polytope, leur finitude
impliquant alors la convergence. Seulement un phenom`ene de cyclage peut en theorie apparatre, i.e. f (uk+1 ) = f (uk ) `a partir dun certain rang, et dans ce cas la methode echoue
`a produire une solution. Il existe des facons de sen premunir, cependant dans la pratique
ce phenom`ene exceptionnel narrive presque jamais.


I.2. METHODE
DU SIMPLEXE

27

au
x

Exemple. Reprenons lexemple vu precedemment et resolu graphiquement au paragraphe


I.1.4.
max f (x, y) = 150x + 450y

Pr

(x,y)

x 6 120
y 6 70
x + y 6 140
x, y > 0 (S)

y
0
1
0
0
0

py
r
Co

x
0
0
0
1
0

s2
0
1
0
0
0

s3
0
0
1
0
0

s2
0
1
0
0
0

s3
0
0
1
0
0

s4
0
0
0
1
0

an

s1
1
0
0
0
0

s2
0
1
1
1
450

igh
t:

x
1
0
1
1 
150

y
s1
1
0
1
  0
1
0
2
0
450 0

s1
1
0
0
0
0

Je

x
1
0
1
1
150

y
0
1
1
2
450

y
0
1
0
0
0

s1
1
0
0
0
0

s4
0
0
0
1
0

-P
hil
ip

x
1
0
1
1
150

pe

x + 2y 6 180

s3
0
0
1
0
0

s2
1
1
0
1
300

s4
0
0
0
1
0
s3
0
0
1
0
0

120
70
140
180
f 0

120
70
140
180
f 0

120
70
70
40
f 31500
s4
1
0
1
1
150

(L)
(L)
2(L)
450(L)

(L)
(L)
(L)
150(L)

80
70
30
40
f 37500

On obtient pour maximum x1 = 40, x2 = 70, et fmax = 37500. (s1 = 80, s2 = 0,


s3 = 30, s4 = 0).


CHAPITRE I. PROGRAMMATION LINEAIRE

28

R
esolution dans le cas g
en
eral

au
x

I.3

Ou comment ramener un probl`eme de programmation lineaire `a un probl`eme equivalent


mis sous forme normale.

Ecrire un probl`
eme de maximisation sous forme normale

Pr

I.3.1

Ou comment ramener un probl`eme de maximisation lineaire `a un probl`eme equivalent


mis sous forme normale.

pe

En labsence de la contrainte de signe : (S) : x > 0, cest `a dire si xi 6> 0.

+
Poser xi = x+
i xi avec xi , xi > 0.

-P
hil
ip

En presence de contraintes egalitaires.


Les inserer dans le tableau de la methode du simplexe, sans ajouter de variable decart :
cela revient `a utiliser chacune de ces contraintes pour exprimer une variable en fonction
des autres.
Si c 6> 0.
Par exemple si ci < 0 : poser xi = 0. Dans la matrice de la methode du simplexe cela
revient `a barrer (=supprimer) la colonne correspondante.

an

Si b 6> 0.
Par exemple bi < 0. On change la contrainte inegalitaire en une contrainte egalitaire en
inserant une nouvelle variable pi > 0.
ai1 x1 + + ain xn 6 |bi |
avec pi > 0 .

Dualit
e minimum/maximum

igh
t:

I.3.2

Je

ai1 x1 ain xn pi = |bi |

Ou comment ramener un probl`eme de minimisation `a un probl`eme de maximisation


equivalent en programmation lineaire.

Co

py
r

Un probl`eme de minimisation secrit sous forme canonique :


min hb, yi
y

y>0
A> y > c

il est sous forme normale si de plus :


b, c > 0


ERAL

I.3. RESOLUTION
DANS LE CAS GEN

29

min g(y) = hb, yi

max f (x) = hc, xi


x

y>c

Ax 6 b

y>0

x>0

Pr

y
A>

au
x

Th
eor`
eme I.2 (Dualit
e min/max) Tout probl`eme de minimisation lineaire (resp.
sous forme normale) est equivalent `
a un probl`eme de maximisation lineaire (resp. sous
forme normale) dans le sens suivant :

Exemple. On consid`ere le probl`eme de minimisation :

1
0
1
1
3

0
1
1
3
2

-P
hil
ip

min 2x + 8y
x,y

pe

gmin = fmax ,
un minimum de g a pour coordonnees les opposes des valeurs dans la ligne resultat
correspondant aux variables decart du probl`eme de maximisation.

 
x

>
y

100
100
500
900
1200

an

x, y > 0

Il est equivalent au probl`eme de maximisation (sous forme normale) :


max 100x1 + 100x2 + 500x3 + 900x4 + 1200x5

x1
 x2  


1 0 1 1 3
x3 6 2

0 1 1 3 2
8
x4
x5

igh
t:

Je

x1 ,...,x5

x1 , x2 , x3 , x4 , x5 > 0

Co

py
r

que lon resout par la methode du simplexe :



1
0
1
1
3 
0
1
1
3
2
100 100 500 900 1200
1
2/3
300

1
3
800

0
1
100
0
1 

100


1 

1
1/3
100

1
2
400

7/3
500
1
0
0

3
0
0

3
7
1500

1
0
0

0
1
0

2
8
f 0

1
2/3
400

0
1
0

2
20/3
f 800

1
3
900

0
1
0

2
2
f 1800


CHAPITRE I. PROGRAMMATION LINEAIRE
1
3
900

0
1
0

1
2
200

1
0
0

3
7
800

1
3
600

0
1
100

2
2

f 2000 

au
x

30

fmin = 2000
min = (600, 100)

I.4

Pr

On en deduit :

Programmation lin
eaire en nombres entiers

-P
hil
ip

pe

Attention, lorsque un probl`eme doptimisation lineaire cherche une solution enti`ere


(cest `a dire `a coordonnees enti`eres), tout ce que lon a vu jusqu`a present ne sapplique
pas ! En particulier la methode du simplexe donne loptimum sur les reels et non sur les
entiers. Un tel probl`eme sappelle un probl`eme de programmation lineaire en nombres
entiers (PLNE), et cest un domaine de recherche specifique, utilisant ses outils propres,
que nous ne traiterons pas ici.
Prendre un arrondi entier dun optimum ne fournit pas en g
en
eral loptimum
en nombres entiers.
Exemple. Considerons le probl`eme doptimisation lineaire suivant :

an

max x + 4y

y > 0, 4 > x > 0

Je

425x + 200y 6 670

igh
t:

Le maximum est le point (4, 2.5) en lequel la fonction vaut 14. Le maximum sur les nombres
entiers sobtient en faisant descendre la ligne de niveau max, jusqu`a passer par le premier point `a coordonnees enti`eres dans le domaine. On trouve le point (1, 3) maximum sur
les entiers, en lequel la fonction vaut 13 (voir figure ci-dessous). En particulier loptimum
entier nest pas larrondi entier de loptimum.

py
r

Il est facile de construire des exemples sur le meme mod`ele o`


u loptimum entier est
aussi eloigne que lon veut de loptimum. Cependant, si la m
ethode du simplexe nous
retourne une solution en nombres entiers, cest bien
evidemment aussi loptimum sur le probl`
eme en nombre entiers, puisque cest loptimum sur les reels.

Co

Remarque. Lorsque toutes les fonctions considerees ont des coefficients entiers, ou plus
generalement rationnels, loptimum, sil existe, est toujours un nombre rationnel. En particulier si la solution optimale est recherchee uniquement sur les rationnels, les methodes
de ce chapitre sappliquent d`es lors que les coefficients des fonctions sont rationnels. Et
sinon, puisque Q est dense dans R, en prenant une approximation rationnelle suffisamment proche de loptimum reel trouve, on peut se rapprocher autant que lon veut dun
optimum rationnel ; dailleurs pour cette raison lorsque loptimum est non rationnel, un


I.4. PROGRAMMATION LINEAIRE
EN NOMBRES ENTIERS

31

au
x

Pr

0
1

-P
hil
ip

pe

Figure I.4 Exemple qui montre qui le maximum sur les nombres entiers nest pas
larrondi entier de loptimum reel.

Co

py
r

igh
t:

Je

an

optimum restreint aux rationnels nexiste pas, et on ne peut trouver quune approximation
rationnelle dun optimum reel.


CHAPITRE I. PROGRAMMATION LINEAIRE

32

au
x

Exercices.

Pr

Exercice 1. Une usine produit deux types de produits finis x et y `a partir dune meme
mati`ere premi`ere. Les produits x et y lui rapportent `a la vente respectivement 8 et 4 euros
le litre. La quantite de x et y produits est limitee par le stock de mati`ere premi`ere disponible et par la duree du temps de travail. La fabrication dun litre de produit x (resp. y)
necessite 1kg (resp. 1kg) de mati`ere premi`ere. Il faut 15 heures de travail pour fabriquer
100l de x tandis quil faut 3 heures pour fabriquer 100l de y. On dispose de 1t de mati`ere
premi`ere et de 45 heures de travail chaque semaine.
Appliquer la methode du simplexe pour maximiser le profit hebdomadaire.

pe

Exercice 2. Resoudre par la methode du simplexe le probl`eme de production optimale


dune fonderie enonce au 3.1 de lintroduction.

type 1
2
1
2

type 2
1
2.5
2

type 3
0
2
1

type 4
1
4.5
8

an

glucides
lipides
prix

-P
hil
ip

Exercice 3. a. Probl`eme du consommateur. On peut acheter 4 types daliments, dont


la teneur en glucides et lipides est donnee dans le tableau suivant (par unite de poids et
exprimee dans lunite convenable) :

Je

Le probl`eme du consommateur consiste `a obtenir au moindre co


ut au moins 12 unites
de glucides et 7 unites de lipides.
Resoudre ce probl`eme par la methode du simplexe.

igh
t:

b. Probl`eme du concurrent. Un vendeur concurrent souhaite sapproprier ce marche avec 2


nouveaux types daliment, dont les teneurs respectives en glucides et lipides sont donnees
dans le tableau suivant (toujours exprime par unite de volume dans lunite convenable) :
glucides
lipides

type 1
1
0

type 2
0
1

Co

py
r

Il cherche `a determiner les prix de chacun de ces 2 produits lui permettant detre le
plus competitif, tout en en retirant le benefice maximal.
Determiner les prix (par unite de poids) optimaux de ces 2 aliments.

au
x
Pr

Chapitre II

pe

G
en
eralit
es sur loptimisation

-P
hil
ip

Notations. On fixe les notations suivantes, et lon renvoie au A.2 et A.3 de lannexe pour plus de pr
ecisions.
Dans tout ce qui suit n est un entier positif non nul. Lespace vectoriel r
eel de dimension n est muni de sa
structure usuelle despace euclidien, cest `
a dire du produit scalaire usuel h. , .i et de la norme associ
ee k.k2 (ou k.k
lorsquil ny a pas dambiguit
e).
Si U est un ouvert de Rn , x0 Rn et f : U Rn R est une application diff
erentiable en x0 on note :
f
x1 (x0 )

..
f (x0 ) ,
.

f
(x0 )
xn

Rn

an

Je

le vecteur gradient de f en x0 (on prononce nabla f de x0 ).


On a alors le d
eveloppement de Taylor-Young de f a
` lordre 1 au voisinage de x0 :
f (x) = f (x0 ) + hf (x0 ), x x0 i + o(kx x0 k)

igh
t:

Lorsque lapplication f : U Rn R est 2 fois diff


erentiable en x0 on note :

f (x0 ) ,

2f
x1 x1 (x0 )

..
=
.

2
f
(x0 )
xn x1


2f
(x0 )
i=1,2,...,n
xi xj

j=1,2,...,n

2f
(x0 )
x1 xn
..
.
2f
(x0 )
xn xn

py
r

la matrice Hessienne de f en x0 . Cest une matrice sym


etrique ; en particulier elle est diagonalisable.
On a alors au voisinage de x0 le d
eveloppement de Taylor-Young `
a lordre 2 :
f (x) = f (x0 ) + hf (x0 ), x x0 i +

1
(x x0 )> 2 f (x0 ) (x x0 ) + o(kx x0 k2 ) .
2

Co

Puisque 2 f (x0 ) est sym


etrique, x> 2 f (x0 ) x = h2 f (x0 )> x, xi = h2 f (x0 )x, xi.
On sint
eressera a
` certaines propri
et
es des matrices Hessiennes, ou plus g
en
eralement des matrices carr
ees.

Une matrice A Mn (R) est semi-d


efinie positive si x Rn , x> A x > 0.

Une matrice A Mn (R) est d


efinie positive si x Rn \ {0}, x> A x > 0.

On d
efinit de facon analogue une matrice carr
ee semi-d
efinie n
egative, d
efinie n
egative.

33

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

34

Conditions suffisantes dexistence dextrema globaux

au
x

II.1

Nous voyons dans cette section deux conditions suffisantes dexistence dextrema globaux : la compacite du domaine, et la coercivite de la fonction.

Compacit
e du domaine

Pr

II.1.1

Th
eor`
eme II.1 (Existence dextrema sur un domaine compact.) Si K est un
compact (i.e. est ferme et borne) de Rn , et f : K R est continue, alors f admet
un minimum ainsi quun maximum global sur K.

pe

D
emonstration. Limage dun compact par une application continue est un compact. Ainsi f (K) est un compact de
R, cest-`
a-dire un ferm
e born
e. Puisque f (K) est born
e il admet une borne inf
erieure m ainsi quune borne sup
erieure
M . Par d
efinition il existe une suite de points de f (K) convergeant vers M ; puisque f (K) est ferm
e, M f (K).
Le m
eme raisonnement montre que m f (K). Donc f 1 ({m}) est non vide, et tous ses
el
ements sont des minima

-P
hil
ip

globaux de f sur K, et de m
eme f 1 ({M }) est non vide et tous ses points sont des maxima globaux de f sur K. 

Ce resultat nest utile que face `a un probl`eme doptimisation sous contraintes, car dans
ce cas le domaine est toujours un ferme de Rn et cest le seul cas o`
u il peut etre borne,
cest-`a-dire compact.

II.1.2

Je

an

Exemple. soit f : R2 R une application continue et soit C = {(x, y) R2 | x2 +y 2 = 1}


le cercle unite. Alors f admet (au moins) un maximum et un minimum sur C. En effet C
est un compact de R2 : dune part cest un ferme puisque cest la preimage du ferme {1}
de R par lapplication continue (x, y) x2 + y 2 ; dautre part cest un borne puisque la
norme de (x, y) C est uniformement majoree (egale `a 1 pour la norme k.k2 ).

Applications coercives

igh
t:

D
efinition. Une application f : D Rn R est coercive si D est un ferme non borne
et si :
lim f (x) = +
kxk+

(souvent D = Rn ).

py
r

Th
eor`
eme II.2 (Une application coercive a un minimum.) Une application coercive admet un minimum global (et aucun maximum global). Si f est coercive, f admet
un maximum global (et aucun minimum global).
D
emonstration. Soit f : D R une application coercive. Soit a R ; on choisit a suffisament grand pour que

Co

K = f 1 (] , a]) soit non vide. Puisque f est continue et que ] , a] est un ferm
e de R, K est un ferm
e de

Rn . De plus K est born


e : autrement il contiendrait une suite de points (xn )nN avec limn kxn k = + et

n N, f (xn ) 6 a ce qui contredirait le fait que f soit coercive. Ainsi K est un compact de Rn , et avec le th
eor`
eme
II.1 f admet un minimum global u sur K, i.e x K, f (u) 6 f (x) 6 a. Or pour tout x D \ K, f (x) > a. Donc,
x D, f (u) 6 f (x), i.e. u est un minimum global de f sur D. Ceci montre la premi`
ere assertion ; la deuxi`
eme

35

pe

Pr

au
x

II.1. CONDITIONS SUFFISANTES DEXISTENCE DEXTREMA GLOBAUX

-P
hil
ip

Figure II.1 Une application coercive f : R R.

assertion est alors imm


ediate, puisquun minimum global de f est un maximum global de f .

an

Exemple. Une fonction polynomiale f : R R de degre pair > 0 est coercive sur
R si et seulement si le coefficient de son terme de plus haut degre est > 0 : en effet
limx f (x) = + si > 0 et limx f (x) = si < 0. Une fonction polynomiale
de degre impair nest jamais coercive sur R mais, en notant le coefficient de son terme de
plus haut degre, elle est coercive sur tout intervalle ferme [c, +[ si > 0 et sur ] , c]
si < 0.
Une application polynomiale sur R admet :

Co

py
r

igh
t:

Je

Si son degre est pair et non nul :


Si le coefficient de son terme de plus haut degre est positif : un minimum global et
aucun maximum global.
Si le coefficient de son terme de plus haut degre est negatif : un maximum global et
aucun minimum global.
Si son degre est impair : ni minimum ni maximum global.

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

36

Recherche dextrema locaux.

au
x

II.2

Pr

Nous voyons ici des conditions necessaires, suffisantes, `a lordre 1 et `a lordre 2,


pour quun point dans linterieur du domaine soit un extremum local dune application
differentiable (1 ou 2 fois). Cest loutil principalement utilise dans la recherche des extrema locaux en programmation sans contrainte. Attention tout ceci nest valable que dans
linterieur du domaine (ou autrement dit sur un domaine ouvert) ; nous generaliserons ces
conditions sur tout le domaine dans le prochain chapitre.

II.2.1

-P
hil
ip

pe

Rappels. Soit D un sous-ensemble de Rn , et f : D Rn R.


Un point x0 D est un extremum local de f , sil existe un ouvert U Rn contenant x0 ,
tel que, x U D, f (x) > f (x0 ) (respectivement f (x) 6 f (x0 )). On dira alors que x0
est un minimum local de f (respectivement maximum local).
Clairement tout extremum (resp. minimum, maximum) global de f est aussi un extremum (resp. minimum, maximum) local de f , tandis que la reciproque est evidemment
fausse comme le montre lexemple de la figure 1.

Condition n
ecessaire du 1er ordre

Rappel. Si D est un sous-ensemble de Rn , linterieur de D, note int(D), est le plus grand


ouvert de Rn inclus dans D.

an

Th
eor`
eme II.3 (Equation dEuler) Soit f : D Rn R, differentiable en x0
int(D). Si x0 est un extremum local de f , alors x0 est un point critique, i.e. :
f (x0 ) = 0.

Je

D
emonstration. Puisque f est diff
erentiable en x0 , les d
eriv
ees partielles de f en x0 existent. Notons
{e1 , e2 , . . . , en } la base canonique de Rn . Pour tout i = 1, 2, . . . , n :

igh
t:

f (x0 + tei ) f (x0 )


f
(x0 ) = lim
t0
xi
t
f (x0 + tei ) f (x0 )
f (x0 + tei ) f (x0 )
= lim
= lim
.
t0
t0
t
t
{z
}
{z
}
< |
> |
=g (t)

=d (t)

Si x0 est un extremum local de f , alors 0 est un extremum local de t 7 f (x0 + tei ) et donc r > 0 tel que lorsque
t d
ecrit ] r, r[, f (x0 + tei ) f (x0 ) garde un signe constant. Ainsi, lorsque t ] r, r[, les taux daccroissement de
t 7 f (x0 + tei ) en 0, `
a droite et a
` gauche, d (t) et g (t), sont de signes oppos
es. Donc, par passage `
a la limite,
est `
a la fois positif et n
egatif, et donc n
ecessairement nul. Ainsi si x0 est un extremum local, f (x0 ) = 0.

py
r

f
(x0 )
xi

Co

Remarque 1 : Le resultat est faux lorsque lextremum local nest pas dans linterieur
de D ; exemple : en programmation lineaire sur poly`edre convexe borne D lapplication
lineaire f (x) =< u, x > admet toujours un mimimum et un maximum global sur la
fronti`ere D = D \ int(D) de D, et en ces points f (x) = u.
Remarque 2 : Cest une condition necessaire non suffisante, comme le montre la figure
II.2.

37

pe

Pr

au
x

II.2. RECHERCHE DEXTREMA LOCAUX.

II.2.2

-P
hil
ip

Figure II.2 Trois types de points critiques pour f : R2 R : un maximum local,


un minimum local et un point-selle. Dans les deux premiers cas la matrice hessienne est
respectivement semi-definie negative et semi-definie positive, dans le dernier cas elle a deux
valeurs propres de signes opposes.

Conditions du second ordre

Dans ce qui suit, D designe un sous-ensemble non vide de Rn .


Th
eor`
eme II.4 Soit f : D Rn R, et u int(D), avec f 2 fois differentiable en u.

an

1. (Condition n
ecessaire du 2e ordre.)
Si u est un minimum (resp. maximum) local de f , alors f (u) = 0 et 2 f (u) est
semi-definie positive (resp. negative).

Je

2. (Condition suffisante du 2e ordre.)


Si f (u) = 0 et 2 f (u) est definie positive (resp. negative), alors u est un minimum
(resp. maximum) local strict de f .

igh
t:

D
emonstration. Nous montrons s
epar
ement les assertions 1 et 2.
1. Puisque u est un extremum local alors f (u) = 0 (
equation dEuler, th
eor`
eme II.3) et la formule de Taylor-Young
`
a lordre 2 (cf. A.2.4 page 114) s
ecrit :
f (u + x) f (u) = x> 2 f (u) x + o(kxk2 )

Si u est un minimum (resp. maximum) local de f , alors en appliquant la formule de Taylor-Young, il existe une
r
boule ouverte B(0, r) de Rn centr
ee en 0, sur laquelle x> 2 f (u) x > 0 (resp. 6 0). Soit x Rn ; alors x0 = 2kxk
.x

py
r

2
> 2
est dans B(0, r), et donc x>
0 f (u) x0 > 0 (resp. 6 0). Puisque x f (u) x =

r2
4kxk2

2
x>
0 f (u) x0 > 0 (resp.

6 0), 2 f (u) est semi-d


efinie positive (resp. n
egative).

Co

2. Puisque f (u) = 0 la formule de Taylor-Young `


a lordre 2 (cf. proposition A.2.4) s
ecrit :
f (u + x) f (u) = x> 2 f (u) x + o(kxk2 )

Puisque 2 f (u) est d


efinie positive (resp. n
egative), alors x Rn , x> 2 f (u) x > 0 (resp. < 0) et donc en
appliquant la formule de Taylor-Young ci-dessus, il existe un ouvert contenant u sur lequel f (x + u) f (u) > 0

(resp. 6 0) : u est donc un minimum (resp. maximum) local de f .

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

38

au
x

Exemple. Soit lapplication f de classe C (i.e. infiniment differentiable) :

Son vecteur gradient en un point (x, y) est :




3x2 9y
f (x, y) =
,
3y 2 9x

2 f (x, y) =

6x 9
9 6y

pe

et sa matrice Hessienne :

Pr

f : R2 R
(x, y) f (x, y) = x3 + y 3 9xy

-P
hil
ip

Les points critiques, solutions de f (x, y) = 0 sont les 2 points (0, 0) et (3, 3). En ces
points, les matrices Hessiennes sont :




0 9
18 9
2
2
f (0, 0)
f (3, 3) =
9 18
9
0
2 f (0, 0) a une trace nulle et un determinant strictement negatif, elle nest donc ni
semi-definie positive, ni semi-definie negative : (0, 0) nest pas un extremum local.

an

2 f (3, 3) a une trace et un determinant strictement positifs : (3, 3) est un minimum local.
f nadmet aucun extremum global puisque :
lim f (x, 0) = +

Je

x+

lim f (x, 0) = .

igh
t:

Remarques. La condition suffisante du 2e ordre sutilise pour montrer quun point critique est un extremum local. La condition necessaire du 2e ordre sutilise pour montrer
quun point critique nest pas un extremum local. Lorsquen un point critique la matrice
Hessienne est semi-definie positive ou negative, on ne sait `a ce stade rien conclure ! Regarder `a ce sujet lexercice 2 page 49.
Pour montrer quune matrice est/nest pas definie positive/negative on utilise le theor`eme
A.4, page 117. Pour montrer quune matrice est/nest pas semi definie positive/negative
on utilise le theor`eme A.5 page 117.

Co

py
r

Letude locale ne suffit pas pour determiner lexistence dextrema globaux. En general
on utilise des proprietes globales de lapplication pour determiner si parmi les extrema
locaux, certains sont globaux. On montre le resultat suivant (peu utile en pratique, mais
bon `a savoir, voir exercice 5 page 49 pour une preuve.) :
Proposition II.1 Soit D un sous-ensemble connexe de Rn , f : D R une application
continue, et soit u D un minimum (resp. maximum) local de f . Alors u est un minimum
(resp. maximum) global de f si et seulement si, x D tel que f (x) = f (u), x est un
minimum (resp. maximum) local de f .

II.3. PROGRAMMATION CONVEXE

Programmation convexe

au
x

II.3

39

Nous abordons ici les notions de convexite (large, stricte, forte) qui sont de premi`ere
importance en optimisation :
pour une application convexe un minimum local est aussi un minimum global,

Pr

une application strictement convexe est convexe et un minimum, sil existe, est unique
(et donc strict),

II.3.1

pe

une application fortement convexe est strictement convexe et coercive, et donc admet
un et un seul minimum global.

Applications convexes, strictement convexes

-P
hil
ip

D
efinition. Un sous-ensemble C de Rn est convexe si

x, y C, t [0, 1], tx + (1 t)y C

[u, v]

u
v

igh
t:

Je

an

(i.e. pour tout couple de points x, y C le segment [x, y] est inclus dans C, cf. figure II.3).

py
r

Figure II.3 A gauche un sous-ensemble convexe de R2 , `a droite un sous-ensemble non


convexe.

Co

Propri
et
es.
Tout sous-espace affine de Rn (en particulier Rn ) est convexe.
Toute boule de Rn , ouverte ou fermee, est un convexe de Rn .
Lintersection de convexes de Rn est un convexe de Rn .
Si C1 , C2 sont deux convexes de Rn , et R, alors 1 C1 + C2 et C1 sont des convexes de
Rn .
1. En notant : C1 + C2 = {x + y Rn | x C1 , y C2 } ; C1 = {x Rn , | x C1 }.

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

40

D
efinitions. Soit C Rn un ensemble convexe non vide et f : C R.
Lapplication f est convexe si :

tf (x) + (1 t)f (y) > f (tx + (1 t)y)

Pr

x, y C, t [0, 1],

au
x

Si C1 est un convexe de Rp et C2 est un convexe de Rq , leur produit cartesien C1 C2 =


{(x, y) Rp Rq | x C1 , y C2 } est un convexe de Rp Rq Rp+q .

(i.e. dans Rn+1 le segment joignant (x, f (x)) et (y, f (y)) reste au-dessus de la nappe
representative de la fonction, cf. figure II.4.)

x, y C, x 6= y, t ]0, 1[,

pe

Lapplication f est strictement convexe si :

tf (x) + (1 t)f (y) > f (tx + (1 t)y)

-P
hil
ip

(i.e. dans Rn+1 le segment joignant (x, f (x)) et (y, f (y)) reste strictement au dessus de
la nappe representative de la fonction.)

f (tx + (1 t)y)

tx + (1 t)y

Je

f (tx + (1 t)y)

tf (x) + (1 t)f (y)

an

tf (x) + (1 t)f (y)

tx + (1 t)y

igh
t:

Figure II.4 A gauche une application (strictement) convexe de R dans R, `a droite une
application non convexe.

Co

py
r

Propri
et
es.
Toute application affine, definie sur un convexe, est convexe et non strictement convexe.
La somme dapplication (resp. strictement) convexes est (resp. strictement) convexe.
Si f est (resp. strictement) convexe et R+ (resp. R+ ) alors f est (resp. strictement) convexe.
Si f est (resp. strictement) convexe et a, b R, a 6= 0, alors lapplication x f (ax + b)
est (resp. strictement) convexe.
Si f1 , . . . , fp sont (resp. strictement) convexes alors lapplication 2 sup f1 , . . . , fp est
(resp. strictement) convexe.
Une application convexe sur C est continue en tout point de int(C).
2. Definie par : sup f1 , . . . , fp : x sup{f1 (x), . . . , fp (x)}.

II.3. PROGRAMMATION CONVEXE

41

Pr

au
x

Les conditions formulees pour la definition dune application convexe, strictement


convexe, bien que significatives geometriquement, ne sont pas toujours pratiques, car
il peut etre difficile sous cette forme de verifier si une application donnee les verifie.
Aussi donnons-nous des conditions du premier et du second ordre pour sassurer de
la convexite dune fonction verifiant des hypoth`eses adequates de differentiabilite ; elles
generalisent en dimension superieure la caracterisation bien connue dune application
convexe f : R R : lorsque f est derivable, sa derivee f 0 est croissante, lorsque f
est deux fois derivable, x, f 0 (x) > 0 .

-P
hil
ip

pe

Th
eor`
eme II.5 (Caract
erisations de la convexit
e.) Soit U un ouvert convexe de Rn
et f : U R une application.
1. (`
a lordre 1.) Si f est differentiable sur U, alors
a. x, y U, f (y) > f (x) + hf (x), y xi f est convexe sur U,
b. x, y U, x 6= y, f (y) > f (x) + hf (x), y xi f est strictement convexe
sur U.
2. (`
a lordre 2.) Si f est 2 fois differentiable sur U, alors
a. x U, 2 f (x) est semi-definie positive f est convexe sur U,
b. x U, 2 f (x) definie positive = f est strictement convexe.

Je

an

Remarques. Attention, limplication de 2.b ne saurait admettre de reciproque en general


comme le montre lexemple de f (x) = x4 qui est strictement convexe sur R2 tandis que
f 00 (0) = 0. Par contre, comme nous le verrons, pour une fonction quadratique la reciproque
est vraie.
La premi`ere assertion exprime geometriquement que la nappe representative dune application (resp. strictement) convexe differentiable se situe au dessus de chacun de ses
espaces tangents (resp. et ne lintersecte quen un point).

igh
t:

D
emonstration. Montrons s
epar
ement les assertions 1 et 2.
1. Soient x, y deux points distincts de U et t ]0, 1[.
Si f est convexe, f (x + ty) 6 (1 t)f (x) + tf (y), ce qui s
ecrit aussi
Par passage a
` la limite :
hf (x), y xi = lim

t0

1
(f (x
t

+ t(y x)) f (y) 6 f (y) f (x).

f (x + t(y x)) f (y)


6 f (y) f (x).
t

py
r

Si f est strictement convexe. Consid


erons un nombre ]0, 1[, on v
erifie : x+t(yx) = t
x+ t (x+(yu)).

t
Alors en prenant 0 < t 6 , on d
eduit par convexit
e de f que : f (x + t(y x)) 6 f (x) + t f (x + (y x)).
1
1
On en d
eduit alors : t (f (x + t(y x)) f (x)) 6 (f (x + (y x)) f (x)). Puisque f est strictement convexe
1
on a dautre part :
(f (x + (y x)) f (x)) < f (y) f (x). On a donc
etabli la double in
egalit
e suivante :
1
1
(f
(x
+
t(y

x))

f
(x)) 6
(f (x + (y x)) f (x)) < f (y) f (x). Par passage a
` la limite en faisant tendre t
t
vers 0 et gardant fix
e, on obtient lin
egalit
e stricte recherch
ee :
hf (x), y xi = lim

f (x + t(y x)) f (y)


< f (y) f (x).
t

Co

t0

R
eciproquement, supposons que f (y) > f (x) + hf (x), y xi pour tout x, y U .
Alors pour x 6= y dans U et t ]0, 1[, on a en particulier f (y) > f (y + t(x y)) thf (y + t(x y)), x yi ainsi
que f (x) > f (y + t(x y)) + (1 t)hf (y + t(x y)), x yi. En multipliant la premi`
ere in
egalit
e par (1 t), la
deuxi`
eme par t puis en sommant on obtient :
f (tx + (1 t)y) 6 tf (x) + (1 t)f (y)

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

42

et z U tels que y x = (y z) et f (y) f (x) hf (x), y xi =


on d
eduit alors la convexit
e ou la stricte convexit
e de f .

2
(y
2

au
x

ce qui montre la convexit


e de f ; lorsque les in
egalit
es sont strictes on obtient une in
egalit
e stricte et f est strictement
convexe.
2. En appliquant la formule de Taylor-MacLaurin (cf. A.2.4 page 114) au point x U , on obtient quil existe > 0
z)> 2 f (z)(y z). En appliquant 1

Il reste `
a montrer limplication r
eciproque dans 2.a. Donn
e un point x U consid
erons lapplication g : U R,
d
efinie par g(y) = f (y) hf (x), yi. Alors g(y) g(x) = f (y) f (x) hf (x), y xi et puisque f est convexe, avec

Pr

1.a, y U , g(y) g(x) > 0. Ainsi x est un minimum de g sur U . Or g est 2 fois diff
erentiable et 2 g(x) = 2 f (x).
En appliquant le th
eor`
eme II.4.1 (condition n
ecessaire du second ordre), on en d
eduit que 2 f (x) est semi-d
efinie

II.3.2

Programmation convexe

-P
hil
ip

On parle de programmation convexe lorsque :

pe

positive.

f : Rn R est une application convexe, `a optimiser sur

D = {x U Rn | i (x) = 0, i = 1, . . . , p, j (x) 6 0, j = 1, . . . , q}
o`
u:

Lensemble U est un sous-ensemble convexe non vide de Rn ,

an

les applications 1 , . . . , p : Rn R sont affines,

les applications 1 , . . . , q : Rn R sont convexes.

Je

Dans ce cas D est un sous-ensemble convexe de Rn , comme le montre le resultat suivant :

igh
t:

Proposition II.2 (Convexit


e du domaine.) Si les applications 1 , . . . , p : Rn R
sont affines, si les applications 1 , . . . , q : Rn R sont convexes, et si U Rn est un
ensemble convexe, alors le domaine :
D = {x U Rn | i (x) = 0, i = 1, . . . , p, j (x) 6 0, j = 1, . . . , q}
est un ensemble convexe de Rn

py
r

D
emonstration. Montrons tout dabord que j
etant convexe, lensemble Cj = {x Rn | j (x) 6 0} est un
convexe de Rn . Soient x, y Cj , on a j (x) 6 0, et j (y) 6 0. Alors par convexit
e de j , pour t [0, 1],
j (tx + (1 t)y) 6 tj (x) + (1 t)j (y) 6 0. Ainsi [x, y] Cj et donc Cj est un convexe. Dautre part puisque
i est affine, lensemble {x Rn | i (x) = 0} est un sous-espace affine et donc un convexe de Rn . Ainsi D est une

Co

intersection de convexes de Rn et est donc convexe.

Si la convexite est une notion de premi`ere importance en optimisation, cest dabord


parce quen programmation convexe un minimum local est aussi global. De plus une application strictement convexe admet au plus un minimum. Cest le resultat suivant.

II.3. PROGRAMMATION CONVEXE

43

pe

Pr

au
x

Th
eor`
eme II.6 (Programmation convexe.) Soient C un sous-ensemble convexe de
n
R , f : C R une application convexe et x0 C.
1. Les conditions suivantes sont equivalentes :
(i) x0 est un minimum local de f ,
(ii) x0 est un minimum global de f .
Si de plus f est differentiable en x0 C, (i) et (ii) sont equivalents `
a:
(iii) si x0 int(C), f (x0 ) = 0.
(iv) x C, hf (x0 ), x x0 i > 0
2. Si f est strictement convexe, f admet au plus un minimum, et un minimum de f est
toujours strict.

-P
hil
ip

D
emonstration. Limplication (ii) = (i) est
evidente ; montrons la r
eciproque. Soit x0 un minimum local de
f sur C soit y = x0 + z un point quelconque de C et t [0, 1]. La convexit
e de f implique que f (x0 + tz) 6
(1 t)f (x0 ) + tf (y), ce qui s
ecrit aussi f (x0 + tz) f (x0 ) 6 t(f (y) f (x0 )). Le point x0
etant un minimum relatif,
il existe t0 ]0, 1[ tel que 0 6 f (x0 + t0 z) f (x0 ). Cela montre que 0 6 f (y) f (x0 ) et donc x0 est un minimum
global de f sur C.
Si f est strictement convexe le m
eme raisonnement conduit aux in
egalit
es 0 6 f (x0 + tz) < (1 t)f (x0 ) + tf (y)
qui montrent que x0 est un minimum strict, et en particulier est unique.
L
equivalence entre (ii) et (iv) est une cons
equence imm
ediate du th
eor`
eme II.5.1.a.
Pour finir montrons l
equivalence entre (i) et (iii). Si f est diff
erentiable en x0 int(C) et si x0 est un minimum
local de f sur C, la
equation dEuler implique que f (x0 ) = 0. R
eciproquement consid
erons une boule ouverte
B centr
ee en x0 dans int(C) ; B est un ouvert convexe et f est clairement encore convexe sur B. Si f (x0 ) = 0,

an

la condition 1 du th
eor`
eme II.5 implique que x0 est un minimum de f sur B, et donc un minimum local de f sur C. 

II.3.3

Je

Remarque. Une application convexe ou strictement convexe nadmet pas forcement un


minimum. Exemple : f (x) = ex est une application strictement convexe (f 00 (x) = ex > 0)
nadmettant aucun minimum, puisque f 0 (x) = ex 6= 0.

Applications elliptiques

igh
t:

Une application convexe, ou meme strictement convexe nadmet pas en general de minimum global. Il existe une condition plus forte, la forte convexite 3 qui assure lexistence
dun unique minimum global. Nous voyons cette notion ici dans un cadre plus restreint o`
u
1
n
lapplication consideree est de plus de classe C sur R ; on parle alors plutot dapplication
-elliptique, ou encore elliptique.

py
r

D
efinition. Soit f : Rn R une application de classe C 1 . Lapplication f est elliptique
ou encore -elliptique, sil existe un reel > 0, tel que :
x, y Rn ,

hf (x) f (y), x yi > kx yk2

Co

On peut pour une application deux fois differentiable en donner une caracterisation `a
lordre 2.

3. En toute generalite une application f definie sur un domaine convexe C de Rn est dite fortement
convexe ou encore -convexe, si il existe un reel > 0, tel que x, y C, t [0, 1], tf (x) + (1 t)f (y) >
f (tx + (1 t)f (y)) + t(1t)
kx yk2 . Lorsque f est de classe C 1 et C = Rn cette definition est equivalente
2
a
` l-ellipticite de f .

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

Pr

au
x

44

pe

Figure II.5 De gauche `a droite, les graphes dune application convexe, strictement
convexe, elliptique (ou fortement convexe).

-P
hil
ip

Proposition II.3 (Caract


erisation de lellipticit
e`
a lordre 2.) Soit f : Rn R
une application deux fois differentiable. Alors f est -elliptique si et seulement si :
x, u Rn ,

x> 2 f (u)x > kxk2

D
emonstration. Si f est -elliptique et deux fois diff
erentiable, on a
x> 2 f (u)x = lim

t0

hf (u + tx) f (u), xi
hf (u + tx) f (u), txi
= lim
> kxk2 .
t0
t
t2

an

R
eciproquement, on consid`
ere lapplication g : Rn R d
efinie par g(z) = hf (z), y xi, avec x, y fix
es dans Rn ,
et on lui applique la formule de Taylor-McLaurin a
` lordre 1 au voisinage de x. Il existe [0, 1] tel que :
hf (y) f (x), y xi = g(y) g(x) = hg(x + (y x)), y xi

Je

= (y x)> 2 f (x + (y x))(y x) > ky xk2 ,

par hypoth`
ese, et donc f est -elliptique.

II.3.4

igh
t:

Remarque. Ce resultat peut sinterpreter par : une application f deux fois differentiable
est -elliptique si et seulement si pour tout x Rn les valeurs propres de 2 f (x) sont
minorees par .

Programmation elliptique

py
r

Le resultat suivant assure de lexistence dun minimum pour une application elliptique
sur un domaine convexe ferme.

Co

Th
eor`
eme II.7 (Programmation elliptique.) Soit f : Rn R une application elliptique. Alors :
x, y Rn ,

f (y) f (x) > hf (x), y xi +

ky xk2 .
2

De plus f est coercive et strictement convexe. Sur un domaine convexe ferme et non vide
de Rn , elle admet un unique minimum.

II.3. PROGRAMMATION CONVEXE

45

D
emonstration. Appliquons la formule de Taylor avec reste int
egral `
a lordre 1 :
1

au
x

Z
f (y) f (x) =

hf (x + (y x)), y xi d
0

hf (x + (y x)) f (x), y xi d
0
Z 1

> hf (x), y xi +

ky xk2 d

= hf (x), y xi +

ky xk2 .
2

On d
eduit alors de cette in
egalit
e : dune part,
x 6= y Rn ,

pe

f (y) > f (x) + hf (x), y xi

Pr

= hf (x), y xi +

et donc avec le th
eor`
eme II.5.1.b f est strictement convexe. Dautre part f est coercive puisque :

kxk2 > f (0) kf (0)k kxk + kxk2 .


2
2

-P
hil
ip

f (x) > f (0) + hf (0), xi +

Soit C un domaine convexe ferm


e et non vide de Rn . Si D est non born
e, alors f y admet un minimum par le th
eor`
eme
II.2. Si D est born
e, alors f y admet un minimum par le th
eor`
eme II.1 et le fait quune application convexe est

Co

py
r

igh
t:

Je

an

continue. De plus ce minimum est unique puisque f est strictement convexe sur D.

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

46

Programmation quadratique sans contraintes

au
x

II.4

Nous appliquons ici les resultats obtenus dans les sections precedentes au cas particulier
important de la programmation quadratique sans contraintes.

Applications quadratiques

Pr

II.4.1

D
efinition. Une application f : Rn R est quadratique lorsque cest un polynome de
degre 2.
Une application quadratique est de la forme :

n
n
X
X
1X
c
aii x2i +
aij xi xj
bi xi + |{z}
2
i=1
i<j
i=1
constante
| {z }
{z
}
|

En posant :

A = (aij ) i=1,...,n
j=1,...,n

forme lin
eaire

-P
hil
ip

forme quadratique

pe

f (x1 , x2 , . . . , xn ) =

a11 a1n

.. M (R)
..
= ...
n
.
.
an1 ann

b1

b = ... Rn
bn

Je

an

x1

et x = ... Rn on ecrit lapplication quadratique f sous forme matricielle :


xn
1
f (x) = hAx, xi hb, xi + c
2

ou encore :

igh
t:

1
f (x) = x> Ax b> x + c
2
Linteret ne reside pas que dans la concision de lecriture : on obtient immediatement le
vecteur gradient et la matrice Hessienne :

Co

py
r

Th
eor`
eme II.8 (Gradient, matrice hessienne, dune application quadratique.)
Soit f (x) = 12 hAx, xi hb, xi + c une application quadratique. Alors f est infiniment
differentiable et,
f (x) = Ax b,
2 f (x) = A.

D
emonstration. f est polynomiale, et donc infiniment diff
erentiable. Pour tout i = 1, 2, . . . , n, le calcul donne
2
Pn
f
f
(x)
=
a
x

b
,
donc
f
(x)
=
Ax

b.
Pour
tout
i, j = 1, 2, . . . , n, x x
(x) = aij , et lon obtient
ij
j
i
j=1
x
i

2 f (x) = A.

II.4. PROGRAMMATION QUADRATIQUE SANS CONTRAINTES

II.4.2

47

Programmation quadratique

au
x

La convexite dune application quadratique est totalement caracterisee par sa matrice


hessienne (contrairement au cas dune application quelconque, comparer avec le theor`eme
II.5.2). De plus dans ce cas strictement convexe = fortement convexe.

Pr

Th
eor`
eme II.9 (Convexit
e dune application quadratique.) Soit lapplication qua1
dratique f (x) = 2 hAx, xi hb, xi + c. Alors :
f convexe A semi-definie positive
f strictement convexe f fortement convexe A definie positive.

-P
hil
ip

pe

D
emonstration. Puisque 2 f (x) = A, par d
efinition A est d
efinie positive si et seulement si f est 1 -convexe
(i.e. fortement convexe) o`
u 1 > 0 d
esigne la plus petite valeur propre de A. La forte convexit
e impliquant la
convexit
e stricte, avec le th
eor`
eme II.5 il ne reste plus qu`
a montrer que si f est strictement convexe alors A est
d
efinie positive. Supposons donc que f est strictement convexe ; en particulier f est convexe et donc A est semid
efinie positive. Proc
edons par labsurde en supposant que A nest pas d
efinie positive : ainsi A admet 0 pour valeur
propre, et soit E0 = ker A le sous-espace propre associ
e ; il est de dimension au moins 1 et pour tout x E0 ,
hAx, xi = 0. Puisque f est quadratique le d
eveloppement de Taylor-Young `
a lordre 2 s
ecrit ici :
x Rn , f (u + x) f (u) = hf (u), xi +
Ainsi, x E0 ,

1
hAx, xi
2

f (u + x) = f (u) + hf (u), xi

et donc la restriction de f `
a E0 est une application affine, et donc convexe mais non strictement convexe. Cel`
a
contredit le fait que f est strictement convexe. Ainsi A est d
efinie positive.

an

Nous pouvons maintenant caracteriser les extrema dune application quadratique.

igh
t:

Je

Th
eor`
eme II.10 (Programmation quadratique.) Soit f (x) = 21 hAx, xi hb, xi +
c une application quadratique sur Rn et u Rn . Si A est semi-definie positive (resp.
negative), alors f admet un minimum (resp. maximum) global et les propositions suivantes
sont equivalentes :
u est un minimum (resp. maximum) local de f ,
u est un minimum (resp. maximum) global de f ,
Au = b, i.e. u est solution du syst`eme dequations lineaires Ax = b.
Si A est definie positive f admet un unique minimum (resp. maximum) global.
D
emonstration. Puisque A est semi-d
efinie positive (resp. n
egative), f (resp. f ) est convexe et l
equivalence des
3 assertions d
ecoule des th
eor`
emes II.6 et II.8. En particulier la 3`
eme assertion a pour cons
equence que f admet

py
r

un minimum (resp. maximum) puisque le syst`


eme Ax = b admet au moins une solution. Si A est d
efinie positive,
det(A) 6= 0, le syst`
eme est de Cramer et lextremum est unique.

2 1
0
3
2 1 et b = 1 . Le
Exemple. Soit f (x) = 12 x> Ax b> x avec A = 1
0 1
2
2
polynome caracteristique de A est

Co

pA () = 8 12 + 6 =

3
Y
i=1

X
i6=j

i j +

3
X
i=1

i 3 ,

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

48

3
Y

i = 8 > 0,

i=1

i j = 12 > 0,

3
X

i = 6 > 0

au
x

o`
u 1 , 2 , 3 designent les valeurs propres de A (A est diagonalisable puisque symetrique
reelle). Ainsi (cf. theor`eme A.4),
= 1 , 2 , 3 > 0

i=1

i6=j

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Pr

et donc A est definie positive = f a un unique minimum global qui est lunique solution
de Ax = b.

= 3
9/4
2x y
x +2y z =
1 x = 3/2 minimum de f .
Ax = b

y +2z = 2
7/4

II.4. PROGRAMMATION QUADRATIQUE SANS CONTRAINTES

49

au
x

Exercices.
Exercice 1. Determiner les extrema locaux et globaux de lapplication f : R2 R
definie par :
f (x, y) = x3 + y 3 + x2 + y 2 1 .

f (x, y) = x4 + y 4 x3 y 3 .
a. Que peut-on dire de lexistence dextrema globaux pour f ?

pe

b. Determiner tous les extrema globaux de f .

Pr

Exercice 2. On consid`ere lapplication f : R2 R definie par :

c. Montrer le resultat :

-P
hil
ip

Soit g : Rn R une application differentiable et u un point critique de g, alors u est


un minimum local de g si et seulement si g est convexe sur une boule ouverte centree en
u.
d. En deduire tous les extrema locaux de f .

Exercice 3. Un rayon lumineux effectue un trajet spatial dun point A1 situe dans un
milieu ayant pour indice de refraction n1 `a un point A2 situe dans un milieu ayant pour
indice de refraction n2 ; les deux milieux etant separes par un plan.

an

A1

Indice de refraction n1

M
i2

igh
t:

Je

i1

Indice de refraction n2

A2

py
r

En appliquant le principe que la lumi`ere parcourt le trajet le plus rapide, retrouver la loi
de Descartes de refraction de la lumi`ere : n1 sin i1 = n2 sin i2 .

Co

Exercice 4. Le but de lexercice est de prouver le theor`eme de projection convexe :


Soit C un sous-ensemble convexe ferme non vide de Rn . Donne u Rn il existe un
unique point PC (u) C, tel que :
kPC (u) uk = min kv uk .
vC

On lappelle le projete de u sur C. Il est caracterise par :


v C, hPC (u) u, v PC (u)i > 0 .

ERALIT

SUR LOPTIMISATION
CHAPITRE II. GEN
ES

50

x, y Rn , kPC (x) PC (y)k 6 kx yk .


a. Prouver lexistence et lunicite de PC (u).
b. Prouver la caracterisation donnee de PC (u).

au
x

De plus lapplication PC est contractante, i.e. :

Pr

c. Utiliser cette caracterisation pour prouver que PC est une application contractante.
Exercice 5. Le but de lexercice est de prouver la proposition II.1 :

pe

Soient D Rn connexe, f : D R continue, et u D un min (resp. max) local de


f . Alors u est un min (resp. max) global de f ssi x tel que f (x) = f (u), x est un min
(resp. max) local de f .
Sans perte de generalite, quitte `a changer f en f , on la montrera pour u un min local.

-P
hil
ip

Soit u = f (u) R.

1. Montrer que f 1 (] , u[) est un ouvert de D.

2. Montrer que {D f 1 (] , u[) est un voisinage de tout point de f 1 ({v}) pour v > u.
3. Soit x f 1 ({u}) ; appliquer lhypoth`ese que x est un min local pour montrer que
{D f 1 (] , u[) est un voisinage de x.
4. Deduire de 2 et 3 que f 1 (] , u[) est un ferme de D.

Co

py
r

igh
t:

Je

an

5. Appliquer la connexite de D avec 1 et 4 pour montrer que f 1 (] , u[) = . Conclure.

au
x
Pr

Chapitre III

pe

Programmation sous contraintes

-P
hil
ip

Probl`
eme : Soit D un sous-ensemble propre (i.e. 6= Rn ) et non vide de Rn . Soit lapplication f : D R dont on cherche les extrema.
Lorsque D est un ouvert de Rn et f est differentiable (1 ou 2 fois) sur D les notions vues
au chapitre II sappliquent pour etudier les extrema locaux, et on peut dans certains cas
en deduire les extrema globaux de f .
Lorsque D nest pas un ouvert, les notions du chapitre II sav`erent insuffisantes pour
etudier les extrema locaux et globaux de f .

an

Comment generaliser les conditions du 1er et 2e ordre vues au chapitre II dans le cas
sous contraintes ? Cest lobjet de ce chapitre.

igh
t:

Je

Nous procedons en deux etapes. Nous considerons dans une premi`ere partie le cas plus
restrictif o`
u toutes les contraintes sont egalitaires ; lequation dEuler se generalise par les
conditions de Lagrange. Nous voyons ensuite dans une deuxi`eme partie le cas general sous
contraintes egalitaires et inegalitaires ; les conditions de Lagrange sy generalisent par les
conditions de Karush-Kuhn-Tucker.

III.1

Optimisation sous contraintes


egalitaires

III.1.1

Enonc
e du probl`
eme

Co

py
r

Soit U un ouvert non vide de Rn (le plus souvent U = Rn ). Soit f : U R une


application differentiable sur U, et 1 , 2 , . . . , p : U R des applications de classe C 1
sur U (i.e. i est differentiable et i : x 7 i (x) est continue ; cest le cas en particulier
lorsque i est 2 fois differentiable). Soit le domaine D :
D = {x U | i (x) = 0, i = 1, 2, . . . , p} .

Le probl`eme :
min f (x)
xD

(respectivement max f (x))


xD

51

52

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

au
x

est un probl`eme de minimisation (respectivement de maximisation) sous contraintes


egalitaires.

III.1.2

Pr

T
Remarque. Lorsque U = Rn , D = pi=1 1
e de Rn , et tr`es souvent
i ({0}) est un ferm
dinterieur vide. Or lequation dEuler ne sapplique que dans linterieur de D.

Exemples en dimension 2.

pe

Nous voyons ici deux exemples, en dimension 2, qui vont nous permettre par une approche geometrique de degager les idees directrices pour nous conduire aux conditions de
Lagrange.

Cf

Cfmin

an

-P
hil
ip

Exemple A. Soit D = {(x, y) R2 | x2 + y 2 = 1} le cercle unite de centre (0, 0). Soit


f : R2 R, f (x, y) = x. Lapplication f na aucun point critique sur D : f (x, y) =
(1, 0) 6= 0. Or D est un compact (car ferme et borne) de Rn = un minimum et un
maximum de f sur D. (On constate que lequation dEuler ne sapplique pas ici.)
On a deux solutions evidentes, un maximum (1, 0) et un minimum (1, 0).

max

min
1

Je

Ck

Cfmax

max
1 x

min
1
D

igh
t:

1
1

py
r

Figure III.1 Sur la figure de gauche : la courbe representative Cf dans R3 de f au-dessus


du domaine D, ainsi que le minimum et le maximum. Sur la figure de droite : le domaine
D et les lignes de niveau dans R2 ; aux extrema les lignes de niveau sont tangentes au
domaine.

Co

Graphiquement (cf. figure III.1) on constate quaux extrema trouves les courbes de niveau
sont tangentes au domaine.

Exemple B. Soit D = {(x, y) R2 | xy = 1} et f (x, y) = x2 + y 2 . Lapplication f


est coercive sur le ferme (non borne) D = un minimum et 6 de maximum de f sur D.


III.1. OPTIMISATION SOUS CONTRAINTES EGALITAIRES

53

fx

1
0

1
0

+
+

Pr

x
fx0

+ +


R
@

pe

R
@

@
@

au
x

On se ram`ene `a un probl`eme sans contrainte `a une seule variable, en utilisant la


4
contrainte pour supprimer une variable. Soit y = x1 , fx : R R, fx (x) = f (x, x1 ) = x x+1
2 .
41
x
On etudie les variations de fx , sa derivee est fx0 (x) = 2
.
x3

-P
hil
ip

Ainsi fx a deux minima globaux : x = 1 = f a deux minima globaux sur D : a(1, 1)


et b(1, 1).
On trace dans R2 le domaine D ainsi que des courbes de niveau de f . Une fois de plus
on constate quaux extrema trouves les courbes de niveau de f sont tangentes au domaine
D (cf. figure III.2).

an

Je

C8

C1

igh
t:

Cfmax

py
r

Co

Figure III.2 Le domaine admissible D R2 et 3 courbes de niveau.

Que dire de cette constatation ? Est-ce une concidence ou un principe general ? Dans
ce dernier cas est-ce une condition necessaire, suffisante, `a lexistence dextrema ?

54

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

f (x) f (a) + hf (a), da i

Pr

f (x) = f (a) + hf (a), da i + o(||)

au
x

Soit D = {x Rn | (x) = 0}. Puisque est de classe C 1 et que (A) 6= 0, il existe


(cf. theor`eme A.2) un vecteur tangent da `a D en a. Si x est dans un voisinage de a dans D,
alors x = a + da + o(kk) pour dans un voisinage de 0. Or puisque f est differentiable
on a la formule de Taylor `a lordre 1, f (x) = f (a) + hf (a), x ai + o(kx ak). En
prenant x dans D, x = a + da + o(||), ainsi :

-P
hil
ip

pe

= si hf (a), da i 6= 0 alors f (x) f (a) ne garde pas un signe constant lorsque x est
dans un voisinage de a dans D.
= Si hf (a), da i 6= 0 alors a nest pas un extremum local.
Or en tout point x le vecteur gradient a la propriete detre perpendiculaire `a la courbe de
niveau (cela se verifie aisement `a laide du developpement de Taylor-Young `a lordre 1).
= Une condition necessaire pour que a soit un extremum local est bien que la courbe
de niveau passant par a soit tangente `a D. Notre constatation sav`ere etre une condition
necessaire `a lexistence dextrema.
On peut lexprimer par une equation. Lequation de la tangente `a la courbe de niveau
passant par a est :
hf (a), x ai = 0.

an

Lequation de la tangente au domaine D en a est :

h(a), x ai = 0

Je

Donc la condition necessaire secrit : f (a) et (a) sont colineaires. On aboutit `a :


Si a un extremum local alors 1 , 2 non tous deux nuls, tels que :

igh
t:

1 f (a) + 2 (a) = 0

Nous allons generaliser cette relation (Conditions de Lagrange) pour enoncer un principe
plus general : le principe de Lagrange.

III.1.3

Principe de Lagrange

Co

py
r

Il sagit dune condition necessaire `a lexistence dun extremum local pour un probl`eme
sous contrainte egalitaire, generalisant lequation dEuler. Plus generalement letude des
extrema de f sur D se ram`ene `a letude dextrema sans contrainte dun fonction appelee
le Lagrangien du probl`eme.
Th
eor`
eme III.1 (Conditions de Lagrange.) Soient f une application differentiable
sur un ouvert U non vide de Rn et 1 , . . . , p des applications de classe C 1 sur U.
D = {x U | i (x) = 0, i = 1, 2, . . . , p}


III.1. OPTIMISATION SOUS CONTRAINTES EGALITAIRES

55

au
x

Si u D est un extremum local de f sur D, et si les vecteurs 1 (u), . . . , p (u) forment


une famille lineairement independante, alors ! 1 , 2 , . . . , p R, appeles multiplicateurs
de Lagrange, tels que :
p
X
f (u) +
i i (u) = 0

Pr

i=1

D
emonstration. Soit u D un point verifiant les hypoth`eses du theor`eme. Le fait que 1 , . . . , p soient
de classe C 1 et que la famille 1 (u), . . . , p (u) soit lineairement independante a pour consequence
lexistence dun espace tangent `
a D en u de codimension p (cf. theor`eme A.2), qui est :
Tu D =< 1 (u), . . . , p (u) > = {x Rn | < i (u), x >= 0, i = 1, . . . , p}

pe

Soit e1 , . . . , enp une base orthogonale de Tu D. Lorsque x est dans un voisinage de u dans D, il existe
P
ecrit un voisinage de 0 dans
a = (a1 , . . . , anp ) Rnp tel que x = u + np
i=1 ai ei + o(kak) et a d
Rnp lorsque x decrit un voisinage de u. Or on a au voisinage de u dans U le developpement de Taylor-

-P
hil
ip

Young a
` lordre 1 : f (x) = f (u) + hf (u), x ui + o(kx uk). Pour i = 1, . . . , p, notons x(ai ) le
projete orthogonal de x sur la droite affine u+ < ei >. On a alors x(ai ) = u + ai ei + o(|ai |) et
f (x(ai )) f (u) = ai hf (u), ei i + o(|ai |) pour ai dans un voisinage de 0. Ainsi, si hf (u), ei i 6= 0,
f (x(ai )) f (u) ne garde pas un signe constant lorsque ai decrit un voisinage de 0, ce qui contredit le
fait que u soit un extremum de f sur D. Ainsi, necessairement, i = 1, . . . , n p, hf (u), ei i = 0.
Donc f (u) < e1 , . . . , enp > =< 1 (u), . . . , p (u) > ; ainsi 1 , . . . , p R tels que f (u) =
Pp

i=1 i i (u). Ils sont uniques puisque la famille 1 (u), . . . , p (u) est libre.

an

Interpr
etation g
eom
etrique. Si les vecteurs 1 (u), . . . , p (u) sont lineairement
independants lespace tangent Tu D `a D en u existe et (cf. theor`eme A.2 page 116) :

Je

Tu D = {x Rn | hi (u), xi = 0, i = 1, . . . , p} .

igh
t:

Les conditions de Lagrange expriment quen un point extremum, le vecteur gradient est
perpendiculaire `a lespace tangent. Noter que f (u) (resp. f (u)) est la direction locale de plus grand accroissement (resp. de plus grande decroissance) de f , et quelle est
perpendiculaire aux hypersurfaces de niveau. Ainsi, on retrouve la constatation dej`a faite,
quen un extremum local lhypersurface de niveau est tangente au domaine.

py
r

Remarque. Plus generalement, sans lhypoth`ese (de qualification des contraintes)


1 (u), . . . , p (u) sont lineairement independants, on a, tout du moins, le resultat
plus faible suivant :

Co

u D est un extremum local = 0 , 1 , . . . , p non tous nuls tels que :


0 f (u) +

p
X

i i (u) = 0

i=1

Seulement lorsque 0 = 0 lequation nest pas informative pour f ... Aussi on suppose que
les 1 (u), . . . , p (u) sont lineairement independants : cela assure que 0 6= 0.

56

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

L : Rn Rp
7 R
P
(x, )
L(x, ) = f (x) + pi=1 i i (x)

au
x

Formulation lagrangienne. Le Lagrangien du probl`eme est lapplication :

-P
hil
ip

i=1

pe

Pr

Lorsque f, 1 , . . . , p sont differentiables, le vecteur gradient du Lagrangien en u Rn


est :

p
X

f
i
L
(u) +
i
(u)

(u, )

x1
x1
x1

p
i=1

.
.

..
..
x L(u, ) =
i i (u) .
= f (u) +
=

L

p
i=1

f
X i

(u, )
(u) +
i
(u)
xn
xn
xn
(on ne derive que par rapport aux variables primaires !).
La condition de Lagrange secrit alors, sous les hypoth`eses adequates :
u est un extemum local = ! Rp , x L(u, ) = 0

2x L(u, )


=

an

On definit aussi, lorsque f, 1 , . . . , p sont deux fois differentiables, la matrice Hessienne


du Lagrangien en u Rn , par :

p
X
2L
2
(u, )
= f (u) +
i 2 i (u) .
xi xj
i=1...n
i=1

Je

j=1...n

III.1.4

igh
t:

La condition de lagrange nest quune condition necessaire ; elle generalise dans le


cas de contraintes egalitaires lequation dEuler (theor`eme II.3). Elle ne permet pas de
determiner si une solution trouvee est bien un extremum local. Nous allons ameliorer ce
crit`ere en tenant compte, comme nous lavons fait dans le cas sans contrainte, dune part
de la convexite et dautre part de conditions necessaires, suffisantes du second ordre.

Prise en compte de la convexit


e

Co

py
r

Dans le cas de la programmation convexe, nous allons etablir que les conditions de
Lagrange sont necessaires et suffisantes `a lexistence dun minimum, qui plus est, global.
De plus elles ne necessitent plus aucune hypoth`ese de qualification des contraintes ; cela
est vrai plus generalement d`es lors que les contraintes sont affines.
Proposition III.1 (Simplification de l
enonc
e sous contraintes affines.) Si toutes
les contraintes i , i = 1, . . . , p sont affines, les conditions de Lagrange restent vraies, `
a
lexception de lunicite des multiplicateurs de lagrange, sans lhypoth`ese de qualification
des contraintes : 1 (u), . . . , p (u) est libre.


III.1. OPTIMISATION SOUS CONTRAINTES EGALITAIRES

57

D
emonstration. Lorsque 1 , . . . , p sont affines, les vecteurs 1 (x), . . . , p (x) ne d
ependent pas de x U . Si

au
x

la famille 1 (x), . . . , p (x) nest pas libre alors, sans perte de g


en
eralit
e, p (x) est une combinaison lin
eaire de
P
1 (x), . . . , p1 (x) : x U , p (x) = p1

(x).
Or
puisque
les

sont
affines

(x)
=
h
(x),
xi+ki ;
i
i
i
i
i
i=1
P
ainsi on obtient, x U, p (x) = k + p1

(x).
En
particulier
en
prenant
x

D,
k
=
0
et
la
contrainte
i=1 i i
p (x) = 0 est redondante de sorte quon peut la supprimer. On proc`
ede de m
eme tant que cest possible pour abou-

tir `
a une sous-famille de contraintes
egalitaires 1 , . . . , r , pour 1 r p, v
erifiant 1 (x), . . . , r (x) est libre.

Pr

Pour cette sous-famille, en un extremum local u D les conditions de Lagrange sappliquent et donc 1 , . . . , r R
P
P
tel que f (u) + ri=1 i i (u) = 0. En posant r+1 = = p = 0, on a aussi f (u) + pi=1 i i (u) = 0. 

-P
hil
ip

pe

Th
eor`
eme III.2 (CNS en programmation convexe.) Si U est un ouvert convexe, si
f est differentiable et convexe et si 1 , . . . , p sont affines, alors u est un minimum global
de f sur D = {x U | i (x) = 0, i = 1, . . . , p}, si et seulement si 1 , . . . , p R tels
que :
p
X
f (u) +
i i (u) = 0 .
i=1

D
emonstration. Soit u D un minimum de f sur D. Avec la proposition III.1 on peut appliquer le th
eor`
eme III.1
et on obtient les conditions n
ecessaires de Lagrange en u. Pour la r
eciproque on renvoie `
a la preuve du th
eor`
eme
III.6 o`
u elle est d
emontr
ee dans un cadre plus g
en
eral.

Conditions, n
ecessaire, suffisante, du second ordre

an

III.1.5

igh
t:

Je

En labsence de lhypoth`ese de convexite les conditions de Lagrange noffrent quune


condition necessaire `a lexistence dextrema (qui plus est sous des conditions suffisantes de
qualification des contraintes), et il est utile detablir des conditions necessaire, suffisante
`a lordre 2, comme nous lavons fait dans le cas sans contrainte. Cest ce que nous faisons
ici.
Soit U un ouvert de Rn , soit 1 , . . . , p : U R des applications de classe C 1 et
soit D = {x U Rn | i (x) = 0, i = 1, . . . , p} Rn . Si en u les vecteurs 1 (u), . . . ,
p (u) sont lineairement independants, alors lespace tangent Tu D `a D en u existe (voir
page 116) et
Tu D = {x Rn | hi (u), xi = 0, i = 1, . . . , p} .

py
r

Cest un sous-espace vectoriel de Rn de dimension n p.

Co

Th
eor`
eme III.3 (Conditions, n
ecessaire, suffisante, du 2e ordre.) Soit U un oun
vert non vide de R et soit f, 1 , . . . , p : U R des applications deux fois differentiables.
Soit u D tel que 1 (u), . . . , p (u) soient lineairement independants. Alors :
(CN) Si u est un minimum (resp. maximum) local de f sur D, alors :
! Rp , x L(u, ) = 0, et
x Tu D, h2x L(u, )x, xi > 0 (resp. 6 0),

58

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

Rp , x L(u, ) = 0, et
x Tu D \ {0}, h2x L(u, )x, xi > 0 (resp. < 0),

Pr

alors u est un minimum (resp. maximum) local strict de f sur D.

au
x

(CS) Si

D
emonstration. Soit x D un point dans un voisinage de u dans D, En ecrivant le developpement de
Taylor-Young de f a
` lordre 2 au voisinage de u,
f (x) f (u) = hf (u), x ui +

1
(x u)> 2 f (u)(x u) + o(kx uk2 )
2

(E)

0 = i (x) i (u) = hi (u), x ui +


Pp

i=1

1
(x u)> 2 i (u)(x u) + o(kx uk2 )
2

(Ei )

i (Ei ) on obtient en posant = (1 , . . . , p ) :

-P
hil
ip

Ainsi en formant lequation (E)

pe

ainsi que le developpement de Taylor-Young de i a


` lordre 2 au voisinage de u :

f (x) f (u) = L(x, ) L(u, ) = hx L(u, ), x ui +

1
(x u)> 2x L(u, )(x u) + o(kx uk2 ) ()
2

De plus, par definition de lespace tangent, x u = d + o(kx uk) o`


u d Tu D. Apr`es avoir remarque
tout cela le meme argument que celui utilise dans la preuve du theor`eme II.4, en remplacant la formule
de Taylor-Young `
a lordre 2 par lequation () et lequation dEuler (theor`eme II.3) par la condition de


an

Lagrange (theor`eme III.1) prouve les deux conditions.

Remarques. La condition x Tu D, h2x L(u, )x, xi > 0 est verifiee notamment


lorsque 2x L(u, ) est semi-definie positive (et similairement pour semi-definie negative).

Je

La condition x Tu D \ {0}, h2x L(u, )x, xi > 0 est verifiee notamment lorsque
2x L(u, ) est definie positive (et similairement pour definie negative).

igh
t:

Comme dans le cas sans contraintes la condition suffisante sutilise pour prouver quun
point est extremum, tandis que la condition necessaire sutilise pour prouver quun point
nest pas un extremum. En un point critique u du lagrangien, si lon na que linegalite
large x Tu D, (x u)> 2x L(u, )(x u) > 0 (ou 6 0) on ne peut rien en deduire.

py
r

A part dans le cas o`


u 2x L(u, ) est definie positive ou negative, ces conditions sont
bien moins pratiques `a manier que les conditions dordre 2 dans le cas sans contrainte
(theor`eme II.4) puisquon ne poss`ede pas de crit`ere simple ou general pour verifier les
inegalites sur Tu D. Aussi leur usage en est-il bien moins systematique. Cependant en labsence dinformations supplementaires (convexite,...) cest ce que lon peut faire de mieux,
et elles peuvent saverer parfois tr`es utiles.

Co

Exemple. Soit f (x, y) = 3x2 + 4y 2 sur D = {(x, y) R2 | x2 + y 2 = 1}. Puisque f est


continue sur le compact D, il existe un minimum et un maximum global de f sur D.






6x
2x
6x + 2x
f (x, y) =
; (x, y) =
; x L(u, ) =
8y
2y
8y + 2y


III.1. OPTIMISATION SOUS CONTRAINTES EGALITAIRES

59

6x + 2x = 0
8y + 2y = 0
2
x +
y2 = 1

(1)
(2)
(3)

(3)

(2)

(3)

= 4 = x = 0 = y = 1

On obtient 4 solutions :
0
1

1
0

0
8

a=

c=


; b=

0
1

1
0

(avec = 4)

; d=

(avec = 3)


, et donc Tu D =<

an

En u = a ou b, f (u) =

-P
hil
ip

(3)

pe

= 3 = y = 0 = x = 1

Pr

6= 4 ou 3 = x = y = 0 impossible avec
(1)

au
x

Puisque (x, y) 6= 0 sur D on peut appliquer les conditions de Lagrange :

2 0
0 0

>.

Je

2x L(u, 4)

1
0

igh
t:

Pour tout x = (x, 0) 6= 0 Tu D, x> 2x L(u, 4) x = 2x2 < 0. Donc a et b sont deux
maxima locaux.

 

0
6
>.
, et donc Tu D =<
En u = c ou d, f (u) =
1
0
2x L(u, 3)


=

0 0
0 2

Co

py
r

Pour tout y = (0, y) 6= 0 Tu D, y> 2x L(u, 3) y = 2y 2 > 0. Donc c et d sont deux


minima locaux.
Tous les extrema sont globaux, par compacite, et car f (a) = f (b) et f (c) = f (d).

III.1.6

Programmation quadratique sous contraintes


egalitaires

Nous appliquons maintenant `a la programmation quadratique sous contraintes egalitaires les notions vues ci-dessus, plus precisement les conditions de Lagrange et la prise en
compte de la convexite.

60

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

On note M = (mij ) i=1...p Mp,n (R) et c = (c1 , . . . , cp ) Rp .


j=1...n

Pr

au
x

Soit f (u) = 12 u> Au b> u o`


u A Mn (R) est symetrique et b Rn , ainsi que les
contraintes affines :

Pn

(u)
=

1
j=1 m1j xj = c1

..

Pn .
i (u) = j=1 mij xj = ci

..

Pn .

p (u) = j=1 mpj xj = cp

-P
hil
ip

pe

Les contraintes etant affines on pourra se passer de lhypoth`ese de qualification des


contraintes pour appliquer les conditions de Lagrange (cf. proposition III.1 plus haut).
Elles secrivent ici :
p
X
X L(u, ) = f (u) +
i i (u) = 0
i=1

Au b + M > = 0
Mu
=c
 



>
b
u
A M
=

c
M
0


(S)

igh
t:

Je

an

Th
eor`
eme III.4 (Programmation quadratique sous contraintes
egalitaires.)
1 >
>
Soit f (u) = 2 u Au b u sous la contrainte M u = c. Supposons p < n et le domaine
non vide.
Si A est semi-definie positive (resp. negative), alors un extremum, sil existe, est global
et caracterise par le syst`eme (S).
Si A est definie positive (resp. negative) alors ! minimum (resp. maximum) global et
il est caracterise par le syst`eme (S).
D
emonstration. Quitte a
` changer f en f on se ram`
ene au cas o`
u A est (semi-)d
efinie positive. La premi`
ere
assertion est une cons
equence imm
ediate des th
eor`
emes II.9 et III.2. Quand a
` la deuxi`
eme assertion, le domaine

etant non vide cest un sous-espace affine de Rn de dimension > 0 et par suite un ferm
e non born
e ; le th
eor`
eme II.9
montre que f est fortement convexe et donc admet un unique minimum global.

py
r

Exemple. Considerons dans R3 la droite dequation :



1 (x, y, z) = 10x + 15y + 20z 60 = 0
2 (x, y, z) = 6x + 5y + 10z 20 = 0

Co

Quelle est la distance de `a lorigine ?


La distance de `a lorigine est par definition la distance minimale de lorigine `a un
point de . Le probl`eme se ram`ene donc au probl`eme doptimisation :
min
(x,y,z)

f (x, y, z) = x2 + y 2 + z 2


III.1. OPTIMISATION SOUS CONTRAINTES EGALITAIRES
1
2

x> A x avec :

x
x= y
z

2 0 0
A= 0 2 0
0 0 2

Pr

Les contraintes sont affines, la matrice des contraintes est :






10 15 20
60
M=
; c=
6 5 10
20

au
x

La fonction f est quadratique, f (x) =

61

Le syst`eme a pour solution exacte :

-P
hil
ip

pe

Puisque A est definie positive, il existe un unique minimum, global, de f , caracterise par
le syst`eme :

  

u
0
A M>
=

c
M
0


x
2
0 0 10 6
0

0

2 0 15 5
y 0

0 2 20 10 z = 0

10 15 20 0
0 1 60
0
6 5 10 0
20
2

88 884 1232
536
32
,
,
,
,
)
141 705 705
3525 705

an

umin = (
donc,

Je

88 2
884 2
1232 2 3536
) +(
) +(
) =
5, 1055
141
705
705
705

de `a lorigine est proche de 5.

fmin = (

min

Co

py
r

igh
t:

et la distance

62

PROGRAMMATION SOUS CONTRAINTES

Optimisation sous contraintes : le cas g


en
eral

au
x

III.2

CHAPITRE III.

On generalise ici les conditions vues precedement dans le cas o`


u toutes les contraintes
etaient egalitaires au cas general o`
u les contraintes sont egalitaires ou inegalitaires. Les
conditions de Lagrange se generalisent aux conditions de Karush-Kuhn-Tucker.

Conditions de Karush-Kuhn-Tucker

Pr

III.2.1

Le theor`eme suivant generalise les conditions de Lagrange (theor`eme III.1) au cas de


contraintes egalitaires et inegalitaires.

pe

Soit U un ouvert non vide de Rn (souvent, U = Rn ) ; soit f : U R une application


differentiable. Soient 1 , . . . , p , 1 , . . . , q : U R des applications de classe C 1 (p, q >
0). Et soit :

-P
hil
ip

D = {x U | i (x) = 0, i = 1, . . . , p ; j (x) 6 0, j = 1, . . . , q }
|
{z
} |
{z
}
contraintes
egalitaires

contraintes in
egalitaires

Pour enoncer le theor`eme nous avons encore besoin dune hypoth`ese de qualification des
contraintes en u D :
(QC)u : {1 (u), . . . , p (u)} {j (u) | j (u) = 0} est une famille de vecteurs
lineairement independante.

igh
t:

Je

an

Th
eor`
eme III.5 (Conditions n
ecessaires de Karush-Kuhn-Tucker.) Sous les hypoth`eses enoncees ci-dessus, si u D est un minimum local de f sur D, et si lhypoth`ese
(QC)u est verifiee, alors ! 1 , . . . , p , 1 , . . . , q tels que :
P
P
(i) f (u) + pi=1 i i (u) + qj=1 j j (u) = 0
(ii) j = 1, . . . , q, j 0
(iii) j = 1, . . . , q, j = 0 si j (u) < 0.
D
emonstration. On ne montrera la condition (ii) que sous lhypoth`
ese plus forte que toutes les applications sont
deux fois diff
erentiables et lon admettra quelle reste vraie sans cette hypoth`
ese. Cest un moindre co
ut face au gain
de simplicit
e apport
ee par notre preuve.
On se ram`
ene `
a un probl`
eme doptimisation `
a contrainte
egalitaire en ajoutant q variables y = (y1 , . . . , yq ) :

py
r

f (x)

min
x,y

(x)
=0
i

(x) + y 2 = 0
j
j

i = 1, . . . , p
j = 1, . . . , q

Co

son domaine D0 est inclus dans DRq Rn+q , et il a pour minimum local (u, y) si et seulement si u est un minimum
local de f sur D. On va lui appliquer les conditions de Lagrange (th
eor`
eme III.1). En u D, lhypoth`
ese (QC)u nous
assure que lhypoth`
ese de qualification des contraintes en (u, y) n
ecessaire `
a son application est satisfaite. Notons
L(u, y, , ) le lagrangien de ce probl`
eme et L(u, , ) le lagrangien du probl`
eme obtenu en prenant y1 = = yq =
0. On obtient 1 , . . . , p , 1 , . . . , q , tels que :

x L(u, y, , ) =

f (u)
0
..
.
0

i=1

i (u)
0
..
.
0

j=1

j (u)
0
2yj
0

=0

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

63

2x L(u, y, , ) =

2x L(u, , )
0
..
.
0

0
..
.
0

0
..
.
0
21
..
.
0

..
.

0
..
.
0
0
..
.
2q

Pr

au
x

En particulier on obtient la condition (i), et de plus j = 1, . . . , q, j yj = 0, cest a


` dire j = 0 d`
es que (j)(u) < 0,
cest la condition (iii).
Pour montrer la condition (ii), comme dit plus haut, on suppose en outre que les applications sont deux fois
diff
erentiables. On applique la condition n
ecessaire `
a lordre 2 (th
eor`
eme III.3). On a la matrice :

pe

Or puisque j yj = 0, yj = 0 d`
es que j 6= 0. En particulier le vecteur ej de Rn+q dont la n + j-`
eme coordonn
ee
2
est 1 et toutes les autres sont nulles est dans lespace tangent `
a D0 en (u, y). Puisque e>
j x L(u, y, , )ej = 2j ,
la condition n
ecessaire du second ordre implique que j > 0. On obtient donc la condition (ii).
Lunicit
e des multiplicateurs est une cons
equence imm
ediate de lhypoth`
ese de qualification des contraintes. 

-P
hil
ip

Remarques. Les i , j sont appeles les multiplicateurs de Lagrange-KKT ou multiplicateurs de Lagrange generalises.
Pour un probl`eme de maximum il suffit de changer la condition (ii) en (ii0 ) : j =
1, . . . , q , j > 0.
Une contrainte inegalitaire j est dite insaturee ou inactive en u si j (u) < 0, et sinon
elle est dite saturee ou active.

Je

an

Dans le cas dune contrainte insaturee j (u) 6= 0, le coefficient de Lagrange-KKT correspondant est nul : j = 0, cest-`a-dire que cette contrainte ne compte pas. Lorsque toutes
les contraintes inegalitaires sont insaturees en u on retrouve les conditions de Lagrange.
Cetait previsible, lensemble des points de Rn o`
u toutes les contraintes inegalitaires sont
insaturees est un ouvert U et lon est dans le cadre dapplication du theor`eme de Lagrange
(theor`eme III.1), son domaine netant plus defini sur U que par les contraintes egalitaires.

igh
t:

En labsence de lhypoth`ese de qualification des contraintes, on a tout de meme lexistence de 1 , . . . , p et 0 , 1 , . . . , q , verifiant les conditions (ii) et (iii), non necessairement
uniques, tels que 0 > 0 et :
0 f (u) +

p
X

i i (u) +

i=1

q
X

j j (u) = 0

j=1

py
r

Seulement lorsque 0 = 0 cette equation nest pas informative sur f . Les hypoth`eses de
qualification des contraintes sont l`a pour pallier `a cette eventualite.

Co

Notations Lagrangiennes. Comme pour un probl`eme doptimisation sous contraintes


egalitaires, on parle du lagrangien dun probl`eme doptimisation sous contraintes egalitaires
et inegalitaires. Cest lapplication :
L : Rn Rp (R+ )q 7 R
(x, , )

L(x, , ) = f (x) +

p
X
i=1

i i (x) +

q
X
j=1

j j (x) .

64

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

i=1

j=1

Pr

La condition (i) de KKT secrit alors, sous les hypoth`eses adequates :

au
x

Lorsque toutes les applications sont differentiables, le vecteur gradient du lagrangien en


u Rn est :
p
q
X
X
x L(u, , ) = f (u) +
i i (u) +
j j (u) .

! Rp , (R+ )q , x L(u, , ) = 0 .

2x L(u, , )

= f (u) +

p
X

i i (u) +

q
X

j 2 j (u) .

j=1

-P
hil
ip

i=1

III.2.2

pe

On definit aussi, lorsque les applications sont deux fois differentiables, la matrice Hessienne
du lagrangien en u Rn , par :

Prise en compte de la convexit


e

Dans le cas de la programmation convexe, cest-`a-dire si de plus :


U est un ouvert convexe de Rn (notamment lorsque U = Rn ),
f est convexe,
j , j = 1, . . . , q est convexe,

an

i , i = 1, . . . , p, est lineaire,

igh
t:

Je

dune part, les conditions de KKT sont aussi suffisantes, comme montre ci-dessous, dautre
part avec le theor`eme II.6, le minimum u nest pas seulement local mais aussi global.
Ainsi, en programmation convexe (differentiable), nous arrivons `a une caracterisation
quasi-compl`ete dun minimum, exprimee par des conditions du 1er ordre, que ce soit
dans le cas sans contraintes ou sous contraintes, avec pour seul bemol, lors de la presence
de contraintes inegalitaires, le fait que les conditions de KKT ne sont necessaires quen un
minimum u verifiant une hypoth`ese de qualification des contraintes.

py
r

Th
eor`
eme III.6 (Suffisance des conditions KKT en programmation convexe.)
En programmation convexe, les conditions (i), (ii) et (iii) de KKT en u D sont aussi
suffisantes pour que u soit un minimum global de f .

Co

D
emonstration. Soit u D en lequel les conditions (i), (ii) et (iii) de KKT sont satisfaites pour certains
P
1 , . . . , p , 1 , . . . , q . Soit v un point quelconque de D. Puisque v D et j > 0, f (u) 6 f (u) pi=1 i i (v)
Pq
Pp
erifie les conditions (ii) et (iii) de KKT, f (u) 6 f (u) i=1 i (i (v) i (u))
j=1 j j (v). Puisque u v
Pq
eor`
eme II.5.1 on obtient f (u) 6
j=1 j (j (v) j (u)). Puisque les i , j sont convexes, en appliquant le th
P
P
f (v) pi=1 i i (u)(v u) qi=1 j j (u)(v u). Alors avec la condition (i) de KKT en u, f (u) 6
f (v) + f (u)(v u). Puisque f est convexe, on utilise le

th
eor`
eme II.5.1 avec cette derni`
ere in
egalit
e pour

en d
eduire que f (u) 6 f (v) ; donc u est un minimum global de f sur D.

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

65

Qualification de contraintes affines et convexes

Pr

III.2.3

au
x

Remarque. Nul besoin dhypoth`ese de qualification des contraintes pour la suffisance des
conditions KKT ; elles sont cependant necessaires pour la necessite des conditions. Elles
se simplifient cependant considerablement, comme nous le voyons ci-apr`es.

Les nouvelles conditions de qualification des contraintes que nous allons enoncer tirent
parti de la convexite, ou de laffinite, des applications contraintes ; pour sappliquer il nest
nullement besoin que la fonction f verifie une quelconque hypoth`ese de convexite.

-P
hil
ip

pe

Comme dans la section precedente, on peut simplifier lenonce du theor`eme III.5 en se


passant de lhypoth`ese de qualification des contraintes lorsque les contraintes egalitaires
ainsi que les contraintes inegalitaires actives sont affines. On perd ce faisant lunicite des
multiplicateurs de Lagrange-KKT.
Proposition III.2 (Qualification de contraintes affines.) Si en u D, toutes les
contraintes egalitaires et inegalitaires actives sont affines alors on peut se passer de lhypoth`ese (QC)u dans le theor`eme III.5, `
a ceci pr`es que les multiplicateurs de Lagrange-KKT
ne sont plus necessairement uniques.
D
emonstration. La preuve proc`
ede de la m
eme facon que pour la proposition III.1.

an

Nous noterons cette nouvelle hypoth`ese de qualification des contraintes :

Je

(QC u ) : Toutes les contraintes egalitaires ainsi que toutes les contraintes inegalitaires
actives en u sont affines.

igh
t:

En fait lorsque toutes les contraintes sont convexes, il suffit meme que cette condition
sapplique en un point D arbitraire, et pas necessairement en u. Cest le resultat que
nous enoncons ci-dessous.

py
r

Lorsque les contraintes egalitaires sont affines et que les contraintes inegalitaires sont
convexes, on peut affaiblir lhypoth`ese de qualification des contraintes dans le theor`eme
de Karush-Kuhn-Tucker, en une condition qui ne depend plus du point considere.
(QC) : Les contraintes egalitaires sont affines, les contraintes inegalitaires sont
convexes, et U, tel que pour i = 1, . . . , q soit i est affine soit i () < 0.

Co

Proposition III.3 (Qualification de contraintes convexes.) Le theor`eme III.5 reste


vrai, `
a lexception de lunicite des muliplicateurs de Lagrange-KKT, sous lhypoth`ese de
qualification des contraintes (QC).

On en admettra la preuve, qui aurait necessite de prouver le theor`eme III.5 sous une hypoth`ese de qualification des contraintes plus faibles, lhypoth`ese Mangasarian-Fromovitz :

66

CHAPITRE III.

{1 (u), . . . , p (u)} forment une famille libre, et


d0 Rn , tq hi (u), d0 i = 0, i = 1, . . . , p,
et hj (u), d0 i < 0, j tel que j (u) = 0.

au
x

(QC u ) :

PROGRAMMATION SOUS CONTRAINTES

III.2.4

Pr

Le theor`eme III.5 reste vrai sous cette hypoth`ese (plus faible) de qualification des contraintes, hormis cependant lunicite des multiplicateurs de Lagrange-KKT ; cest dailleurs sous
cette hypoth`ese quil est en general enonce. Il nest pas difficile de verifier que (QCu ) =
(QC u ) et que la reciproque en est fausse.

Programmation quadratique sous contraintes

pe

Nous pouvons dores et dej`a appliquer tout ce que nous avons vu `a la programmation
quadratique. Le theor`eme qui suit est une consequence immediate des resultats precedents.

-P
hil
ip

Th
eor`
eme III.7 (Programmation quadratique sous contraintes.) Soit f une application quadratique, f (x) = 21 x> Ax b> x o`
u A est une matrice symetrique, et soit D
un domaine defini par des contraintes egalitaires et inegalitaires affines.
Alors, si A est semi-definie positive (resp. negative) un minimum (resp. maximum)
global de f sur D, sil existe, est caracterise par les conditions (i), (ii), (iii) de KKT.
Si de plus A est definie positive (resp. negative), f admet un unique minimum (resp.
maximum) global sur D.

an

Nous en laissons la preuve en guise dexercice dapplication.

Je

Exemple. Resoudre le probl`eme de programmation quadratique suivant.



x+y+z = 3
2
2
2
min x + y + z sous les contraintes
2x y + z 6 5

igh
t:

Cest equivalent au probl`eme consistant `a determiner dans R3 la distance dun demi-plan


(defini par les contraintes) `a lorigine.

Co

py
r

Les contraintes etant affines, on peut appliquer telles quelles les conditions (KKT) :
en un minimum u, R, R+ tels que f (u) + (u) + (u) = 0 :

2x + + 2 = 0
2y + = 0
(i)

2z + + = 0
(ii)
(iii)

(2x y + z 5) = 0
>0

Supposons que 6= 0 = 2x y + z = 5

x = ( 2)/2
y = ( + )/2
(i) =

z = ( )/2

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

67

Pr

2x + = 0
2y + = 0

2z + = 0

au
x

x + y + z = 3 = 2 + = 6 = 3 + 2 = 6 (a)
2x y + z = 5 = 2( 2) ( + ) + ( ) = 10 = + 3 = 5 (b)
En formant (a)3(b) on obtient 2 9 = 6 + 15, soit = 9/7 < 0 ce qui contredit
(iii) !
Ainsi = 0. Donc (i) devient :

= 2(x + y + z) + 3 = 0 = 2 3 + 3 = 0 = = 2

pe

= x = y = z = 1. On obtient pour solution u = (1, 1, 1) .

III.2.5

-P
hil
ip

Pour conclure que u est le minimum global de f sur D, on a plusieurs possibilites :


f est quadratique sous contraintes affines, de matrice A = Id definie positive.
f est (fortement) convexe sous contraintes affines.
f est coercive.

Conditions n
ecessaire, suffisante, du second ordre

Je

an

Nous etablissons ici une condition suffisante et une condition necessaire du second
ordre pour quun point soit extremum. La difficulte est quen presence de contraintes
inegalitaires il nexiste plus en un point u D despace tangent Tu D `a D, hormis lorsque
u est dans linterieur de D, cest `a dire, plus geometriquement, que u ne ressemble plus
localement `a un espace affine. Pour pallier `a cette absence nous devons introduire la notion de cone tangent. Elle nous permettra par ailleurs dinterpreter geometriquement les
conditions de KKT.

igh
t:

D
efinitions.

En u D, lensemble des indices de contraintes actives, J(u) {1, . . . , q}, est lensemble
des indices j pour lesquels la j-`eme contrainte inegalitaire est active en u :

py
r

n
o
J(u) = j {1, . . . , q} | j (u) = 0 .

Le cone tangent `a D en u, note Cu D est le sous-ensemble de Rn :

Co

n
o
n
Cu D = d R | hi (u), di = 0, i = 1, . . . , q, hj (u), di 6 0, j J(u)

Le cone tangent generalise en cas de contraintes inegalitaires la notion despace tangent,


au sens du resultat qui suit. Ce nest plus un espace vectoriel, mais une intersection de
demi-espaces.

68

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

kuk uk
d + o(kuk uk)
kdk

Pr

uk = u +

au
x

Proposition III.4 (Le c


one tangent en tant quespace tangent.) Si en u D une
des hypoth`eses de qualification des contraintes (QC)u , (QC)u , (QC) ou (QC)u est verifiee,
alors le c
one tangent Cu D est lensemble des directions d Rn pour lesquelles soit d = 0
soit il existe une suite (uk )kN dans D, non stationnaire, tendant vers u, avec :

kuk uk
hj (u), di + o(kuk uk) 6 0
kdk

-P
hil
ip

j (uk ) j (u) = j (uk ) =

pe

D
emonstration. Notons D0 = {x Rn | i (x) = 0, i = 1, . . . , p}. Sous lune quelconque des hypoth`
eses de
qualification des contraintes, lespace tangent en u `
a D0 est Tu D0 = {d Rn | hi (u), di = 0, i = 1, . . . , p}.
Soit (uk )kN une suite de D non stationnaire qui tend vers u. Cest aussi en particulier une suite de D0 tendant
kuk uk
vers u, et par d
efinition de lespace tangent Tu D0 , il existe d Tu D0 , tel que : uk = u + kdk
d + o(kuk uk).
Montrons que d Cu D. Soit j J(u), i.e. j (u) = 0. En utilisant un d
eveloppement de Taylor-Young de j au
voisinage de u, on obtient :

puisque uk D. Il en d
ecoule que hj (u), di 6 0 ce qui montre que d Cu D.
Montrons la r
eciproque. Soit d 6= 0 Cu D Tu D0 . Par d
efinition de lespace tangent Tu D0 , il existe une
kuk uk
suite (uk )kN de D0 , non stationnaire, tendant vers u, avec uk = kdk
d + o(kuk uk). Il nous suffit de montrer
qu`
a partir dun certain rang k, uk D. Soit j J(u), cest `
a dire tel que j (u) = 0. Alors en consid
erant un
d
eveloppement de Taylor-Young `
a lordre 1 de j au voisinage de u, on obtient comme ci-dessus
j (uk ) =

kuk uk
hj (u), di +o(kuk uk) .
kdk
|
{z
}

an

60

Cela montre que pour k suffisamment grand, pour tout j J(u), j (uk ) 6 0. Par ailleurs, pour j 6 J(u), j (u) < 0
et par continuit
e de j , `
a partir dun certain rang j (uk ) < 0. Tout cela montre que uk est dans D pour k assez


Je

grand, ce qui ach`


eve la preuve.

igh
t:

f (u)

1 (u)

py
r

2 (x) = 0

2 (u)
1 (x) = 0

Cu D

Co

Figure III.3 Le cone tangent Cu D `a D en u. Cest une intersection de demi-espaces (pour


chaque contrainte inegalitaire active) et de sous-espaces vectoriels (pour chaque contrainte
egalitaire). On a represente aussi la direction de plus grande pente f (u). Si u est un
minimum local elle se trouve dans le cone polaire de Cu D (delimite ici par u, 1 (u) et
2 (u)).

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

69

Pr

au
x

Interpr
etation g
eom
etrique des conditions KKT. Les conditions necessaires de
KKT, sexpriment geometriquement par : en un minimum (resp. maximum) local u de f
sur D, la direction de plus grande decroissance (resp. accroissement) de f , f (u) (resp.
f (u)) est dans le cone polaire de Cu D, cest `a dire {c Rn | d Cu D, hd, ci 6 0} (voir
figure III.3). En presence de contraintes uniquement egalitaires, le cone polaire nest rien
dautre que lorthogonal de lespace tangent.

pe

Th
eor`
eme III.8 (Condition suffisante du 2e ordre.) Soit U Rn un ouvert, on
suppose que f, 1 , . . . , p ,1 , . . . , q sont deux fois differentiables sur U, et que u D
verifie une des hypoth`eses de qualification des contraintes.
Si u D verifie les conditions (i), (ii), et (iii) de KKT, en particulier si il existe
Rp , (R+ )q tels que :
x L(u, , ) = 0

-P
hil
ip

et si de plus d 6= 0 Cu D, :

h2x L(u, , ) d, di > 0 .

(i.e. 2x L(u, , ) est definie positive sur Cu D), alors u est un minimum local strict de f
sur D.

an

D
emonstration On note au point u D, L(u, , ) le laplacien du probl`
eme avec contraintes
egalitaires et
in
egalitaires et L(u, ) le laplacien du probl`
eme ne comportant que les contraintes
egalitaires. Soit x dans un
voisinage de u dans D. Comme dans la preuve du th
eor`
eme III.3, on
etablit :
f (x) f (u) = L(x, ) L(u, ) = hx L(u, ), x ui +

1
(x u)> 2x L(u, )(x u) + o(kx uk2 )
2

(E)

Je

Par ailleurs, pour j = 1, . . . , q le d


eveloppement de Taylor-Young `
a lordre 2 de j dans un voisinage de u s
ecrit :
j (x) j (u) = hj (u), x ui +
Pq

j=1

f (x) f (u) +

q
X

j (j (x) j (u)) = hx L(u, , ), x ui +

j=1

Les conditions (ii) et (iii) de KKT impliquent que


x ui = 0, ainsi pour d Cu D :

Pq

j=1

1
(x u)> 2x L(u, , )(x u) + o(kx uk2 ) ()
2

j (j (x)j (u)) 6 0, et la condition (i) que hx L(u, , ),

1
kx uk2 > 2
(x u)> 2x L(u, , )(x u) + o(kx uk2 ) =
d x L(u, , )d + o(kx uk2 )
2
2kdk2

py
r

f (x) f (u) >

(Ej )

j (Ej ). On obtient :

igh
t:

On forme alors l
equation (E) +

1
(x u)> 2 j (u)(x u) + o(kx uk2 )
2

Puisque d> 2x L(u, , )d > 0 on obtient f (x) f (u) > 0 pour x suffisamment proche de u : u est un minimum

Co

local de f sur D.

Afin denoncer une condition necessaire du second ordre, nous devons nous restreindre
`a un sous-ensemble du cone tangent. On se place pour cela sous les hypoth`eses du theor`eme
III.5.

70

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

Notons :

n
o
J + (u) = j {1, . . . , q} | j (u) = 0 et j > 0

au
x

D
efinition. Soit u D, un point verifiant une hypoth`ese de qualification des contraintes
ainsi que les conditions (i), (ii) et (iii) de KKT.

Pr

Cest lensemble des indices


des contraintes ofortement actives en u. Notons que, plus
n
simplement, J + (u) = j {1, . . . , q} | j 6= 0 .
Notons

n
o
Cu+ D = d Cu D | hj (u), di = 0, j J + (u), .

-P
hil
ip

pe

Th
eor`
eme III.9 (Condition n
ecessaire du second ordre) Soit U Rn un ouvert,
on suppose que f, 1 , . . . , p ,1 , . . . , q sont deux fois differentiables sur U, et que u D
verifie une des hypoth`eses de qualification des contraintes.
Si u est un minimum local de f sur D, les conditions (i), (ii), (iii) de KKT sont
satisfaites, en particulier Rp , (R+ )q tels que :
x L(u, , ) = 0
et de plus, d Cu+ D, :

h2x L(u, , ) d, di > 0 .

an

(i.e. 2x L(u, , ) est semi-definie positive sur Cu D).

Je

+
D
emonstration. Il suffit de montrer que sous ces hypoth`
eses, d Cu
D, : h2x L(u, , ) d, di > 0. Comme dans
la preuve du th
eor`
eme III.5, on retranscrit le probl`
eme doptimisation comme le probl`
eme doptimisation (Q) sous
contraintes
egalitaires :

min f (x)
x,y

igh
t:

i (x) = 0

(x) + y 2 = 0
j
j

i = 1, . . . , p
j = 1, . . . , q

p
p
Notons D0 son domaine, il intersecte Rn 0 en D 0, et notons v = ( 1 (u), . . . , q (u)) Rq de sorte que
0
0
0
u = (u, v) D . Comme cons
equence de la proposition III.4, lespace tangent Tu0 D intersecte Rn 0 en Cu D 0.
Le point u0 est un minimum local de (Q), et v
erifie lhypoth`
ese de qualification des contraintes, par construction
et car u v
erifie une telle hypoth`
ese. La condition n
ecessaire du second ordre (th
eor`
eme III.3) implique alors que
x Rn , y Rq , tels que (x, y) Tu0 D0 , on a (x, y)> 2x L(u, v, , )(x, y) > 0. Or,

py
r

Co

2x L(u, v, , ) =

2x L(u, , )
0
..
.
0

0
..
.
0

0
..
.
0
21
..
.
0

..
.

0
..
.
0
0
..
.
2q

et donc, en notant y = (y1 , . . . , yq ),


(x, y)> 2x L(u, v, , )(x, y) = x> 2x L(u, , )x + 2

q
X
i=1

i yi .

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

j = 1, . . . , q,

(j (u)> | 0 . . . 0 2vj 0 . . . 0) d = 0

j (u),

au
x

Notons Tu+0 D0 = {d Tu0 D0 | j J + (u), hj (u), di = 0}. Or si d Tu0 D0 , en notant vj =

71

donc pour tout d Tu+0 D0 , si j J + (u), la j e coordonn


ee de d est nulle. Dautre part si j 6 J + (u), on a j = 0.
+ 0
Ainsi : (x, y) Tu0 D ,
0 = (x, y)> 2x L(u, v, , )(x, y) = x> 2x L(u, , )x .

Pr

+
+
Or, Tu+0 D0 (Rn 0) = Cu
D 0. On a donc montr
e que x Cu
D, x> 2x L(u, , )x = 0.

III.2.6

Points-selles du Lagrangien : introduction `


a la dualit
e

On se rappelle quau probl`eme doptimisation sous contrainte :

pe

min f (x)
x

i (x) = 0, i = 1, . . . , p,

(P )

-P
hil
ip

j (x) 6 0, j = 1, . . . , q,
on associe le lagrangien du probl`eme (cf. p.63) :
L : Rn Rp (R+ )q 7 R

L(x, , ) = f (x) +

(x, , )

p
X

i i (x) +

i=1

q
X

j j (x)

j=1

an

(en notant = (1 , . . . , p ) et = (1 , . . . , q )).

Je

D
efinition. On appelle point-selle du lagrangien tout triplet (x , , ) Rn Rp (R+ )q
verifiant :
(x, , ) Rn Rp (R+ )q ,

L(x , , ) 6 L(x , , ) 6 L(x, , ) .

igh
t:

cest-`a-dire que : x est un minimum de x 7 L(x, , ), et


( , ) est un maximum de (, ) 7 L(x , , ).
Proposition III.5 (Caract
erisation dun point-selle.) Si (x , , ) Rn Rp
(R+ )q est un point-selle de L(x, , ), alors :
sup inf L(x, , ) = L(x , , ) = inf sup L(x, , ) .
x

py
r

D
emonstration. On a toujours : inf L(x, , ) 6 L(x , , ) 6 sup L(x , , ), ce qui implique :
x

sup inf L(x, , ) 6 inf sup L(x, , ) .


,

Co

Dautre part, puisque (u , , ) est un point-selle, on a :


inf sup L(x, , ) 6 sup L(x , , ) = L(x , , ) = inf L(x, , ) 6 sup inf L(x, , ) .
x

et on a donc la conclusion recherch


ee.

72

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

p
X

(i i )i (x ) +

i=1

q
X

(j j )j (x ) 6 0 .

j=1

Pr

D
emonstration. Lin
egalit
e L(x , , ) 6 L(x , , ), , (, ) Rp (R+ )q montre que :

au
x

Th
eor`
eme III.10 (un point-selle du lagrangien founit une solution `
a (P ).) Si
(x , , ) Rn Rp (R+ )q est un point-selle du lagrangien du probl`eme (P ), alors x
est solution du probl`eme (P ).

p
X

i i (x ) +

i=1

q
X

pe

En faisant tendre j vers + cela montre que j (x ) 6 0. En faisant tendre i vers + cela montre que i (x ) 6 0,

et en le faisant tendre
vers , que
et donc i (x ) = 0. Ainsi x est dans le domaine admissible D.
Pp
Pqi (x ) > 0,

) +

En particulier,
egalit
e ci-dessus, en prenant j = 0 pour
i=1 i i (x P
j=1 j j (xP) 6 0. Mais avec lin
j = 1, . . . , q, on obtient aussi pi=1 i i (x ) + qj=1 j j (x ) > 0 ; on obtient donc :
j j (x ) = 0 .

j=1

-P
hil
ip

En combinant cette
egalit
e avec L(x , , ) 6 L(x, , ) pour tout x Rn , on obtient donc : x Rn
f (x ) 6 f (x) +

p
X

i i (x) +

i=1

en particulier pour tout x D,


f (x ) 6 f (x)

j j (x)

j=1

an

ce qui montre que x est solution de (P ).

q
X

Je

Remarquer que ce resultat ne necessite aucune hypoth`ese que ce soit sur f ou sur les
contraintes. Par contre la reciproque ne peut setablir que sous des hypoth`eses relativement
fortes.

igh
t:

Th
eor`
eme III.11 (Cas o`
u la r
eciproque est vraie.) Supposons que f est derivable
1
et convexe, 1 , . . . , p sont C et affines, et 1 , . . . , q sont C 1 et convexes. Soit x un
point du domaine admissible verifiant une hypoth`ese de qualification des contraintes.
Si x est solution du probl`eme (P ), alors il existe ( , ) Rp (R+ )q tel que

(x , , ) soit un point-selle du lagrangien.


D
emonstration. On est dans le cadre dapplication des conditions KKT (th
eor`
eme III.5). Il existe donc Rp ,

q
(R+ ) , v
erifiant les conditions de Karush-Kuhn-Tucker :
p
X

i i (x ) +

j j (x ) = 0,

et

f (x ) +

j=1

py
r

i=1

q
X

p
X
i=1

i i (x ) +

q
X

j j (x ) = 0 .

j=1

La premi`
ere condition de KKT, avec le fait que x D, montre que pour tout (, ) Rp (R+ )q :
L(x , , ) = f (x ) +

p
X

i i (x ) +

i=1

q
X

j j (x ) 6 f (x ) = L(x , , ) .

j=1

Co

Pour ce couple ( , ), lapplication x 7 L(x, , ) est convexe car somme dune application affine, et donc
Pp

convexe, x 7
eme condition de KKT
i=1 i i (x) et de q applications convexes x 7 j j (x). Ainsi la deuxi`
montre que x en est un minimum global (th
eor`
eme III.6), et donc x Rn , L(x , , ) 6 L(x, , ). Ceci

montre que (x , , ) est un point-selle du lagrangien.

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

73

Exemple. Le probl`eme de minimisation suivant :

au
x

min x
x>0

-P
hil
ip

pe

Pr

est un probl`eme de programmation convexe qui a pour solution evidente x = 0. Son


lagrangien est L(x, ) = x x qui admet un unique point-selle sur R R+ en x = 0,
= 1, (voir figure III.4) qui fournit le minimum et le multiplicateur de Lagrange associe.

an

Figure III.4 Le graphe du lagrangien L(x, ) = x x admet un unique point selle en


x = 0, = 1.

igh
t:

Je

Ainsi, en programmation convexe, sous des hypoth`eses adequates (de differentiabilite et


de qualification des contraintes), une solution u du probl`eme (P ) correspond exactement
avec le premier argument dun point-selle (u , , ) du lagrangien. La connaissance des
arguments ( , ) dun point-selle permettrait donc de ramener le probl`eme (P ) `a un
probl`eme sans contrainte :
inf L(x, , ) .
Comment trouver un tel couple
Avec la proposition III.5, on a

xRn
( , ) ?

L(x , , ) = inf L(x, , ) = sup inf L(x, , ) .


,

py
r

xRn

Co

On se ram`ene donc `a chercher ( , ) Rp (R+ )q comme solution du probl`eme :


F ( , ) = sup F (, )
>0,

o`
u:

F : Rp (R+ )q R
(, ) F (, ) = infn L(x, , ) .
xR

(Q)

74

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

Pr

au
x

Le probl`eme (Q) est appele le probl`eme dual de (P ), qui est alors appele probl`eme primal. Cest un probl`eme doptimisation sous contraintes, mais avec des contraintes particuli`erement simples, puisquil ne sagit que de contraintes de signe sur les coefficients de
.
Par construction, sous les hypoth`eses du theor`eme III.11, si x est un minimum du
probl`eme (P ) alors le probl`eme (Q) admet une solution ( , ) Rp (R+ )q telle que
(x , , ) soit un point-selle du lagrangien.

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Exemple. Si lon reprend lexemple ci-dessus, F () = si 6= 1 et F (1) = 1. Le


probl`eme dual a donc pour solution = 1.

ERAL

III.2. OPTIMISATION SOUS CONTRAINTES : LE CAS GEN

75

au
x

Exercices.
Exercice 1. Retrouver les resultats obtenus aux exemples A et B du III.1.2 en appliquant les conditions de Lagrange.

f (x, y) = x3 + y 3 + x2 + y 2 1
dej`a etudiee dans lexercice 1 du chapitre 2.

Pr

Exercice 2. Considerons lapplication f : R2 R definie par :

pe

Soit C = {(x, y) R2 | x2 + y 2 } le cercle unite de R2 . Justifier de lexistence dextrema


globaux de f sur D, et les determiner.

-P
hil
ip

Exercice 3. On evalue que le volume de vente dun produit est fonction du nombre
de publicites dans les magazines x et du nombre de minutes de temps de television y :
f (x, y) = 12xy x2 3y 2 . Chaque publicite dans les magazines et chaque minute de
television co
utent 100 u.m.. On dispose de 4800 u.m. de budget de publicite. Comment
lallouer de facon optimale pour maximiser la vente de ce produit ?
Exercice 4. (Probl`eme de Kepler.)
Inscrire dans lellipsode E = {(x, y, z) R3 | x2 /a2 + y 2 /b2 + z 2 /c2 = 1} le parrallepip`ede
de volume maximal dont les aretes sont parall`eles aux axes.

igh
t:

Je

an

Exercice 5. (Probl`eme de Tartaglia)


Decomposer le nombre 8 en deux parties positives p1 , p2 de sorte que le produit de leur
produit par leur difference soit maximal.

py
r

Exercice 6. Soit A une matrice symetrique reelle. Justifier que le probl`eme :


max x> Ax

kxk61

Co

admet une solution u. Que represente u pour la matrice A ?

CHAPITRE III.

PROGRAMMATION SOUS CONTRAINTES

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Pr

au
x

76

au
x
Pr

Chapitre IV

pe

Algorithmes it
eratifs

-P
hil
ip

Soit le probl`eme doptimisation :


min f (x)
xD

pour f : Rn R et D Rn defini `a laide de fonctions contraintes egalitaires et


inegalitaires. On cherche `a se rapprocher algorithmiquement dune solution en construisant une suite (un )nN de Rn qui converge vers une solution u du probl`eme, cest `a dire
un minimum global de f sur D. On etablit pour cela plusieurs methodes, et on sinteresse
`a :
sa vitesse de convergence.

an

des conditions suffisantes sur f et D pour que (un ) u,

Je

Nous etablirons dabord des algorithmes dans le cas sans contrainte, i.e. D = Rn , puis
dans le cas sous contraintes. Nous verrons plusieurs types de methodes ; on les classifie
parfois en :

py
r

igh
t:

Les methodes directes. Elles nutilisent pas les derivees de lapplication. Nous nen verrons aucune, mais on peut citer comme exemple la methode de Hooke-Jeeves qui consiste
`a fixer un pas > 0 puis `a construire uk+1 `a partir de uk , en choisissant parmi tous les
points uk ei (o`
u ei , i = 1, . . . , n designent les vecteurs de la base canonique) celui dont
la valeur prise par f est minimale. Si uk+1 = uk on dimimue le pas. Cette methode est
employee pour minimiser une application non differentiable ; sa convergence, lorsquelle a
lieu, est tr`es lente.

Co

Les methodes de descente. Elles utilisent les derivees dordre 1. Ici uk+1 est construit `a
partir de uk en choisissant une direction de descente dk et un pas de descente k > 0, tels
que uk+1 = uk +k dk . Nous en verrons plusieurs : la methode de relaxation qui prend pour
direction de descente la direction des axes de facon cyclique et calcule le pas de descente en
se ramenant `a un probl`eme de minimisation `a une variable ; la methode du gradient `a pas
optimal qui prend comme direction de descente la direction locale de plus grande pente,
loppose du vecteur gradient, et determine le pas optimal en se ramenant `a un probl`eme `a
une variable ; ces deux derni`eres methodes ont pour desavantage la resolution `a chaque pas
77


CHAPITRE IV. ALGORITHMES ITERATIFS

78

au
x

dun probl`eme `a une variable ; la methode du gradient `a pas fixe sen demarque en fixant
le pas ; enfin nous verrons la methode du gradient conjugue, tr`es ingenieuse, qui pour une
fonction quadratique elliptique trouve le minimum en au plus n-iterations : on parle dune
methode exacte par opposition aux methodes approchees qui ne peuvent quapprocher une
solution.

pe

Pr

Les methodes utilisant les derivees secondes. Il sagit essentiellement de la methode de


Newton (et de ses variantes) qui plus generalement determine les zeros dune application. Sous des hypoth`eses suffisantes sa convergence est tr`es rapide ; elle a cependant pour
desavantage de netre que locale : il faut choisir le point initial suffisamment proche du
minimum.

-P
hil
ip

Dans le cas sous contraintes, les methodes que nous verrons sont deduites des methodes
ci-dessus en utilisant le theor`eme de projection convexe : methode de relaxation sous
contraintes, methode de gradient projete. Elles necessitent cependant dexprimer loperateur de projection convexe, ce qui nest possible que dans des cas tr`es simples. La methode
dUzawa quant `a elle contourne cette difficulte en mettant `a profit la theorie de la dualite convexe ( III.2.6) pour resoudre le probl`eme dual qui ninvoque quant `a lui que des
contraintes de signe.

Je

an

La convergence de toutes ces methodes ne peut setablir que sous de fortes hypoth`eses,
tout au moins (hormis pour la methode de Newton) lellipticite de f et la convexite du
domaine D. En fait ce sont les methodes algorithmiques `a utiliser en programmation
convexe, et uniquement dans ce cadre. En programmation non convexe on utilise dautres
methodes, stochastiques, programmation dynamique etc..., de la recherche operationnelle
qui sortent du cadre de ce cours (etudiees dans le cours de Recherche Operationnelle EA3).

igh
t:

Pour aborder, concept essentiel, la vitesse de convergence de ces algorithmes, nous


avons besoin comme preliminaire de donner quelques definitions (`a rapprocher du concept
dordre dune application).
D
efinitions. Soit (un )nN une suite de Rn qui converge vers u Rn . On note rn = uun .

py
r

Si k < 1 et n0 N tel que n > n0 , krn+1 k 6 k krn k la convergence est dite


geometrique.

Co

Si p N et n0 N tel que n > n0 , krn+1 k 6 krn kp la convergence est dite dordre


p ; si p = 1 elle est dite lineaire et si p = 2 elle est dite quadratique.
Si N0 tel que n > N0 , krn k = 0, la convergence est dite finie. Cest ce qui caracterise
les methodes exactes.

IV.1. METHODES
ITERATIVES
DANS LE CAS SANS CONTRAINTES

M
ethodes it
eratives dans le cas sans contraintes

IV.1.1

M
ethode de Newton

au
x

IV.1

79

Pr

Pour chercher un extremum u dune fonction differentiable, on peut se ramener `a chercher ses points critiques, f (u) = 0. Resoudre cette equation nest pas toujours facile,
ni meme faisable. Il est utile de considerer une methode de calcul approche. Nous voyons
ici la (cel`ebre) methode de Newton, qui dune facon plus generale permet dapprocher les
zeros dune fonction (sous certaines hypoth`eses).

f (x0 )
f 0 (x0 )

-P
hil
ip

x1 = x0

pe

Methode de Newton pour une application derivable f : R R. On cherche u R, tel


que f (u) = 0. Au voisinage de x0 , f (x) f (x0 ) + f 0 (x0 )(x x0 ).
= Si f 0 (x0 ) 6= 0, on consid`ere :

et on construit une suite par recurrence, par (figure IV.1) :


xn+1 = xn

f (xn )
f 0 (xn )

py
r

igh
t:

Je

an

si f 0 (xn ) 6= 0,

x3

x2

x1

x0

Co

Figure IV.1 La methode de descente de Newton pour la recherche du zero dune application f : R R.
Sous certaines hypoth`eses, la suite (xn )nN converge vers un zero de f . Plus precisement
et plus generalement :


CHAPITRE IV. ALGORITHMES ITERATIFS

80

au
x

Th
eor`
eme IV.1 (Convergence de la m
ethode de Newton.) Soit F : Rn Rn de
classe C 1 , et u un zero isole de F . Si la matrice jacobienne DF (u) de F en u est inversible,
alors il existe une boule B(u) centree en u, telle que u0 B(u), la suite :
un+1 = un DF (un )1 F (un )

Pr

soit contenue dans B(u) et converge vers u seul zero de F dans B(u). De plus la convergence est geometrique.

D
emonstration. Par continuit
e de DF dune part et dautre part parce que u est un z
ero isol
e, il existe un
nombre  > 0 tel que DF (v) soit inversible pour tout v B(u) = B(u, ), et tel que u soit le seul z
ero de
f dans B(u). Supposons que un soit dans B(u), de sorte que DF (un ) soit inversible. Puisque F (u) = 0, on a

pe

un+1 u = un u (DF (un ))1 (F (un ) F (u)). En effectuant un d


eveloppement de Taylor-Young a
` lordre 1
de F au voisinage de un , cette formule devient un+1 u = (DF (un ))1 (ku un k + o(ku un k). Puisque DF est
continue sur le compact B(u), elle y est uniform
ement continue et donc il existe une constante C ne d
ependant pas

-P
hil
ip

de n telle que kun+1 uk 6 Ckun uk. En choisissant  suffisament petit pour que  C < 1, un+1 reste dans la
boule B(u). Ainsi par r
ecurrence, avec ce choix de  et en prenant u0 dans B(u) la suite (un )nN reste dans B(u),
il existe K =  C < 1 tel que kun uk 6 K n ku1 u0 k et donc (un )nN converge g
eom
etriquement vers u.

an

Avantage : La convergence est rapide. Si F est supposee de classe C 2 la convergence


est meme quadratique (la preuve proc`ede de la meme facon ; il suffit de poursuivre le
developpement de Taylor-Young jusqu`a lordre 2, et dutiliser la continuite uniforme de
la differentielle seconde ; on la laisse en guise dexercice.)
D
esavantages : Il faut prendre u0 suffisament proche du zero u.

Je

Le calcul de la matrice jacobienne et son inversion sont co


uteux en temps de calcul.
Pour cette raison ont ete developpees des methodes dites quasi-Newton o`
u DF (un ) est
remplacee par une matrice moins co
uteuse `a inverser ; par exemple la matrice identite :
cest la methode des approximations successives.

igh
t:

Application `
a la recherche de minimum. Pour resoudre
min f (x)

avec f : Rn R, on applique la methode de Newton `a f : Rn Rn .

py
r

Th
eor`
eme IV.2 (Application de la m
ethode de Newton `
a loptimisation.) Soit
f : Rn R de classe C 2 et u un minimum local de f isole. Si 2 f (u) est definie
positive, alors B(u) une boule centree en u, tel que u0 B(u), la suite un definie par :
un+1 = un 2 f (un )1 f (un )

Co

converge geometriquement vers le minimum u.


Remarques. Si f est de classe C 3 la convergence est meme quadratique !
Il sagit dune methode locale dans le sens o`
u il faut etre suffisament proche dun extremum (que justement lon cherche) pour converger. On peut raffiner le resultat pour

IV.1. METHODES
ITERATIVES
DANS LE CAS SANS CONTRAINTES

81

majorer cette distance.

au
x

Notons que si la methode de Newton a pour desavantage de ne converger que localement,


elle a par contre lavantage detre la seule methode de ce chapitre qui ne necessite aucune
hypoth`ese de convexite ; elle a donc un champ dapplications tr`es large.

IV.1.2

Pr

Cette methode est amplement employee en informatique, du fait de sa rapidite de conver


gence, par exemple pour le calcul approche de (avec f (x) = x2 ) ou de 1/ (avec
f (x) = x 1). Voir lexercice 1.

M
ethode de relaxation

-P
hil
ip

pe

Dans une methode de descente, on construit une suite (un )n en choisissant en chaque
point un une direction de descente dn et un pas de descente n . Une methode pour
construire n peut consister `a se ramener `a un probl`eme doptimisation en dimension 1
par :
f (un + n dn ) = inf f (un + dn )
R

La methode de relaxation consiste en une telle methode, o`


u lon prend pour direction de
descente successivement chacun des axes. Plus formellement la suite (uk )kN est construite
ainsi : u0 est choisi arbitrairement, en pratique, si possible, proche dun minimum, et si
(k)

(k)

uk = (x1 , x2 , . . . , x(k)
n )
(k+1)

(k+1)

f (x1

(k)

(k)

(k)
, x2 , . . . , x(k)
n ) = inf f (x, x2 , . . . , xn )

Je
(k+1)

, x2

(k+1)

, x, . . . , x(k)
n )

(k+1)

, . . . , xn1 , x)

, . . . , x(k)
n ) = inf f (x1
xR

..
.

(k+1)

igh
t:

(k+1)

f (x1

, . . . , x(k+1)
) est construit par :
n

xR

(k+1)

f (x1

(k+1)

, x2

an

uk+1 = (x1

, . . . , xn1 , x(k+1)
) = inf f (x1
n
xR

(k+1)

Th
eor`
eme IV.3 (Convergence de la m
ethode de relaxation.) Si f : Rn R est
elliptique la methode de relaxation converge vers son unique minimum.

Co

py
r

D
emonstration. Notons uk:l = (xk+1
, . . . , xk+1
, xkl , . . . , xkn ), de sorte que uk = uk:0 et uk+1 = uk:n . Notons
1
l
e1 , . . . , en les vecteurs de la base canonique. Puisque f est elliptique, il en est de m
eme de chacune des applications
k:l : R f (uk:l1 + el ), qui admet donc un unique minimum global (cf. th
eor`
eme II.7) caract
eris
e par
l
equation dEuler 0k:l (uk:l ) = 0. Le point uk,l est donc bien d
efini, et donc la suite (un )nN aussi. Ecrivons :
f (uk ) f (uk+1 ) = f (uk:0 ) f (uk:n ) =

n
X

f (uk:l1 ) f (uk:l ) .

l=1

Puisque f est -elliptique,


f (uk:l1 ) f (uk:l ) > hf (uk:l ), uk:l1 uk:l i +

kuk:l1 uk:l k2 .
2


CHAPITRE IV. ALGORITHMES ITERATIFS

u0

y
u1

u3

-P
hil
ip

u2

pe

Pr

au
x

82

Figure IV.2 Dans la methode de relaxation on prend comme direction de descente


successivement les directions des axes et on determine le pas en resolvant un probl`eme de
minimisation `a une variable.
Or par construction pour 1 6 l 6 n, hf (uk:l ), uk:l1 uk:l i =

f
(uk:l )(xkl
xl

xk+1
) = 0. Et comme kuk:l1
l

pour 1 6 l 6 n, on obtient finalement :

an

uk:l k2 = |xkl

xk+1
|2
l

n
X k

|x xk+1
|2 = kuk uk+1 k2 .
l
2 l=1 l
2

()

Je

f (uk ) f (uk+1 ) >

igh
t:

La suite (f (uk ))kN est d


ecroissante, par construction, et minor
ee, puisque f admet un minimum (car elliptique), et
donc convergente. Avec () on en d
eduit que limk+ kuk uk+1 k = 0, et donc aussi limk+ kuk:l uk+1 k = 0,
pour 0 6 l 6 n 1.
Notons u = (x1 , . . . , xn ) le minimum de f . Puisque f est -elliptique et que f (u) = 0 (condition dEuler) :
kuk+1 uk2 6 hf (uk+1 ) f (u), uk+1 ui = hf (uk+1 ), uk+1 ui =

n
X
f
(uk+1 )(xk+1
xl ) ,
l
x
l
l=1

avec lin
egalit
e de Cauchy-Schwartz,

py
r

n
X
f
(uk+1 )(xk+1
xl ) 6
l
x
l
l=1

2 ! 12
n 
X
f
(uk+1 )
kuk+1 uk
xl
l=1

Co

et il d
ecoule alors de ces deux derni`
eres in
egalit
es et du fait que par construction
que

kuk+1 uk 6

compact, on en d
eduit :

= 0 (condition dEuler),

2 ! 12
n 
X
f
f
(uk+1 )
(uk:l )
xl
xl
l=1
f
(x) est continue et donc uniform
ement continue
xl
f
(u
))
=
0.
On
d
e
duit
alors
de
()
que
uk tend vers
k:l
xl

Or puisque limk+ kuk:l uk+1 k = 0, et que x 7


f
limk+ ( x
(uk+1 )
l

f
(uk:l )
xl

()

sur tout
u.

IV.1. METHODES
ITERATIVES
DANS LE CAS SANS CONTRAINTES

83

au
x

Remarques. Linegalite () obtenue dans la preuve donne une majoration de lerreur


`a letape k + 1.
Le theor`eme reste vrai sous les hypoth`eses plus generales o`
u f est C 1 , strictement convexe
et coercive. La preuve en est cependant plus delicate.

M
ethode de gradient `
a pas optimal

Pr

IV.1.3

-P
hil
ip

pe

Une methode de type gradient est une methode de descente o`


u la direction choisie en
chaque point x est celle de plus grande pente, cest `a dire 1 : f (x).

f (u)

an

courbe de niveau f (u)

Je

Figure IV.3 La direction locale en u de plus grand accroissement de f est f (u), la


direction de plus grande descente f (u).
On construit par recurrence une suite de points (uk )kN , par la formule :

igh
t:

uk+1 = uk k f (uk )

La methode du gradient `a pas optimal determine `a chaque iteration le pas k par :


f (uk k f (uk )) = inf (uk f (uk ))
R

py
r

cest `a dire en se ramenant `a un probl`eme `a une seule variable.

Co

Th
eor`
eme IV.4 (Convergence de la m
ethode du gradient `
a pas optimal.)
Si f : Rn R est -elliptique, la methode du gradient `
a pas optimal converge vers
lunique minimum de f . Lerreur `
a letape k est majoree par :
krk k = kuk uk 6

1
kf (uk )k .

1. cela decoule immediatement de la formule de Taylor-Young a


` lordre 1.


CHAPITRE IV. ALGORITHMES ITERATIFS

84

au
x

D
emonstration. Lellipticit
e de f implique lexistence dun unique minimum u caract
eris
e par l
equation dEuler
f (u) = 0 (cf. th
eor`
emes II.7 et II.6). Sans perte de g
en
eralit
e on suppose que k > 0, f (uk ) 6= 0, car autrement
la m
ethode est convergente en un nombre fini dit
erations. Chacune des applications k : R 7 f (uk f (uk ))
est aussi elliptique et admet donc un unique minimum k caract
eris
e par l
equation dEuler 0k (k ) = 0. La formule
de d
erivation dune application compos
ee donne :
0k () = hf (uk f (uk )), f (uk )i ,

Pr

do`
u on d
eduit la relation :

(i)

hf (uk+1 ), f (uk )i = 0

(ii)

lim kuk uk+1 k = 0 .

pe

qui montre que deux directions de descente successives sont orthogonales. Puisque uk+1 = uk k f (uk ),
on d
eduit de (i) que hf (uk+1 ), uk+1 uk i = 0. Donc par ellipticit
e de f (th
eor`
eme II.3) f (uk ) f (uk+1 ) >

kuk uk+1 k2 . Or la suite (f (uk ))kN est d


ecroissante par construction et minor
ee par sa valeur minimale f (u),
2
do`
u on d
eduit que limk (f (uk ) f (uk+1 )) = 0, et avec la derni`
ere
equation on en d
eduit que :
(iii)

-P
hil
ip

En utilisant (ii) dune part kf (uk )k2 6 hf (uk ), f (uk ) f (uk+1 )i et dautre part avec lin
egalit
e de CauchySchwartz, hf (uk ), f (uk ) f (uk+1 )i 6 kf (uk )k kf (uk ) f (uk+1 )k et donc
kf (uk )k 6 kf (uk ) f (uk+1 )k .

(iv)

Puisque la suite (f (uk ))kN est d


ecroissante elle est born
ee, et f
etant coercive (cf. th
eor`
eme II.7) la suite
(uk )kN est aussi n
ecessairement born
ee. Puisque f est continue par hypoth`
ese, elle est uniform
ement continue
sur les compacts. On d
eduit alors de (iii) que limk kf (uk ) f (uk+1 )k = 0, et avec (iv) que
lim f (uk ) = 0 .

(v)

an

En utilisant successivement, l-ellipticit


e de f , la condition f (u) = 0 et lin
egalit
e de Cauchy-Schwartz, on
obtient :
kuk uk2 6 hf (uk ) f (u), uk ui = hf (uk ), uk ui 6 kf (uk )k kuk uk
dont on d
eduit :

1
kf (uk )k

Je

kuk uk 6

et il d
ecoule alors de (v) que la suite uk converge vers u.

igh
t:

Remarque. Un point essentiel de la preuve reside dans le fait que f (uk ) et f (uk+1 )
sont orthogonaux. On peut mettre `a profit cela pour sabstenir de resoudre `a chaque etape
un probl`eme doptimisation `a une variable dans le cas dune fonction quadratique elliptique. Cest ce que nous faisons ci-dessous.
Le cas dune fonction quadratique elliptique.

py
r

Soit f (x) = 21 x> Ax b> x + c une fonction quadratique elliptique (i.e. A est definie
positive). Le theor`eme precedent sapplique, mais de plus on peut ici donner une formule
explicite pour le pas optimal k .

Co

Th
eor`
eme IV.5 (Pas optimal en programmation quadratique elliptique.) Dans
le cas de la fonction quadratique elliptique f (x) = 12 x> Ax b> x + c, le pas optimal k
est donne par :
k =

kAuk bk2
kf (uk )k2
=
.
hA(Auk b), Auk bi
hAf (uk ), f (uk )i

IV.1. METHODES
ITERATIVES
DANS LE CAS SANS CONTRAINTES

85

hf (uk+1 ), f (uk )i = 0
= hA(uk k (Auk b)) b, Auk bi

(cf. th
eor`
eme II.8) .

Par bilin
earit
e du produit scalaire :
k hA(Auk b), Auk bi = hAuk b, Auk bi

k =

kdk k2
kAuk bk2
=
.
hA(Auk b), Auk bi
hAdk , dk i

M
ethode du gradient `
a pas fixe

Pr

pe

IV.1.4

au
x

D
emonstration. Mettons a
` profit le fait
etabli dans la preuve du th
eor`
eme IV.4 que f (uk ) et f (uk+1 ) sont
orthogonaux. Puisque :

-P
hil
ip

Les methodes de relaxation et de gradient `a pas optimal ont en commun la recherche `a


chaque pas dun pas de descente optimal, en se ramenant `a un probl`eme uni-dimensionnel.
Cest pour sabstraire de cette recherche du pas quon developpe la methode du gradient
`a pas fixe. Il sagit dune methode de gradient o`
u le pas de descente est fixe `a > 0 :
uk+1 = uk f (uk ) .

an

Sous des hypoth`eses suffisantes, on peut choisir le pas pour sassurer de la convergence.

Je

Th
eor`
eme IV.6 (Convergence de la m
ethode du gradient `
a pas fixe.)
Soit f : Rn R une application -elliptique dont la differentielle est lipschitzienne, cest
`
a dire quil existe M > 0 telle que x, y Rn ,
kf (x) f (y)k 6 M kx yk .

Si le pas est choisi tel que :

igh
t:

2
M2
alors la methode du gradient `
a pas fixe converge geometriquement vers lunique minimum
global de f .
0<<

py
r

D
emonstration. Par ellipticit
e de f le minimum u existe, est unique, et est caract
eris
e par l
equation dEuler
f (u) = 0. On peut donc
ecrire uk+1 u = (uk u) (f (uk ) f (u)). Ainsi, et en utilisant l-ellipticit
e de
f et le fait que f est M -lipschitzienne :
kuk+1 uk2 = kuk uk2 2hf (uk ) f (u), uk ui + 2 kf (uk ) f (u)k2 6 (1 2 + M 2 2 )kuk uk2 .

Co

On v
erifie facilement que le trin
ome t() = 1 2 + M 2 2 est convexe et a une valeur comprise dans ]0, 1[ si et
2
2
seulement si ]0, M 2 [. Alors si 0 < a 6 6 b < M
2,
p
p
1 2 + M 2 2 6 , max {t(a), t(b)} < 1 .

On a alors kuk+1 uk 6 kuk uk 6 k+1 ku0 uk, et la suite (uk )kN converge donc g
eom
etriquement vers u. 


CHAPITRE IV. ALGORITHMES ITERATIFS

86

au
x

Remarques. Lorsque f est deux fois differentiable les hypoth`eses du theor`eme reviennent `a lexistence de deux reels strictement positifs 6 M tels que pour tout x Rn ,
toutes les valeurs propres de 2 f (x) sont dans [, M ].
En general le meilleur pas de descente donne par la preuve est = /M 2 = min (1
2 + M 2 2 ).

Pr

Pour f (x) = 12 x> Ax b> x une fonction quadratique elliptique, et M sont respectivement donnes par la plus petite (la plus grande) valeur propre de A. On peut verifier que
2
dans ce cas le meilleur pas de descente est 1 +
o`
u 1 , n designent la plus petite et la
n
plus grande valeur propre de A.

M
ethode du gradient conjugu
e

-P
hil
ip

IV.1.5

pe

Il faut noter que contrairement `a la methode de relaxation ou du gradient `a pas optimal


on peut avoir f (uk+1 ) > f (uk ).

igh
t:

Je

an

Meme si la direction opposee au gradient est localement la direction de plus grande


descente locale, ce nest pas en appliquant une methode de descente du type gradient que
lon converge le plus rapidement vers un minimum. Et ce nest pas ce que lon peut faire
de mieux `a lordre 1. Lidee de la methode du gradient conjugue est de construire uk+1
comme le minimum de la fonction sur lespace affine uk + < d0 , . . . , dk >. Dans le cas
dune fonction quadratique elliptique la methode converge en au plus n-iterations : cest
une methode exacte particuli`erement rapide. Le point essentiel reside dans le fait que dans
ce cas la famille des directions successives d0 , . . . , dk est orthogonale pour le produit scalaire associe `a la matrice A, et en particulier est une famille libre dans un espace vectoriel
de dimension finie. Cette methode ingenieuse prend en compte la geometrie globale de
la nappe representative de la fonction. Cette propriete nest plus verifiee pour une fonction quelconque. Elle se generalise cependant `a des fonctions non quadratiques par des
methodes telles que Fletcher-Reeves 2 ou Polak-Ribi`ere 3 .
Soit f une fonction quadratique elliptique, f (x) = 21 x> Ax b> x + c. La methode du
gradient conjugue est la methode de descente definie par :
Etape 1 :

py
r

d0 = f (u0 ) = Au0 b
0 =

kd0 k2
hAd0 , d0 i

Co

u1 = u0 0 d0

2. R.Fletcher, C.M.Reeves, Function minimization by conjugate gradients, Computer Journal, 7


(1964), pp.149154.
`re, Sur la convergence de la methode des gradients conjugues, Revue Francaise
3. E.Polak, G.Ribie
dInformatique et de Recherche Operationnelle, 16(1) (1969).

IV.1. METHODES
ITERATIVES
DANS LE CAS SANS CONTRAINTES

87

Etape k + 1 :
soit : dk = Auk b +

hf (uk ), dk i
hAdk , dk i

k =

kAuk bk2
dk1
kAuk1 bk2

hAuk b, dk i
hAdk , dk i

Pr

k =

kf (uk )k2
dk1
kf (uk1 )k2

au
x

dk = f (uk ) +

uk+1 = uk k dk

pe

Et ce tant que f (uk ) = Auk b 6= 0.

-P
hil
ip

Th
eor`
eme IV.7 (Convergence de la m
ethode du gradient conjugu
e.) La methode du gradient conjugue appliquee `
a une fonction quadratique elliptique de Rn converge en
au plus n iterations.
D
emonstration. Puisque f est elliptique, il existe un unique minimum u caract
eris
e par l
equation dEuler f (u) =
Au b = 0. Aussi lorsque f (uk ) = 0 lalgorithme sarr
ete (devient stationnaire) en uk minimum de f .
Nous proc
edons par r
ecurrence pour montrer lhypoth`
ese suivante : k N tel que f (ul ) 6= 0 et l 6= 0 pour
l<k:

hf (uk ), f (uj )i = 0 0 6 j < k (Hk )


hf (uk ), dj i = 0
0 6 j < k (Hk2 )
(Hk ) :

hdk , Adj i = 0
0 6 j < k (Hk3 )

an

Preuve de Hk1 . Pour k > 0 :

hf (uk+1 ), dk i = hA(uk k dk ) b, dk i = hAuk b, dk i k hAdk , dk i = hf (uk ), dk i k hAdk , dk i = 0,


|
{z
}
par d
efinition de k

Je

En particulier cela montre l


etape initiale (H11 ) de la premi`
ere hypoth`
ese de r
ecurrence (Hk1 ).
1
Montrons que (Hk ) = (Hk+1
). On vient de voir que hf (uk+1 ), dk i = 0, montrons que hf (uk+1 ), dj i = 0
pour 0 6 j < k :
hf (uk+1 ), dj i = hf (uk+1 ), dj ihf (uk ), dj i = hf (uk+1 ) f (uk ), dj i = k hAdk , dj i = k hdk , Adj i = 0
|
{z
}
|
{z
}
{z
}
|

igh
t:

=0

puisque A = A>

=A(uk k dk )Auk

en utilisant lhypoth`
ese (Hk3 ).

Preuve de (Hk2 ). Pour 0 6 j 6 k,

hf (uk+1 ), f (uj )i =

hf (uk+1 ), d0 i = 0
hf (uk+1 ), dj i j hf (uk+1 ), dj1 i = 0

si j = 0,
si j > 0

py
r

1
en utilisant Hk+1
: pour j = 0 puisque d0 = f (u0 ), et pour j > 0 car par d
efinition f (uj ) = dj j dj1 (o`
u
j est d
efini ci-desous).
3
Il ne reste qu`
a montrer (Hk ) = (Hk+1
). Avant cela montrons que pour k > 1 :

Co

k ,

kf (uk )k2
hf (uk ), Adk1 i
=
kf (uk1 )k2
hAdk1 , dk1 i

de sorte que :

dk = f (uk ) + k dk1

Puisque f (uk1 ) f (uk ) = Auk1 b A(uk1 k1 dk1 ) b = k1 Adk1 , on a :


Adk1 =

f (uk1 ) f (uk )
k1

et (Hk1 ) = hf (uk ), Adk1 i =

kf (uk )k2
k1

()


CHAPITRE IV. ALGORITHMES ITERATIFS

88

2
Dautre part (par construction de k1 puis en appliquant (Hk1
)) :

hf (uk1 ) + k1 dk2 , f (uk1 )i


kf (uk1 )k2
hdk1 , f (uk1 )i
=
=
k1
k1
k1

au
x

hAdk1 , dk1 i =

ce qui montre ().


Revenons a
` la preuve de (Hk3 ). Avec (),

qui prouve

Pr

hd1 , Ad0 i = hf (u1 ), Ad0 i + 1 hd0 , Ad0 i = 0


(H13 ).

Pour 0 6 j < k, en utilisant dk+1 = f (uk+1 ) + k+1 dk , on obtient :

1
hdk+1 , Adj i = hf (uk+1 ), Adj i + k+1 hdk , Adj i = hf (uk+1 ), Adj i =
hf (uk+1 ), f (uj ) f (uj+1 )i = 0
j
| {z }
|
{z
}
=0
puisque f (uj+1 ) = f (uj ) j Adj

hdk+1 , Adk i = hf (uk+1 )

pe

1
en appliquant (Hk+1
). Par ailleurs, avec () :

hf (uk+1 ), Adk i
dk , Adk i = hf (uk+1 ), Adk i hf (uk+1 ), Adk i = 0
hAdk , dk i

kdk k2 = kf (uk )k2 + 2k kdk1 k2

et

-P
hil
ip

ce qui ach`
eve la preuve de (Hk3 ) et donc de (Hk ) pour k N avec f (ul ) 6= 0 et l 6= 0 pour tout 0 6 l < k.
Or, en appliquant (Hk2 ), on obtient :
hf (uk ), dk i = hf (uk ), f (uk )i + k hf (uk ), dk1 i = kf (uk )k2

et donc k 6= 0 et dk 6= 0 tant que f (uk ) 6= 0. Ainsi lalgorithme se poursuit tant que f (uk ) 6= 0.
Puisque A est d
efinie positive, (x, y) 7 x> Ay est un produit scalaire. Or avec (Hk3 ) les directions d0 , . . . , dk sont
orthogonales pour ce produit scalaire. En particulier ils forment une famille libre tant quils sont non nuls. Ainsi


u1
u3
u

u0

igh
t:

u2

Je

an

apr`
es au plus n it
erations lalgorithme sarr
ete en un point critique, et donc en un minimum.

u1
u2 = u
u0

py
r

Figure IV.4 Comparaison de la methode du gradient `a pas optimal (`a gauche) et de


2
2
la methode du gradient conjugue (`a droite) pour minimiser f (x, y) = xa2 + yb2 . Lorsque
a2 6= b2 la methode du gradient conjugue converge en deux etapes, tandis que la methode
du gradient `a pas optimal ne converge pas en un nombre fini detapes.

Co

Remarque. La methode du gradient conjugue est en fait apparue initialement 4 comme


methode de resolution dun syst`eme dequations, comme nous le verrons dans le prochain
chapitre.
4. M.R.Hestenes, E.Stiefel, Methods of conjugate gradients for solving linear systems, National
Bureau of Standards Journal of Research, 49 (1952), pp.409436.

IV.2. METHODES
ITERATIVES
DANS LE CAS SOUS CONTRAINTES

89

Minimisation de la forme quadratique :


f (x, y, z) = x2 + y 2 + z 2 + xy + xz + yz + x y + 3z .

au
x

Exemple.

30

igh
t:

50

Je

20

an

10

80

Gradient
optimal

1
2
3

0.5454
0.3181
1.4545

0.3086
1.4569
2.3086

0.1878
1.6381
2.1878

0.2451
1.7412
2.2451

0.2500
1.7499
2.2500

0.2500
1.7499
2.2500

0.2500
1.7500
0.2500

Gradient

fixe
1
2
3

1.4000
1.6000
0.6000

0.5200
0.4000
2.5200

0.3440
1.6960
1.6560

0.0361
1.7305
2.0361

0.2545
1.7273
2.2545

0.2500
1.7498
2.2500

0.2500
1.7499
2.2500

0.2500
1.7499
2.2500

0.2500
1.7500
2.2500

Relaxation

1
2
3

2.0000
1.0000
3.0000

0.5000
1.7500
2.6250

0.0625
1.8437
2.3906

0.2587
1.7749
2.2580

0.2500
1.7499
2.2499

0.2500
1.7500
2.2499

0.2499
1.7500
2.2500

0.2500
1.7500
2.2500

pe

point initial

Gradient
e
conjugu

1
2
3

0.5454
0.3181
1.4545

0.2500
1.7500
2.2500

-P
hil
ip

It
erations

Pr

Le tableau suivant permet de comparer trois methodes de minimisation de lapplication


quadratique f . Son minimum est (0.25, 1.75, 2.25) en lequel la fonction vaut 4.375.

py
r

(Voir la figure IV.5 qui donne le code utilise pour limplementation sous matlab.)

IV.2

M
ethodes it
eratives dans le cas sous contraintes

Co

Dans le cas sous contraintes de domaine convexe ferme, on etablit des methodes
iteratives en appliquant les methodes sans contraintes vues precedemment tout en projetant `a chaque iteration le point obtenu sur le domaine. On utilise pour cela le theor`eme de
projection convexe que nous rappelons ci-dessous. Cest un grand classique dont on peut
trouver une preuve dans lexercice 4 du chapitre II, page 49.


CHAPITRE IV. ALGORITHMES ITERATIFS

90

%% M
ethode du gradient `
a pas optimal %%
A=[2 1 1;1 2 1;1 1 2]; % matrice A
b=[1;-1;3];
% vecteur b
% Initialisation
N=30;
% Nbre it
erations
u=[1;2;3];
% point initial u0
% Impl
ementation
for i=1:N
d=A*u-b;
% dk
if d==0
break;
end
r=(d*d)/(d*A*d);
% rk
u=u-r*d;
% uk+1
end
umin=u
% minimum de f
fmin=0.5*u*A*u-b*u
% valeur min de f
grad=A*u-b
% gradient de f au min

%% M
ethode du gradient
A=[2 1 1;1 2 1;1 1 2];
b=[1;-1;3];
% Initialisation
N=80;
%
u=[1;2;3];
%
r=2/(1+4);
%
% Impl
ementation
for i=1:N
d=A*u-b;
%
if d==0
break;
end
u=u-r*d;
%
end N
umin=u
fmin=0.5*u*A*u-b*u
grad=A*u-b

%% M
ethode de relaxation %%
A=[2 1 1;1 2 1;1 1 2]; % matrice A
b=[1;-1;3];
% vecteur b
% Initialisation
n=3
% dimension
N=50;
% Nbre it
erations
u=[1;2;3];
% point initial u0
% Impl
ementation
for i=1:N
for j=1:n
% calcul de uk
a=[A(j,1:j-1) A(j,j+1:n)];
v=[u(1:j-1) ; u(j+1:n)];
u(j)=(b(j)-a*v)/A(j,j);
end
end
umin=u
% minimum de f
fmin=0.5*u*A*u-b*u
% valeur min de f
grad=A*u-b
% gradient de f au min

Pr

pe

an

Nbre it
erations
point u0
pas de descente

-P
hil
ip

`
a pas fixe %%
% matrice A
% vecteur b

au
x

%% M
ethode du gradient conjugu
e %%
A=[2 1 1;1 2 1;1 1 2]; % matrice A
b=[1;-1;3];
% vecteur b
% etape 1
u=[1;2;3];
% point initial u0
d=A*u-b;
% d0
r=(d*d)/(d*A*d);
% r0
v=u;
% u0
u=u-r*d;
% u1
% etape k > 1
for i=1:2
Gu=A*u-b; Gv=A*v-b;
d=Gu+(Gu*Gu)/(Gv*Gv)*d;
if d==0
break;
end
r=((A*u-b)*d)/(d*A*d);
v=u;
u=u-r*d;
% uk+1
end
umin=u
% minimum de f
fmin=0.5*u*A*u-b*u
% valeur min de f
grad=A*u-b
% gradient de f au min

Je

dk

uk+1

igh
t:

% minimum de f
% valeur min de f
% gradient de f au min

Figure IV.5 Le code sous matlab des implementations des methodes du gradient `a pas
conjugue, du gradient `a pas variable, du gradient `a pas fixe et de la methode de relaxation.

py
r

Th
eor`
eme IV.8 (Th
eor`
eme de projection convexe.) Soit C un sous-ensemble non
n
vide ferme, convexe de R . Donne u Rn il existe un unique PC (u) C tel que
ku PC (u)k = inf ku vk ,
vD

Co

et PC (u) est caracterise par linegalite :


v C,

hPC (u) u, v PC (u)i > 0 .

Lapplication PC : Rn C ainsi definie est appelee loperateur de projection sur C. Cest

IV.2. METHODES
ITERATIVES
DANS LE CAS SOUS CONTRAINTES

91

x, y Rn ,

IV.2.1

au
x

une application contractante, i.e. :


kPC (x) PC (y)k 6 kx yk .

M
ethode de relaxation sur un domaine produit dintervalles

D=

Pr

Considerons une application f : Rn R elliptique que lon souhaite minimiser sur


un domaine de la forme :
n
Y
[ai , bi ]

o`
u ai , bi R = R {, +}.

pe

i=1

(k)

(k)

-P
hil
ip

Dans ce cas D est un ferme convexe de Rn (car produit direct de fermes convexes de R),
et puisque f est elliptique elle y admet un unique minimum. On adapte alors la methode
de relaxation naturellement par :
uk = (x1 , x2 , . . . , x(k)
n )D
(k+1)

uk+1 = (x1
(k+1)

f (x1

(k)

, . . . , x(k+1)
) D est construit par :
n

, x2 , . . . , x(k)
n )=
(k+1)

, x2

, . . . , x(k)
n )=

(k)

inf

f (x, x2 , . . . , x(k)
n )

inf

f (x1

inf

f (x1

a1 6x6b1

an

(k+1)

f (x1

(k+1)

, x2

a2 6x6b2

(k+1)

, x, . . . , x(k)
n )

..
.

(k+1)

, . . . , xn1 , x(k+1)
)=
n

Je

(k+1)

f (x1

an 6x6bn

(k+1)

(k+1)

, . . . , xn1 , x)

igh
t:

(les inegalites ayant lieu dans R et etant bien evidemment strictes lorsque ai , bi = .)
Th
eor`
eme IV.9 (Convergence de la m
ethode de relaxation sous contraintes.)
n
Soit f : R R une application elliptique sur D Rn qui est un produit dintervalles :
n
Y
D=
[ai , bi ]

o`
u ai , bi R = R {, +}, ai 6 bi .

i=1

py
r

La methode de relaxation converge vers le minimum de f sur D.

Co

D
emonstration. La preuve est identique `
a celle dans le cas sans contraintes, `
a lexception pr`
es que lon remplace
les conditions n
ecessaires et suffisantes de minimum :
f (u) = 0,

par

f
(uk:l ) = 0,
xl

v D, f (u)(v u) > 0, et

par

vl [al , bl ],

f
(uk:l )(vl el uk:l ) > 0,
xl

1 6 l 6 n

qui sont encore n


ecessaires et suffisantes pour un minimum u D (th
eor`
eme II.6.1.(iv)).


CHAPITRE IV. ALGORITHMES ITERATIFS

92

IV.2.2

M
ethode du gradient projet
e

au
x

La methode du gradient projete consiste `a projeter sur le domaine C (convexe, ferme,


non vide) les points obtenus `a chaque iteration par la methode du gradient `a pas fixe.
Cest-`a-dire, soit > 0 un pas de descente :

Pr

uk+1 = PC (uk f (uk ) .

Sa convergence est assuree sous les memes hypoth`eses que pour la methode du gradient `a
pas fixe par le theor`eme suivant :

-P
hil
ip

pe

Th
eor`
eme IV.10 (Convergence de la m
ethode du gradient projet
e.)
n
Soit f : R R une application -elliptique et un domaine C non vide ferme et convexe.
On suppose de plus que f : Rn Rn est M -lipschtzienne (cest `
a dire M > 0,
n
x, y R , kf (x) f (y)k 6 M kx yk).
Si le pas de descente est choisi tel que :
2
0<< 2
M
alors la methode du gradient projete converge geometriquement vers le minimum de f sur
C.
D
emonstration. Puisque f est elliptique et C est ferm
e convexe non vide, f admet un unique minimum global
u sur C. D
efinissons lapplication g : Rn C par g(x) = PC (x f (x)), en prenant > 0. Lop
erateur de
projection
etant une application contractante, on a :

an

kg(x) g(y)k2 = kPC (x f (x)) PC (y f (y))k2


6 k(x y) (f (x) f (y))k2 ,

= kx yk2 2hf (x) f (y), x yi + 2 kf (x) f (y)k2

Je

et puisque f est -elliptique et f est M -lipschitzienne :

6 (1 2 + M 2 2 ) kx yk2 .

igh
t:

p
Comme dans la preuve du th
eor`
eme IV.6, on
etablit lexistence de > 0, tels que : 1 2 + M 2 2 6 < 1.
Le point u est un point fixe de lapplication g. En effet, avec le th
eor`
eme II.5.1.a, x C, hf (u), xui > 0, et donc
pour tout > 0 et x C, hu (u f (u)), x ui > 0 qui implique avec la caract
erisation de PC (u) donn
ee dans
le th
eor`
eme IV.8 que u = PC (u f (u)) = g(u). Dautre part chaque
el
ement de la suite uk+1 = uk f (uk )
v
erifie g(uk ) = uk+1 . Ainsi on a :
kuk+1 uk = kg(uk ) g(u)k 6 kuk uk

qui montre la conclusion.

Co

py
r

Ainsi la methode du gradient conjugue permet en theorie de determiner le minimum


dune fonction elliptique `a derivee lipschitzienne sur un convexe ferme quelconque. Cest
cependant illusoire : on ne sait pas en general construire lop
Qerateur de projection sur
un convexe. Les seuls exemples notables etant lorsque C = ni=1 [ai , bi ] est un produit
dintervalles, ou lorsque C est une boule fermee C = B(x0 , r). Aussi emploie-t-on plutot,
du moins lorsque les contraintes sont affines, la methode dUzawa, que nous allons voir, qui
met `a profit la notion de dualite et resout le probl`eme dual, o`
u loperateur de projection
est alors on ne peut plus simple, les contraintes netant plus alors que des contraintes de
signe.

IV.2. METHODES
ITERATIVES
DANS LE CAS SOUS CONTRAINTES

IV.2.3

93

M
ethode dUzawa

Pr

au
x

Cette methode applique la theorie de la dualite convexe (vue au III.2.6), et recherche


dans un probl`eme de programmation convexe un point-selle du lagrangien. Il sagit en
fait de la methode du gradient projete appliquee au probl`eme dual. Mais dans ce cas
loperateur de projection de Rq sur (R+ )q est particuli`erement simple `a ecrire ; cest l`a
quen reside tout linteret.
Algorithme dUzawa.

On construit une suite (xk )kN de Rn et deux suites (k )kN de Rp et (k )kN de (R+ )q
de la facon suivante.

pe

Initialement. On fixe > 0 et on choisit arbitrairement (0 , 0 ) Rp (R+ )q .


It
eration k. On determine xk Rn par :

-P
hil
ip

xk est solution de minn L(x, k , k )


xR

soit encore : x L(xk , k , k ) = 0 .


On determine k+1 et k+1 par :

k+1 = k + .(1 (xk ), . . . , p (xk )) ,

k+1 = P(R+ )q (k + .(1 (xk ), . . . , q (xk )) .

an

Sa convergence est assuree sous certaines hypoth`eses par le resultat suivant.

Je

Th
eor`
eme IV.11 (Convergence de la m
ethode dUzawa.) On suppose que f est elliptique, que 1 , . . . , p et 1 , . . . , q sont affines, i.e.,
n
o
D = x Rn | Ax = b ; Cx 6 d

igh
t:

avec A Mp,n (R), b Rp , C Mq,n (R) et d Rq . Alors en choisissant tel que


0<<

kAk2

2
+ kCk2

la suite (uk )kN converge vers lunique minimum de f sur D.

Co

py
r

D
emonstration. Sous ces hypoth`
eses le domaine D est un convexe ferm
e, et lapplication f
etant elliptique, y
admet un unique minimum u, solution du probl`
eme que nous appellerons (P ). Il en est de m
eme pour chacun des
probl`
emes de minimisation permettant de d
eterminer uk dans la m
ethode dUzawa. De plus le probl`
eme (Q) dual
de (P ) admet aussi une solution.
Pour
eviter les confusions, notons pour m > 0, h., .im , le produit scalaire usuel de Rm et k.km la norme associ
ee,
tandis que h., .i et k.k d
esigneront le produit scalaire usuel de Rn et sa norme associ
ee. Avec ces notations :
L(x, , ) = f (x) + hAx b, ip + hCx d, iq = f (x) + hA> , xip hb, ip + hC > , xiq hd, iq .

On notera encore, pour plus de concision, (x) = Axb = (1 (x), . . . , p (x)) et (x) = Cxd = (1 (x), . . . , q (x)).
Soit ( , ) Rp (R+ )q une solution du probl`
eme dual (Q), de sorte que (u, , ) soit un point-selle
du lagrangien ; en particulier on v
erifie les conditions de KKT : h(u), iq = 0, et f (u) + A> + C > = 0.
Puisque la solution u est dans le domaine admissible D, dune part (u) = 0 et dautre part il d
ecoule de la premi`
ere


CHAPITRE IV. ALGORITHMES ITERATIFS

94

au
x

condition de KKT ci-dessus que (R+ )q , h(u), iq 6 0. Cette derni`


ere relation s
ecrit aussi pour > 0,
h ( + (u)), iq > 0 pour tout (R+ )q . Ceci montre (cf. theor`
eme IV.8) que est la projection sur
(R+ )q de + (u). On a donc
etabli :

Par construction de la m
ethode dUzawa, on a pour tout k > 0 :

f (uk ) + A> k + C > k = 0


k+1 = k + (uk )

k+1 = P(R+ )q (k + (uk ))

(1)
(2)
(3)

pe

dont on d
eduit, puisque la projection convexe est contractante :

f (uk ) f (u) + A> (k ) + C > (k ) = 0


kk+1 kp = kk + A(uk u)kp

kk+1 kq 6 kk + C(uk u)kq

Pr

f (u) + A> + C > = 0


= + (u)
= P

(R+ )q ( + (u))

-P
hil
ip

Montrons maintenant que (uk )kN converge vers u ; nous nutiliserons que ces trois derni`
eres relations (1), (2),
(3). En
elevant au carr
e (2) et (3) on obtient :
kk+1 k2p = kk k2p + 2hA> (k ), uk uip + 2 kA(uk u)k2p
kk+1 k2q 6 kk k2q + 2hC > (k ), uk uiq + 2 kC(uk u)k2q
ce qui donne en les additionnant puis en tenant compte de (1),

k(k+1 , k+1 ) ( , )k2p+q 6 k(k , k ) ( , )k2p+q 2hf (uk ) f (u), uk ui

an

+2 kA(uk u)k2p + 2 kC(uk u)k2q

puisque f est -elliptique et par propri


et
e de compatibilit
e de la norme matricielle,

Je

6 k(k , k ) ( , )k2p+q (2 (kAk2 + kCk2 )) kuk uk2q .


En particulier, en prenant 0 6 6 kAk22
, = k(k+1 , k+1 ) ( , )kp+q 6 k(k , k ) ( , )kp+q pour
+kCk2
tout k > 0. Ainsi la suite (k(k , k ) ( , )kp+q )kN est d
ecroissante et minor
ee par 0 et donc convergente. Cela
entraine :

lim k(k+1 , k+1 ) ( , )k2p+q k(k , k ) ( , )k2p+q = 0 ,
et alors :

igh
t:

0<<

Ce qui montre la conclusion.

2
kAk2 + kCk2

lim kuk uk = 0

Co

py
r

Remarques. Il sagit en fait essentiellement de la methode du gradient projete appliquee


au probl`eme dual. Ce qui explique la similarite des conditions de convergence.
Le resultat reste essentiellement vrai sous des hypoth`eses plus generales : 1 , . . . , q
sont differentiables et lipschitziennes, et le lagrangien admet un point-selle. La preuve
suit les memes lignes ; on pourra ladapter en guise dexercice (par quoi est remplace kCk
dans la conclusion ?). Ces conditions sont immediatement verifiees lorsque les contraintes
inegalitaires sont affines.
On peut utiliser dans la conclusion
p nimporte quelle norme matricielle compatible avec
la norme vectorielle usuelle (kxk = hx, xi), cest `a dire telle que kAxk 6 kAk kxk. On a
un large choix, voir A.3.2 de lannexe.

IV.2. METHODES
ITERATIVES
DANS LE CAS SOUS CONTRAINTES

95

Exercices.

au
x

Exercice
1. Appliquer la methode de Newton pour donner une valeur approchee de 2,

3
2, que lon comparera avec une valeur donnee par une calculatrice. Essayer plusieurs
points initiaux.

pe

Pr

Exercice 2. Considerons le cas dun probl`eme de programmation quadratique elliptique


sans contraintes :
1
min x> Ax b> x .
x 2
Comment sexprime dans ce cas la methode de Newton ? Sa convergence depend-elle du
point initial ? En combien diterations converge-t-elle ? Reinterpreter la methode de Newton.

-P
hil
ip

Exercice 3. Considerons le cas dun probl`eme de programmation quadratique elliptique


sans contraintes :
1
min x> Ax b> x .
x 2
Comment sexprime dans ce cas la methode de relaxation ?
Exercice 4. Considerons le cas dun probl`eme de programmation quadratique elliptique
sous contraintes :

an

1 >
x Ax b> x
2
Cx = c
min
x

Je

Dx 6 d

o`
u A Mn (R) definie positive, b Rn , C Mp,n (R), c Rp , D Mq,n (R), d Rq .

igh
t:

a. Comment sexprime le vecteur gradient du lagrangien de ce probl`eme L(x, , ) ?


b. Exprimer les conditions necessaires de KKT pour ce probl`eme sous forme matricielle.

Co

py
r

c. Comment sexprime ici la methode dUzawa ?


CHAPITRE IV. ALGORITHMES ITERATIFS

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Pr

au
x

96

au
x
-P
hil
ip

pe

Applications aux Maths


num
eriques

Pr

Chapitre V

igh
t:

Je

an

Les domaines dapplication de loptimisation sont innombrables. Nous passons ici en


revue quelques exemples en mathematiques numeriques. Nous avons fait le choix de la
simplicite et de la concision ; les developpements que nous faisons decoulent presque
immediatement des notions abordees dans les chapitres precedents, et auraient tout aussi
bien pu etre presentes sous forme dexercices dapplication ; par ailleurs la liste que nous
donnons est loin detre exhaustive. Ils revetent cependant un grand interet et sont tr`es
largement utilises.
Nous passons sous silence certains aspects presentant pourtant une grande importance.
Notamment le domaine du calcul variationnel : il sagit de loptimisation dapplications
definies non plus sur Rn mais sur un espace fonctionnel reel ; un minimum nest plus un
point de Rn mais une application definie sur Rn . Cela aurait necessite denoncer toute
cette theorie sur des espaces vectoriels reels de dimension pouvant etre infinie, et plus
precisement sur des espaces de Hilbert 1 . La plupart des resultats que nous avons vus y
restent vrais, sans apporter de difficulte supplementaire, tandis que le champ dapplication
de la theorie selargit considerablement. Une de ses applications en est la theorie du controle
optimal fondamantale en automatique.

py
r

Exemple de probl`
eme variationnel. Probl`eme de la brachistochrone. Quelle forme
doit avoir un toboggan pour que la duree de descente (sans frottements) soit minimale.
Ce probl`eme revient `a determiner lapplication f : R R qui minimise le crit`ere :
Z

xB

xA

1 + f 0 (x)2
p
dx ?
f (x)

Co

Reponse : cest une cyclode. Elle peut se decrire comme la courbe decrite par le point
dune roue roulant sur une surface plane.
1. Un espace vectoriel reel muni dun produit scalaire (i.e. dune forme bilineaire symetrique definie
positive) qui est complet pour la norme induite (i.e. toute suite de Cauchy est convergente) est appele un
espace de Hilbert. En dimension finie il sagit des espaces euclidiens.

97


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

98

Pr

au
x

V.1.1

R
esolution approch
ee dun syst`
eme d
equations

-P
hil
ip

V.1

pe

Figure V.1 Une cyclode decrit le trajet sans frottements du point A au point B de
duree minimale dun corps soumis `a un champ de pesanteur (`a gauche). On peut la voir
(`a un signe pr`es) comme le trajet que suit la valve dune roue de velo (`a droite).

Syst`
eme d
equations lin
eaires de Cramer

Soit M Mn (R) une matrice inversible, et soit c Rn . On consid`ere le syst`eme


dequations lineaires de Cramer :
()

an

Mx = c

igh
t:

Je

La resolution dun tel syst`eme intervient tr`es frequemment dans tous les domaines dapplications mathematiques. Lorsque n est grand la resolution directe de ce syst`eme par la
methode du pivot de Gauss, ou par les formules de Cramer, par exemple est fastidieuse et
prend un temps de calcul pouvant etre penalisant. Aussi est-il tr`es utile dans la pratique
de disposer dalgorithmes de resolution approchee de syst`eme dequations lineaires, plus
rapides ou moins gourmands en ressources. Nous allons appliquer les resultats etablis dans
les precedents chapitres pour y parvenir.

py
r

Pour ce faire commencons par nous ramener au cas dune matrice symetrique definie
positive. Il suffit de multiplier `a gauche par la matrice transposee M > ; cest une operation
peu couteuse en ressources.

Co

Poser A = M > M et b = M > c ; A est symetrique definie positive (cf. theor`eme A.4
page 117) et le syst`eme lineaire
Ax = b

est equivalent au syst`eme lineaire ().


Dans la suite nous ne considererons plus que des syst`emes lineaires `a matrice symetrique
definie positive.


DUN SYSTEME
`

V.1. RESOLUTION
APPROCHEE
DEQUATIONS

Syst`
eme d
equations lin
eaires `
a matrice sym
etrique d
efinie positive

au
x

V.1.2

99

Pr

Soit A Mn (R) une matrice symetrique definie positive ; soit b Rn . On souhaite


appliquer un algorithme pour determiner une valeur approchee de la solution du syst`eme
de Cramer :
Ax = b
()

pe

Resoudre ce syst`eme, on la vu, equivaut au probl`eme doptimisation quadratique elliptique :


1
min f (x) = x> Ax b> x.
x
2
En particulier une methode iterative de recherche de minimum fournit une methode approchee de resolution du syst`eme lineaire.

-P
hil
ip

M
ethode du gradient `
a pas fixe. En notant 1 , n la plus petite et la plus grande
valeur propre de A, elle secrit ici (voir IV.1.4) :
uk+1 = uk

2
(Auk b) .
1 + n

M
ethode du gradient `
a pas optimal. Elle secrit ici (voir IV.1.3) :
kAuk bk2
(Auk b) .
hA(Auk b), Auk bi

an

uk+1 = uk

Etape 1 :

0 =

igh
t:

d0 = Au0 b

Je

M
ethode du gradient conjugu
e. Il sagit cette fois-ci dune methode exacte (si lon
exclut les erreurs dapproximation) qui converge en au plus n iterations (voir IV.1.5) :

kd0 k2
hAd0 , d0 i

u1 = u0 0 d0
Etape k + 1 :

kAuk bk2
dk1
kAuk1 bk2

py
r

dk = Auk b +

hAuk b, dk i
hAdk , dk i

Co

k =

uk+1 = uk k dk

Tant que f (uk ) = Auk b 6= 0.


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

100

()

-P
hil
ip

pe

Pr

au
x

Le nombre doperations `a effectuer est de lordre de O(n3 ) et ne presente pas de grand


avantage par rapport `a dautres methodes directes telles la methode de Cholesky ; en outre
cest dans la pratique un leurre de considerer cette methode comme directe, les erreurs
dapproximations dans les calculs successifs necessitant de poursuivre la methode au-del`a
des n iterations theoriques, en ajoutant un crit`ere darret (tel kAuk bk < .) Par contre
elle presente une tr`es bonne stabilite par rapport aux erreurs darrondi. Dautre part
pour des matrices creuses (i.e. comportant beaucoup de zeros), le calcul des Adk , les plus
co
uteux numeriquement, peut dans ce cas se faire `a laide de relations de recurrence et
ameliore considerablement la rapidite de calcul ; cest le cas par exemple dans le cas de
discretisation de probl`emes aux limites par des methodes de differences finies. Cela permet
une reduction spectaculaire de la quantite de calculs necessaires `a son application ; cest
alors une methode de resolution approchee des plus efficientes.
M
ethode de Gauss-Seidel.
La methode de relaxation appliquee `a f fournit une methode approchee de resolution de
() connue sous le nom de methode de Gauss-Seidel. Notons A = (aij )i=1..nj=1..n , elle
devient dans ce cas (voir lexercice 3 du chapitre IV) :

a11 x1 + + a1n xn = b1
..
..
.
.

an1 x1 + + ann xn = bn

+ + a1n xkn

= b1

xk+1
1

+ + a1n xkn

= bn
..
.

xk+1
2
..
.

= bn

xk+1
n

Je

+ a12 xk2

a12 xk+1
2

+ a12 xk+1
2

igh
t:

a11 xk+1

a xk+1
11 1
..

a xk+1
11 1

an

k+1
Choisir arbitrairement un point initial u0 et construire le point uk+1 = (xk+1
1 , . . . , xn )
k
k
`a partir du point uk = (x1 , . . . , xn ) de la facon suivante :

+ +

a1n xk+1
n

py
r

Remarque. Clairement, pour appliquer la methode, les coefficients diagonaux de A


doivent etre tous non nuls. Cest bien le cas puisque A est definie positive (cf. theor`eme
A.4 ).

Co

En collectant tous les resultats etablis dans le chapitre precedent concernant la convergence de chacune de ces methodes, on peut enoncer ici :

Th
eor`
eme V.1 (Convergence des m
ethodes de r
esolution approch
ee.) Lorsque
A est une matrice symetrique definie positive, chacune des suites (uk )kN construites selon
les methodes du gradient `
a pas variable, `
a pas fixe, du gradient conjugue ou de Gauss-Seidel,
de ().
convergent vers la solution u


DUN SYSTEME
`

V.1. RESOLUTION
APPROCHEE
DEQUATIONS

V.1.3

101

Inversion dune matrice sym


etrique d
efinie positive

-P
hil
ip

pe

Pr

au
x

Soit A Mn (R) une matrice symetrique definie positive, et donc en particulier inversible. Inverser la matrice A permet bien evidemment une resolution directe du syst`eme ()
vu ci-dessus, de sorte que ce que nous allons voir presente encore une methode de resolution
de syst`emes lineaires. Cependant linversion dune matrice intervient tr`es frequemment
dans de nombreux probl`emes (la methode de Newton par exemple) et presente un interet
qui ne se reduit pas seulement `a la resolution de syst`emes lineaires.
Linversion dune matrice est une operation co
uteuse numeriquement, pouvant navement se ramener `a la resolution dun syst`eme de Cramer de n2 equations. Cest cependant
un probl`eme incontournable dans bon nombre de probl`emes de mathematiques appliquees.
Aussi plusieurs methodes ont-elles ete developpees pour leffectuer au mieux, citons par
exemple la methode du pivot de Gauss, ou la factorisation LU , qui toutes deux se ram`enent
`a linversion de matrices triangulaires. Nous allons developper une technique dinversion
basee sur la methode du gradient conjugue ; ce que nous voyons ici ne sadapte qu`a une
matrice symetrique definie positive. Il sagit dune methode exacte, pour peu que lon oublie les erreurs darrondi.

D
efinition. Soit A Mn (R) une matrice symetrique definie positive, et 1 , . . . , p une
famille de p vecteurs de Rn . La famille est dite A-orthogonale si pour tout 1 6 i, j 6 p,
i 6= j, i> Aj = 0.

Je

an

Clairement, puisque lorsque A est symetrique definie positive, la forme bilineaire


(x, y) 7 x> Ay definit un produit scalaire, une famille de vecteurs non nuls A-orthogonale
est une famille libre.
Soit 1 , . . . , p une famille de p vecteurs non nuls de Rn A-orthogonale (p 6 n). On
construit une suite finie C1 , . . . , Cp de matrices dans Mn (R) de la facon suivante :
k
X
i i>
,
> A

i
i
i=1

igh
t:
Ck =

k = 1, . . . , p .

py
r

Th
eor`
eme V.2 (Calcul it
eratif de linverse de la matrice A.) Si A Mn (R) est
symetrique definie positive et si 1 , . . . , n est une famille A-orthogonale de vecteurs non
nuls de Rn , alors :
Cn = A1 .

Co

D
emonstration. Par construction, pour j = 1, . . . , k,

Ck Aj =

k
X
i i> Aj
i=1

i> Ai

j j> Aj
j> Aj

= j .

Posons Dk = Id Ck A ; avec ce qui pr


ec`
ede, pour j = 1, . . . , k,
Dk j = j Ck Aj = j j = 0 .


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

102

En particulier Dn j = 0 pour tout j = 1, . . . , n. Or 1 , . . . , n est une famille libre et donc une base de Rn . Ainsi,
Dn est la matrice nulle 0. Donc Dn = Id Cn A = 0 = Cn = A1 .

au
x

Pr

Pour appliquer cette methode il suffit donc de construire une famille A-orthogonale
de n vecteurs non nuls. On peut appliquer la methode du gradient conjugue `a la forme
quadratique f (x) = 21 x> Ax qui permet de construire une famille de p vecteurs non nuls Aorthogonale. Si p < n on compl`ete cette famille (que lon peut aussi construire directement)
par :

-P
hil
ip

Dk = Id Ck A .

pe

Th
eor`
eme V.3 (Construction dune famille A-orthogonale de n vecteurs.) Soit
1 , . . . , p une famille de p < n vecteurs non nuls A-orthogonale. Posons pour k = 1, . . . , p,

Si Dp est la matrice nulle alors, Cp = A1 , et sinon soit u 6 ker Dp et p+1 = Dp u. Alors


1 , . . . , p+1 est une famille A-orthogonale de p + 1 vecteurs non nuls.
D
emonstration. Il est clair par construction que si Dp est la matrice nulle alors Cp = A1 . Supposons que ce
nest pas le cas et soit u 6 ker Dp . Pour j = 1, . . . , p
(Dp u)> Aj = u> Dp> Aj = u> (Id ACp )Aj

an

= u> Aj u> A(Cp Aj )

Je

or Cp Aj = j , voir la preuve du pr
ec
edent th
eor`
eme,

= u> Aj u> Aj = 0

igh
t:

Ainsi 1 , . . . , p+1 est une famille A-orthogonale, non nulle puisque k+1 = Dp u 6= 0.

Exemple. Soit la matrice symetrique :



A=

2 1
1 2

py
r

qui est definie positive car `a trace et determinant > 0. Prenons 1 = (1, 0), alors :

Co

1 >
1
C1 = > 1 = .
2
1 A1

1 0
0 0


=

1/2 0
0 0


;

D1 = Id C1 A =

0 1/2
0
1


.

Posons u = (0, 1) 6 ker D1 et 2 = D1 u = ( 21 , 1). Alors :


2 2>
=
2> A2

1/6 1/3
1/3
2/3


;

2 >
C2 = C1 + > 2 =
2 A2

2/3 1/3
1/3
2/3

= A1 .


DUN SYSTEME
`

V.1. RESOLUTION
APPROCHEE
DEQUATIONS

V.1.4

103

R
esolution approch
ee dun syst`
eme d
equations non lin
eaires

Pr

au
x

Soit F : Rn Rn une application de classe C 1 ; resoudre F (x) = 0 equivaut `a


resoudre un syst`eme de n equations `a n inconnues :

g1 (x1 , . . . , xn ) = 0
..
..
.
.

gn (x1 , . . . , xn ) = 0
et les g1 , . . . , gn sont des applications de classe C 1 . On peut le resoudre en appliquant la
methode de Newton (voir IV.1.1) :

pe

xn+1 = xn DF (xn )1 F (xn )

Chaque iteration revient `a resoudre le syst`eme dequations lineaires dinconnue xn :


DF (xn )xn = F (xn )

Je

an

-P
hil
ip

puis `a poser : xn+1 = xn xn .


Seulement chaque iteration est co
uteuse en temps de calcul. Aussi peut-on lui preferer
en pratique une m
ethode quasi-Newton qui consiste en chaque iteration `a remplacer
DF (xn ) par une matrice An (xn ) pour laquelle la resolution du syst`eme lineaire est moins
co
uteuse. Il y a beaucoup de telles methodes, en voici deux :
Fixer un entier k et poser n = p, p+1, . . . , p+k, An (xn ) = DF (xp ) et Ap+k+1 (xp+k+1 ) =
DF (xp+k+1 ) (cest-`a-dire conserve la matrice DF (xp ) sur k iterations). Lorsque k est suffisamment petit, cette methode quasi-Newton converge.
Poser n N, An (xn ) = Id, i.e. xn+1 = xn F (xn ). Cest la m
ethode des approximations successives.
Pour etablir la convergence dune methode quasi-Newton on peut utiliser le resultat
technique suivant, que nous admettrons :

igh
t:

Th
eor`
eme V.4 (Convergence des m
ethodes quasi-Newton.) Soit x0 Rn ; sil
existe 3 constantes r, M, telles que : r > 0, B = B(x0 , r),
sup sup kA1
k (x)k2 6 M
kN xB

sup sup kDF (x) Ak (x0 )k2 6


kN x,x0 B

Co

py
r

r
(1 )
M
de F dans
alors la suite definie par xk+1 = xk A1
ero x
k (xk ) converge vers lunique z
B, et la convergence est geometrique :
kF (x0 )k 6

k N,

k 6
kxk x

kx1 x0 k k

Nous restons succinct et ne developpons pas plus loin ces techniques quasi-Newton.
Elles pourraient meriter un chapitre `a elles seules. Ce qui dailleurs ne serait pas cher
payer au vu de leur puissance et de leur vaste champ dapplications.


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

104

Approximation dun nuage de points

au
x

V.2

Soit p un entier strictement positif, et un nuage (=suite finie) de p points de R2 :


{(x1 , y1 ), (x2 , y2 ), . . . , (xp , yp )} .

Pr

Soit
{fu : R R | u Rn }

-P
hil
ip

yp fu (xp )

pe

une famille dapplications dependant contin


ument de n param`etres reels. Soit k.kRp une
p
norme de R , posons :

y1 fu (x1 )
y2 fu (x2 )

Z(u) =

..

.
et considerons le probl`eme doptimisation :
min

uRn

kZ(u)kRp

Cest un probl`
eme dapproximation des p points (x1 , y1 ), . . . , (xp , yp ) de R2 par une
application de la classe {fu | u Rn }.

an

Lorsque kZ(u)k a pour valeur minimale 0, il sagit dun probl`


eme dinterpolation.
Dans ce cas le resultat est independant de la norme k.kRp consideree.

Je

1
Pn
2 2 il sagit dun probl`
Lorsque k.kRp = k.k2 , cest-`a-dire, kxk2 =
eme dapi=1 xi
proximation au sens des moindres carr
es.

igh
t:

Lorsque k.kRp = k.k , cest-`a-dire, kxk = sup {|x1 |, . . . , |xn |}, il sagit dun probl`
eme
dapproximation au sens de Tchebychev ou encore dun probl`
eme dapproximation minimax.

py
r

Lorsque fu depend lineairement des param`etres u = (u1 , u2 , . . . , un ) on parle dapproximation lin


eaire ; cest-`a-dire, x R, u fu (x) est lineaire. Dans ce cas, on a la
notation matricielle :
n
X
i = 1, . . . , p, fu (xi ) =
zij (x)uj

Co

j=1

z11 z1n
..
..
M = .
.
zp1 zpn

u1

u = ...
un

et le probl`eme secrit :
min

uRn

kM u yk

y1

y = ... ,
yp

V.2. APPROXIMATION DUN NUAGE DE POINTS

V.2.1

105

Approximation lin
eaire au sens des moindres carr
es

min kM u yk2 = minn (ku yk2 ) = minn

uRn

uR

uR

p
X

au
x

Soit M Mp,n (R) et y Rp donnes. On sinteresse `a :

((M u)i yi )2 .

i=1

()

Pr

Existence dune solution.


Im(M ) est un sous-espace vectoriel de Rp ; cest donc un ferme convexe non vide. Avec le
theor`eme de projection convexe (cf. theor`eme IV.8) :
= M u tel que k
!u
u yk = minn kv yk .
et un element

=
tel que u

M u

pe

vR

est une solution du probl`eme dapproximation.

-P
hil
ip

Si M est inversible (rg M = n = p).


, o`
est le projete de y sur Im M .
Le probl`eme () admet une unique solution u = M 1 u
uu

Je

an

Comment d
eterminer la solution ?
Posons :
1
1
J(u) = (kM u yk2 )2 (kyk)2
2
2
1
1
= hM u y, M u yi hy, yi
2
2
1
= hM u, M ui hy, M ui
2
1
J(u) = hM > M u, ui hM > y, ui
2

J : Rn R est une fonction quadratique de matrice Hessienne M > M , et :


min J(u) = minn kM u yk2

igh
t:

uRn

uR

Or M Mp,n (R), la matrice carree M > M Mn,n (R) est semi-definie positive (cf.
theor`eme A.5 page 117) et meme definie positive lorsque M est de rang maximal. Ainsi
un minimum u de () est caracterise comme solution du syst`eme lineaire :

py
r

M >M u = M >y

Co

dinconnue u Rp .
Si en outre p = n et M est inversible, alors M > M est definie positive. Dans ce cas (cf.
theor`eme II.10) il existe une unique solution u Rp de () caracterisee par le syst`eme de
Cramer :
Mu = y .
Il sagit alors dun probl`eme dinterpolation lineaire.
On peut resumer tous ces faits dans le theor`eme suivant :


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

106

au
x

Th
eor`
eme V.5 (Approximation lin
eaire au sens des moindres carr
es.)
Un probl`eme dapproximation lineaire dun nuage de points au sens des moindres carres
admet toujours une solution. En notant M Mp,n (R) la matrice associee, une solution
est caracterisee par le syst`eme lineaire dinconnue u :

Pr

M >M u = M >y

De plus la solution est unique si et seulement si M est de rang maximal. Lorsque M est
inversible la solution est aussi caracterisee par le syst`eme de Cramer M u = y, et il sagit
alors dune interpolation (la valeur minimale est 0).

Exemple important : la droite de r


egression lin
eaire

pe

V.2.2

min

a,bR

-P
hil
ip

On cherche la droite y = ax + b qui approche le mieux le nuage de points (x1 , y1 ), . . . ,


(xp , yp ) de R2 au sens des moindres carres. Soit fa,b (x) = ax + b ; on cherche :
p
X

(yi axi b)2

i=1

Avec les notations precedentes, posons :


p

p
X
X

x2i
xi
x1 1

.. ..
>
i=1
i=1

M M = p
. .

xi
p
xp 1

p
X

xi yi

i=1

M y= p
Xy
i

an

>

i=1

i=1

Je

P
Or det(M > M ) = p i=1 x2i ( pi=1 xi )2 6= 0. Ainsi existe-t-il une unique solution (a, b),
caracterisee par le syst`eme :

p
p
p
X
X
X

a
x
+
b
x
=
xi yi

i
i

i=1
i=1
i=1
M >M u = M >y

p
p
X
X

xi +
bp
=
yi

Co

py
r

igh
t:

Pp

a=
=
b=

i=1

p
X
i=1

x i yi

i=1

p
X

xi

p
X

yi

i=1
i=1
p
X
p
x2i (
xi )2
i=1
i=1
p
p
p
p
X
X
X
X
x2i
yi
xi
xi yi
i=1
i=1
i=1
i=1
p
p
X
X
2
p
xi (
xi )2
i=1
i=1
p
X

V.2. APPROXIMATION DUN NUAGE DE POINTS

V.2.3

107

Exemple important : le polyn


ome dinterpolation de Lagrange

1 xp x2p xn1
p

pe

Pr

au
x

Soit {(x1 , y1 ), . . . , (xp , yp )} un nuage de points, soit u = (u0 , u1 , . . . , un1 ) Rn , et


soit lapplication fu : R R polynomiale `a coefficients reels de degre au plus n 1,
fu (x) = u0 + u1 x + u2 x2 + + un1 xn1 .
Le probl`eme dapproximation du nuage de points par une application polynomiale de
degre au plus n 1 au sens des moindres carres est un probl`eme dapproximation lineaire,
et sa matrice associee est :

1 x1 x21 xn1
1
1 x2 x2 xn1
2
2

M = .
.. Mp,n (R)
..
.

Je

an

-P
hil
ip

Elle est de rang maximal lorsque n 6 p (voir plus bas le determinant dune matrice carree
de Vandermonde), et donc

p
p
p
X
X
X
n1
2
1
xi
xi
xi

i=1
i=1
i=1

p
p
p
X

X
X
..

2
3
x
x
x
.

i
i
i

i=1
i=1
i=1

p
p
p

..
M >M = X 2 X 3 X 4

xi
xi
xi
.

i=1
i=1

i=1

..
..
..

.
.
p .

p
X

xn1

x2n2
i
i
i=1

i=1

py
r

igh
t:

est lorsque n 6 p inversible, et meme symetrique definie positive. il existe donc lorsque
n 6 p une unique solution u Rn , pour lequel fu est la meilleure approximation du
nuage de points au sens des moindres carres. Une solution est caracterisee par le syst`eme
dinconnue u, M > M u = M > y, qui secrit ici :

p
p
p
X
X
X

n1

u
+u
x
+

+u
x
=
yi

i
n1
0
1
i

i=1
i=1
i=1

p
p
p
p

X
X
X
X

2
n
u0
xi
+u1
xi + +un1
xi
=
xi yi

Co

i=1
i=1
i=1
i=1

..
..

.
.

p
p
p
p

X
X
X
X

xn1
+u1
xni + +un1
x2n2
=
xn1
yi

i
i
i
u0
i=1

i=1

i=1

i=1

Lorsque n < p. La solution optimale fu est unique et approxime au mieux le nuage


de points au sens des moindres carres. On peut en determiner une valeur approchee en


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

108

au
x

implementant les methodes de resolution approchees vues au chapitre 4.

fu (x) =

p
X

p
Y

yi

i=1

j=1,i6=j

x xj
xi xj

Pr

Lorsque n = p. La matrice M estQ


connue sous le nom de matrice de Vandermonde, et
son determinant est non nul egal `a 16j6i6n (xi xj ). La matrice M est inversible, et il
existe donc une unique solution u et fu est le polynome de degre minimal interpolant
le nuage de points. Cest le polyn
ome dinterpolation de Lagrange. On peut verifier
quil secrit explicitement :

i=1

i=1

-P
hil
ip

pe

Lorsque n > p. Lensemble des solutions est isomorphe `a un sous-espace affine de lespace
vectoriel Rn1 [x] des polynomes `a coefficients reels de degre au plus n 1. Une solution
particuli`ere est donnee par le polynome dinterpolation de Lagrange (de degre p 1), et
une base du sous-espace vectoriel sous-jacent est donnee par :
( p
)
p
p
Y
Y
Y
(x xi ) ; x (x xi ) ; . . . ; xn1p (x xi )
i=1

Cest lensemble des polynomes de degre au plus n1p ayant x1 , x2 , . . . , xp pour racines,
cest-`a-dire les solutions du probl`eme homog`ene associe.

Approximation minimax

an

V.2.4

uR

Je

Donnes un nuage de points {(x1 , y1 ), (x2 , y2 ), . . . , (xp , yp )} et une classe dapplications


fu : R R dependant dun param`etre u Rn , on cherche, une fois pose x = (x1 , . . . , xp )
et y = (y1 , . . . , yp ) `a resoudre le probl`eme doptimisation :


minn ky fu (x)k = minn max |yk fu (xk )|
uR

k=1..p

igh
t:

Il secrit aussi comme le probl`eme doptimisation avec 2p contraintes inegalitaires suivant :


min

rR,uRn

py
r

yk fu (xk ) r 6 0
yk + fu (xk ) r 6 0

k = 1, 2, . . . , p

(implicitement r > 0 puisque |yk fu (xk )| 6 r.)

Approximation minimax lin


eaire

Co

V.2.5

Lorsque fu depend
Pp lineairement de u, cest `a dire lorsque x R, u fu (x) est
lineaire : fu (xi ) =
eme secrit
j=1 zij uj , notons M = (zij ) i=1..p Mpn (R), le probl`
j=1..n

matriciellement :
min kM u yk

uRn

V.2. APPROXIMATION DUN NUAGE DE POINTS

109

min

rR,uRn
p
X

yk

yk +

zik uk r 6 0

i=1
p
X

zik uk r 6 0

i=1

k = 1, 2, . . . , p

Pr

au
x

qui est equivalent `a :

pe

Cest un probl`eme de programmation lineaire. Puisque r est minore, r 0, il existe une


solution au probl`eme que lon determine avec la methode du simplexe. On a donc montre :

-P
hil
ip

Th
eor`
eme V.6 Un probl`eme dapproximation minimax lineaire sexprime comme un
probl`eme de programmation lineaire et admet toujours au moins une solution.
Interpr
etation dun probl`
eme minimax lin
eaire.

Interpr
etation alg
ebrique. Notons pour i = 1, 2, . . . , n, zi = (z1i , z2i , . . . , zpi ) Rp ,
cest-`a-dire les n vecteurs colonnes de la matrice M .

Je

an

Si la famille z1 , . . . , zn nest pas lineairement independanteP


alors un des param`etres
n
u1 , . . . , un peut etre supprim
Pn e : en effet, si par exemple z1 = i=2 i zi alors remplacer
dans les equations u1 par i=2 i ui . On reduit le probl`eme `a un probl`eme minimax lineaire
equivalent et de dimension inferieure.
Aussi suppose-t-on dans la suite que les z1 , . . . , zn forment une famille libre.

igh
t:

Lorsque p 6 n la valeur minimale de kM u yk est 0 ; le probl`eme consiste en la


resolution du syst`eme lineaire M u = y dinconnue u ; appliquer ici la methode du simplexe au probl`eme lineaire equivalent consiste en fait `a le resoudre par une variante de la
methode du pivot de Gauss ; cela ne presente pas un grand interet.
Par contre lorsque n < p et que le syst`eme lineaire M u = y nadmet pas de solution : la
au probl`eme minimax est optimale dans le sens o`
solution u
u cest lelement le plus proche
(pour la norme k.k ) detre une solution.

py
r

i = (zi1 zi2 zin )


Interpr
etation g
eom
etrique. Notons pour i = 1, 2, . . . , p, z
M1,n (R), cest-`a-dire les p matrices lignes de la matrice M . On consid`ere les p hyperplans,
i u = yi }.
H1 , . . . , Hp , definis par Hi = {u Rn | z
du probl`eme minimax est un point de Rn dont la distance maximale `a
Une solution u
la famille dhyperplans H1 , . . . , Hp est minimale.

Co

Exemple en dimension 2 : les p hyperplans sont des droites.


est nimporte quel point de la droite H1 .
Si p = 1 une solution u
est leur point
Si p = 2 ; si les 2 droites H1 , H2 sont non parall`eles, lunique solution u
dintersection ; cest la solution dun syst`eme de 2 equations lineaires. Si H1, H2 sont parall`eles ; soit elles sont confondues, et dans ce cas tout point de H1 = H2 est solution ; soit


CHAPITRE V. APPLICATIONS AUX MATHS NUMERIQUES

110

-P
hil
ip

pe

Pr

au
x

elles sont disjointes, et lensemble des solutions est une droite parall`ele et equidistante `a
H1 , H2 .
Si p = 3 ; si les 3 droites sont deux `a deux non parall`eles elles decoupent un triangle
et la solution du probl`eme minimax est le centre du cercle inscrit `a ce triangle (cf. fig.
V.2 ; si H1 , H2 sont parall`eles et H3 ne leur est pas parall`ele, la solution est le point de
H3 equidistant de H1 , H2 ; etc...

Je

Exercices.

an

Figure V.2 Le centre du cercle inscrit est la solution dun probl`eme minimax dapproximation lineaire `a deux param`etres dun nuage de 3 points.

igh
t:

Exercice 1. Justifier que la matrice symetrique A ci-dessous est definie positive.

2 1 1
1 2 1
1 1 2
Determiner son inverse.

Co

py
r

Exercice 2. Determiner lespace des polynomes P de degre au plus 5 interpolant les points
(0, 0), (1, 1) et (2, 2).

au
x
Pr

Annexe A

A.1

Rappels danalyse

A.1.1

Lespace euclidien Rn

-P
hil
ip

pe

Rappels de pr
e-requis
Math
ematiques

an

Soit Rn Lespace vectoriel reel de dimension n N . On notera sa base canonique e1 , . . . , en .


On munit Rn du produit scalaire usuel < . , . > et de la norme associee k.k2 (ou k.k lorsquil ny a
pas dambiguite). Cest `
a dire que si dans la base canonique de Rn les vecteurs u, v Rn secrivent
u = (u1 , u2 , . . . , un ) et v = (v1 , v2 , . . . , vn ), alors :

Je

< u, v >= u> v = u1 v1 + u2 v2 + + un vn


q
1
kuk ,< u, u > 2 = u21 + u22 + + u2n

igh
t:

On parle alors de lespace euclidien (Rn , < . , . >) de dimension n. On y verifie linegalite de
Cauchy-Schwartz :

|hx, yi| 6 kxk kyk soit |

A.1.2

n
X

xi yi | 6

i=1

n
X
i=1

! 21
x2i

n
X

! 12
yi2

i=1

Normes de Rn

py
r

Une norme k.k sur Rn est une application de Rn dans R+ verifiant : x, y Rn , R :


(separation)
(homogeneite)
(sous-additivite)

kxk = 0 = x = 0,
kxk = || kxk,
kx + yk 6 kxk + kyk.

Co

Lorsque lon munit Rn dune norme k.k, on parle de lespace norme (Rn , k.k).

Voici plusieurs exemples de normes sur Rn :


Pn
La norme 1 : kxk1 = i=1 |xi |,
1
Pn
2 2
La norme 2 : kxk2 =
,
i=1 xi

111

ANNEXE A. RAPPELS DE PRE-REQUIS


MATHEMATIQUES

112

1
Pn
La norme p : kxkp = ( i=1 |xi |p ) p ,

au
x

La norme sup : kxk = max {|x1 |, . . . , |xn |}.

kxka 6 c1 kxkb

et kxkb 6 c2 kxka .

Pr

Sur Rn toutes les normes sont equivalentes, cest `a dire si k.ka et k.kb designent deux normes de
Rn , il existe c1 , c2 > 0 tels que x Rn :

Lespace norme (Rn , k.k) est un espace complet : toute suite de Cauchy y est convergente.

Topologie de Rn

pe

A.1.3

Soit u Rn et r > 0. Une boule ouverte de lespace norme (Rn , k.k) centree en u et de rayon
r est :

-P
hil
ip

B(u, r) , {x Rn | ku xk < r}

On munit Rn dune topologie naturelle : un sous-ensemble U Rn est un ouvert de Rn si pour


tout u U, U contient une boule ouverte centree en u. Cest la topologie engendree par les boules
ouvertes. Elle ne depend pas de la norme consideree.
Propri
et
es :
et Rn sont des ouverts de Rn ,
une reunion douverts est un ouvert,

an

une intersection finie douverts est un ouvert.

Je

Un sous-ensemble E de Rn contient un unique ouvert maximal pour linclusion ; on le note int(E)


et on lappelle linterieur de E.
Un sous-ensemble V de Rn est un ferme pour cette topologie si son complementaire est un ouvert.
Toute boule fermee B(u, r) = {x Rn | ku xk 6 r} est un ferme de Rn .

igh
t:

Propri
et
es :

et Rn sont des fermes,

une intersection de fermes est un ferme,


une reunion finie de fermes est un fermes.

py
r

Dans cette topologie, et Rn sont les seuls sous-ensembles de Rn `a la fois ouverts et fermes : on
dit que Rn est connexe.

Co

Une application de Rn dans Rm est continue si pour tout ouvert (resp. ferme) U de (Rm , k.k),
f 1 (U) , {x Rn , f (x) U} est un ouvert (resp. ferme) de (Rn , k.k).
Un sous-ensemble K de Rn est un compact si il est ferme et borne (i.e. C > 0, x K, kxk 6 C).
Si f est une application continue de Rn dans Rm et si K est un compact de (Rn , k.k), alors f (K)
est un compact de (Rm , k.k).


A.2. RAPPELS DE CALCUL DIFFERENTIEL

A.2.1

Rappels de calcul diff


erentiel

au
x

A.2

113

Applications diff
erentiables

Pr

Soient U un ouvert non-vide de Rn , x0 U, et f : U Rp . Lapplication f est differentiable


en x0 si il existe une application lineaire Df (x0 ) : Rn Rp (la differentielle de f en x0 ), tel que
pour tout x U, f (x) = f (x0 ) + Df (x0 )(x x0 ) + o(kx x0 k).
Ce quon peut aussi ecrire :
> 0, r > 0, tel que x U, kx x0 k < r = kf (x) f (x0 ) Df (x0 )(x x0 )k < .

A.2.2

pe

La notation de Landau : o(kx x0 kp ), (p N), signifie kx x0 kp (x) o`


u limxx0 (x) = 0.

Vecteur gradient

-P
hil
ip

Dans ce qui suit on consid`ere le cas particulier dune application f : U Rn R, cest `a


dire `a valeur reelle.
Lorsque f est differentiable en x0 , les derivees partielles de f en x0 existent. Soit :
f

x1 (x0 )

..
n
f (x0 ) ,
R
.
f
xn (x0 )

Cest le vecteur gradient de f en x0 (on prononce nabla f de x0 ). On a alors :

an

Df (x0 )(x x0 ) =< f (x0 ), x x0 >

Je

Lorsque f : U R est differentiable sur U (i.e. en tout point de U), on definit sur U lapplication
gradient :
f : U Rn
x f (x)
(Remarque : lorsque f : U R R, f nest rien dautre que lapplication derivee f 0 .)

A.2.3

igh
t:

Une application f : U Rn R est de classe C 1 lorsquelle est differentiable sur U et que


f : U Rn est continue.

Matrice hessienne

Co

py
r

Lapplication f : U Rn R est 2 fois differentiable en x0 U, si f est differentiable sur


un ouvert V contenant x0 , et si f : V R est differentiable en x0 . Dans ce cas les derivees
2
2
f
f
partielles secondes de f en x0 existent et de plus on a i, j, xi x
(x0 ) = xj x
(x0 ) (formule de
j
i
Schwartz). On note :

2
2f
f
x1 x
(x0 )
 2

x1 x1 (x0 )
n

f
..
..

2 f (x0 ) ,
(x0 )
=
.
.

i=1,2,...,n
xi xj
2
2
f
f
j=1,2,...,n
xn x1 (x0 )
xn xn (x0 )
nn
la matrice Hessienne de f en x0 . Cest une matrice symetrique de Mn (R).

ANNEXE A. RAPPELS DE PRE-REQUIS


MATHEMATIQUES

114

x> 2 f (x0 ) x =< 2 f (x0 )> x, x >=< 2 f (x0 )x, x > .

A.2.4

D
eveloppements de Taylor

Pr

Formule de Taylor-Young (`
a lordre 1 et 2)

au
x

Remarque. Puisque 2 f (x0 ) est symetrique :

Lorsque f : U Rn R est differentiable en x0 on a le developpement de Taylor-Young de


f `
a lordre 1 au voisinage de x0 :
f (x) = f (x0 )+ < f (x0 ), x x0 > +o(kx x0 k)

pe

(Cette condition est equivalente `


a la definition de la differentiabilite de f en x0 .)

-P
hil
ip

Lorsque f : U Rn R est 2 fois differentiable en x0 , on a le developpement de Taylor-Young


a` lordre 2 au voisinage de x0 :
1
f (x) = f (x0 )+ < f (x0 ), x x0 > + (x x0 )> 2 f (x0 ) (x x0 ) + o(kx x0 k2 ).
2
Ces deux formules de Taylor-Young `
a lordre 1 et 2 sont fondamentales pour etablir des conditions
necessaires, suffisantes `
a lexistence dextrema locaux.

an

Les formules de Taylor-MacLaurin et de Taylor avec reste integral qui suivent donnent plus de
precision sur le reste. Elles nous sont bien moins essentielles, napparaissant que sporadiquement
dans certaines preuves du 2.3.
Formule de Taylor-MacLaurin (`
a lordre 2)

Je

Lorsque f : U Rn R est deux fois differentiable sur U, ]0, 1[ tel que :


1
f (x0 + x) = f (x0 ) + hf (x0 ), xi + x> 2 f (x0 + x)x .
2

igh
t:

Formule de Taylor avec reste int


egral (`
a lordre 1)
Lorsque f : U Rn R est de classe C 1 , ]0, 1[ tel que :
Z 1
f (x0 + x) = f (x0 ) +
(1 t)hf (x0 + x), xi dt .

Espace tangent

py
r

A.2.5

Co

Soit f : Rn R une application. La nappe representative de f ou graphe de f est definie


comme le sous-ensemble de Rn+1 :
n
o
Cf , (x, y) Rn R | y = f (x) .

Lorsque f est differentiable sur un ouvert U de Rn , Cf admet en chaque point (u, f (u)) o`
uuU
un espace tangent, note Tu Cf et donne par :
n
o
Tu Cf , (x, y) Rn R | y = hf (u), xi .


A.2. RAPPELS DE CALCUL DIFFERENTIEL

115

au
x

Cest un sous-espace vectoriel de Rn+1 de dimension n.


Lhyperplan tangent `
a Cf en u a pour equation y = f (u) + hf (u), x ui ; cest un espace affine dont le sous-espace vectoriel sous-jacent y = hf (u), xi nest autre que lespace tangent Tu Cf .

n
o
Cf , (x, y) Rn Rp | y = f (x)

Pr

Plus generalement soit f : Rn Rp une application differentiable sur un ouvert U de Rn . Le


graphe de f est le sous-ensemble de Rn+p :

et Cf admet en chaque point (u, f (u)) o`


u u U un espace tangent, note Tu Cf donne par :

pe

n
o
Tu Cf , (x, y) Rn Rp | y = Df (u)(x)

-P
hil
ip

o`
u Df (u) : Rn Rp est sa differentielle en u. Cest un sous-espace vectoriel de Rn+p de dimension n.
Lorsque D Rn admet en u D un espace tangent Tu D, ce dernier est lensemble des
directions d Rn pour lesquelles soit d = 0 soit il existe une suite (uk )kN dans D, non stationnaire,
tendant vers u, tel que :
kuk uk
d + o(kuk uk) .
uk = u +
kdk

an

Lintervention de la notion despace tangent est essentielle en optimisation sous contrainte


lorsquappliquee au domaine admissible. Pour le caracteriser par une expression explicite nous
utilisons le theor`eme des fonctions implicites (ou plutot dun cas particulier de ce theor`eme).

Je

Th
eor`
eme A.1 (Th
eor`
eme des fonctions implicites.) Soient U un ouvert de Rp Rnp et

(y, x)

igh
t:

: Rp Rnp

p
R

1 (y, x)

..

.
p (y, x)

une application de classe C 1 . Soient v Rp et u Rnp tels que (v, u) U et tels que :
et la matrice


i
(v, u)
soit inversible.
i=1..p
ej
j=1..p

py
r

(v, u) = 0

Co

Alors il existe un ouvert U1 de Rp , un ouvert U2 de Rnp , tels que (v, u) U1 U2 U, et


une application f : U2 Rp continue telle que
n
o n
o
(y, x) U1 U2 | (y, x) = 0 = (y, x) Rp U2 | y = f (x) .

De plus f est differentiable en u.


Comme consequence, le resultat suivant est essentiel en optimisation sous contrainte egalitaire :

ANNEXE A. RAPPELS DE PRE-REQUIS


MATHEMATIQUES

116

au
x

Th
eor`
eme A.2 (Espace tangent dun domaine
egalitaire.) Soit U un ouvert de Rn et
1
1 , . . . , p : U R des applications de classe C . Soit le domaine
n
o
D = x U | 1 (x) = = p (x) = 0 .

Pr

Si u D et si 1 (u), . . . p (u) forment une famille libre, alors lespace tangent Tu D en u `


aD
existe et est donne par :
n
o
Tu D = d Rn | i = 1, . . . , p, hi (u), di = 0 .

D
emonstration. Notons : U Rp lapplication de classe C 1 qui est definie par (x) =
(
 1 (x), .. . , p (x)). Le fait que la famille 1 (u), . . . p (u) soit libre revient `a dire que la matrice

est de rang p. Alors quitte `a permuter ses colonnes on peut supposer que sa sous-

pe

i
ej (u) i=1..p
j=1..n

i (uk ) = i (u) +
| {z } | {z }
=0

-P
hil
ip

matrice carree constituee des colonnes 1 `a p est inversible. En notant uy et ux les projetes de u
sur Rp 0 et sur 0 Rnp , le theor`eme des fonctions implicites fournit f : Rnp Rp tel que
uy = f (ux ). De plus f est differentiable en ux . En particulier D admet en u un espace tangent de
dimension n p.
k uk
Soit (uk )kN une suite de D non stationnaire qui tend vers u D, avec uk = u + kukdk
d+
o(kuk uk). Alors si i {1, . . . , p}, i (uk ) = i (u) = 0. En utilisant le developpement de TaylorYoung au rang 1 au voisinage de u, pour k suffisamment grand,
kuk uk
hi (u), di + o(kuk uk) .
kdk

=0

A.3.1

Rappels sur les matrices


Notations

igh
t:

A.3

Je

an

On a donc necessairement hi (u), di = 0. Ainsi Tu D est un sous-espace vectoriel de dimension


n p de lorthogonal : < 1 (u), . . . , p (u) > . Or puisque 1 (u), . . . , p (u) forment une
famille libre de dimension p dans Rn , ce dernier a pour dimension n p. Ainsi Tu D concide avec
< 1 (u), . . . , p (u) > .


py
r

On note Mp,n (R) lespace vectoriel des matrices p n `a coefficient reel.


Si A Mp,n (R) on note A> sa matrice transposee.
On note Mn (R) lalg`ebre des matrices carrees n n `a coefficient reel.
Pour A Mn (R) on note det(A) son determinant et tr(A) sa trace.

A.3.2

Norme matricielle

Co

On peut munir Mp,n (R) dune norme de plusieurs facons. Une norme matricielle k.k est compatible avec une norme vectorielle k.k si A Mp,n (R) et x Rn , kAxk 6 kAk kxk. Voici
quelques exemples de normes matricielles compatibles avec la norme euclidienne k.k2 :
La norme de Frobenius :
v
uX
n
um X
a2ij = tr(AA> ) .
kAkf = t
i=1 j=1

A.3. RAPPELS SUR LES MATRICES

117

kAxk2
.
x6=0 kxk2

kAki = sup

au
x

La norme induite par k.k2 :

Si A est une matrice carree diagonalisable, elle concide avec la norme spectrale :

A.3.3

Matrice (semi-)d
efinie positive/n
egative

Pr

kAks = max {|| | est une valeur propre de A} .

pe

Une notion dimportance en optimisation est la propriete de la matrice Hessienne dune application detre (semi)-definie positive ou negative.
D
efinitions.
Une matrice A Mn (R) est semi-definie positive si x Rn , x> A x > 0.
Une matrice A Mn (R) est definie positive si x Rn \ {0}, x> A x > 0.
On definit de facon analogue une matrice carree semi-definie negative, definie negative.

-P
hil
ip

Dans les cas nous interessant, les matrices considerees sont symetriques (i.e. A> = A) reelles. On
dispose du resultat important suivant :
Th
eor`
eme A.3 (Sym
etrique r
eelle = diagonalisable.) Toute matrice symetrique reelle
est diagonalisable.
Pour determiner si une matrice symetrique est definie positive on utilisera le resultat suivant qui
en donne plusieurs caracterisations.

igh
t:

Je

an

Th
eor`
eme A.4 (Caract
erisation des matrices sym
etriques d
efinies positives)
Soit A = (aij )i,j=1..n une matrice symetrique. Les assertions suivantes sont equivalentes :
(i) A est definie positive.
(ii) Toutes les valeurs propres de A sont
0.
P>
n
(iii) i = 0, . . . , n, ci > 0, o`
u pA () = i=0 (1)i ci ni est le polyn
ome caracteristique de A.
(iii) Les determinants det(Ak ) o`
u Ak designe Ak = (aij )i,j=1..k sont tous > 0.
(iv) Il existe une matrice M inversible tel que M > M = A.
De plus :
(a) Si A est definie positive alors i = 1, .., n, aii > 0.
(b) Si A M2 (R), A est definie positive si et seulement si det(A) > 0 et tr(A) > 0.
Pour determiner quune matrice symetrique est semi-definie positive on utilisera le resultat suivant
qui en donne plusieurs caracterisations.

Co

py
r

Th
eor`
eme A.5 (Caract
erisation des matrices sym
etriques semi-d
efinies positives)
Soit A = (aij )i,j=1..n une matrice symetrique. Les assertions suivantes sont equivalentes :
(i) A est semi-definie positive.
(ii) Toutes les valeurs propres de A sont
0.
P>
n
(iii) i = 0, . . . , n, ci > 0, o`
u pA () = i=0 (1)i ci ni est le polyn
ome caracteristique de A.
(iii) Les determinants des mineurs principaux de A sont tous > 0.
(iv) Il existe une matrice M tel que M > M = A.
De plus :
(a) Si A est semi-definie positive alors i = 1, .., n, aii > 0.
(b) Si A M2 (R), A est definie positive si et seulement si det(A) > 0 et tr(A) > 0.

ANNEXE A. RAPPELS DE PRE-REQUIS


MATHEMATIQUES

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Pr

au
x

118

119

Pr

pe

Correction des exercices

au
x

CORRECTION DES EXERCICES

Chapitre I.

-P
hil
ip

Exercice 1. On note x, y les quantites en litre de produits finis.


La fonction economique a
` maximiser -qui represente le benefice brut- est :
f (x, y) = 8x + 4y
sous les contraintes :

x + y 1000
15x + 3y 4500

x, y 0

Methode du simplexe :

0
1
0

0
15
0

4/5
0
0

1
-15/4
-3

1
l
15
l
8
15
l

1000
4500
f 0

0
15
0

an

1
0
0

1/15
5/4
-1/3

Je

1
1
15  3

1/15
1
-8/15

4/5
1
 
3
0
12/5 0

700
1875
f 4500

700
4500
f 2400

l
15
l
4
3l

= y = 875
= x = 125
fmax = 4500

igh
t:

Exercice 2. Le probl`eme secrit (voir 3.1) :

max 2x + 1.6y + 1.8z


x,y,z

90x + 93y + 95z 6 6500

10x + 7y + 5z 6 500

x, y, z > 0

py
r

Le probl`eme est ecrit sous forme normale, on lui applique la methode du simplexe :
93
90
10  7

Co

1.6

0
10
0

95
5
1.8

30
4
0.28

1
0
0

0
1
0


50 
0
0

6500
500
f 0
1
0.1
0.016

0
10
0
9
1.9
1.856

30
7
0.2


50  1
5
0.8

2000
300
f 132

0
0

9
1
0.2

2000
500
f 100

= x3 = 40
= x1 = 30
= fmax = 132

On obtient x1 = 30, x2 = 0, x3 = 40, pour fmax = 132. Il faut produire 30t, 0t et 40t, respectivement
de bronze de qualites A, B, C, pour un benefice maximal de 132000 e. Les stocks de cuivre et detain sont

120

CORRECTION DES EXERCICES

au
x

epuises (s1 = s2 = 0).


Exercice 3. a. En appelant x1 , x2 , x3 , x4 les quantites exprimees en unite de poids de chacun des 4 types
daliment, le probl`eme secrit :
min 2x1 + 2x2 + x3 + 8x4

2x1 + x2 + x4 > 12
x1 + 2.5x2 + 2x3 + 4.5x4 > 7

Pr

x1 ,...,x4

x1 , x 2 , x 3 , x 4 > 0
Par dualite min/max, il est equivalent au probl`eme :
max 12y1 + 7y2

2y1 + y2 > 2

y1 + 2.5y2 > 2
2y2 > 1

y1 + 4.5y2 > 8

-P
hil
ip

pe

y1 ,y2

y1 , y 2 > 0

Il est ecrit sous forme normale ; on applique la methode du simplexe.


1
0
1
12

1
2.5
2
4.5
7

1
0
0
0
0

0
1
0
0
0

0
0
1
0
0
0
0
2
0
0

2
2
1
8
f 0

2
0
0
0
0

0.5
2
2
0
 
4
1

0.5
6

0
1
0
0
0

0
0
1
0
0

0
0
0
1
0

2
1
1
7
f 12

1
0.5
0
0.5

-6 

0
0.5
0
1.5
1
1
0
0
1
0
1
0
5
0
2
1



0
-0.5
0
f

12.5
  
  

Je

2
0
0
0
0

0
0
0
1
0

an


2 

igh
t:

Il faut acheter 6 u.p. daliment de type 1, 0.5u.p. daliment de type 3, et aucun aliment de types 2,4.
Pour un co
ut de 12.5 u.m. on obtient 12 u. de glucides et 7 u. de lipides.
b. En appelant y1 , y2 le prix par unite de volume des aliments 1 et 2, il sagit de maximiser la fonction
(cest la gain obtenu pour lachat permettant dobtenir 12u. de glucides et 7u. de lipides) :
g(y1 , y2 ) = 12y1 + 7y2

py
r

Pour etre competitif le co


ut de ses produits pour obtenir la meme quantite de glucides et lipides que dans
les produits concurrents doit leur etre inferieur ou egal. Cela sexprime :

2y1 + y2 6 2

y1 + 2.5y2 6 2
2y2 6 1

y1 + 4.5y2 6 8

Co

Ce probl`eme nest rien dautre que le probl`eme max dual du probl`eme du consommateur. On lui a dej`
a
applique la methode du simplexe. On obtient en resolvant le syst`eme restant : y1 = 0.75u.m. et y2 = 0.5u.m..

CORRECTION DES EXERCICES

121

au
x

Chapitre II.

On recherche ses points critiques,




3x2 + 2x
f (x, y) =
=0
3y 2 + 2y

3x2 + 2x
3y 2 + 2y

=0
=0

Pr

Exercice 1. Lapplication f est indefiniment differentiable, car polynomiale. Pour mener un etude locale
on determine en chaque point son vecteur gradient et sa matrice Hessienne.




6x + 2
0
3x2 + 2x
2
f (x, y) =
f (x, y) =
0
6y + 2
3y 2 + 2y

x = 0 ou x = 23
y = 0 ou y = 23

-P
hil
ip

pe

Les points critiques sont donc : (0, 0), (0, 2/3), (2/3, 0), (2/3, 2/3).
On evalue en chaque point critique la matrice Hessienne.


2 0
2 f (0, 0) =
est definie positive : (0, 0) est un minimum local.
0 2


2
2
2
0
2 f (0, ) =
nest pas semi-definie : (0, ) nest pas un extremum.
0 2
3
3


2
2
2
0
nest pas semi-definie : ( , 0) nest pas un extremum.
2 f ( , 0) =
0
2
3
3


2
2
2
2
2
0
2 f ( , ) =
est definie negative : ( , ) est un maximum local.
0
2
3
3
3
3
Lapplication f nadmet pas dextremum global, car elle est surjective sur R :
lim f (x, 0) = +

lim f (x, 0) = .

an

x+

Exercice 2. Soit lapplication f (x, y) = x4 + y 4 x3 y 3 .

Je

a. Montrons que f est coercive. Formons :

f (x, y) x2 y 2 = x2 (x2 x 1) + y 2 (y 2 y 1) .

igh
t:

5 1+ 5
Le trin
ome t2 t 1 est positif lorsque t 6 ] 1
, 2 [ et a pour minimum t = 12 en lequel il vaut
2
1
4 . Ainsi lorsque x ou y est suffisamment grand, f (x, y) > k(x, y)k2 . Toutes les normes etant equivalentes
sur R2 , C > 0 tel que :
p
k(x, y)k = sup {|x|, |y|} > Ck(x, y)k2 = x2 + y 2 .

Ainsi lorsque k(x, y)k2 tend vers +, sup {|x|, |y|} tend aussi vers +, de sorte que f (x, y) > k(x, y)k2 et
tend aussi vers +. Donc f est coercive.
On en deduit (theor`eme II.2) lexistence dun minimum global et daucun maximum global pour f sur R2 .

py
r

b. Afin de determiner le(s) minimum(s) de f on cherche ses extrema locaux en poursuivant une etude locale.
Lapplication f est infiniment differentiable. Son vecteur gradient et sa matrice hessienne sexpriment :




4x3 3x2
12x2 6x
0
2
f (x, y) =
f (x, y) =
.
4y 3 3y 2
0
12y 2 6y

Co

Ainsi f a 4 points critiques A = (0, 0), B = (0, 43 ), C = ( 34 , 0) et D = ( 43 , 34 ). En D la matrice hessienne est


definie positive : D est un minimum local de f . En A, B, C la matrice hessienne est semi-definie positive :
on ne peut rien deduire sur la nature des point critiques A, B, C.
Pour determiner le(s) minimum(s) de f il suffit devaluer f en ses 4 points critiques :
f (0, 0) = 0

>

3
3
33
f (0, ) = f ( , 0) = 4
4
4
4

>

3 3
33
f ( , ) = 2 4 .
4 4
4

122

CORRECTION DES EXERCICES

Pr

au
x

Ainsi le minimum de f est le point D = ( 34 , 43 ).


c. Soit u un point critique de g, i.e. g(u) = 0.
Si u est un minimum local de g, il existe une boule ouverte B centree en u tel que, x B, g(x) > g(u) =
g(u) + g(u)(x u). Avec le theor`eme II.5.1 on en deduit que la restriction de g a
` B est une application
convexe.
Reciproquement, avec le theor`eme II.5.1, si g est convexe sur une boule B centree en u, alors x B,
g(x) > g(u) + g(u)(x u) = g(u) et en particulier u est un minimum local de g.
d. Revenons en a
` letude des extrema locaux de f . Nous avons determine la matrice Hessienne de f . Le
bin
ome 12t2 6t ne garde pas un signe constant sur un voisinage de 0. Ainsi sur aucun voisinage de A, B
et C, la matrice hessienne ne reste semi-definie positive ou negative. Avec le theor`eme II.5.2, lapplication
f nest ni localement convexe ni localement concave sur un voisinage convexe de A, B ou C. Ainsi en
appliquant le resultat etabli en c), ni A, ni B, ni C nest un extremum local de f .

A1

-P
hil
ip

pe

Exercice 3. On rappelle que lindice de refraction est ni = vci o`


u c designe la vitesse de propagation de
la lumi`ere dans le vide et vi sa vitesse de propagation dans le milieu.
La lumi`ere parcourt le trajet qui minimise le temps de parcours. Cette derni`ere est :
A1 M
A2 M
n1 A1 M
n2 A2 M
+
=
+
.
v1
v2
c
c
Il sagit donc de determiner le point M de facon a
` minimiser le chemin optique n1 A1 M + n2 A2 M .
On se donne un rep`ere orthonorme construit de la facon suivante (voir la figure ci-apr`es) : Soit O le point
dintersection de la droite (A1 A2 ) avec le plan de separation que nous appelerons (P ). Soient M1 et M2
les projetes orthogonaux respectifs de A1 et A2 sur (P ). Le segment [M1 M2 ] passe par O. On choisit un
rep`ere orthonormal dorigine O, tel que (Oi) est confondu avec (M1 M2 ) et (Oj) est dans (P ) ; alors k est
orthogonal `
a (P ).

an

Indice de refraction n1
i1

Je

M1

i2

A2

igh
t:

Indice de refraction n2

M2

Les coordonnees de M, A1 , A2 dans ce rep`ere sont respectivement (x, y, 0), (x1 , 0, z1 ) et (x2 , 0, z2 ). Le
chemin optique sexprime alors :
q
q
f (x, y) = n1 (x x1 )2 + y 2 + z12 + n2 (x x2 )2 + y 2 + z22

py
r

et il sagit de le minimiser. Lapplication f est clairement coercive et admet donc un minimum. Etudions
ses points critiques :
f
x x1
x x2
(x, y) = n1 p
+ n1 p
2
2
2
x
(x x1 ) + y + z1
(x x2 )2 + y 2 + z22

Co

f
y
y
(x, y) = n1 p
+ n1 p
y
(x x1 )2 + y 2 + z12
(x x2 )2 + y 2 + z22

Puisque f
(x, y) = 0, on a y = 0. Ainsi M est situe sur la droite (M1 M2 ).
y
f
Puisque x (x, y) = 0, x x1 et x x2 sont de signes opposes, ainsi (par exemple) x1 6 x 6 x2 : M est
situe sur le segment [M1 M2 ]. Alors au point M (x, 0),
f
x x1
x x2
M1 M
M2 M
(x, 0) = n1 p
+ n1 p
= n1
n2
=0
x
A1 M
A2 M
(x x1 )2 + z12
(x x2 )2 + z22

CORRECTION DES EXERCICES


Mk M
Ak M

= cos( 2 ik ) = sin ik , k = 1, 2. On trouve donc quau

n1 sin i1 = n2 sin i2 .

au
x

1M
2M
ce qui implique n1 M
= n2 M
; or
A1 M
A2 M
minimum on a :

123

Exercice 4. a. Le probl`eme de minimisation min ku vk est equivalent au probl`eme min ku vk2 . Or


vC

vC

lapplication
n
X

(ui xi )2 = x> Id x 2u> x + kuk2

Pr

f : x 7 ku xk2 =

i=1

est une application quadratique de matrice hessienne 2 Id. Avec le theor`eme II.9, f est une application
elliptique, et donc strictement convexe et coercive. Le domaine C etant convexe ferme et non vide elle y
admet un unique minimum, PC (u).

et la caracterisation donnee en decoule immediatement.

-P
hil
ip

c. En appliquant la caracterisation des points PC (x) et PC (y) :

pe

b. On est dans le cadre de la programmation convexe, et f est differentiable. La caracterisation de PC (u)


est donnee par le theor`eme II.6.(iv) : v C, hf (PC (u)), v PC (u)i > 0. Or f (PC (u)) = 2 (PC (u) u).
On obtient donc :
v C, 2hPC (u) u, v PC (u)i > 0

hPC (x) x, PC (y) PC (x)i > 0

hPC (y) y, PC (x) PC (y)i > 0


En additionnant ces deux inegalites :

< PC (x) PC (y) x + y, PC (y) PC (x)i > 0 ,


soit

an

hy x, PC (y) PC (x)i > kPC (y) PC (x)k2


et en appliquant linegalite de Cauchy-Schwartz au membre de gauche :

Je

ky xk kPC (y) PC (x)k > hy x, PC (y) PC (x)i > kPC (y) PC (x)k2
dont on deduit linegalite recherchee.
Exercice 5.

igh
t:

1. Puisque ] , u[ est un ouvert de R et que f : D R est continue, f 1 ({] , u[}) est un ouvert de
D.
2. Soit r = v u, alors tout point x de la boule ouverte B de R centree en v et de rayon r verifie x > u,
en particulier f 1 (B) est contenu dans {D f 1 (] , u[) et contient f 1 ({v}). Puisque B est un ouvert
de R et f est continue, f 1 (B) est un ouvert de D. Donc {D f 1 (] , u[) est un voisinage de tout point
de f 1 ({v}).

py
r

3. Soit x f 1 ({u}) ; puisque x est un min local il existe un ouvert U de Rn contenant x tel que y U D,
f (y) > f (x) = u. Ainsi (U D) {D f 1 (], u[), et par definition cest un ouvert de D ; {D f 1 (], u[)
est donc un voisinage de x.
4. On deduit de 2 et 3 que {D f 1 (] , u[) est un voisinage de tous ses points. Cest donc un ouvert de
D et donc son complement f 1 (] , u[) est un ferme de D.

Co

5. On a montre en 1 et 4 que f 1 (] , u[) est `


a la fois ferme et ouvert dans D. Puisque D est connexe,
f 1 (] , u[) est soit soit D. Puisque u D nest pas dans f 1 (] , u[), cest lensemble vide. Ainsi,
x D, f (x) > f (u) ; u est donc un minimum global de f sur D.

124

CORRECTION DES EXERCICES

au
x

Chapitre III.
Exercice 1. On traite separement les exemples A et B.

Pr

Exemple A. f (x, y) = x et D = {x2 + y 2 = 1} ; on retrouve les solutions evidentes trouvees au III.1.2 en


appliquant ici les conditions de Lagrange.
On la vu, puisque f est continue et D est compact, il existe un minimum et un maximum global.




2x
1
.
et (x, y) =
f (x, y) =
2y
0

On resout ce syst`eme dinconnues x, y :


=
=

y = 0 ou = 0
6= 0

(3)

= y = 0 = x = 1.

-P
hil
ip

(2)
(1)

pe

Puisque (x, y) 6= 0 sur D, (x, y) forme une famille lineairement independante. On applique la condition necessaire de Lagrange :

+ 2x = 0 (1)
1
2y = 0 (2)
(x, y) extremum local = x L(x, y, ) = 0 =
2
x
+
y 2 = 1 (3)

On obtient deux solutions :

a = (1, 0) (avec = 1/2)

b = (1, 0) (avec = 1/2).

an

Puisque f (a) = 1 et f (b) = 1, et que lon connait dej`


a lexistence dun minimum et dun maximum
global, on peut dores et dej`
a conclure que b est le minimum et a est le maximum (globaux). On retrouve
cependant quil sont minimum et maximum (local) en appliquant les conditions du second ordre.


2
0
2x L(x, y, ) =
0 2

igh
t:

Je

Lespace tangent `
a D en u = a ou b est ici le meme, Tu D = V ect((0, 1)) ; ca na ici peu dimportance,
puisque :


1
0
2
en a, x L(a, 1/2) =
est definie negative = a est un max,
0 1


1 0
en b, 2x L(b, 1/2) =
est definie positive = b est un min,
0 1
et puisque ce sont les seuls extrema locaux de f sur D, ce sont des extrema globaux par compacite.
Exemple B. On reprend lexemple B du III.1.2 :

py
r



f (x, y) = x2 + y 2 et D = (x, y) R2 | xy = 1 .






2x
y
2x + y
f (x, y) =
; (x, y) =
; x L(x, y, ) =
2y
x
2y + x

Co

Sur D, (x, y) 6= 0, aussi on peut appliquer les conditions de


syst`eme :

2x + y = 0
2y + x = 0

y = 1/x

Lagrange, ce qui nous am`ene a


` resoudre le
(1)
(2)
(3)

En formant lequation (1) (2) on obtient :

(3)
2

x = y = x = 1 = x = 1
ou
(x y)(2 ) = 0 =

(1)
(3)
= 2 = y = x = x2 = 1 impossible.

CORRECTION DES EXERCICES

125

On obtient deux solutions :


et

b = (1, 1)

(avec = 2).

au
x

a = (1, 1)

Pr

On determine en ces deux points la matrice Hessienne du Lagrangien :






2 2
2
; 2x L(a, 2) = 2x L(b, 2) =
2x L(x, y, ) =
2
2
2




1
1
. Or,
) et
En u = a ou b, Tu D = V ect((1, 1)) = {(t, t) | t R} (orthogonal de (u) =
1
1
si t 6= 0 :



2 2
t
(t, t)
= 8t2 > 0
2
2
t

pe

Ainsi, x 6= 0 Tu D, x> 2x L(u, 2) x > 0, et donc a et b sont deux minima locaux. Ils sont en fait
globaux car f est coercive sur le ferme D et f (a) = f (b).

-P
hil
ip

Exercice 2. Lapplication f a deja ete etudiee dans lexercice 1 du chapitre 2.


On se souvient quelle nadmet pas dextremum global sur R2 car elle est surjective.

an

Le cercle C est un compact (ferme borne) de R2 , donc f etant continue elle admet un minimum et un
maximum global sur C. Il sagit dun probl`eme doptimisation sous contrainte
e
galitaire.

2x
2
2
Soit la contrainte egalitaire (x, y) = x + y 1 = 0. On a (x, y) =
6= 0 sur C. Donc en tout
2y
point de C les contraintes sont qualifiees. On a donc en tout extremum (x, y) C de f , les conditions de
Lagrange :
R, f (x, y) + (x, y) = 0



3x2 + 2x + 2x = 0
x(3x + 2 + 2) = 0
x = 0 ou x = 2+2
3
=
=
=
2
3y + 2y + 2y = 0
y(3y + 2 + 2) = 0
y = 0 ou y = 2+2
3
Puisque (x, y) C, on a x2 + y 2 = 1, et donc :

x = 0 = y = 1

Je

y = 0 = x = 1
2
2 + 2
3
1
2 + 2
= 2
= 1 = = 1
2 = x = y =
x=y=
3
3
4
2
On obtient donc 6 points verifiant les conditions necessaires de Lagrange :

igh
t:

Point
Valeur de f

(0, 1)
1

(0, 1)
-1

(1, 0)
1

(1, 0)
-1

( 12 ,

)
2

( 12 , 12 )
12

py
r

Ainsi f admet sur C :


pour minima les 2 points (1, 0) et (0, 1),
pour maxima les 2 points (1, 0) et (0, 1).

Co

Exercice 3. Le probl`eme se formule :


max 12xy x2 3y 2
x,y

x + y = 48
x, y > 0

Il sagit dun probl`eme de programmation quadratique sous contrainte egalitaire, sur louvert U = (R+ )2 .
La matrice hessienne de f est


1
6
A=
.
6 3

126

CORRECTION DES EXERCICES

au
x

Puisque det A = 33 < 0 et tr(A) = 4 < 0, A est definie negative i.e. f est strictement concave et admet
donc au plus un maximum u, et sil existe (x, y) est solution sur (R+ )2 du syst`eme :

x + 6y + = 0
6x 3y + = 0

x + y = 48

On calcule :

2x/a2
6 0 sur E.
(x) = 2y/b2 =
2z/c2

-P
hil
ip

yz
f (x) = xz
xy

pe

Exercice 4. (Probl`eme de Kepler.)


Le probl`eme se formule :

max xyz
x2 /a2 + y 2 /b2 + z 2 /c2 = 1

x, y, z > 0

Pr

Que lon resout pour obtenir x = 27 et y = 21. Lallocation optimale est 27 publicites en magazine et 21mn
de television.

Les contraintes inegalitaires etant toutes insaturees car x, y, z > 0 = 1 = 2 = 3 = 0. En appliquant


(KKT ) :
f (x) + (x) = 0

2
yz + 2x/a = 0
xz + 2y/b2 = 0

xy + 2z/c2 = 0

an

On multiplie la premi`ere ligne par x, la deuxi`eme par y et la derni`ere par z, puis on somme : on obtient
3xyz + 2 = 0 = yz = 2/(3x) = 2/(3x) + 2x/a2 = 0 = 2(3x2 a2 )/(3a2 x) = 0. Or = 0
est impossible car autrement xyz = 0. Donc 3x2 = a2 . De la meme facon 3y 2 = b2 et 3z 2 = c2 . Donc :

Et par suite, par compacite :

b
y=
3

Je

a
x=
3

c
z=
3

abc
Volmax =
3 3

igh
t:

Le volume maximal du parallelepip`ede rectangle inscrit dans une ellipsode est 1/(3 3) fois le volume du
parallelepip`ede dans lequel E est inscrit.

Co

py
r

Exercice 5. (Probl`eme de Tartaglia)


Le probl`eme se formule :

2
2
max p1 p2 (p2 p1 ) = p1 p2 p1 p2
p1 + p2 = 8

p1 , p 2 > 0


 2

p1
p2 2p1 p2
u=
; f (u) =
2
p2
2p1 p2 p1






1
1
0
(u) =
; 1 (u) =
; 2 (u) =
1
0
1

Les contraintes etant affines on peut appliquer les conditions (KKT). Clairement les contraintes inegalitaires
sont insaturees : p1 , p2 > 0 = 1 = 2 = 0. On obtient :
 2
p2 2p1 p2 + = 0 (l1 )
2p1 p2 p21 + = 0 (l2 )

CORRECTION DES EXERCICES

127

4
p1 = 4
3

au
x

En formant (l1 ) (l2 ) on obtient p21 + p22 4p1 p2 = (p1 + p2 )2 6p1 p2 = 0. Puisque p1 + p2 = 8, on a
2
p1 p2 = 32
. Donc p1 , p2 sont les racines du polyn
ome x2 8x + 32
. On trouve ( = 83 ) :
3
3
4
p2 = 4 + .
3

Pr

Question. Par compacite il existe aussi un minimum global que les conditions de Lagrange doivent determiner !
Reponse : cest (p2 , p1 ).
Exercice 6. Le domaine D = {x Rn | kxk 6 1} est un compact. Lapplication f (x) = x> Ax est
quadratique et donc continue. Ainsi f admet (au moins) un maximum sur D.
P
2
Appliquons les conditions de KKT. La contrainte est (x) = n
i=1 xi 1. En un maximum u, il existe
6 0, tel que :
f (u) + (u) = 2 Au + 2 Id u = 0
=
Au = u .

-P
hil
ip

pe

Ainsi :
si 6= 0, u est un vecteur propre de A associe a
` la valeur propre > 0. Dans ce cas la contrainte est
saturee, kuk = 1, et f (u) = u> u = kuk2 = .
si = 0, u est un vecteur de ker A.
On peut conclure : si A a une valeur propre > 0, u est un vecteur propre unitaire associe a
` la plus grande
valeur propre de A. Sinon u est nimporte quel element du noyau de A.

Chapitre IV.

py
r

igh
t:

Je

an

Exercice 1. On applique la methode de Newton pour la recherche de zero de lapplication f (x) = x2 2.


Elle secrit :
uk
1
uk+1 = uk f 0 (uk )1 f (uk ) = uk (2 uk )1 (u2k 2) =
+
.
2
uk
En prenant u0 = 1, on obtient:
Avec 10 chiffres significatifs : 2 = 1.41421356237309.
u1 = 1.50000000000000,
u2 = 1.41666666666667,
u3 = 1.41421568627451,
u4 = 1.41421356237469,
u5 = 1.41421356237309,
La convergence est particuli`erement rapide ! on trouve une valeur approchee a
` 1010 pr`es en 5 iterations.

De plus elle depend ici peu du point base. Avec un point base negatif elle converge neanmoins vers 2,
cest `
a dire vers lautre zero de f . Pour des valeurs initiales seloignant de la solution le nombre diteration
necessaire est plus important. Voir en guise dexemple le code matlab pour limplementation :
%% M
ethode de Newton pour sqrt(2) %%
format long;
u=1;
N=5;
for i=1:N
u=u/2+1/u
end

Co

Voir aussi `
a ce sujet lexercice 1 du TP n 4.
Exercice 2. Dans ce cas x Rn , f (x) = Ax b et 2 f (x) = A. La methode de Newton sexprime :
uk+1 = uk 2 f (uk )1 f (uk ) = uk A1 (Auk b) = A1 b .

Puisque A est definie positive, A1 b est lunique minimum de f sur Rn (cf. theor`eme II.10). Ainsi la
methode de Newton equivaut a
` la resolution directe de ce probl`eme. Sa convergence se fait en une iteration

128

CORRECTION DES EXERCICES

au
x

et ne depend pas du point base. Elle napporte donc rien ici. En general, la methode de Newton peut se
reinterpreter de la facon suivante : elle revient a
` approcher au voisinage de uk lapplication a
` minimiser
par une application quadratique.
Exercice 3. Soit t {1, . . . , n}.

n
n
n
X
X
X
1X
1
att x2t + xt
atj xij bt xt +
aij xi xj
aii x2i +
bi xi
2
2 i=1
j=1
i<j
i=1

i6=t

j6=t

{z

d
epend de xt

i,j6=t

{z

ne d
epend pas de xt

i6=t

pe

Alors :

Pr

n
n
X
X
1X
aii x2i +
aij xi xj
bi xi
2 i=1
i<j
i=1

f (x1 , x2 , . . . , xn ) =

n
n
X
X
f
(x1 , . . . , xn ) = att xt +
atj xj b =
atj xj b
xt
j=1
j=1
j6=t

-P
hil
ip

Puisque A est definie positive, f est elliptique. Cela implique quen tout point u Rn , et pour tout
t {1, . . . , n} chacune des applications x 7 f (u + xet ) est strictement convexe et coercive. Chacune
admet donc un minimum global caracterise par la condition dEuler :
f
(u + xet ) = 0 .
xt
Ainsi, si :
(k+1)

f (x1

(k)

(k)

(k)

(k)

, x2 , . . . , xn ) = inf f (x, x2 , . . . , xn )
xR

(k+1)

f (x1

(k+1)

, x2

(k+1)

(k)

, . . . , xn ) = inf f (x1
xR

(k)

, x, . . . , xn )

(k+1)

(k+1)

(k+1)

, . . . , xn1 , xn

Je

f (x1

an

..
.

xR

(k)

(k)

(k+1)

Alors donne uk = (x1 , . . . , xn ), le point uk+1 = (x1


tion est caracterise par :
(k+1)

(k+1)

, . . . , xn1 , x)

(k+1)

, . . . , xn

) construit par la methode de relaxa-

(k)

(k)

+ a12 x2 + . . . + a1n xn = b1
..
.

a11 x1

igh
t:

(k+1)

) = inf f (x1

(k+1)

(k)

(k+1)

+ . . . + a2n xn = b2
+ a22 x2
a21 x1
(k+1)
(k+1)
(k+1)
an1 x1
+ an2 x2
+ . . . + ann xn
= bn .

On le construit donc gr
ace a
`:

py
r

(k+1)

x1
=
(k+1)
x2
=

(k+1)

xn

1
(b1
a11
1
(b2
a22

(k)

(k)

a12 x2 . . . a1n xn )
(k+1)
(k)
a21 x1
. . . a2n xn )
..
.

1
(bn
ann

(k+1)

an1 x1

(k+1)

. . . ann1 xn1 ) .

Co

en effet la matrice A etant definie positive, a11 , a22 , . . . , ann 6= 0.

Exercice 4. a. Le vecteur gradient du lagrangien du probl`eme est :


x L(u, , ) = f (u) +

p
X
i=1

i i (u) +

q
X
j=1

j j (u) .

CORRECTION DES EXERCICES

129

x L(u, , ) = f (u) +

p
X

i c>
i +

i=1
>

q
X

au
x

>
En notant ci et dj la ie ligne de la matrice C et la j e ligne de la matrice D, i (u) = c>
i et j (u) = dj .
Aussi :

j d >
j

j=1
>

= Au b + C + D .

Pr

b. Les conditions de KKT secrivent ici :


Au b + C > + D> = 0 ,
>0,
> (Du d) = 0 .

xk = A1 (b C > D> ) ,
k+1 = k + (Cxk c) ,

pe

c. En utilisant lexpression du vecteur gradient du lagrangien obtenue en a. :

Chapitre V.
Exercice 1. On applique le theor`eme A.4 :
det(A) = 2

2
1

1
1

2
1

1
1
+
2
2

1
= 2 3 1 + (1) = 4,
1

0
0
0

Je

0
0
0

an

Ainsi A est definie positive.


Prenons = (1, 0, 0), alors :

1
1
1 1>
0
=
C1 = >
2
1 A1
0

-P
hil
ip

k+1 = P(R+ )q (k + (Dxk d)) .

0
D1 = Id C1 A = 0
0

2
1

Posons v = (0, 0, 3) 6 ker D2 et 3 = D2 v = (1, 1, 3). Alors,

1
1 3
3/4
>
3 3>
1

3
3

1/4
1
1
3
=
;
C
=
C
+
=
3
2
12
3> A3
3> A3
3 3
9
1/4

1
= 3,
2

1/2
1
0

= D1 u = (1, 2, 0). Alors :

0
2/3
>

2
2
0
;
C2 = C1 + >
= 1/3
2 A2
0
0

igh
t:

Posons u = (0, 2, 0) 6 ker D1 et 2

1 2
1
2 2>
2
4
=
>
6
2 A2
0
0

det(A2 ) =

1/2
0 .
1

1/3
2/3
0

1/4
3/4
1/4

det(A1 ) = 2 .

0
0 .
0

1/4
1/4 = A1 .
3/4

Co

py
r

Exercice 2. On commence par determiner le polyn


ome p(x) dinterpolation de Lagrange des points (0, 0),
(1, 1), (2, 2). On pourrat remarquer que x 7 x interpole ces points et est de degre 1 et donc minimal ;
ainsi p(x) = x. On applique cependant navement la formule :
p(x) =

3
3
X
Y
i=1 j=1,i6=j

x xj
xi xj

x0
x2
x
x1

+2

10
12
20
21
= x(2 x) + x(x 1)
=1

=x

130

CORRECTION DES EXERCICES

Lensemble des polyn


omes de degre au plus 5 interpolant ces 3 points est lensemble des polyn
omes :

au
x

Pa,b,c (x) = x + x(x 1)(x 2)(a + bx + cx2 )

Co

py
r

igh
t:

Je

an

-P
hil
ip

pe

Pr

o`
u a, b, c decrivent R.

S-ar putea să vă placă și