Or Presentation

Les probabilits sans peine ?
Olivier R IOUL
10 mai 2012
Parlons de ce qui fche : les probabilits forment un domaine mathmatique

flou et hasardeux par essence, qui fourmille de paradoxes et de calculs contre-
intuitifs. Elles ncessitent en pralable une formation solide en thorie de la
mesure et de lintgration de Lebesgue : la simple notion de variable alatoire
fait appel celle de fonction mesurable sur un espace probabilis muni dune
tribu que dire alors des concepts plus avancs de stationnarit et dergodicit,
si indispensables lingnieur ? Elles demandent, pour tre bien faites, une
trs grande exprience et un langage spcifique, dcorrls des mathmatiques
ordinaires. Rduites la modlisation statistique du type vu en Terminale, elles
sont trs pauvres ; enseignes pour elle-mmes, elles deviennent trop abstraites.
Et lon peut lgitimement craindre leur inflation probable aux concours dentre
aux Grandes coles.
Pour chacune de ces ides reues, je tenterai quelques possibles dmentis,
remdes ou pistes de solutions.
1
Table des matires
1 Les probabilits : un domaine hasardeux ? 3
2 Les probabilits : lieu de paradoxes ? 4

2.1 Des rsultats corrects mais contre-intuitifs . . . . . . . . . . . . . . 4
2.2 Paradoxes de langage . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Les probabilits : une thorie trop difficile ? 8

3.1 Se dbarrasser du . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Tout axer sur les v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Isoler les cas discret et continu . . . . . . . . . . . . . . . . . . . . . 11
3.4 Tout axer sur les distributions . . . . . . . . . . . . . . . . . . . . . . 12
3.5 Tout le reste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Les probabilits : un monde part ? 13

4.1 Deux exemples en analyse . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Deux exemples en algbre . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Deux exemples en arithmtique . . . . . . . . . . . . . . . . . . . . 17
4.4 Deux exemples en gomtrie . . . . . . . . . . . . . . . . . . . . . . 19
5 Les probabilits : ennuyeuses et trop abstraites ? 21
6 Les probabilits : probable inflation aux concours ? 22
7 En guise de conclusion 23
A Demandez le programme 24
A.1 Premire S (septembre 2011) . . . . . . . . . . . . . . . . . . . . . . 24
A.2 Terminale S (septembre 2012) . . . . . . . . . . . . . . . . . . . . . . 24
A.3 Maths Sup. (septembre 2013) . . . . . . . . . . . . . . . . . . . . . . 25
A.4 Maths Sp. (septembre 2014) . . . . . . . . . . . . . . . . . . . . . . 25
A.5 Programme typique en Grande cole . . . . . . . . . . . . . . . . . 25
2
1 Les probabilits : un domaine hasardeux ?
Les probabilits traitant du hasard, on peut craindre un domaine hasardeux
par excellence.
Il faut dabord comprendre pourquoi cela peut faire peur ltudiant comme
lenseignant. Le hasard va lencontre de cette ide de belle rigueur qui ca-
ractrise la Mathmatique. Il y a en effet une horreur de lesprit humain pour le
dsordre, le flou, lincertain de notre environnement. Cela sest reflt dans le
pass par le besoin de certitude dans les sciences, allant jusquau Dterminisme,
conception selon laquelle toute la Nature, notre propre existence comprise, est
entirement dtermine, dans le pass ou dans lavenir, par des lois immuables.
Dcrire scientifiquement le hasard est donc un gageure : tel le marquis de La-
place, nous pouvons croire quil ne reflte que notre incomptence dcrire
prcisment tous les facteurs qui contribuent ltat de notre environnement,
dans un lieu ` et un instant t donns. Le hasard serait donc insaisissable et
chapperait notre connaissance.
Mais voil que depuis Pascal et Fermat, on dcouvre ou on invente. . . que
le hasard est lui-mme soumis aux rgles mathmatiques, en particulier si lon
considre des configurations moyennes. Cest ce quon explique gnralement
par la loi des grands nombres. Pour dcrire le hasard, il faut alors probablement
distinguer deux problmes... :
1o ) Le premier problme est dordre logique : comment faire pour inventer
une dfinition oprationnelle, la probabilit, qui obira aux axiomes que lon
voudra bien poser et aux thormes que lon en dduira ? La thorie math-
matique ne commence vraiment quune fois tous les vnements considrs
affects de nombres rels du segment [0, 1] appels probabilits . La rigueur
reprend alors tous ses droits.
2o ) Le deuxime problme est plus physique : comment cette affectation de
probabilits aux vnements a lieu dans la ralit ? Les vnements physiques
obissent-ils aux axiomes mathmatiques ? Le dsordre et ses fluctuations na-
turelles sont-elles bien expliques par la thorie ? Comment alors se dfinit le
vrai hasard, celui dont nous avons la sensation et lintuition ? Pour toutes ces
questions, on est bien oblig de constater une certaine impuissance trouver
des rponses dfinitives. En tout cas, on sort du domaine mathmatique. 1
Si plonger dans le monde de lincertain peut inquiter voire horrifier, cest

une sensation humaine qui ne semble pas provenir des mathmatiques elles-
1. Je nai videmment pas la prtention de tout traiter et je ne mattacherai ici qu la descrip-
tion mathmatique des Probabilits. Jinvite lauditeur de cette confrence dsireux dexplorer
dautres axes se tourner vers les exposs dAlain M ARUANI pour la physique et dYves G UIARD
pour les sciences humaines.
3
mme. Pour prvenir la peur que lon pourrait ressentir, dmystifions-les : ce
seront toujours des mathmatiques ordinaires 2 et elles nont en elles-mme
rien dhasardeux. Aprs tout, les mathmatiques des probabilits sont conues
comme les autres : il y aura toujours des axiomes, des dductions logiques et des
thormes. Linterprtation physique des modles mathmatiques du hasard
est, par contre, sujette un autre dbat.
2 Les probabilits : lieu de paradoxes ?

On a eu souvent coutume de mettre en exergue des paradoxes lis au calcul
de probabilits, en particulier dans les journaux et ouvrages de vulgarisation.
Voici ci-dessous des exemples assez classiques avec les solutions ! quil ma
t donn denseigner 3 .
2.1 Des rsultats corrects mais contre-intuitifs

Exercice (von Mises, 1939). Le professeur parie quau moins deux de ses lves
sont ns le mme jour (il ny a pas de jumeaux dans sa classe). partir de quel
effectif a-t-il raison de faire ce pari ?
Rponse. En supposant pour simplifier quil y a 365 jours par an et un effectif

N 6 365, une interprtation linaire conduirait dire quil faudrait une classe
trs surcharg de plus de 180 lves. Mais le nombre darrangements de n dates
distinctes parmi 365 est = 365 364 (365 N + 1) et la probabilit dune conci-
QN N2
dence est donc P = 1 k=1 (1k/365) soit environ 1exp( 2365 ) qui est > 1/2
ds que N > 23, chiffre confirm par un calcul exact.
Cet exercice peut tre trait en Premire ou en Terminale (ctait dj le

cas lorsque jtais lve). La difficult nest pas particulire aux Probabilits,
mais aux mathmatiques en gnral : il sagit de bien identifier les donnes du
problme (en loccurrence lunivers des possibles).

Exercice (Selvin, 1975). Vous tes candidat un jeu tlvis ; la voiture est derrire
lun des trois rideaux. Vous choisissez au hasard un rideau ; le prsentateur (qui
sait o se trouve la voiture) faire ouvrir un autre rideau derrire lequel se trouve
une chvre, et vous offre la possibilit de changer davis : que faites vous ?
2. Jai dj rencontr un lve de Terminale qui avait peur de rentrer en classes de mathma-
tiques spciales . . .
3. Je suppose une connaissance de base de la thorie (disons jusquau niveau Licence).
4
Rponse. Beaucoup de gens soutiennent mordicus quil reste un chance sur
deux, donc il ny a pas dintrt particulier changer. Mais cela suppose en
fait que le probabilit initiale (1/3) change par le conditionnement (laction
du prsentateur). Or justement, ici ce nest pas le cas : en effet, si on utilise la
mthode d infrence baysienne : lhypothse est H : la voiture est derrire
le premier rideau , P(H ) = 1/3. Lvnement supplmentaire est E : le prsen-
tateur montre que la voiture ne se trouve pas derrire un autre rideau , on a
toujours P(E |H ) = P(E |H c ) = 12 , et donc les ctes sont inchanges :
P(H |E ) P(H ) P(E |H ) 1 1
= = 1 =
P(H c |E ) P(H c ) P(E |H c ) 2 2
Par consquent P(H |E ) est toujours = 1/3, donc la voiture deux chances sur
trois dtre derrire le troisime rideau, et il est prfrable de changer davis.
La nature contre-intuitive du rsultat provient ici de lutilisation des proba-
bilits conditionnelles (infrence baysienne), thme souvent dlicat pour les
tudiants.

Exercice. On attend le bus dans un trafic perturb o les arrives des bus suivent
un processus de Poisson, avec en moyenne un bus toutes les T minutes. Trouver le
temps moyen dattente du bus.
Rponse. La rponse nave est T /2 car il y a un bus toutes les T minutes. Ce serait
vrai si les arrives des bus taient uniformment rparties, car lattente suivrait
un loi uniforme entre 0 et T . Mais le processus tant poissonnien, les intervalles
entre les arrives conscutives de bus suivent des v.a. i.i.d. exponentielles de
paramtre = T (moyenne de chaque intervalle). La loi exponentielle tant sans
mmoire, sachant quon arrive un certain instant t , lattente moyenne restante
suit encore une loi exponentielle de mme paramtre = T . Le temps moyen
dattente du bus est donc T , le double de ce quon obtient par un raisonnement
naf.
Ce trs joli rsultat peut tre vrifi exprimentalement (et pour les plus mal-
chanceux dentre nous, quotidiennement). Il nest contre-intuitif quau premier
abord.

Exercice. Vous tes (encore) candidat un jeu tlvis ; on vous prsente deux
enveloppes contenant des sommes dargent, vous en choisissez une et prenez
connaissance de son contenu. Vous avez la possibilit de garder celui-ci ou de
choisir lautre enveloppe. Que faites vous ?
4
Rponse. L encore, on a tendance rpondre quil ny a rien de particulier
4. Merci Aslan T CHAMKERTEN de mavoir signal cet exercice.
5
faire. Mais contrairement aux apparences, il existe une mthode (probabiliste !)
pour faire son choix de sorte davoir raison avec une probabilit > 1/2. Notons
x 1 < x 2 les deux montants inconnus du candidat, X le montant observ (v.a.
binaire avec P(X = x 1 ) = P(X = x 2 ) = 1/2). Sans mme aucune connaissance de
la faon dont ont t choisies les deux montants, on tire au hasard un nombre
rel Y = y selon une loi telle que la probabilit de se trouver dans un intervalle de
longueur > 0 est toujours > 0 (par exemple, une v.a. Y gaussienne, indpendante
de X ). Si le montant observ est > y, on le garde ; sil est < y, on prend lautre
enveloppe (de montant X 0 ). La probabilit davoir raison est
1+p 1
P(X 1 X >Y + X 0 1 X <Y = x 2 ) = P(X = x 1 )P(x 1 < Y ) + P(X = x 2 )P(x 2 > Y ) = >
2 2
o on a not p = P(x 1 < Y 6 x 2 ) > 0. Lesprance de gain qui en rsulte est
1p 1 + p x1 + x2 p x1 + x2
E(X 1 X >Y +X 0 1 X <Y = x 2 ) = x 1 +x 2 = +(x 2 x 1 ) >
2 2 2 2 2
Exercice. Mme jeu tlvis, mais on sait lavance quun des montant de lenve-
loppe est gal au double de lautre. Quitte ou moiti/double ?
Rponse. Disons x 1 = s et x 2 = 2s. Un raisonnement fallacieux consiste dire

que sachant X = x, lesprance de lautre montant 2x+x/2 2
> x et quil faut donc
toujours choisir lautre enveloppe. . . . Cest faux car sachant X = x, X 0 devient
une v.a. dterministe = 2x si x = s et = x/2 si x = 2s, et E(X 0 |X = x) a la mme
valeur (= 2x si x = s et = x/2 si x = 2s). On ne peut pas moyenner ces deux
valeurs. Une rponse possible est dutiliser la mthode ci-dessus, qui assure une
esprance de gain > 3s/2 5 .
Il est clair que dans ces deux exercices, la difficult est galement renforce
par le langage utilis, en particulier la question vague qui tue : que faites-
vous ? . On ne pourrait pas imaginer ce genre de question lcrit dun concours,
difficilement loral.
2.2 Paradoxes de langage

Linterprtation du langage (utilis dans lnonc) est souvent dterminant
pour la rsolution. Quelques exemples :
5. Pour les deux variantes du jeu des enveloppes, on peut faire lhypothse que les deux
montants (ou la somme s) ont t choisis selon une loi de probabilit connue (ou avec une
contrainte, par exemple de montant minimum). Dans ce cas on peut affiner la mthode expose
pour maximiser lesprance du gain, en moyenne sur cette loi.
6
Exercice (Bertrand, 1888). Dans un cercle donn, quelle est la probabilit P
quune corde du cercle choisie au hasard soit de longueur suprieure au ct dun
triangle quilatral inscrit ?
Rponse. Tout dpend de ce quon entend par choisi au hasard . Si on choisit

une direction au hasard laide dun rayon du cercle et un point au hasard sur
ce rayon pour dfinir la corde perpendiculaire en ce point ce rayon, un ct
du triangle quilatral inscrit sera obtenu lorsque le point choisi et au milieu
du rayon, donc P = 21 . Si ce sont les deux extrmits de la corde qui sont choisis
au hasard, il sagit de la probabilit pour quune extrmit ayant t choisie,
considrant le triangle quilatral inscrit de sommet cette extrmit, lautre
extrmit de la corde se trouve entre les deux autres sommets du triangle, do
P = 13 . Si on choisit un point au hasard dans le cercle dfinissant une corde
dont ce point est le milieu, la corde sera plus petite que le ct dun triangle
quilatral inscrit si le point est choisi lextrieur du cercle inscrit ce triangle,
qui est de rayon moiti du rayon du cercle initial ; donc P = 14 . Si on choisit au
hasard la longueur de cette corde entre 0 et deux fois le rayon, sachantpque le
p
ct dun triangle quilatral inscrit est 3 fois le rayon, on trouve P = 1 23 .
Cet exemple montre quil y a parfois aucune hypothse a priori prfrable

une autre et quil faut prciser la faon dont un choix au hasard est fait.
Exercice (Gardner, 1954). Votre voisin vous a dit quil avait deux enfants. Lorsque
vous sonnez sa porte, une fille ouvre. Quelle est la probabilit que lautre enfant
soit un garon ?
Rponse. Il manque ici beaucoup de donnes : Tout dabord, il est entendu par
dfaut que les naissances sont indpendantes et quil y a une chance sur deux
davoir une fille (ou un garon). Bref, sans connaissance supplmentaire, on fait
lhypothse dquiprobabilit et dindpendance (mme si ce nest pas forc-
ment tout fait vrai en pratique). Ce peut tre une rgle par dfaut universelle
pour les exercices.
Maintenant, si (disons) lane est une fille, il y a une chance sur deux pour
que le deuxime soit un garon (les naissances sont supposes indpendantes).
Mais si un des deux enfants est une fille, il y a deux chances sur trois pour que
lautre soit un garon (les possibilits sont (G,F) (F,G), (F,F)). Disons que par
dfaut si on ne dit rien, cest quon est dans le deuxime cas (on na pas spcifi
lordre de naissance).
Il manque nanmoins une information sur la probabilit de qui rpond la
porte. Disons par exemple (par dfaut) que lun ou lautre des enfants, avec la
mme probabilit 1/2, rpond la porte. On applique donc la mthode d inf-
rence baysienne : lhypothse est H : lautre enfant est un garon (sachant
7
quil y a une fille) et donc P(H ) = 2/3. Mais il y a un vnement supplmentaire
E : une fille ouvre tel que P(E |H ) = 1/2, P(E |H c ) = 1 et on cherche dtermine
P(H |E ) : alors
P(H |E ) P(H ) P(E |H ) 1
= = 2 = 1
P(H |E ) P(H ) P(E |H )
c c c 2
do P(H |E ) = 21 .
Ainsi, dans le cas dhypothses refltant la plus grande mconnaissance des

donnes, il se trouve que cest la rponse naturelle qui est la bonne : une chance
sur deux, voyons ! . On voit que le problme est une question dinterprtation
mathmatique du langage commun, il faut parfois prciser les hypothses faites
ou si cest possible, adopter un principe de mconnaissance maximale par
dfaut.
Dautres noncs de paradoxe restent encore sujets polmiques et
controverses aujourdhui (paradoxe de la Belle au bois dormant, paradoxe de
lApocalypse, etc.), faute de stre mis daccord pour clarifier leur interprtation
mathmatique.
Ces contreverses nont pas pour origine les mathmatiques elles-mme,
seulement de linterprtation qui est faite de lnonc. Comme ailleurs en
sciences, il sagit de faire preuve de la plus grande vigilance en essayant de
poser des noncs univoques. Dailleurs, ne pourrait-on pas dire logiquement
que sil y avait rellement paradoxe de contenu en thorie des Probabilits, celle-
ci ntant que purement mathmatique, il impliquerait paradoxe de toutes les
mathmatiques ?
3 Les probabilits : une thorie trop difficile ?

Depuis Kolmogorov et son approche axiomatique de la Thorie des Probabi-
lits, il est bien reconnu que les outils mathmatiques ainsi donns aux concepts
fondamentaux des probabilits sont puissants et efficaces. Cest pourquoi la
plupart des livres et manuels sur ce sujet, ds le niveau de la Licence, obligent
se familiariser dabord avec la thorie de la mesure et de lintgration avant
daborder le calcul de probabilits proprement dit 6 .
Le passage oblig par la thorie de la mesure et de lintgration constitue
videmment une difficult initiale importante, qui savre rebutante pour de
6. La thorie de la mesure la plus adapte aux probabilits nest dailleurs pas ncessairement
celle prconise pas les mathmaticiens purs (restreinte aux mesures de Radon sur les espaces
topologiques localement compacts) mais plutt celle de la mesure abstraite (avec le thorme
dunicit de Carathodory) qui permet ensuite dappliquer les rsultats des processus alatoires
gnraux.
8
nombreux tudiants. Ltudiant (comme lenseignant, dailleurs) doit alors se
farcir ces tribus barbares, ces clans redouts, ces -algbres herm-
tiques, ces espaces borliens, mesurables, probabilisables, probabiliss. . . . On
est assez loin des proccupations quotidiennes de lingnieur, et la thorie de la
mesure est souvent perue par les tudiants comme les enseignants ! comme
ennuyeuse et trop longue.
tel point quon se pose srieusement la question si, pour tre explicite
sans perdre du temps en classes prparatoires, on ne va pas simplement aban-
donner les probabilits continues et se restreindre aux probabilits discrtes
(tout ensemble discret est mesurable...). Ce serait dommage, car il est dj prvu
denseigner les densits de probabilit (gaussiennes, exponentielles, uniformes)
en Terminale, en vue notamment daborder lapproximation gaussienne (pour
ne pas dire le thorme central limite). Ces considrations constituent tout de
mme, comme son nom lindique, un thorme central 7 pour tout ingnieur
qui se respecte.
Car vue dune cole dingnieurs, quel est le but de lenseignement des Pro-
babilits ? Il sagit de rapidement bnficier des outils de calcul de probabilits
pour des besoins pratiques (sans pour cela ncessairement abandonner la sa-
veur et lintrt dune tude suffisamment rigoureuse des concepts). Dans les
besoins pratiques, il y a naturellement lhypothse normale et les lois continues.
Par ailleurs, lexpos systmatique de la thorie de la mesure et de lintgration
nest peut-tre pas un prliminaire indispensable pour commencer faire des
probabilits : les rsultats utiles lis la thorie de la mesure peuvent-ils tre
dmontrs au fur et mesure des besoins sans technicit excessive ?
Voici rsumes un certain nombre de pistes de solutions explores pen-
dant plus de dix ans dans mes cours, et exposes dans mon livre [4]. Si elles ne
conduisent pas toujours une rigueur parfaite (ce point devrait tre amlio-
rable), elles tendent en pratique atteindre lobjectif premier : tre rapidement
capable de faire des probabilits .
3.1 Se dbarrasser du
Dans de nombreux manuels, on se familiarise avec les probabilits en se
rfrant un univers de ralisations possibles souvent not , et en manipu-
lant laide de diagrammes ensemblistes des probabilits des ensembles dune
tribu A de parties de . Cest ainsi quon dfinit rapidement les probabilits
conditionnelles par la formule P(A|B ) = P(A B )/P(B ), ainsi que la notion dv-
nements indpendants : on dit que A B si P(A B ) = P(A)P(B ). Cela donne
7. Le terme central limit theorem (d G. Plya) dsigne lorigine un thorme central de
la limite, et non comme on le voit trop souvent un thorme de la limite centrale (dailleurs,
la limite en question nest pas spcialement centrale, mais normale).
9
lieu de multiples exercices plus ou moins subtiles de probabilits lmen-
taires dont la rsolution passe par des choix plus ou moins judicieux de lespace
probabilis (, A , P).
Mieux (ou pire) : en admettant ou en construisant un espace probabilis
produit (infini) permettant de modliser la mme exprience rpte une in-
finit dnombrable de fois, on peut trs rapidement noncer lindpendance
dune infinit dvnements et dmontrer les lemmes de Borel-Cantelli. Cest
ainsi quon prouve, par exemple, que tout vnement probable, mme trs peu
probable, se ralisera presque srement une infinit de fois.
Bien que ce pan du cours de probabilits a le mrite de mettre en perspective
des lments de thorie des ensembles, il est critiquable : Borel-Cantelli est dj
dune comprhension dlicate 8 mais surtout, certaines notions mme les plus
simples apparaissent un peu artificielles : pourquoi tel choix de serait-il plus
naturel que tel autre pour rsoudre tel ou tel exercice ? que dduire du fait que
tirer un as ou un pique dun jeu de cartes sont deux vnements indpendants ?
Je soutiens quil est possible, et mme salutaire un niveau relativement
simple, de se passer du fameux . En effet, il est souvent plus intuitif et plus com-
mode danalyser un problme de calcul de probabilits en identifiant dabord
les quantits variables alatoires, puis en raisonnant sur leurs distributions de
probabilit de ces variables alatoires 9 . Comme on va le voir maintenant, nul
besoin de pour cela.
3.2 Tout axer sur les v.a.

On dfinit classiquement, selon lapproche de la thorie de la mesure, une
variable alatoire (v.a.) X comme une application mesurable de vers un espace
probabilisable (typiquement R dans le cas dune v.a. relle). On crit donc X ()
o . Cependant, au regard des applications pratiques, le rle du dans
lespace probabilis ne correspond rien de bien palpable et reste donc trs
mystrieux. Par exemple, supposons que lon modlise des chantillons dun
bruit thermique par une suite de v.a. normales corrles : quoi correspond ?
Ce qui est important en pratique, cest que lutilisation dune variable ala-
toire X est entirement dtermine par la donne des probabilits P{X A},
et lutilisation de la lettre X ne constituera finalement quune commodit de
notation. Cela suffit largement pour faire des probabilits , tout du moins
au niveau souhait (jusqu la loi des grands nombres et mme les processus
8. La notion de ralisation une infinit de fois presque srement fait appel celle de limite
suprieure densembles.
9. On peut toujours, en exercice, retrouver les dfinitions lmentaires (ensemblistes) laide
de variables alatoires dfinies par des fonctions indicatrices.
10
alatoires). Cette approche, qui est celle suivie par Cramr [2] dans son ouvrage
de rfrence, est plus simple et plus directe que celle utilisant le mystrieux .
Une variable (ou vecteur) alatoire X sera, dans cette approche, dfini(e)
par la donne des probabilits P{X A} de sous-ensembles A de X appels
vnements. Le fait quun rsultat satisfait une proprit donne correspond
la ralisation dun certain vnement.
3.3 Isoler les cas discret et continu

Si une variable alatoire ne prend pas, proprement parler, une ou plusieurs
valeurs numriques (par exemple un rsultat qualitatif comme pile ou face, ou la
couleur du ciel), on peut gnralement adopter un codage numrique (comme 0
pour pile et 1 pour face, ou le code RGB dune couleur). On se ramne ainsi au cas
de variables alatoires relles (en abrg v.a.r., dans R) ou de vecteurs alatoires
rels 10 (v.a.r. dans Rn ). Bien que lon limine ainsi le cas dun espace darrive
fonctionnel, cela couvre presque tous les cas donnant lieu des modlisations
pratiques, ce qui est bien suffisant pour dmarrer. De la sorte, les mesures
considres sont concrtes (non abstraites) selon la terminologie traditionnelle,
on peut mme se restreindre considrer des vnements borliens (la seule
tribu considrer est celle engendre par les intervalles/pavs) 11 ..
Une variable (ou vecteur) alatoire peut tre discrte ( valeurs dans un
ensemble fini ou infini dnombrable) ou continue ( valeurs dans un continuum
de valeurs comme un intervalle ou un domaine de lespace). Il y a aussi dautres
possibilits : variables dgnres ou mixtes (discrtes/continues). Dans
un premier temps, il est facile de dgager la partie discrte dune v.a. quelconque
(ensemble au plus dnombrable de masses ponctuelles dites de Dirac). Il est plus
difficile, mais possible (en admettant le thorme de Radon-Nikodym) disoler
sa partie (absolument) continue (cest--dire dfinie par une densit). Il reste
alors une partie dgnre , cest--dire entirement concentr sur un volume
de mesure nulle.
Il est difficile dimaginer un seul exemple dune v.a.r. dgnre utile dans
la pratique des mathmatiques appliques. Sa fonction de rpartition P (X 6 x)
serait :
10. Le cas dune v.a. X complexe est un cas particulier dun couple alatoire (Re X , Im X ) R2
o on identifie C R2 .
11. Notons au passage que R. Solovay a montr quon ne peut obtenir aucun exemple explicite
densemble non mesurable sans faire intervenir laxiome du choix gnral, et quon peut donc
parfaitement imposer que tout ensemble et toute fonction est mesurable (au sens de Lebesgue)
en restant compatible avec laxiome du choix dpendant et donc toutes les mathmatiques
utiles pour les applications. La notion mme de mesurabilit na alors plus dintrt et peut
disparatre de lenseignement.
11
1o croissante de 0 1, comme toute fonction de rpartition ;
2o continue partout, car il ny a pas de masse ponctuelle ;
3o presque partout drivable de drive nulle, puisque concentre sur un
ensemble de mesure nulle (et donc en ce sens presque partout constante) !
On peut donc bien parler de cas pathologique 12 . En rsum, on peut fort bien,
sans trop de perte de gnralit, se limiter exclusivement aux v.a. discrtes ou
continues.
3.4 Tout axer sur les distributions

On peut dailleurs adopter un formalisme unifi pour tudier en mme
temps les proprits des cas discret et continu, ce qui permet de rendre les
calculs gnraux plus agrables. Ce formalisme unifi utilise la notion centrale
de distribution de probabilit p(x) : par exemple, la probabilit que X A scrit
sous la forme : Z
P{X A} =
P
p(x)
xA
o la sommation peut tre discrte (pour une variable X discrte o p(x) =
P(X = x)) ou continue (sommation intgrale pour une variable X continue) ;
dans ce dernier cas, p(x) dsigne une densit de probabilit. Cette formule
est dun grand intrt pratique lorsquon veut traiter les cas discret et continu
ensemble sans devoir tout rcrire deux fois.
Chaque fois que cest possible, les notions importantes (comme les chan-
gements de variable, lindpendance et le conditionnement) peuvent tre ex-
primes directement sur les distributions de probabilit, plutt que de faire le
dtour comme cest souvent lusage par les fonctions de rpartition ou les
probabilits densembles. Le formalisme obtenu est plus direct et plus simple.
Par exemple, si lon tenait prsenter les v.a. comme des applications mesu-
rables dfinies sur le mystrieux , lesprance est une intgrale (de Lebesgue-
Stieltjes, par exemple) par rapport la mesure de la variable :
Z
E(X ) = X ()d P ().
Ici, avec le formalisme bas sur la distribution p(x), lesprance E(X ) est dfinie
par la formule utile pour les calculs pratiques :
Z
E(X ) =
P
x p(x)
xX
12. Un exemple classique est appel escalier du diable. Les v.a. singulires en dimension n
sont en revanche importantes considrer ; cela correspond en pratique des v.a.r. concentrs
sur une varit de dimension < n.
12
(sommation discrte ou intgrale, suivant le cas). Les deux formules sont qui-
valentes, mais la dernire exprime clairement E(X ) comme une valeur moyenne
de X , cest--dire une sommation des valeurs de x pondres par la distribution
de probabilit p(x).
3.5 Tout le reste

On dispose ainsi de tous les outils indispensables pour aborder les grands
thormes du calcul des probabilits : la loi (faible) des grands nombres et la
convergence vers la loi gaussienne ou thorme central limite.
Avec la mme approche, une introduction aux processus alatoires est pos-
sible, o lon expose les notions de stationnarit et dergodicit en liaison avec
la loi forte des grands nombres 13 . Les notions plus avances et plus difficiles,
comme celles rsultant des diffrentes dfinitions de convergence (troite ou
presque sre), de la construction de Kolmogorov ou des lois du tout ou rien
(comme Borel-Cantelli) sont ainsi exposes la fin et non au dbut.
Par ailleurs, lespace des v.a.r. de carr intgrable (L 2 ) est naturellement muni
dun produit scalaire, pour lequel cest un espace de Hilbert ; mais on peut se
rassurer : la notion despace de Hilbert (essentiellement son caractre complet)
nest utile que pour rsoudre des problmes dapproximation aux moindres
carrs et peut tre pass sous silence dans une premire approche.
Enfin, ne fantasmons pas : les mouvement browniens, les martingales, le
calcul diffrentiel stochastique, lintgrale de It . . . ne seront accessibles qu
un niveau bien suprieur. Les probabilits enseignes en CPGE resteront vrai-
semblablement des apprentissages fondamentaux faisant suite au lyce (voir
annexe A de ce document).
4 Les probabilits : un monde part ?

Ltude des probabilits passe par lintroduction dun nouveau langage
propre quil sagit dassimiler. Comme tous les langages dune spcialit ma-
thmatique, celui des probabilits utilise un vocabulaire spcifique souvent
constitu de mots courants auxquels on donne un sens prcis : exprience, v-
nement, probabilit, esprance, moments, lois. . .
Il ny a l, me semble-t-il, rien de trs diffrent de ce qui se passe dans
dautres domaines mathmatiques, si ce nest que ce vocabulaire est peut tre
plus proche du langage courant et donne lieu des raisonnements plus intuitifs.
Quon en juge en comparant aux notions classiques de corps, anneau, idal,
13. Une premire introduction aux chanes de Markov est galement possible (voir lexpos
de Roger M ANSUY).
13
trace, base, noyau, relvement, polarisation. . . qui sont clairement plus loignes
du sens courant ! Ce rapport des probabilits avec le langage humain constitue
mme une force de la thorie qui est rendue ainsi plus accessible lingnieur
pour dinnombrables applications importantes.
Cest aussi ce langage et ces applications qui font la richesse des probabili-
ts et qui la rendent incontournable dans les enseignements. Il faut souligner
dailleurs quactuellement les Grandes coles sont un peu pris la gorge pour
faire passer en quelques semaines trois annes de programme en probabili-
ts 14 .
Labsence des probabilits en CPGE suscite en effet depuis trs longtemps
une incomprhension unanime et notoire des chercheurs, y compris en sciences
humaines. Le rel apprentissage des mathmatiques de nos tudiants commen-
ant en Sup et sarrtant au mieux la fin de la premire anne de Grande cole,
les CPGE sont responsables dune partie trs importante de la formation dun
ingnieur ; raison de plus pour ne pas y ngliger lenseignement des probabi-
lits. . . Il ny a en effet aucune raison objective de penser que les commerciaux
qui ont des cours de probabilits en classes prparatoires soient amens
utiliser plus souvent la loi des grands nombres que les ingnieurs, bien au
contraire !
On peut malgr tout craindre une sorte disolement. Les probabilits ne
sont-elles pas ce cheveu sur la soupe, ce pan des mathmatiques appliques
(pour ne pas dire impures) qui taient si souvent absentes des traits de math-
matiques ? Ne pourrait-on craindre une scission entre probabilits et le reste des
mathmatiques ?
Tout dpend peut-tre de la faon denseigner. Lexprience du mathma-
ticien, en tout cas, dmontre clairement que les probabilits sont entirement
imbriques dans les reste des mathmatiques : analyse, algbre, arithmtique,
gomtrie.... Je prsente ci-dessus deux exemples simples dans chacun de ces
domaines. Comme lcrivait Cdric V ILLANI dans une confrence LIESSE il y a
un an, les thormes ne se mettent pas dans des cases .
4.1 Deux exemples en analyse

Thorme (Weierstra). Toute fonction continue sur un segment est limite uni-
forme dune suite de polynmes.
Dmonstration probabiliste (Bernstein, 1912). On se ramne une fonction f

continue sur [0, 1] ; soit X une v.a. binomiale de paramtre p et de longueur n et
14. On peut dailleurs en dire autant de lintgration et de lanalyse de Fourier, ainsi que de
lanalyse complexe qui est carrment abandonne Tlcom ParisTech.
14
posons
B n (p) = E f Xn .
Clairement B n (p) = nk=0 nk p k (1 p)nk f ( nk ) est un polynme en p. Pour > 0

P
donn, majorons la diffrence |B n (p) f (p)| :

|B n (p) f (p)| = E f Xn f (p) 6 E f Xn f (p)

= E f Xn f (p)1 X p < + E f Xn f (p)1 X p >

n n
X
k
6 max f f (p) + 2k f k P p >

k p < n n
n
o on a utilis le fait que f est borne. La fonction f tant continue sur le

compact [0, 1], elle y est uniformment continue, et le premier terme peut tre
rendu arbitrairement petit, indpendamment de p. Par lingalit de Bienaym-
p(1p) kf k
Chebyshev, le deuxime terme est major par 2k f k n2 6 2n2 qui tend
uniformment vers zro. Ainsi B n f uniformment sur [0, 1].
Thorme (formule de Stirling).
n n+1/2 n n 1
e p .
n! 2
Dmonstration probabiliste. Soit (X n )n une suite i.i.d. de v.a. poissoniennes de

paramtre 1 (gal la moyenne et la variance). La v.a. S n = X 1 + X 2 + + X n
suit une loi de Poisson de paramtre n, et par le thorme central limite, Sp n n
n
converge en loi vers Y N (0, 1). Comme la fonction x 7 x est continue,
n S n o Z 0
n n 1 2 1
E p
E(Y ) = p ye y /2 dx = p
n 2 2
Mais
n S n o X n n k nk n n k+1/2 n n k1/2
n
E e n = e n e n
X X
p = p
n k=0 n k! k=0 k! k=1 (k 1)!
n n+1/2 n
Tous les termes sliminent en cascade sauf e .
n!
4.2 Deux exemples en algbre

Le premier en combinatoire, lautre en algbre linaire.
15
Thorme (Sperner, 1928). On peut trouver au plus
! !
n n
max =
k k bn/2c
parties de {1, 2, . . . , n} dont aucune nest contenue dans aucune autre.
Dmonstration probabiliste. Soit A une telle famille de parties et C la chane :
C = , {1 }, {1 , 2 }, . . . , {1, 2, . . . , n}

o la permutation de {1, 2, . . . , n} est choisie au hasard suivant une distribution

uniforme. Soit X le nombre de parties de A dans la chane C : clairement
X {0, 1} sinon il y aurait au moins deux parties dans A qui seraient incluses
lune dans lautre. Or
X = |A C | =
X
1 AC
AA
do
E(X ) = E(1 AC ) = P(A C )
X X
AA AA
et puisque C ne contient quun seul ensemble de cardinal donn |A|, qui est
n
choisi au hasard parmi toutes les |A| parties de mme cardinal = |A|,
1
P(A C ) = n .
|A|
Finalement, puisque X 6 1,
|A | X 1
n 6 n = E(X ) 6 1.
maxk k AA |A|
Thorme (Ky Fan, 1950). Pour toutes matrices A, B S n++ (R) (symtriques dfi-
nies positives) et tous rels positifs , tels que + = 1,
det(A + B ) > (det A) (det B ) .
Dmonstration probabiliste (Cover, Thomas, 1988). Soit X 0 et X 1 deux vecteurs

gaussiens centres de matrices de covariance respectives A et B , une v.a.
binaire valeurs dans {0, 1}, indpendante de (X 0 , X 1 ), de loi de Bernoulli (, ).
La matrice de covariance du vecteur alatoire Y = X est
E(tY Y ) = E E(t X X |) = E(t X 0 X 0 ) + E(t X 1 X 1 ) = A + B.

16
On utilise des rsultats sur lentropie de vecteurs alatoires dfinis par des
densits [3]. matrice de covariance fixe, lentropie est maximale pour une loi
normale :
h(Y ) 6 h(Z )
o Z suit une loi normale de matrice de covariance = A + B . Par ailleurs, en
appliquant lingalit de linformation :
h(Y ) > h(Y |) = h(X 0 ) + h(X 1 ).
Lentropie dun vecteur gaussien X de densit f X et de matrice de covariance C

se calcule explicitement :
n 1
Z p
h(X ) = f X ln f X = 12 E(t XC 1 X ) + ln (2)n detC = ln(2e) + ln detC .
2 2
On remplace alors les entropies par leurs valeurs dans lingalit h(X 0 ) +
h(X 1 ) 6 h(Z ).
4.3 Deux exemples en arithmtique

Commenons par un rsultat clbre de Hardy et Ramanujan, qui tablit
que lordre de grandeur de (n), le nombre de diviseurs premiers distincts de
n, est ln ln n. Ainsi, un nombre choisi au hasard entre 1000 et 500000000 naura
usuellement que 2 ou 3 facteurs premiers distincts 15 .
Thorme (Hardy & Ramanujan, 1920). Pour tout > 0,

o
1 n n
N 6 n ; (1 ) ln ln N < (N ) < (1 + ) ln ln N 1.
n
Hardy avait apparemment une sainte horreur des probabilits (juges trop
vagues) et pour les mathmatiques appliques en general. Mais Turan a gran-
dement simplifi la preuve de Hardy-Ramanujan en interprtant leur rsultat
comme lnonc dune loi des grands nombres (il existe dailleurs un thorme
central limite qui affine le rsultat, tudi par Erdos et Kac en 1939). Hardy et
Wright, dans leur clbre trait de thorie des nombres, ont repris la preuve de
Turan ci-dessous... en prenant soin deffacer toute trace des probabilits !
15. Hardy aimait citer lanecdote suivante sur Ramanujan : I remember once going to see
[Ramanujan] when he was lying ill at Putney. I had ridden in taxi cab number 1729 and remarked
that the number seemed to me rather a dull one, and that I hoped it was not an unfavorable
omen. No, Hardy, no Hardy, he replied, it is a very interesting number ; it is the smallest number
expressible as the sum of two cubes in two different ways. Selon Hardy, un nombre tel que
1729 = 7 13 19, (1729) = 3, est assez typique et donc terne . La rponse de Ramanujan est
dun tout autre registre : 1729 = 13 + 123 = 93 + 103 ...
17
Dmonstration probabiliste (Turan, 1934). Soit N une variable alatoire entire
uniforme sur {1, 2, . . . , n} o n > 2. Sa factorisation en nombre premiers scrit :
N = p p X p , et on a (N ) = p 6n X p o X p = min(X p , 1). Puisque quil y a
Q P
n
p
multiples de p infrieurs ou gaux n, X p suit une loi de Bernoulli de
paramtre P (X p = 1) = P (X p > 1) = n1 np . Sachant que 16 p 6n p1 = ln ln n+O(1),
P
il vient E ((N )) = p E (X p ) = p n1 np = ln ln n + O(1), car enlever les crochets

P P
revient commettre une erreur 6 n1 p 6n 1 6 1. De plus, grce lencadrement

P
1 1 1 n 1

kn 6n k 6k :
E (X p ) E 2 (X p ) + E (X p X p0 ) E (X p )E (X p0 )
X X
Var((N )) =
p 6n p,p 0 6n
p6=p 0
X 1 j n k 1 j n k2 X 1 j n k 1 jn k 1 j n k
= +
p 6n n p n p p,p 0 6n
n pp 0 n p n p0
p6=p 0
X 1 X 1 1 1 1
1
6 + 0
= O(ln ln n).
p 6n p p,p 0 6n pp p n p0 n
Par lingalit de Bienaym-Chebyshev
(N ) E ((N ))

Var((N )) n
P > 6 0
ln ln n (ln ln n)2 2
Il est facile de voir quon peut remplacer E ((N ) par ln ln n, et mme par ln ln N ,
car ln ln n 1 < ln ln N 6 ln ln n pour tout N > n 1/e , le reste donnant une contri-
bution 6 P(N 6 n 1/e ) 0.
En 1948, Shannon utilise un argument de moyenne densemble pour prouver

lexistence (sans preuve constructive) dau moins un bon code correcteur
derreurs pour les communications numriques arbitrairement fiables [3]. Le
mme argument peut tre utilis pour prouver des rsultats plus lmentaires.
Par exemple :
Thorme (Erdos, 1965). Tout ensemble A = {a 1 , a 2 , . . . , a n } de n entiers non nuls
contient > n/3 entiers {a i k }k tels que a i k + a i l 6= a i m pour tous k, l , m.
Dmonstration probabiliste. Soit p un nombre premier de la forme p = 3k + 2,
plus grand 17 que tous les 2|a i | et soit X un v.a. uniforme valeurs dans Zp
16. Voir [1] pour une preuve probabiliste .

17. Il y en a bien une infinit de nombres premiers de la forme 3k + 2 : car sil ny en avait
quun nombre fini p 1 , p 2 , . . . , p N , le nombre impair M = 6p 1 p 2 p N 1 naurait que des facteurs
premiers impairs distincts des p i , donc de la forme 3k + 1, do M = 1 mod 3 = 1 mod 3, ce qui
est impossible.
18
(entiers non nuls modulo p). Puisque a i 6= 0 mod p, la v.a. X i = a i X mod p
valeurs dans Zp suit aussi une loi uniforme. Soit B le sous-ensemble alatoire de
A constitu des entiers a i tels que X i {k + 1, k + 2, . . . , 2k + 1}. Sa taille moyenne
est
n
X X n n k +1 n(k + 1) n
E(|B|) = E P(k < X i <= 2k + 1) =
X
1k<X i <=2k+1 = = >
i =1 i =1 i =1 p 1 3k + 1 3
donc il existe au moins une valeur X = x conduisant un ensemble B de taille >

n/3. Les lments a i B sont ceux pour lequels a i x mod p {k +1, k +2, . . . , 2k +
1}. Si on avait a i k + a i l = a i m pour trois entiers de B , en multipliant par x modulo
p on trouverait deux entiers {k + 1, k + 2, . . . , 2k + 1} de somme (modulo 3k + 2)
gale un autre entier {k + 1, k + 2, . . . , 2k + 1}, ce qui est impossible.
4.4 Deux exemples en gomtrie

Thorme (Gram, 1874). Soit i (0 6 i 6 n) la somme des angles solides int-
rieurs des i -faces 18 dun polyhdre convexe en n dimensions. Alors
n
(1)i i = 0.
X
i =0
En particulier (n = 2), on retrouve que la somme des angles dun polygone

N cts dans le plan est 0 = 1 2 = N2 1, soit (N 2) radians.
Dmonstration probabiliste (Welzl, 1994). Soit P le polyhdre en question, f i

son nombre de i -faces pour i = 0 n (ainsi f n = 1 et n1 = f n1 /2).
Soit H un hyperplan dont la direction est choisie au hasard (le vecteur nor-
mal H est choisi comme un point de la sphre S n selon une distribution
uniforme) et considrons le projet orthogonal du polyhdre P sur H ; cest un
autre polyhdre P 0 n 1 dimensions. Soit F i0 son nombre de i -faces (i = 0
n 1). La loi de la direction de projection tant uniforme, la probabilit quune
i -face de P (i < n 1) ne soit pas projete sur une i -face de P 0 est gale au double
de langle solide intrieur. En sommant les probabilits complmentaires pour
chacune des f i i -faces de P , on trouve le nombre moyen de i -faces de P 0 :
E(F i0 ) = f i 2i (i 6 n 2)
18. Les 0-faces sont les sommets, les 1-faces sont les artes, etc. ; la n-face est lhyper-volume
du polyhdre. Langle solide est suppos normalis 1 (mesure de langle total). Ainsi n = 1, et
n1 est gal la moiti du nombre dhyperplans qui dlimitent le polyhdre.
19
La relation dEuler-Poincar pour P 0 scrit n1 i 0
P
Pn i =0 (1) F i = 1 et celle pour P scrit
i
i =0 (1) f i = 1. Puisque F n1 = 1, f n = 1 et n1 = f n1 /2 :
0
n1 n2
(1)i E(F i0 ) 1 = (1)i ( f i 2i ) + (1)n1 1
X X
0=
i =0 i =0
n1 n n1
(1)i ( f i 2i ) + (1)n1 (1)i f i = 2 (1)i i .
X X X
=
i =0 i =0 i =0
Thorme (Zubkov, 1979). Dans lespace Rn de base canonique (e 1 , e 2 , . . . , e n ), soit

C = [0, 1]n lhypercube unit de Rn , H t lhyperplan dquation x 1 + x 2 + + x n = t ,
et S le simplexe dfini par lenveloppe convexe des n + 1 points 0 et e 1 , 2e 2 , . . . ne n .
Alors les volumes (n 1)-dimensionnels suivants sont gaux :
vol(C H t ) = vol(S H t ).
Dmonstration probabiliste. Soit X 1 , X 2 , . . . , X n des v.a. i.i.d. exponentielles de

paramtre > 0, rordonnons les X i par ordre croissant : X (1) 6 X (2) 6 6
X (n) et posons (Y1 , Y2 , . . . , Yn ) = (X (1) , X (2) X (1) , . . . , X (n) X (n1) ). La loi expo-
nentielle tant sans mmoire : P(X i > t + x|X i > t ) = P(X i > x), le vecteur
(X (2) X (1) , X (3) X (1) , . . . , X (n) X (1) ) suit la mme loi que le vecteur ordonn
de n 1 v.a. exponentielles i.i.d. de paramtre , indpendamment de X (1) . De
proche en proche, on voit que Yi est indpendant de Y1 , Y2 , . . . , Yi 1 et que P(Yi >
y) = P(X (i ) > X (i 1) + y) = P(min X j > y) o le minimum porte sur les n i + 1
v.a. exponentielles i.i.d. restantes de paramtre , do P(Yi > y) = e (ni +1)y :
(Y1 , Y2 , . . . , Yn ) suit donc la mme loi que ( Xnn , . . . , X22 , X 1 ) et
X
n X n1

P(i , X i 6 1) = P(X (n) 6 1) = P(Y1 +Y2 + +Yn 6 1) = P + + +X 1 6 1
n n 1
Cela se rcrit (en divisant par n ) :
Z Z
(x 1 +x n )
e dx 1 dx n = e (x1 +xn ) dx 1 dx n
C S
ou encore Z + Z +
t
vol(C H t )e dt = vol(S H t )e t dt
0 0
pour tout > 0, ce qui montre que la transforme de Laplace des deux volumes
(qui sont clairement des fonctions de t continues support compact R+ ) sont
gales. On conlut par injectivit de la transforme de Laplace 19 .
R
19. La transforme de Laplace de f est F () = 0 f (t )e t dt ( > 0). Il existe des preuves
lmentaires que cette transforme est injective pour des fonctions f continues support
R si F R= 0, on obtient par drivation que les moments de f sont tous
compact : RPar exemple,
nuls, donc P f = 0 et f 2 = f ( f P ) pour tout polynme P ; le thorme dapproximation de
Weierstrass permet alors de montrer que f = 0.
20
5 Les probabilits : ennuyeuses et trop abstraites ?
Les souvenirs de lyce en probabilits laissent parfois un sentiment dennui.
On se souvient de raisonnements flous sur les cartes jouer, les tirages de boules
dans les urnes et autres types de dnombrements pas trs joyeux : le titre Les
probabilits sans les boules dun recueil dexercices de Terminale par Grard
F RUGIER est symptomatique cet gard. Peut-tre que les arbres pondrs
prconiss aujourdhui par les rformateurs des programmes pourraient avoir
plus dintrt (on pense par exemple leur utilisation pour des procds de
codage comme lalgorithme de Huffman).
Il y a galement un sentiment dinachev lorsquon se souvient des raison-
nements de pure statistique descriptive (comme les carts-type, inter-quartiles
et autres rectangles moustache) pour introduire l intuition des probabilits
dans le Secondaire. Il ressort une grande impression de pauvret au regard de la
vraie thorie. Cela pose aussi le problme de lenseignement des statistiques :
doivent-elles tre enseigns avant, aprs (comme une continuation naturelle)
ou en mme temps que la thorie des probabilits ? Quelle place accorder au
problmes pratiques de modlisation chez les tudiants ? Rciproquement, les
probabilits enseignes servent-elles vraiment faire comprendre des notions
pratiques de modlisation mathmatique ?
Tout semble tre une question dquilibre entre la thorie et les applications.
Mme un niveau lmentaire, les probabilits peuvent tre bien appliques :
des simulations, par exemple laide du logiciel scilab accompagnent rgu-
lirement les cours de premire anne dcoles dingnieurs 20 . Par la suite,
certains problmes dlicats de simulation ( commencer par les mthodes de
type Monte Carlo ) ncessitent dj un bon bagage thorique en Probabili-
ts 21 . Par ailleurs, il est toujours possible de rendre la thorie des probabilits
trs abstraite sans rfrence apparente avec la ralit ou les simulations : mais
cela se fait gnralement un niveau bien suprieur.
Il est vrai que le calcul numrique a peu ou prou disparu des preuves crites
de concours ( cause des progrs technologiques et de la peur des tricheries)
et on peut le regretter. Il reste quand mme les TIPE dont le rle formateur est
important et nest pas remis en question. Les probabilits pourront donc aider
le futur ingnieur comprendre les principes de la modlisation mathmatique
du monde qui nous entoure ce serait un comble si elles ne le permettaient pas !
Il faudra bien entendu conserver lesprit le fait que lenseignement des pro-
babilits doit tre utile aux sciences physiques : les probabilits ne se retrouvent
videmment pas quen algbre linaire ou en calcul diffrentiel et intgral, mais
20. Voir par exemple le tmoignage expos de Sylvie M LARD lEcole Polytechnique.
21. Voir lexpos dEric M OULINES.
21
aussi dans de nombreuses thories physiques 22 . Tout comme on peut accepter
que, comme pour le reste du programme en mathmatiques, les probabilits
sont galement riches de beaux raisonnements, et contribuent leur manire
lapprentissage de la logique, du raisonnement, de la dmontration, et de la
rigueur.
6 Les probabilits : probable inflation aux concours ?

Certains professeurs de classes prparatoires ont, semble-t-il, une sainte
frayeur des probabilits aux concours. On craint une drive inflationniste qui
rendrait omniprsente les probabilits abstraites dans toutes les preuves de
mathmatiques 23 .
Cependant, si lon regarde de prs les preuves actuelles des concours, on
peut sapercevoir que les probabilits y sont dj prsentes, bien que caches.
En ce qui concerne le concours que je connais le mieux (le concours commun
Mines-Ponts), on y trouve dans les annes rcentes :
une allusion un thorme ergodique (preuve filire PC, 2011)
une preuve du thorme central limite (preuve PC/PSI, 2010)
le problme des moments et la loi log-normale (preuve MP, 2009)
des matrices alatoires (preuve PSI, 2009)
des matrices stochastiques (preuve PC/PSI 2007, MP 2006)
des sries gnratrices de v.a. entires (loi de Poisson) (preuve PC/PSI
2004)
...
sans compter le nombre important de sujets de TIPE qui se basent dores et dj
sur des notions de probabilits.
Une des raisons probables de cette prsence cache est le besoin im-
portant des probabilits dans la plupart des coles dIngnieurs. De ce point
de vue, introduire explicitement les probabilits serait un moyen darrter lhy-
pocrisie. Par exemple, si un programme raisonnable en probabilits existait
en classes prparatoires, il est certain que le problme des moments et la loi
log-normale de lpreuve MP de 2009 serait rendu caduc ou trait en moins dun
quart dheure 24 .
De plus, les probabilits sont parfois, comme on la vu ci-dessus, des outils
trs utiles dautres domaines mathmatiques (analyse, algbre, gomtrie,
22. Voir lexpos dAlain M ARUANI.
23. Ce serait galement la raison pour laquelle il serait envisag dviter denseigner un mini-
mum de thorie de la mesure en CPGE (voir lexpos de Laurent D ECREUSEFOND).
24. Cest peine le temps quil faut pour traiter du mme problme en exercice de premire
anne lEcole Polytechnique.
22
arithmtique. . . ). Il est donc parfois possible de gagner du temps grce elles !
7 En guise de conclusion
Lintroduction des probabilits dans les programmes des classes prpara-
toires aux grandes coles semble acquise. Jespre que la rflexion expose ici
montre que cela napporte pas que des inconvnients, surtout au regard des
besoins du futur ingnieur : il faudra donc sadapter bon gr mal gr. On peut
mme souhaiter des influences favorables pour les autres domaines enseignes,
en mathmatiques ou dans les sciences physiques. Par ailleurs, le nouveau mode
de raisonnement introduit enrichit ncessairement la palette du candidat aux
concours.
Le principal problme pratique des enseignants sera leur formation, ds
2012-2013. Les Grandes coles seront naturellement mises contribution par
le biais de stages LIESSE. Les manuels actuels posent galement problme :
ceux qui ne sont pas simplement dun niveau trs basique (BAC ou prpas
commerciales) apparaissent parfois trop abstraites au niveau master/Grandes
coles. Des rfrences intermdiaires sont souhaitables (cest une des raisons
qui mont pouss rdiger le livre [4] partir de notes de cours).
Rfrences
[1] P. Billingsley, Probability and measure, J. Wiley & Sons, 1995.
[2] H. Cramr, Mathematical Methods of Statistics, Princeton Univ. Press, 1946
(rimpression 1999).
[3] O. Rioul, Thorie de linformation et du codage, Hermes-Science Lavoisier,
2007.
[4] O. Rioul, Thorie des probabilits, Hermes-Science Lavoisier, 2008.
23
Annexe
A Demandez le programme
A.1 Premire S (septembre 2011)
Intuition base sur la statistique descriptive et des simulations sur
logiciel exploitant la moyenne et cart-type, mdiane et cart inter-quartile
dune srie statistique.
Approche heuristique de la loi des grands nombres pour interprter la
moyenne et la variance dune loi de probabilit discrte dans le cas dun
grand nombre N de rptitions dexpriences identiques et indpen-
dantes .
Lois discrtes nombre fini de possibilits, surtout la loi binaire (schma
Bernoulli) menant par rpition des lois binomiales via des raisonne-
ments sur des arbres pondrs ; de manire annexe, on voit la loi go-
mtrique (tronque !).
Intervalle de fluctuation pour raliser un test dhypothse (sans le dire).
A.2 Terminale S (septembre 2012)

Le programme est beaucoup plus ambitieux :
Le raisonnement sur les arbres pondrs est l encore privilgi et tendu
aux probabilits conditionnelles P(A|B ) not P B (A), vnements indpen-
dants, formule des probabilits totales, simulation de marche alatoire.
Et surtout, les lois densit sont introduites ( partir de la notion intuitive
daire pour dfinir les intgrales), pour des densits continues sur un
intervalle born [a, b]. On dfinit cette occasion une v.a.r. X comme une
fonction de lunivers dans R, dfinissant uneR b probabilit par la formule
P(X () J ) = J p(x) dx, desprance E(X ) = a xp(x) dx.
R
Exemples : loi uniforme sur [a, b], loi exponentielle avec proprit de loi
sans mmoire, loi normale , ces deux exemples tant pourtant sur des
intervalle non borns.
Mthode de Monte-Carlo, calculs admis dintgrales donnant les moyenne
et variance.
Convergence de la loi binomiale vers la loi de Gauss (Thorme de Moivre)
et intervalles de confiance, notamment 5% et 1%, rgles des , 2 et 3.
On insiste bien sur les distinctions entre intervalles de fluctuation et de
confiance (lintervalle de confiance est alatoire).
24
A.3 Maths Sup. (septembre 2013)
. . . ?. . .
A.4 Maths Sp. (septembre 2014)
. . . ?. . .
A.5 Programme typique en Grande cole
Ce qui est prvisible en CPGE constitue tout ou partie du programme sui-
vant (en gras les choses plus difficiles qui resteront probablement aux Grandes
Ecoles) :
Probabilit sur un espace dnombrable, loi dune v.a. (probabilit image)
Conditionnement et indpendance ensembliste, formule de Poincar
Lois de Bernoulli, binomiale, gomtrique, de Poisson, etc. Lois condition-
nelles, v.a. indpendantes et leur somme.
Moments et srie gnratrice. Entropie.
Existence et unicit dune mesure de probabilit sur une tribu bor-
lienne (voire jusqu la thorie de la mesure de Lebesgue)
Fonctions de rpartition, lois densit, simulation par inversion de la
fonction de rpartition (voire mthode du rejet).
Esprance (en lien avec la notion dintgrale rapport une mesure)
Variables alatoires intgrables et de carr intgrable, variance et cova-
riance, corrlation. Rgression linaire.
Lois uniforme, exponentielle, normale, gamma, de Cauchy, Bta, de Pareto,
etc.
Ingalits de Bienaym-Chebyshev, Cauchy-Schwarz, Jensen, Hlder, Min-
kowski...
Esprance conditionnelle : cas discret ou cas densit, voire jusquau
conditionnement par rapport une tribu. Mthode des moindres car-
rs.
Vecteurs alatoires (lien avec Fubini-Tonelli), matrice de covariance, vec-
teurs gaussiens
Densits conditionnelles, produits de convolution.
Calcul de loi et recherche de densit par la mthode de la fonction de
rpartition ou par le thorme de la loi image.
Espace probabilis produit infini pour modliser des expriences ind-
pendantes en nombre infini, les deux lemmes de Borel-Cantelli.
Convergence en loi, en probabilit, en moyenne (en relation avec le tho-
rme de convergence domine), presque sre
Loi faible et forte des grands nombres, mthode de Monte-Carlo
Fonctions caractristiques ou transforme de Laplace, thorme de Paul
25
Lvy.
Thorme central limite, intervalles de confiance
Introduction aux marches alatoires, processus de branchement, files
dattente, chanes (discrtes) de Markov.
Pour les Grandes coles elles-mme, il y aura ncessit de rorganisation com-
plte de leur enseignement dans le domaine en septembre 2015. Les Grandes
coles (conformment leur souhait dans la plupart des cas) conserveront leurs
enseignements actuels de premire anne mais bnficient de bases avances
leur permettant daller plus vite et plus loin (lignes en gras ci-dessus).
26

Or Presentation

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Or Presentation

Încărcat de

Drepturi de autor:

Formate disponibile

Les probabilits sans peine ?

Parlons de ce qui fche : les probabilits forment un domaine mathmatique

2 Les probabilits : lieu de paradoxes ? 4

3 Les probabilits : une thorie trop difficile ? 8

4 Les probabilits : un monde part ? 13

5 Les probabilits : ennuyeuses et trop abstraites ? 21

6 Les probabilits : probable inflation aux concours ? 22

Si plonger dans le monde de lincertain peut inquiter voire horrifier, cest

2 Les probabilits : lieu de paradoxes ?

2.1 Des rsultats corrects mais contre-intuitifs

Rponse. En supposant pour simplifier quil y a 365 jours par an et un effectif

Cet exercice peut tre trait en Premire ou en Terminale (ctait dj le

Rponse. Disons x 1 = s et x 2 = 2s. Un raisonnement fallacieux consiste dire

2.2 Paradoxes de langage

Rponse. Tout dpend de ce quon entend par choisi au hasard . Si on choisit

Cet exemple montre quil y a parfois aucune hypothse a priori prfrable

Ainsi, dans le cas dhypothses refltant la plus grande mconnaissance des

3 Les probabilits : une thorie trop difficile ?

3.2 Tout axer sur les v.a.

3.3 Isoler les cas discret et continu

3.4 Tout axer sur les distributions

3.5 Tout le reste

4 Les probabilits : un monde part ?

4.1 Deux exemples en analyse

Dmonstration probabiliste (Bernstein, 1912). On se ramne une fonction f

Clairement B n (p) = nk=0 nk p k (1 p)nk f ( nk ) est un polynme en p. Pour > 0

donn, majorons la diffrence |B n (p) f (p)| :

o on a utilis le fait que f est borne. La fonction f tant continue sur le

Thorme (formule de Stirling).

Dmonstration probabiliste. Soit (X n )n une suite i.i.d. de v.a. poissoniennes de

4.2 Deux exemples en algbre

parties de {1, 2, . . . , n} dont aucune nest contenue dans aucune autre.

Dmonstration probabiliste. Soit A une telle famille de parties et C la chane :

o la permutation de {1, 2, . . . , n} est choisie au hasard suivant une distribution

det(A + B ) > (det A) (det B ) .

Dmonstration probabiliste (Cover, Thomas, 1988). Soit X 0 et X 1 deux vecteurs

E(tY Y ) = E E(t X X |) = E(t X 0 X 0 ) + E(t X 1 X 1 ) = A + B.

h(Y ) > h(Y |) = h(X 0 ) + h(X 1 ).

Lentropie dun vecteur gaussien X de densit f X et de matrice de covariance C

4.3 Deux exemples en arithmtique

Thorme (Hardy & Ramanujan, 1920). Pour tout > 0,

il vient E ((N )) = p E (X p ) = p n1 np = ln ln n + O(1), car enlever les crochets

revient commettre une erreur 6 n1 p 6n 1 6 1. De plus, grce lencadrement

Par lingalit de Bienaym-Chebyshev

En 1948, Shannon utilise un argument de moyenne densemble pour prouver

16. Voir [1] pour une preuve probabiliste .

donc il existe au moins une valeur X = x conduisant un ensemble B de taille >

4.4 Deux exemples en gomtrie

En particulier (n = 2), on retrouve que la somme des angles dun polygone

Dmonstration probabiliste (Welzl, 1994). Soit P le polyhdre en question, f i

Thorme (Zubkov, 1979). Dans lespace Rn de base canonique (e 1 , e 2 , . . . , e n ), soit

Dmonstration probabiliste. Soit X 1 , X 2 , . . . , X n des v.a. i.i.d. exponentielles de

6 Les probabilits : probable inflation aux concours ?

A.2 Terminale S (septembre 2012)

S-ar putea să vă placă și