Probabilités, Analyse de Données Et Statistiques (WWW - Bibliodunet.com)

Gilbert SAPORTA
Professeur au Conservatoire National
des Arts et Mtiers
OB
2e dition rvise et augmente
2006
Editions TECHNIP
27 rue Ginoux, 75737 PARIS Cedex 15, FRANCE
CHEZ LE MME .DITEUR

.. Approche pragmatique de la classification
J.P. NAKACHE, J. CONFAIS
..
Data rnining et statistique dcisionnelle
s.
..
TUFFRY
Statistique explicative applique

J.P. NAKACHE, J. CONFAIS
Les techniques de sondage, nOliveHe dition

P. ARDIllY
..
Analyse statistique des donnes spatiales

J.-J. DROESBEI, M. lEJEUNE~ d:sAPoRTX;Eds.
..
Modles statistiques pour donnes qualitatives

J .-1. DROESBEKE, M. LEJEUNE, G. SAPORTA,
Eds.
Plans d'expriences. Applications l'entreprise

J.-J. DROESBEKE, J. FINE, G. SAPORTA,
Eds.
Mthodes baysiennes en statistique

J.-J. DROESBEKE, J. FINE, G. SAPORTA,
Eds.
..
La rgression PLS. Thorie et pratique

M.TENENHAUS
Probabilits. Exercices corrigs

D.GHORBANZADEH
Tous droits de traduction, de reproduction et d'adaptation rservs pour tous pays.

Toute reprsentation, reproduction intgrale ou partielle faite pur quelque procd que ce soit, sans Je consentement de l'auteur ou de ses ayants cause, est illicite el constitue une contrefaon sanctionne par les articles 425 et suivants du Code pnaL Par ailleurs, la loi du 1 1 mars 1957 interdit formellement Jes copies ou les reproductions destines une utilisation collective.
Editions Teclmip. Paris, 2006. Imprim en France
ISBN 2-7108-0814-5
Avant-propos
La prcdente dition de cet ouvrage a t publie en 1990. Nous voquions alors les volutions de la statistique de la dcennie passe. Depuis lors, les de l'informatique n'ont cess. permettant d'une part l'utilisation de nouvelles mthodes fondes sur des calculs intensifs (simulation, mthodes non-paramtriques et algorithmiques), et d'autre part le traitement de donnes en masse qui a donn lieu l'mergence du data mining ou fouille de donnes . Les logiciels de calcul statistique n'ont cess de se perfectionner et de se diffuser tel point que des mthodes complexes sont employes de faon routinire sans pour cela que l'utilisateur les domine toujours. Cette nouvelle dition prend en compte ces volutions. Outre une mise jour de certains exemples, les principaux dveloppements concernent les mthodes de Monte Carlo, l'estimation non paramtrique, la modlisation prdictive avec l'introduction des mthodes de rgression en prsence de mul ticolinari t, la rgression logistique, les SVM et les techniques d'apprentissage. Nous avons galement rajout deux chapitres consacrs aux deux grandes mthodologies de recueil des donnes: sondages et plans d'expriences. Ce livre a pour but de donner aux tudiants et aux praticiens les outils ncessaires pour appliquer correctement les mthodes statistiques. La plupart des rsultats sont dmontrs, sauf certains pour lesquels les preuves trop techniques auraient alourdi ce livre. Les 21 chapitres sont regroups en cinq parties: La premire outils probabilistes donne les bases ncessaires l'infrence classique. L'approche probabiliste permet de prendre en compte le fait que notre univers n'est pas dterministe et que les donnes dont on dispose ne sont pas parfaites. La deuxime partie intitule statistique exploratoire regroupe les outils de description non-probabilistes des donnes, allant de la statistique descriptive unidimensionnelle ce que l'on appelle analyse des donnes en un sens restreint qui selon nous ne se limite pas aux mthodes drives de l'analyse en composantes principales et de la classification : pour nous le but de la statistique est d'analyser des donnes ... La troisime partie statistique infrentielle est consacre classiquement l'estimation et aux tests. La quatrime partie modles prdictifs regroupe les techniques de rgression au sens large o on cherche un modle reliant une rponse Y des prdicteurs Xj La cinquime partie concerne le recueil des donnes par sondages ou exprimentation. Le recueil des donnes constitue un pralable l'analyse; le placer en dernire parte peut sembler
vi
_Avant-propos
illogique, mais le fait est que la collecte des donnes ne peut se concevoir sans en connatre l'usage ultrieur, ce qui ncessite la comprhension de l'estimation el de la modlisation. Je remercie enfin tous ceux qui onl contribu un titre ou un autre la ralsation de cet ouvrage, ainsi que les ditions Technip pour leur patience et le soin apport sa ralsution.
Gilbert Saporta (mars 2006)
Table des matires
Avant propos .......................................................... v Introduction ............................................................ xx v
Premire partie: Outils probabilistes
Ch 1 : Le modle probabiliste ............................................ 3

1.1 Espace probabilisable ................................................ 3
1.1.1 1.1.2 Exprience alatoire et vnements ................................. 3 Algbre des vnements .......................................... 4
1.2
Espace probabilis ................................................... 5

1.2.1 L'axiomatique de Kolmogorov ..................................... 5 1.2.2 Proprits lmentaires ........................................... 5 Lois de probabilits conditionnelles, indpendance ......................... 6 1.3.\ Introduction et dtinitions ......................................... 6 1.3.2 Indpendance .................................................. 8 1.3.2.1 Indpendance de deux vnements ........................... 8 1.3.2.2 Indpendance deux deux et indpendancc mutuelle ............. 8 1.3.3 Formules de Bayes .............................................. 9 Rflexions sur le concept de probabilit ................................. 10 lA.1 La conception objectiviste ....................................... 10 104.1.1 La vision classique ...................................... 10 104.1.2 Un paradoxe clbre ..................................... Il 104.1.3 La vision frquentiste .................................... 12 104.2 La conception subjectiviste ....................................... 12 1.4.2.1 Mesure d'incertitude .................................... 13 1.4.2.2 Le baysianisme ........................................ 13
1.3
1.4
Ch 2 : Variables alatoires .............................................. \5

2.1
Loi de probabilit et moments d'une variable alatoire relle ................ 15 2.1.\ Dfinition et fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . \5 2.1.1.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
viii
.Table des matires
2.1.2
2.1.3 2.1.4
2.1.1.2 Fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.3 Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. L lA Taux instantan de dfaillance . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi d'une fonction d'une variable alatoire Y <p(X) ... 2.1.2.1 <p bijective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2.2 <p quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indpendance de deux variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . Moments d'une variable alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.1 L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4.2 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.3 Autres momenLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.lAA Ordres stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16 18
19
20 20 21 21 22 22 25 27
28
30 30 30
2.2
Lois de probabilit discrtes d'usage courant . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Loi discrte uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Loi de Bernoulli de paramtre p . ............................. 2.2.3 Loi binomiale 93(n ; p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Loi de Poisson rJ'l(X-) .... 2.2.5 Loi hypergomtrique 'dC(N, Il, p) ou du tirage exhaustif. . . . . . . . . . . . . . . . 2.2.5.1 Esprance de l'hypergomtrique ........................... 2.2.5.2 Variance de l'hypergomtrique ............................ 2.2.5.3 Tendance vers la loi binomiale ............................. 2.2.6 Lois gomtrique, de Pascal, binomiale ngative . . . . . . . . . . . . . . . . . . . . . 2.3.1 1.3.2 2.3.3
31 33
36 36 36 37 38
2.3
Distributions continues usuelles .................................... 38

Loi uniforme sur [0, aJ ...................................... 38 Loi exponentielle de paramlre X- .... 39 Lois gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.3.1 Esprance ............................................. 40 2.3.3.2 Variance .............................................. 40 Lois bta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.4.1 Loi bta de type 1 ....................................... 41 2.304.2 Loi bta de type II ....................................... 41 2.3.4.3 Loi de l'arc sinus ....................................... 42 La loi de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.3.5.1 Valeurs remarquables .................................... 44 2.3.5.2 Moments .............................................. 44 2.3.5.3 Additivit ............................................. 45 2.3.504 Loi de U2 45 La loi log-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Loi de Weibull. . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Loi de Gumbel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3.4
2.3.5
2.3.6 2.3.7 2.3.8 2.3.9
2.4
Le processus ponctuel de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 204.1 Flux poissonnen d'vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 204.2 tude de la dure T sparant deux vnements consculifs E j et Ei + 1 49 204.3 tude de la dure Y sparant n + 1 vnements . . . . . . . . . . . . . . . . . . . . . 50
aTable des matires
ix
lude du nombre d'vnements se produisant pendant une priode de dure T fixe ............................ 50 2.4.5 tude de la rpartition des dates El' E:!. ... El! dans l'intervalle AB . ........ 51 1.4.6 Le processus (Nt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Convolution........... . ........................................... 51 2.5.1 Cas discret. ................................................... 51 2.5.2 Cas gnral ................................................... 53 2.5.3 Applications .................................................. 54 2.5.3.1 Somme de lois "y .. 54 2.5.3.2 Somme de lois uniformes sur [0, 1]. . . . . . . . ................ 55 2.6 Fonctions caractristiques ............................................ 55 1.6.1 Dfinitions et principales proprits ................................. 55 2.6.LI Dfinition ............................................. 55 2.U.2 Fonction caractristique d'une fonne 1inaire .................. 56 2.6.1.3 Convolution ........................................... 56 2.6.1.4 Cas d'une distribution symtrique ........................... 56 2.6.1.5 Drives l'origine et moments non centrs ................... 56 2.6.1.6 Unicit et inversion de la fonction caractristique ............... 57 2.6.2 Fonctions caractristiques des lois usuelles ........................... 58 2.6.2.1 Lois discrtes .......................................... 58 1.6.2.1 Lois continues .......................................... 58 1.6.3 Fonctions gnratrices ........................................... 60 2.7 Convergences des suites de variables alatores ............................ 60 2.7.1 Les diffrents types de convergence ................................. 60 2.7.1.1 La convergence en probabilit .............................. 60 2.7.1.2 La convergence presque sre ou convergence forte .............. 61 2.7.1.3 La convergence en moyenne d'ordre p ....................... 61 2.7.1.4 La convergence en loi .................................... 62 2.7.2 Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace) .................... 62 2.7.3 Convergence de la loi de Poisson vers la loi de Gauss. . ................ 64 2.7.4 Le thorme central-limite ........................................ 65
1.4.4
Ch 3 : Couples de variables alatoires, conditionnement. ...................... 69

3.1
3.1.1
tude d'un couple de variables discrtes ................................. 69 Lois associes un couple (X, Y) ................................... 69
3.1. LI Loi jointe ............................................. 69 3.1.1.2 Lois marginales ......................................... 69 3.1.1.3 Los conditionnelles .. . ................................. 70 Covariance et corrlation linaire ................................... 71 Moments conditionnels .......................................... 71 3.1.3.1 L'esprance conditionnelle . . . . . . . . . . .. ................. . 71 3.1.3.2 La variance conditionnelle ................................. 73 3.1.3.3 Exemple d'utilisation de l'esprance et de la variance conditionnelle ............................. 74
3.1.2 3.1.3
x
3. [.4
.. Table des matires

EXlension au conditionnement d'une variable continue Y par une variable discrte X ........................................ 76 3.1.5 Somme d'un nombre alatoire de variables iid . ........................ 76 Extension des variables lluelconques .................................. 77 3.2.1 Lois conjointes et lois marginales d'un couple de variables alatoires relles ...................................... 77 3.2.2 Conditionnement ............................................... 77 3.2.2.1 Prsentation nave ....................................... 77 3.2.2.2 Aperus thoriques. . . . . . . . . . . . . . . . . . . . . . .. . ............ 78 3.2.2.3 Ce qu'il faut retenir. ..................................... 79 Synthse gomtrique ................................................ 80 3.3.1 Espace de Hilbert des classes de variables alatoires de carr intgrables..... 80 3.3.2 Esprance conditionnelle et projection. . . . . . .. . ..................... 81 3.33 Rapport de corrlation de Yen X . ................................. 82
3.2
3.3
Ch 4 : Vecteurs alatoires, formes quadratiques et lois associes ................ 85

4.1 Gnralits sur les vecteurs alatoires rels ............................... 85
4.1.1 Fonction de rpartition et densit ................................... 4. L 1.1 Fonction de rpartition ................................... 4.1.1.2 Densit ............................................... 4.1.1.3 Changement de variables dans une densit .................... Fonction caractristique .......................................... Esprunce et matrice de variance-covariance .......................... Transformations linaires ......................................... Diinitons et fonction caractristique ............................... Densit de la loi normale p dimensions ............................. Cas particulier de la loi normale 1'1 deux dimensions ..................... Lois conditionnelles (sans dmonstration) ............................ Thorme central-limite multidimensionnel ........................... 85 85 85 85 86 87 88 89 89 90 90 92 92
4.1.2 4.1.3 4.1.4
4.2
Vecteurs alatoires gaussiens: la loi multinormale .........................

4.2.1 4.2.2 4.2.3 4.2.4 4.2.5
4.3
Formes quadratiques dfinies sur un vecteur gaussien et lois drives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................... 93

Lois du X2 (khi-deux) ........................................... 93 Formes quadratiques ............................................ 94 Lois du F de Fisher-Snedecor ..................................... 97 Lo de Student. ................................................ 98 La loi multinomiale, introduction au test du X2 99 ................................. 99 4.4.1 Le schma de l'urne il k 4.4.2 Esprance et matrice de variance .................................. 101 4.4.3 Lois limite lorsque Tl .........)0 0::; 101 Lois de Wishart, de Hotelling, de 'Vilks ................................. 103 4.5.1 Loi de Wisbart ................................................ 103 4.5.2 La loi du T 2 de HoteLling. . . . . . . . . . . . . . . . . . . . . . . .. . ............. 104 4.5.3 La loi du lambda (A) de Wilks. . . ............................... 105 4.3.1 4.3.2 4.3.3 4.3.4
4.4
4.5
.Table des matires
xi
Deuxime partie: Statistique exploratoire
Ch 5 : Description unidimensionnelle de donnes numriques ................. 109

5.1 Tableaux statistiques ................................................ 109
5.1.1 5.1.2 Variables discrtes ou qualitatives. . . . . . . . . . .. . ................... 109 Variables continues ou assimiles ................................. 110 Reprsentations graphiques .......................................... 112 5.2.1 Barres el camemberts .......................................... 1 12 5.2.2 Histogrammes ................................................ 114 5.2.3 Bote moustaches ou box-plot ................................... 115 5.2.4 Courbe de concentration ........................................ 116 5.2.4.1 Proprits mathmatiques.. .................... . ....... 117 5.2.4.2 Indice de concentration ou indice de Gni .. .......... . ..... 117 Rsum; numriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ... 119 5.3.1 Caractristiques de tendance centrale ..................... , ........ 120 5.3.1.1 La mdiane ........................................... 120 5.3.1.2 La moyenne arithmtique ................................ 120 5.3.1.3 Le mode ............................................. l21 5.3.2 Caractristiques de dispersion .................................... 121 5.3.2.1 L'tendue ou intervalle de variation ......................... 121 5.3.2.2 L'intervalle interquartile ................................. 121 5.3.2.3 La variance et l'cart-type ................................ 121 5.3.3 Cohrence entre tendance centrale et dispersion. . .................... 122 5.3.4 Caractristiques de forme ....................................... 123
5.2
5.3
Ch 6 : Description bidimensionnelle et mesures de liaison entre variables ........ 125

6.1 Liaison entre deux variables numriques ............................... 125
6.1.1 6.1.2 tude graphique de la corrlation .................................. Le coeficent de corrlation linaire ............................... 6.1.2.1 Dfinition ............................................ 6.1.2.2 Du bon usage du coefficient r . . . . . . . . . . . . . . . . . . . . .. . ..... 6.l.2.3 Matrice de corrlation entre p variables ...................... Caractre significatif d'un coefficient de corrlation ................... Corrlation partielle. . .. . ...................................... 6.1.4.1 Le modle nonnal p dimensions .......................... 6.1.4.2 Corrlation entre rsidus ................................. 6.1.4.3 Signification d'un coefticicnt de corrlation partielle. . .. . ...... i25 126 126 127 128 131 132 133 133 134
6.L3 6.1.4
6.2
Corrlation multiple entre une variable numrique et p autres variables numriques . . . . . . . . .. .......... ....................
6.2.1 6.2.2 6.2.3 6.2.4
. .. 134
134 135 135 136
Dtinition ................................................... Interprtution gomtrique ....................................... Calcul de R . . . . . . . . . . . .. . ................................... Signification d'un coefficient de corrlation multiple ...................
xii
IIIIIIII Table
des matires
6.3
6.4
6.5
Liaison entre variables ordinales: la corrlation des rangs. . . .. . .......... 6.3.1 Le coefficient de Spearman ...................................... 6.3.2 Le coefticient de corrlation des rangs T de M. G. Kendall .............. 6.3.2.1 Aspect thorique ....................................... 6.3.2.2 Ca1cu1 sur un chantillon ................................. 6.3.3 Coefficients de Oaniels et de Guttmann ............................. 6.3.4 Le coefficient W de Kendall de concordance de p classements ............ Liaison entre une variable numrique et une variable qualitative ............ 6.4.1 Le rapport de corrlation thorique (rappel) .......................... 6.4.2 Le rapport de corrlation empirique ................................ 6.4.3 Interprtation gomtrique et lien avec le coefficient de corrlation multiple .......................................... Liaison entre deux variables qualitatives ................................ 6.5.1 Tableau de contingence, marges et profils ........................... 6.5.2 L'cart l'indpendance ........................................ 6.5.2.1 Le X2 d'cart l'indpendance etles autres mesures associes .... 6.5.2.2 Cas des tableaux 2. X 2 .................................. 6.5.2.3 Caractre significatif de J'cart l'indpendance. . ............ 6.5.2.4 Autres mesures de dpendance ............................ 6.5.3 Un indice non symtrique de dpendance: Je Th de Goodman et Kruskal ..................................... 6.5.4 Le kappa de Cohen ............................................
136 137 138 138 138 141 141 143 143 143 145 J46 146 149 149 152 152 153 153 154
Ch 7 : L'analyse en composantes principales ............................... 155

7.1 Tableaux de donnes, rsums numriques et espaces associs .............. 7.1.1 Les donnes et leurs caractristiques ............................... 7.1.1.1 Le tableau des donnes .................................. 7.1. 1.2 Poids et centre de gravit ............. , ................... 7.1.1.3 Matrice de variance-covariance et matrice de corrlation ......... 7.1.1.4 Donnes actives et supplmentaires ......................... 7.1.2 L'espace des individus .......................................... 7.1.2.1 Le rle de la mtrique ................................... 7.1.2.2 L'inertie ............................................. 7.1.3 L'espace des vnriables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.3.1 La mtrique des poids ................................... 7.1.3.2 Variables engendres par un tableau de donnes ............... L'analyse ......................................................... 7.2.1 Projection des individus sur un sous-espace .......................... 7.2.2 lments principaux, ................... , ....................... 7.2.2.1 Axes principaux ....................................... 7.2.2.2 Facteurs principaux ..................................... 7.2.2.3 ComposanLes principales. . . . . . . . . . . . .. . ................. 7.2.2.4 Formules de reconstitution ............................... 7.2.3 Cas usuel. La mtrique DI/s'OU l'ACP sur donnes cenLres-rdules ....... 155 155 155 156 156 157 158 158 160 161 161 161 162 162 164 164 166 166 167 168
7.2
.Table des matires
xiii
7.3
Interprtation des rsultats .......................................... 169

7.3.1 des reprsentations sur les plans principtlux .................... Le pourcenltlge d'inertie ................................. Mesures locales. . . .. . ................................. A propos de la reprsentation simultane des individus et des variables en ACP .................................. Choix de la dimension .......................................... 7.3.2.1 Critres thoriques ..................................... 7.3.2.2 Critres empiriques ..................................... Interprtation interne . . . . . . . . . . . . . 7.3.3.1 Corrlations ({ variables facteurs)} ......................... 7.3.3.:! La place ct l'importance des individus ....................... 7.3.3.3 EtIet taille)l ......................................... IQterprtation externe: variables et individus supplmentaires, valeur-test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. Qunlit 7.3.1.1 7.3.1.1 7.3.1.3 169 170 170 171 171 171 171 173 173 175 176 176
7.3.2
7.3.3
7.3.4
7.4
Exemple ......................................................... 177

7.4.1 7.4.2 7.4.3 Valeurs propres ............................................... 177 Interprtation des axes .......................................... 178 Plan principal. . . . . . . . . . .. . .................................. 179 Analyse factorielle sur tableaux de distance et de dissimilarits .............. 181 7.5.1 Annlyse d'un tableau de distances euclidiennes ...................... 181 7.5.1.1 La soluton classique .................................... 181 7.5.1.2 Une transformation permettant de passer d'une distance non euclidienne il une distance euclidienne ....... 182 7.5.2 Le MDS ................................................. 183 7.5.2.1 Analyse d'un tableau de dissimilarits ....................... 183 7.5.2.2 Analyse de plusieurs tableaux de distances ................... 184 Extensions non linaires ..................................... , ....... 185 7.6.1 Recherche de transformations spares ............................. 185 7.6.2 La kernel-ACP }). . . . . . . . .. ..................... . ........... 187
7.5
7.6
Ch 8 : L'analyse canonique et la comparaison de groupes de variables .......... 189

8.1 Analyse canonique pour deux groupes. . . . . . . . . . . . . . .. . ................ 189
Recherche des variables canoniques ........ ' ........................ 8.1.1.1 tude de la solution dans [R" ...................... 8.1.1.2 Solutions dans ~l' et lH1'i .......... 8.1.2 Reprsentation des variables et des individus. . . . . . . . . . . . .. . ......... 8.1.3 Test du nombre de variables canoniques significatives .................. lVlthodes non symtriques pour deux groupes de variables ................. 8.2.1 Mthodes procuslennes de comparaison de deux contigu rations d'individus . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 8.2.2 Mthodes factorielles ........................................... 8.2.2.1 L'analyse en composantes principales de variables instrumentales (ACPVI) ................................. 8.1.1 190 190 191 193 194 194 194 196 196
8.2
xiv
.Table des matires
8.3
8.2.2.2 ACP sous contrainte d'orthogonalit. . . . . . . . . . . . . . . . . . . . .. . 197 8.2.2.3 ACP des covariances partielles ............................ 197 L'analyse canonique gnralise ....................................... 197
8.3.1 8.3.2 Une proprit de l'analyse canonique ordinaire. .. . .................. 197 La gnralisation de J.O. Carroll (1968) ............................ 198
Ch 9 : L'analyse des correspondances .................................... 201

9.1 Tableau de contingence et nuages associs ............................... 201
9.1.1 Reprsentations gomtriques des profils associs un tableau de contingence ...................................... :W l La mtrique du X2 203
9.2
9.1.2 Analyse en composantes principales des deux nuages de profils '" .......... 205 9.2.1 ACP non centres et facteur trivial. . . . . . . .. . ...................... 205 9.2.2 ACP non centres des nuages de profils ............................. 206 9.2.3 Formules de transition .......................................... 207
9.2.4 Trace et reconstitulol1des donnes ............................... 9.2.4.] Dcomposition du c.p2 ........... 9.2.4.2 Formule de reconstitution ................................ Chox du nombre de valeurs propres en AFC ......................... 208
208
209
9.2.5 209 9.3 Un exemple ....................................................... 210 9.4 Analyse canonique de deux variables qualitatives, justification de la reprsentation simultane ....................................... 212 9.4.1 Mise sous forme disjonctive de donnes qualitatives ................... 212
9.4.2 9.4.3 9.4.4 Quantifications de variables qualitatives ............................ Analyse canonique des deux groupes d'indicatrices. . . . . . . . . . . . . .. . ... Reprsentation simultane optimale des (111 1 + 1112) catgories d'individus ............................... La mlhode des moyennes rciproques ............................. Conclusion..................... . ........................... 213 214 215 217 217
9.4.5
9.4.6
Ch 10 : L'analyse des correspondances multiples ............................ 219

10.1 Prsentation formelle. . . . . . . . . .. ................. . .............. 219
10.1.1 10.1.2 Donnes et notations ........................................ 219 Une proprit remarquable pour p = 2 ........................... 220 10.1.2.1 AFC formelle du tableau disjonctif ..................... 220 10.1.2.2 Proprits particulires des valeurs propres ct vecteurs propres ................................. 221 Le cas gnral p > 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .... 222 10.1.3.1 Coordonnes des catgories ........................... 222 10.1.3.2 Coordonnes des individus ............................ 223 10.1.3.3 Formules de transition et relations barycentriques .......... 224 JO.1.3.4 Proprits des valeurs propres ......................... 225 10.1.3.5 AFC du tableau de Burt. ............................. 226 Analyse canonique gnralise de p tableaux d'indicatrices ........... 227
10.1.3
10.2 Autres prsentations .............................................. 226

10.2.1
_ Table des matires
xv
Un critre d'association maximale .............................. Quantification optimale de variables qualitatives ................... 10.1.3.1 ACP de variables quantifies .......................... 10.2.3.1 Guttman et l'homognit maximale .................... Approximation d'ACP non linaire .............................
10.3
1004
227 228 228 228 230 10.2.4 Pratique de l'analyse des correspondances multiples .................... 131 10.3.1 Les contributions ........................................... 231 10.3.1.1 Contributions un axe factoriel. . . . . . . . . . . . .. . ........ 231 10.3.1.2 Contributions l'inertie totale ......................... 132 10.3.1 L'usage de variables supplmentaires . . ........................ 233 Un exemple: les races canines ....................................... 234 10.1.2 ]0.2.3
Ch Il : lVlthodes'de classification ....................................... 243

Il.1 Gnralits.............................................. . ..... 143
Distances et dissimlarits .................................... 143 1] .1.1.1 Dfinitions ........................................ 143 L1.1. 1.2 Similarits entre objets dcrits par des variables binaires ..... 244 11.1.1.3 Accord entre distances et dissimilarts ... , ........... , .. 245 11.1.2 Accord entre partitions, indice de Rand .......................... 245 Il.1.2.1 Tableau des comparaisons par paires associ une partition .... 245 11.1.2.2 Accord entre deux partitions ................. . .. . .... 246 11.1.3 Aspecls combinatoires de la classification ........................ 247 1 1.1.3.1 Nombre de partitions en k. classes de Il lments ........... 247 11.1.3.2 Nombre total de partitions Pn (nombre de Bell) ............ 148 Il.1.4 Sur l'existence et la caractrisation des classes d'un ensemble ........ 249 Les mthodes de partitionnement ................................... 250 Il.2. 1 Les mthodes du type nues dynamiques}) ou k-mealls ............ 250 1l.2.1.1 Inertie interclasse et inertie ntmclasse ..... , ............ 250 1 1.2.1.2 La mthode des centres mobiles ....................... 250 11.2.2 La mthode de Condorcet .................................... 252 11.3.1 Il.] .1
11.2
11.3 rvfthodes hirarchiques ................................. , ......... 254

Aspect fonne! ............................................. 254 11.3.1.1 Hirarchie de parties d'un ensemble E .................. 254 Il.3.1.2 Distances ultramtriques ............................. 255 1] .3.2 Stratgies d'agrgation sur dissimilarits . . . . . . . . . .. . ............ 256 11.3.2.1 Le saut minimum .................................. 257 L1.3.1.2 Le diamtre et aUlres stratgies ....................... , 258 Il.3.3 La mlhode de Ward pour distances euclidiennes .................. 258 11.3.4 Classification de donnes qualitatives ., ......................... 259 11.3.5 Considrations algorithmiques ................................ 260 11.4 Mthodes mixtes pour grands ensembles ............................. 261 11.5 Classification de variables . . . . . . .. ............................. .. 261 11.5.1 Variables numriques ....................................... 161 11.5.2 L'approche de Lennan et l'algorithme de la vraisemblance du lien ..... 262
xvi
_Table des madres
11.6 Exemples ...................................................... 262

1 1.6.1 11.6.2 Donnes voitures ........................................... Vacances ................................................. 11.6.2.1 Classification des professions ......................... 11.6.2.2 Classitication des modes d'hbergement ................. Races canines ............................................. 262 264 264 265 266
11.6.3
Troisime partie: Statistique infrentelle Ch 12 : Distributions des caractristiques d'un chantillon ................... 271
12.1
Fonction de rpartition d'un chantillon, statistiques d'ordre et quantiles ... 272

Fonction de rpartition empirique d'un chantillon ................. 272 Convergence de F,t(x) vers F(x) ............................... 273 chantillons ordonns et lois des valeurs extrmes ................. 273 12.1.3.1 Loi de YI = inf Xi .................................. 274 12.1.3.2 Loi de }~I = sup XI' ................................. 274 12.1.3.3 Loi de l'tendue W ................................. 274 12.1.3.4 Loi de Yi,:' . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ......... 275 12.1.3.5 Rsultats asymptotiques pour les extrmes ............... 275 12.1.3.6 Distributions asymptotiques des quantiles ................ 276 Distributions d'chantillonnage de certains moments ................... 276 12.2.1 tude de la statistique X ..................................... 276 12.2.1.1 Proprits lmentaires .............................. 276 12.2.1.2 Lois des grands nombres ............................. 277 12.2.1.3 Application: loi d'un pourcentage ..................... 278 12.2.2 de la statistique S2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 279 12.2.2.1 Proprits ........................................ 279 12.2.2.2 Thorme limite pour S:! ............................. 280 12.1.2.3 Corrlation entre ct S2 ............................ 280 12.2.3 Cas des chantillons gaussiens ................................ 281 12.2.3.1 Loi de X ......................................... 281 Il.2.3.2 Loi de S1 et indpendance entre X et S2. . . .. . ........... 281 12.2.3.3 Esprance ct variance des principales caractristiques d'un chantillon gaussien ............................ 283 12.2,4 Application aux cartes de contrle ............................. 284 12.1.1 12.).2 12.1.3
12.2
Distribution du centre de gravit et de la matrice de variance d'un chantillon gaussien p-dimensionnel ............................. 285 12.4 La mthode ( delta et les statistiques asymptotiquement normales ....... 286
12.3 12,4.1 12.4.2 Stabilisation de la variance d'un pourcentage .................... 286 Stabilisation de la variance d'une loi de Poisson ............... " . 287 Valeurs propres d'une matrice de variance ....................... 287 Gnralisation au cas multidimensionnel ......................... 287
12.4.3 t 1.4,4
.Table des matires
xvii
Ch 13 : L'estimation .................................................. 289

13. t Gnralits ..................................................... 289 13.1.1 Exemples lmentaires ...................................... 289 13 .1.2 Qualits d'un estimateur ..................................... 289 L3.1.3 Recherche du meilleur estimateur d'un paramtre e ................ 291 L'exhaustivit ................................................... 291 13.2.1 Dfinition d'une statistique exhaustive ....................... .. 291 13.2.2 Lois pennettant une statistique exhaustive ........................ 193 13.2.3 L'information de Fisher ...................................... 295 13.2.4 Gnralisation il plusieurs dimensions e paramtre vectoriel E Dl<' .................. 297 L'estimation sans biais de variance minimale .......................... 298 13.3.1 Les rsultats thoriques ...................................... 298 l3.3.2 Exemple ................................................. 300 13.3.3 Ingalit de Frchet-Darmos-Cramer-Rao (FDCR) . . . . . . . . . . . , .. 301 La mthode du maximum de vraisemblance (lVIV) ..................... 305 L'estimation par intervalles (les fourchettes d'une estimation) ............ 307 13.5.1 Principe ................................................. 307 13.5.2 Esprance d'une variable normale .............................. 309 13.5.2.1 cr est connu ....................................... 309 13.5.2.2 cr est inconnu ..................................... 309 13.5.3 Variance d'une loi nonnale ................................... 309 13.5.3.1 111 est connu ....................................... 309 13.5.3.2 III est inconnu ..................................... 310 13.5.4 Intervalle de confiance pour une proportion p ..................... 310 13.5.5 Intervalle de confiance pour le paramtre d'une loi de Poisson ................................................ 3 L3 13.5.6 Ellipsode de confiance pour la moyenne d'une loi de Gauss multidimensionnelle .... . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. 314 Intervalles de prdiction et de tolrance .............................. 315 13.6.1 Prvision d'une valeur d'une loi normale ........................ 315 13.6.2 Ellipsode de tolrance pour une distribution normale Nfl{P. ; I.) ....... 316 Estimation baysenne ............................................ 317 l3.7.1 Prsentation................................. . ........... 317 13.7.2 Estimation baysienne de la moyenne f.l. d'une loi normale de variance connue ......................................... 3 17 13.7.3 Estimation baysienne d'une proportion p ........................ 3l8 l3.7.4 Gnralisation ............................................. 319 Notions sur l'estimation robuste ......... . . . .. . .................... 319 Estimation de densit ............................................. 32 L 13.9.1 Gnralits ............................................... 321 13.9.2 De l'histogramme la fentre mobile ........................... 322 13.9.3 Lu mthode du noyau (Parzen) ................................ 323
#
13.2
13.3
13.4 13.5
13.6
13.7
13.8 13.9
xviii
_Table des matires
Ch 14 : Les tests statistiques ............................................ 325

14.1 Introduction............................................ . ...... 325
Les faiseurs de pluie ........................................ 325 Les grandes catgories de tests ................................ 327 14.2 Thorie classique des tests ......................................... 328 14.2.1 Risques et probabilits d'erreur ................................ 328 ] 4.2.2 Choix de la variable de dcision et de la rgion critique optimales: la mthode de Neyman et Pearson .............................. 329 14.2.3 tude de 1 - f3 : puissance du test ............................. 331 14.2.4 Tests et statistiques exhaustives . . . . . . . . . . . . . . . . . . . . . .. . ....... 332 14.2.5 Exemple ................................................. 332 14.2.6 Tests entre hypothses composites ................. . .......... 333 14.2.6.1 Test d'une hypothse simple contre une hypothse composite ....................... 333 14.2.6.2 Test entre deux hypothses compostres .. . .............. 334 14.2.6.3 Test du rapport des vraisemblances maximales ............ 334 14.2.7 Niveau de significaon, risques. vraisemblance et approche baysienne . . .. . .................................. 336 14.3 Tests portant sur un paramtre ..................................... 337 14.3.1 Moyenne d'une loi LG(nl, cr) ................................. 337 14.3.1.1 cr connu ................................... . .... 337 14.3.1.2 0' inconnu ........................................ 338 14.3.2 Variance d'une loi de LG(m, cr) ................................ 338 14.3.2.1 111 connu ......................................... 338 14.3.2.2 111 inconnu ........................................ 338 14.3.3 Test de la valeur thorique p d'un pourcentage pour un grand chantillon .................................... 339 14.4 Tests de comparaison d'chantillons ................................. 339 14.4.1 Tests de Fisher-Snedecor et de Student pour chantillons indpendants .............................................. 339 14.4.1.1 Cas de deux chantillons gaussiens X, E LG(m,. crI) et X2 E LG(m1' 0'2)' . . . . . . . . . . . . . . . . . . . . . . . . 340 14.4.1.2 Comparaison de moyennes en cas de variances ingales .......................................... 342 14.4.1.3 Cas d'chllnti11ons non gaussiens ...................... 342 14.4.2 Tests non paramtriques de comparaison de deux chantillons indpendants ............................. 342 14.4.2.1 Test de Smimov ........................... . ...... 342 14.4.2.2 Test de Wilcoxon-Mann-Whitney ........... . ......... 343 14.4.3 Test non paramtrique de comparaison de plusieurs chanti110ns dcrits par une variable qualitative: le test du X1 . . . . . . . . . . . . . . . . . . . 345 14.4.4 Test de comparaison de deux pourcentages (grands chantillons) ...... 346 14.4.5 Comparaison des moyennes de deux chantillons gaussiens indpendants p dimensions de mme malrice de variance ........... 347 14.4.5.1 Test de HoteHing ................................... 348 14.4.5.2 Distance de Mahalunobs ............................ 348 14.1.1 14.1.2
.Table des matires
xix
Comparaison de moyennes d'chantillons apparis ................. 349 14.4.6.1 Le cus gaussien. . . . . . . .. . ........................ 349 14.4.6.2 Test des signes .................................... 350 14.4.6.3 Le test de Wilcoxon pour donnes apparies. . .......... 350 14.4.7 Comparaison de variances d'chantillons apparis ................. 351 14.4.8 Le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantllon .................................... 351 14.5 L'analyse de variance. . .. . ....................................... 352 ]4.5.1 Analyse de variance un facleur ............................... 353 14.5.1.1 Les donnes el le modle ............................ 353 14.5.1.2 Le lest ........................................... 353 14.5.1.3 L'estimation des effets .............................. 355 14.5.1.4 Comparaisons multiples de moyennes .................. 355 ... 14.5.1.5 TeSl de comparaison de k variances. . . . . . . . . . . . . . . . . . .. 356 14.5.2 Analyse de variance deux facteurs ............................ 357 14.5.2. L Le modle ........................................ 357 14.5.2.2 L'quation d'analyse de variance et le test ................ 357 14.5.2.3 L'estimalion des effets .............................. 358 14.5.2.4 Le cas du plan sans rptition ......................... 359 14.6 Tests et procdures d'ajustement ................................... 359 14.6.1 Les mthodes empiriques .................................... 359 14.6.1.1 La forme de l'histogramme ........................... 359 14.6.1.2 Vrification sommaire de certaines proprits mathmaLiques .................................... 360 14.6.1.3 Ajustements graphiques ............................. 360 14.6.2 Les tests statistiques gnraux ................................. 362 14.6.2.1 Le test du X2 362 14.6.2.2 Le test d'ajustement de Kolmogorov .................... 364 14.6.2.3 Le test d'ajustement de Cramer-von Mises ............... 364 14.6.3 Exemples d'application en fiabilit et en phnomnes d'attente ........ 365 14.6.3.1 Test du caractre exponentiel d'une loi de survie ........... 365 14.6.3.2 TeSl du camctre poissonnien des arrives une file d'attente. 367 14.6.4 Tests de normalit .......................................... 369 14.7 Quelques limites des tests .................. ,. . .................. 370
14.4.6
Ch 15 : Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife, bootstrap) .................................................... 371

15.1
Gnration de variables alatoires .................................. 371

15.1.1 15.1.2 Gnration de variables uniformes sur lO ; 1] ..................... Mthodes gnrales de d'un chantillon artificiel de TI valeurs d'une variable alatoire X conLnue ................ .. 15.1.2.1 Inversion de la fonction de rpartition ................... 15.1.2.2 Mlhode du rejet de von Neumann ..................... Mthodes spcifiques ....................................... 15.1.3.1 Variable de Bernoulli X de paramtre p .................. 15.1.3.2 Loi 'YI) avec P enlier ................................. 371 372 372 372 374 374 374
15.1.3
xx
15.1.3.3 15.1.3.4
aTable des matires
Loi de Poisson {Jl() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 Variable de Laplace-Gauss ........................... 375 15.2 Applications .................................................... 376 15.2.1 Simulation de fonctions de variables alaloires . . . . . . . . . .. . ....... 376 15.2.2 Calcul d'une intgrale par la mthode de Monte Carlo .............. 377 15.2.3 Distributions d'chantillonnage de statistiques complexes ............ 378 15.2.4 Donnes manquantes el imputation multiple ...................... 379 15.3 Mthodes de rchantiIJonnage ..................................... 380 15.3.1 Le bootslrap .............................................. 380 15.3.2 Le Jack-knife ............................................. 382 15.3.2.1 Dfinition ........................................ 382 15.3.2.2 Rduction du biais ................................. 382 15.3.2.3 Intervalle de confiance .............................. 383
Quatrime partie: Modles prdictifs 1
Ch 16 : La rgression simple ............................................ 387

16.1 Le modle thorique de la rgression simple .......................... 387
L'approximation conditionnelle ................................ 387 Cas o la rgression est linaire ............................... 388 16.2 Ajustement sur des donnes ........................ . ............. 389 16.2.1 Estimation de CL, 13, cr:! par la mthode des moindres carrs ........... 390 16.2.2 Proprits des carts rsiduels ................................. 393 16.2.3 Cas o le rsidu E suit une loi normale .......................... 394 16.3 Tests dans le modle linaire ....................................... 395 16.3.1 Analyse de variance de la rgression ............................ 395 16.3.2 Test d'une quation de rgression spcifie ....................... 396 16.3.3 Test de linarit de la rgression ............................... 397 16.3.4 Contrle des hypothses du modle linaire ............. . ....... 397 16.4 Applications .................................................... 398 16.4.1 Exemple ................................................. 398 16.4.2 Prvision d'une valeur ultrieure ............................... 401 16.5 Une mthode de rgression robuste .................................. 403 16.6 Rgression non paramtrique ...................................... 404
16.1.1 16.1 .2
Ch 17 : La rgression multiple et le modle linaire gnral ................... 407

17.1 Rgression et modle linaire ...................................... 407
17.1.1
Rgression entre variables alatoires ............................ 407 17.1.1.1 Aspect empirique: la recherche d'un ajustement linare .... 407 17.1.1.2 Modle probabiliste: l'hypothse de rgression linaire multiple ................................... 408 Le modle linaire gnral ................................... 409 17.1.2.1 Aspect empirique .................................. 409 17.l.2.2 Modle probabiliste ................................ 411 Synthse ................................................. 411
17.1.2
17.1.3
_ Table des matires
xxi
17.2
17.3
17.4
17.5
17.6
17.7
Estimation et tests des paramtres du modle (y; X(3 ; CT 2I) .... . ........ 412 17.2.1 Estimation de (3 et cr2 . . 412 17.2.1.1 Proprits gnrales ................................. 412 17.2.1.2 Proprits supplmentaires si e est gaussien ............... 414 17.2.1.3 Lois des cts du triangle reclangley,y*, X(3 ............. 415 17.2.1.4 Le modle (y; X(3; I) ............... , .............. 415 17.2.2 Tests dans le modle linaire .................................. 416 17.2.2.1 Le coefficient de corrlation multiple R et l'analyse de variance de la rgression .......................... 416 17.2.2.2 Test du caractre significatif d'un des coefficients de rgression ...................................... 417 17.2.2.3 Test de q coefficents de rgression, test d'une sous-hypothse linaire ...................... 418 17.2.3 ... Intervalle de prvision pour une valeur future ..................... 419 L'analyse des rsultato; ............................................ 419 17.3.1 L'tude des rsidus et des observations influentes .................. 419 17.3.2 La stablt des coefficients de rgression ......................... 421 17.3.2.1 Le facteur d'inllation de la variance (VIF) ................ 422 17.3.2.2 Le rle des valeurs propres de R ....................... 422 Slection de variables ............................................. 421 17.4.1 Les critres de choix ....................................... 422 17.4.2 Les techniques de slection ................................... 413 1704.2.1 Recherche exhaustive ............................... 423 17.4.2.1 Les mthodes de pas pas ............. . ............ 423 Traitement de la multicolinarit ................................... 424 17.5.1 Rgression sur composantes principales ......................... 424 17.5.2 La rgression ~( ridge}) ...................................... 425 17.5.3 La rgression PLS .......................................... 426 Un exemple ..................................................... 428 17.6.1 Rsultats de la rgression complte ............................. 428 17 .6. L l Analyse de variance de la rgression .................... 429 17.6.1.2 Estimation des paramtres ............................ 429 17.6.1.3 tude des rsidus et de l'influence des observations ........ 430 17.6.2 Recherche d'un modle restreint ............................... 431 Prdicteurs qualitatifs ............................................ 436 17.7.1 Le principe de quantification optimale .......................... 436 17.7.2 Retour sur l'analyse de la variance ............................. 436 17.7.3 Exemple: prix d'une voiture (suite) ............................ 437
Ch 18 : Analyse discriminante et rgression logistique ....................... 439

18.1 Mthodes gomtriques ........................................... 18.1.1 Variances interclasse et intraclasse ............................. 18.1.2 L'analyse factorielle discriminante (AFD) ........................ 18. t .2.1 Les axes et variables discriminantes .................... 18.1.2.2 Une analyse en composantes principales (ACP) particulire .. 18.1.2.3 Une analyse canonique particulire ..................... 440 440 442 442 444 444
xxii
_ Table des matires
18.2
18.3
18.4
18.5
18.6
18.7
18.1.204 AnaLyse de variance el mtrique W- l . . . . . . . . . . . . . . . . . . . 445 18.1.2.5 Un exemple classique: les iris de Fisher ................. 446 18.1.3 Rgles gomtriques d'affectation .............................. 447 18.1.3.1 Rgle de Mahalanobis-Fisher .. . ..................... 447 18.1.3.2 Insuffisance des rgles gomtriques .................... 448 Fonction de Fisher et distance de Mahalanobis pour deux groupes ........ 449 18.2.1 La fonction de Fisher (1936) .................................. 449 18.2.2 Application de l'analyse canonique .......................... , .450 18.2.3 quvalence avec une rgression muLtiple inhabituelle .............. 45 f 18.204 Fonctions de classement et fonction de Fisher .......... , .......... 452 18.2.5 Exemple infarctus ............................. _ ......... 452 Les SVM ou sparateurs vaste marge ............................ __ 456 18.3.1 L'hyperplan optimal ... . ................................... 457 18.3.1. i Le cas spamble ...................... . ........... 457 18.3.1.2 Le cas non-sparable ................................ 459 18.3.2 Changement despi:c~: ..................................... 460 Discrimination sur variables qualitatives ............................. 46 f 1804.1 Discriminante sur variables indicatrices ......................... 461 18.4.2 Discrimination sur composantes d'une ACM . . . . . . . . . . . . . .. . ..... 461 1804.3 Un exemple de credit scoring .............................. 462 Analyse discriminante probabiliste .................................. 467 18.5.1 La rgle baysienne et le modle gaussien ............ . ......... 467 18.5.1.1 Le cas d'galit des matrices de variance covariance ........ 468 18.5.1.2 Deux groupes avec galit des mutrices de variance ........ 469 18.5.1.3 Taux d'erreur thorique pour deux groupes avec~! ~2' 471 18.5.1.4 Tests et slection de variables ................. _ _ ..... 472 18.5.2 Mthodes non paramtriques 474 Rgression logistique binaire (deux groupes) ....... _.................. 475 L8.6.1 Interprtation ............................................. 475 18.6.2 Estimation .................... . ......................... 476 18.6.3 Tests et slection de variables ............. _ ................... 478 18.6.4 Comparaison avec l'analyse discriminante linaire ................. 480 Validation ............................................. . ..... 481 18.7.1 Procdure de classement ..................................... 481 18.7.2 Validit d'un score, courbe ROC, AUe. .......................... 482
Ch 19 : Mthodes algorithmiques, choix de modles et principes d'apprentissage .... 487

19.1 Arbres de rgression et de discrimination ........................... _487 19.1.1 Dveloppement d'un arbre binaire ............. . .............. 488 . ... _ ........ 488 19.1. L.l Arbres de rgression.. _............. 19. L 1.2 Discrimination en k classes .......................... ,488 19.1.1.3 Discrimination en deux classes ........................ 489 J9.1.2 Utilisation d'un arbre ....................................... 489 19.1.3 Slection d'un sous-arbre ............................ _ ....... 490 19.104 Avantages et inconvnients ............ _...................... 491
.Table des matires
xxiii
19.2
Rseaux de neurones ............................................. 493

19.2.1 19.2.2 Le perceptron multicouche ................................... 494 L'estimation................................. . ........... 495 Combinaison de modles .......................................... 496 19.3.1 Retour sur le bootstrap ...................................... 496 19.3.2 Le boosting ............................................... 496 Choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . ...... 497 19.4.1 Critres de vraisemblance pnalise ................ . ......... 497 19.4.1.1 Le critre AIC d'Akak ............................. 498 19.4.1.2 Le critre BIC de Schwartz ........................... 498 19.4.1.3 Elments de comparaison el de rflexion ................. 499 19.4.2 Approche empirique ...... . . . . . . . . . . . . . . . . . .. . ............. 500 19.4.2.1 Le dilemme biais-variance ........................... 500 .. 19.4.2.2 Evaluation et chox de modle ........................ SOl Les apports de la thorie statistique de l'apprentissage de V. Vapnik ..... 502 19.5.1 Risque et risque empirique ................................... 502 19.5.2 La VC-dimension et l'ingalit de Vapnik ........................ 503 19.5.3 Le principe de minimisation structure du risque .................. 505 Prdire ou comprendre '! .......................................... 506
19.3
19.4
19.5
19.6
Cinquime partie : Recueil des donnes
Ch 20 : Sondages ..................................................... 511

20.1 Objectifs et notations ............................................. 511
Gnralits ............................................... 511 Notations ................................................ 511 Le sondage alatoire simple ........................................ 512 20.2.1 Estimation de la moyenne .................................... 512 20.2.2 Algorithmes de tirage ....................................... 513 Sonduge probabilits ingales ..................................... 514 20.3.1 L'estimateur de Horvitz-Thompson ............................. 514 20.3.2 Le tirage ................................................. 515 Stratification ................................................... 515 20.4.1 Formules de base .......................................... 516 20.4.2 Rpartition proportionnelle ................................... 516 20.4.3 Rpartition optimale ........................................ 517 Sondage en grappes et tirage systmatique ............................ 518 20.5.1 de grappes probabilits ingales ........................ 518 20.5.2 de grappes probabilits gales .......................... 519 20.5.3 syslmatique ...................................... 519 Redressement ................................................... 519 20.6.1 Quotient, rgression ........................................ 519 20.6.2 Post-stratitication .......................................... 520 20.6.3 Poids de redressement ....................................... 52 L 20.1.1 20.\.2
20.2
20.3
20.4
20.5
20.6
xxiv
'I11III Table
des matires
Ch 21 : Plans d'expriences ............................................. 523

21.1 Introduction........ . .......................................... 523
21.1.1 21. 1.2 Vocabulaire ............................................... 523 Optimalit et orthogonalit ................................... 525 Plans pour facteurs quantitatifs et modle linaire du premier degr ....... 525 21.2.1 Le cas de la rgression simple ................................. 526 21.2.2 Plans orthogonaux pour p facleurs ............................. 526 21.2.2.1 Le plan factoriel complet ............................ 526 21.2.2.2 Plans fractionnaires de type 211 '1;. el plans de Plackett et Burman ............................... 528 21.2.3 Exemple ................................................. 530 Quelques plans pour surfaces de rponse du second degr ................ 532 21.3.1 Plans composites faces centres .............................. 532 21.3.2 Plans composites gnraux ................................... 534 21.3.3 Plans de Box-Behnkcn ...................................... 535 21.3.4 Application un problme d'optimisation ........................ 537 Plans pour facteurs qualitatifs ...................................... 538 21.4.1 Orthogonalits ............................................. 538 21.4.2 Facleurs III niveaux ........................................ 539 21.4.2.1 Carrs latins ...................................... 539 21.4.2.2 Carrs grco-latins ................................. 540 21.4.3 Plans asymtriques ......................................... 541 21.4.3.1 Un exemple de fusion ................................... 541 21.4.3.2 Un exemple de compression .............................. 542 Construction algorithmique de plans optimaux ........................ 543
21.2
21.3
21.4
21.5
Annexes ............................................................ 545

1. 2. 3. 4. 5. Tables usuelles ......................................................... 547 Formulaire ............................................................ 591 Calcul des fonctions de rpartition de certaines lois continues ..................... 595 Les fonctions eulriennes r el B . ........................................... 599 Quelques rsultats utiles d'algbre linaire .................................... 603
Bibliographie ......................................................... 609 Index des noms ....................................................... 615 Index .............................................................. 619
Introduction
Les mthodes statistiques sont aujourd'hui utilises dans presque tous les secteurs de l'activit humaine et font partie des connaissances de base de l'ingnieur, du gestionnaire, de l'conomiste, du biologiste, de l'informaticien ... Parmi les innombrables applications dans le domaine industriel: la tiabilit des matriels, le contrle de qualit, l'analyse des rsultats de mesure et leur planification, la prvision, et dans le domaine de l'conomie et des sciences de l'homme: les modles conomtriques, les sondages, les enqutes d'opinion, les tudes quantitatives de march, etc. Nous allons tenter de prciser dans les paragraphes suivants les notions fondamentales de la statistique et les rapports qu'elle entretient avec la thorie des probabilits ainsi que ce qu'on entend par dmarche statistique.
LA STATISTIQUE, LES STATISTIQUES ET LE CALCUL DES PROBABILITS

Selon la dfinition de l'Encyc/opedia Ulliversalis : Le mot statistique dsigne la fols un ensemble de donnes d'observatIons et l'activit qui consiste dans leur recueil, Jeur tratement et leur interprtation . Ainsi le relev des dbits journaliers d'une rivire de 1971 1983 consttue une statistique tandis que faire de la statistique sur ces donnes consisterait par exemple, tracer des graphiques mettant en vidence la priodicit du phnomne, calculer un dbit moyen ou prvoir la valeur maximale de la crue annuelle.
Individus et variables
Dfinitions gnrales
Faire de la statistique suppose que l'on tudie un ensemble d'objets quivalents sur lesquels on observe des caractristiques appeles variables )). Ainsi en contrle de fabrication on prlvera un ensemble de pices dans une production homogne et on mesurera leur poids, leur diamtre. En marketing on tudiera les clients
xxvi
_Introduction
d~une
entreprise en les dcrivant par leurs caractristiques socio-dmographiques et leurs achats passs.
La notion fondamentale en statistique est celle de groupe ou d'ensemble dobjets quivalents que l'on appelle population. Ce terme hrit des premires applications de la statistique la dmographie est employ pour dsigner toute collection d'objets tudier ayant des proprits communes. Ces objets sont appels des individus ou units statis-
tiques.
La statistique traite des proprits des populations ou de sous-populations plus que de celles d'individus particuliers: Gnralement la population tudier est trop vaste pour pouvoir tre observe exhaustivement : c'est videmment le cas lorsque la population est inti nie : par exemple l'ensemble de toutes les pices mtalliques que pourrait sortir une machine dans des conditions de fabrication dtermines, mais c'est aussi le cas lorsque les observations sont coteuses (contrle destructif entre autres). L'lude de LOUS les individus d'une population finie s'appelle un recensement. Lorsque l'on n'observe qu'une de la population on parle de sondage, la partie tudie s'appellant Ichantillon. Chaque individu d'une population est dcrit par un ensemble de caractristiques appeles variables ou caractres. Ces variables peuvent tre classes selon leur nature: variables quantitatives ou numriques: par exemple taille, poids. volume, s'expriment par des nombres rels sur lesquels les oprations arithmtiques courantes (somme, moyenne, ... ) ont un sens. Certaines peuvent tre discrtes (nombre fini ou dnombrable de valeurs) : nombre de dfauts d'une pice, de vhicules passant en une heure un page, etc. ou continues si toutes les valeurs d'un intervalle de IR; sont acceptables. variables qualitatives s'exprimant par l'appartenance une catgorie ou modalit d'un ensemble fini. Certaines sont purement nominales: par exemple type de traitement thermique subi par un alliage, catgorie socio-professionnelle d'un actif (ouvrier, cadre, employ ... ), d'autres sont ordinales lorsque l'ensemble des catgories est muni d'un ordre total; par exemple: trs rsistant, assez rsistant, peu rsistant. Le concept cl en statistique est la variabilit qui signifie que des individus en apparence semblables peuvent prendre des valeurs diftrentes : ainsi un processus industriel de fabrication ne fournt jamais des caractristiques parfaitement constantes. L'analyse statistique est pour l'essentiel une tude de la variabilit: on peut en tenir compte pour prvoir de faon probabiliste le comportement d'individus non encore observs, chercher la rduire ou l'expliquer l'aide de variables extrieures, ou chercher l'augmenter dans le but de distinguer le mieux possible les individus entre eux.
Tableaux de donnes
On prsente usuellement sous forme de tableau Il les donnes recueillies sur Il individus. Lorsque l'on observe uniquement des variables numriques le tableau a la forme d'une matrice Il et p colonnes de terme gnral x~ :
_Introduction
xxvii
..,
Xl
x-
xj
xl'
r}
Il
Lorsque les variables sOf!t toutes qualitatives, le tableau o x1 dsigne le numro de la catgorie de la variable gel laquelle appartient l'individu i est le tableau des codages rduits. Les numros des modalits tant arbitraires, on lui associera le tableau disjonctif ml + m? + ... + 1111, colonnes constitu de la faon suivante: A toute variable I1lj catgories on substitue un ensemble de /1Ij variables valant 0 ou 1 (les indicatrices des catgories), Ainsi au tableau 5 X 3 des observations sur 5 individus de 3 variables ri 2, 3 et 2 modalits respectivement:
2 3
2 2 222
correspond le tableau disjonctif 5 lignes et 7 colonnes suivant:
0-0 1 0:0 0 1: ] 0 1:0 1 o: l
o. 1
0 0 0
0 1: 1 0 0:0 0:0 1 0: 1 0
Mentionnons enfin les tableaux de contingence ou tableaux croiss qui rsultent d'un premier traitement et fournissent la ventilation de Il individus selon deux variables qualitatives 1111 el ml modalits:
1
2 j
111'2
N=
1111
IZij
xxviii
_Introduction
o nij est le nombre d'individus appartenant simultanment aux catgories deux variables.
et j des
Statistique et probabilits
La thorie des probabilits est une branche des mathmatiques qui traite des proprits de certaines structures modlisant des phnomnes o Je hasard intervient. En tant que thorie mathmatique abstraite, elle repose sur une axiomatique et se dveloppe de faon autonome par rapport la ralit physique. Seuls les noms des concepts utiliss (vnements, variables ... ) renvoient l'exprience. La thorie des probabilits permet de modliser efficacement certans phnomnes alatoires et d'en faire l'tude thorique. Quels sont ses liens avec la statistique qui repose plutt sur l'observation de phnomnes concrets? On peut en voir schmatiquement trois: tout d'abord les donnes observes sont souvent imprcises, entaches d'erreur. Le modle probabiliste permet alors de reprsenter comme des variables alatoires les dviations entre ~< vraies ), valeurs et valeurs observes. Deuximement on constate souvent que la rpartition statistique d'une variable au sein d'une population est voisine de modles mathmatiques proposs par le calcul des probabilits (lois de probabilit). Enfin et c'est il notre avis le rle le plus important du calcul des probabilits, les chantillons d'individus observs sont la plupart du temps tirs au hasard dans la population, ceci pour assurer mathmatiquement leur reprsentativit: si le tirage est fait de manire quiprobable chaque individu de la population a une probabilit constante et bien dfinie d'appartenir l'chantillon. Les caractristiques observes sur l'chantillon deviennent, grce ce tirage au sort, des variables alatoires et le calcul des probabilits permet d'tudier leurs rpartitions. Mentionnons ici les mthodes de validation par rchantillonnage (bootstrap, validation croise) qui consistent re-tirer des observations l'intrieur de l'chantillon initial. Il faut bien distinguer ce dernier rle du calcul des probabilits des deux premiers: dans les premiers cas le calcul des probabilits propose des modles simplificateurs, ventuellement contestables, du comportement d'un phnomne (par exemple supposer que la dure de vie X d'un composant lectronique suit une loi exponentieIJe P(X > x) = exp (- ex)) : dans le dernier cas, le calcul des probabilits fournit des thormes si le processus d'chantillonnage est respect: ainsi le thorme centrallimte permet d'tablir que la moyenne x d'une variable numrique mesure sur rz individus s'carte de la moyenne m de la population selon une loi approximativement gaussienne. Le calcul des probabilits est donc un des outils essentiels de la statistique pour pouvoir extrapoler la population les rsultats constats sur l ~ chantillon mais on ne peut y rduire la statistique: ct du calcul des probabilits, la statistique utilise des mathmatiques assez classiques (algbre linaire, gomtrie euclidienne) et de plus en plus l'informatique, car les calculs mettre en uvre ncessitent l'emploi d'ordinateurs: J'informatique a rvolutionn la pratique de la statistique en permettant la prise en compte de donnes multidimensionnelles ansi que l'exploration rapide par simulation de nombreuses hypothses.
_Introduccion
xxix
Ce livre met plus l'accent sur les techniques et la dmarche statistiques que sur la tho~ rie des probabilits, conue ici comme un outil pour la statistique et non comme un objet d'tude en elle-mme.
LA DMARCHE STATISTIQUE CLASSIQUE

Elle comporte usuellement trois phases : le recueil, l'exploration! l'infrence et la modlisation.
Le recueil des donnes

En dehors des cas o les donnes sont dj disponibles, il est ncessaire de les collecter. Les deux grandes mthodologies sont les sondages et les plans d'expriences.
Les sondages
Essentiellement utiliss dans les sciences humaines, mais galement pour obtenir des chantillons dans des bases de donnes, les techniques de sondages servent choisir dans une population les units interroger ou observer. Le choix des units se fait en gnral alatoirement, mais pas ncessairement avec des probabilits gales pour toules les units. L'important est qu'il n'y ait pas d'individus de la population qui aient une probabilit nulle de figurer dans l'chantillon, sinon les rsultats risquent d'tre biaiss car l'chantillon ne sera plus reprsentatif. Les mthodes non-alatoires sont galement souvent utilises dans les tudes de march et d'opinion qui constituent un secteur d'activit important.
Les plans d'expriences

Introduits au dbut du XXe sicle en agronomie, puis utiliss en recherche industrielle, ils ont pour but de provoquer l'apparition de donnes selon des conditions exprimentales prcises. La thorie des plans d'expriences permet de minimiser le cot de recueil des donnes en cherchant les expriences les plus efficaces. Bien qu'employes dans des contextes trs diftrents, ces deux mthodologies ont des point" communs: elles cherchent optimiser le recueil des donnes. Mais il n'y a pas d'optimum en soi, tout dpend du but recherch. En sondages on cherche estimer les paramtres d'une population avec une variance minimale en utilisant toutes les informations dont on dispose. Dans les plans d'expriences, on dispose d'un modle prdictfreliant approximativement une rponse des facteurs de variabilit: on cherche dterminer les expriences permettant d'estimer au mieux les paramtres du modle, ou les prvisions qui en dcoulent: un plan optimal pour un modle ne le sera pas pour un autre.
La statistique exploratoire
Son but est de synthtiser, rsumer, structurer l'information contenue dans les donnes. Elle utilise pour cela des reprsentations des donnes sous forme de tableaux, de graphiques, d'indicateurs numriques.
xxx
.lntroducton
Le rle de la statistique exploratoire est de mettre en vidence des proprits de l'chantillon et de suggrer des hypothses. Les modles probabilistes ne jouent ici qu'un rle trs restreint voire mme nul. Les principales mthodes de l'analyse exploratoire se sparent en deux groupes: Aprs une phase de description variable par variable, puis par couples de variables (la statistique descriptive classique) l'analyse des donnes au sens franais restreint, exploite le caractre multidimensionnel des observations au mogen de : mthodes de classification visant rduire la taille de l'ensemble des individus en formant des groupes homognes~ mthodes factorielles qui cherchent rduire le nombre de variables en les rsumant par un petit nombre de composantes synthtiques. Selon que l'on travaille avec un tableau de variables numriques ou qualitatives on utilisera l'analyse en composantes principales ou l'analyse des correspondances. Les liens entre groupes de variables peu vent tre traits par l'analyse canonique.
Lastatistiqe infrntille
Son but est d'tendre les proprits constates sur l'chantillon la population toute entire et de valider ou d'infinner des hypothses a priori ou fonnules aprs une phase exploratoire. Le calcul des probabilits joue souvent un rle fondamental. Donnons ici quelques exemples lmentaires.
Estimation d'une moyenne

Une mme grandeur est mesure Il fois de suite par un mme observateur, l'imprcision de l'instrument de mesure et d'autres facteurs rendent fluctuantes ces mesures et on obtient n valeurs diffrentes X), X2' , XIl' Comment dtenniner la vraie valeur m ? On peut admettre que ces valeurs constituent des observations ou ralisations indpendantes d'une variable X de moyenne thorique III (esprance mathmatique) si il n'y a pas d'erreurs systmatiques. La loi des grands nombres montre alors que la moyenne 1'chantillon constitue une bonne approximation de
m~
x=
x est une estimation de m. L'chantillon ayant t tir au hasard la valeur constate x n'est qu'une de celles que
~-~----.;.;. Il
+ ... +
de
l'on aurait pu trouver: c'est donc une variable alatoire qui aurait pu fournir une autre valeur si on avait rpt l'exprience dans les mmes conditions. Si Tl est assez grand le calcul des probabilts fournt avec une grande prcision la loi de rpartition des valeurs possibles de autour de 111 et on pourrait en dduire si m tait connu un interva1le du type [m 1l11l, 111 + llm l ayant une probabilit fixe, disons 95 %, de contenir Connaissant une observation x on inverse alors la problmatique et on peut en dduire une fourchette ou intervalle de confiance pour la vraie valeur m.
x.
Vrification d'une hypothse ou test

Le cas suivant est classique en contrle de qualit. Un client commande son fournisseur des lots de pices dont la qualit est spcifie par contrat: le fournisseur s'engage respecter un taux de pices dfectueuses infrieur 4 %. Avant de livrer, le fournisseur effectue un
_Introduction
xxx
contrle sur 50 pices el en trouve trois dfectueuses soit 6 % : doit-il livrer quand mme au risque de se faire refuser la marchandise? Le raisonnement est alors le suivant: si le taux thorique de dfectueux est de 4 % quelles sont les chances d'observer un tel nombre de dfectueux? Le calcul des probabilits montre alors qu'il y a une probabilit voisine de 0.32 d'observer trois pices dfectueuses ou plus (loi binomiale 03(50 ; 0.04)). Cette probabilit tant assez forte, l'vnement constat parat donc normal au fournisseur et ne semble pas de nature remettre en cause l'hypothse formule. Mais le client serait-il d'accord? ... Il faut alors calculer le risque d'un refus par le client. Dans ces deux cas le raisonnement procde du mme schma: l'chantillon est tir au hasard dans une population plus vaste; le calcul des probabilits permet ensuite de prciser les caractristiques de l'ensemble des chantillons que l'on aurai t pu obtenir par le mme procd, c'est l'tude des
distribut;ons~dJchantillonnage
.gn_jnY~r~~ l~sc::ol1c::JlJsions
de la phase prcdente pour en dduire la structure vraisemblable de la population dont est issu l'chantillon observ. C'est la phase infrentielle.
On ne manquera pas de constater la similitude de cette dmarche statistique avec la dmarche scientifique habituelle: observation, hypothses, vrification.
L'avnement des ordinateurs et le dveloppement du calcul statistique permettent dans une certaine mesure de s'affranchir de modles probabilistes souvent illusoires car choisis pour leur relative simplicit mathmatique mais pas toujours adapts aux donnes. Les mthodes de rchantillonnage renouvellent la problmatique de l'infrence en n'utilisant que les donnes observes.
La modlisation et la prvision statistique

La modlisation consiste gnralement rechercher une relation approximative entre une variable et plusieurs autres, la forme de cette relation tant le plus souvent linaire. Lorsque la variable expliquer )~ ou prvoir est numrique ainsi que les variables explicatives, on parle de rgression linaire, si certaines variables explicatives sont qualitatives le modle linaire gnral en est une extension. Lorsque l'on cherche prvoir une variable qualitative (appartenance une catgorie) on utilisera une mthode de discrimination.
STATISTIQUE ET DATA MINING

L'mergence d'immenses bases de donnes, souvent recueillies automatiquement. en particulier dans le fonctionnement des entreprises, a fait apparatre de nouvelles problmatiques, diffrentes de celles exposes prcdemment. 11 ne s'agit plus tant de dcouvrir ou d'estimer des modles de la ralit (dmarche scientifique) mais de donner des rponses des questions oprationnelles comme: quelles adresses d'un fichier dois-je envoyer une
xxxii
_Introduction
publicit pour obtenir un taux de retour maximal, qui dois-je accorder un crdit pour minimiser le risque de perte? La statistique n'est plus alors un auxiliaire de la science mais aussi un outil pour l'action. Le data mning que l'on peut traduire par fouille de donnes est apparu au milieu des annes 1990 comme une nouvelle discipline l'interface de la statistique et des technologies de l'information: bases de donnes, intelligence artiticielle, apprentissage automatique (machine leal1ling). David Hand (1998) en donne la dfinition suivante: Data Milling COl1ssts in the discovery of interesting. unexpected. or vall/able strl/ClUreS in large data selS . La mtaphore qui consste considrer les grandes bases de donnes comme des gisements d'o l'on peut extraire des ppites l'aide d'outils spcifiques n'est pas nouvelle. Ds les annes 1970 Jean-Paul Benzcri n'assignait-il pas le mme objectif l'analyse des donnes? : ( L'analyse des dOJlnes est lin outil pour dgager de la gangue des donnes le pl/r diamant de la vridique nature . Tel
M~
Jourdain, les statisticiens faisaient donc du data mining sans le savoir.
Data Mining versus modlisation statistique

La notion de modle en fouille de donnes prend un sens particulier: un modle est une relation entre des variables exprimable sous une forme analytique ou algorithmique qui ne provient pas d'une thorie mais est issu de l'exploration des donnes et ralise un bon ajustement. Ainsi il est courant d'explorer diffrents modles (linaires, non-linaires) en faisant varier les paramtres (nombre de couches dans un rseau de neurones, noyau pour des SVM etc.) jusqu' obtenir les meilleures prdictions. On est trs loin de la dmarche usuelle de modlisaton, mas plutt dans une optique pragmatique o il ne s'agit pas forcment de comprendre mais de prvoir du mieux possible. La dmarche n'est pas pour autant du pur empirisme et se fonde sur la thorie de l'apprentissage statistique: un modle ralise un compromis entre sa capacit rendre compte des donnes d'apprentissage et sa capacit de gnralisation de nouvelles donnes. L'infrence statistique classique a t dveloppe pour traiter des petits chantillons. En prsence de trs grandes bases de donnes le paradoxe est que tout devient significatif: par exemple, pour un million d'individus, l'hypothse d'indpendance entre deux variables sera rejete au risque 5 % si le coefficient de corrlation linaire est suprieur en valeur absolue il 0.002, ce qui est sans intrt. L'infrence classique ne fonctionne plus et la fouille des grandes bases de donnes amne repenser la notion de test: le choix d'un modle se fait en fonction de ses performances sur d'autres donnes que celles qui ont servi le choisir et le caler, d'o l'emploi de mthodes de validation croise ou de mesures de capacit de type dimension de Vapnik-Cervonenkis. En outre en Data Mining, on analyse des donnes recueillies d'autres fins: c'est une analyse secondaire destine valoriser des bases de donnes dj constitues: on ne se proccupe plus de collecter des donnes de manire efficace. L'chantillonnage ne perd cependant pas ses droits dans la phase de validation car il est souvent prfrable de travailler sur une partie de la base que sur la totalit. Plutt que d'opposer data mining et statistique, il vaut mieux considrer que le data mining reprsente la branche de la statistique consacre l'exploitation des grandes bases de
_Introduction
xxxiii
donnes. Si de nouvelles mthodes ont vu le jour en dehors du monde des statisticiens, il n'en reste pas moins que ces mthodes relvent de la statistique au sens large recueil, traitement, interprtation de donnes et que r esprit statistique imprgn des notions de marge d'erreur, de risque, d'incertain, reste indispensable pour en relativiser les conclusions. Le praticien de la statistique doit donc tre non seulement l'inlerface avec les disciplines d'application, mais aussi dominer les outils informatiques de son temps.
le modle probabiliste
En tant que thorie mathmatique, la thorie des probabilits n'a pas tre justifie: une fois ses axiomes poss, elle se dveloppe de faon autonome par rapport la ralit concrte. Il en va autrement lorsque l'on cherche appl iquer le calcul des probabil its : on ne peut alors luder la question de la nature de la probabilit et de la validit du modle probabiliste. Aprs trois paragraphes consacrs un expos simple<l) de la thorie on se proposera de donner quelques lments de rtlexion sur le concept de probabilit.
1.1
ESPACE PROBABILISABLE
On expose ici la formalisation d'une exprience o intervient le hasard .
1.1.1
Exprience alatoire et vnements
U ne exprience est qualifie d'alatoire si l'on ne peut prvoir par avance son rsultat et si, rpte dans des conditions identiques, elle peut (on aurait pu s'il s'agit d'une exprience par nature unique) donner lieu des rsultats diffrents. On reprsente le rsultat de cette exprience comme un lment w de l'ensemble n de tous les rsultats possibles: n est appel l'ensemble fondamental ou encore l'univers des possibles.
n=
Ainsi l'exprience alatoire qui consiste lancer deux ds, on peut associer l'ensemble {( l.1), (1.2), (1.3) ... } 36 lments.
II convient de noter ici que l'ensemble n ne se dduit pas de manire unique de l'exprience mais dpend de l'usage qui doit tre fait des rsultats: ainsi, si l'on convient une fois pour toutes qu'on ne retiendra de l'exprience des deux ds que la somme des points affichs, on peut trs bien se contenter d'un ensemble n' = [2, 3, 4 ... 12}.
IIIIIIiIIUn expos complet des fondements thoriques, comprenant en particulier le thorme de prolongement, dpasserait le cadre de ce livre. On se reportera l'ouvrage de J. Neveu (1964).
1_le modle probabiliste
Un J'llement est une assertion ou proposition logique relative au rsu1tat de l'exprience (ex. : la somme des points est suprieure 10). On dira qu'un vnement est ralis ou non suivant que la proposition est vraie ou fausse une fois l'exprience accomplie. A la ralisation d'un vnement on peut donc associer tous les rsultats de l'preuve correspondante; ainsi la somme suprieure ou gale 10 est l'ensemble de rsultats suivants:
[(4.6) ; (5.6) ; (6.6) ; (6.4) ; (6.5)}
c'est--dire une partie de n. Dsonnais nous identifierons un vnement la partie de pour laquelle cet vnement est ralis. On appelle vnemellt lmentaire une partie de
n.
n rduite un seul lment.
1. 1.. 2
Algbre des vnements
Rciproqument toute partie de peut-elle tre considre comme un vnement, ou du moins est-il utile qu'il en soit ainsi? Afin de rpondre cette question nous allons supposer pour l'instant que l'ensemble des vnements consttue une dasse (15 de parties de n dont nous allons dtinir les proprits en nous rfrant des besoins usuels; nous en profiterons pour introduire Je vocabulaire probabiliste. A tout vnement A, on associe son contraire not A tel que si A est ralis alors A ne l'est pas, et rciproquement. A est donc reprsent dans par la partie complmentaire de A.
.n
11 sera donc naturel d'exiger de cg la proprit suivante: si A
cg alors A
(g,
tant donn deux vnements A, B on est conduit s'intresser leur union A ou B (A U B) et leur intersection (A et B ou A n B). Il faudra donc que si A, B E (g, A U B et A n B E (J, et ceci d'une manire gnrale pour un nombre quelconque d'vnements. On dtnit galement l'vnement certain reprsent par tout entier et l'vnement logiquement impossible (tel que avoir une somme de points gale 13) reprsent par l'ensemble vide 0. Nous pouvons maintenant dfinir la classe cg par les trois axiomes:
VA
cg, A E
(g;
pour tout ensemble fini ou dnombrable Al, A2' .. " A'l d'lments de ((5,
ilE~
l! Ai E cg;
1 1
On peut montrer titre d'exercice que ces axiomes impliquent que 0 E cg et que (l Ai E cg. Les proprits prcdenles dtinissent ce que l'on appelle une cr-algbre de Boole ou une tribu, f7l(n) est une cr-algbre particulire, la plus grosse, mais il n'est pas toujours utile ni souhaitable de J'utiliser. On peut donc donner maintenant la dfinition d'un espace probabilisable:
DFINITION
On appelle espace probabilisable le COl/pIe (il ; cg) o cg constitue une tribu de parties
den.
l_Le modle probabilste
Donnons encore quelques dfinitions utiles:

DFINITIONS
vnemellts illcompatibles. Dellx \'l1ements A et B so1ll dits lu.:ompatibles si la ralisation de l'lin exclut celle de l'atltre, alllrement dit si les partes A et B de il som disjointes A n B = 0. Systme complet d'vnements. A" A 2 ., A ll formel1t lm systme complet d'l'nements si les parties AI; ... , An de il constituent tille partiton de
n:
Vi=F j { UA i =
1.2 1.2.1
ESPACE-PROBABiliS L'axiomatique de Kolmogorov
A chaque vnement on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin d'viter toute discussion de nature philosophique sur le hasard, la thorie moderne des probabilits repose sur l'axiomatique suivante:
DFINITIONS
On appelle probabilit sur
(n, (g) (ou loi de probabilit) tille application P de (g dans [0, 1] telle que: P{fl) 1; - pour fol/! ensemble dnombrable d'vneme1lts incompatibles AI' A2' .. " Ali' on
li
peU Ai)
2:P(AJ,
On appelle espace probabilis le triplet (n, Cf:;;, P).
Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1 et la thorie des probabilits s'inscrit dans le cadre de la thorie de la mesure.
1.2.2
Proprits lmentaires
: P(@) = O.
: P(A) = 1 - P(A). : P(A) :::; P(B) s A C B. : P(A U B) = P(A) + P(B) - P(A
Des axiomes on dduit immdiatement les proprits suivantes:

Proprit 1 Proprit 2 Proprit 3 Proprit 4 Proprit 5
: peU
Ai) :::;
2: P(AJ
i
n B).
Proprit 6 : Si Ai ~
alors lim P(A i ) = 0 (coll1mtit monotone squentielle).

/Ill
Proprit 7: Thorme des probabilits totales: Soit B j mellfs a/ors VA : P(A) =
systme complet d'l'lle-
2: P(A n Bi)'
i
1_Le modle probabiliste
fORMULE DE POINCAR
Cette formule permet de calculer la probabilit de la runion d'un nombre quelconque d'venements ; elle se dmontre par rcurrence:
11
Il
P(UAJ = 2:P(AJ i=1
2:
l:::5i<j~l
11
p(AinAj )
i"'l
2:
1~;<j</.::::51
Il
p(AinAjnAJJ
+ '" + (-1),,-lp(A 1nA:! ... . nA!!)
Remarque: P(A) 0 n'implique pas ncessairement A 0. Un vnement de probabilit nulle n'est pas ncessairement impossible: soit il = [0, 1] muni de la loi de probabilit uniforme (c'est--dire de la mesure de Lebesgue) alors P(l) 0 "dl.
De mme P(A) = 1 n'implique pas que A soit l'vnement certain: on parlera d'vnement presque certain et dans le cas prcdent d'vnement presque impossible. Les vnements de probabilit:nllsorit en ralit trs communs, comme on le verra dans l'tude des variables alatoires continues possdant une densit: tous les vnements (X = x) sont de probabilit nulle mais aucun n'est impossible. La variable X prend une valeur prcise une fois l'exprience ralise. Cela est comparable au fait qu'un intervalle de longueur donne 1 est fonn d'une infinit de points de longueur nulle.
1.3
LOIS DE PROBABILITS CONDITIONNELLES, INDPENDANCE
Les concepts suivants sont purement probabilistes.
1.3.1
Introduction et dfinitions
Supposons que l'on s'intresse la ralisation d'un vnement A, tout en sachant qu'un vnement B est ralis (fig. 1.1). Si A et B sont incompatibles la question est tranche: A ne se ralisera pas, mais si A n B ::f:. O. il est possible que A se ralise; cependant, l'univers des possibles n'est plus tout entier, mais est restreint B ; en fait, seule nous intresse la ralisation de A l'intrieur de B, c'est--dire A n B par rapport B.
FIGURE
1.1
, . Le modle probabiliste
Ceci justifie la dfinition suivante:

DFINITION
Soit B lm vnement de probabilit non Ilulle. On appelle probabilit conditiollllelle de A sac/wllt B (ml encore de A si B) le rapport Ilot P(AIB) :
P(AI B)
= P(A n
P(B)
B)
Il faut s'assurer que le nom de probabilit est justifi. Vrifions les axiomes:
P~ .,
DI
B)
p(n
B)
P(B)
P(B) = P(B)
p[ y(A, n B)]
P(B)
~P(Ai
i
B)
P(R)
2:P(A j lB)
i
c.q.f.d
On peut donc munir (n, (g) d'une nouvelle loi de probabilit, la loi de probabilit conditionnelle B fix et ceci pour tout B de probabilit non-nulle. Il sera ncessaire d'tendre ]a notion de 101 de probabilit conditionnelle lorsque B est de probabilit nulle (rappelons que la tribu ce contient de tels vnements) : cela sera fait au chapitre 3 dans certains cas particuliers.
_ Exemple: En fiabilit (ou en assurance sur la vie), on considre la fonction de survie
R(t) dfinie comme la probabilit qu'un individu vive au-del d'une date t: R(t) P(X> 1).
Cette fonction dtint une loi de probabilit sur
~+
et :
La probabilit conditionnelle de dfaillance (ou de dcs) entre t l et t 2 sachant que l'individu a dj fonctionn (ou vcu) jusqu' t 1 est: P(t ~ X <
1
f1/x > -
t ) =
1
R(t ) - R(t,)
1
R(t,)
Pour la loi de survie exponentielle P(X> t) conditionnelle vaut:
= exp( -ct) on constate que cette probabilit
il n'y a pas de vieillissement: la probabilit de fonctionner pendant t:. fi partir de t l est la mme qu'au dmarrage. Ce modle est couramment utilis en lectronique. IIIIIIB
1.3.2
1.3.2.1
Indpendance
Indpendance de deux vnements
DFINITION
A est indpendant de B si P(AI B)
= P(A).
Autrement dit. la connaissance de B ne change pas les chances

PROPRIT
de ralisation de ;\.
A indpendant de B ~ B indpendant de A.
On parlera dsormais d'vnements indpendants sans autre prcision. En effet, si P(AIB)
= P(A), alors:
P(A
B)
= P(A)
P(B)
et :
P(BIA) = P(A n B) P(A)
= P(B)
On a dmontr au passage
r importante formule:
1
P(A
B)
= P(A)P(B)
si et seulement si A et B sont indpendants.
N.B.: La notion d'indpendance n'est pas une notion purement ensembliste comme l'incompatibilit: deux vnements peuvent tre indpendants pour une loi de probabilit P et pas pour une autre P'. On s'en convaincra en vrifiant qu'en gnral si A et B sont indpendants, ils ne le sont plus conditionnellement il un troisime vnement C.
1.3.2.2
Indpendance deux deux et indpendance mutuelle
Soient A Jo A2' ... , Ail des vnements ~ ils sont dits mutuellement indpendants si pour toute partie J de l'ensemble des indices allant de 1 il Il on a :
II P(A
1
i)
Cette condition est beaucoup plus forte que l'indpendance deux deux, qui ne lui est pas quivalente mais en est une simple consquence.
Remarque: Dans les applications il est assez frquent que l'on n'ait pas dmontrer l'indpendance de deux vnements car celle-ci est une proprit de l'exprience alatoire. Ainsi lorsqu'on procde un tirage avec remise de Il individus dans une population finie les vnements relatifs aux diffrents tirages sont indpendants entre eux par construction.
modle probabiliste
1. 3.3
Formules de Bayes
Elles ont pour but d'exprimer P(A/B) en fonction de P(B/A).
Premire formllie de Bayes :

PCB/A) = P(A/B)P(B) P(A)
n suffit d'liminer P(A n B) entre P(A/ B)
P(A
=
P(B)
B)
et P(B/ A)
P(A
B)
Soit Bi un systme complet d'vnements. On peut crire: P(A Le thorme des probabilits totales devient donc:
P(A) =
n Bi)
P(A) P(A/ Bi)P(B i ).
2: P(A/ B;)P(Bi)
i
On en ddut alors la deuxime formule de Bayes:

P(BJA) =
k
PCA/Bi)P(Bj) 2:P(A/B,JP(BJ.J
_ Exemple: Dans une usine trois machines IvI" Nt!, !vI] fabriquent des boulons de mme type. MI sort en moyenne 0.3 % de boulons dfectueux, !vI2 0.8 % et Iv!} 1 %. On mlange 1 000 boulons dans une caisse, 500 provenant de MI' 350 de lH! et 150 de M]. On tire un boulon au hasard dans la caisse; il est dfectueux. Quelle est la probabilit qu'i1 ait t fabriqu par Ml (ou N!;. ou M3 ) ?
Lorsque l'on tire un boulon au hasard les probabilits dites {l priori qu'il provienne de lvl l , M 2 ou M} sont videmment P(M 1) 0.50, P(!vIl ) 0.35, PUV!3) = 0.15. Lorsque l'on sait qu'il est dfectueux, vnement not D, il faut alors calculer les probabilits conditionnelles:
P(M I / D), P(!vI2/ D), P(!v!3/ D)
Comme on connat P(D/ Iv!l) 0.003, PCD/IvI!) = 0.008 et P(DlM 3 ) formule de Bayes permet d'crire:
PM
(1
= 0.01
la deuxime
/D ) -
P(D/!v!I)P(M I } P(D/!vI I }P(A1 1)
+ P(D/!v!2)P(A1,!) + P(D/!v13 )P(Iv!3}

0.003 X 0.5 0.008 X 0.35
0.003 X 0.5 0.16 On trouverait de mme P(Iv!:./ D)
+ 0.01
X 0.15
= 0.48
Ce sont les probabilits {/ posteriori, sachant que le boulon est dfectueux. ail voit donc que la prse en compte d'une information (le boulon est dfectueux) modifie les valeurs des _ probabilits de lv!l. A12 et 1v!3'
10
Le thorme de Bayes, simple consquence des axiomes et de la dfinition de la probabilit conditionnelle, tent une place part dans le calcul des probabilits en raison de son importance pratique considrable et des controverses auxquelles son application a donn lieu: il est la base de toute une branche de )a statistique appele statistique baysiemle. Parmi les applications courantes citons: en diagnostic mdical la rvision des probabilits de telle ou telle affection aprs obtention des rsultats d'examens de laboratoire, en matire financire la dtermination du risque de faillite des entreprises aprs observations de certains ratios. Le thorme de Bayes est souvent appele thorme sur la probabilit des causes ce qui se conoit aisment sur r exemple prcdent. Son application gnrale a donn lieu de violentes critiques de la part des logiciens pour qui causalit et alatoire sont antinomiques: il n' y a qu' une cause possible parmi des causes mutuellement exclusives et leur donner des probabilits n'aurait aucun sens. Certains auteurs interprtent le fail que les formules de Bayes ont t publies titre posthllme (enJ763) par la crainte du sacrilge: Thomas Bayes tait en effet un cclsiastique et l'application de sa formule la recherche des causes ultimes d'un vnement aurait pu conduire probabiliser l'existence de Dieu ...
1.4
RFLEXIONS SUR lE CONCEPT DE PROBABILIT
La thorie mathmatique des probabilits ne dit pas quelle loi de probabilit mettre sur un ensemble il parmi toutes les lois possibles (et elles sont nombreuses ... ). Ce problme concerne ceux qui veulent appliquer le calcul des probabilits, et renvoie la nature physique , si l'on peut dire, du concept de probabilit qui formalise et quantifie Je sentment d'incertitude vis--vis d'un vnement.
1.4.1
la conception objectiviste
Pour les tenants de ce point de vue, la probabilit d'un vnement peut tre dtermine de manire unique.
, .4.1.1
La vision classique
C'est ceHe qui est hrite des jeux de hasard . .n est en gnral fini et des raisons de symtrie conduisent il donner chaque vnement lmentaire la mme probabilit: ainsi le lancer d'un d parfait conduit un ensemble il 6 lments quiprobables. Le calcul des probabilits n'est donc plus qu'une affaire de dnombrement, d'o la clbre formule:
P(A)
= - - - de cas possibles ----Nombre
Nombre de cas favorables
L'analyse combinatoire fournit alors les rponses aux cas classiques. Cette approche ne s'tend pas aux cas o il n'est plus dnombrable (voir plus loin) et repose sur une conception idalise de l'exprience alatoire: les symtries parfaites n'existent pas; ainsi le d parfait n'est qu'une vue de l'esprit et ses 6 faces ne sont pas en ralit
1.Le modle probabiliste
11
quiprobables en raison de la non homognit de la matire et surtout des gravures des numros sur les faces.
1.4.1.2
Un paradoxe clbre
Les limites de la vision classique apparaissent, nous semble-t-il, assez bien dans le clbre paradoxe de Bertrand. Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard. Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle? Reproduisons ici les commentaires de Renyi (1966) : Premire solution. Comme la longueur de la corde est dtermine par la position de son milieu, le chox de la corde peut consister marquer un point au hasard l'intrieur du cercIe. La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est alors videmment gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit qui est. de rayon moiti (cf fig. 1.2). Si l'on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la probabilit demande :
7I(r/2f
4
Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au centre du cercIe. Par raison de symtrie nous pouvons considrer que le milieu de la corde est pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon est uniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est une distance du centre infrieur r/2 ; 'a probabilit cherche est alors 1/2 (cl fig. 1.3).
FIGURE 1.2
FIGURE
1.3
FIGURE
1.4
12
Troisime solution. Par raison de symtrie nous pouvons supposer qu'on a fix une des extrmits de la corde, soit Po. L'autre sera choisie au hasard sur la circonfrence. Si l'on admet que la probabilit pour que l'autre extrmit P tombe sur un arc donn de la crconfrence est proportionnelle la longueur de cet arc, la corde PoP est plus grande que le ct du triangle quilatral inscrit quand P se trouve sur rare P 1P2 donc la longueur est le 1/3 de celle de la circonfrence (cf. fig. lA) ; la probabilit est alors 1/3. Il est clair que ces trois hypothses de rpartition, sont galement ralisables. L'exemple parut paradoxal en son temps uniquement parce qu'on ne comprenait pas que des conditions exprimentales diffrentes pour le choix au hasard de la corde, dans les trois procds dcrits, conduisaient des mesures-probabilits diffrentes sur la mme algbre d'vnements.
1.4.1.3
La vision frquentiste
Elle repose sur la loi des grands nombres (voir chapitre 2). Une seule exprience ne suffisant pas pour valuer la probabilit d'un vnement on va rpter un trs grand nombre de fois l'exprience. Ainsi du lancer d'un d : la probabilit d'observer la [ace 6 est la limite du rapport:
-------=1
Nombre d'essais lorsque le nombre d'essais augmente indfiniment. En effet la loi des grands nombres assure que f converge vers )a probabi lit p de l'vnement. Du point de vue pratique il est clair que la vision frquentiste ne permet pas de trouver la probabilit d'un vnement puisqu'un tel processus ncessitant une infinit d'observations est physiquement irralisable: cela permet tout au plus de donner une dfinition de la probabi1it comme limite d'une frquence. Remarquons que dans la conception frquentiste il est impossible de donner une valeur et mme un sens la probabilit d'un vnement non rptable du genre ,< neigera-t-il le 25 octobre 2990) ; ce qui limite le champ d'application du calcul des probabilits. Cependant la critique la plus radicale du point de vue frquentiste eslla suivante: la dfinition de la probabilit repose sur la loi des grands nombres, or celle-ci est un thorme de probabilits qui suppose donc dfini le concept de probabi1it : il y a donc un cercle vicieux.
Nombre de 6 obtenus
1.4.2
la conception subjectiviste
Le point de vue classique tant trop limit, le frquentisme logiquement intenable, la probabilit d'un vnement sujette rvision en fonction d'infonnations nouvelles (thorme de Bayes), l'existence mme de probabilits objectives a t nie par beaucoup. C'est ainsi que le magistral Trait de Probabilits de de Finetti (1974) commence par l'afiirmation en lettres capitales <~ La Probabilit n'existe pas ) et continue par:
L'abandoll de croyances superstitieuses sur l'existence dll phlogistique, de l'thel; de l'espace et du temps absolu . .. Olt des fes, CI t Hne tape essentielle dans la pense scientifique. La probabilit, c01lsidre cOlllme qllelque chose ayant llne existence objectil'e est galement !lIle conceptioll errone el dangereuse, llne tentative d'extrioriser Olt de matrialiser 110S l'ritables conceptions probabilistes!
1.Le modle probabiliste
13
1.4.2.1
Mesure d'incertitude
La probabilit objective d'un vnement n'existe pas et n'esl donc pas une grandeur mesurable analogue la masse d'un corps, c'est simplement une mesure d'incertitude, pouvant varier avec les circonstances et l'observateur, donc subjective, la seule exigence tant qu'elle satisfasse aux axiomes du calcul des probabilits. Les tenants de l'cole subjectiviste proposent alors des mthodes permettant de passer d'une probabilit qualitative c'est--dire d'un simple pr-ordre sur les vnements. une mesure de probabilit. puisque la rptition n'est plus ncessaire on peut probabiliser des vnements non tables et tendre le domaine d'application du calcul des probabilits en particulier pour tout ce qui concerne les dcisions conomiques.
1.4.2.2
Le baysianisme
Un pas de plus va tre franchi par l'coh; baysienne (ou plus exactement nobaysienne vu les deux sicles de dcalage entre Bayes et ceux qui s'en rclament actuellement) qui va probabiliser tout ce qui est incertain et mme des phnomnes non alatoires. Pour 11ustrer la thorie baysienne modifions quelque peu l'exemple prcdent de la fabrication des boulons: supposons qu'il n'y ait plus qu'une machine et que l'on cherche estimer le pourcentage p de boulons dfectueux produit en moyenne par la machine: si l'on admet qu'il n'y a que trois valeurs possibles PI' p'}., P3 respectivement 1 % de probabilits a priori 1T), 1T,;!, 1Tj respectivement, la solution gales 0.3 %, 0.8 est inchange et la valeur la plus probable il posteriori est 0.008 (s r on tire un seul bouton dfectueux). Supposons qu'on tire maintenant Il boulons et que le nombre de boulons dfectueux soit k, la probabilit que le pourcentage de dfectueux produit par la machine soit P2 est alors:
On peut encore gnraliser et supposer que p prenne toutes les valeurs possibles dans l'intervalle rO, IJ. Si l'on connat la loi de probabilit de p sur [0, 1] et qu'elle admet une densitf(p) par rapport la mesure de Lebesgue, la fornlUle de Bayes s'crit:
P(p/II:)
= --:---------- p)"-kf(p) dp
()
(voir chapitre 3).
l,C~pk(1
C~pk( 1
- p)/J-kf(p)
A condition de connatre une distribution de probabilit li priori sur les valeurs de p, on peut donc en dduire les valeurs de p a posteriori les plus probables, donc estimer p. On aura remarqu que p n'est pas alatoire mais un paramtre the de valeur inconnue et que l'on a modlis notre incertitude sur ses valeurs, par une mesure de probabilit. Mais
14
comment choisir cette mesure a priori? on retombe sur la difticult signale plus haut et, si cette probabilit est subjective, quel statut scientifique donner une grandeur qU peut varier d'un observateur li l'autre? Telles sonlles critiques usuelles faites par les objectivistes. De plus on a montr qu'un ordre de probabilits donn n'induisait pas ncessairement une mesure de probabilit unique P sur fi, compatible avec la relation d'ordre. P n'existe pas forcment ou encore, si P existe, P n' est pas toujours unique. Nous arrterons l ces quelques remarques et sans prendre parti dans une querelle qui dure encore, rappelons que le modle probabiliste a prouv son efticacit dans de nombreuses applications mais que comme tout modle ce n'est qu'une reprsentation simplificatrice de la ralit el que ses hypothses doivent tre mises l'preuve des faits. Nous renvoyons Je lecteur intress par la philosophie des probabilits aux travaux de de Finetti (1974), Matalon (1967), Matheron (1978) et Savage (1954). cits en rfrences.
Variables alatoires
Dans ce chapitre, on tudiera uniquement les variables alatoires relles. Les variables qualitatives ou ordinales ( valeurs dans un ensemble quelconque ou muni d'une structure d'ordre) ne feront pas l'objet d'une tude thorique; on les trouvera voques dans les chapitres consacrs la statistique.
2.1
LOI DE PROBABILIT ET MOMENTS D'UNE VARIABLE ALATOIRE RELLE Dfinition et fonction de rpartition
Gnralits
2.1.1
2. 1.1. 1
Le concept de variable alatoire formalise la notion de grandeur variant selon le rsultat d'une exprience alatoire. Considrons le lancer de deux ds parfaitement quilibrs: cette exprience se traduit par l'ensemble de tous les couples de chiffres de 1 6 :
n = 1(l, 1) ; (l, 2) ; ... ; (6, 6) 1

muni de la loi de probabilit P telle que P(w)
= 3~' Vw E n.
Intressons-nous la somme des points marqus par les deux ds. On dfinit ainsi une application S de !1 dans l'ensemble E = {2, 3, ... , 121 (fig. 2.1).
g-y;_S(_W)-------l
il
FIGURE
2.1
16
2aVariabies alatoires
Pour obtenir la probabilit d'une valeur quelconque de S, il suffit de dnombrer les w qui ralisent cette valeur. Ainsi:
P(S
5)
= P({(l,4)(2, 3)(3, 2)(4,
l)})
4 36
et gnralement P(S
s)
P( fS - I(S)}).
On voit que, pour dfinir la loi de probabilit sur S, on transporte la loi de probabilit de
n sur E par l'application S.

Si X est une application d'un ensemble probabilis (0, ((5, P) dans E, il faut donc que
E soit probabilisable, c'est--dire muni d'un tribu ,0/ et que rimage rciproque de tout lment de ET soit un vnement, c'est--dire un lment de ((5. On reconnat ici la dfinition mathmatique de la mesurabilit d'une foncton. Une variable alatore X est donc une application mesurable de (0,
(e, P) dans CE,
ET).
Lorsque E = IR':, on utilise comme tribu la a-algbre engendre par les intervalles de tRi. ; c'est la plus petite (autrement dit l'intersection de toutes les cr-algbres) contenant les intervalles. Cette tribu est appele tribu borlienne et est note !?A.
DFINITION 1
Une variable alatoire relle est une application Inesurable de (n, ((5, P) dans tRi. 1I11l1zi de sa tribu borlienne (tRi., g'j).
Pour tout borlien B, on dfinit Px(B) par:

PiE)
= P{ {wIX(w) E = P([X-I(E)])
B})
ceci dfinit une probabilit sur (tRi., f1J) d'o la :

DFINITION
011 appelle loi de probabilit de X la mesure image de P pllr X et on la note Px.
Pour une variable discrte, c'est--dire une variable ne pouvant prendre qu'un nombre fini (ou dnombrable) de valeurs x" X2' . , XII' la loi Px est constitue de masses ponctuelles. Px peut alors tre reprsente par un diagramme en btons. Ainsi, pour l'exemple du lancer de deux ds, on a la figure 2.2.
2.1.1.2
Fonction de rpartition
La fonction de rpartition d'une variable alatoire X est l'application F de tRi. dans [0, 1] dfinie par :
1
F(x) = P(X
<
x)
2/1111111Variables alatoires
17
6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36
1
7
FIGURE
10
11
12
2.2
PROPRITS
(sans dmonstration)
F est une fonction monotone croissante continue gauche. En tant que fonction monotone, elle admet un nombre de points de discontinuit au plus dnombrable. Rciproquement, toute fonction monotone croissante continue gauche telle que F( -,:r.;) = 0 et F( +y:,) = 1 dfinit une loi de probabilit unique sur IR.
Un exemple de fonction de rpartition correspondant une variable discrte (celle de S dfinie prcdemment) est donn par la figure 2.3.
F(x)
10
11
12
FIGURE
2.3
La figure 2.4 est un exemple de fonction de rpartition correspondant une variable continue (voir plus loin). L'importance pratique de la fonction de rpartition est qu'elle permet de calculer la probabilit de tout intervalle de IR :
IP(a::::; X< b)
F(/;) - F(l7) 1
18
2aVariables alatores
_______ J _________________________ _
F(x)
o
FIGURE
2.4
2.1.1.3
Varables continues
La notion de variable continue, ou plus exactement absolument continue, se confond avec celle de variable admettant une densit de probabilit.
DFINITION
Une loi de probabilit Px admet ulle densit fsi, pour tOtit intervalle / de
Px(l)
= If(X) dx = li 1(x)f(x) dx
1
lit Oll a :
P-
(li 1 est la fonction indicatrice de 1).
F est alors drivable et admetfpour drive. On a donc:
P( a
< X < b)
l
a
f(x) dx
F(b) - F(a)
(fig. 2.5)
f(x)
b
FIGURE
x
2.5
Une densitfest donc une fonction positive d'jntgrale gale 1 :
1
li,
1(X) dx =
2.Variables alatoires
19
On remarque que pour une variable densil :

P(X
= x) =
'\Ix
et on peut crire:
." + dx)
>
x)
Exemple: La variable X, dont la loi est dfinie par P(X
= exp( -
.x) pour tout
x positif, admet pour densit:

j'ex)
j(x)
= . exp( 0
.x)
si x ;;::: 0 si x
<0
(fig. 2.6)
f(x)
x
FIGURE
2.6
Elle est utilise couramment pour reprsenter la dure de vie de phnomnes sans velIis_ sement (comme les composants lectroniques).
2.1.1.4
Taux instantan de dfaillance
Si X est une variable contnue positive reprsentant une dure, on dfinit la fonction suivante:
Il . (x) -
j(x)
1 - F(x)
appeles selon les domaines d'application : ~< taux instantan de dfaillance , fonction de hasard ) ou encore quotient de mortalits ). Pour une dure de vie X, h(x) s'interprte comme la probabilit de dcs immdiatement aprs x, sachant que l'on a vcu jusqu' x. En effet, pour dx infiniment petit:
P(x
< X < x + dx/X > x)
j(x) dx 1 - F(x)
l1(x) dx.
F(x) est appele fonction de survie.
20
2_Variables alatoires
lI(x) caractrise la loi de X car on peut retrouver F(x) partir de h(x) : lI(x)
d --ln(1 - F(x
dx
F(x)
= 1-
exp( -lxlz(t)dt)
Une fonction 17(x) croissante est caractristique d'un phnomne de vieillissement. Si h(x) = c, il y a absence de vieillissement, le dcs est d des causes alatoires externes: X suit alors la loi exponentielle F(x) = 1 - exp( -ex), qui sera tudie plus loin.
2.1.2
loi d'une fonction d'une variable alatoire Y = <p(X)
On supposera X continue avec une densit f et une fonction de rpartition F. 'P sera suppos drivable. On recherche 9 et G densit et fonction de rpartition de Y.
2.1.2.1
cp bijective
'P est donc monotone. Si 'P est croissante, on a F(x)
= G('P(x)) car X < -y ~ y < 'P(x) d'o:

(fig. 2.7a)
y= <p(x)
(p-l(X)
x
x
(a)
FIGURE
(b)
2.7a
f['P - le)')] g(y)
FIGURE
2.7b
ou encore: Si 'P est dcroissante X
'P 'P
1[
-'(1')1 .'
<x
y> 'P(.-r), d'o:

(fig. 2.7b)
.,..;...,V!lr'i:\l:lleS alatoires
21
et en drivant: puisque 'P est dcroissante. bijective 'fl quelconque:

/'p'
g(y)
'fl'(X)
< 0, et on a la formule gnrale pour une application

f(x)
1<p'(x)1
g(y)
_ Exemple:
y = exp(X)
g(y)
et
X= ln Y
y
f(x)
exp(x)
2.1.2.2
<fi quelconque
Le principe consiste toujours identifier la fonction de rpartition G(y) en recherchant
r antcdent pOUf X de l'vnement Y < Y = <p(x).

Par exemple, si Y = X avec X dfini sur ~ : pey
2
1 G()!)
<
y) = P( -~
< X < + ~) :
F(~)
F(-~) 1
g(y) =
, 1 . 1 j(f;,) + f(-{y)-
2-vy
21Y
g(y) =
1 21; C{cf;,) + l( -1Y))
'} en partlcu '1er 9 () = 1(1Y). f' est une f"onctlOn pmre. y ~ SI.
'Jy
2.1.3
Indpendance de deux variables alatoires
Soient X et Y deux varables alatoires relles dfinies sur le mme espace probabilis. Le couple (X, Y) esl donc une applicaton mesurable de (n, cg, P) dans ~2 mun de sa tribu borlienne.
DFINITION
x eT Y sont lldpelldcl1ltes si, pour tout couple de borliens Bi et Bi'

P(X E Bi)
ml Cl :
n CY E
B)) = P(X E B,)P(Y E B)
22
2aVariables alatoires
En d'autres termes, la loi de probabilit p.n du couple (X, Y) n'est autre que la loi produit que l'on note:
COROLLAIRE
X el Y sont indpendantes si et seulement si la fonction de rpartition du couple (X, Y) dfinie par H(x, y) = P(X < x n y < y) est gale au produit des fonctions de rpartition respectives de X et de Y, appeles fonctions de rpartition marginales:
1
H(x, y) = F(.\") GCy) 1
Si X et Y admettent des densits f(x) et g(y), alors le couple (X, Y) admet pour densit f(x)g(y). Dans ce cas, la rciproque est galement vraie.
2.1.4
Moments d'une variable alatoire
Une loi de probabilit peut tre caractrise par certaines valeurs typiques associes aux notions de valeur centrale, de dispersion et de forme de la distribution.
2.' .4.'
L'esprance mathmatique
Pour une variable discrte, on dfinit l'esprance E(X) par la formule:
E(X) = LXjP(X =
j
xJ
(si cette expression a un sens). ECX) est la moyenne arithmtique des diffrentes valeurs de X pondres par leurs probabilits. Pour une variable continue admettant une densit, E(X) est la valeur, si l'intgrale converge, de (xf(x) dx.
J~
Ces deux expressions ne sont en fait que des cas particuliers de la dfinition gnrale suivante:
DFINITION
X tallt une l'ariable alatoire relle dfinie sur (n, ((5, P), l'esprance l11t.1thmatique de X est, si elle existe, l'intgrale de X par rapport il la mesure P .'
E(X) = ( XdP
Jn
D'aprs le thorme de la mesure image, on a:
E(X)
Lx
dPx(x)
23
nexiste une densit l(x) : dPx(x)
d'o, en particulier si Px est absolument continue par rapport la mesure de Lebesgue de IR, = l(x) dx et alors on retrouve:
E(X)
J~
(xf(x) dx
Il faut prendre garde au fait que l'esprance mathmatique n'existe pas toujours. Ainsi, la variable X ayant pour densit sur IR :
J(x)
= 'jj( 1 + x 2 )
(loi de Cauchy)
n'a pas d'esprance car l'intgrale
+x
-:>0
'jj(J
+ x-)
"1
dx diverge.
Les proprits lmentaires de l'esprance mathmatique sont celles des ." ...'6 ........ " et se dduisent de la linarit. Si il est une constante:
E(a) E(aX)
=(1
= aE(X)
= E(X)
E(X
+ a)
+ il
La plus importante proprit est l'additivit: l'esprance d'une somme de variables alatoires (qu'elles soient ou non indpendantes) est gale la somme de leurs esprances:
A. Esprance d'une fonction <p(X) d'une variable alatoire
Par dfinition, EI:<p(X).I =
(CPoX) dP si cette expression a un sens.
En utilisant nouveau le thorme de la mesure image, on a:
E('f'(X)) =
'f'(x) dPx(x)
Ce rsultat trs important est d'un emploi courant et permet de calculer l'esprance d'une variable <p(X) sans avoir dterminer la loi de tp(\x.
B. Ingalit de Jensen
Si <p est une fonction convexe, on peut montrer, si les esprances existent, que:
IE(tp(X)) 2: <p(E(X))
1
On en dduit en particulier:
E(jxl) 2:= IE(X)I

E(X'l) 2: (E(X)fE(exp(X)) 2: exp(E(X))
24
2_Variables alatores
C. Esprance d'un produit

Si X et Y sont deux variables alatoires de loi conjointe P,\T' on a, si }' expression a un sens:
E(XY)
Lx.\' dPXY(x, y)
Lorsque X et Y sont indpendants, dP,n,(x, y) factorise:

E(XY)
= dPx(x) (9 dP),(y) et l'intgrale double se
Lx dPx(x) Ly dP,.(y)
d'o:
X et Y indpendants ~ E(XY)
E(X)E(Y)
Attention: La rciproque est fausse et E(X)E(Y) l'indpendance de X et Y.
= E(XY)
n'entrane pas en gnral
D. Une interprtation statistique

Reprenons l'exemple du lancer de deux ds. Par raison de symtrie, E(S) = 7. Supposons qu'on lance Il fois les deux ds et que les ralisations successives de S soient SI' .\'2' ... , .'l'I' Formons la moyenne
s = ~ 2:s; de ces rsultats.

n
On montre alors que si Il ~ 00, s ~ 7 en un sens qui sera prcis plus tard (loi des grands nombres, voir paragr. 2.7 et chapitre 12).
E. Esprance et fonction de rpartition

Sous rserve de convergence de l'intgrale, on a pour une variable positive le rsultat suivant:
E(X)
Jo
(x(1-F(XdX
En effet, en intgrant par parties: l""O-F(X) dx o crochet est nul si l'intgrale converge.
[(1 - F(x))x(
+ lXXf(X) dx, et le
0
0.6
~~~~""';"';';~~~-----+----+----I
0.4 -fmiWJ~~WI-+---j---I---~ 0.2

~~~mf.~t----I----t----+----j
0.5
FIGURE
1.5
2.5
2.8
2.Variables alacores
25
L'esprance d'une variable positive s'interprte donc comme raire situe entre l'horizontale y = 1 et la fonction de rpartition. La tigure 2.8 correspond la fonction de rpartition d'une loi log-normale d'esprance 1 et d'cart-type DA.
2.1.4.2
La variance
On appelle variance de X note V(X) ou rr:! la quantit dfinie par:
III
= E(X).
rr s'appelle l'cart-type de X.
La variance est donc le moment centr d'ordre 2 de la distribution et est une mesure de lu dispersion de X autour de m.
Proprits de la variance
Comme E((X - a):!) = V(X) + (E(X) - af (formule de Konig-Huyghens) on en dduit que V(X) est la valeur minimale de E((X - af) quand a varie. On en dduit la formule classique
Par ailleurs :
V(X -a) V(aX)
V(X) rr(aX) =
a2 V(X)
et
=
Cl
lai rr(X)
V(X) = 0
<=> X
(presque srement)
L'esprance et l'cart-type sont relis par l'ingalit de Bienaym-Tchebyshev :

1
p(lx -
E(X)I > krr)
1
:':S -::;
k-
_ Dmonstration
car on restreint le domaine d'intgration d'une fonction positive. En minorant (x ,on a:
111)2
par
(x -
mf dPx(x) >
m]
k 2rr:!
j'"
IX-m!>J.cT
dPx(x)
IX-ml>kcr
Celte dernire intgrale vaut P(]X
>
krr). ce qui tablit la proprit.
26
Cette ingalit, dont l'intrt thorique vient de ce qu'eHe est valable quelle que soit la 10' de X, n'a que peu d'applications pratiques, car la majoration qu'elle fournit est la plupart d temps excessive. Ainsi pour une loi normale, pclx - ECX)I > 20') = 0.05 alors qu l'ingalit de Bienaym-Tchebyshev donne 0.25 comme majorant. Remarquons, de plus, que l'ingalit est inutilisable pour k.:5 1.
Variance d'une somme de variables alatoires

V(X
+ Y) = E[(X +
= E(X!)
y)2] - (ECX)
+ E(Y)f!
E(X)! - E(y)2 - 2E(X)E(Y) - E(X)E(Y))
+ E(Y!) + 2E(XY) + V(Y) + 2(E(XY)

E(XY) - E(X)E(Y)
V(X)
On appelle covariance de X et Y la quantit: cov(X, Y) donc:

l
EX - E(X(Y - E(Y)
"(X
Y) = V(X) -1- VO')
+ 2 cov(X,
V(X)
Y)
En particulier:
X et Y :=;. V(X indpendantes
Y)
Vey)
mais la rciproque est ici encore inexacte en gnral.
Variance dtun produit de deux variables indpendantes

Un calcul lmentaire montre que:
1
V(XY) = V(X)V(Y)
+ V(X)(E(l')f + V(Y)(E(X21
Approximations de l'esprance et de la variance d1une fonction (j)(X)

Un dveloppement limit l'ordre 2 au voisinage de l'esprance m de X donne:
tp(x) - c.p(m) = (x - m)c.p/(m)
+ -
Cr 2
m)2
tpl/(m)
En prenant l'esprance :
E(tp(X - c.p(m) = E (
X-
m)2) tpl/(m)
Il
soit :
E(c.pCX) = c.p(m)
1 + "2 V(X)c.p
(m)
En levant au carr tp(X) - c.p(m) et en prenant l'esprance, on trouve galement [Lejeune, 2004.1 :
\ V(tp(X)) = (tp'(m)fV(X)
1
27
Autres moments
dfinit, si ils existent, les moments centrs d'ordre k :
1/-11;
= E[(X
- Ill)!;] 1
.,,.'n""11 ",[-'_
a videmment /-11 = 0 et /-1:.'. on a /-1::!k +] = 0 'tj k.
V(X). Si la distribution de la variable alatoire est sym-
Les moments /-13 et /-1-1 sont utiliss pour caractriser la forme de distribution. pour obtenir des quantits sans dimension, on utilise les coefficients d'asymtrie et
aol.atlSSf~m~~m 1'1 et 1'2 (en anglais ske~vl/ess et klirtoss) :
La figure 2.9 donne quelques allures typiques de courbes de densit correspondant certaines valeurs de l' 1 et "t::.. On remarquera que "t2 est toujours suprieur 1 car l'ingalit classique entre moyennes d'ordre p entrane (/-1.1)1/-1 > (/-12)]/::! => /-1.1. > (/-12):.'.'
De plus, on a toujours 1'2 :2: 1 + ("tIf. Plus que \' aplatissement, le coefficient 1'2 mesure l'importance des queues de distribution.
Lo de Gauss
Loi uniforme
FIGURE
u
2.9
Loi en
28
211111111Variables alatoires
Ingalit de Markov: En utilisant la mme mthode que pour l'ingalit de BienaymTchebyshev, on montre que:
PCIXI) > E) ::s -~ ,,E
E(X k )
2.1.4.4
Ordres stochastiques
Les concepts de dominance stochastique sont utiliss dans diffrents domaines, en particulier en fiabilit pour comparer des fonctions de survie, et en thorie de la dcision pour comparer des risques.
A. Dominance stochastique d'ordre

On dit que X domine stochastiquement Y si la fonction de survie de X est suprieure celle de Y:
P(X> c)
2.:
PO' >
c) pour tout c
ce qui revient dire que la fonction de rpartition de X est toujours infrieure celle de Y.
0.8 0.6 004 0.2 0
-3
-2
-1
FIGURE
0
2.10
THORME (ADMIS)
POlir que X dOlnlle stochastiquemellt Y, il/aul el il sl(lfit que E(f(X)) toute fonction f croissante.
2.:
2:
E(.f( r)) pour
On en dduit que la dominance stochastique de X sur Yentraine E(X)
E(Y).
On peut montrer (exercice faire ... ) la proprit suivante: si la fonction de hasard (ou taux de dfaillance) de X est partout infrieure celle de Y, alors X domine stochastiquement Y. C'est par exemple le cas de la dure de vie des femmes en France qui domine celle des hommes: non seulement l'esprance de vie des femmes est plus leve que celle des hommes, mais galement la probabilit de survie tout ge.
.. _.\1..
'''I~rlle!>
alatoires
29
B. Dominance stochastique d'ordre 2

La dominance d'ordre 1 implique que les fonctions de rpartition de X et Y ne peuvent se croiser. Une forme plus faible de dominance, qui autorise les croisements, est dfinie comme suit:
DFINITION
x domille stoclwstiqltenu?Ilt Y cl l'ordre 2 si leursfollctions de rpartitioll sont telles que:
f~F(X) dx :s: ~G(x) dx
pour lOtit c.
L'ingalit porte cette fois sur les intgrales des fonctions de rpartition. La dominance stochastique d'ordre 1 entrane celle d'ordre 2.
-6
-4
-2
FIGURE
o
2.1 1
Cette forme de dominance est utilise en thorie du risque pour des variables positives reprsentant des gains alatoires. Supposons de plus que X et Yont mme esprance: alors les aires hachures sur la figure prcdente sont gales. On voit intuitivement que la rpartition de X est moins disperse que celle de Y. Un individu qui a de l'aversion pour le risque prferera donc X Y. La dominance stochastique d'ordre 2 implique V(X) < V(Y) mais est plus gnrale (la rciproque est fausse). On montre que si X domine Y, Ya la mme distribution que X + e o e est une variable telle que E(ejX) O. Intuitivement, Y est plus alatoire ) que X. Le thorme du paragraphe prcdent est alors modifi comme suit [Rothschild et Stiglitz, 1970] :
THORME
POlir que X domine stochastiqueme11t Y li l'ordre 2, iljut et il sl~ttl que E(f(X)) pOlir tOtltefol1ctionfcmissame concove.
E(f( Y))
30
2.2
LOIS DE PROBABILIT DISCRTES D'USAGE COURANT Loi discrte uniforme
2.2.1
x = {l, 2, 3, ... , Il)

P(X
1)
P(X = 2)
= ... =
P(X
11)
(fig. 2.12)
P(X = k) =Il
~f 1 1 1 .. 1
1 2 3
FIGURE
2.12
E(X) = - -
Il
+
2
par symtrie
11
E(X) = - (1
11
+ 2 + ... + 11)
+1
2
., 1 E( X -) = - (1
11
+ 4 + 9 + ... + +
1)(211
lZ-)
.,
E(X-) = - - - - - 11
.,
1 11(11
1)
d'o: V(X) V(X)
(Il
+
+ 1
1)(211 6
1)
(11
3(11
+
4
1)2
= --(4n + 2 12
V(X) = - n:' -
11
1))
soit:
12
2.2.2
loi de Bernoulli de paramtre
C'est la loi d'une variable X ne pouvant prendre que les deux valeurs l ou 0 avec le~ probabilits pet 1 p ; X est la fonction indicatrice d'un vnement A de probabilit p :
Comme X 2
X, E(X2)
= p, d'o:
1
V(X)
= p(l
- p)
'"J_.V~"I:Hm::;.
alatoires
31
loi binomiale
A. Principe
!:JJ(n ; p)
Supposons que l'on repte 11 fois dans des conditions identiques une exprience alatoire, dont l'issue se traduit par l'apparition ou la non-apparition d'un vnement A de probabilit P~ le rsultat de chaque exprience tant indpendant des rsultats prcdents. Soit X nombre d'apparitions de l'vnement A parmi ces 11 expriences (0 X:5 Tl). On dit alors que X suit une loi binomiale de paramtres Il et P note ~ p). Comme chaque exprience numrote iCi = l, 2, .. " 11), on peut associer une variable de Bernoulli Xj de paramtre p, on a: X
LXi d'o la deuxime dfinition de la loi binomiale: X suit une

i=1
Il
loi binomiale @(1l ; p) si X est une somme de 11 variables de Bernoulli indpendantes et de mme paramtre p. De cette dfinition, dcoulent l'esprance et la variance de X . ......".hE(X) = 2:E(Xi ), donc: E(X) = HP V(X) = 2: V(Xi ) car les Xi sont indpendants; donc:
1 1
B. Loi de probabilit
Ann de chercher l'expression de P(X 11.), remarquons que toutes les configurations, telles que k variables Xi prennent la valeur 1 el 11 - le la valeur 0, sont quiprobables et qu'il Y a C~ configurations de cette sorte (nombre de manires de choisir k Xi parmi n). D'autre part:
P(X,
XI
Il
n ... n )(" = x/J) = Il P(X = xJ

i
;=1
II pX{l
1=1
Il
p)l-xi
car les Xi sont indpendants :
Comme
LXi
= le,
on trouve:
Cette formule justifie le nom de la loi binomiale car les P(X = k) sont les termes du p))rt selon la formule du binme de Newton (on vrifie au dveloppement de (p + (1
k=/J
passage que
L P(X
k) = 1).
1;=0
La fgure 2.13 reprsente quelques diagrammes en btons correspondant diverses valeurs de Il et p. On notera que la distribution est symtrique si p = 1/2 et le devient approximativement sinon, ds que Il est assez lev.
32
2.Yariables alatoires:
0.4
0.3
0.1
n= 0.5 p= 0.1
0.6 0.5
0.4
0.2
n=10 p= 0.05
0.3
o
0.4
0.2
1 2 3 4 5 0.1 x
n = 10
p= 0.1
1 2
4 5
0.3
0.2 0.1 0123456

x
1
n= 10 p=0.2
x
j
~~lll
o
1
n=20 p= 0.1
01234567
n= 10 p=0.5
234
1 5 6
~
789
n= 50
0.3\
~:~ il--~f-l-I-+1-+-1
2 3 4 5
~:~
f - l - - - + - -
1 -t--+--+-I I--t--+--+I 1--+--1 x 23456789
-+-I-P=f--0-f-';-11-1--1 X
6 7 8 9 10
FIGURE
2.13
Un rsultat utile pour l'utilisation des tables: si X suit une loi binomiale fYJ(n ; p), suit alors une loi binomiale i1J(n ; 1 - p).
JI -
Pour 11 grand, on verra plus loin que la loi binomiale peut tre approxime soit par une loi de Poisson (si p est petit) soit par une loi de Gauss.
}J
La somme de deux variables alatoires binomiales indpendantes et de mme paramtre est une variable alatoire binomiale:
_ Dmonstration
XI : somme de ni variables de Bernoulli; X2 : somme de 112 variables de Bernoulli.
.:::':':"'\J~rllaDII::::'
alatoires
33
x + X"
1
somme de Il, + variables de Bernoulli est bien une variable binomiale oal la somme des effectifs. _ o
"2
ConC1lltla'n ncessaire et suffisante: XI et X2 doivent tre indpendantes.
Loi de Poisson 9P()

C'est la loi d'une variable alatoire entire positive ou nulle qui satisfait :
On peut vrifier toul d'abord qu'il s'agt bien d'une loi de probabilit:
LP(X
x=O
= x)
exp( -
:;-: x.. x.) L -
.r=O _or!
= exp( - ) exp(X.)
la figure 2.12, quelques diagrammes en btons correspondent diverses valeurs de X. :
0.6 0.5
DA
OA
x. = 0.5
0.3
x. = 1.0
0.3
X.
1.5
DA
0.3
0.2 0.1
0.2 0.1
0.2 0.1
o
o
5
10
0.4
10
10
OA
0.3
x. = 2.0
0.3
x. =3.0
X. = 5.0 0.3~ 0.2

0.1
(g) 0
0.2 0.1
0.2 0.1
10
10
0.31
o
0.2
10
x.::::: 10.0
1-1.....1-
0.1
~!
!
4---L--Ll
1 1-I....I....J1111-J-I-11.I.-J.....I./ 1 ,
1
5
FIGURE
10
15
2.14
Le paramtre X. reprsente la fois l'esprance et la variance de X.
34
On obtient la loi de Poisson comme approximation de la loi binomiale dans le schma: suivant: Soit un vnement A de probabilit p trs faible (en pratique p < 0.1) que l'on essaie' d'obtenir quelques fois en rptant l'exprience un grand nombre de fois (en pratique Il > 50). Le nombre de ralisations de A suit une loi binomiale @(n ; p) telle qu'en pratique: .
@(1l,
p) - r!J(np)
c'est--dire :
Nous allons, en fait, tablir ce rsultat sous la forme mathmatique suivante:

THORME
Soit X'I une sllite de variables binomiales @(n, p) telles que Il~ ,7Jj et p ~ 0 de manire' li ce qlle le pmdllit I1P te1lde l'ers une limite finie k. Alors la suite de variables alatoires XII converge en loi l'ers une variable de POsson fJJ(k).
Les notions de convergence seront tudies en dtail au paragraphe 2.7.
_ Dmonstration
(pl1Y -- ( 1 - -
xl
1)( 1 - -2) ... (1 - -- -l) x

Il Il
(l - PYI-X
11
Faisons tendre Il -
".
Tous les tennes (1 -
!;) ... (1 - x :
~
1) tendent vers l, leur
produit tend vers l car ils sont en nombre fini. Dcomposons (l - p)/I-X en (l
pyl(l - p)-X
(1 - p) -x ~ 1 car p
Quant (1 -
O.
pt -
k)lI (1 -;; il tend vers exp( - ) donc:

C~pX(1_p)"-X~
11/1 ( -= .t.
)Xexp(-)
c.q.f.d.
La suite des esprances des binomiales Xli : E(X/!) = IIp converge vers :
35
E(X) =
x=()
2: exp( -) x.1
,I'
le premier terme est nul:
exp(-) exp() = Ln suite des variances des binomiales X,,: V(XII ) = np(l
p) tend aussi vers car
np ~
p~
o.
Montrons que '--_ _---'
_ Dmonstration
V(X) = E(X:!)
0:;
[E(X)f = E(X:!) - :!
X
~
E(X:!) = .Lx2exp(-)- = .Lxexp(-)-x == () x!,~ = 1 (x - 1) !
avec x = x - 1
+ l, il vient:
E(X:!) =
2.: exp ( x=2
(x -
2)!
2.: exp ( x=1
) - (x -
1)!
E(X'!.) = :2 exp (-)exp()
exp(-)exp()
donc V(X) Donc (J'
= :2 + = {i;..
::'
On verra plus loin que la somme de deux variables de Poisson indpendantes est encore une variable de Poisson. Lorsque est grand, on verra que la loi de Poisson peut tre approxime par la loi de Gauss. La loi de Poisson s'obtient aussi comme loi exacte du nombre d'vnements survenant pendant une priode donne, sous certaines conditions (voir plus loin le paragraphe consacr au processus de Poisson).
- Exemples d'application de la loi de Poisson: loi du nombre de suicides par an dans un pays donn;
loi du nombre d'appels tlphoniques pendant un intervalle de temps T; loi du nombre de pices dfectueuses dans une livraison importante, la production tant de bonne qualit; etc.
..
'~~
\)
36
2aVariables a'atoireiil
2.2.5
loi hypergomtrique Zle(N, n, p) ou du tirage exhaustif
Soit une population de N individus parmi lesquels une proportion p (donc Np individus)! possde un certain caractre. On prlve un chantillon de Il individus parmi cette populaL; tion (le tirage pouvant s'effectuer d'un seul coup ou au fur et mesure mais sans remise).": Soit X le nombre alatoire d'individus de l'chantillon possdant la proprit envisage.'; X suit la loi hypergomtrique et l'on a :
min X = max (0 ; n - Nq) ;
max X = min (n ; Np) ;

nombre d'chantillons possibles; C Np
C,/=:~vp
nombre de groupes de x individus possdant la proprit; nombre de groupes de (n - x) individus ne possdant pas la proprit.
Le nombre
nI N est appel taux de sondage.

,
On peut considrer X comme une somme de 11 variables de Bernoulli XI' X 2, indpendantes correspondant aux tirages successifs de 11 individus. On sait que E(X I )
XII nan
Nous allons montrer que ces variables Xi ont toutes le mme paramtre gal p.
= P(X1 = 1) et il est vident que P(X 1 = 1) = p.

1). Comme Xl et XI sont lis, on a :
Cherchons E(X1 ) = P(X}
P(X1 = 1)
soit:
= P(X2 = 11x I =
1)P(X 1
= 1) + P(X'!, = 1lx)
+N
= O)P(X)
= 0)
Np-I P(X 2 = 1) = N _ 1 P
Np _ 1 ( 1 - p) p
(N -
Np:' - P
+ Np
- Np!
1)
N- 1
N-}
=p
2.1.5.1
Esprance de l'hypergomtrique
L'esprance ne dpend pas de N et est la mme que dans le cas du tirage avec remise (loi binomiale).
2.2.5.2
Varance de l'hypergomtrique
Comme il n'y a pas indpendance:
V(X)
= 2: V(X i ) + 2 2:cov(X"
i~
Xj ) = 2:V(Xi )
+ 2:cov(X;, X)
i~
,V:lr'iaDI,es
alatoires
37
2:V(Xj ) vaut I1p(1 - p) (terme binomial).

cov(Xi> X) = E(XiXj )
P(XiXj
1)
p2 = P(XiX}
P(Xj =
!lxi =
1)P(Xr = 1) = P('X.i
= 1) - p2 llxi = 1)]1
ne
dpend pas des indices i
et j
et vaut par exemple
N-I
cov(X, X)
l'
=P
Np - 1 ., - pN 1
Comme il Y a n(n - 1) manires de prendre des couples (Xi et X), il vient:

V(X) = np(l
p)
+ lI(n
Np 1 ,] 1) p - p[ N-I
V(X) =
8"
pl.
P (j - pli
Tendance vers la loi binomiale

Si N -'l> co, 'J(N,
11,
p) tend vers r?lJ(1l,
_ Dmonstration
C;VI'C;v--'tv1'
CN
Np! (Np - x)!x!

(Il
(NO
Nq!
p))!
Il
n!(N - 11)!
x)!(N - Np -
+ x)!
N!
= cx_-- --~-- - - (Np - x)! (Nq - Il + x)! N!

/1
(N - n)!
avec q
= 1-
p.
Np! 1 2 3 ----'-- = = Np(Np - 1) ... (Np - x 12 3 ... (Np - x) (Np - x)1
+ 1)
Si N est grand, Np
Donc:
1 ~ Np
2 ...
(Np - x
+ 1) -
Np car x est ngligeable devant Np.
Np!
(Np - x)! - (Nq)/I-X
- (Npy
De mme:
(Nq -
11
+ x)!
CX
/1
et
N! ----Nil
(N - Il)!
donc:
cx
Np
cn-x ~ NI[
(N )X("A' )'J-.t
lVq
C;!.;
Nil
c.q.f.d.
En pratique, ce rsultat s'applique ds que Il/N < 10 c'est--dire ds que la population est 10 fois plus grande que l'chantillon, ce qui arrive frquemment en sondages.
38
2_Variables
Un chantillon de 2000 individus conviendra donc aussi bien pour faire un sondage une vlle de 200000 habitants que dans une ville de 2 millions d'habitants.
2.2.6
lois gomtrique, de Pascal, binomiale ngative
La la; gomtrique est la loi du nombre d'essais ncessaires pour faire apparatre vnement de probabilit p :
P(X
= x) =
p(1 - py-I
= 1,2, ... ,00

p'2
En posant q = [ - p, on trouve aisment:

E(X) = -
V(X)
= p~
YI
2q
Y1
= 9 +q
La loi de Pascal d'ordre Il est la loi du nombre d'essais ncessaires pour observer Il fois un vnement A de probabilit p. L'exprience devant se terminer par A, on a: pour x
= Il, Tl +
1, .. "
00
Cette loi est la somme de nlois gomtriques indpendantes (apparition de A pour la premire fois, puis pour la deuxime fois, etc.), on a:
E(X) = Il
V(X) =-:;-
nq
p-
2 P YI=--
Y'2= 3 + - - nq
p2
+ 6q
La loi binomiale ngative est la loi de Y = X -
Il :
= y) = C:~:;.~'_I pllqY Son nom vient du fait suivant: en posant Q = IIp, P = (l

pey
terme gnral du dveloppement de (Q - P)-Il d'o:
E(X) = IlP Vey) = IlPQ
- p)lp, on a:
YI
P+Q ,JllPQ
y., -
= 3 +--nPQ
+ 6PQ
que ron comparera aux moments de la binomiale fY1(I1, p).
2. 3 2.3.1
DISTRIBUTIONS CONTINUES USUELLES Loi uniforme sur [0, al

1 = - sur [0, a] ; a
Sa densit est:
J(x) J(x)
= 0 ailleurs ~
~\I..,r.j::.nle5
alatoires
39
= :.... sur [0, a] ;
= 0 sur [--::c, 0] ; F(x)
l sur [a, +:0] (voir fig. 2.13).
{(X).
FIGURE
R~)z
a
2.15
Son esprance vaut E(X)
= '2 car la densit est symtrique.
Sa variance vaut V(X) =
I
()
II
xl -
dx - a 4
al
= -.
12
a2
La somme de deux IOs unformes n'est pas une loi unifonne. Ainsi, soit X et Y deux variables uniformes sur [0, a] ; leur somme Z, si elles sont indpendantes, est une variable de densit triangulaire (fig. 2.16).
a
FIGURE
2a
2.16
2.3.2
loi exponentielle de paramtre
Sa densit estfC-x)
= exp( -
X)
six> O.
On trouve sans difficult:
En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits lectroniques. L'esprance l/ est souvent appele le MTBF (NJean Time Betweell Failllre) et le
'f ' t aux de de 'aI11 ance car 1 z(x) =
f(x)
1 - F(x)
et est constant.
40
2 . .Variables alatoires
2.3.3
lois gamma
La loi exponentielle est un cas particulier d'une famille de lois appels lois 'Y. Prcisment, si X est une loi exponentielle de paramtre x., X.X est une variable suivant une loi "YI' On dit qu'une variable alatoire positive X suit une loi gamma de paramtre r, note 'Yr si sa densit est donne par:
f(x)
= -f(-r) ex4P(-X) x
... 1
-'
Il s'agit bien d'une densit carf(x) est> 0 et
Jo
r~f(x) dx =
1 par dfinition de fer). Les
lois "Ir avec rentier> 1 sont aussi connues sous le nom de lois d'Erlang.
2.3.3.1
EsPrance
1
E(X)
= ri
f(r + 1) fer)
En effet:
E(X)
-1 L:Oxr exp( -x) dt -
fer) ()
=1'
2.3.3.2
Variance
En effet:
V(X)
E(X -) - [E(X)]-
.,
.,
= - 1 LOC
fer)
x
exp(-x) dx -
1'2
soit :
V(X) =
f(r + 2) ... - r"" = (r I (r)

1
+ 1)., 1) - - - - r- = r(r
fer)
1) - r-
.,
Cette loi prsente donc une certaine analogie avec la loi de Poisson mais en continu. Les courbes de densit sont reprsentes la figure 2.17. Les lois "Y vrifient la proprit d'additivit suivante:
THORME
Si X el Y sont des W-triables indpendantes suivant respectivement des lois 'Yr et "'1.0 alors X + Y stlil ulle loi 'Yr +S' Ce rsultat sera dmo1lfr au paragraphe 2.5 de ce chapitre.
Les lois 'Y sont lies aux lois du X2 utilises en statistique par une fonnule simple (voir chapitre 4) : Si X suit une loi 'Y" 2X suit une loi X~r'
41
FIGURE
2.17
2~3.4
Lois bta
Loi bta de type 1
Il
2.3.4.1
C'est la loi d'une variable X; 0:5 X:5 1 dpendant de deux paramtres densit est:
et p dont la
. 1 1 }(x) = - - x " - (1
B(n, p)
n,p
>0
ou B(n, p) = f
f(n) f(p) (Tl
+ p)
On trouve:
Ces lois sont utilises en statistique baysienne pour reprsenter la distribution a priori de la probabilit d'un vnement. L'allure de quelques courbes de densit est donne par la figure 2.18.
2.3.4.2
Loi bta de type "
Soit X une variable suivant une loi bta T(Il, p) ; par dfinition, Y X/(l - X) suit une loi bta de type TT dont la densit s'obtient aisment par changement de variable:
J(y)
B(J1,p) (l
+ y)7I+1'
Vey) =
n(n
(p
+P-
., I)-(p - 2)
1')
PROPRIT
Le rapport de deux variables indpendantes suivant des lois 'Yn et 'Yll respectivement suit une loi bta U(1/, p).
42
3.0 f(x)
r(n+p) xn-1(1_x)P-1 nn) r(p)
2.0
1.0~----~----~----~----~~~----+-----~--~~--~
a ~~~----+----+--==~----~---+----+---~----~--~
o
.1 .2 .3
.4
.5
.6
.7
.8
,9
1.0
FIGURE 2.18
La dmonstration est laisse au soin du lecteur. Les diverses valeurs de Il et p font que cette loi s'adapte bien la reprsentation de nombreux phnomnes alatoires positifs (temps d'attente, dures de vie, mthode Pert avec dure alatoire). Ces lois sont lies aux lois de Fisher-Snedecor utilises en statistique (voir chapitre 4).
2.3.4.3
Loi de l'arc sinus
La loi bta 1 (l/2 ; I/2) dont la densit est j(x) =

'Tf
.y
x(l - x)
porte le nom de loi de r arc
sinus car sa fonction de rpartition est:

2 . F(x) = - arc sm (',lX)
'Tf
On a E(X) = 1/2,
V(X)
= 1/8, 'YI = 0, "Y1 =
1.5.
Cette loi assez paradoxale, puisque l'esprance est la valeur la moins probable et les valeurs extrmes sont les plus probables, s'applique en particulier dans certains phnomnes lis aux jeux de hasard. Par exemple, deux joueurs jouent un jeu quitable (du type pile ou face). Soit S" S2, ... Sil la suite des gains d'un des deux joueurs; si X dsigne la proportion du temps pass en gain positif, la loi limite de X quand 11 ~ 00 est la loi de l'arc sinus. Il y a donc plus de chance d'tre constamment en gain ou constamment en perte que d'tre dans le c~c;; mdian (c'est la loi de la persistance de la chance ou de la malchance ...).
... __ \I.,"'~lnIE!~
alatoires
43
Cette loi a pu tre appliqu la persistance du temps en mtorologie et rend compte du fait qu'il est plus frquent de battre des records (de froid ou de chaud) que d'avoir un temps moyen.
2.3.5
La loi de laplace-Gauss
Cette loi joue un rle fondamental en probabilits et statistique mathmatique. Elle constitue un modle frquemment utilis dans divers domaines: variation du diamtre d'une pice dans une fabrication industrielle, rpartition des erreurs de mesure autour de la vraie valeur J>, etc. Malgr son appellation malencontreuse de loi normale(l), elle est cependant loin de dcrire tauS les phnomnes physiques et il faut se garder de considrer comme anormale une variable ne suivant pas la loi de Laplace-Gauss. Son rle principal en statistique provient en ralit de ce qu'elle apparat comme loi limite de caractristiques lies un chantillon de grande taille. Le thorme central-limite que nous tablirons au paragraphe 2.7 montre que dans certaines conditions la somme, et donc la moyenne, de variables indpendantes et de mme loi est asymptotiquement une loi normale.
X suit une loi normale LG(m ; cr) si sa densit est(l) :
f(x)
1 exp ( - - - 2 rr
(x - m)3)
'-----_.
Par suite de la symtrie defet comme l'intgrale de X converge,
Avec le changement de variable alatoire
on trouve que la densit de
U est:
U est une LG (0, 1), donc toute variable X LG (111 ; rr) se ramne simplement la variable
U par X = m
+ rr U.
Montrons que V{ U) = 1 :
V(U) =
J+:C_l-ltlexP(-~1I2)dll = ~ (:Z:li2exP(-~ll:!)dtl
-:::12;
LI
12;Jo
Posons t =
UZ/2,
il vient
du = dt :
V(U) = - 2
-r; ()
LXexp(-t) dl = - f(3) = - - f (1) 2 - 21 -r;

2
{:IT 2
I_Cette dnomination fut introduite par K Pearson qui voulat viter les querelles d'antriorit concernant son introduction en statistique et l'a d'ailleurs par la suite comme l'indique cette ct3tion : Many years ago 1called the LoplaceGaussian curve the normal CJ)rve nome, while ![ ovoids an intemational question o{priority, hos tlle disadl/onfage ofleading people iD beJieve that 011 other distributions or rrequency are in one sense or anor.her 'obnorma/:That belie{is, or course, nOt juslJ~Qble, Ir has 100 many writers ta /.ry and (oree 011 rrequency by aid or one or anor.her process o(distorrJon into a 'normal' (urVe (paper read
to the Society of Biometricians and Mathematical Statisticians, June 14, 1920). 2_La notation LG sera utilise couramment dans cet ouvrage. La notation N(m : (T) sera galement utilise.
44
comme
=.Ji:
11 en rsulte que rr est l'cart-type de X. La fonction de rpartition et la densit de X sont reprsentes sur la figure 2.19. Les points d'inl1exion sont :trr de part et d'autre de
ilL
0.45 1.000 .875 Fonction de rpar1ition
37 .
7
o
20 30' 40 -40' -30 -2cr -cr
FIGURE
.250
-40' -30 -20 -cr
0'
20 30' 40
2.19
2.3.5.1
Valeurs remarquables
P(m P(m P(m
1.64rr < X < 1.96rr < X < 3.09rr < X <
111
111
1.64rr)
111
+ 1.96rr) + 3.09rr)
0.90 0.95 = 0.998
2.3.5.2
Moments
Ils existent pour tout ordre. Pur suite de la symtrie, tous les moments d'ordre impair sont nuls. Calculons les moments d'ordre pair:
IL"
Lu"
:
exp ( -
~ )dll =
Il'
2 i"H"ex p ( -
11'
)dll
Posons y
li:! /2
2_ Variables alatoires
45
d'o:
11lk
21;: = -J; r
+ 2'
t)
= 1 35 ... 2k - 1 ,r;;;
Comme:
r (k + ~) =
1 . 3 5 ... (2k - 1)
(i)
(voir annexes) il vient:

1-L2k
1-.J .. (2k - 1) =
"'l
(lk)!
on en dduit 1-L4
= 3, d'o "12 = 3.
2.3.5.3
Additivit
Les variables de Gauss possdent la proprit d'additivit.

THORME
Si Xl et Xl sont des variables indpendantes suivant respectivement des lois LG(m, ; cri)
et LG(ml ; cr1) alors XI +
est une variable LG(m 1
+ m2; ..,Jcrf + cri)
Ce rsultat fondamental sera dmontr au paragraphe 2.6 ft J'aide des fonctions caractristiques. On ne peut cependant pas dire que toute combinaison linaire de p variables gaussiennes non indpendantes soit encore gaussienne. Il faut pour cela que le p-uple de variables suive une loi normale p-dimensions (dont c'est prcisment la dfinition. cf chapitre 4).
2.3.5.4
Loi de U2
U 2 est:
D'aprs la formule tablie la fin du paragraphe 2.1.2.2, la densit de T

g(t)
(()
= _1_ t -1/2 ex p
{2;
(-!..) 2
en remplaant
f(t} par
ex~ - ~ ,,1), on remarque que U"/2 suit une loi "Y 111 ou loi du
khi-deux un degr de libert (voir chapitre 4).
2.3.6
La loi log-normale
Laplace~Gauss
C'est la loi d'une variable positive X telle que son logarithme nprien suive une loi de : ln X - LG( 111 ; cr) Sa densit s'obtient par un simple changement de variable et on trouve:
f(x) = _1_
(Jx~
exp(_~(ln x
2
cr
111\2)
)
46
2aVariabies alatoires
E(X)
= exp(m + ~')
V(X) = (exp(2m
+ rr 2(exp al
- 1)
On utilise parfois la loi log-normale trois paramtres -y, 111, rr telle que: ln (X - "1) -- LG(m ; rr) avec X> "1.
La figure 2.20 reprsente la denst de la loi log-normale d'esprance 2 et d'cart-type 1 :

(m
0.6
= 0.58
= 0.47)
0.5
OA
0.3
0.2 0.1
2
FIGURE
2.20
2.3.7
loi de Cauchy
1
TI(1
C'est la loi d'une variable X relle de densit:

f(x) =
l L Sa fonction de rpartition est F(x) = - arc tg x + -,

TI
X ne possde aucun moment fini car l'intgrale
~ TI(1
dx diverge.
On montre que la loi de Cauchy est la loi du rapport de deux variables LG(O; 1) indpendantes. Elle s'identifie TI variable de Student de degr 1 (voir chapitre 4).
2.3.8
loi de Weibull
Trs utilise en fiabilit, la loi de Weibull deux paramtres donne la probabilit qu'une dure X de fonctionnement sans dfaillance soit suprieure x par:
Ip(x > x) = e -w"l
47
En d'autres termes,
x)(r (f3 suit une loi exponentielle.

~ (~)a -Ie-(~)" ~ ~ ...
La densit de X est: f(x)
Le paramtre Cl, qui est sans dimension, est appel paramtre de fOffile. Selon ses valeurs, la densit de probabilit est plus ou moins dissymtrique. Le paramtre de forme est li au vieillissement: quand il vaut l, on a une loi exponentielle caractristique des matriels sans usure ni fatigue. Quand il est plus grand que 1, on est en prsence de fatigue: le taux nstantan de dfaillance Il(x) est alors croissant avec x :
h(x) =
Ct f3 (x)U f3
1
Si
Ct
est infrieur l, on a affaire un matriel qui se bonifie avec le temps.
Le paramtre !3 s'exprime dans la mme unit que X (jours, heures, nombre de cycles, etc.). C'est un paramtre d'chelle li la dure de vie mdiane par:
~=--.,.-
mdiane
La figure 2.21 donne la densit d'une loi de Weibull avec a:
2 et
r3 = L
o
FIGURE
2
2.21
La relation E [
. 'd prece ent ( =
.!.
(~)'] = r (1 + ~) permet de calculer les moments de X. Dans l'exemple

~
"fl
et
= 1, on trouve E(X)
= { ; et V(X)
2
= 31T. annexe 4). - (vOlr 4
2.3.9
Loi de Gumbel
Cette loi est utilise pour les distributions de valeurs extrmes (voir chapitre 12). Sous sa forme standard sa fonction de rpartition est: 1F(x)=exp(-exp(-x1
48
2 . . Variables alatoires
soil:
J(.\:) = exp(-x - exp(-x)
(fig. 2.22)
ex p( - X) suit donc une loi 'Y l'
.5
f (x) = exp (-x) e)(p (- exp (-x))
.4
-3
-1
o
FIGURE
2.22
Ses moments sont:

E(X) = 0.57722 ...
(constante d'Euler)
V(X)
="6
= 1.29857
5.4
7-
.,
'YI
"12
La loi de Gumbel est utilise pour modliser des phnomnes tels que: crue maximale annuelle d'une rivire, magnitude du plus grand tremblement de terre enregistr en une anne, etc.
2.4
lE PROCESSUS PONCTUEL DE POISSON
Considrons une famille XI de variables de Bernou11i (X! = 1 si un vnement (arrive d'un client, accident, appel tlphonique ... ) se produit l'instant t) : on s'intressera la rpartition des dates d'arrive des vnements, ainsi qu NI nombre d'vnements entre o et f.
49
flux poissonnien d'vnements

Un processus de Poisson reprsente l'apparition d'vnements alatoires El, E2 etc., satisfaisant aux trois conditions suivantes: Les temps d'attente entre deux vnements El E2' E2 pendantes (processus sans mmoire).
,
E,!,
etc. sont des variables ind-
La loi du nombre d 1 vnements arrivant dans l'intervalle ft; t + Si T l , on notera c son esprance, dite ({ cadence ). Deux vnements ne peuvent arriver simultanment.
Tl
ne dpend que
Soit Po (Il) la probabilit qu'aucun vnement ne se produise pendant une dure Il ; d'aprs delUXleI111e condition, Po (Il) ne dpend que de Iz et non de l'instant considr. Soient trois instants t, t + h, t + Il + k. La probabilit qu'il ne se passe rien entre t et t+ h + k est Po (h + k) ; d'aprs l'axiome cl' indpendance, on a : vil, v/.:. Po (Il + k) = Po (II) Po (1;:) D'o le rsultat:
POU,) = exp( -cil)
avec c> 0
Nous montrerons par la suite que c est bien la cadence du phnomne.
10
8
6
~
2
0 0
2
10
12
14
16
18
FIGURE 2.23
Une trajeclOire d'un processus de Poisson avec c = 1 ; en ordonne le nombre cumul d'vnements depuis t O.
2.4.2
tude de la dure T sparant deux vnements conscutifs Ei et f + 1

j
Soit T cette dure qui est une variable alatoire, la probabilit que T> t est gale la probabilit qu'il n'arrive rien pendant une dure t soit:
P (T
>
t) = exp( -ct)
50
2.Variables alatoires:
d'o la fonction de rpartition de T: peT < t) = l - exp( -ct}. La densit vaut alors.
1(1) ::::.: exp ( -ct)c il s'ensuit que cT suit une loi 'YI' donc E(T) = 1/c.
2.4.3
tude de la dure Y sparant n

Il
1 vnements
Yest une variable alatoire somme de

y = TI
variables indpendantes de mme loi:
+ T2 + ... + Til
II
soit:
c Y = cTI
+ cT]. + ... + cT
(fig. 2.24)
y
FIGURE
2.24
donc c Y suit une loi "VII ; la densit de Yest :
2.4.4
tude du nombre d'vnements se produisant pendant une priode de dure T fixe
THORME
Le nombre d'vnements suit une loi de Poisson de paramtre cT.
_ Dmonstration: Soit AB la priode d'tude (fig. 2.25) :
A
FIGURE
B
2.25
1).
On a la relation vidente: peN
= n) =
P(N;::: n) - P(N;::::
Il
La probabilit peN :.:: Il) est aussi la probabilit que la dure AEn soit infrieure il T; cette dure est constitue de AEJ + EIE1 + ... EH-lE" qui sont des lois exponentielles indpendantes ~ donc c AE'I suit une loi 'Vil et r on a :
P(N = Il)
exp( -ct)
(Ct)II-1
(n - 1)!
c dt -
!uT
0
exp( -ct) -
(ct)/I
Il!
c dt
,::;;;"'V':IrfrlOleS
alatoires
51
En intgrant par parties la premire intgrale, il vient:

T
exp( -ct)
(ctt-I
(n -
l)!
c dt
= 1'1'exp( -ct) d ((ctt) 0 11!
= exp(-cT) - - +
n!
(cT)'1
lT
0
exp(-ct) -
(ctY' c dt n!
peN
Il)
= exp( -cT)-1/!
(cTr'
trouve E(N)
= c ; c est donc bien la cadence dfinie au dbut de cette partie.
pplication importante: Relation entre loi de Poisson et loi du X2

loi f1J() on a :
P(N:5 11)
= P(X~(I'+l) >
2.)1
il suffit de considrer un processus de Poisson de cadence c

P(N:5 11)
1, observ sur une dure . :
= peT, + T2 + ... + TI/_ 1 > = P(2"Y1I+' >

2)
P("YII+I
> )
P(X;(1I+1)
>
2.)
2.4.5
tude de la rpartition des dates El, E2' ... En dans l'intervalle AB
Posons A = 0 et cherchons la loi de probabilit conjointe des dates E" El' ... , EII et de N nombre d'vnements survenus. La probabilit pour que le premier vnement se passe entre t, et t,
+ dt,
est:
c exp( -ct l ) dt l .
La probabilit conditionnelle que E 2 arrive entre t 2 et t1 c exp(-c(t1 - t\ dt l , etc.
+ dt 1
sachant E, est:
La probabilit qu'aucun vnement n'arrive aprs EH sachant la date de EII est: exp(-c(T - fil ; d'o:
La loi conditionnelle:
. C'l
jU], '1' ., " ',iN
= Il) =
exp( -cT) (cT)"
11!
Til
exp(-cT) - -
n!
ce qui prouve que les instants t" 12 , , ., fil constituent un chantillon ordonn de la loi unfonne sur [0, T] : en effet, si l'on s'intresse seulement aux dates et non leur ordre, il faut diviser par Il! qui est le nombre d'ordres possibles,
52
2aVariabies
2.4.6
Le processus (Nt)
D'aprs ce qui prcde, Nt suit pour tout 1 une loi de Poisson f!P(ct). Comme E(Nt) = ct V(N I ) , ce processus n'est pas stationnaire mais il est accroissements stationnaires indpendants puisque 't;/h, NI + 11- NI = (!}(h). La fonction de covariance de ce processus est facile obtenir: si s> 1 : CU, .'1) = cov(Nt ; N.() = cov(Nt ; Nt + X) = VeNt) + cov(Nt ; X) : or X une variable indpendante de NI (accroissements indpendants) donc: si s 2: t : C(t ~ s) = VeNt) = cl; et on trouve de mme si t> s : CU, s)
1C(t ; s) = c inf Ct ; s)1

Cette fonction est continue en t = s donc le processus est continu en moyenne tique. Cependant, aucune trajectoire n'est continue puisque (NI) est une fonction alatoire escalier (incrments de 1 chaque vnement).
2.5
CONVOLUTION
Un problme courant consiste trouver la loi de probabilit d'une somme de deux bles indpendantes Z = X + Y.
2.5.1
Cas discret
z)
Le thorme des probabilits totales donne la solution du problme:

P(l
= 22 P(X = x n
.\"
= z-
x)
= 22 P(X = z )'
ny
y)
Lorsque X et Y sont indpendantes, on a :

1 P(Z
= z) = ;
P(X
= x)P(Y = z -
x)!
Sinon, on peut toujours crire:

P(l z)
= 2: P(X = x)P(Y
z: - x/X
x)
Remarquons que, pour la sommation, x ne prend pas ncessairement toutes les possibles de X mais uniquement celles compatibles avec l'vnement l
lIIIIIl Exemple: Soit X et Y, deux variables de Poisson indpendantes de paramtres respectivement:
et IL
P(X = x) = exp(-)-
x!
pey
= y)
/-LY = exp( -/-L)-
y!
On a donc:
.r=~
P(Z =;::) = 2:exp(-)-exp(-/-L)--.r=O x! (z x)!
53
en multipliant et divisant par z! : exp(-( P(Z = z) = _! ...:,.
11.)
r--
x=;:
~ C~ X/-1:-x
~
x=o
exp( -(
/-1))
z!
/-1)~
z= X + Yest donc une variable de Poisson !P( + /-1).

Cas gnral
loi de probabilit de Z
liIIII
=X +
la loi de Zn' est autre que la mesure image de Pxr par l'application de ,
L.lV" .......... -
Ys' obtient grce au thorme de la mesure image: en 1R2 dans IR dfi-
X et Y sont indpendants, on a donc le rsultat suivant:
La loi de probabilit de la somme Z de del/x variables i1ldpendal1tes est la mesure image de Px 0 p~. par l'application (x, y) ~ x + y de ~2 dans ~.
Note Px bore:uen B :
* Pl' = Pz (produit de convolution de deux mesures), elle est telle que pour tout
Pz(B)
LIl.(x
LIl
+ y) dPx(x) 0
dP,.(y)
On remarquera le caractre symtrique en x et y de la formule prcdente. En particulier, si X et Y admettent des densits, on a :

Pz(8)
B(X
y)f(x)g(y) dx dy
Posons x
+ y = z, x = li et appliquons le thorme de Fubini:

Pz (B)
= =
LIlIJ(z)f( Il) g(z - Il) dll dz
J~
lln(z.) dz
feu) g(z. - li) dll
f)x
D'aprs la dfinition des variables continues, on en dduit que Z admet pour densit:
k(;.)
f(lI) g(z - li) du
DI'
g(y) fC:
- y) d)'
Dl
les domaines Dx et DI' tant les ensembles de valeurs de X et de Y respectivement compatibles avec l'vnement Z = z.
54
Par intgration, on en ddui t :

P(Z
<
7,)
K(z)
JfJ
r J(x) G(z x
x)dx
g(y) F(z - y)dy
DI'
Gomtriquement, K(z) reprsente la mesure du domaine hachur (fig. 2.26).
FIGURE
2.26
2.5.3
2.5.3.1
Applications
Somme de lois 'Y
1
(1')
Soit X de loi "Ir J(x) = f pendante.
exp( -x) X,-I et Y de loi 'Ys g(y)
exp(-v) r(s) -
1 ind-
k(z) =
' l
-
() fer)
exp( -x) X,-I
1 exp( -(z - x (z r(s)

-
= n,)ns)
Posons x
l'
-,'-1 (z - xy-Ids
= Iz, il vient:
k(z)
exp(-z)i
f(r)r(s)
0
l
r'-
(z - tzY- 1 dt
Ir-I
d'o:
k(z) =
exp( -z)zr+,f-11 l
f(r)r(s)
0
(1
t)s-l dt
k(z)
exp( -
z)
1C
55
'7') k(- tant une densit, la constante c vaut ncessairement f
Cr +
s)
puisqu'on reconnat
l'expression de la densit d'une loi -y, On en dduit une preuve (probabiliste) de la fonnule :
I
Il
t r- 1 (l - t),\ - 1 dt
-ys
f(r)f(s-)
f(r
'
s}
J'
Donc si X est une -y r et Y une
indpendante, X
+ Y est une -y r +
2.5.3.2
Somme de lo;s uniformes sur [0, 1]
Soient X et }' deux variables continues uniformes sur [0, 1], La loi de leur somme s'obtient par l'argument gomtrique suivant: le couple (X, Y) est unifonnment rparti sur le carr unit et l'vnement Z < z correspond la zone hachure dont il suffit alors de trouver la surface. K et k ont deux dterminations mais sont continues (fig. 2.27).
1 Y
o
z<1 K(z)
1X
o
z> 1
K(z} = 1 _ (2
2
Z}2
1X
P(Z < z) K(z) = z
=2
Z2
Iz) =2 FIGURE
2.27
2.6 2.6.1
2.6.1.1
FONCTIONS CARACTRISTIQUES Dfinitions et principales proprits

Dfinition
La fonction caractristique d'une variable alatoire relle X est la transforme de Fourier de sa loi de probabilit. EIle est note 'Px et on a :
'Px(t)
= E [exp(itX)] = LexP(itx) dPx(x)
Cette fonction existe toujours car Px est une mesure borne et ]exp(itX)[ = L. Il s'ensuit que la fonction caractristique est continue.
56
Lorsque X possde une densit:

<.px(t) =
JB
(eXP(itx)f(X) dx
2.6.1.2
Fonction caractristique d'une forme linaire

'-P ;L\' (1)
= '-Px (I..t)
111
....
<.pX+a(t) = expUta )<.px(t)
et on en dduit, si X est une variable d'esprance
et d'cart-type cr, en
I!U~ilnr
U = (X - ln)/cr :
'-PX-Ill (t) = <.pu(t)
(r
itm) cr = exp (-cr <.px(t)
<.px(t)
exp(itm) <.pu(crt)
2.6.1.3
Convolution
L
La fonction caractristique se prte bien aux additions de variab1es alatoires ~md-llL'peIl-,j~ dantes : la fonction caractristique d'une somme de variables indpendantes est gale au produit de leurs fonctions caractristiques: .)
En effet:
<.pXI+X/!) =
E [exp(it (XI
+ X2]
E [exp(itX 1) exp(itX2)]
si XI et X 2 sont indpendantes, il en est de mme pour exp(itX\) et exp(itX2) et l'esprance du produit est alors gal au produit des esprances. Notons au passage qu'il ne s'agit donc pas d'une condition ncessaire et suffisante d'indpendance.
2.6.1.4
Cas dJune distribution symtrique
Supposons la loi de X symtrique par rapport l'origine. Alors la fonction caractristique de X est relle :
<.pX( -t)
exp( - itx) dPx(x)
Po
J~
( exp(itx) dP x ( -x)
La premire intgrale vaut '-Px(t) et la deuxime est gale <.px(t) cause de la symtrie car dPx(x) :.:::; dPx( - x).
2.6.1.5
Drives IJorigine et moments non centrs
Notons tout d'abord que 'l'x (0) = 1 car 'l'x(O) = totale gale 1.
dPx (x) Px est une mesure de masse
::::::;"'\./.. r'I:1n1iES
alatores
57
Si les drives existent jusqu' l'ordre k, on a:

1
q>:~)(O)
= jkE(X k )
effet,
'P~)(t) = ((ixi exp(lx) dPx(x) par drivation sous le signe somme. En particulier:
Jr~
q>,~(O) = iE(X)
q>_~(O) = - E(X 1 )
Si CPx(t) est indfiniment drivable, la formule de ivIac-Laurin donne:

'Px(t)
2.: 1
I:=(]
Je
ikE(X k )
Unicit et inversion de la fonction caractristique

D'aprs les proprits des transformes de Fourier, deux variables ayant mme fonction caractristique ont mme loi de probabilit: la fonction caractristique dtermine donc de manire unique une distribution de probabilit d'o son nom. Les formules d'inversion de la transforme de Fourier permettent d'obtenir la loi de X connaissant CPxU).
THORME
Si
Jn1
(1 'Px(t)1
dl
<
::::0
alors X admet Ime densit f(x) continue et :
J(x)
= ~ (. q>xU) exp( -ilx) dt 21TJ~
Sinon, on a toujours le rsultat suivant (admis) :

F(b) - F(ll)
T--:::;
hm 27i
J+T'Px(t) exp(-ita) -.
-T If
exp(-itb)
dt
Une fonction quelconque n'est pas ncessairement une fonction de rpartition; de pour qu'une fonction <p(t) saiL une fonction caractristique elle doit vrifier certaines proprits. Le thorme suivant, que nous ne dmontrerons pas, identifie 1es fonctions caractristiques aux fonctions de type positif >:>.
THORME (BOCHNER)
POli r qll 'wle fOllction continue 'P soil tille fOllction caractristique, il fmtt et il suftt que pour toute famille finie t). 12, , tl! de rels et pOlir toute famille finie de complexes Z il Z:h .. '\ ZI! on ait:
2: 2: 'P(ti i=lj==1
Il
Il
t)zizj
58
2.Variables
""",:>rr\l",'~_
2.6.2
2.6.2.1
Fonctions caractristiques des lois usuelles

Lois discrtes
Lo de Bernoulli: lPx(t) = P exp(it)
+ q avec q
Il
l - p. variables de Bernoulli
md,pi:ndlanlte8.;':~
e Loi binomiale: Comme X est une somme de on trouve:
<PxU) = (p exp(it)
+ q)11
Loi de Poisson :
lPx(t) = exp(. (exp(it) - l))
En effet:
E[expUtX)]
= .~Jexp(itx) exp(-.) x! = exp(-.).~

::L
.x
""
(. eXPUt y ) x!
= exp( -.) exp (. exp(it))
2.6.2.2
Lois continues
sin at
.. Loi uniforme sur [-a, a] :
<Px (t)
En effet: E[expUt X)]
= ---;;;_1_. [exp(iat) - exp( -;at)]
~f:!::fexP(itx) dt = 2a
+ i sin at.
2mt
cl' o le rsultat avec exp(iat) = cos at
e Lois gamma: Si X suit une loi 'YI' c'est--dire une loi exponentielle de paramtre 1, on a:
1
1 - it
En effet:
lP yl (1)
/1
= (::::exp (itx) exp( -x) dt = (:0exp( -(1
Jo
Jo
- it)x) dx
D'o, pour tout
entier:
car une "YII est une somme de
Il
"YI indpendantes.
1
(l -
Pour r quelconque, cette formule se gnralise et cp" (1) =

Ir
;tY
Remarquons que le calcul formel suivant conduit au rsultat:
""exp(itx) - 1 exp( -x) x rel') 1o
dx = -
fer)
1:>0exp(-(1
0
it) x) x r - I dx
21l1i1Variabies alatoires
59
en posant (1
iOx
= li :
0
fer) == -l-1:>:exp(-u)u r - t - - - d u = - - - - fer)

(l
itY
f(r)(l
iI)r
(1
ity
Il convient cependant de justifier ce rsultat car il s'agit d'une intgrale dans le champ complexe. Nous le laisserons au soin du lecteur.
Loi de Laplace~Gauss : Si U est la loi LG(Q ~ 1) :
l'Pit) = exp( -t /2) 1

2
On peut obtenir ce rsultat directement car on sait que E( Uk )
Q si
k est impair et
E(U
2k )
(2k)! == 2k kl'
la formule de Mac-Laurin :
k
"D~aprs
1)
2k! 2kk!
Remarquons qu'ici aussi un calcul formel (qui devrait tre justifi par une intgration dans le plan complexe) donne le mme rsultat:
+X
-x~
exp( -x 2/2) exp(itx) d~ = -
f+::<:exp ( -;; [x 1
-x _
- itf t 2/2 dt
= exp( -[2/2)
'I-::t;
-:x:
exp
(1 [x - )2dt -'2
it]
et l'intgrale vaut 1 car c'est l'intgrale de la densit d'une variable de Gauss imaginaire (1) de moyenne it et de variance 1. Si X est une LG(m ; 0") :
on en dduit que la somme de deux variables de Gauss indpendantes est encore une variable de Gauss:
donc XI
+ X2 suit une LG(m 1 +
Ill']. ;
).
60
2 _ Variables
alei'l.toilres;i,~
2.6.3
fonctions gnratrices
Il en existe deux fonnes assez voisines; en es servent essentiellement calculer les mc)m(~nt~~,;~ de variables alatoires et de sommes de variables indpendantes car la fonction gnratrice produit de variables indpendantes est gale au produit de leurs fonctions gnratrices. Pour des variables valeurs entires positives, on utilisera la forme suivante:
gx(t)
= E(tx) =
2: tllP(X =
112:0
Il)
Par drivations successives en zro, on trouve facilement que g~)(O) = Il! P(X qui prouve que la fonction gnratrice dtermine la loi de probabilit de X. Sous rserve d'existence, les drives successives en l sont gales aux moments factoriels:
g,\-(l) = E(X)
g~~(1,) = E(X(X g~)(l) = E(X(X -
1
1)(X - 2) ... (X Il
1))
Pour des variables quelconques, on appelle fonction gnratrice des moments:

Nlx(t) = E(e 'x )
qui est donc la transforme de Laplace de -X. Sous rserve d'existence, on a:

E(XII) = A;f~')(O)
Les fonctions gnratrices sont lies la fonction caractristique par :

gx(t)
= <Px( - j In(t)
Mx(t) = lPx( -it)
2.7
CONVERGENCES DES SUITES DE VARIABLES ALATOI RES Les diffrents types de convergence
2.7.1
Une suite (XII) de variables alatoires tant une suite de fonctions de dans III il existe diverses faons de dfinir la convergence de (X,J dont certaines jouent un grand rle en calcul des probabilits.
2.7.1.1
La convergence en probabilit
DFINITION
La suite (XII) cOllverge en probabilit vers la constante a si, 'dE et 11 (arbitrairement petits), il existe /lo tel que Il > 110 entrane:
p(IX'1 -
al > E) < 11
2 ..Variables alatoires
61
On note alors (XII)
a.
On dfinit alors la convergence en probabilit vers une variable alatoire X comme la convergence vers 0 de la suite XII - X. Lorsque E(X/I) ~ a, il suffit de montrer que V(Xn) ~ 0 pour tablir la convergence en probabilit de X'l vers a. En effet, d'aprs l'ingalit de Bienaym-Tchebycheff:
P( 1XII - E(X,I) 1 > E)
<
V(Xn)
-'l-
E-
On en dduit donc sans difficulL que XII - E(X,J
0, ce qui tablit le rsultat.
2.7.1.2
La convergence presque sre ou convergence forte
Dfinissons d'abord l'galit presque sre de deux variables alatoires:

'''' DFINITION
X et Y sont gales presque sremellt si P ({ w IX(w)
* Y(w)})
= O.
C'est l'galit presque partout des fonctions mesurables. On dfinit donc ainsi des classes
de variables alatoires presque srement gales.

La convergence presque sre se dfinit alors par :
DFINITION
l
l
La suite
(XII) converge presque srement

P( {w IlimXn(w)
II-X
vers X si :
* X(w)})
et on noIe Xn
lU
X.
En d'autres tennes, l'ensemble des points de divergence est de probabilit nulle. Remarquons que la limite de (XII) n'est pas unique mais que deux limites sont presque srement gales.
Il est immdiat de montrer que la convergence presque sre implique la convergence en probabilit.
2.7.1.3
La convergence en moyenne d'ordre p
Si E[(X" DFINITION
X)"l
existe, on a :
(XII) ~ X en moyen1le d'ordre p si E
tlx
lI -
xl"J ~ O.
2.
La plus utilise est la convergence en moyenne quadratique si p
La convergence en moyenne d'ordre p implique la convergence en probabilit.
62
2.7.1.4
La convergence en loi
Bien que la plus faible, eUe est trs utilise en pratique car elle permet d'approximer fonction de rpartition de XII par celle de X.
DFINITION
La sL/te (XII) cOJz\'el___r::e ellloi l'ers la \'Clriable X defonction de rpartition F si, en de COJ1fiJ~tit de F, la suite (Fil) des fOllctions de rpartition des XII converge vers F. Ilote XII ~ X.
Un thorme d Polya tablit que si F est continue alors la convergence est uniforme.
Pour des variables discrtes, la convergence en loi vers une variable discrte s'exprime P(X II x) ~ P(X = x). C'est ainsi qu'on a tabli la convergence de la loi binomiale vers la loi de Poisson.
Une suite de variables discrtes peut cependant converger en loi vers une variable corltmlue!!~ (voir plus loin). On montre galement que, SI (XJ est une suite de variables de densits hl et X une de densit./: alors :
vaJlat)lej~~~
X=> '/;I(X) ~f(x)
La convergence en loi est intimement lie la convergence des fonctions caJractristiques!r,~ comme le prcise le rsultat fondamental suivant, que nous noncerons sans dmonstration:
THORME (lEVY-CRAMER-DUGu)
l
l
sute
Si XI! ~ X alors <Px/t(t) ~ <Px(t) uniformment dans tout intervalle fini [- 1/, Il]. Si des fonctions caractristiques <Px,,(O converge \'ers une Jonction <p dont la relle est continue l'origine, alors <p est Wle jonction caractristique et la suite cOlll'erge en loi vers ulle variable alatoire X dom <p est la fonction caractristique.
La convergence en probabilit entrane la convergence en loi et on a, pour rsumer, la rarchie suivante des convergences:
Moyenne d'ordre p
1 ----....
,....-----...,
-vllpq
LG(Q; 1) en
2.7.2
Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace)

. bl es b1I10IJlla1 . . es
np P , a1 Xll_r;;;;;; ors
)
THORME
' . 1 XIl etant une smle (e notant q
l'lIna
:'lJ
rflj (
Il ~
1 - p.
2 I11III Variables alatoires
63
I11III
Dmonstration: La fonction caractristique de XII vaut (p exp(il)
1 - p)1I donc celle
de
X - np
{,u;;; npq
vaut:
'PU)
il) = ( P exp ( _r- + 'Jllpq
iln 1 - P exp -_r- ) 'Inpq

itnp 1)) - _r '1 npq
)'1 (
ln 'P
il) = Il ln ( p ( exp ( _r - 'J Ilpq
Dveloppons au deuxime ordre l'exponentielle; il vient:
In'P =
1I1n(1 + p(_/!- _ ~))

'Illpq 2npq
_ itnp -1 npq
puis le logarithme:
ln 'P =
11
pit [- -1 npq
t"!.
--
pt?
2npq
pt 2
+ -- ---
p2 t?] 2npq
itnp
-1 npq
t2
soit:
ln 'P = - 2q
+-
2q
=-
t"!.
2q
(p -
1)
= -2
car p = 1 - q.
'PU) ~ exp( - t? /2) qui est la fonction caractristique de la loi normale centre-rduite.
E!IIII
Application: Lorsque n est assez grand, on peut donc approximer la loi binomiale par la loi de Gauss. On donne gnralement comme condition np et nq > 5.
Il convient cependant d'effectuer ce que l'on appelle la correction de continuit: la convergence de la loi binomiale vers la loi de Gauss se traduit par le fail que les extrmits des btons du diagramme de la binomiale fJ3(n ; p) sont voisines de la courbe de densit de
la loi LG (np ; -Inpq).

On obtient donc une valeur approche de P(X
= x)
par la surface sous la courbe de 1
1 densit comprise entre les droites d'abscisse x - - et x
+_t
(fig. 2.28).
XP(X = x) = P (
~-.Jnpq
np
<
<
+ ~ - np)
-Illpq
---==---
On aura alors :
P(X ::::;
x)
= P (U <
\: + ~ -.Jnpq
17P )
----==--
64
~ 1~ ~: .': .
-"\
\
\
\..
FIGURE
2.28
_ Exemple:X @(40; 0.3) IIp = 12; Ilpq = 8.4. La valeur exacte pour P(X
La formule d'approximation avec une loi LG(l2 ; {8.4) donne:
= 11) est 0.1319.
P(
soit:
10.5 - 12 11.5 - 12) <U<----{8.4 -{SA
P( -0.52 < U < - 0.17)
= P(0.17 <
U < 0.52) = 0.6895 - 0.5675 = 0.122
Soit une erreur de moins de 1 'lo.

j -
Quant P(X:::; 11) qui vaut exactement 0.4406) l'approximation normale fournit P( U < 0.17) soit 0.4325. En l'absence de correction de continuit, on aurait trouv
p( U < 1~2) = P(U< -0.35) = 1

2.7.3
peU < 0.35) = 0.3632, ce qui est trs imprcis. _
Convergence de la loi de Poisson vers la loi de Gauss
THORME
Soit (X}.) une famille de variables g;() alors si ~
00,
LG(O~l).
_ Dmonstration
<Px(t)
= exp(.)(exp(it -
1))
d'o:
.... _.V~rl;H)le~
alatoires
65
exp ( . 1\
-\JI\.
it )
+- - ~
il
2~
il vient:
'Px~(t) = exp ~ + it~ 'i
t2 "2 - ~ -
it {i;. = exp
(t l) -"2
La figure 2.29 illustre l'approximation de la loi de Poisson @l(~) par la loi de Gauss de mme esprance et de mme cart-type ~. L'approximation est trs satisfaisante pour ~ > 18. On trouvera en annexe d'autres fonnules d'approximation plus prcises. On a, ici encore, intrt effectuer la correction de continuit.
.300]
.
= 2.0
300]
.200
.300
.
= 3.0 .200
= 4.0
.200
.100
.100
.100
0.000 .L...J-....l...-J......I.--L..+-"..........5.0 0.0 .200
0.000 .L.\--1-J......I.--L..4--l--1....:::s....---+0.0 10.0 5.0 . 200

.
0.000 0.0 5.0 10.0
= 6.0 .100
.100
0.000.L....f:.-1-.1-....L--L..-.j---.J--'---1-.J.4-L--'='--+---0.0 5.0 10.0 15.0
0.000
0.0
5.0
10.0
15.0
o::::,~,
0.0 5.0 10.0 15.0
FIGURE
100
20.0
2.29
2.7.4
le thorme central .. limite
L'tude de sommes de variables indpendantes et de mme loi joue un rle capital en statistique. Le thorme suivant connu sous le nom de thorme central-limite (il vaudrait mieux dire thorme de la limite centre) tablit la convergence vers la loi de Gauss sous des hypothses peu contraignantes.
66
THORME
Soit (XII) une suite de variables alatoires indpendantes de mme loi d'esprance I-L et d'cart-type (J". Alors:
_
-.r;;
(Xl
+ X, + ... + X - 1111) r
Il
U'
LG(O ; 1).
(J"
_ Dmonstration
Soit 'Px(t) la fonction caractristique de X ; la fonction caractristique de
2: --='-- est
Il
donc
['PX-IL (t)] Il , Or X
rr-..J
~: est une variable d'esprance nulle et de variance l/n_

VI1
(J"
Le dveloppement en srie de la fonction caractristique de X (1
commence par
les termes suivants sont des nfiniments petits d'ordre l/n 2,
Donc, en levant la puissance n, la fonction caractristique de
2: --='--
11
est
quivalente (1 -
~:,)" et tend si n ---> '" vers exp ( - ~) selon un rsultat classique.
On remarque que, si les variables X j sont des variables de Bernoulli, on retrouve comme cas particulier la convergence de la loi binomiale vers la loi de Gauss. On peut dmontrer un thorme encore plus gnral d Lindeberg :
THORME
Soient XI' X]. ' .. , XII des varables alatoires indpendantes pliS forcment de Inll1e loi et d'esprance mi et de variance (J"T. Soit S~ rpartition de (Xi lIli)'
et F(x) la fOl1ction de
Si la conditioll sUvante est ralise:
/1_";
1 Hm [ ,.
Il
S~ i=1 Ixl> eS"
2:
11
x 1 dFi(x)
]
1)
2:(X i
lIli)
alors:
i=1
.!4 U E LG(O;
SIl
67
La condition de Lindeberg exprime que les variables --,-_ _1 sont uniformment

Sil
- m
petites}) avec une grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par obtenir une loi de Gauss. Ce phnomne est souvent exprim de la manire suivante: si une variable est la rsultante d'un grand nombre de causes, petites, effet additif, cette variable suit une loi de Gauss. On peut y voir la justification de l'emploi abondant et sou vent abusif de la loi de Laplace-Gauss comme modle. Pour tenniner, notons que l'existence des moments E(X) et V(X) est indispensable. La loi 1 de Cauchy de densit sur IR. n'a aucun moment et fournit un contre-exemple classique: on montre que
'Ti(1 + Xl + X..,
+ ... + X
Il
a mme loi que X quel que soit
11.
Il
COIJples de variables alatoires, conditionnement
L'tude de la loi de probabilit d'une variable alatoire Y connaissant la valeur prise par une autre variable alatoire X est fondamentale pour les problmes d'approximation et de prvision. Il faul pour cela connatre en premier lieu la distribution de probabilit du couple eX, Y) qui est une application de (n, P) dans IR:! muni de sa tribu borlienne si il s'agit d'un couple de variables alatoires relles, lIn'est cependanL pas ncessaire que X el Y soient valeurs dans IR.
3.1
TUDE D'UN COUPLE DE VARIABLES DISCRTES
On tudiera ici la distribution d'un couple de variables alatoires valeurs dans des ensembles finis ou dnombmbles ; par exemple la distribution simultane de la somme et du produit des points amens par deux ds,
3.1.1
lois associes un couple (X, Y)

Xi
Supposons que X et Y prennent des valeurs
et )j en nombre fini ou dnombrable.

Y1
X1
3.1.1.1
Loi jointe
Yj
Yq
La loi du couple (X, Y) Px!' est alors entirement dfinie par l'ensemble des nombres :
Px}' (x i ; Jj) = P(X = Xi
y = Yi)
Xi
Pi.
dans le cas fini cette loi de probabilit conjointe peut se mettre sous la forme d'une table. On note Pu
P(X = Xi
ny
Xp
)'j) et bien sr ~~Pij = 1.

i
j
P.j
3.1.1.2
Lois marginales
On appelle lois marginales les lois de probabilit de X et de Ypris sparment. On a d'aprs le thorme des probabilits totales :
fi
Loi marginale de X Loi marginale de Y
P(X =
Xi)
= 2:Pij = Pi.
j= 1
pey =
v) .1
= ""p .. = p " L.J

1] .]
i=1
70
3.1.1.3
3aCoupies de variables alatoires, conditionnement
Lois conditionnelles
Les vnements {X = Xi} et {Y = Yj} tunt de probabilits non nulles on dfinit alors deux familles de lois conditionnelles selon que l'on connat la valeur ) de X ou de Y. Rappelons qu'ici X et Y ne sont pas forcment des variables alatoires relles mais peuvent tre des variables qualitatives. D'aprs le chapitre 1 on a :
Lois conditionnelles de X si Y = Yj :
P(X
= xj Y=
.'j)
Pa
P.j
Lois conditionnelles de Y si X
= x, :
Pi. =
pey
-
x.) =
1
P(X =
Xi
y = y}.)
P(X = x)
Le thorme des probabilits totales (deuxime forme) permet d'crire:

If
P(X =
Xi
n y = y)
22p(x
j= 1
xjY
}j)P(Y
Jj)
l'
= 22p(y = Y/X = xJP(X =

i""l
Xi)
Remarques:
Pour deux vnements BI et 8 2 relatifs Y et X on a :
22 pey E B~jX
XEE 1
x)P(X
x)
formule qui servira pour tendre la notion de probabilit conditionnelle lorsque X = x est de mesure nulle . Il arrive frquemment dans les applications que r on utilise la dmarche inverse : on connat la loi conditionnelle de Y X fix et celle de X et on en dduit alors la loi du couple. Les formules de Bayes permettent d'exprimer une loi conditionnelle en fonction de l'autre:
P(X = x;/Y
-}
v ) =
pey = .J} "IX =

Il
-1" 1
)P(X = t'.) r
Xi)
22p(y = y/X
i""l
= xJP(X =
et :
pey = y/X
= Xi)
if
22P(X
j=1
x;/Y = )j)P(Y = )j)
3 .. Cou ples de variables alatoires. conditionnement
71
L'indpendance entre X et Ys' crit :

Pij
= Pi. P.}
'Vi et j
ce qui revient dire que les q lois conditionnelles de X Y tix (en faisant varier Y) sont identiques; il en est de mme pour les p lois conditionnelles de Y X fix.
3.1.2
Covariance et corrlation linaire
La covariance a t introduite au chapitre 2 pour des variables numriques.

cov(X; Y) = E((X E(X))(Y - E(Y))
= E(XY)
- E(X)E(Y)
On a:
cov(X; X) = V(X)
et
cov(Y; Y)
Vey)
On montrera plus loin que: (cov(X; Y)? ::s V(X)V(Y) ce qui permet de dfinir le coefficient de corrlation linaire p, qui est donc toujours compris entre -1 et + 1 :
p=
cov(X; Y)
Pour deux variables indpendantes p = O. Cependant, la rciproque est en gnral inexacte et un coefficient de corrlation linaire nul n' entraine pas que les variables sont indpendantes. Deux exceptions notables o non~corrlation et indpendance sont quivalents : les couples (X; Y) gaussiens (voir chapitre 4), et les couples de variables de Bernoulli (facile montrer). Les valeurs limites entre Yet X.
l et
+ 1 sont atteintes si et seulement si il existe une relation linaire
3.1.3
Moments conditionnels
Supposons Y relle mais pas ncessairement X qui peut tre une variable qualitative. On peut alors dfinir, sous rserve de l'existence de ces expressions pour le cas dnombrable, l'esprance et la variance de Y X fix.
3.1.3.1
L'esprance conditionnelle
DFINITION
On appelle esprance de Y sachant que X dfinie par .'
x et
011
Ilote E(Y/ X = x) la quantit
E(Y/X
x)
2:yP(Y
y
= y/X = x)
72
3Couples de variables alatoires, conditionnement
C'est donc l'esprance de Y prise par rapport sa loi conditionnelle. On note que E(YIX
x) est une fonction de x: E(YIX
= x)
= <p(x).
Cette fonction cp s'appelle fonction de rgression( 1) de Y en X. Son graphe est le lieu des moyennes conditionnelles de Y sachant X. On voit donc que E(Y IX = x) dpend des valeurs prises par X. On peut alors dfinr la variable alatoire esprance conditionnelle, qui prend pour valeurs E( YI X = x) avec les probabilits P(X = x) :
DFINITION
l
l
On appelle variable alatore esprance conditionnelle de Y sachant X et E(Y IX) la variable dfinie par:
E(YIX) = q:>(X)
011 IlOte
Cette variable prsente un certain nombre de proprits remarquables. Tout d'abord la linarit comme consquence de sa dfinition en tant qu'esprance:
mais surtout on a en prenanll'esprance de cette variable le :

THORME DE L'ESPRANCE TOTALE
1
E[E(YIX)]
= E(Y)
_ Dmonstration
E[E(Y/X)] =
~E(Y/X = x)P(X = x) = ~(~l'P(Y = y/X = X) P(X = xl

ylX = x)P(X
= 2:y2:P(Y =
)" x
= x)
2:yPCY
y)
= E(Y)
Ce thorme est un outil trs puissant pour calculer l'esprance mathmatique d'une loi complique mais dont les lois conditionnelles sont simples: on voit mme que l'on n'a pas besoin de connatre explicitement la loi de Y (voir plus loin). Si lll(X) est une autre variable fonction de X on a E[Ylll(X)IXl = lIJ(X)E[Y IX] ; la dmonstration sans difficult est omise. Concrtement cette formule signifie qu' X tix \jJ(X) esl une constante et sort donc de l' e~prance.
1_Ce terme de rgresson pt"Ovient des travaux, du statisticien Galton qui tudj;:t la taIlle des enfants Y en fonc:tion de la taille de leur pre X, Il avait constat exprimentalement que la taille moyenne des fils dont le pre avait une taille x suprieure la moyenne E(X) tait elle-mme suprieure ci E(Y) mais dans une moindre mesure --'-----'-----'--'- tait infrieur- il 1 ; il y avait donc rgression au sens ordinaire du mot.
3.Couples de variables alatoires. conditionnement
73
3.1.3.2
La variance conditionnelle
DFINITION
On appelle l'arallce de Y sacha1lt que X
=x
et on note V( Y/X
= x) la quantit:
Vey/X
= x) = E[(Y
E(Y/X
= x)f/X = x]
Il s'agit donc de l'esprance conditionne11e du carr de l'cart l'esprance conditionnelle.
Comme pour l'esprance, et puisque VeY/X alatoire variance conditionnelle:

Vey/X)
= x)
= l!J(X), on dfinit ensuite la variable
= tIJ(X) = E[(Y
E(Y/X))2/X]
On a alors le rsultat fondamental suivant:

THORME DE LA VARIANCE TOTALE
E[V( Y/X)] + V[E( y / X)J
en donnant l'esprance sa signification usuelle de moyenne on voit que la variance de Yest la somme de deux lermes : la moyenne des diverses variances conditionnelles et la variance des diverses moyennes conditionnelles.
_ Dmonstration
V(Y) = E[(Y E(Y)f] EI(Y - E(Y/X)
+ E(Y/X)
- E(y))2]
dveloppons le carr en groupant Y - E( Y/X) et E( Y/X) - E( Y) il vient: Vey) = E[(Y - E(y/xft
2E[(Y E(Y/X))(E(Y/X) - E(r)] + E[(E(Y/X) - E(y2]
Le dernier terme est gal V[E(YlX)] par dtnition de la variance puisque E(Y) est l'esprance de E(YIX). Le premier terme n'est autre que E[V(Y/ X)J : en effet en appliquant le thorme de l'esprance totale: Er(Y - E(Y/X2] = - E(Y/X2/Xll et on reconnat l'expression de Vey/X). Notons que Vey/X) n'est pas gale (Y - E(Y/X))2 ce sont simplement deux variables ayant mme esprance. On vrifie que le double produit est nul en conditionnant nouveau: l'esprance conditionnelle tl X fix de (Y - E(Y/X)(E(Y/X) - E(Y)) vaut alors:
[E(Y/X) - E(Y)][E(Y E(Y/X))/X]
puisque E(YlX) E(Y) est une constante X fix (voir la dernire proprit de l'esprance conditionnelle nonce au sous-pamgraphe prcdenl). Quant :
E[(Y - E(Y/X)/X.I
ce terme est nul, il suftt de dvelopper. L'esprance conditionnelle du double produit est nul, il en est de mme de son esprance. (on trouvera plus loin une dmonstration gomtrique plus rapide et plus lgante) ..
74
3.1.3.3
Exemple d'utilisat;on de l'esprance et de la variance conditionnelle
Un examen se droule sous forme d'un questionnaire choix multiple (QCM) o on pose 20 questions; chaque queston comporte quatre rponses possibles, dont une et une seule est la bonne; une rponse juste compte 1 point, sinon zro. On suppose que le programme de l'examen comporte 100 questions dont on tirera alatoirement les 20 de l'examen. Si l'on considre un candidat ayant appris une proportion p du programme, on tudie la distribution de sa note N.
Solution : Parmi les 20 questions, un certan nombre X va figurer dans la partie des 100 p questions rvises et fournir automatiquement X points. Les 20 questions tant tires sans remise parmi les 100, la loi de X est une hypergomtrique d't(lOO ; 20; p).
Un certain nombre de rponses pourront tre devines par le jeu du hasard parmi les 20 - X questions non rvises, soit Y ce nombre. A chaque question non rvise est associe une variable de Bernoulli de paramtre 1/4. Si X = x est fix, la loi de Yest alors une loi binomiale @(20 - x; 1/4). On a donc N = X + Y avec Y/X @(20 - X; 1/4). X et Y ne sont pas indpendantes puisque la distribution conditionnel1e de Y/X = x dpend de x. Le calcul de la distribution de N conduit en tout tat de cause une expression difficilement manipulable :
X=/I
peN = n)
=
-
2: P(X
lOG!,
x)P(Y =
11 -
x/X = x)
.t''''0
-"
x=/!
ex c 20-x
e:w
IOn
H)[)(I-l') Cl/-.~
x='o
..t.J
(1)"-X(3)20-11 _ _
4 4
:!o-x
On peut cependant trouver aisment E(N) et VeN) :

Calcul de E(N) :
E(N) :::: E(X) E(X)
+ E(Y)
= E(X)
+ E[E(Y/X)]
= 20p (loi hypergomtrique)

l X X)4=5-
E(Y/X)=(20 E[E(Y/X)] = 5 -
E~)
+
= 5 - 5p
soit :
E(N) = 15p
3.Couples de variables alacolres. conditionnement
75
Calcul de V(N) :
l'eN) = E[V(NjX)1 + V[E(NjX)] VeN j X
= x) = l'Lx + Yj X
16
= x]
VI'YjX
= x]
1 3 (20 - x) 4 ':4
VeNjX) = (20 -
X)~E[V(NjX)]
x
= 20(1 _ p) 3 = I5(] - p)
16
x) = 5
E[NjX = x] E[NjX]
+ 4 (20
3r
~
5
9
+4
3X
V[E(NjX)]
100
p) 100
= 16 l'(X)
20 1
p)
= 16 20])(1
V[E(NjX)] = IOOp(l 11 VeN)
15(1 - p) 4
100p( 1 Il
p)
= (1
p) [- + -
15
4
100P]
Il
La figure 3.1 donne les varations de E(N) et de VeN) en fonction de p. Un taux de rvision de 0.6 0.7 devrait donc assurer la russite l'examen avec une forte probabilit.
20~------------~
1 1
1
15
10
,
,,
.
1 1 1 1 l ' 1 1 1 1 1
,.
1
#
1 ;
" l'
l'
""
#
.i
0; ,
l' i:'\'
0'
,.
,.
'<.1
I~,' ,. 1
,
1
/~t/ '<.1.'
,.'
, 1 , i:'\ '
1
/0;)0/
OI....-...l--L..--'---L-..L.......1--L..-L-..J....to..I
o 0.1 0.2
0.5 3.1
FIGURE
76
3.1.4
Extension au conditionnement d'une variable continue Y par une variable discrte X
Ce cas ne prsente pas de difficult. On dfinira d'abord la fonction de rpartition conditionnelle:
pey < v/X

.
= x)
P(Y<
nx=x) . = GCv!x) P(X = x)
puis si elle existe la densit conditionnelle g(y/x) qui sera la drive de G en y. La densit marginale de Y s'obtient par:
g(y) = L9(y/x)P(X
= x)
Si E( Y) existe, on prou ve aisment que E( Y/X = x) existe galement et vaut:
E(YjX
= xl = Lyg(yjX)dY
Les formules de l'esprance totale et de la variance totale sont galement valables. La formule de Bayes donne:
P(X = x/Y
<
G(v/x)P(X v) = ' .
G()')
= x)
mais l'criture formelle:

P(X
= x/ Y =
g(v/x)peX = x) ),) = - - - - - - g(y)
ne peut tre pour l'instant justifie car pey = y) =
o.
3.1.5
Somme d'un nombre alatoire de variables iid
Le problme suivant est courant en assurance: au cours d'une priode de temps donne le nombre de sinistres survenus est une variable alatoire N. Chaque sinistre a un cot alatoire reprsent par une variable X. Le montant total des sinistres est alors:
Si les Xi sont indpendantes et de mme loi, les thormes de l'esprance et de la variance totale, en conditionnant par N, permettent de montrer facilement que:
E(S) = E(N)E(X) V(S) = E(N)V(X)
V(N)(E(X)Y:-
77
3.2 3.2.1
EXTENSION DES VARIABLES QUELCONQUES

Lois conjointes et lois marginales d'un couple de variables alatoires relles
Si (X, Y) est il valeurs dans [H2 rappelons que la fonction de rpartition du couple H(x, y) se dfinit par:
H(x, y)
P(X
<
<
y)
Les fonctions de rpartition marginales s'en dduisent immdiatement par :

F(x) = H(x; ':xJ) = P(X G(y)
H(oo ; y)
< = pey <
x) y)
Si le couple (X, Y) admet une densit h(x, y) on a :

Iz(x v)
'.,
a2H = -axa)'
les densits marginales s'obtiennent par:

f(x)
=
=
J~~
Iz(x. y) dy
g(x)
Jr.!
f lz(x, y) d\:
\Ix ; y \Ix; y
Rappelons que si et seulement si les variables X et Y sont indpendantes on a :

H(x, y)
F(x)G(y)
h(x, y) = f(x)g(y)
3.2.2
Conditionnement
Le problme essentiel est de donner un sens aux expressions du type pey E RIX = x) et E(Ylx = x) lorsque X = x est un vnement de probabilit nulle ce qui est toujours le cas lorsque X est une variable admettant une densit.
3.2.2.1
Prsentation nave
Lorsque X est une variable continue on peut songer dfinir la fonction de rpartition conditionnelle de Y sachant que X = x comme la limite pour E tendant vers 0 de :
POl < y
P(x
(x < X < < X< x +
+ E))
H(x
E)
F(x
+ E ; y) + E)
- H(x; y)
- F(x)
78
Lorsque X possde une densit f(x) on voit que la limite de cette expression est
iJH(x ; y) . x) et que S1 (X , 11") Il une d ' 'J l (x, iJx ensIte
jl'( ,
. y) I d " con d'lttonneIle d e Y' v = Il ens1te a,,\.
tix vaut alors:
= g(y/x)
On conot cependant aisment qu'une telle approche est peu rigoureuse et ne recouvre en plus qu'une partie du problme: dans certaines applications il faut pouvoir conditonner par rapport une variable quelconque pas ncessairement valeur dans IR! ni dans un ensemble fini. Pour dfinir une esprance conditionnelle il faut seulement que Y soit relle et que E(Y) existe,
3.2.2.2
Aperus thoriques
Vu sa complexit nous ne donnerons que les rsultats les plus importants sans rentrer dans les dtails des dmonstrations qui figurent dans les ouvrages de Thorie des probabilits (Neveu (1964) ou Mtivier (1972) par exemple).
Premire prsentation
X tant une variable alatoire quelconque de (n, P) dans un ensemble mesurable (E, ~) on dfinira la probabilit conditionnelle d'un vnement A par rapport X grce au thorme suivant:
THORME
Soit A
(E,
E ce, alors VBErg il existe une classe d'quivalence unique de fOllctions de dans [0; 1] note P(A /X = x) telle qlle ;
P(A
{X E Bl)
Ju
rP(A/X = x) dPx(x)
La fonction P(A/X = x) n'est pas unique car une modification de cene-cl sur un ensemble de probabilit Px nulle ne change pas le rsultat de l'intgrale. Peut-on choisir un reprsentant de cette classe pour tout A qui dfinisse une loi de probabilit conditionnelle sur il? Ce n'est pas sr si X est quelconque et P(./X = x) n'est pas ncessairement une mesure de probabilit: ici se trouve la difficult majeure de la thorie. Si un tel choix est possible on dit que c'est une (< version rgulire de ]a probabilit conditionnelle par rapport X, note P(./X = x). On peut alors dfinir l'esprance conditionnelle d'une variable Y intgrable par:
E(Y/X
= x) =
Y(w) dP(w/X = x)
3.Couples de variables alatoires. conditionnement
79
Deuxime prsentation
Les ouvrages rcents de thorie des probabilits prfrent partir de la dfinition de ]' esprance conditionnelle grce au thorme suivant qui tend la formule de l'esprance totale en intgrant sur un vnement quelconque de E au lieu d'intgrer sur E tout entier.
THORME
Soit Y Hne variable alatoire relle de (0, (g, P) dans (IR, @) telle que E( Y) soit jini, et X U1le variable quelconque de (.0, (g, P) dans (E. de loi de probabilit Px.
Il existe alors une classe d'quivalence unique de fonctions Px intgrables de (E, '0) dans (IR, @) note E(Y/X = x) telle que:
'VB E iR
(
JX- 1(8)
Y(w) dP(w)
= lE(Y/X = x) dPx(x)
/1
Ceci dfinit alors de manire (presque srement) unique la variable alatoire esprance conditionnelle E(Y/X). On en dduit alors la probabilit d'un vnement A quelconque de X en prenant pour Y la variable indicatrice de A :
P(A/X)
n conditionnellement
= EClir\/X)
Comme nA est intgrable la probabilit conditionnelle de A existe toujours. Le problme de l'existence d'une version rgulire de la probabilit conditionnel1e reste cependant entier, cette existence est ncessaire pour pouvoir calculer l'esprance conditionnelle par la formule:
E(Y/X
x)
= ( Y(w) dP(w/X = x)
Jn
et pour pouvoir parler de distribution conditionnelle de Y sachant X. La distribution conditionnelle de Y sachant X = x est en effet dfinie comme la mesure image de P(./X = x) par Y pour chaque x. Il faut donc que P(./X = x) soit une mesure de probabilit sur n. La preuve directe de l'existence de distributions conditionnelles dans les cas les plus usuels est donn par le thorme de Jirina : il suffit que E soit un espace mtrique complet sparable (ou espace polonais), c'est--dire admettant un sous-ensemble partout dense, ce qui est le cas de IRI'.
3.2.2.3
Ce qu'iI faut retenir
Il ressort des rsultats prcdents [es proprits utiles suivantes: si (X, Y) est un couple de variables alatoires o Yest valeurs dans IR el X valeurs dans un ensemble tini ou dnombrable, o valeurs dans IR ou IRP : Il existe une mesure de probabilit conditionnelle P(./X Il existe une distribution conditionnelle de V/X = x.
= x) sur n.
80
3aCoupies de variables alatoires. conditionnement
Si E(Y) existe, alors il existe une variable alatoire esprance conditionnelle: E(Y/X) qui prend les valeurs E(Y/X = x) avec la loi de probabilit Px :
E(YjX = x)
= LY(",) dP(wjX = x)
D,
dP(yjX = xl
et E[E(Y/X)] = E(Y). Si Vey) existe on a Vey) = E(V(Y/X)) + V(E(X/Y)). Si le couple (X, Y) est il valeur dans 1R2 et possde une densit h(x, y) les densits conditionnelles existent et sont donnes par :
f(x/y) = - g{y)
et on a E(Y /x = x) ==
Iz(x ~ y)
lyg(y/~) dy ainsi que les formules de Bayes pour les densits:

IR
g(y/x) =
~~--'--
f(x/y)g(y)
g(y/x)f(x) f(.r/y) == - : . - - - - - -
fj'(Xjy)g(y) d),
g(yjx)f(x) dx
Lorsque l'une des variables est discrte el l'autre possde une densit il suffit de remplacer l o c'est ncessaire les intgrales par des sommes finies et les densits par des probabilits ponctuelles.
3.3
SYNTHSE GOMTRIQUE
Le cas o on n'tudie que des variables alatoires relles de moment d'ordre 2 fini est un des plus importants en pratique et est susceptible d'interprtations gomtriques trs clairantes.
3.3.1
Espace de Hilbert des classes de variables alatoires de carr intgrables
L'ensemble de toutes les variables alatoires dfinies sur un mme univers (en fait l'ensemble des classes de variables alatoires presque partout gales) forme un espace de Hilbert L 2 si l'on le munit du produit scalaire:
(X, Y) = E(XY)
et de la norme:
!!XII
= {E(X 2)1/1
L'cart-type est donc la norme des variables centres, et la covariance le produit scalaire des variables centres. Si l'on considre l'ensemble des variables alatoires constantes, on obtient une droite D de L 2. Car si X est constante, llX l'est aussi. L'esprance mathmatique de X est alors la projection orthogonale de X sur cette droite (fig. 3.2) : en effet, on sait que le minimum de EX - a)2) est atteint pour Cl = E(X), ce qui dl1nit la projection orthogonale de X sur D.
81
D
FIGURE
3.2
La formule de Konig-Huyghens :
E((X
af) = V(X)
+ (E(X)
af'
s'interprte comme le thorme de Pythagore appliqu au triangle rectangle X, E(X), a.
E(X) est. en d'autres termes, la meilleure approximation de la variable X par une constante (au sens de la norme de U).
Comme cov(X, Y) = (X - E(X) ; y Icov(X,Y)I:s; soit:
1
E(Y)
t'ingalit de Schwan: donne:
IIX-E(X)II HY-E(Y)II
1
cov(X, Y) :5 (fxar cov(X, Y)

ax a r
Le cosinus de l'angle fonn par X - E(X) et Y - E(Y) vaut donc ve le coefficient de corrlation linaire p entre X et }~
p = 1 s cov(X, Y) = axa}' donc si (X E(X) = a(Y - E(Y)).
1
. On retrou-
Dans cet espace, la non corrlation se traduit donc par l'orthogonalit
E(X)) et (Y - E(Y)) sont proportionnelles
soit: X
Le coefficient de corrlation linaire est donc gal il l s'il y a une relation linaire entre les deux variables X et Y. La nullit de ce coefticient exclut la relation linaire, mais n'exclut pas l'existence d'autres relations. Il est facile de fabriquer des contre-exemples de dpendance fonctionnelle avec un coefficient de corrlation linaire nul: ainsi. X et X"J. ou sin X et cos X lorsque la loi de X est symtrique.
3.3.2
Esprance conditionnelle et projection
Soit L~ le sous~espace de L2 constitu des variables alatoires fonctions seulement de X du type (.l(X) : Ll est convexe et contient la droite des constantes D. C'est donc un sous-espace de Hilbert ferm. Alors l'esprance conditionnelle de Y sachant X, E(Y/X), s'interprte comme la projection orthogonale de Y sur LX"
82
SOl en effet l'oprateur qui associe toute variable alatoire son esprance conditionnelle X. C'est un oprateur linaire; pour montrer que c'est un projecteur orthogonal il suffit de vrifier qu'il est idempotent et auto-adjoint:
il est idempotent: E(E(YjX)jX) = E(YjX) ; et auto-adjoint: <Z ; E(YjX) ) = < E(ZjX) ; Y).
En effet, les deux membres de cette relation sont gaux E[E(ZjX)E(YjX)]. Le thorme de l'esprance totale E(Y) = E(E(YjX) est alors un cas particulier du thorme des trois perpendiculaires, comme l'illustre la figure 3.3.
y- - - - - - - - - - - - - - -
FIGURE
3.3
E(Y jX) tant une projection orthogonale, ceci montre que le minimum de : E[(Y <p(X)f]
est atteint pour <p(X) = E( Yj X), rsultat qui sera repris lors de l'tude de la rgression. On peut dire que si E(Y) est la meilleure approximation de Y par une constante, E(YjX) est la meilleure approximation de Y par une fonction de X. Il est alors immdiat que le rsidu Y - E( Yj X) est non corrl avec X par suite de l' orthogonali t. Le thorme de la variance totale s'interprte comme Je thorme de Pythagore appliqu au triangle rectangle Y, E(Y), E( YjX) :
/lY - E(Y)W
= Vey)
= IIE(YjX) - E(Y)1I 2 = V(E(YjX = V(E(YjX))
IIY - E(YjX)11 2
= V(E(YjX
3.3.3
+ E[(Y - E(YjX)f] + E[E(Y - E(YjX))2] + E(V(Y jX
Rapport de corrlation de Y en X
Le coefficient de corrlation linaire p est une mesure symtrique de dpendance, qui est maximale dans le cas de la liaison linaire. Le thorme de la variance totale permet de dfinir une autre mesure de liaison non symtrique cette fois: le rapport de corrlation Tl}'!.\' tel que:
"i,x = - - - V(Y)
V(E(YjX))
3.Couples de variables alatoires, conditionnement
83
Ce rapport est le cosinus carr de l'angle form par Y - E(Y) et l'espace Li:. On a donc:
PROPRIT
Si lli/x
1, E(V(Y jX)
= O.
On en dduit donc que VeyjX) = 0 presque srement, car c'est une variable positive. Ce qui veut dire qu' X fix la variance de Y est nulle, donc que Y ne prend qu'une seule valeur.
ll~'/X = 1 => Y = 'P(X)
Le rapport de corrlation est maximal si Y est li fonctionnellement X.

PROPRIT
,,-,,1;;
Si lli/x = 0, \I(E(YjX))
0, E(l'jX) est donc presque srement une constante.
On dit que Yest non corrl avec X, il Y a absence de dpendance en moyenne. C'est en particulier le cas si X et Y sont indpendantes mais la rciproque est inexacte. On montre en fait que l'indpendance entre Y et X est quivalente l'orthogonalit des espaces Li: et L~, engendrs par X et Y le long de la droite des constantes (fig. 3.4) :
FIGURE
3.4
Indpendance de X et Y.
11~'IX = 0 signifie seulement que Y - E(Y) est orthogonal LI ; 11 2 est une mesure de liaison fonctionnelIe alors que p est une mesure de liaison linaire; 11YX est toujours suprieur ou gal p2 car p2 est le cosinus carr de l'angle form par y - E(Y) avec le sous-espace de dimension 2 de Li: engendr par la droite des conslan~ tes D et la variable X.
Le cas ou TJY'IX donc que:
p2 signifie donc que E(YjX) appartient ce sous-espace de dimension 2, E(YjX) =
Ci
+ I3X
c'est celui de la rgression linaire dont l'tude sera effectue en dtail au chapitre 16. Si E(Y jX) =
Ci
+ I3X, on ne peut trouver de transformation de X augmentant p.
84
3.Couples de variables alatoires, conditionnement
En effet d'une part llI-lx = sup p2(y; <.p(X)), et d'autre part la linarit de la rgression implique ll~'lx ::;::: p1(y; X). Lorsque (Y; X) est un couple gaussien on a simultanment E(YIX) =
Cl
j3X el E(X/Y)
)' + 5Y
On en dduit le thorme suivant:
THORME
Si (Y; X) est 1I1l couple gaussien, O1l11e peul pas trouver de trallsfonnations <.p(X) et ~J( Y) augmentant en l'aleur absolue le coe./Jicient de corrlation:
Les prvisions optimales (en moyenne quadratique) sont donc linaires.
Vecteurs alatoires, formes quadratiques et lois associes
Ce chapitre prsente les rsultats les plus utiles pour r tude des variables plusieurs dimensions. Certaines dmonstrations purement techniques seront omises.
GNRALITS SUR lES VECTEURS ALATO~RES RELS

Un vecteur alatore X est une application de (il, (g, P) dans un espace vectoriel rel, en gnral ~fI muni de sa tribu borlienne. En pratique 1R!" est muni de sa base canonique et on identifiera X au p-uple de variables alatoires form par ses composantes sur cette base X = (X" X'"!1 .. Xp )'
'1
4.1.1
4.1.1.1
Fonction de rpartition et densit

F est une application de [Rp dans lH!. dfinie par :

F(X"X2" , "~XI,)
P(X(
< x"., .,Xp <
x,,)
dont les proprits se dduisent aisment de celles vues pour les couples de vecteurs alatoires.
4.1.1.2
Densit
f si elle existe est dfinie par:
4.1.1.3
Changement de variables dans une densit
Effectuons le changement de variables dfini par:
Yi = tpj(X(, X 2 ,
X p)
'1
Les fonctions tpj tant telles que le passage de (XI. Xl' .. X,,) (YI. Y2 ... , YI') est biunivoque. Nous dsignerons en abrg par tp la transformation:
x y
tp(X)
86
4.Vecreurs alatoires, formes quadratiques et lois associes
La densit du vecteur Ys' obtient alors par la fonnule :
o det J, appel jacobien de la transformation, est tel que:
detJ =
YI ........................ il)'" ax p iJx/ iJx)
.....................
JXI
aYt
iJyP
(detJ)-1
La dmonstration de cette proprit figure dans tous les ouvrages consacrs l'intgration (changement de variable dans les intgrales multiples). Si la transformation cp est linaire de matrice A constante, Y = AX CA doit tre rgulire) on a det J = lAI. En particulier si A est une transfonnation orthogonale le jacobien vaut 1.
4.1.2
fonction caractristique
(l'l ,
Soit a un vecteur non alatoire de composantes (al'

DFINITION
a,J
On appelle fOllction caractristique dl( vecteur alatoire X la fonction de l'argument vectoriel a dfinie par:
THORME
Les composalltes Xl, X], ... , XI' de X sont indpendautes si et seulement si la fOllctiol1 caractristique de X est gale au produit des fa Il ct ions caractristiques de ses compOslllltes :
'P~Ja)
= II 'Pxi(lli)
i=1
f.'
4.Vecteurs alatoires. formes quadratiques et lois associes
87
Si les Xi sont indpendantes l'esprance d'un produit de fonctions des Xi est gale au produit des esprances donc: E[exp(ia'X)]
= E[expUa 1Xl)] E[exp(ia2X2)] ... E[exp(iapXp )]
ce qui dmontre une partie de la proposition. La rciproque plus dlicate utilise l'inversion de la fonction caractristique et est omise. Le rsultal suivant fondamental permet de dfinir des lois de probabilits p-dimensions partir des lois unidimensionnelles.
THORME DE CRAMER-WaLD
La loi de X est entirement dtermine par celles de tolites les combinasons linares de ses composClmes.
JI
Posons en effet Y
a'X
= LCliX
""l
et cherchons la fonction caractristique de Y:
!.pr(t)
= E[exp{itY)] = E[expUta'X)]
d'o 'Pr(l) = tpx(a). Si la loi de Y est connue pour tout a on connat donc la fonction caractristique de X donc la loi de X.
4.1.3
Esprance et matrice de variance-covariance
Si J.Li dsigne E(Xi ), on appelle par dtinition esprance de X certain:

!-LI !-L2
E(X)
= (XI ... , Xl')
le vecteur
J.L
La matrice de variance-covariance ~ de X est dfinie par:
(JT
cov(X I, X 2)
(J~
.......
cov(X 1, XJl)
= E[XX']
rrj;
"1
- J.L1l- 1
c'est une matrice carre symtrique d'ordre p.
88
4_Vecteurs alatoires, formes quadratiques et
IOs aSSOCle5;)
Si les variables X sont rduites, ~ s'identifie avec la matrice de corrlation:

PI:!
4.1.4
Transformations linaires
Effectuons un changement de variable linaire Y = AX o A est une matrice quelconque de constantes (pas ncessairement carre), alors:
IJ.r = AlJ.x
~r= ~xA'
ce qui se dmontre en appliquant les dfinitions. En particulier si A est une matrice uniligne, Y est alors une variable alatoire uni dimensionnelle. Si a' cette ligne Y = LaiX; et VeY)
j;;
"
= a'~a. On a donc pour tout a, a'2:a :::: 0
car une variance est non ngative. On en dduit le rsultat suivant:

THORME
Vile condtion ncessare el suffisante pOlir qu'une nwtrice 2: symtrique soit la matrice de variance d'll1l vecteur alatoire est que 2: soit LIlle matrice positive.
La rciproque s'tablit partir de la proprit classique suivante des matrices symtriques positives: Toute matrice symtrique positive :l: peut s'crire sous la forme 2: = TT' o T est dfinie une transformation orthogonale prs (si T convient, S = TV, o V est orthogonale, convient aussi; une solution particulire est fournie par T = 2: 1/2 = PA l/:!P/ o P est la matrice des vecteurs propres norms de T et A la matrice diagonale des valeurs propres). Il suftit donc de partir d'un vecteur alatoire X de matrice de variance 1, (par exemple un p-uple de variables indpendantes centres-rduites) et de faire la transformation Y = TX pour obtenir un vecteur alatoire de matrice de variance 2:. Si ~ est rgulire, c'est--dire si les composantes de X ne sont pas linairement dpendantes on peut trouver une transfonnation inverse qui nomlalse le vecteur X.
THORME
l
T
Si ~ est rgulire il existe une infinit de transfol11uztiolls linaires A, telles que Y = AX soit Wl vecteur de matrice de variance l
Il suffit de prendre A
=~I/l.
= T- 1
Un choix particulirement intressant est celui de
6._.\I",rr(3.llrs
alatoires, formes quadratiques et lois associes
89
On appelle transformation de Atlahalanobis la transformatioll dfinie par :k- I/:!.

~-1/2
(X - f..L) est alors un vecteur alatoire centr-rduit composantes non corrles.
On en dduit aisment le rsultat suivant:
La variable alatoire (X - f..L)':k- 1 (X - J..L)

IJ
= D 2 a pour esprance p.
En effet D 2
C1t!i!lllIll';C
~ Yf ou les Yi sont d'esprance nulle et de variance L D est appe1e

=l
de Mahalanobis de X IL.
ALATOIRES GAUSSIENS: LA LOI MUlTINORMALE
Dfinitions et fonction caractristiqueX est un vecteur gallssien p dimensions si toute combinaison linaire de ses composantes a'X suit llne loi de Laplace-Gallss I.me dimensioll .
. Le thorme de Cramer-Wold pelmet d'tablr que la loi de X est ainsi parfaitement dter:mine. On remarquera que la normalit de chaque composante ne suffit nullement dfinir vecteur gaussien. La fonction caractristique de X s'en dduit aisment (on supposera ici que X est centr qui ne nuit pas la gnralit).
THORME
<p,(a)
= ex p(
-3: a'~a
) o
~ est la matrice de variance de X.

o Y a/X
a'~a et la fonc-
En effet d'aprs le thorme de Cramer-Wold :
La loi de Yest par dfinition une gaussienne centre de variance Vey)

[2
hon caractristique de Y est <.pl' (t) = exp( -
"2 V( y)) ce qui tablit le rsultat.
On en dduit le rsultat fondamental suivant:

THORME
Les composantes d 'ml vecteur gaussien X SOllt indpendantes si et selileme1l1 si:k est diagonale, c'est-ii-dire si elles .lOTIt Hon corrles.
90
4aVecteurs alatoires, formes quadratiques et: lois associes
On a en effet, si :k est diagonale de termes a]- :
On notera Np CI1- ; :k) la loi normale p dimensions d'esprance 11- et de matrice de variance :L.
4.2 . 2
Densit de la loi normale p dimensons
Celle-cl n'existe que lorsque :L est rgulire.

THORME
Si:k est rglIlire X admet pour densit:
En effet Y ~-1/2(X - f.l) est alors un vecteur gaussien dont les composantes sont centres-rduites et indpendantes. Y a pour densit:
g(y)
" = il gCYi)
i=1
Il suffit alors d'appliquer la formule du changement de variable; le jacobien det ~t12 = (det ~)J/2 ce qui tablit le rsultat.
J vaut ici
c.
Les suriaces d'isodensit sont donc les ellipsodes d'quation (x - f-L)'~-I(X - f-L)
4.2 . 3
Cas particulier de la loi normale deux dimensions
Si l'on introduit p coefticient de corrlation linaire entre Xl et X2 :
d'o: et:
4.Vecteurs alatoires, formes quadratiques et lois associes
91
La figure 4.1 reprsente quelques surfaces de densit correspondant cri = diverses valeurs de p ainsi que les ellipses d'sodensit dans le plan XJ, X2'
cr:!
= 1 et
(a)
(b)
(c)
Ellipses contenant 50 % et gO % des observations
FIGURE
4.1
(d'aprs Bhattacharyya etlohnson, 1977),
92
4aVecteurs alatoires, formes quadratiques et lois associes
4.2.4
Lois conditionnelles (sans dmonstration)
Partitionnons X en deux. sous-vecteurs Xl et X::! k et p - le composantes respectivement d'esprance m, et m::! :
x = [~:J
La matrice de variance-covariance se partitionne en 4 blocs:
~II [~21
Si
~I::!]
2:22
r on cherche la loi du vecteur X" conditionne par X2 on a les rsultats suivants:

La loi de X';X2 est une loi 111ultillo171w[e p dimensiolls : - d'esprance: E[X!/X 2] =
ml
THORME
+ ~12~ll1
de matrice l'arallce-covarance :
2: JlI2 = ~II -
(X 2 - ID:!) ; ~12~l ~21'
On constate donc que la rgression de XI en X 2 est linaire. Les termes de ~1l!2 s'appellent les covariances partielles cov U, j 12), desquelles on dduit les corrlations partielles: cov(i, j 12)
crii/'1 cr))12
Pij/2
Les variances conditionnelles ne dpendent pas des valeurs prises par X 2

homoscdasticit ).
il y a
4.2.5
Thorme central-limite multidimensionnel
De mme que pour des lois une dimension on peut tablir le rsultat suivant: Soit XI' X 2, , XII une suite de vecteurs alatoires indpendants de mme loi, d'esprance .... et de matrice de variance ~ alors :
THORME
4 .. Vecteurs alatoires, formes quadratiques et IOs associes
93
4.3
4.3.1
fORMES QUADRATIQUES DFINIES SUR UN VECTEUR GAUSSIEN ET lOIS DRIVES
lois du X2 (khi-deux)
;~;dpeJ1dcllltes,
DFINITION
VI. V 2, , VI' tant p variables LG(Q ; 1)

p degrs de libeJ1 (X~) la loi de la vllIiable
on appelle loi du khi-detLt il
2: Ur.
i=1
C'est donc la loi de la somme des carrs des composantes d'un vecteur gaussien centr et de matrice de variance l.
On en dduit immdiatement que la somme de deux variables Xl indpendantes :". pet q degrs de libert est encore une variable X::', P + q degrs de libert. La loi du X:! se dduit de la loi 'Y par une simple transformation. Prenons en effet un XT, c'est--dire le carr d'une variable de Gauss. D'aprs un rsultat tabli au chapitre 2, la densit de T V 2 est:
Puisque
r (2")
'd . on en de UIt que V : . = 'Y 111- 0 n a d lpropnete SUIvante: one a ' "
2"
PROPRIT
Si X est une variable 'Yn 2X est un
X~r 1
On en dduit donc par transformation les proprits de la loi du X:! :
IE(X;')
=p
Densit: g(XJ,)
__1--,-..,.-ew
2PI2r(~)
(_-;_2)(X 2 (fig. 4.2). )PIH

-
A.
Fonction caractristique
Elle se dduit de cel1e de la loi 'Y :
(1-2il)1'/2
94
.500
.438 .375 1
.313,
.250
.188
.063
12
18
24
30
48
60
66
72
FIGURE
4.2
B.
Approximation du X2 par la loi normale
Lorsque p > 30 on peut admettre que soit:

x~
f2X2 - ~2p -
1 est distribu comme une LGCO; 1),
= -'--------'-2
(approximation de Fisher)
ou (mieux) que: sot:
xi, )1/3 + - - 1 ] 2 [( - p 9p
ffp
-=U 2
x~ =
1
p(u -~9P + l _ 9p ~ f2 2)3
(approximation de Wilson-Hilferty)
Cette dernire approximation, trs prcise, est correcte mme pour des valeurs faibles de p. On trouvera en annexe des formules exactes permettant de calculer la fonction de rpartition du X2 La table A 1.6 donne les fractiles de la loi de X1 jusqu' 100 degrs de libert. On peut donc en dduire ceux de la loi "'Ir pour des valeurs de r allant de 1/2 50 par demi-entier.
4.3.2
Formes quadratiques
Sous certaines conditions, des formes quadratiques dfinies sur des vecteurs gaussiens suivent des lois du X2. Ces rsultats sont fondamentaux en statistique dans les problmes de dcomposition de variance.
"_.\I",rrPllr~
95
THORME
l
L
Si X suit une loi llo1711111e il p dimensions d'espra1lce ,... et de matrice de variance

:; rgulire a/or.') :
Dl = (X
,...r 2,
JI
1
I(X -,...)
Sl/it LIlle
loi du X;)
Il suffit de se souvenir que D2
2: y? o les Yi sont des LG(Q ; 1) indpendantes.
Considrons maintenant Y vecteur gaussien centr-rduit composantes indpendantes et cherchons la loi d'une forme quadratique gnrale Q = Y'A Y
fJ
2: aijYJj.
i=1 j=l
Nous allons tablr la forme de la fonction caractristique de Q ce qui permettra aprs de dduire dans quels cas Q suit une loi du X2
THORME
!.pQ(t)
= [det(I
- 2itA)r 1/2
_ Dmonstration
!.pQ(t) = E[expUtQ)] = E[expUtY' AY)]
crivons A = P' AP o P est la matrice orthogonale des vecteurs propres et A la matrice diagonale des valeurs propres ; de A :
l'
Y' A Y
2:]Z]
];1
en posant Z
PY
P tanL orthogonale Z est encore un vecteur gaussien centr-rduit composantes indpendan tes.
Donc:
or or si
est unXr d'o:

~
!.pQ(t) =
rIo ]=1
fl
2i/)-1/2
est valeur propre de A, 1
2/ est valeur propre de 1 2i/)

det (1 - 2itA)
2i1A, donc:
II Cl
j=l
1)
On peut galement donner la dmonstration suivante plus directe mais utilisant des gaussiennes complexes.
96
_ Dmonstration
E[exp(itY' AY)] =
4aVecteurs alatoires. formes quadratiques et lois associes
exp(ity' AY)g(y) dy =
(Hi'
J~l'
f exp(ity' Ay) (211)1 - exp(-~yly) dy 2

_1_)_/1
=_1_ , 1
(2'iT)fJ - !R"
exp(-!yl(I - 2itA)Y) dy
2
Or si l'on considre une loi gaussienne de matrice de variance 2: = (1 - 2itA)-1 sait que:
l
THORME
IR}' (21T)pJ2
- - - - - - e x p --y'2:-'y dy = 1 (det ~)":! 2 [det(1 - 2itA)r ll2
(1
,)
d'o: E[exp(itQ)] = (det2.:)112
On peut donc tablir la proprit suivante :
..
l
L
Q = yi AY suit une loi du X2 si et seulement si A est un projecteur orthogonal, c'est-tl-dire si Al = A. Le rang de A est alors le degr de libert dll X.2.
En effet si A2 = A 'A) = 0 ou 1 et 'Pa(t) est la fonction caractristique d'un x.~. La rciproque est alors immdiate.
Considrons maintenant deux formes quadratiques QI et Q2 de matrice AI et Al dfinies surY.

THORME DE CRAIG
QI et Q:! sont indpenda1ltes si et seulemelll si AI Al
= O.
.. Dmonstration
<f>QIQPI,
(2)
= E[exp(it,QI
il 2Q::)] = [det(I - 2it l A I
2it 2A::)r l12
Comparons cette expression au produit des deux fonctions caractristiques de QI et Q2' <f>QI(tI)<f>Q/!2) = (det(I - 2if,A,) det(1 - 2it l A::)r l12 = [det(I 2itlAI - 2it"J.A"). 4t,f l A I A 2)]-1/2 on aura <f>QI(tI)<f>Q!(t2) = thorme.
'PQIQ~(tlt"J.) Vtlt").
si et seulement si AIA2 = 0 ce qui tablit le _
Nous pouvons enfin noncer le rsultat le plus important concernant les fonnes quadratiques qui gnralise la proprit d'additivit du x. 2 :
''.':::A_.V:.,rrE~UI::'
97
LlF:(:')RE:ME DE COCHRAN
k p
Soient QI. Q2' ... , QI.-. k formes quadratiques sur Y telles que 2:Qj
j=1
= Y'Y
;=1
l:Yl
ctest--dre ralisant tlne dcomposition du carr de Iwnne de Y. Alors les tros conditions suivantes sont quivalentes:
2: rang (Qj) = P ;
1
chaque Qj est une variable de X2 ; les Qj so1lf indpendantes.
Ce thorme n'est que la version probabiliste d'un thorme classique d'algbre linaire k que voici. Soit k motrices symtriques AI> Al' .
0 0'
AI,: d'ordre p telles que LAj = II"

j=l
Alors les trois conditions suivantes sont quivalentes :
2: rang Ai = P ;
Vi;
pour
II
. ...;... J. .
La dmonstration, sans difficult, est laisse au soin du lecteur. Gomtriquement ce thorme est une extension du thorme de Pythagore et de sa rciproque la dcomposition d'un vecteur et donc de son carr de norme, sur des sous-espaces deux deux orthogonaux. L'orthogonalit est ici synonyme d'indpendance pour des vecteurs gaussiens.
4.3.3
Loi du F de Fisher.. Snedecor
Cette loi, lie au rapport de deux formes quadraLiques indpendantes joue un grand rle en statistique (loi du rapport des variances de deux chantillons indpendants par exemple). X et Y tant des variables suivant indpendamment des lois
F(n ; p) =
X;' et xl"
on dfinit:
X/Il Y7P
La densit de F s'obtient aisment par transformation de celle d'une bta II car X/2 et Y/2 suivent des lois 'YIII2 et 'Yp /2 :
g(.f)
= -(-11-1-1) (
B-;2 2
et
(~rf'"'-l
11
1+-}
p
j(!I+ P )/2
11
P E(F) = - -
p-2
V(F) = 2 - - - - - - Il (p - 4)
p2
'J
98
Cette loi est tabule en annexe ce qui permet d'obtenir les distributions des lois bta 1 et bta II ; on a en effet les relations suvantes :
si l' suit une loi bta II(n, p), alors p y est un F(2n, 2p) ;
Il
si X suit une loi bta 1(11, p).
alors!!..~ Il 1 - X
est un F(2n, 2p).
4.3.4
loi de Student
Soit une variable alatoire U suivant une LG(O, 1) et X une variable alatoire suivant indpendamment de U une loi X~. On dfinit alors la variable de Student Til 11 degrs de libert comme tant :
On a:
E(T,,) = 0
V(Tl!)
J.L3
/-L4
si
IZ
>
= -n-2 =0
si
Il
11
sin> 2
>3
si si
11
= (n
"(-, = 3
-
2)(11 - 4)
>4
4
+-11 - 4
11
>
Pour 11 = l la loi de Student est la loi de Cauchy, loi du quotient de deux variables ala- : ' toires de Laplace-Gauss indpendantes, dont la densit est:
1
J(t) = 1T(l
t
~I
Cette loi ne possde aucun moment fini. De manire gnrale la densit de .
est:
.lU)
=_ f-
'JllB -, -
(1 Il) ( 1 + - 2)<1/+
t
[)/2
2 2
11
LGCO; 1), ainsi que l'expression des moments le laissait supposer. On a la relation suivante entre les variables de Student et de Fisher-Snedecor :
4.Vecurs alatoires. formes quadratiques et lois associes
99
La tgure 4.3 donne les densits de

11
1:1 pour diverses valeurs du degr de libert:

1, 2, 5, 10, 50.
DA
0.3
0.2
0.1
0
-5
-4 4.3
-3
-2
-1
FIGURE
Densit de probabilit de la variable de Student
On remarquera le comportement particulier de la loi de Cauchy TI' qui a des queues de distribution trs importantes:
P(ITd >
4.4
2)
0.29
LA LOI MULTINOMIAlE, 2 INTRODUCTION AU TEST DU X
Comme son nom l'indique cette loi gnralise la loi binomiale.
4.4.1
Le schma de l'urne k catgories
Considrons une partition de
n en k vnements de probabilit PI' pz, ... , Pk (fig. 4.4).
il
FIGURE
4.4
100
411111111i1Vecteurs alatoires, formes quadratiques et lois associes
On rpte alors indpendamment Il fois l'exprience alatoire et on compte les nombres de ralisations respectives des Ai : NI' N'J. .. " N", Le vecteur alatoire (discret) (NI. N2, , N k) suit alors par dfinition une loi ............ ,V .lU.:.l11: d'effectif 11 et de paramtres Pl. P2 ... , PI;' Ce schma se produit en particulier dans des problmes de sondages: une population est partage en li. catgories et on tire avec remise n individus ~ on compte ensuite les effectifs de cet chantillon appartenant aux diverses catgories. On l'observe galement lors du dnombrement des ralisations d'une variable alatoire X: L'ensemble des valeurs de X est partag en k dasses de probabilits Pi et on compte sur un ensemble de 11 individus les nombres d'individus appartenant chacune de ces dasses (fig. 4.5) : la dmarche utilise pour construire un histogramme, voir chapitre 5).
~x)
Pt
P2
x
FIGURE
4.5
Par construction, les composantes NI' N:., ... , Nk du vecteur multinomial sont linairement dpendantes:
2: Ni =
i=]
11
et on a bien sr 2:Pi = 1.
i=]
Chaque composante Ni suit une loi binomiale fJ3(1l ~ Pi) donc E(Ni )
V(N j ) np/l -
= npi
et
pJ
La loi conditionnelle de Ni sachant N j
= 1lj est galement une loi binomiale:

11,
fJ3('1 -
~ ~. 1 - Pj
11 suffit de remarquer que tout se passe comme si il restait tirer Il - nj individus dans une population li. - 1 catgories: la catgorie Aj tant limine la probabilit conditionnelle d'observer
A/Aj vaut
Pj
4 .. Vecteurs alatoires, formes quadratiques et lois associes
101
La loi du k-uple est alors donne par :
4.4.2
Esprance et matrice de variance
Comme chaque Ni suit une loi @(n ; Pi) on a :
f1.=
Pour tablir la covariance entre N; et Nj il suffit de remarquer que le vecteur multinomial . est une somme de Il vecteurs indpendants de mme loi que le vecteur X = (Xl' X 2 , . . , X,,) tel que Xi = 0 ou 1 avec les probabilits 1 - Pi et Pi ; un seul des X; tant nul. Les Xi sont les indicatrices des caLgories Al' A 2 , . . . , AI,: pour un des Il tirages. On a alors E(XiXj ) = 0 si i
"* j d'o cov(X;, X) =
-E(Xi)E(Xj ) = -P;Pj"
La covariance d'une somme tant la somme des covariances on en dduit : si i
"* j
-PIPk
La matrice de variance-covariance de la loi multinomiale est donc:

PI(l - PI) -PI Pl
n~
-PI Pl P2(1 - P2)
-P21h
Il
Cette matrice n'est pas rgulire car ~Ni = colonnes sont nulles). = 1
Il
(on remarque que les sommes en lignes et en
4.4.3
Lois limites lorsque n ~
00
D'aprs le thorme central limite multidimensionnel. comme (NI' N 1 somme de Il vecteurs alatoires indpendants et de mme loi, on a :
" " .,
Nk ) est une
102
411i1i111Vecteurs alatoires, formes quadratiques et lois associes
La loi limite est dgnre (elle n'admet pas de densit) car L(N; - l1Pi) =
1
o.
Cependant si l'on supprime par exemple la dernire composante on a alors un vecteur limite gaussien non dgnr et :
X=
'Ill
(NI - I1PI ; N 2 - I1P'2; ... ; Nk- I - llPk-l) ~ N/.:_ 1(0; :.:E*)
o:.:E* s'obtient en supprimant la dernire ligne et la dernire colonne de l:. Par une simple vrification on trouve:
1 1) ( -+PI lh 1
lh
1 1) - (P1+Pk
1 1) (-+P/.:-I Pk
Ih
Appliquons alors le premier thorme sur les formes quadratiques:
En dveloppant on a :
k-'(N. = ~ J
i= 1
npi
IIp-f- +
!
1 (k-I )2 22(Ni -nPi) np" i= 1
k-I
car
2: Ni =
1
/.:-1
n - Nk et 2211Pi =
;"'" 1
Il -
IlP",
-=
103
Il vient donc:
Ce rsultat capital est la base du test du khi-deux permettant de comparer une distribution d'observations NI, N'l' ... , N k une distribution thorique de probabilits Pl' lh, ... , th (voir chapitre 14, paragraphe 14.6.2.1).
4.5
LOIS DE WISHART, DE HOTEllING, DE WILKS
Ces lois jouent un rle essenLel en sraristique maLhmatique multidimensionnelle.
4.5.1
Loi de Wishart
DFINITION
Une matrice M (p, p) Cl une distribution de Wishart ~J(ll ; ~) si M pel/t s'crire M = X'X o X est une matrice (n, p) alatoire dfinie de la faon suipanle : les Il lignes de X sollt des vecteurs alatoires gaussiens de mme loi NpC0 ; ~) indpendants.
X reprsente donc un chantillon de n observations indpendantes d'une loi normale multidimensionnelle. Nous allons voir que cette loi gnralise d'une cerlaine faon la loi du X2 . Si p = l on a en effet:
WI(n ; cr2 ) = (j2X?t
LX l
i=1
Il
On montre que la densit de la loi de Wishart est:
1 1,,,-p-')12 exp( -~ Truce ~-I M ) M

f(M) = - - - - - - - p----:;-1-----:211,,/211' pl p- 1)/-11 ~ 11112 (n + i
II
j;J
avec M > 0 pour 1 mesure de Lebesgue dans a semi dtinie positive).
IT1lP(p+l)/2
tr
, . (en e ff Md' etre symetnque et "et Olt ~
On rapprochera cette formule de celle de la densit d'un X2
104
4aVecteurs alatoires. formes quadratiques et lois associes
On note galement que la fonction caractristique de la loi de Wishart ~~ll1 ; 2:) est: E[exp (iTM)] o T est une matrice (p, p), Rappelons que la fonction caractristique d'un X~ est <P.t~(t) = (1 - 2it)-IlI!, On a: E(LVI) = 112:
= Il -
iT2: /-1111
et
si
Il -
P -
>
Pour tout vecteur constant a :
a'Ma a/2:a
suit une loi X~
a'1\IIa
En effet on vrifie sans peine que a'Ma est une matrice de Wishart W,(1l ~ a'2:a) car a'X'Xa o Xa suit N,(O ; a'2:a).
1 01
' ' ' 'l' A n peut montrer egalement, mats 1a demonstratlOn est de lcate, que a,'i: -1 a -1
X~-p+"
"l
aM a
SUIt
. une
Ces deux proprits se gnralisent avec des vecteurs alatoires.

PROPRIT
Soit x un vecteur alatoire (de loi quelconque) indpendant de IVI alors: et suivent les lois X~ et X~-p+ 1 respectivement et sont des variables indpendantes de x. a'Ma et b'Mb sont indpendantes si a'i:b = O.
4.5.2
La loi du Tl de Hotelling
Cette distribution gnralise celle de Student (ou plutt son carr). C' est celle d'une variable unidimensionnelle.
DFINITION
Soit x lm vecteur alatoire normal Np(O ~ 1) et M llne matrice de Wishart ~,(1l ; 1), 1zdpendallte de x ; a/ors la qUlIntit llx'M- 1x suit par d4finitioll une loi du Tl de Hotelling de paramtres p et Il.
Par abus de notation, on posera: T,;(n) = Ilx'lVI- 1x
4.Vecceurs alatoires. formes quadratiques et lois associes
105
PROPRIT
Si x sut une loi Np(fL ; 2;) et lVI une loi de Wishart indpendante de x M'p(n ; 2;) alors n(x - fL)'lVl- 1 (x f.1) suit une loi ~~(n).
La dmonstration vidente utHse la transformation de Mahalanobis y et le fait que 2;-I/:::M~-I/:! est une W/n ; 1,,).
2;-lI:!(X - fL)
1lx/lVl- I x suit ce qu'on appelle une loi de Hotelling dcentre ~~(n, :2) o :2 est le paramtre de dcentrement.
= fL'2:f.1
La loi du T'Y. de Hotelling s'identitie celle de Fisher-Snedecor selon la formule:

T~(ll) =
1
')
np
JI -
1 F(p ; Il
1)
En effet on peut crire avec
x N,,(O ; 1) :
x'x est un x'lVl-lx
1 indpendant
de x donc de XiX qui est un 'X~ d'o:

X,~
'l
'l T ;;(/1 ) =
Jl - : : : - XII-f/+I
On voit que pour p
1, T [(n) = F(l ; n) c'est--dire le carr de la variable de Student
11 degrs de libert.
NOlons que:
E(T,;(n))
.,
= n-p-
np
4.5.3
La loi du lambda (A) de Will<s
Cette loi joue un grand rle en ;malyse de variance multidimensionnelle o elle gnralise celle de Fsher-Snedecor : elle concerne les rapports de variance gnralise qui sont des dterminants de matrices de Wishart. A est une variable unidimensionnelle.
DFINITION
Soit A et n deux matrices de Wishart Wp(m ; 2;) et WpCn ; 2:) indpendantes o alors le quotient:
lJl
p,
1 - - - - - = 1\ lA-lB + Il .
a une distribution de lVi/ks de paramtres p, nt et Il, A( p, dpend pas de 2;).
111.
Il) (cette distribution ne
A et B tant des matrices positives A est une variable comprise entre 0 et 1.
106
Remarquons que A s'exprime en fonction des valeurs propres Si de A -lB:
A
A(p, m,
Il)
II (l
i""l
11
ei)-l
et A(n, m
+ Il
p, p) ont la mme distribution.
On peut se ramener la loi de Fisher-Snedecor dans quatre cas simples:

A(p, m, 1)
A(p,
Ill,
1)
m-p+1
Il
F(p ~
111 -
1)
1 - A(1, m, Il) A(1,m, n)

--JA(p,
111,
= - F(n; m)
JJl
2)
-lA(p, m, 2)
1 - -JA(2,
Ill,
p = - - - - 1 F(2p ; 2(m - p
111
1)
r)
= --F(2n; 2(m - 1)
Il
111-1
S 111 est grand on peut utiliser l'approximation de Bartlett :
[/II - ~ (p -
Il
1)] ln
A(p,
Ill,
/1) =
X~/
DEUXIME PARTIE
1Statistique exploratoire
Description
unidimensionnelle de dorlnes ,. numerlques
La plupart du temps les donnes se prsentent sous la forme suivante : on a relev sur n units appeles individus p variables numriques. Lorsque Il et p sont grands on cherche synthtiser cette masse informations sous une forme exploitable el comprhensible. Une .. "premire tape consisre dcrire sparment les rsultats obtenus pour chaque variable: c'est la description unidimensionnelle, phase indispensable, mais insuftisante (voir chapitre suivant), dans toute tude statistique. On considrera donc ici qu'on ne s'intresse qu' une variable X, appele encore caractre, dont on possde Il valeurs XI' Xl, . , XIf' La synthse de ces donnes se fait sous forme de tableaux, de graphiques et de rsums numriques. C'est ce que l'on appelle couramment la statistique descriptive )j dout l'usage a t considrablement facilit par l'informatique.
5.1
TABLEAUX STATISTIQUES
Leur prsentation diffre lgrement selon la nature des variables.
S.1.1
Variables discrtes ou qualitatives
Pour chaque valeur ou modalit Xi de la variable on note 1li le nombre d'occurrences (ou effectif) de Xi dans l'chantillon,kl1i = 1l,etfr la frquence correspondantefr = n/11 (on utilise en fait Je plus souvent le pourcentage lOOfr.). Le tableau statistique se prsente en gnral sous la forme:
_ Exemple 1 : Le recensement gnral de la population franaise en 1999 donne la rpartition des 23 810 161 mnages, selon la variable X nombre de personnes du mnage.
Rappelons qu'un mnage est compos de toutes les personnes habitanl normalement dans un Jogement, quels que soient leurs liens de parent. Les mnages sont donc ici les individus ou units statistiques.
110
51111i11i11Description unidimensionnelle de donnes numriques
TABLEAU
5.1 Pourcentage 31.0

31.1
Nombre de personnes
1 2
3
4
16.2 13.8
5
6 et plus
5.5
2.4
..
j=l
5.1.2
Variables continues ou assimiles
On regroupe Iesvaleurs en k classes d'extrmits eo, el' ... , C\ et l'on note pour chaque classe lei ~ h ei] l'effectif l1i et la frquence.t ainsi que les frquences cumules Fi ou proportion des individus pour lesquels X < ei' Le tableau statistique se prsente en gnral comme suit:
L.t,
fi
]
Ville Taux tuxe Zone d'habitation Gographique
Par convention, la borne suprieure d'une classe est toujours exclue de cette classe.
_ Exemple 2 : Le magazine Capital a donn pour 100 villes franaises les valeurs du taux de la taxe d'habitation.
TABLEAU
5.2
Ville
Zone Taux taxe d'habitation Gographi1luC
Aix-en-Provence Ajaccio Amiens Angers Annecy Antibes Antony Argenteuil Arles Asnire!Hiur-Seine
18.94
22.06 17.97 18.86 14.97
Sud-Est
Sud-Esl
Aubervilliers Aulnuy-sous-Bois Avignon Beauvuis Belfort Besanon Bziers Blois Bordeaux Boulogne-Billancourt
11.45 15.59 12.41

15.37
I1e-de-France Ilc-de-France Sud-Est Nord Est
Nord Ouest Sud-Est Sud-Est 11 e-de-France Ile-de-France Sud-Est

Ile-de-France
16.:!O
20.20
14.30
11.07 16.90
Est
Sud-Ouest Centre Sud-Ouest lIe-de-France
22.14
17.07
24.49
10.13
22.11
9.46
5l1li Description unidimensionnelle de donnes numriques
111
Ville
Taux taxe Zone d'habitutinn Gographique

\5.77 25.99 [5.82 16.12 23.36 19.71 17.30 18.71 [5.09 17.30 17.37 14.00
Ville
Zone Taux taxe d'habitntion Gographique 10.30 21.93 19.39
Bourges Brest Brive-la-Gaillarde Caen Calais Cannes Chalon-sur-Saone Chambry Champigny/Marne Charleville-Mzires Chteauroux Cholet Clermont-Ferrand Colmar Colombes Courbevoie Crteil Dijon Drancy Dunkerque Evreux Forncnay-sous-Bois Grenoble Ivry-sur-Seine La Rochelle La Seyne-sur-Mer Laval Le Havre Le Mans
Centre Ouest Centre Ouest Nord Sud-Est Centre Sud-Est lIe-de-France Est Centre Ouest Centre Est lIe-oe-France Ile-de-France I1e-oe-France Centre lIe-de-France Nord Ouest lIe-de-France Sud-Est Ile-de-France Centre Sud-Esl Ouest Ouest Ouest Nord Centre Ouest Sud-Est
Maisons-Alfort Marseille Mrignac Melz Montauban Montpellier Montreuil Mulhouse Nancy Nanterre Nantes Neuilly-sur-Seine Nice Nimes Niort Noisy-le-Grand Orlans Paris Pau Perpignan Pessac Potiers Quimper Reims Rennes Roubaix Rouen Rueil-Malmaison Saint-Denis Saint-Etienne St-Maur-des-Fosss Saint-Nazaire Saitll-Quentin
Ile-oe-France Sud-Est Sud-Ouest Est Sud-Ouest Sud-Ouest tle-de-Fnmce Est Est Ile-oc-France Ouest Ile-oc-France Sud-Est Sud-Ouest Centre Ile-oe-France Centre lIe-de-Fnmce Sud-Ouest Sud-Ouest Sud-Ouest Centre Ouest Est Ouest Nord Ouest He-de-France Ile-de-France Sud-Est lIe-de-France Ouest Nord
16.62
12.n
21.40 13.67 16.65 18.21 6.13 21.13 3.68 19.75 30.13 I9.IY 16.91 10.05 9.15 21.31 15.87 10.71 11.55 16.67 14.98 21.75 17.97 20.97 14.93 9.17 19.90 10.81 16.36 10.46
15.85 16.31
14.16 4.86 17.58 18.75 10.42 28.69 11.17 12.10 19.43 9.16 18.75 25.98 19.48 17.67 17.54 36.17 17.24 16.74 19.09
Lille
Limoges Lorient Lyon
112
5_Description unidimensionnelle de donnes numriques
Ville
Taux taxe d'habitation

19.32 12.38 22.04 19.37 19.23 33.61 20.79
Zone
Gograph<)ue lIc-de-France Ilc-de-France Est Sud-Est Sud-Ouest
Nord
Ville
Taux taxe d 'hahillltion

18.11 16.25 18.70 8.95 29.96 19.85 Il.50
Zone
Gographique Est Sud-Est Sud-Est lIe-de-France Nord Sud-Est Hc-de-Francc
,
...
Sarcelles Sartrouville Strasbourg Toulon Toulouse Tourcoing Tours
Troyes Valence Venissieux Versailles Villeneuve-d'Asq Villeurbanne Vi try-s ur-Sei ne
Centre
On ndduitpour la variable taux de taxe d'habitaton, Je tableau SUIvant obtenu aprs '''',. en classes d'amplitudes gales 5, qui permet dj de mieux comprendre le phnomne: on voit clairement une concentration des valeurs (84 %) dans l'intervalle [10 ; 251.
TABLEAU
5.3
'.
point Classe Limite Limite Effectif Frquence Effectif Frquence cumul infr. supr. central cumule
l
2 3
4
5 6 '7
8
0.0 5.0 10.0 15.0 20.0
25.0
30.0 35.0
5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0
2.5 7.5 12.5 17.5 22.5 27.5 32.5 37.5
6 17 47 20 5 2 1
0.0200 0.0600 0.1700 0.4700 0.2000 0.0500 0.0200 0.0100
8 25 72
92 97 99 100
0.0200 0.0800 0.2500 0.7200 0.9200 0.9700 0.9900 1. 0000
, , , , Dans d autres cas, on peut recounr a des classes d amplitudes megales.
5.2 5.2.1
REPRSENTATIONS GRAPHIQUES Barres et camemberts
Pour des variables qualitatives modalits non ordonnes, il existe une grande varit de diagrammes. Les plus rpandus sont: les diagrammes en barres (verticales ou horizontales) : les barres sont de longueurs proportionnelles aux frquences des catgories, leur paisseur est sans importance. Les camemberts (en anglais pie-chart) : chaque catgorie est reprsente par une portion de superficie proportionnelle sa frquence.
SIIIIDescripton unidimensionnelle de donnes numriques
113
Camembert pour Zone Gographique
18.00%
10.00%,
14.00%
ml Centre D Est []] lIe-de-France IS'] Nord D Ouest lEI Sud-Est El Sud-Ouest
FIGURE
5.1
Diagramme en btons pour Zone Gographique
centre~.~~
Est
lIe-de-France Nord Ouest
Sud-Est
Sud-Ouest
10 15 20 25 30
Pourcentages
FIGURE
5.2
Pour des variables numriques discrtes, on utilisera de prfrence un diagramme en barres verticales comme celui-cl:
Nombre de personnes par mnage
40
(Il
ID
30
ra
01
20
:::l
a.. 10
O~
____________________________________________ 1""",~",,,i~;l::2: 1
2
3
FIGURE
6 et plus
5.3
114
SDescription unidimensionnelle de donnes nIJrn"'I'"I"111"~
5.2.2
Histogrammes
Analogues la courbe de densit d'une variable alatoire, un histogramme est un graphique barres verticales accoles, obtenu aprs dcoupage en classes des observations d'une variable continue. La surface de chaque barre, encore appele tuyau d'orgue, doit tre proportionnelle la frquence de la classe. Pour des classes d'gale amplitude, la hauteur de chaque barre est proportionnelle la frquence. Voici quelques histogrammes de la distribution des taux de taxe d'habitation: tous ont pour proprit que la surface sous l'histogramme vaut 1.
60
U'}
50
1/) (1)
50
.$ 40
ai 30
ID
40
Cl
"1 3O
a 20 a..
H
5 20
a.. 10
0 0 10 20 30 40 0 10 20 30 40
Taux de taxe d'habitation Taux de taxe d'habitation
0
ID
10 0
50
1/)
50
1/)
~ 30
ID O'l
40
40 30
ID
~
C
Cl
5 20
a.. 10
0
ID
(])
~ 20
0
a.. 10
0 10 20 30 40 0 0 5.3
bis
Taux de taxe d'habitation

FIGURE
10
20
30
40
On constate qu'un trop grand nombre de classes
brouille )) l'information.
La dtermination du nombre de classes d'un histogramme est dlicate et on ne dispose pas de rgles absolues. Un trop faible nombre de classes fait perdre de l'information et aboutit gommer les diffrences pouvanl exister entre des groupes de l'ensemble tudi. En revanche un trop grand nombre de classes aboutit des graphiques incohrents : certaines classes deviennent vides ou presque, car 11 est fini. On peut d'ailleurs critiquer le fait de reprsenter par une fonction en escalier la distribution d'une variable continue: l'histogramme est une approximation assez pauvre d'une fonction de densit et il serait plus logique de chercher une fonction plus rgulire. La thorie de l'estimation de densit permet de proposer des solutions ce problme (voir chapitre 13, paragraphe 13.9.3). Une estimation de densit calcule pour 100 abscisses par la mthode du noyau (ici un noyau cosinus avec une largeur de fentre gale 60 % de l'tendue) fournit une information plus claire, et la forme de la courbe suggre une distribution gaussienne.
_n~ .. ,. .. inf'IQn
unidimensionnelle de donnes numriques
115
0.08 0.06
'(i)
~
c
(J)
0.04 0.02 0 0
10
20
30
40

FIGURE
5.4
M.eux qu'un histogramme. une courbe de densil estime permeL des dlecter des modes multiples, correspondant des mlanges de distribution (donnes provenant de plusieurs populations diffrentes).
5.2.3
Bote moustaches ou box-plot
Ce diagramme, introduit par J.W. Tukey, est une reprsentation synthtique extrmement efficace des principales caractristiques d'une variable numrique. Il en existe plusieurs variantes, mais celle dcrite ci-dessous est la plus complte. La bote correspond la partie centrale de )a distribution ; la moiti des valeurs comprises entre le premier et le troisime quartile QI et Q1 (voir plus loin). Les moustaches s'tendent de part et d'autre de la bote jusqu'aux valeurs suivantes: gauche jusqu' QI - 1.5(Q3 - QI) si il existe des valeurs encore plus petites, sinon jusqu' la valeur minimale; droite jusqu' QI + 1.5(Q3 QI) si il existe des valeurs au-del, sinon jusqu' la valeur maximale. Les valeurs au-del des moustaches repres par des * sont des valeurs hors nonne ventuellement suspectes ou aberrantes mais pas ncessairement. Ainsi le diagramme en bote moustaches montre clairement l'existence de points atypiques pour le taux de taxe d'habitation, ici 3 valeurs trs basses, et 4 valeurs trs leves. Il devient alors intressant d'identifier les individus correspondants.
Bote moust;1ches
10
20
FIGURE
30
40
5.5
116
51111l11Description unidimensionnelle de donnes numriques
Un autre grand intrt de ces diagrammes est de pouvoir faire facilement des comparai_ sons entre sous-groupes de donnes: il est plus simple de comparer des diagrammes en bote que des histogrammes. La figure suivante pennel de comparer les distributions du taux taxe d'habitation selon la rgion:
40
30
20
"""'""fd
__________________________________________
@
10
o~
ID
"E o
Z
ID
ID :::J
FIGURE
5.6
5.2.4
Courbe de concentration
Apple galement courbe de Lorenz, elle est utilise principalement en staustlque conomique pour tudier les ingalits de rpartition d'une grandeur positive cumulable (revenu, chiffre d'affaire, ... ) (fig. 5.7).
G
2"
o
FIGURE
1 F
5.7
lIB Exemple: Soit une distribution de revenus X et soit M la masse totale des revenus. A chaque valeur du revenu X, on associe un point de coordonnes F(x) en abscisse: proportion des individus gagnant moins de x et G(x) en ordonne o G(x) reprsente la proportion de Ivl correspondante, c'est--dire le rapport:
Masse des revenus < x Masse totale
s_Description unidimensionnelle de donnes numriques
117
Cette courbe est toujours en dessous de la premire bissectrice car F(x) > G(x) pour une distribution non dgnre: il suffit de remarquer que les individus qui gagnent moins de x, qui sont donc en proportion F(x), ne peuvent gagner globalement autant que les IOOF(x) % suivants. La mdiale ,lU est la valeur de la variable qui partage en deux la masse totale de la variable. On a donc: Mdiale> Mdiane
5.2.4.1
Proprits mathmatiques
Supposons connue la distribution thorique de X de densitf(x). L'abscisse d'un point de la courbe est:
F(x) =
L'J(t) dt
L'yU) dt f"I.f(t) dl
L'ordonne correspondante est:
Si X est une variable qui prend ses valeurs entre Xmin et xma )( la courbe de concentration est
donc dfinie en coordonnes paramtriques :
- = .t(x)
dx
q
dF
= ~lx
111 x"''"
fU) dt
dq dx
= ~ xfex)
nl
On a:
dq dF
= dl]
dx dx dF
= .=:
111
On remarque que - = 1 si x = m. dF La courbe possde alors une tangente parallle la premire bissectrice. Aux extrmits du carr les pentes des tangentes sont Si X varie de 0 ''X, en particulier, les pentes sont 0 et verticale l'arrive).
Xmill
dq
et Xma;l respectivement.
JJ1
00
(tangente horizontale au dpart,
5.2.4.2
Indice de concentration ou indice de Gin;
Plus la distribution de X est ingalement rpartie, plus la courbe s'loigne de la premire bissectrice (distribution ultra concentre: cas o les 9/10 des individus reprsentent moins de 1/10 de la masse et o le 1/10 restant concentre la quasi-totalit de la variable).
118
5_Descripton unidimensionnelle de donnes numriques~
Un indice de concentration propos par Gini est Je double de la surface comprise entre courbe et la bissectrice (Hg. 5.8).
C ,-----------c== B
o
FIGURE
5.8
Indice de Gini thorique

En prenant la courbe symtrique par rapport la diagonale, on a :
G
G
= aire OEBA
o ()
- aire ODBA ;
= llFdq -l'qdF;
en multipliant par ln les deux membres:

mG
L:"
F(x)xf(x) dx -
111 L:"q(X)f(X)
dx
mG =
L:xf"
(x - yl.f(x)f(y) clx d)'
Comme
L:xL:"(X - y)f(x)f(y) dx cly = O. il vient:

mG =
iL:"f.
X
_>: _::<:
(x - y)f(x)f(y) clx cly
IJ+::<:f"" (y + 2:
_>:
- x)j(x)j(v) dx d)'
Soit:
mG =
'1J+:::J+>: lx 2
y !f(x)f(y) dx dy
l :2 ~I
-"",,~ ... ,..,.. ,nf'lon
unidimensionnelle de donnes numriques
119
I s'appelle la diffrence moyenne, d'o:
G=-
.6.,
2m
Indice de Gn d'un chantillon

Si toutes les valeurs Xi de la distribution sont distinctes, la diffrence moyenne empirique vaut:
d'o:
= --"-----n(n -
1).I
5.3
RSUMS NUMRIQUES
Il est indispensable en gnral de rsumer une srie d'observations par des indicateurs typiques dont le plus connu est la moyenne arithmtique. II est cependant toujours insuffisant de rsumer une srie par un seul indicateur. Voici une liste typique de rsums numriques pour la variable taux de taxe d'habitation
TABLEAU
S.4
Effectif Moyenne Mdiane Variance cart-type Minimum Maximum tendue 1'''[' le 3 e quartile Intervalle inter-quartiles Asymtrie Aplatissement Coef. de variation
100 17.7707 17.625 30.2707 5.5019 3.68 36.17 32.49 15.035 20.585 5.55 0.368299 4.46798 31.1164 %
120
S_Description unidimensionnelle de donnes numriques
5.3.1
Caractristiques de tendance centrale

Il
Il s'agit en quelque sorte de dfinir une valeur c autour de laquelle se rpartissent les observations (fig. 5.9). Les plus usites sont la mdiane, la moyenne arithmtique et le mode.
.. ..
5.3.1.1
La mdiane
1:
FIGURE
5.9
C'est la valeur M telle que F(M) = 0.50. SI les observations sont ranges par ordre croissant M x(n 1)/2 pour Il impair. Si Il est pair on prendra conventionnellement:
Lorsque l'on ne connait qu'une rpartition en classes (situation viter mais que l'on rencontre si l'on travaille sur des documents rsultant d'un traitement pralable) on cherche la classe mdiane [Ci 1. e,J telle que:
F(ei- 1)
< 0.5 et
F(ej)
> 0.5
et on dtermine M par interpolation linaire :
M=e/ - I + a -j; - 1
L'interpolation linaire revient supposer une distribution uniforme l'intrieur de la classe mdiane. La mdiane est un indicateur de position insensible aux variations des valeurs extrmes (elle ne dpend en fait que des valeurs centrales de l'chantillon tud) mais n'a que peu de proprits algbriques.
0.5 -
5.3.1.2
La moyenne arithmtique
l
X= -
2: X;
Il
ou
:x = 2: PiJ: i
i= 1
1/
pour des donnes pondres
J1 i=1
Pour des donnes rparties en k classes la formule approximation de la moyenne
2: j;c;
i=1
avec
Ci
= ---....;. donne une

2
x mais cette situation doit tre vite.
La moyenne arithmtique est fonction de toutes les observations mais est sensible aux valeurs extrmes: c'est un indicateur peu robuste bien qu'universellement utilis.
s_Descrpcion unidimensionnelle de donnes numriques
121
5.3.1.3
Le mode
Valeur la plus frquente pour une distribution discrte; classe correspondant au pic de l'histogramme pour une variable continue. Sa dtermination est malaise et dpend du dcoupage en classes. Pour une rpartition parfaitement symtrique on a : Moyenne = mode = mdiane
5.3.2
Caractristiques de dispersion
Plus encore que la tendance centrale, la dispersion est la notion cl en statistique car si tous les individus avaient la mme valeur il n' y aurait plus de raisonnement statistique ...
5.3.2.1
L'tendue ou intervalle de variation
Dpendante des valeurs extrmes c'est un indicateur instable.
5.3.2.2
IQ3 -
L'intervalle interquartile
Les quartiles QI, Q2' Q3 tant dfinis par FCQI) = 0.25 F(Q2) = 0.50 et F(QJ) 0.75, QI! est un indicateur parfois utilis pour mesurer la dispersion: il est plus robuste que l'tendue.
5.3.2.3
La variance et l'cart ..type
Ce sont les deux mesures les plus frquemment utilises. La variance

s2
est dtinie par :

.0;1
= - '2:(Xi
Il i=1
Il
X)2
ou
L'cart-type s s'exprime dans la mme unit que la variable tudie. s Le coefticient de variation exprime en pourcentage le rapport =. Il n'a de sens que si x> O. x On a les formules suivantes:
- 2,;X f - (x)Il
1~
(moyenne des carrs) moins (carr de la moyenne) ;
s:!
=! '2:(Xi
Il
a)2 - (x - a)"l, thorme de Konig-Huyghens.
Ces deux formules ne prsentent d'intrt que pour des calculs la main sur des petites sries et doivent tre prohibes pour des calculs automatiques sur des grandes sries, les sommes de carrs pouvant conduire des dpassements de capacit ou des pertes de prcision.
122
5_Descripton undimensionnelle de donnes numriques
Il
L'algorithme suivant permet de calculer la somme des carrs des carts SC la moyenne valeurs par ajustement progressif: chaque nouvelle valeur .\j introduite entrane une moditica_ tion simple et positive de la somme des carrs calcule pour les j 1 valeurs dj introduites: SC = 0
pour j = 2, 3, ... , Il faire :

1 _ 1) (jXj
SC
d'o quandj
Il,
= SC + j(j
T)2
Till el S2 = SC/n.
5.3.3
Cohrence entre tendance centrale et dispersion
Xi
Nous pouvons considrer qu'une valeur centrale c doit tre proche de ('ensemble des 1 Il 1 et minimiser une fonction du type - Ld(c; Xi) o cl est un cart. D = - Ld(c; xJ dfinit
"i=1
Il
alors une mesure de dispersion des observations autour de c. Le choix d'une certaine forme analytique pour d entrane alors l'usage simultan d'une mesure de tendance centrale et d'une mesure de dispersion cohrenles :
si d(c;
Xi)
= (c -
si d(c ; Xi) Le couple (x,

S2)
xy on a c = x et D = .,2 ; le -.tA on trouve c = M, c'est--dire la mdiane et D
~ 2:lxi - MI.
est donc cohrent avec l'usage de distances euclidiennes.
Gomtriquement si l'ensemble des observations de X est considr comme un vecteur de !Rif :
x=
chercher une valeur centrale c revient chercher une variable constante c'est--dire un vecteur:
1
=c
= cl
5_Description unidimensionnelle de donnes numriques
123
le plus proche possible de x au sens d'une certaine topologie. En munissant ~l! de la mtrique euclidienne usuelle, sur ~ (fig. 5.10).
x est la mesure de la projection de x
FIGURE
5.10
5.3.4
Caractristiques de forme
Elles sont utiles notamment pour vrifier rapidement le caractre normal d'une distribution (on sait que le coefficient d'aplatissement thorique de la loi normale est 3) : coefficient d'asymtrie: 1'1 = 1Il]/::;3 ; coefficient d'aplatissement: 1'2 1114/~,4;
o
J1l3
= 1 2:(x;
Il
- X)3 et /114
= ~ 2:CXj 11
X)4.
Les notations ne sont pas universelles et 1'1 est pmfois not auteurs utilisent 1'2 - 3.
~, 1'2 not b1 . Certains
Description
bidimensionnelle et mesures de liaison entre variables
Aprs les descriptions unidimensionnelles on tudie gnralement les liaisons entre les variables observes: c'est ce que l'on appelle communment l'tude des corrlations. Les mthodes et les indices de dpendance varient selon la nature (qualitative, ordinale, numrique) des variables tudies.
6.1
LIAISON ENTRE DEUX VARIABLES NUMRIQUES

Il
Supposons que l'on observe pour 11 individus deux variables X et Y. On a donc

(Xi; Yi) ou encore deux vecteurs x et y de ~II avec:
couples
x=
y=
XII
_ Il
6.1.1
tude graphique de la corrlation
Afin d'examiner s'il existe une liaison entre X et Y on reprsente chaque observation i comme un point de coordonnes (Xi, Yi) dans un repre carlsien. La forme du nuage de points ainsi trac est fondamentale pour la suite: ainsi la tigure 6.1 montre: a) une absence de liaison; b) une absence de liaison en moyenne mais pas en dispersion; c) une corrlation linaire positive; d) une corrlation non linaire.
126
6_0escription bidimensionnelle et mesures de liaison entre variables
y~.
~
x
(a) (b)
x
(c)
FIGURE 6.1
x
(d)
_ On dit qu'il y a corrlation si il y a dpendance en moyenne: X = x fix la moyenne y est fonction de x. Si cette liaison est approximativement 1inaire on se trouve dans le cas de la corrlation linaire. Rappelons que la non corrlation
n~est
pas ncessairement l'indpendance.
6.1.2
le coefficient de corrlation linaire
Ce coefficient dit de Bravais-Pearson}) mesure exclusivement le caractre plus ou moins linaire du nuage de points.
6.1.2.1
Dfinition
ST
et Sy sont les carts-types de
et y :
s-: = \
-
L( ". - - , v)/1
~
Il i== 1
Le numrateur - L(X i - X)(Yi - y) est la covariance observe.

Il i= 1
1/
De mme que pour p (voir chapitre 3) dont il est la version empirique: -1 $' r::; l et 1 ri = l est quivalent l'existence d'une relation linaire exacte: lL\; + bYi + C 0 "iIi. Si l'on considre dans l' espace ~" les deux vecteurs :
XI -
X
X
'\'1 - y
)'2 -
X2 -
et
XJI
YII -
r est le cosinus de l'angle form par ces deux vecteurs comme un calcul lmentaire le montre, d'o ses proprits.
..... _~~ .. inl'lnn
127
Du bon usage du coefficient r

r ne mesure que le caractre linaire d'une liaison et son usage doit tre rserv des o les points sont rpartis de part el d'autre d'une tendance linaire (fig. 6.]c du paragraphe prcdent). Par contre, la figure 6.2(1) montre les risques d'un usage inconsidr du coefficient de corrlation linaire r. On notera en particulier que r est trs sensible aux individus extrmes et n'est donc pas robuste .
..
.0. ::.
A .:.
rA=0.BB2 r9=O,951
..
.. ..
"
B
r=0.778
r=O
.. 0
DO:
..
.....
0
.....
"
"
""
rA 0.913 r6=0.956
" " ..
..
""
C "".0
rc =0.899 ro=0.915
r=0.626
r=0.981
FIGURE
6.2
Les 4 nuages de la figure 6.3 ont mmes moyennes, mmes variances et mme coefficient de corrlation :
x
r
= 9
7.5
10.0
0.82
s~ = 3.75
Seul le premier nuage justifie l'usage de r.

IIIIIIiICailliez el Pags. 1976.
128
6_Description bidimensionnelle et mesures de liaison entre
V;:Jrl~I'\JI~":C('1~"!
10
..
..
....
10
..
..
..... ..
15
20
..
.......
FIGURE
6.3
Notons pour finir que la corrlation n'est pas transitive: x trs corrl avec y, y corrl avec z, n'implique nullement que x soit corrl avec z.
6.1.2.3
Matrice de corrlation entre p variables

11
Lorsque l'on observe les valeurs numriques de p variables sur en prsence d'un tableau X 11 lignes et p colonnes: 2 2
j ... p
individus on se
X=
-.-j
11
x1 est la valeur prise par la variable n j

11' A=I--.
11
sur le i me individu.
Le tableau des donnes centres Y s'obtient en utilisant l'oprateur de centrage'
t;_IDE~SCIlptJOn bidimensionnelle et mesures de liaison entre variables
129
A est la matrice
au:= 1
Il
n de terme gnral:
,
11
a IJ ..
= -Il
si
'* j.
..,
Si
Sl2
La matrice des variances et covariances des p variables :
SIl'
S2
S1p
V=
o:
est telle que V
= - Y/Y.
11
La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :
R=
En posant:
On a R
= DI!s VDI/.,'
R est identique la matrice de variance-covariance des donnes centres et rduites. R rsume la structure des dpendances linaires entre les p variables. Comme V, R est une matrice symtrique positive.
130
6_0escription bidimensionnelle et mesures de liaison entre
Vrlr'I:I"'I"'ft;;,)!,~,
II1II Exemple: Les rsultats suivants concernent 6 variables du tableau de donnes au chapitre 17 et donnant pour 18 vhicules des caractristiques techniques.
ugIUfanf@!
La matrice V est calcule avec
Il -
1 en dnominateur:
Matrice de variance et covariance V

PUIS LAR CYL LON 139823.5294 6069.7451 5798.7059 1251.29'11 ,115.1928 388.9118 56.3922 6069.7451 288.9118 488.7353 99.7647 5798.7059 56.3922 99.7647 28.2353 1251.2941 521. 7059 40104.2941 2135.6961 2628.3824 208.8791 127.7353 30.5098 3018.5686 POIDS 40401.2941 2135.6961 2628.3824 521.7059 18757.4412 794.1078
CYL PUIS LON LAR POIDS VITESSE
La matrice R est la suivante: Matrice de corrlation R (Bravais-Pearson)

CYL 1.00000 0.79663 0.70146 0.62976 0.78895 0.66493 PUIS 0.79663 1.00000 0.64136 0.52083 0.76529 0.84438 LON 0.70146 0.64136 1.00000 0.84927 0.86809 0.47593 LAR 0.62976 0.52083 0.84927 .00000 0.71687 0.47295 POIDS 0.78895 0.76529 0.86809 0.71687 1.00000 0.47760
CYL PUIS LON LAR POIDS VITESSE
On constate que toutes les variables sont corrles positivement, avec certains COi~ttlcii~nt:~' trs levs : il existe donc une forte redondance entre les variables, ce qui conduit phnomne dit de multicolinarit (voir chapitre 17). La tlgure suivante, appele matrice de dispersion. est trs utile: elle permet en un graphique de juger des liaisons entre toutes les variables.
.
cylindre

... :.-.
.......
~
,,::
.... :t
:-" :
..... ....
41.
_S
i .. :.

1
il
.1,,'"
a. -.-
41 :
~..
;.
.. .
~
pUissance .""... _
:.. .... .. .,.,.

: 1
"
.1-
.,., :
1 _ .a, . '
.. .
..
. . :. . . .
Il
~ : _ ..... longueur
..
.......
.:-.,..
....
.. .. "," ..... , ",," .. .. eI',;...... ::. . . - :. ..". .... .. . .. ...... -.. ....-. . .. .: ..
........
"
.. _:- .... .. .:' ..

-.
.."
.... .....
.!
largeur
a.
.. 'IF"
" ,p":
.....fJA
. . . . ...
.
1
l'.
poids
..:,. ..."
"
..
. ... ".
II'
" " ,,"'1
'"..
..
..
vilesse
FIGURE
6.4
Matrice de dispersion
n~rr"l:nrl("~n
131
Caractre significatif d'un coefficient de corrlation

En admettant que l'on se trouve dans le cas o l'usage de r est justifi, partir de quelle la liaison est-elle significative? En anticipant sur la thorie des tests on raisonne comme suit: si les Il observations avaient prleves au hasard dans une population o X et Y sont indpendantes (donc o p = 0) quelle seraient les valeurs possibles de r ou plus exactement la distribution de probabilit de la variable R qui correspond cet chantillonnage? Lorsque p
= 0 et que les observations proviennent d'un couple gaussien la distribution de
R est relativement facile obtenir.

On montre que:
r=::::::R=::::::~n
- 2 sUt une loi TII -
Par changement de variable on en dduit alors directement la densit de R si p
=0:
fer)
2) B (1 .- 2' 2
Il -
(l -
1'2)<11- -HI:!
Pour Il = 4, on remarquera que R suit une loi uniforme sur [ -1, 1] et donc que toutes les valeurs possibles sont quiprobables. On a: Pour Il > 100, la loi de R est approxime de trs prs par une loi de Laplace-Gauss:
LG(O;_~)
"'Ill -
Sinon la loi de Rest tabule, Table A.9. Ainsi au risque 5 % on dclarera qu'une liaison est significative sur un chantillon de 30 observations si 1 ri > 0.36. On remarquera que le seuil de signification dcrot quand Il crot; le fait de trouver que r diffre significativement de 0 ne garantit nullement que la liaison soit forte (voir chapitre 16). Lorsque p est diffrent de zro la loi exacte de R bien que connue est trs difficilement exploitable on notera cependant que:
E(R)
P _ p(l
211
p2)
R est biais pour p
VeR) = _(1_---'-_ Tl - 1
132
6_0escription bidimensionnelle et mesures de liaison entre variables
La figure 6.5 donne les distributions d'chanlillonnage de r pour diffrentes valeurs de p~ avec Il = 10. On ne peut pas faire directement une approximation normale. On utilisera plutt Je rsultat suivant conduisant une approximation correcte ds que Il > 25.
3
-1
-0.5
o
FIGURE
0.5
6.5
+ -ln - 2 l-R
1 (1
R)
II-X
LG -ln + ' - 2 I-p'~
(1 1
1)
Z est la transforme de Fisher de R (table A.10). On notera que VeZ) est indpendant de p. Cette transformation permet de tester des valeurs a priori pour p et de trouver des intervalles de confiance pour p partir de R. On peut galement utiliser l'abaque fourni en annexe
(table A 1.9 bis). Lorsque le couple (X, Y) n'est pas gaussien les rsultats prcdents restent utilisables Il > 30), mais le fait de trouver que r n'est pas signiftcativement diffrent de 0 n'entrane pas ncessairement l'indpendance.
condition que n soit grand (en pratique
6.1 .4
Corrlation partielle
Il arrive frquemment que la dpendance apparente entre deux variables soit due en ralit aux variations d'une troisime variable. La littrature statistique abonde en exemple de tllUsses corrlations surprenantes entre phnomnes varis qui disparaissent lorsque l'on fixe une troisime variable (souvent non alatoire comme le temps) ainsi de la corrlation entre le nombre de maladies mentales dclares chaque anne et le nombre de postes de radio installs. Les coefficients de corrlation partielle constituent un moyen d'liminer l'influence d'une' ou plusieurs variables. Ces coefticients peuvent tre introduits de diverses faons en particulier dans le cadre de la rgression multiple (chapitre 17). Nous en donnerons ici deux prsentations, l'une issue: du modle gaussien, r autre gomtrique.
6- Description bidimensonnelie et mesures de liaison entre variables
133
6.1.4.1
Le modle normal p dimensions
Soit un vecteur alatoire (XI_ X2, Xp ) suivant une loi Np (!-L, ~). En appliquant les rsultats du chapitre 4, paragraphe 4.2.4, on sait que la loi du couple XI X~ conditionne par X3 Kt ... Xp est une loi normale deux dimensions. On obtient alors le coefficient de corrlation partiel (ou conditionnel) P 12.3.\ .. _l" partir de la matrice des covariances partielles. Un calcul simple montre qu'en particulier pour p = 3 :
Cette formule se gnralise et permet de calculer de proche en proche les divers coefficients de corrlation partielle :
pour oblenir PXlx~.r1x4 il suffit de remplacer dans la formule prcdente les corrlations simples par les corrlations partielles:
On dfinit alors formellement le coefficient de corrlalion linaire partielle empirique en remplaant p par r.
. 6.1.4.2
Corrlation entre rsidus
Ayant dfini r.t!.\). x, par les formules prcdentes, il est facile de vrifier que ce coefficient mesure la corrlation entre le rsidu de rajustement linaire de XI sur X3 et celui de l'ajustement de X2 sur X3'
Interprtation gomtrique dans
lR'I :
Nous supposerons
Xb X2- X3
centres.
YJ est la projection de Xl sur X].

X est la projection de
XI
sur le plan
X2'
x] (fig. 6.6).
o
FIGURE
6.6
On a alors cose = et cos,!, = plan perpendiculaire .'\:'3'
rXt,r!._,'}
c.p est la projection de l'angle entre XI et Xl sur un
134
6_0escription bidimensionnelle et mesures de liaison entre
v;lrll:> .... I.~,.;',"
Xl
On peut vritier ainsi que r x, .,! d l est le coefficient de corrlation linaire entre la partie non explique linairement par X3 et la partie de X2 non explique linairement par x3 voit que si x] est trs voisin de Xl la corrlation partielle est voisine de 0 car XI presque pas d'information supplmentaire sur XI une fois X3 connu.
6.1.4.3
Signification d'un coefficient de corrlation partielle
Dans le cas gaussien, on dmontre que la loi du coefficient de corrlation partielle est mme que celle d'un coefficient de corrlation simple mais avec un degr de libert rJl"",,-.,.. ;;:, de d, nombre de variables fixes. Donc. ~ ~11
'J 1 1'2
d - 2 sut un T,l _ il
2,
ce qui pennet de tester le caractre
u.c ........ '...... lll:::'./
d'une liaison partielle.

1IIIIIIII Exemple: (voir les donnes compltes au chapitre 17 Rgression multiple) l'chantil1on de 18 automobiles, lam;;lqce de corrlation entre prix, vitesse et puissance est'
Prix Prix Vitesse Puissance
Vitesse 0.58176
1
Puissance
[O.5~176
0.79870
0.79870]
0.84438 1
0.84438
Au seuil 5 % toutes ces corrlations sont significatives (valeur critique 0.468). Cependant, le coefficient de corrlation entre le prix et la vitesse sachant la puissance vaut:
-;================ =
~(l
- (0.79870P)(1 - (0.84438)2)
0.58176 - 0.79870 X 0.84438
3 .287 9
La liaison a chang de signe mais elle n'est plus significative (valeur critique 5 % : 0.482). _
6.2
CORRLATION MULTIPLE ENTRE UNE VARIABLE NUMRIQUE ET P AUTRES VARIABLES NUMRIQUES
6.2.1
Xl,
Dfinition
.
Soit une variable numrique y et un ensemble de p variables galement numriques;
x 2,
xl'.
Le coefficient de corrlation multiple R est alors la valeur maximale prise par le coeff: , cient de corrlation linaire entre y et une combinaison linaire des x j ;
On a donc toujours 0
:$
:$
1.
.... _"_~;,,,,,,,,,.,n bidimensionnelle et mesures de liason entre variables
135
R :::= 1 si il existe une combinaison linaire des x j telle que:
Y = an
2: ajx i
j= 1
6.2.2
Interprtation gomtrique
Rappelons que le coefficient de corrlation est le cosinus de l'angle form dans ~1! par des variables centres. R est donc le cosinus du plus petit angle form par y (centre) el une combinason linaire des Xi centres. Considrons le sous-espace W de !R;II (de dimension au plus gale p les combinaisons linaires des xi et la constante 1.
1) engendr par
R est alors le cosinus de l'angle B form par la variable centre y - yet W, c'est--dire l'angle form par y - y et sa projection orthogonale y* y sur W (fig. 6,7).
w
FIGURE
6.7
6.2.3
Calcul de R
Soit A la matrice de projection orthogonale sur W, alors:
R 2 = (y En particulier si y est centr:
YY
ACy - y)
Ily
yll:!
= s;~ .'1;
En effet Il Ay l' 2 = cos 2BIl Y11 1 et Il Ay 11 2 orthogonal CA = A' et Al = A).
= y' A Ay
1
= y' Ay car A est un projecteur
136
6_Descrpton bidimensionnelle et mesures de liaison entre
v::!rl~I'\II,,~,,:""'"
Si X dsigne la matrce dont les colonnes sont les p variables y est centre:
Xl,
x 2 .. , x/J centres et
o (X'X)- est une inverse gnralise quelconque de (X/X). On peut dmontrer alors la formule reliant corrlation multiple et corrlations des divers ordres:
6.2.4
Signification d'un coefficient de corrlation multiple
Si les 11 observations taient issues d'une population gaussienne o Yest indpendante des Xi alors on dmontre que (voir chapitre 17) :
On retrouve comme cas particulier la loi du coefficient de corrlation linaire simple en faisant p 1.
6.. 3
LIAISON ENTRE VARIABLES ORDINALES: LA CORRLATION DES RANGS
Il arrive souvent de ne disposer que d'un ordre sur un ensemble d'individus et non de valeurs numriques d'une variable mesurable: soit parce qu'on ne dispose que de donnes du type classement (ordre de prfrence, classement A, B, C, D, E), ou bien parce que les valeurs numriques d'une variable n'ont que peu de sens et n'importent que par leur ordre (notes d'une copie de franais: avoir 12 ne signifie pas valoir deux fois plus que celui qui a 6). A chaque individu de 1 Il on associe son rang selon une variable (un rang varie de 1 Il). tudier la liaison entre deux variables revient donc comparer les classements issus de ces deux variables: Objet: Rang n 1 : Rang n 2:
rI
SI
2
1'1
S2
JI
11
l'If Sil
Les ri et Si sont des permutations diffrentes des
premiers entiers.
r:;rIII.DI;SCI"lptlOn
bidimensionnelle et mesures de liaison encre variables
137
le coefficient de Spearman
Le psychologue Charles Speannan a propos en 1904 de calculer le coefficient de corrla-
tion sur les rangs:

rs
cov(r, s)
Le fait que les rangs soient des permutations de [1 ... 1/] simplifie les calculs el r on a en l'absence d'ex aequo:
r=s
Il
+
2
,.
Si l'on pose di = on a:
1 1'.1). _ Il ~I'l
(~):! 'J
_
.\
12
ri - Si diffrence des rangs d'un mme objet selon les deux classements,
'J _
1
12:(r- 1
s)l
., + -12:' + -12:' s~ 'J _ r-:l

1
'). 1
mais:
2:s~ = 1_1(_11_+ _ _+_1_) _ 6
somme des carrs des nombres entiers, d'o:
62:dl
i
(n + 1)6(211 + 1) _ (11 ~_ 1)::: + __________~____------_

1
11(11 1 -
1)
- 1
12
Le deuxime terme vaut 1 aprs calcul et on a la formule pratique:
l'x
= 1-
La dfinition de r" comme coeftjCent de corrlation linaire sur des rangs nous indique que:
r, rs =:; rs =
1 => les deux classements sont identiques
1 => les deux classements sont inverses l'un de l'autre ; 0 => les deux classements sont indpendants.
138
611111i1lDescription bidimensionnelle et mesures de liaison entre variables
Pour savoir si la valeur trouve de r~ est significative, on se reportera la table du coefficient de corrlation de Spearman fournie en annexe{l) La rgion critique sera IRsl > k : si R.I_ > k : il y a concordance des classements; si R~ < - k : il y a discordance des classements. Lorsque les observations proviennent d'un couple normal (X, Y) de corrlation p et que l'on calcule r.1 la place de r on montre que si 11 est trs grand on a les relations approches suivantes:
r
J
6 . = -Arc sm 1T 2
(p)
ou
= 2 sin
(if r,)
'T
6.3.2
6.3.2.1
Le coefficient de corrlation des rangs

Aspect thorique
de M. G. Kendall
Afin de savoir si deux variables alatoires X et Y varient dans le mme sens ou en sens contraire on peut considrer le signe du produit (X, - X2 )(YI Y2 ) o (Xl' YI) (X:,!! Y2 ) sont deux ralisations indpendantes du couple (X, Y). Si P(X, - X 2 )(Y1 Y2) > 0) > 1/2 il Y a plus de chances d'observer une variation dans le mme sens que dans le sens inverse. On dfinit alors le coefficient thorique,. par :
Ce coefficient est donc compris entre -1 et dantes (mais pas seulement dans ce cas ... ).
+ 1 et s'annule lorsque X et Y sont indpen-
Si (X, Y) est un couple gaussien de coefficient de corrlation p on montre que:

T
? = - Arc sin p
1T
On remarquera que Notons enfin que:
::5 p. ,. = p n'est vrai que pour p = 0 et p
1,
o Pc et Pd sont respectivement les probabilits de concordance et de discordance.
6.3.2.2
Calcul sur un chantillon
En s'inspirant des considrations prcdentes: On considre tous les couples d'individus. On note 1 si deux individus i et} sont dans le mme ordre pour les deux variables: Xi < xj et Yi < yj_
21ii1111Cette table est obtenue en utilisant le fait que dans le cas d'indpendance. les n! permutations d'un classement sont quiprobables.
6_Description bidimensionnelle et mesures de liaison entre variables
139
On nole - 1 si les deux classements discordent Xi < On somme les valeurs obtenues pour les
Xj
et )'i > -'j.
n(H - 1) 2 couples distincts, soit S cette somme ;
on a:
Smax = -Smin
l1(n - 1) 2
Le coefficient 'T est alors dfini par:
'T
= - -2S- 1 1l(1l -
1)
On constate que :
-7=
T
l classements identiques; = - 1 classements inverss.
Pour savoir si la valeur constate est significative on se rfre la situation thorique d'indpendance dans la population. On peut alors obtenir la distribution de 'T par des arguments combinatoires mais celle-ci peut tre approche par une loi de Laplace-Gauss :
'T -
LG ( 0;
~2(2n +
9u(1l -
5))
1)
L'approximation est trs bonne ds que Il 2:: 8, ce qui est un avantage pratique sur le coefficient de Spearman, si l'on ne dispose pas de tables de ce dernier. Mthode de calcul rapide: on ordonne les Xi de 1 Il ; on compte pour chaque Xi le nombre de Jj > Yi parmi ceux pour lesquels j > i. On somme; soit R cette somme:
S
j
2R 4R
lI(n -
l1(n - 1)
2
1)
_ Exemple : 10 chantillons de cidre ont t classs par ordre de prfrence par deux
gastronomes :
Xi
2.
3 4
4
10
7
\" .1
2 6
5 9 8
10
Le coefficient de Spearman :
rs
6'Ldr
n(u 2
-
1)
vaut
rs
0.84
140
6. Description bidimensionnelle et mesures de liaison entre variables
Le coefticient de Kendall s'obtient par:

R
7 + 8 + 6 + 6 + 4 + 4 + 1 + 1 = 37
45
S = 74 d'o
1" :::::
= 29
au seuil 5 % bilatral sont:
T
0.64.
T
Les valeurs critiques de r.r et de

rr = : 0.648
et
= : 1.96
-'J 9OX9
_IsO
0.49
Les deux valeurs de deux classements.
et de rs laissent donc apparatre une liaison significative entre les _
A part le cas o les variables sont ordinales, les coefficients de corrlation des rangs sont trs utiles pour tester l'indpendance de deux variables non normales lorsque r chantillon est petit: on sait en effet qu'on ne peut appliquer alors le test du coefficient de corrlation linaire. Les tests de corrlation des rangs sont alors les seuls applicables, car ils ne dpendent pas de la distribution sous-jacente. Ils sont robustes car insensibles des valeurs aberrantes. Les coefficients de corrlation de rangs sont en fait des coefficients de dpendance monotone car ils sont invariants pour toute transfonnation monotone croissante des variables. Les coeftcients de corrlation de rang permettent de tester l'existence d'une relation mono tone entre deux variables. Ainsi le nuage de points suivant o y = ln(x) donne un coefficient de corrlation linaire r = 0.85 mais des coefficients de Spearrnan et de Kendall gaux 1.
4
3
Y
2
20
40
X
60
80
100
FIGURE
6.8
Lorsque les coefficients de corrlation de rang sont nettement suprieurs au coefficient de corrlation linaire, des transformations monotones non linaires sur certaines variables peuvent se rvler utiles.
6_Description bidimensionnelle ec mesures de liaison entre variables
141
6.3.3
Coefficients de Daniels et de Guttman
Les trois coefficients de corrlation (Pearson, Speannan, Kendall) peuvent tre prsents comme 3 cas particuliers d'une mme fonnule, dite formule de Daniels. On considre pour toute paire d'individus i,j deux indices ai} et bi} le premier associ la variable X. le deuxime associ la variable Y (par exemple ai} = Xi - X) et on dtnit le coefficient suivant:
qui varie entre - l et En prenant aij =
+ 1 d'aprs l'ingalit de Schwarz.

Xj
Xi -
et bi} = Yi - Yj on trouve le coefficient r de Bravais-Pearson
(2.:2:(x; - x)"2 = 211"2S~ par un calcul vident).

En prenant aij = 1) et bi) Si - Sj o les r et les s sont les rangs de classement selon X et Yon obtient le coefficient de Speannan. En prenant:
aij
l', -
signe de
(Xi -
Xj)
bi}
de (Yi - )'i)
on obtient le coefficient,. de Kendall. Mentionnons enfin le coefficient de monotonicit de GuUman :
qui ne rentre pas dans la catgorie des coefficients de Daniels mais qui possde des proprits intressantes.
6.3.4
Soient
le coefficient W de Kendall de concordance de p classements

11
individus (ou objets) t classs selon p critres (tableau 6.1) :

TABLEAU
6.1
Tl
Critres
~
1
2
l
rll
1'12
2
r:?'1
1'22
1"21'
l'Ill
J'Ill
P Total
rl p
r J.
l'up
r 2.
r ll
l'.,
142
61111i1Descripdon bidimensionnelle et mesures de liaison entre variables
Chaque ligne du tableau est une permutation des entiers de 1 n. La somme des termes d une ligne etant
, . _ n(1l
1)
' on a r .. = p
1l(1l
1)
ri, 1'2' . ,
Si les p classements taient identiques (concordance parfaite) les totaux de colonnes fil. seraent gaux, une pelmutation prs, p. 2p, 3p, . , " np ; en effet, tous les termes d'une mme colonne seraient identiques. Pour tudier la concordance entre ces classements on utilise la statistique:
s=
,,{...I
11 ~ ( r,.
qui mesure la dispersion des totaux de colonnes par rapport leur moyenne. On vrifie sans peine que S est maximal s'il y a concordance parfaite et que:
(n 3 -
11)
12
Le coefficient de concordance de Kendall est:
W=---p1 (,,3 - Il)

On a donc 0
~
12S
1.
Le cas limite W = 0 s'obtient si tous les totaux de colonnes sont identiques, une faible valeur de W indiquant l'indpendance entre les classements. On notera que la discordance parfaite entre p classements ne peut exister: il ne peut y avoir discordance parfaite entre plus de deux classements. Le coefficient West reli aux coefficients de corrlation des rangs de Spearman entre les classements pris deux deux par la formule suivante:
r.1
=---
- 1
o rs est la moyenne arithmtique des C~ coefficients de corrlation de Spearman entre classements,
Test de l'hypothse Ho d'indpendance mutuelle des p classements:

Pour les faibles valeurs de p et Il, la distribution de Wa pu tre calcule sous l'hypothse Ho en considrant les (n!)P permutations quiprobables des p lignes du tableau. On rejette Ho si West trop grand et on se reporte la table fournie en annexe pour les valeurs critiques de S Cl 0.05. Pour
Il ~
15 et pour p
1)
< 7,
1-
(1' - 1)W
1- W
est distribu sous Ho. comme une variable
F(" -
~ ; (p -
(11 -
~)).
1) West distribu comme un x~ -1'
Pour p ;:::.: 7 on admet que p(n
143
Si l'on rejette l'hypothse Ho d'indpendance des p classements, quel classement final attribuer aux 11 objets? On admet en gnral la procdure suivante qui est de classer les objets selon l'ordre dfini par la somme des colonnes ; cette procdure possde la proprit de maximiser la somme des coefficients de corrlation de Spearman entre le nouveau classement et les p classements initiaux(l). Cas des ex aequo: pour calculer S, on remplace le rang des ex aequo dans un mme classement par la moyenne arithmtique des rangs qu'ils auraient obtenus si il n'y avait pas eu d'ex aequo (ceci conserve la somme des lignes). La valeur de
Smax.
tant alors modifie, on remplace W par :
w= ------------------fi
p2(n 3 - 11) - p
12S
2: (t} -
tj)
J=l
o lJ est le nombre d'ex aequo du /mc classement.
6.4
LIAISON ENTRE UNE VARIABLE NUMRIQUE ET UNE VARIABLE QUALITATIVE
6.4.1
Le rapport de corrlation thorique (rappel)
La mesure, ici non symtrique, de la liaison est le rapport de corrlation TJrjzr dfini par :
v [E(Y/zr)] VeY)
'1
TJ'/.'r
En effet on peut app1iquer 1')2 lorsque la variable &r n' est pas quantitative mais qualitative k modalits (voir chapitre 3).
6.4.2
le rapport de corrlation empirique
Si zr a k. catgories on notera n" Il:!, .. , 11" les effectifs observs et Yb Y:2' ... , YI; les moyennes de Y pour chaque catgorie (il est indispensable qu'au moins un des ni soit suprieurs 1) et y la moyenne totale.
J. F. Marcotorchino et Rl"lichaud.
3aO'autres procdures bases sur la rgle de la majorit de Condorcet sont possibles (voir l'ouvrage de 1979): recherche de l'ordre maximsant la somme des coefficients de Kendall.
144
6_Descrption bidimensionnelle et mesures de liaison entre variables
Si l'on note e:'l'quivalent empirique de Tl 2 on a :
e-=------
/1
e:'
= 0 si YI = Y2 = ... = Yk d'o absence de dpendance en moyenne. e2 = 1 si tous les individus d'une catgorie de fi(' ont mme valeur de Yet ceci pour chaque
s~ ,
-
catgorie car :
=-
.4.!1.d.
~ n(v- - 1')2
+ - "" Ilif ~II

Il
j'"
1l i= 1
o les
a)
b)
sl sont les variances de Y l'intrieur de chaque catgorie:

-
1l
2: Il (Yi i
y)2 est appele variance intercatgories.

,
~ 2:n js1 est appele variance intracatgories.

Il
On remarquera que si l'on attribue chaque catgorie i de te une valeur numrique gale Yi ce qui revient transformer f!(' en une variable numrique X k valeurs, e'l est infrieualors gal r'l(y; X) et que toute autre quantification conduit une valeur de re (voir plus loin).
,.2
Lorsqu'il n'y a que deux classes de moyennes
YI
et Y2
e- = - - - - - -
Pour dterminer partir de quelle valeur e2 est significatif on compare la variance inter la variance intra : on montrera plus tard au chapitre 16 que si Tl 2 = 0 alors:
Ce rsultat suppose que les distributions conditionnelles de Y pour chaque catgorie de X sont gaussiennes avec mme esprance el mme cart-type. On remarque que le nombre de classes intervient dans les degrs de libert de ]a loi de Fsher-Snedecor : on ne peut donc comparer les rapports de corrlation entre Y et deux variables qualitatives ayant des nombres diffrents de catgories. Lorsqu'aucune confusion n'est craindre, l'usage est de noter Tl 2 le carr du rapport de corrlation empirique, c'est ce que nous ferons dsormais.
145
Reprenons l'exemple du 5.3.2.2 sur les variations du taux de taxe d'habitation Y selon la zone gographique X : le rapport de corrlation est tel que:
11 2(y/X)
0.56 et correspond F = 20.05
6.4.3
Interprtation gomtrique et lien avec le coefficient de corrlation multiple
Associons la variable qualitative g{' fi k modalits les k variables numriques suivantes indicatrices des modalits:
telles que: ni = 1 si l'individu i est dans la catgorie j de = 0 sinon.
Soit alors X le tableau de donnes Il lignes et k colonnes correspondant aux indicatrices de ge:
o o
X=
0 0 0
Le total des lments de la colonne j de X vaut Tlj' Un simple calcul permet alors de vrifier que:
yIX(X'X)-IX'y y'y
Yt
si y
est centre.
"~'/:r est alors le cosinus carr de l'angle form par le vecteur y centr et le sous-espace W de dimension k de IH. engendr par les variables indicatrices.
II
Le rapport de corrlation de Y en 2t s'identifie donc au coefficient de corrlation multiple avec les indicatrices de gr:
146
6_Description bidimensionnelle et mesures de liaison entre variabl
Dfinir une combinaison linaire des indicatrices Saj j revient attribuer chaqu catgorie j une valeur numrique (/j. donc rendre gr numrique ce qui implique que:
6 .. 5
LIAISON ENTRE DeUX VARIABLES QUALITATIVES
6.5.1
Tableau de contingence, marges et profils
Soit f!f et ay deux- variables qualitatives r et s catgories respectivement dcrivant un ensemble de Il individus. On prsente usuellement les donnes sous la forme d'un tableau crois appel tableau de contingence r lignes et s colonnes renfermant les effectifs Ill) d'individus tels que Xi et OY = )'j (vor tableau 6.2) :
TABLEAU
6.2
ay
YI
)':!
........ " .....

,
..
...
'O
.........
Ys
ilL!
1l2~
f!f
XI
X2
/111
1112 1122
Ill.
11::!.!
1'2.
Xi
nij
Ili.
.\r Il r l
lin
ll.j
Url
11.2
llr.
n.1
Il ...
Avec des notations standard on a
/li.
"Il" et
.t:.J
j
IJ
11 'J.
'Lnij'
i
Les ni. et les n.j s'appellent respectivement marges en lignes et marges en colonnes. La constitution d'un tel tableau est l'opration que les praticens des enqutes appellent un tri crois . Deux lectures diffrentes d'un mme tableau de contingence sont possibles selon que l'on privilgie l'une ou l'autre des deux variables: lecture en ligne ou lecture en colonnes. On appelle tableau des profils-lignes le tableau des frequences conditIOnnelles /l ..
J
IlU
11 i.
(la somme de chaque ligne est ramene 100 %) et tableau des profils-colonnes le tableau des frquences conditionnelles -2.. (le total de chaque colonne est alors ramen 100 %).
n.j
t;... DI::!SClrlpl:IOn bidimensionnelle et mesures de liaison entre variables
147
Exemple: Le tableau 6.3 provient de l'enqute sur les vacances des Franais en 1999, par ('INSEE en mai 2002.
On appelle vacances tout dplacement comportant au moins 4 nuites conscutives dehors du domicile, effectu pour des motifs autres que professionnels, tudes ou Un voyage peut comporter un ou plusieurs sjours (4 nuits conscutives au mme En 1999 prs d'un franais sur quatre n'tait pas parti en vacances, le tableau de continne concerne donc que ceux qui sont partis. L'unit statistique est ici le sjour, dcrit par deux variables qualitatives : la catgorie I:nc:O-DnJtessI IOflll1elle de la personne de rfrence du mnage en 8 modalits et le mode ':.l'l..;;h.,,,rlT,,,Tr\pnl en 9 modalits. La taille de l'chantillon est 18 352.
TABLEAU
6.3
Rscc
Tableau de contingence
Rppn Rspa Tente Caravane
Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres inactifs
Location
A.T
9
VilIageV
41
47
13
59
17
26
19
110
260
71
299
120
42
64
35
29
685 485 190 224754 31
775 639 352 591 393
450
1242 1250 813 11041158
706 398 t63 181 213 42
139 189 91 227 15 33
122 273 161

306
100 68
130
193
72
C92
67
147
49
7447
6
114
115
692 2
195
5
34
225
14
On dduit du tableau 6.3 les deux tableaux de profils suivants (6.4 et 6.5) qui permettent deux types de lecture: le tableau des profils-lignes permet de comparer les modes d' hbergement des diffrentes catgories socio-professionnelles (o vont les cadres 1 etc.) tandis que le tableau des profils-colonnes permet de savoir qui frquente tel mode (qui sont les clients des htels 1).
148
TABLEAU
6.4
Tableau des profils-lignes

Rppa Rspa Tente Caravane
0.017
Botel Location Rscc Agrcul leurs Artisans, commerants, chefs d'entreprise Cadres cl professions intellectuelles suprieures
0.174 0.200
AJ
0.038
Village V Total
0.081 1
0.055 0.251 0.072 0.111
"Ci
0.193
0.228
0.062 0.262 0.105
0.037
0.056
0.031
0.025
." ..
1":"
0.158
0.178
0.103 0.286 0.162 0.032
0.028
0.023
0.030
"1
Professions intermdiaires 0.128 Employs Ouvriers Retraits

0.097 0.073 0.209
0.169 0.180 0.193 0.109 0.087
0.077 0.330 0.105 0.034 OA15 0.083
0.050 0.047
0.072 0.082 0.100 0.054 0.013
0.018 0.025 0.024 0.013 0.015
0.051 0.037 0.037 0.032 0.()36
1
1"'"
1
l
0.048 0.392 0.059 0.074 0.192 0.321 0.062 0.007 0.005 0.574 0.107 OJ)84
1
1
::.
Autres inactifs 0.079
TABLEAU
6.5
Tableau des profils colonnes

Rppa Rspa
0.009
".":
"
...
Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures
0.016
Location
0.015
Rsec
Tente
0.034
Caravane
0.004
A,J
0.023
VillageV
0.028
0.007 0.009
0.084
0.084
0.041
0.048
0.065
0.054
0.057
0.090
0.042
0.260
0.251
0.260 0.199
0.38'2
0.180
0.108
0.258
0.190
ProCessions intermdiaires 0.184 Employs Ouvriers Retraits Autres inactifs Total

0.072 0.085 0.287 0.012 1
0.207 0.114 0.191 0.127 0.011 1
0.168 0.200 0.039 0.130 0.085 0.399 0.001 1 0.193 0.185 0.036 1
0.215 0.088 0.098 0.121 0.023 1
0.245 0.119 0.294 0.032 0.043 1
0.242 0.142 0.271 0.173 0.004 1
0.175 0.126 0.191 0.121 0.015

1
0.281 0.105 0.166 0.168 0.020 1
6111\1Description bidimensionnelle et mesures de liaison entre variables
149
On remarquera que la moyenne des protils-lignes (avec des poids correspondant aux effectifs marginaux des lignes) n'est autre que le profil marginal des colonnes:
~ Il,, (Il.' ) L.J.-.JL -!:..

i='llli. Il
=-.:l
Jl
Il,
et que l'on a de mme :
~ Il '.' (11 ,) L.J.......!.L -.:l.

}= 1 Il.}
Il. ' =--.!..: Il
11
6.5.2
l'cart l'indpendance
Lorsque tous les profils-lignes sont identiques on peut parIer d'indpendance entre 21;" et UJJ puisque la connaissance de ft' ne change pas les distributions conditionnelles de UJJ. Il s'ensuit d'ailleurs que tous les profilswcolonnes sont galement identiques.
Il
On doit donc avoir

Il J.
n 1.
... = --2 'V;, ce qui entrane Il i. Il r. .

= ~.
Il
Il,
17
par sommation des
numrateurs et dnominateurs. L'indpendance empirique se traduit donc par !li}
n '
6.5.2.1
Le X2 d'cart l'indpendance et les autres mesures associes
On adopte gnralement la mesure suivante de liaison plus loin) :

Il" (
1)
(p. note aussi Xl ou
X1 (voir
11 i. Il.}):!
Il Il
dl -
2: 2: - - - }
ni. Il.}
On voit que d 2 est nul dans le cas de l'indpendance. Quelle est sa borne suprieure et dans quel cas est-elle atteinte? Il faut pour cela utiliser le rsultat suivant obtenu par dveloppement du carr :
Comme : -.!.l.
n.}
11 ' ,
:::::;
1 on a :
D'o:
" " L.J L.J

i
1li,Tl.}
' " Il 1) L.J .. s _ L.J Il.} :::::; ' " ' " - - ' " i L.J L.J ni} _ .L.J-- - " - _ i j Tl.) j n.} j=lll.j
150
6_ Description bidimensionnelle et mesures de liaison entre variables
D'o d 2 :s; n(s - 1). On pourrait montrer de mme que d 2 :s; n(r - 1). On a donc: "dl':! :s; inf (s - 1 ; r - 1)
1
La borne tant atteinte dans le cas de la dpendance fonctionnelle. En effet
dl
= n(s
Il,,
1) si -!l.
n ;.
l 'Vi, c'est--dire s'il n'existe qu'une case non nulle dans chaque ligne.
Ce cas est celui o JJ est fonctionnellement li fi:: ce qui n'implique pas que fJ: soit li fonctionnellement JJ comme on le voit sur la figure 6.9.
FIGURE
6.9
Le cas de la dpendance fonctionnelle rciproque ncessite r = s : aprs permutation des lignes ou des colonnes le tableau de contingence peut alors se mettre sous forme diagonale. Divers coefficients lis au d 2 ont t proposs pour obtenir une mesure comprise entre 0 (indpendance) et 1 (liaison fonctionnelle). Citons: le coefficient de contingence de K. Pearson ( - - - " 11 + dle coefticient de Tschuprow (
Il
d2
)1/:2
= C;
d'
(1' - 1)(s - 1)
ct- 1); (r
) 1/1.
=T;
le coefficient de Cramer
(Il inf. (s
1))1/2
cP / Il est usuellement not ",2. Pour l'exemple des vacances prsent plus haut on a :
d 2 = 1989
T = 0.12
c = 0.31
V
.
0.12
.
La constructIOn du tableau des tableau des

llij
Il i Il .
_._.J
(tableau d'mdependance) et sa comparaIson avec le
Il
est en gnral instructive: en particulier le calcul pour chaque case du terme:

(Il ij
-
Il i.
n):!
dl
ni. J1.j
Tl
151
appel contribution au Xl permet de mettre en vidence les associations significatives entre

C
atoories des deux variables. Le signe de la diffrence

o
Il" Il "
Il
i)" -
-,._.]
Il
indique alors s'il y a
association positive ou ngative entre les catgories i de fi? etj de
qy.
Un tel calcul devrait tre systmatiquement associ chaque calcul de X::'.. On re marq ue que les marges des tableaux (Il ij) et (" i ;;,.
j) tant le s mme s par con s truc-
tian il suffit de calculer (r - 1)(s - 1) (le degr de libert) termes du tableau d'indpendance et de dduire les autres par diffrence. Le tableau 6.6 donne pour chaque case l'effectif thorique et le X"2 correspondant. Comme
il y a 72 cases, le X:! moyen par case est de 27.6 : on a mis en gris les cases o le X2 dpasse 60 : ce sont les cases o il existe une sur- ou une sous-reprsentation importante par rapport une rpartition au hasard .
TABLEAU
6.6
Rspa 23.46 1.78 Tente 9.8 26.77 Caravane 14.33 7.45 AJ 4.92 3.38 VillageV 8.7 12.2
Hotel 33.35 1.75
Location 39.2 1.55
Rscc 21.99 3.67
Rppa 79.25 5.18
Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures
161.79 20.95
190.14 25.66
10.67 11.93
384.47 19
113.8 0.34
47.55 0.65
69.51 0.44
23.87 5.19
42.2 4.13
617.2 7.45
725.8 3.39 631.64 0.09 326.75 1.95 511.72 Il.28 600.79 71.86 65.38 15.06
406.93 1466.72 434.15 181.4 34,43 170.22 4.56 9.91 354.34 1177.18 378.05 157.96 10.97 0.58 1.05 6.10 183.3 73.79 660.68 35.12 195.56 5.42 81.71 1.3
265.18 77.31 230.91 7.67 119.45 14.45 187.07 75.6 219.63 2.76 23.9 14.95
91.05 0.88 79.29 1.61 41.02 1.55 64.23 1,48 75.41 10.71 8.21 0.59
160.99 5.96 140.18 19.9 75.52 0.00 113.57 0.00 133.34 2.52 14.51 0.02
Professions 537.44 intermdiaires 5.12 278.01 27.86 435.4[02.64 511.18 U5.34 55.63 10.91
Employs
Ouvriers
287.07 1034.7 306.7 127.97 17.70 51.24 76.63 68.34 337.03 1214.79 359.68 150.25 373.86 2.65 51.88 104.41 36.68 32.79 132.2 65.14 39.13 0.21 16.35 16.95
Retraits
Autres inactifs
L'analyse des correspondances tudie plus loin permet une reprsentation graphique des carts l'indpendance: on y retrouvera ces phnomnes.
152
6.5.2.2
Cos des tableaux 2 x 2
Si et 6JJ n'ont que deux modalits chacune le tableau de contingence (tableau 6.7) n'a alors que 4 cases d'effectifs abcd.
gr
TABLEAU
6.7
JJ
f!t
1
2
a
c
b d
([2 peut alors s'exprimer par la formule:
d-
.,
=----------------------(a + b)(c + d)(a + c)(b + d)
l1(ad - bcf
Si l'on calcule le coefficient de corrlation linaire entre f!t: et CY en attribuant des valeurs arbitraires leurs catgories (par exemple 1 et 2 mais toutes les quantifications sont ici quivalentes) on montre que q.:>2 = r 2 Remarquons que dans le cas des variables dichotomiques la non corrlation entrane l'indpendance.
6.5.2.3
Caractre significatif de I:lcart l'indpendance
A partir de quelle valeur peut-on considrer que la Haison est significative? En anticipant sur la thorie des tests expose au chapitre l4 voici la dmarche: si les n observations raient prleves dans une population o .il' et q?J sont indpendantes (Pij = Pi. p) quelles seraient les valeurs probables de cJ2 ? En s'appuyant sur les rsultats du chapitre 4 paragraphe 4.4, on montre qu'alors dl est une ralisation d'une variable alatoire D2 suivant approximativement une loi Xfr-l)Lf~ 1) ; en effet les IlU - ~ sont lis par (1' - l)(s - 1) relations linaires puisque les marges sont
11
n n .
communes aux deux tableaux (ou encore en d'autres termes puisqu'on estime les Pi. par-.!:.. et les P.j par n. j ).
Il
Il
Il
Il suffit alors de se tixer un risque d'erreur a, c'est--dire une valeur qui, s'il y avait indpendance, n'aurait qu'une probabilit faible d'tre dpasse (on prend usuellement a=5%oul%).
On rejettera donc l'hypothse d'indpendance si d:! est suprieur 1a valeur critique qu'une variable xfr- 11(.\"-1) a une probabilit a de dpasser.
6aaDescription bidimensionnelle et mesures de liaison entre variables
153
trs leve :
Ainsi sur l'exemple: le degr de libert du X2 est (9 - 1)(8 d:! 1989.
1)
= 56. La valeur de dl est
La valeur critique 1 % d'un X6 est 83.5. On doit donc rejeter l'hypothse d'indpendance entre catgorie professionnelle et mode d' hbergement. pour les tableaux 2 X 2 o le degr de libert vaut 1 on recommande gnralement d'effectuer la correction de Yates :
d =
2
Il
[ lad -
bel -
'Il]:! 2
(a
+ b)(a + c)(b + d)(c + cl)
L'esprance d'un X2 tant gale son degr de libert on voit que d"!. est d'autant plus grand que le nombre de catgories des deux variables est lev. On ne peut donc comparer ~,-",-des (P correspondant des tableaux de tailles diffrentes pour une mme valeur de Il : un d 2 de 4 pour un tableau 2 X 4 ne rvle pas une dpendance plus forte qu'un dl de 2.7 pour un tableau 2 X 2 bien au contraire: afin de comparer ce qui est comparable el de s'affranchir du problme des degrs de libert il vaut mieux utiliser comme indice de liaison la probabilit p(X2 < d 2). On trouve ainsi:
P(XT < 2.7)
0.9
et
P(XJ
<
4) = 0.75
6.5.2.4
Autres mesures de dpendance
Les indices drivs du Xl sont loin d'tre les seules mesures de dpendance utilisables, elles ont d'ailleurs t souvent critiques. La littrature statistique abonde en la matire et le problme est d'ailleurs celui du trop grand nombre d'indices proposs. On se reportera utilement aux ouvrages de Goodman et Kruskal et de Marcotorchino (1979). Signalons toutefois pour son intrt thorique le G 2 ou khi-deux de vraisemblance:
qui sous l'hypothse d'indpendance suit une loi
X[r-Il(J-Il'
6.5.3
Un indice non symtrique de dpendance: le Tb de Goodman et Krusl<al
154
6eDescription bidimensionnelle et mesures de liaison entre variables
Cet indice rsulte du raisonnement suivant: si l'on ignore

11
la probabilit (estime)
qu'une observation appartienne la catgorie j de cy est -.:.1 : en affectant alatoirement cette observation selon les probabilits -.:.1 on a alors une proportion estime de classements
Il
11
11 .)l corrects gale L: (~ . Il

j
11
Si l'on connat la catgorie ide 2tTaffectation se fait alors selon les frquences conditionnelles ......!.l d'o une proportion estl me de classements corrects gale
ni.
11 nIl 2: 2: ......!.l-.!1.
11;. Il
Le 7' de Goodman el Kruskal mesure donc le taux de dcroissance du pourcentage de prdictions incorrectes. On a par dfinition 0 ::s lu liaison fonctionnelle.
Tll ::S
l avec
'TIJ
= 0 duns le cas de l'indpendance et 'Th =
1 pour
En introduisant les tableauX de variables indieatrices XI et Xl associes aux deux variables ft et t1JJ on trouve:
7=
Trace (X':! A? Xl) Trace V 22
o A? est le projecteur sur l'espace des combinaisons linaires de moyenne nulle des indicatrices de XI' n'est autre que le coefficient de redondance R 2 (X1, : chapitre 8).
'T
Xd
de Stewart et Love (voir
6.5.4
Le kappa de Cohen
Ce coefficient est destin mesurer l'accord entre deux variables qualitatives ayant les mmes modalits dans le contexte suivant: Il units statistiques sont rparties selon p catgories par deux observateurs. Si les deux observateurs concordent parfaitement, le tableau de contingence doit tre diagonal: seuls les effectifs nii sont non-nuls. Lu proportion d'accords observs est Po
1 fi - 2:l1ii'
lli=1
Si les deux variables taient indpendantes la probabilit d'tre dans l'une quelconque des
p
fi
cases diagonales serait 2:Pi.P.i que l'on estime par Pc = --:; Llli.n.; appel pourcentage d'accords alatoires. i= 1 n- 1 Le coefficient kappa s'crit alors:
I{=
Po - Pc 1 - Pc
1
1-
Il
"1111 L.J 1. .1 ;-=1
kappa est compris entre -1 et
+ 1 (accord
maximal).
.'analyse en composantes
principales
Dans la plupart des applications on observe non pas une variable par individu, mais un .J1o.!l::Ipre p souvent lev. L'tude spare de chacune de ces variables et celles des couples selon les techniques exposes prcdemment est une phase indispensable dans le processus de dpouillement des donnes mais tout fait insuffisante. Il faut donc analyser les donnes en tenant compte de leur caractre multidimensionnel; l'analyse en composantes principales est alors une mthode particulirement puissante pour explorer la structure de telles donnes. C'est galemenlla ({ mre de la plupart des mthodes descriptives multidimensionnelles.
7.1
TABLEAUX DE DONNES, RSUMS NUMRIQUES ET ESPACES ASSOCIS
7. 1. 1 Les donnes et leurs caractristiques

7.1.1.1 Le tableau des donnes
Les observations de p variables sur 11 individus sont rassembles en un tableau rectangulare X n lignes et p colonnes:
2 2
... P
xl 1
x{ est la valeur prise par la variable nO j sur le i n1c individu.
156
7L'analyse en composantes principales
Dans une optique purement descriptive on identifiera une variable la colonne de X correspondante: une variable n'est rien d'autre que la liste des Il valeurs qu'elle prend Sur les 11 individus:
.~
,-1f
On identitiera de mme l'individu i au vecteur ei p composantes:
e; = (x} ... xD
7.1.1.2
Il
Poids et centre de gravit
Si les donnes ont t recueillies la suite d'un tiragealeaioire probabilits gales, les individus ont tous mme importance, 1/11, dans le calcul des caractristiques de l'chantillon. Tl n'en est pas toujours ainsi et il est utile pour certaines applications de travailler avec des poids Pi ventuellement diffrents d'un individu l'autre (chantillons redresss; donnes regroupes ... ). Ces poids, qui sont des nombres positifs de somme 1 comparables des frquences, sont regroups dans une matrice diagonale D de taille JZ :
o
D=
o
Dans le cas le plus usuel de poids gaux, D =
Pli
~ I. 12
Le vecteur g des moyennes arithmtiques de chaque variable g' = (Xl; dfinit le point moyen, ou centre de gravit du nuage. Le tableau Y tel que
x2 ; ; xP)
On a g = X'DI o l dsigne le vecteur de IR!! dont toutes les composantes sont gales 1.
yi = xi -
:xj est le tableau centr associ X.
On a Y = X - 19' = (1 - Il ' D)X.
7.1.1.3
Matrice de variance-covariance et matrice de corrlation

J
La formule tablie au chapitre prcdent avec des poids gaux suit:
/Il se gnralise comme
Iv = X'DX -
gg' = Y'Dyl
7_ L'analyse en composantes princpales
157
On a galement:
X'DX =
LPje,e;
i=l
/1
Cette dernire formule est utile pour les calculs numriques car elle ne suppose pas la mise en mmoire du tableau X mais seulement la lecture successive des donnes. Si l'on note
D]h
la matrice diagonale des inverses des carts-types:
l/sl
Dllx
Ils"
et DlIsl la matrice diagonale des inverses des variances. le tableau des donnes centres et rduites Z tel que :
est donc:
YD 1/s
La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :
R=
Rappelons que R
= D l/sVD 1/.\' = Z'DZ.
R est la matrice de variance-covariance des donnes centres et rduites et rsume la structure des dpendances linaires entre les p variables prise 2 2.
7.1.1.4
Donnes actives et supplmentaires
Le tableau X ne reprsente souvent qu'une partie de l'information disponible, et cela pour diverses raisons: on ne s'intresse qu'aux liaisons entre cerlaines variables, les variables qualitatives sont par nature exclues de l'analyse etc. Les variables disponibles se partagent donc en deux ensembles: les variables actives qui serviront au calcul des axes principaux et les variables supplmentaires, appeles galement variables illustratives qui seront relies a posteriori aux rsultats de l'Aep. On peut galement n'utiliser qu'une partie des individus, soit pour valider les rsultats, soit parce que certains n'auront leur donnes disponibles qu'ultrieurement, ou parce que
158
7al'analyse en composantes principales
leurs donnes sont suspectes. Mettre des individus en supplmentaire revient leur attribuer un poids nul.
Variables actives
Variables supplmentaires
P1
P2
Individus actifs
s
Pn
0 0
Individus supplmentaires
'0
Matrice des poids
7.1.2
I!espace des individus
Chaque individu tant un point dfini par p coordonnes est considr comme un lment d'un espace vectoriel F appel l'espace des individus. L'ensemble des Il individus est alors un nuage de points dans F et g en est le centre de gravit.
e espace F est muni d'une structure euclidienne atin de pouvoir dfinir des distances entre individus.
7.1.2.1
Le rle de la mtrique
Comment mesurer la distance entre deux individus? Cette question primordiale doit tre rsolue avant toute tude statistique car les rsultats obtenus en dpendent dans une large mesure. En physique, la distance entre deux points de l'espace se calcule facilement par la formule de Pythagore : le carr de la distance est la somme des carrs des diffrences des coordonnes, car les dimensions sont de mme nature: ce sont des longueurs que l'on mesure avec la mme unit :
d 2 = (x1 - x~):!
(xi - x:!
+ ...
II n'en est pas de mme en statistique o chaque dimension correspond un caractre qui s'exprime avec son unit particulire : comment calculer la distance entre deux individus dcrits par les trois caractres: ge, salare, nombre d'enfants? La formule de Pythagore est alors aussi arbitraire qu'une autre. Si l'on veut donner des importances diffrentes chaque caractre, pourquoi ne pas prendre une formule du type:
d
2
lll(xl -
xlf + ll2(XY
- x~f
+ ... + ap(x'i -
x~f
a)
ce qui revent multiplier par ~ chaque caractre (on prendra bien sr des
positifs).
7_ L 'analyse en composantes principales
159
De plus, la l'onnule de Pythagore n'est valable que si les axes sont perpendiculaires, ce que l'on conoit aisment dans l'espace physique. Mais en statistique ce n'est que par pure convention que l'on reprsente les caractres par des axes perpendiculaires: on aurait pu tout aussi bien prendre des axes obliques. On utilisera donc la formulation gnrale suivante: la distance entre deux individus est dfinie par la fonne quadratique:
Ci
et Cj
o IVI est une matrice symtrique de taille [J dfinie positive. L'espace des individus est donc muni du produit scalaire: (Ci; Cj ) = e'; IVIcj En thorie, le choix de la matrice 1\11 dpend de l'utilisateur qui seul peut prciser la mtrique adquate. En pratique les mtriques usuelles en Analyse en Composantes ... Pril1 cipales (ACP) sont en nombre rduit: part la mtrique M = 1 qui revient utiliser le produit scalaire usuel~ la mtrique la plus utilise (et qui est souvent l'option par dfaut des logiciels) est la mtrique diagonale des inverses des variances:
1/ST
l/s~
1\11 = Dlh~
I/s~
ce qui revient diviser chaque caractre par son cart-type: entre autres avantages, la distance entre deux individus ne dpend plus des units de mesure puisque les nombres x{jSj sont sans dimension, ce qui est trs utile lorsque les variables ne s'expriment pas avec les mmes units. Surtout, cette mtrique donne chaque caractre la mme importance quelle que soit sa dispersion; l'utilisation de 1\11 = 1 conduirait privilgier les variables les plus disperses, pour lesquelles les diffrences entre individus sont les plus fortes, et ngliger les diffrences entre les autres variables. La mtrique D 1/s2 rtablit alors l'quilibre entre les variables en donnant toutes la variance 1. Nous avons vu qu'utliser une mtrique diagonale:
160
7. L'analyse en composantes principales
revient multiplier les caractres par ~ et utiliser ensuite la mtrique usuelle lVI Ce rsultat se gnralise une mtrique l\tl quelconque de la manire suivante: On sait que toute matrice symtrique positive M peut s'crire l\tI scalaire entre deux individus uvec la mtrique M peut donc s'crire:
= I.
= T'T.
Le produt
(e 1 ; e2) = c; l\tIc:! = el T'Te:!
= (Tc:!)' Tc 1
c'est~-dire
Tout se passe donc comme si l'on utilisait la mtrique 1 sur des donnes transformes, sur le tableau XT ' .
7.1.2.2
On appelle inertie totale du nuage de points la moyenne pondre des carrs des distances des points au centre de gravit:
Il
19 = ~Pi(ei - g)'M(c i
i"'l
g)
= ~Pi Ile; i
gl/2
L'inertie en un point a quelconque est dfinie par :
lu
On
li
= ~Pi(ei
i
- a)'l\tl(c i
a)
la relation de Huyghens:
Il
Si g = 0:
19 = ~Pie~IVIci
i=1
Par ailleurs, on dmontre aisment que l'inertie totale vrifie la relation:

/1
/1
Il
/1
21g
= ~ ~PiPj(ej
""I J;; 1
- c)/IVI(e;
e)
= ~ ~PiPjllCi i=lj-- 1
Il
eJ2
soit la moyenne des carrs de toutes les distances entre les L'inertie totale est la trace de la matrice MV (ou VM) :
individus.
/lg
= Trace MV = Trace VIVI 1
En effet, Pie;Mei tant un scalaire, grce la commutativit sous la trace:
= Trace IVDCDX
= Trace MV
si IVI = 1 l'inertie est gale lu somme des variances des p variables; si l\tl = Dlh' : Trace MV Trace (D,!s~V) = Trace (D'I.\,VD'/J, ce qui est gal Trace R = p. L'inerte est donc gale au nombre de variables et ne dpend pas de leurs valeurs. .
7_L'analyse en composantes principales
161
7.1.3
L'espace des variables
Chaque variable xi est en fait une liste de 11 valeurs numriques: on la considre comme un vecteur xi d'un espace E 11 dimensions appel espace des variables.
7.1.3.1
La mtrique des poids
Pour tudier la proximit des variables entre elles il faut munir cet espace d'une mtrique, c'est--dire trouver une matrice d'ordre Il dfinie positive symtrique. Ici il n'y a pas d'hsitation comme pour l'espace des individus et le choix se porte sur la matrice diagonale Il des poids D pour les raisons suivantes: Le produit scalare de deux variables xi et Xl;; qui vaul x'iDxk = LPiXfx{ n'est autre '" 1 que la covariance Sj/;; si les deux variables sont centres. La norme d'une variable Il xilln est alors IIxillfi = sJ ; en d'autres termes la longueur d'une variable est gale son cart-type. L'angle 6jl, entre deux variables centres est donn par:
(Xi; xl.:)
IIxill Il xl.: Il
Le cosnus de l'angle entre deux variables centres n'est autre que leur coefficient de corrlation linaire (chapitre 6). Si dans l'espace des indvidus on s'intresse aux dstances entre poinls, dans l'espace des variables on s'intressera plutt aux angles en raison de la proprit prcdente.
7.1.3.2
Variables engendres par un tableau de donnes
A une variable xi on peut associer un axe de l'espace des individus F et un vecteur de l'espace des variables E. On peut galement dduire de Xl, Xl, ... , xl' de nouvelles variables par combinaison linaire, ce qui revient projeter les individus sur de nouveaux axes de F. Considrons un axe il de l'espace des individus engendr par un vecteur unitaire a (c'est--dire de M-norme 1) et projetons les individus sur cet axe (projection lVI-orthogonale) (fig. 7.1).
:y: ei
1 1 1 1 1 1
FIGURE
7.1
162
711111111L'analyse en composantes
pru,cl~tale!~;@~i
La HSle des coordonnes Ci des individus sur il forme une nouvelle variable ou composante, c. Comme Ci a'Me j eilVIa (a; e;)1\1 on a:
fi
c=
XMa = Xu = 22xi uj
/=1
en posant u = Ma.
A la variable c sont donc associs trois tres mathmatiques: un axe il de F de vecteur unitaire a ; un vecteur c de E espace des variables; une forme linaire u appele facteur.
C ensemblds variablesCH'qTOripf rigridrrparcOfribsOri linaire des vecteurs-colonnes de X forme un sous-espace vectoriel de E de dimension gale (ou infrieure) p.
Remarquons que si a appartient l'espace des individus F, u appartient son dual F*, et que si a est M-norm l, u est M-I norm 1 :
F* est donc muni de la mtrique lVI- I .

(Lorsque M facteurs).
= 1 ces
distinctions disparaissent et on peut identifier totalement axes et
La variance de c vaut alors:

[ V(c)
s~
u'Vu [ u'X'DXu
En effet:
c'De
(Xu)'D(Xu)
7.2 7.2.1
l'ANALYSE Projection des individus sur un sous-espace
Le principe de la mthode est d'obtenr une reprsentation approche du nuage des JI individus dans un sous-espace de dimension faible. Ceci s'effectue par projection ainsi que l'lIustre la figure 7.2. Le chox de l'espace de projection s'effectue selon le critre suivant qui revient dformer le moins possible les distances en projection: le sous-espace de dimension k recherch est tel que la moyenne des carrs des distances entre projections soit la plus grande possible. (En effet, en projection les distances ne peuvent que diminuer). En d'autres termes il faut que l'inertie du nuage projet sur le sous-espace soit maximale.
7S1L'analyse en composantes principales
163
FIGURE
7.2
____ SoitP l'oprateur de projection M-orthogonale sur Fk : P est ter que p2
Pet P'M
MP.
Le nuage projet est alors associ au tableau de donnes XP', car chaque individu el (ou ligne de X) se projette sur Fk selon un vecteur colonne Pei ou un vecteur ligne eiP' (fig. 7.3).
FIGURE
7.3
La matrice de variance du tableau XP' est pour des variables centres: (XP')'D(XP') = PVP' L'inertie du nuage projet vaut donc: Trace (PVP'lVI). Par des oprations lmentaires on en dduit: Trace (PVP'lVI)
= Trace (PVMP)
= Trace (VMp:!) = Trace (VlVIP)
car P'lVl
= MP
car Trace AB = Trace BA car P est idempotent
Le problme est donc de trouver P, projecteur M-orthogonal de rang k maximisant Trace (VMP) ce qui dterminera donc Fk'
164
711111111L'analyse en composantes principales-
Si F et G sont deux sous-espaces orthogonaux alors:
Il suffit de remarquer que le projecteur associ la somme directe de deux sous-espaces lVI-orthogonaux est la somme des projecteurs associs chacun des espaces.
De ce rsultat on dduit le thorme fondamental suivant:
THORME
Soit F/.; lm ,'Wlls~espace portant l'inertie maxmale, alors le sous-espace de dimension k + 1 portallt l'inertie Inaximale est la somme directe de FI.; el du SOlls-espace de dimenson 1 lVI-orthogonal li Fk portant l'inertie maximale: Les solutions sOlIt emboUes .
_ Dmonstration : Soit El;: +1 un sous-espace de dimension k
Comme dlm E/.; + 1 = k
1:
1 et dim Ft
= 11
k, on a :
~ 1
12
dim (EHl car; dimEk+1
n Ft)
+ dimFl = Il + 1 >
Soit b un vecteur appartenant EH!
n Ft.
Posons EJ;;+1 = b EB G o G est le supplmentaire lVI-orthogonal de b dans EHI . G est FI; EB b. donc de dimension k et F
On a:
l/';+l
lF
+ IG = Ir'l + ft,
=
lb
Comme FI; tait le sous-espace de dimension k portant l'inertie maximale IG S ln, donc IH\ S lh + IFk' c'est--dire lHI S lF et ceci quel que soit Ek+]' Le maximum de l'inertie est donc ralis pour l'espace F lb soit maximal.
= b EB
F/.; et b doit tre tel que :
Pour obtenir FI; on pourra donc procder de proche en proche en cherchant d'abord le sous- : espace de dimension 1 d'inertie maximale, puis le sous-espace de dimension l lVI-orthogonal. l1li au prcdent d'inertie maxima1e, etc.
7.2.2
7.2.2.1
lments principaux
Axes principaux
Nous devons chercher la droite de [Rp passant par g maximisant l'inertie du nuage projet sur cette droite,
7. L'analyse en composantes principales
165
Soit a un vecteur port par cette droite; le projecteur M-orthogonal sur la droite est alors: P
= a(a'Ma)-'a'IVI
L'inertie du nuage projet sur cette droite vaut, d'aprs ce qui prcde: Trace VIVIP
= Trace VMa(a'lVla)-la'M
= -a'Ma
Trace VMaa'M
= ------
Trace a'MVlVIa aiMa
a'MVMa a'IVIa
puisque a'MVMa est un scalaire. La matrice MVIVI est appele matrice d'inertie du nuage ~ elle dfinit la forme quadratique d'inertie qui, toul vecteur a de M-norme 1, associe l'inertie projete sur l'axe dfini par a. La matrice d'inertie ne se confond avec la matrice de variance-covariance que """"siM = 1. =: . . . , 1 er a envee de cette expresslOn Pour 0 b temr 1e maXImum d e a'LVIVLVIa' l su f'llIt d' annu 1 1 d'" a Ma par rapport a :
~ (a'lVIVMa )
da a'Ma
(a'Ma)2IVIVMa - (a'lVIVIVIa)2Ma (a'Mar! aIMVMa) LVla a'IVla
d'o:
MVlVla = (
soit :
VIVla
= al
car ]\il est rgulire ~ donc a est vecteur propre de VM. S'il en est ainsi, le critre a'MVMa vaut a'Ma . Il faut donc que soit la plus grande valeur propre de VIVI. La matrice VM tant M-symtrique possde des vecteurs propres M-orthogonaux deux deux. D'o le rsultat suivant:
THORME
Le sous-espace FI. de dimension k est engendr par les k l'ecteufS propres de VIVI associs aux k plus grandes valeurs propres.
On appelle axes principaux d'inertie les vecteurs propres de VIVI, l\1-norms 1. Ils sont au nombre de p. Un calcul lmentaire montre que les axes principaux sont aussi V- I orthogonaux: on montre rciproquement que les axes principaux sont le seul systme de vecteurs la fois J\l1 et V-I-orthogonaux.
166
7.2.2.2
Facteurs principaux
(fi: ~~~~ a est associe la forme linaire u coordonne lVI-orthogonale sur l'axe dfini par a:~
[:~;~
\1
FIGURE
7.4
u est un lment de (~I')* (dual de l'espace des individus) qui dfinit une combinaison"'linaire des variables descriptives XI' X2, .. , xI"
A l'axe principal a lVI-norm 1 est associ le facteur principal u = 1\IIa.

Puisque a tait vecleur-propre de VM : VMa soit:
"'-a ~ 1\IIVlVIa
"'-Ma
1MVu
"'-ul
Les facteurs principaux sont les vecteurs propres M-1-norms de MV. En effet, on a vu que si [R;/' est muni de la mtrique M, son dual doit tre muni de la mtrique M-t, Donc U'M-lU = L Les facteurs principaux sont M- 1 et V-orthogonaux.
7.2.2.3
Composantes principales
Cj
Ce sont les variables
(lments de [R;II) dtinies par les facteurs principaux:
Ci est le vecteur renfermant les coordonnes des projections M-orthogonales des individus sur l'axe dfini par ai avec ai unitaire.
La variance d'une composante principale est gale la valeur propre
. :
En effet V(c) = c'Dc
= u'X'DXu =
U'VU or :
donc:
167
Les Cj sont les combinaisons linaires de . j la contramte U 'M-I Uj = 1.

En effet MVu
X'I XlI' "'
xp de variance maximale sous

:
Les composantes principales sont elles-mmes vecteurs propres d'une matrice de taille Il
= -u s'crit lVlX'DXu
1
-u ; en multipliant gauche par X et en remplaant
Xu par C on a:
XMX'Dc = -c
1
La matrice XMX' note West la matrice dont le terme gnral
wij
est le produit scalaire
(ei ;e)
e~Mej'
D'o pour rsumer : Facteurs principaux u Axes principaux a Composantes principales c lVIVu = -u VlVIa = -a M-I-orthonorms lVI-orthonormes D-orthogonales
= Xu
XMX'Dc u = Ma
-c
En pratique on calcule les u par diagonaIisation de lVIV, puis on obtient les c axes principaux an' ayant pas d'intrt pratique.
= Xu, les
1.2.2.4
Formules de reconsttuton
Comme XUj = cj en post-multipliant les deux membres par uiM-' et en sommant sur j il vient:
XLUjujM- '
j
= 2:cj ajlVlj
Or
ujujM-1
= 1 car les Uj sont M- 1 orthonorms, il suffit de vrifier que:
donc:
X = LcjujM- 1
j=1
"
On peut ainsi reconstituer le tableau de donnes (centr) au moyen des composantes principales et facteurs principaux. On a galement: MV = VM
" 2: -jujujM-!
j=l
2: -jajajM
j=1
168
7al'analyse en composantes principales
Lorsque IVI
= l, X =
2: cjuj
j=e
J
(J
2: 1i:;z v; o les
j
fl
Zj
sont les vecteurs propres de norme 1 de
j= 1
XXI el les vj les vecteurs propres de XIX de norme) (dcomposition en valeurs singulires),
Si l! on se contente de la somme des k premiers temles on obtient alors la meiHeure approximation de X pur une matrice de rang li. au sens des moindres carrs (thorme d'Eckart-Young).
7.2.3
Cas usuel. La mtrique 01/s2 ou l'ACP sur donnes centres-rduites
Le choix de la mtrique IVI est toujours dlicat: seul l'utilisateur peut dfinr correctement la notion de distance entre individus. Prendre IVI 1 revient travailler sur la matrice V des variances-covariances, il n' y a pas alors de distinction. entre axes principaux eL facteurs principaux. Cependant, les resultats J obtenus ne sont pas invariants si l'on change linairement l'unit de mesure des variables. Les covariances sont multiplies par un facteur k, la variance par un facteur ,,-2 si l'on choisit une unit de mesure li. fois plus petite pour une variable. Le choix de lVl = DlIs~ est le plus communment fait, et a pour consquence de rendre les distances enrre individus invariantes par transformation linaire spare de chaque variable et de s'affranchir des units de mesure ce qui est particulirement intressant lorsque les variables sont htrognes. On sait que l'usage de cette mtrique est quivalent la rduction des variables (division par l'cart-type). En pratique on travaillera donc sur le tableau centr-rduit Z associ X et on utilisera la mtrique M I. Comme la matrice de variance-covariance des donnes centres et rduites est la matrice de corrlation R, les facteurs principaux seront donc les vecteurs propres successifs de R rangs selon l'ordre dcroissant des valeurs propres. Ru ku avec Il u 11 2 1. La premire composante principale c (et les autres sous la contrainte d'orthogonalit) est la combinaison linaire des variables centres et rduites ayant une variance maximale
Zu.
On a de plus la proprit suivante lorsqu'on travaille sur donnes centres et rduites :
PROPRIT
c est la variable la plus lie aux x j au sens de la somme des carrs des corrlations:
1)
:2>:!(c; xi) est maximal
f='
Cette proprit pennet de gnraliser l'ACP il d'autres mthodes et d'autres type de variables en remplaant le coefficient de corrlation par un indice adapt (principe d'associaton maximale, voir plus loin),
169
.. Dmonstration: Supposons les variables centres:

r 2(c ; xi)
= r:l( c ; zi) o zi =
,
xi est la variable centre-rduite associe xi : si
r-(c;zl)
[cov(c ; zi)f
V(c) V(Zl)
= --V(c)
[c'Dzif
fi
or:
Lzi(zi)1 = ZZI
j=l
donc:
r; . c'DZZ1Dc L r-( c ; Xl) = --,-j=l
e De
le maximum de ce quotient est donc atteint pour e vecteur propre de ZZ'D associ sa plus grande valeur propre : ZZ'Dc c
on en dduit que c est combinaison linaire des zi donc que c ZZIDZu = Zu Comme ZIDZ
= Zu ;
= R, il
vient ZRu
Zu et si Z est de rang p . Ru = U.
Pour rsumer: l'ACP revient remplacer les variables x l, x 2, .. , XI' qui sont corrles, par de nouvelles variables, les composantes principales Cl, c2 , . combinaisons linaires des xi non corrles entre elles, de variance maximale et les plus lies en un certain sens aux xi : l' ACP est une mthode factorielle linaire.
7.3
INTERPRTATION DES RSULTATS
L'ACP construt de nouvelles variables, artificielles et fournit des reprsentations graphiques permettant de visualiser les relations entre variables ainsi que l'existence ventuelle de groupes d'individus el de groupes de variables. L'interprtation des rsultats est une phase dlicate qui dOt se faire en respectant une dmarche dont les lments sont les suivants.
7.3.1
Qualit des reprsentations sur les plans principaux
Le but de r ACP tant d'obtenir une reprsentation des individus dans un espace de dimension plus faible que p, la question se pose d'apprcier la perte d'infomlation subie et de savoir combien de facteurs retenir.
170
7mL'analyse en c.omposantes principales
7.3.1.1
Le pourcentage d'inerte
Le critre habituellement utilis est celui du pourcentage d'inertie totale explique. On mesure la qualit de FI.: par:
Si par exemple
+
Ig
'l
0.9 on conoit clairement que le nuage de points est presque
aplati sur un sous~espace deux dimensions et qu'une reprsentation du nuage dans le plan des deux premiers axes principaux sera trs satisfaisante. L'apprciation du pourcentage d'inertie doit faire intervenir le nombre de variables initiales: un % de 10 % n'a pas le mme intrt sur un tableau de 20 variables et sur un tableau de 100 variables.
7.3.1.2
Mesures locales
Le pourcentage d'inertie explique est un critre global qui doit tre complt par d'autres considrations. Supposons que le plan des deux premiers axes porte une inertie totale importante ( 1 + :!, lev) et que en projection sur ce plan deux individus soient trs proches: la figure 7.5 montre que cette proximit peut tre illusoire si les deux individus se trouvent loigns dans
el
g/::;:<1:I,
1 1 1
FIGURE
7.5
n faut en fait envisager pour chaque individu ei la qualit de sa reprsentation. Celle-ci est souvent dfinie par le cosinus de l'angle entre le plan principal et le vecteur ej Si ce cosinus est grand, e i est voisin du plan, on pourra alors examiner la position de sa projection sur le plan par rapport d'autres points; si ce cosinus est faible on se gardera de toute conclusion.
N.B. : Cette mesure du cosinus est d'autant meilleure que ei est loign de g ; si ei est proche de g, la valeur du cosinus peut ne pas tre significative.
171
Bien que moins utilise, une mesure lie la distance entre ei et Ft.. semble prfrable: en particulier la quantit:
d(e fi) -;================ (signe de ci
i ;
'+1
qui compare la distance entre e i et FI; la moyenne des carrs des distances de tous les individus Fk prsente un intrt statistique certain (on peut la comparer une variable de Laplace-Gauss centre-rduite).
7.3.1.3
A propos de la reprsentation simultane des individus et des variables en ACP
Certains logiciels prvoient la possibilit de superposer la reprsentation des individus (plan principal) et celle des variables (cercle des corrlations) avec ventuellement des chelles diffrentes.
Il convient d'tre trs prudent: en effet individus et variables sont des lments d'espaces diffrents: si une variable dfinit une direction de l'espace des individus elle ne peut tre rsume un point et on ne peut interprter une proximit entre points-variables et points-individus.
Les deux reprsentations individus et variables se compltent mas ne peuvent tre superposes, sauf en utllisant la technique particu lire du "biploe' (voir Gower et Hand, 1996).
7.3.2
Choix de la dimension
Le principal intrt de l'ACP consistant rduire la dimension de l'espace des individus le choix du nombre d'axes retenir est un point essentiel qui n'a pas de solution rigoureuse. Remarquons tout d; abord que la rduction de dimension n'est possible que s'il Y a redondance entre les variables Xl, x 2, . , xP : si celles-ci sont indpendantes, ce qui est un rsultat fort intressant en soi, l'ACP sera ineftcace rduire la dimension.
7.3.2.1
Critres thoriques
Ceux-ci consistent dterminer si les valeurs propres sont significativement diffrentes entre elles partir d'un certain rang: si la rponse est ngative on conserve les premires valeurs propres. On fait pour cela l'hypothse que les Tl individus proviennent d'un tirage alatoire dans une population gaussienne o k+ 1 = k+::! .. = Jl' Si cela est vrai la moyenne arithmtique a des k - p dernires valeurs propres et leur moyenne gomtrique 9 doivent tre peu diffrentes; on admet que:
+ 11 ) (p 6
- k) ln
(a) 9
k - 1)
. ., 'd 1 ' SUIt alors une 1 . du x- de degre e rh erte (p - k + 2)(p 01 2 thse d'galit des k
; on rejettera J'hypo-
p valeurs propres si c est trop grand.
172
On peut galement construire des intervalles de contiance pour les diffrentes valeurs propres en utilisant les formules de T. W. Anderson si Il est grand: si i est la iimc valeur propre de l'ACP, l'intervalle de confiance 95 % est donn par:
(voir chapitre 13) Ces proprits ne sont malheureusement utilisables que pour des matrices de variance dans le cas gaussien p-dmensionnel. Elles ne s'appliquent pas pour les matrices de corrlation ce qui est le cas le plus frquent en pratique; et ne doivent tre utilises qu' titre indicatif.
7.3.2.2
Critres empiriques
Ce sont en ralit les seuls applicables, le. critre de Kaiser est le plus connu: Lorsqu'on travaille sur donnes centres rduites on retient les composantes principales correspondant il des valeurs propres suprieures 1 : en effet les composantes principales seules les compoc tant des combinaisons linaires des zi de variance maximale V(c) santes de variance suprieure il celle des variables initiales prsentent un intrt.
.,
Cependant le seuil de ] ne peut tre considr comme absolu: 1.1 est-il signiticativement suprieur 1 ? Dans un travail rcent (Karlis, Saporta, Spinakis, 2003) nous avons montr l'intrt du critre suivant, inspir par une approche de type carte de contrle}) o on considre comme intressantes les valeurs propres qui dpassent leur moyenne (qui vaut ici 1) de plus de deux cart-types. Comme: et que l'esprance du carr du coefficient de corrlation entre deux variables indpendantes vaut Il (Il - 1), on trouve que:
E(f.f) =
1"'(
p + pep _- 1) n l
la dispersion espre des valeurs propres vaut alors:
Nous proposons donc de ne retenir que les valeurs propres telles que:
> 1+
2~P - l 11-1
7l111L'analyse en composantes principales
173
On recommande galement de dtecter sur le diagramme de dcroissance des valeurs propres l'exstence d'un coude (voir figure 7.8) sparant les valeurs propres utiles de celles qui sont peu diffrentes entre elles et n'apportent pas d'information. Il faut noter ici que les critres fOlmels bass sur les diftrences successives entre valeurs propres sont en gnral moins performants que l'inspection visuelle: nous ne les donnerons donc pas. Entin il faut rappeler avec force que les critres du type extraire au moins x % }) de l'inertie souvent prns par des praticiens, sont dnus de fondement et doivent tre bannis. car on ne peut donner de seuil universel sans tenir compte de la taille du tableau. et de la force des corrlations entre variables. Aucun des critres prsents n'est absolu: l'interprtation des rsultats d'une analyse relve aussi du mtier du statisticien.
7.3.3
7.3.3.1
Interprtation {{ interne
Corrlations (( variables - facteurs
)J
La mthode la plus naturelle pour donner une signitication une composante principale c est de la relier aux variables initiales xi en calculant les coefficients de corrlation linaire r(c; xj) et en s'intressant aux plus forts coefficients en valeur absolue. Lorsque l'on choisit la mtrique DI/s~ ce qui revent travailler sur donnes centresrduites et donc chercher les valeurs propres et vecteurs propres de R, le calcul de r( c ~ xj) est particulirement simple: En effet:
r( c ; Xl)
= r( c ; Zl) = - Sc
c'Dzj
comme V(c) =
. :
r(c; Xl) =
c'Dzi
~
or c = Zu o u, facteur principal associ c, est vecteur propre de R associ la valeur propre . :

r(c; Xl) = u'Z'Dz) =
(zj)'DZu
~
(zi)'DZ est la lme ligne de Z'DZ Comme Ru = .u, jl vient:
= R,
donc (zj)'DZu est la lme composante de Ru.
Ces calculs s'effectuent pour chaque composante principale. Pour un couple de compo~ santes principales Cl et c1 par exemp1e on synthtise usuellement les corrlations sur une figure appele cercle des corrlations o chaque variable x j est repre par un point d'abscisse r(c l ~ x';) et d'ordonne r(c 1 ; xi).
174
7111!1i11L'analyse en composantes principales
Ainsi la figure 7.6 montre une premire composante principale trs corrle positivement avec les variables 1, 2 et 3, anticorrle avec les variables 4 et 5 et non corrle avec 6, 7 et 8.
Axe 2
FIGURE
7.6
Par contre la deuxime composante principale oppose la variable nO 8 aux variables 6 et 7. On se gardera d'interprter des proximits entre points variables, si ceux-ci ne sont pas proches de la circonfrence. Dans le cas de la mtrique DlI,\'~ c'est--dire, rappelons-Je, de l'ACP sur donnes centres rduites, le cercle des corrlations n'est pas seulement une reprsentation symbolique commode: c'est la projection de l'ensemble des variables centres-rduites sur le sous-espace engendr par Cl et c2 En effet les zj tant de variance un, sont situes sur la surface de la sphre unit de l'espace des variables (isomorphe ~") (fig. 7.7). Projetons les extrmits des vecteurs zj sur le sous-espace de dimension 2 engendr par Cl et c2 (qui sont orthogonales) les projections tombent l'intrieur du grand cercle intersection de la sphre avec le plan Cl ; c 2. La projection se faisant avec la mtrique D de l'espace des variables, z se projette sur l'axe engendr par Cl en un point d'abscisse cos (zj; Cl) qui n'est autre que le coefticient de corrlation linaire r(x} ; Cl).
""'-----+-...... c 1
FIGURE
7.7
175
Le cercle de corrlation est donc, dans l'espace des variables, le pendant exact de la projection des individus sur le premier plan principa1. Comme k rapport:
2: r2(c k ; xi)
j=1
f1
on appelle parfois contribution de la variable j l'axe k le
mais cette quantit ne prsente que peu d'intrt en ACP et n'apporte rien de plus que le coefficient de corrlation.
7.3.3.2
La place et l'importance des individus
Dire que Cl est trs corrle avec une variable xi signifie que les individus ayant une forte .. coordonne positive sur l'axe 1 sont caractriss par une valeur de xi nettement suprieure la moyenne (rappelons que l'origine des axes principaux reprsente le centre de gravit du nuage). Inversement s les individus ne sont pas anonymes, ils aident l'interprtation des axes principaux et des composantes principales: on recherchera par exemple les individus opposs le long d'un axe. Il est trs utile aussi de calculer pour chaque axe la contribution apporte par les divers individus cet axe. Considrons la kiml: composante Ck ~ sot C,d la valeur de cette composante pour le iil1lc individu. On a :
Il
2:Pi di = k i=1
La contributon de J'individu i la composante Cl est dfinie par:
.,
PiC[i
La considration des contributions, quand elles ne sont pas excessives, aide l'interprtation des axes. Normalement, et ceci surtout pour les premires composantes, il n'est pas souhaitable qu'un individu ait une contribution excessive car cela serait un facteur d'instabilit, le fait de retirer cet individu modifiant profondment le rsultat de l'analyse. Si ce cas se produisait il y aurait intrt effectuer ranalyse en liminant cet individu puis en le mettant en lment supplmentaire, s'il ne s'agit pas d'une donne errone (erreur de saisie ... ) qui a t ainsi mise en vidence. Cette remarque est surtout valable lorsque les individus constituent un chantillon et ne prsentent donc pas d'intrt en eux-mmes. Lorsque les poids des individus sont tous gaux 1/11 les contributions n'apportent pas plus d'information que les coordonnes. Lorsque Il est grand, il est souvent possible de considrer que les coordonnes sur une composante principale (du moins pour les premires composantes) qui ont pour moyenne 0 et pour
176
7.L'analyse en composantes principales
variance la valeur propre, sont distribues selon une loi de Laplace-Gauss. Alors
,k
est distribu
1 c~ comme un X2 un degr de libert et la contributon - ~ a une probabilit 0.05 de dpasser

Il ,k
3.84/11. On pourra donc considrer qu'un individu a une contribution significative si elle dpasse 4 fois son poids.
7.3.3.3
Effet (( taille })
Lorsque toutes les variables Xj sont corrles positivement enlre enes, la premire composante principale dfinit un facteur de taille . On sait qu'une matrice symtrique ayant tous ses temles positifs admet un premier vecteur propre dont toutes les composantes sont de mme signe (thorme de Frobenius) : si l'on les choisit positives la premire composante principale est alors corrle positivement avec toutes variablest lesiridividus sont rangs sur l' axe 1 par valeurs croissantes de l'ensemble des variables (en moyenne). Si de plus les corrlations entre variables sont toutes de mme ordre la premire composante principale est proportionnelle la moyenne des variables initiales:
1 l' - 2:xj
P J=I
La deuxime composante principale diftrencie alors des individus de talle }) semblable: on }' appelle facteur de forme )).
7.3.4
Interprtation externe: variables et individus supplmentaires, valeur-test
Les interprtations fondes sur les remarques prcdentes prsentent le dfaut d'tre tautologiques: on explique les rsultats l'aide des donnes qui ont servi les obtenir. On risque de prendre pour une proprit des donnes ce qui pourrait n'tre qu'un artefact d la mthode: il n'est pas tonnant par exemple de trouver de fortes corrlations entre la premire composante principale Cl et certaines variables puisque Cl maximise:
2>2(C ; xJ)
i;1
On n'est donc pas sr d'avoir dcouvert un phnomne significatif. Par contre si l'on trouve une forte corrlation entre une composante principale et une variable qui n'a pas servi l'analyse, le caractre probant de ce phnomne sera bien plus lev. D'o la pratique courante de partager en deux groupes l'ensemble des variables: d'une part les variables ( actives ) qui servent dterminer les axes principaux, d'autre part les variables passives ou supplmentaires que t'on relie a posteriori aux composantes principales. On distinguera le cas des variables numriques supplmentaires de celui des variables qualitatives supplmentaires. Les variables numriques supplmentaires peuvent tre places dans les cercles de corrlation : il sutlit de calculer le coefi.1cient de corrlation entre chaque variable supplmentaire
177
y et les composantes principales Cl, c2 ... On peut alors utiliser les rsultats du chapitre prcdent pour dtecter une corrlation significative.
Une variable qualitative supplmentaire correspond la donne d'une partition des n individus en k catgories: on peut faire apparatre par des symboles diffrents les individus de chaque catgorie sur les plans principaux. En gnral on se contente de reprsenter chaque catgorie par son centre de gravit: on peut alors mesurer au moyen du rapport de corrlation la liaison entre une variable qualitative supplmentaire et une composante principale et vrifier son caractre significatif au moyen du F de Fisher-Snedecor (voir chapitre 6). Cependant la pratique la plus efficace consiste calculer ce que l'on appelle la valeurtest associe chaque modalit ou catgorie supplmentaire qui mesure sur chaque axe la diffrence entre ]a moyenne des individus concerns et la moyenne gnrale (nulle par construction puisque les composantes principales sont centres). Plus prcisment il s'agit de la diffrence divse par l'cart-type correspondant au raisonnement suivant (voir chapitre 12 el 20) : si les ll individus de la catgorie i tudie avaient t tirs au hasard avec probabilits gales parmi les Il de l'ensemble tudi, la moyenne cie leurs coordonnes sur
. . . k Il Il l'axe nO' seraIt une vana bl e a l' k eatolre d' esprance nul l e et de vanance - - -- - car l ' e tIrage
ni Il -
est sans remise. La valeur-test associe la coordonne
ail
du centre de gravit est alors:
En se rfrant la loi de Laplace-Gauss, ce qui se justifie si Il est assez grand, on dcidera qu'une modalit occupe une position significativement diffrente de la moyenne raie s en valeur absolue, lu valeur-test dpasse 2 voire 3. On peut galement ne pas faire participer l'analyse une partie des individus (on calcule les corrlations sans eux) ce qui permettra de vrifier sur cet chantillon-test des hypothses formules aprs uneACP sur les individus actifs. Tl est d'ailleurs immdiat de positionner de nouveaux individus sur les axes principaux puisqu'il suffil de calculer des combinaisons linaires de leurs caractristiques.
7.4
EXEMPLE
Les donnes concernent les caractristiques de 18 vhicules (anciens ... ) et figurent dans le tableau 17.1 page 428. Pour l'anulyse en composantes principales, les variables finition (qualitative) et prix ont t mises en lments supplmentaires, il y a donc 6 variables actives.
7.4.1
Valeurs propres
Comme les variables sont exprimes avec des unts diffrentes, on effectue l'ACP sur donnes centres rduites, ce qui conduit il chercher les valeurs et vecteurs propres de la matrice de corrlation R prsente en 6.1.2.3.
178
7 . L'analyse en composantes principales
Les calculs ont t effectus avec le logiciel SPAD version 5.6

DIAGRJ.j'jHE DES NUHERO
VALEUr.
6 ?HEllIERES 'LEUES PHOPRE5
POURCENTAGE
POURCalTj,GE CUNULE
PROPRE 4.4209
0.8561 73.68
0.3731
0.2139
0.0928
6
14.27 6.2:: .57 1. 55

0.72
73.68 87.95 94.17 97.73
99.28
100.00
0.0433
L'application des critres de choix de dimension ( 7.3.2) ne conduirait retenir qu'une seule valeur propre, ce qui moritibiii lurs limites. Nous conserverons deux dimensions"'" reprsentant 88 % de l'inertie. Remarquons que les intervaIJes d'Anderson des valeurs propres suivantes sont tous en dessous de 1.
INTERVALLES A 0.95 NUMEEO

1
BOENE INFERIEURE
1.4488 0.2806 0.1223 0.0701 0.0304
VALEUR PROPRE 4.4209

0.8561 0.3731 0.2139 0.0928
BORNE SUPERIEURE
7.3929 1.4316 0.6239 0.3577 0.1552
2 3 4 5
7.4.2 Interprtation des axes

Le tableau suivant ainsi que le cercle des corrlations montrent un effet taine sur le premier axe qui va donc classer les individus selon leur taille. Le deuxime axe s'interprte aisment comme opposant les vhicules sportifs aux autres.
VARIABLES IDEN - LIBELLE COURT

cyli
1 0.89 0.89 0.89 0.81 0.91 0.75 0.77
CORRELATIONS VARIABLE-FACTEUR
2
-0.11 -0.38 0.38 0.41 0.22 -0.57 -0.09
3
1}
5 -0.05 0.09 -0.22 0.15 0.09 -0.06 0.16
cylinre
Puis - puissance
Long - longueur Larg largeur Poi - pois Vite - vitesse Prix prix
0.22 0.11 -0.04 -0 _37 0.30 -0.30

0.13
-0.37 0.17 0.13 -0.10 o.H 0.03 0.23
7_ L'analyse en composantes principa.les
179
Facteur 2
Reprsentation des variables quantitalives dans le premier plan factoriel
0.8
0.4
largeur longueur
\ 1
poids
ire,
jPUiSSance
-0.8
-{l.a
-(l.4
0.4
0.8
Facteur 1
La prise en compte des variables supplmentaires montre en outre que la premire composante principale est lie la qualit et au prix.
DISTO.
Eini:.ion
F=3 ?=H
Finition~~
7.00
~i
O.':
0.1
0.1
finiticn=l-!
DO
(). 3
O.':
0.02
0.0)
!l.!l7
O. (17
-0.06
-0.06
.LO::'
7.4.3 Plan principal

Le tableau suivant fournit les composantes principales et les indices associs. Les indiet TOYOTfI.-COROLL.'\ qui s'opposent vidus les plus influents sur l'axe 1 sont HENAULT-30 par leur taille et sur l'axe 2 ALF;,SUD-TI-1350 et ALFET'l'A-l. 66 ,vhicules sportifs italiens.
-Jo
00
INDIVIDUS
~
.......
_-~-
.... __ ... -......
CClOP.DONNEES
,
COl-l'I'RIBU'I' lOHS
P.REL
ALFASUD-'l'l-j 350 AUDl-100I.. SHlCA-1307-GLS
Cl'rROEN-GS-CLUB
S~56
DIS'['O
8
-2,14
-1.7'.l
-0.57
-0.20
O.:: i
0.30 -0.15
0.3 fi
5.
3,1
20.7 15.
-1.9
1.1
0.56
0.39
0.04
0.26
0.00
{J.Ol
O.DI
Il. 00
5.56
':J6
6.67
2. .16
1. :'3
-1.
-O.IG
25.ll
l
1.2
0.7
0.0
1.J
0.37
o.
.21
,00
O. li
-1.12
-2,5'/
{} ~ fi]
(J.li7
0, i.7
1.6
8.
D.
3.0
0.3 0.6
.8
! .
8.4
3.1
o.
0.98
D.
00
0"
0.01
0.07 .06
0.17
.03
.O::!
0.01
5.
G.8
1.1 .13
-0.11
-0
.1~
o.
0.63 0.5r.
-0,23
-0.2.6
FIAT-132-1GOOGLS
LANCT.;-BE1'A-1300
PEUGEG'l'-501
S.Su .56
5.%
':). SU
-0.70
o.~o
0.19
3.
10.2
IL 1.1
:>. .
.,
00
?7
1G
0.31,
30
0,68
-0.68
0.4:;
-{J.
0.1
O.:::
.6
11.9
0,08
0.03
0.40
0.01
1-.51
0.93
U.26
.52 0.59
CI
-o. :.D
-0.5J
-0.a5
-0 0.76 30
0.77 -0.5B
::n
.1. 8
~ ~~
O.Jl
0.67
Il. Al)
.SB
O.
tl. 05
O.OJ
lW,UUl'-16-1'L RF.lll\UL'1'-30-TS
TOYOTA-CClHor.Lf",
.64
::1,79
-1.9:'
.41
-].99
O.'Hl
-1. 06
-0.2]
-0.29
5.7
.56
5.5G
0.]7
,1
7.3
.,
10,J
1!l.6
5.1
B ~ Il
I~
k
.07
O.G:;
O.
.29
.46
1. 95
11.11
-o.
20,
o.
23.7
of.6
.-1
1.8
7. ,~
.EHl
f},O\
0.00
j.LPE'I'TA-l. [i6
5. 5.56
5.
. 5G
o ..[il
.0:1
2.9,\ 1.
- 0 . Ci:1
PRINCESS-ISOO-HL
Di\'l'SUN-}()OL W.UIJIlB-JOOO-GL
1.91 0.84
0.56
.49
0 90
-0.02
-0.2.2. 1.24 -0.28
0 63
-o.
0.18
-(J.05 0.07
0 3ll
0.2
D.n 15.0
0.7
23.0 1.2 0.1 9.!1 1.5 [LE!
3 ]
1.7
.0
0.2 O.J
8 5
Il. OD
.02 0.03
.01
.0:;
0.05
0 . 0"
{1.0~
1.3 10.
J.2
0.6
0.53
1
;J Il.!
'J
.0 1.5
':) J.
O.7B
0 . 21
0.14
n.OO (LOD
0 . () '1
1'.1
r:
.45
1. 9G
0,'100.1.0
030.14 0.01 .10

0.0,;
Rf\.J1CHO
1,!';\ZDi\-9::?~'5
a. 3 6
-o.
-D.J'I -0.10
0 . H O . :2 (]
--<
ln
n
(!) ;J
5.56 5.56
O.
0.39
2.29 -2.71
-0.36 -0.10
D.14
.un
-(J.80 0 57
-o.
-0.34
0.38
O.
G.r) 9.2
0.3 0.1
(J.
0.3
1.5
.G
6.'1
."1
0.27.
0.86 0.93
0 19
(J.ao U.OO
O.H 0.02
0.02
OrEL-REi.:RD-I.
[j.OB .n
O.Oi {LOO
L.;DA-nOO
3 -c
Q
Q.J
III
;J r-t
III
III
-c ..,
;u
n '.
:f
if
7111!111L'analyse en composantes principales
181
Le plan principal donne la projection des 18 individus ainsi que les barycentres des modalits de la variable ( Finition ).
Facteur 2 - 1..\.27~~
1.50 RENAULT-16-TL
RANCHO SIMCA-130i-GLS
PEUGEOT-504 PRINCESS1BOQHL
0.75
LADA-1300
AUDI-l00-L
LANCIA-BETA'1300
Finilion""lI.f
0 :
DATSUN200L
o ..................................... l1li. .. _._._ ........ .. ---- .. ;11 ...... .......... ./111 .... .. .......... .. .............. -.............. .
TOYOTACOROLLA
Finition", TB
CITROE~.GS.ClUB
; Finitiofl=B OPEL.ROEI(ORD.L MAZDA.9295 0 TAUNUS-2QOQ-GL
!
!
-0.75
1 FlAT-132-16ooGLS
RENAULT-3D-Tf
-1.50 ALFASUD-TL 1350
: AlFEITA-l.6
-3.0
-1.5
1.5
3.0
Facteur 1 - 73.68%
7.5
ANALYSE FACTORIELLE SUR TABLEAUX DE DISTANCE ET DE DISSIMILARITS
Ces mthodes (multidimensional scaling) ont le mme objectif que l'ACP : trouver une configuration de n individus dans un espace de faible dimension, mais les donnes de dpart , , "1 1. erentes ; ICI on ne connmt que es sont dft'
11(11 -
, '1 ., ' 2 1) d'Istances, ou d'lSSlml antes entre III d'1-
vidus, et non les variables les dcrivant. Le cas o l'on dispose d'une vritable distance euclidienne entre individus n'est qu~une version de l'ACP, le cas de dissimilarits conduit des techniques originales.
7.5.1
7.5.1.1
Analyse d'un tableau de distances euclidiennes

La solution classique
Il
Soit il le tableau
X n des carrs des distances entre points:
et Si d est euclidienne, chaque individu peut tre reprsent dans un espace de dimension p (pour r nstant inconnue) par un point e tel que:
(e j
e)'(e j
e)
On peut en effet toujours supposer M 1 sinon on s'y ramne par la transformation T telle que l\tI = T'T. Si l'on place l'origine au centre de gravit, les produits scalaires wij = (e i ; e) sont alors entirement dtermins par les
d&.
182
Supposons Pi = lin du nuage.
V el posons
dT. = llj=IIJ et Cfl ~ d~ .
Il
Il
- ~df. = :lI o / est l'inertie

Tl i=l
On a alors la fonnule de Torgerson :
En effet:
. SOIt w IJ
d'o: car car l'origine est au centre de gravit. On a donc dT. =
1 = -- ( - d":IJ-: + :2
2:Wij = (e
j
i ;
2:e) = 0
j
lIedl:: + 1 et de mme d} =
l!ej
l1 2 + 1 d'o la formule par substitution.

=1Il' - : il y a donc n
1 Matriciellement W = --ALiA oll A est l'oprateur de centrage A 2 double centrage en ligne et en colonnes de Li.
On sait que les vecteurs propres de WD nuage des Il points.
(ici;; w)
sont les composantes principales du
Connaissant uniquement les distances di}, on peut donc calculer les composantes principales, et faire une reprsentation euclidienne de l'ensemble des points dans un espace de dimension fixe, car les composantes principales ne sont autres que des listes de coordonnes sur une base orthogonale. La dimension de l'espace est alors gale au rang de W : on vrifiera que d est euclidienne si "V a toutes ses valeurs propres positives ou nulles. Remarquons que rang W < 11 - 1 car Il points sont dans un espace de dimension 11 - 1 au plus.
7.5.1.2
Une transformation permettant de passer d'une distance non euclidienne une distance euclidienne
Si d n'est pas euclidienne, ce qui se produit quand "V a des valeurs propres ngatives la mthode de la constante additive permet d'en dduire une distance euclidienne. Il existe en effet une constante c 2 , telle que B& = d~ + Cl avec Bii = 0, soit euclidienne. La matrice "VI) associe 0 est alors telle que:
7- L'analyse en composantes principales
183
comme
=1-
- , Wc
Il
Il'
= - - ((Il
c 2A 2
1)1 - IlA)A
= -- ((Il
c2 2
- 1)A - nA)A
= -A
c2 :2
car A2 = A.
Les vecteurs propres associs des valeurs propres non nulles de Wei sont centrs. Comme A est l'oprateur de centrage, ils sont vecteurs propres de Wc avec pour valeur propre c2 /2. Aux vecteurs propres de W d correspondent les vecteurs propres de W fi avec pour valeurs propres . + c 2 /2. Il suffit donc de prendre c2 = 21 .IJ 1o . II est la plus petite valeur propre de W d (ici ngative) pour que 8 soit euclidienne. Remarquons que cette mthode pennet galement de transfonner une dissimilarit (pour laquelle l'ingalit triangulaire n'est pas vrifie) directemenl en une disLance euclidienne mais sans doute au prix d'une dformation importante des donnes. La mthode prcdente (la plus connue) ajoute donc une constante aux carrs des distances. F. Cailliez a rsolu en 1983 le problme consistant il ajouter la plus petite constante
::i:~~:::: :~~:~g~:e(: ~ette c~~~nte)

-1 -4Wv'"d
remplacs par les distances.
:s: :~l::t ~:a:::r:::: ~~::::s:: ~: :::::::::
7.5.2
7.5.2.1
le MDS
Analyse dJun tableau de dissimilarits
Lorsque les dij ne sont pas des distances mais seulement des mesures de proximit o l'infonnation est de nature ordinale, il est souvent prfrable d'utiliser des mthodes semimtriques de positionnement (mu/tidimensional scaling) qui consistent rechercher une configuration de Il points dans un espace euclidien de dimension fixe telle que les distances 8 entre ces points respectent au mieux l'ordre dtini par d : si dij < dkl on cherche avoir 8ij < 8kl pour le maximum de points. Dans l'algoriLhme MDSCAL de 1. B. Kruskal, on cherche minimiser la quantit suivante appele stress: L(8ij - M(dij))2 min
C,.AI
~i.J,,-_ _ _ __
~(8ijf
,j
o M est une application monotone croissante. La mthode est alors la suivante: on part d'une configuration euclidienne obtenue par exemple l'aide de la formule de Torgerson avec constante additive et on cherche alors
184
les k'I(dij) tels que '2(oij

.]
M(dij))"!.
soit minimum. Ce problme admet une solution unique
(rgression monotone) et on en dduit une valeur du stress. On modite ensuite la contiguration au moyen de petits dplacements des points selon une mthode de gradient pour diminuer le stress. On repasse ensuite la phase de rgression monotone, etc., jusqu' convergence. Une diffrence fondamentale avec l'analyse d'un tableau de distance euclidienne par ACP est que la dimension de l'espace de reprsentation doit tre fixe r avance et que les solutions ne sont pas embotes : la meilleure reprsentation trois dimensions ne se dduit pas de la meilleure reprsentation deux dimensions en rajoutant un troisime axe. Par ailleurs les distances dans l'analyse de Torgerson sont toujours approximes "par en dessous" car la projection raccourcit les distances. La solution du MDS est dfinie une transformation orthogonale prs (rotation, symtrie, etc.).
7.5.2.2
Analyse de plusieurs tableaux de distances
Pour les mmes Il individus on dispose de q tableaux de distances ou de dissimilarits (par exemple q juges donnent leurs apprciations sur les mmes objets). Le modle INDSCAL dvelopp par J.D. Carroll permet de donner une configuration unique des Il points et d'tudier les diffrences entre juges. On se ramne tout d'abord q matrices de distances euclidiennes par la mthode de la constante additive ~I, ~2, . , /j/l on note d~l la distance entre les objets i et j pour le tableau k. Le modle INDSCAL postule que:
r
(dW)f-#'2 1Jl}k) (x~

1=1
xJf
En d'autres termes il existe une configuration dans un espace r dimensions pour les objets (coordonnes xD, les juges utilisant des mtriques diagonales diffrentes:
MI"
[1Il~).. .11~~k)
c'est--dire pondrant diffremment les dimensions sous-jacentes. Il s'agit donc de trouver une dimension r, les mtriques M(k} et la configuration X approchant le mieux les donnes ~(k). On convertt tout d'abord les tableaux ~(k) en tableaux W(k} de produits scalaires par la formule de Torgerson et on pose:
w~ IJ
=~ >.
f; 1
111 I I } (k) a~ li
+E
111
Si les m et les a sont connus on estime les b par les moindres carrs. Ensuite on estime les en fixant (l et b, puis les a en fixant les 111 et les b, etc. Les proprits de symtrie des tableaux W(k) impliquent que les a et les b sont cohrents ({l~ = b~) et l'algorithme converge. Rien ne prouve cependant que les nd k) obtenus soient positifs mais l'exprience montre qu'il en est ainsi dans la plupart des cas avec r faible.
7_ L'analyse en composantes principales
185
7.6
EXTENSIONS NON LINAIRES
L'ACP est une mthode linaire au sens o les composantes principales sont des combinaisons linaires des variables initiales et aussi parce qu'elle est base sur les coefficients de corrlation linaire. Si les relations entre variables ne sont pas linaires, l' ACP choue en gnral reprsenter correctement les donnes et extraire de nouvelles variables intressantes. On sat en effet que le coefficient de corrlation linaire peut tre faible en prsence de liaisons fortement non linaires (cf chapitre 6). La solution est alors de transformer les variables pralablement l'ACP, afin d'obtenir des corrlations plus lves et se rapprocher de la linarit, ce qui revienl se rapprocher de la normalit (cf chapitre 3 page 84).
7.6.1
Recherche de transformations spares
Il est bien sur possible et souvent recommand d'utlliser des transformations analytiques classiques (logarithme, etc.), mais elles ne sont pas forcment optimales. Cette notion d'optimum doit tre : on cherchera en gnral maximiser le pourcentage d'inertie explique par les q premiers axes. La plupart du temps q = 2, mais Cf 1 correspond des solutions intressantes. Pour une variable donne Xj l'ensemble des transformations (I)i.\.) (au sens de carr intgrable) est bien trop vaste: il est de dimension infinie et conduit des solutions indtermines si 11 est fini, mme en imposant que la variable transforme soit centre-rduite(l). On se restreindra des ensembles de transformations correspondant des espaces vectoriels de dimension tinie. Les transformations polynomiales de degr fix conviendraient mais ont l'inconvnient d'tre trop globales et rigides. On leur prfre des transformations polynomiales par morceaux appeles fonctions splines. Soit x une variable dfinie sur [a, b] et k points intrieurs rgulirement espacs ou non, on appelle spline de degr d k nuds une fonction S(x) qui sur chacun des k + 1 intervalles est un polynme de degr d et est d - 1 fois drivable si cl> l, ou seulement continue si d = 1 (linaire par morceaux). Les splines de degr 2 ou 3 sont souvenl utilises pour leur aspect lisse Les splines permettent d'approcher toute fonction rgulire. Il est facile de montrer que les splines de degr d k nuds forment un espace vectoriel de dimension d + k + 1. Tout d'abord les combinaisons linaires de splines de degr d k nuds sont encore des splines de degr d k nuds. Sur l'intervalle If, le polynme est libre
.
I_Dans le cadre de l'ACP entre variables alatoires (n infini) le prublme admella solution suivante (sans dmonstration) lie l'analyse canonique gnralise de J.o. CaITOII.l.:l premire composante principale c des variables transformes de faon optimale vrifie donc tel que c (c ; <I)J (Xl)). Pour c fix max pL (c ; <Il) (Xi)) est atteint pour (Il/XI)
<Il;
E(C/Xl). c est
avec maximal.
186
7_ L'analyse en composantes principales
FIGURE
7.8
et dpend de d + 1 paramtres, mais sur chacun des k intervalles suivants, les conditions de raccordement (continuit et drivabilit d - 1 fois) ne laissent plus qu'un paramtre libre, d'o le rsultat. Puisque l'ensemble destransformatioIlsspljne est u,!espace vectoriel, on peut exprimer toute fonction S(x) comme une combinaison linaire de d + k + 1 lment~' d'une base, ce qui revient dans un tableau de donnes X remplacer chaque colonne-variable par d + k + 1 colonnes. On utilisera pour sa simplicit une base permettant des calculs rapides: les B-splines. En voici deux exemples en supposant que a = 0 et b = l avec des nuds rgulirement espacs. Les splines de degr 0 qui correspondent des transformations constantes par morceaux (fonctions en escalier) :
BiX) = 1 s~x E Ij { Blt) = 0 smon

La variable .r est alors remplace par un tableau disjonctif.
o ...........................I-------i-------------i
i - - - - - -............................... ---~--------~
t-~~____..I
1
..........................
12
FIGURE
13
14
7.9
Les splines de degr 1 correspondent des transfolmations continues. linaires par morceaux. la figure 7.10 donne les cinq fonctions de base associes trois nuds.
7111 L'analyse en composantes principales
187
{ Bl\) Bl(x) { Bl(x)
BI(.~): 1 ~ (k
l)xslx
I(
0 SlOon
o~ o
o
o
B"')(X) = (k
1)x si x
E II
XE
2 - (k
l)x si
11
/ '~ /
.~
0 sinon
Bj+I(X) = ~k Bj+J(x) {
l)x
(k
(j - 1) six
J + 1
I)x si
XE Jj + 1
Bj+l(x) = 0 sinon
/ '~
11
Bk+1(X) = (k ~ I)x - k si XE 1"+1 { Bk+2(X) = 0 smon
12
13
/1
14
FIGURE
7.10
Les splines de degr 1
Nous ne donnerons pas les formules pour les degrs suprieurs, car de nombreux logiciels les intgrent. tant donn un point x seules d + l fonctions de base sont non nulles et de somme gale 1 (codage ~< flou). La recherche de la transformation de chaque variable ou combinaison linaire des B-splines. maximisant l'inertie du premier axe de l'ACP s'obtient en effectuant simplement l' ACP du tableau augment 11 lignes et p(d + k + 1) colonnes. La maximisation de la somme des inerties sur q axes requiert un algorithme plus complexe que nous ne dtaillerons pas ici. Les tranformations splines ne sont pas monotones: on peut aisment y remdier si l'on veut des transformations bijectives. Les B-splines tant positives leurs primitives sont alors des fonctions splines croissantes de degr augment d'une unit (I-splines) ; on effectuera alors des combinaisons linaires coefficients positifs (cf la. Ramsay, 1988).
7.6.2
La l<ernel ..ACP
Cette mthode rcente (B. Sch61kopf et al., 1996) consiste chercher non plus des transformations spares de chaque variable mais transformer tout le vecteur x = (Xl, x 1, ... , x fl ). Chaque point de E est alors envoy dans un espace (lJ(E) muni d'un produit scalaire. La dimension de clJ(E) peut tre trs grande et la notion de variable se perd. On effectue alors une analyse factorielle sur tableau de distances entre points transforms selon la mthode de Torgerson qui revient l'ACP dans (P(E). TOUL repose sur le choix du produit scalaire dans <P(E) : si l'on prend un produit scalaire qui s'exprime aisment en fonction du produit scalaire de il n'est plus ncessaire de connatre la transformation cP qui est alors implicite. Tous les calculs s'effectuent en dimension n.
188
7 . l'analyse en composantes
pnr)CIClalp,~in:&.m
Soit k.(x,y) un produit scalaire dans (P(E) et <x,y> celui de E. Les choix suivants couramment utiliss:
k.(x. y)
x, y)
+cyl
1 k(x, y) = exp 1
k(x, y)
2ertanh(x, y) +c)
!Ix - ~vii:!)
n suffit alors de remplacer la matrice W usuelle par celle o chaque terme est k.(x, y), de la centrer en lignes et colonnes et d'en extraire les vecteurs propres pour obtenir les composantes principales dans (p(E).
Pour que k(x,y) soit bien un produit scalaire, on doit vrifier les conditions de Mercer qui signifient que toule matrice symtrique de terme k(x,y) doit avoir des valeurs propres positives ou nulles.
L'analyse canonique et la comparaison de grolJpes de variables
8.1
ANALYSE CANONIQUE POUR DEUX GROUPES
Lorsque Il individus sont dcrits par deux ensembles de variables (en nombre p et q respectivement) on cherche examiner les liens existant entre ces deux ensembles afin de _,,_ savoir s'ils mesurent ou non les mmes proprits.
_ Exemples: Les deux groupes de notes des disciplines littraires et scientifiques; des rsultats d'analyses mdicales faites par deux laboratoires diffrents.
Le tableau de donnes analys est donc de la forme suivante: 2 ...
2 ...
11
On considre alors les deux sous-espaces de IRS II engendrs par les colonnes de XI et X:!, respectivement: et
W) et W2 sont les deux ensembles de variables que l'on peut construire par combinaisons linaires des variables de deux groupes. Ces deux espaces peuvent tre appels potentiels de prvision (Camiez, Pags, 1976).
Si ces deux espaces sont confondus cela prouve que l'on peut se contenter d'un seul des deux ensembles de variables, car ils ont alors mme pouvoir de description; s'ils sont orthogonaux, c'est que les deux ensembles de variables apprhendent des phnomnes totalement diffrents. Ces deux cas extrmes tant exceptionnels~ on tudiera les positions gomtriques de WI et W::: en cherchant les lments les plus proches, ce qui permettra en particulier de connatre dme HI) n W:::).
190
B_L'analyse canonique et la comparaison de groupes de variables
Si les applications directes de l'analyse canonique sont peu nombreuses, elle n'en COflsurUe pas moins une mthode fondamentale car sa dmarche (rechercher des couples de variables en corrlation maximale) se retrouve dans d'autres mthodes comme l'analyse des correspondances, la rgression multiple, l'analyse discriminante: si la dimension q de l'un des groupes de variables est gale l, l'analyse canonique est quivalente la rgression linaire multiple tudie au chapitre 17. Si un des groupes est compos des Cf variables indicatrices d'une variable qualitative (donnes rparties en q catgories) et l'autre de p variables numriques, l'analyse canonique conduit l'analyse factorielle discriminante prsente au chapitre 18. Si les deux groupes des variables sont composs respectivement des indicatrices de deux variables qualitatives p et q catgories, on obtient l'analyse des correspondances prsente au chapitre 9.
8.1 .1
Recherche des variables canoniques
On supposera que ~'l est muni de la mtrique D. La technique est alors la suivante: chercher le couple (b TI!) d\lcteurs norms o~! eW1et'YIl eW2 forment l'angle le plus.,~: faible ~ l et Tl, sont des combinaisons linaires respectives des variables du premier et du second groupe appeles variables canoniques. On recherche ensuite un couple (2' 'YI2) avec :! D-orthogonal , et 112 D-orthogonal Tli tels que leur angle soit minimal et ainsi de suite. On obtient ainsi les p couples de variables canoniques (on posera p = dim Wl et q = dim W;2 avec p :5 Cf). Notons AI et A 2 les oprateurs de projection D-orthogonale sur HI) et Wl respectivement.
Il est facile de vrifier que les expressions matricielles explicites de Al et Al sont (si dim WI = pet dim W2 = q) : Al
= X\(X;DXI)-lX~D
1I
Al = X2(X2DX:J-IX~D
8.1.1.1
.tude de la solution dans !R
Il s'agit de rechercher deux vecteurs ~I et 'YJ, de WJy tels que cos ('J)\> t) soit maximal. . En supposant pour l'instant que 'YJ\ et ~! ne sont pas confondus, on voit gomtriquement
o ~------------------------FIGURE
VV1
8.1
8_L'analyse canonique et la comparaison de groupes de variables
191
que 1')1 doit tre tel que AITII sa projection sur W I soit colinaire ~I' En effet, l'lment le plus proche de TIl est la projection D-orthogonale de TIl sur W I Rciproquement, TIl doit tre l'lment de W:! le plus proche de I (ou de A 11')1), donc TIl doit tre colinaire tl
A:2AITlt
Notre problme revient donc trouver les valeurs propres et les vecteurs propres de A::!AJ puisque A!AITII ITlI' Inversement, il est immdiat que ~I est vecteur propre de AJA! associ la mme valeur propre. , reprsente le carr du cosinus de ('angle form par 1']\ et " ce qui entrane
1 :s; l.
Le cas I = 1 nous donne ~I TIl' donc TIl E W n W!. Les vecteurs propres de A2 A \ appartiennent W 2 : en effet, en prmultipliant A 2A\1']\ = ,TI par Alan trouve puisque A~ A::AITI = ,A::TI, donc A:>.Tll 1'],; on trouve de mme que les vecteurs propres de AJA::! appartiennent li W 1
J
A::!,
Montrons que A2A, est diagonalisable: puisque les vecteurs propres de A2AI appartiennent ncessairement W::! il suffit d'tudier la restricton de A::!AI W2 .
THORME
La restriction de A.:: A , il W;.? est D-symtrique.
Si nous notons (x ; y> le produit scalaire associ la mtrique D :

(x;
y> =
x'Dy
il faut montrer que quel que soit
K,
y E W2 :
on a :
(x ; A::! AI Y ) = (Al X ; AI y>
car A 2 est D-symtrique car x E W 2 car Al est D-symtrique car y

E
= (x; AtY)
=(A\x;y)
= (AIx; A 2y)
W2
(A 2A l x;y)
car A::! est D-symtrique
c.q.f.d.
Ceci entrane que la restricton de A:2AI W::!, et par suite A2At. est diagonalisable, ses vecteurs propres sont D-orthogonaux et ses valeurs propres j sont relles. De plus, les . j sont:;::::: 0 car A] et Al sont des matrices positives.
AlA, possde au plus min (p, q) valeurs propres non identiquement nulles. L'ordre de multiplicit de J = 1 est alors la dimension de W1n W2 ; les vecteurs propres associs des valeurs propres nulles de rang infrieur q engendrent la partie de W:! D-orthogonale W\.
192
8aL'analyse canonique et la comparaison de groupes de variables
Les vecteurs propres ~i et l1i D-norms de A,A::: et de AzA, sont associs aux mmes valeurs propres et vrifient les relations suivantes:
-f}:"t\. '1 i"1I = A,. _~I

AIA2~j = j~i
11~ D1'Jj
=0
et
pour i::foj
qui entranent de plus: pour i::foj
8.1. 1.2
Solutions dans IR? et IRtI
Les variables canoniques ~i et l1i s'expriment comme combinaisons linaires des colonnes de XI et X::: respectivement: et Les ai et b i sont les facteurs canoniques qui s'obtiennent directement de la manire suivante:
AI A2~i
= i~i :>
A 1A 2X [a,
= iX,a;
en remplaant les projecteurs par leur expression on a :

X! (X/,DX,)-IX;DX::.(X/:::DX:J-IX'2DX,ai = iXla j
Si le rang de XI est gal au nombre de ses colonnes, on peul simp1ifier de part et par XI (multiplication par (X~ XI )-'XD et on trouve:
(X;DX,)-IX~DX2(X2DX2rIX2DXlai
= iai
et de mme: Dans le cas o toutes les variables sont centres:

X~Dl = X~Dl
=0
les matrices X;DXj s'interprtent comme des matrices de covariance. On note usuellement:
V" V22
X;DX 1
= X~DX2
V,:! = X,DX 2 V::: 1 = X 2 DX,
= (V,:!)'
Les quations des facteurs canoniques s'crivent alors:
Vj,IV,.2V 22IV 2I a i V22IV::'IVj,IVnbi
= iai = jb
j
et les valeurs propres sont les carrs des coefficients de corrlation canonique entre les variables canoniques. Sur le plan pratique, on diagonalisera videmment la matrice de taille la plus faible.
8111L'analyse canonique et la comparaison de groupes de variables
193
Comme on a: ~ XIa; et 'lli = X::b i si l'on dsire que les variables canoniques soient de variance unit, on normera les facteurs principaux de la manire suivante: et
On en dduit:
_ 1 _1 b1 - -V" V'la1
.Ji:; -- -
et
_ 1 _1 a.--V11V\.,b. 1 _h - 1
-V i
Comme seuls comptent les sous-espaces WI et W::, il est quivalent de travaller avec des variables de variance 1. On utilisera donc en gnral les matrices de corrlation RII' RI:!, etc la place des matrices de variance.
8.1.2
Reprsentation des variables et des individus
Deux sortes de reprsentations sont possibles selon qu'on choisit les variables canoniques de WI ou de W:!> Si l'on fait choix de W] on reprsentera l'ensemble des variables de dpart D-normes (colonnes de XI et de X 2 ) en projection sur la base D~orthonorme forme par les ~j. En particulier, la projection sur le plan engendr par ~I et ~2 donne un cercle des corrlations (fig. 8.2) car, s les colonnes de XI sont D-normes ainsi que celles de Xl' les composantes sur la base des ~i sont les coefficients de corrlation entre les variables initiales et les variables canoniques.
- + - - - - - j - - - - ' - - - i - ~1
FIGURE
8.2
Xt
Si x" est la kii!me colonne de XIan a x~D~1 = X"DXI31 ; le coefficient de corrlation entre et ~I est la killlc composante de V lI al car Xk est gal Xlo" o l' est le vecteur de IR" dont toutes les composantes sont nulles sauf la kimt! qui vaut 1. Si YI est la
zime
colonne de X 2
la corrlation entre YI et ~i est alors la ziemc composante de V].[ai ou encore la li~H1C compo~ sante de ~IV 22b j
194
B_L'analyse canonique et la comparaison de groupes de
v,"-":ll"\'.,_
Si les colonnes de Xl et X:! ne sont pas D-normes il faut diviser les expressions dentes par les normes de Xk ou YI' Les reprsentations sur (Sb S2) et (111- ''-12) sont d'autant plus voisines que ] et 2 proches de 1. Pour les individus deux reprsentations des individus sont possibles selon les canoniques choisies.
var]at)lf'~
Si l'on choisit le plan dfini par (g[, gz) les coordonnes dufi:mc point sont lesjime posantes des variables canoniques SI et S2'
8.1.3
Test du nombre de variables canoniques significatives
On peut arrter l'extraction des valeurs propres et des vecteurs propres au moyen du de Bartlett. L'hypothse que les deux ensembles de variables sont indpendants revient tester [ :: Si cette hypothse est rejete, on teste la nullit de ""1' etc. D'une faon gnrale, si [. 2, . , k sont jugs signiticativement diffrents de zro, on teste la nullit des valeurs propres suivantes en utilisant la quantit:
- [Tl -
1 - Ir. -
~ (p + Cf +
2
1)
+ ~] ln (lUil
i=Ii
k+1
rr
f/)(1 -
J)
de
k +2"')
qui suit approximativement un Xfr-k)(q-k), si la valeur thorique de nune.
1 (donc
est
Le test prcdent n'est valide que dans le cas de variables normales et ne s'applique en aucune faon aux cas particuliers que sonl l'analyse des correspondances et l'analyse discrimnante.
8.2
MTHODES NON SYMTRIQUES POUR DEUX GROUPES DE VARIABLES
L'analyse canonique est une mthode faisant jouer des rles symtriques aux deux groupes de variables. Si l'un d'entre eux est privilgi diverses approches sont possibles.
8.2.1
Mthodes procustennes de comparaison de deux configurations d'individus
On suppose ici que les deux groupes de variables ont mme dimension (cas auquel on peut toujours se ramener en rajoutant des coordonnes nulles) afin de confondre les espaces W1 et W2' On dispose donc de deux cartes p-dmensionnelles des mmes des procds diffrents et on cherche les comparer.
11
individus obtenues par
Le principe consiste alors tixer l'une des deux configurations (le tableau XI) et faire subir l'autre une transformation gomtrique simple eX 2 = X 1T) telle que les deux configurations deviennent les plus proches possibles, un critre naturel tant: mJn
;2: \ICi 1=1
1/
ill~
mJn Trace [(XI - X 2T)(X I
X 2T)']
8- L'analyse canonique et la comparaison de groupes de variables
195
Ce type de problme se rencontre en particulier pour comparer des solutions diffrentes de multidimensional scalillg o les axes ne sont pas les mmes. On suppose dans la suite que les poids des individus sont gaux d'tendre les rsultats au cas gnral.
1/11,
mais il est facile
Si T est une transformation quelconque la soluton des moindres carrs est donne par:
En gnral, on impose T d'tre une transformation orthogonale: l'ide est de faire subir il l'une des deux configurations une srie de rotations, symtries, retournements de faon l'amener le plus possible sur l'autre. Le problme devient: avec
TT' = 1
soit p( p
+
2
1) contraintes.
Rcrivons tout cl' abord le critre:
TT'
Trace (XI - X 2T) (XI - X:!Tf Trace X1X'1 + Trace X 2TT'X; - 2 Trace X~X2T. Si Ion voit que T doit maximiser Trace V I2T sous la contrainte TT' = 1. Introduisons alors la matrice A/2 symtrique de taille p des multiplicateurs de Lagrange
aSSOCieS
.,
aux
pC p 2 +
1)
. ad' 1 d . contramtes. n Olt a ors ren re maximum:
Trace [ V "T -
~ A(TT' -
1)]
en drivant cette expression par rapport la matrice T on obtient le systme d'quations: soit
d car - Trace V l 1T = dT -
en multipliant par T'
V11
et
d -Trace ATT ' = ?AT dT .
Pour trouver T nous crivons V lI sous forme de dcomposition en valeurs singulres.
V 21 = VSU' o S est la matrice diagonale des valeurs propres de Y!IV I2 , V la matrice orthogonale des vecteurs propres norms de V21 V12' U la matrice orthogonale des vecteurs propres norms de V 12V 21
On en dduit:
A = VSU'T' = TUSV'
d'o A2
car
A est symtrique
= VSU'T'TUSV' = VS:!V' donc A
VSV' et V 21
= AT donne VSU'
VSV'T
La meilleure transformation orthogonale T est donc telle que:
IT =vu'j
196
8_L'analyse canonique et la comparaison de groupes de
vOIr''' .... ' __ .",:.",
8.2.2
Mthodes factorielles
Leur principe consiste chercher des combinaisons linaires de variables d'un des groupes vrifiant certaines conditions ou contraintes lies ]' existence du deuxime crrnl1~~.""<' de variables. Selon que l'on cherche se rapprocher du deuxime groupe ou au contraire s'affranchir de son intluence on pourra utiliser:
8.2.2.1
L'analyse en composantes principales de variables instrumentales (ACPVI)
On recherche des combinaisons linaires ~ des variables du premier groupe expliquant le mieux les variables du deuxime groupe. C. R. Rao a introduit le critre sUvant :
Si l'on rgresse les tre minimale. "

Cf
/112
variables du tableau Xz sur~, fa somme des variances rsiduelles
En pOPcl1t~. :::::HX,a, ce critre revient rendre maximale la somme des variances ques soit un coefficient prs:
2:(x~)' ~(~'~)-I f(x~)
j=l
IJ!'
je;: ,
~(x~rXI aa'X; (x~) _ . X~X,aalXIX1 .rt.J 'X - Trace a XI.i 1a a 'X'X Ja 1

l .1
a'V'2 = Trace V21 aa'V I2 = - - -2I-
V a
a'V; la
a'Vlla
a est donc vecteur propre associ sa plus grande valeur propre, de la matrice:
1
Vl lV 12V 211
Les valeurs propres suivantes conduisent d'autres solutions non corrles entre elles. Lorsque X2 est un ensemble de variables de variance unit, ~ est la combinaison des variables de XI la plus corrle avec les variables de X2 au sens o :
IHI''-'(.UH,,,,;'
2: r2(~ ; x~) est maximal

j=1
Oh
On reconnat ici une expression voisine du critre usuel de l' ACP rduite: ici on les corrlations avec des variables externes. Les variables ~ sont les composanLes principales de l'ACP de XI avec pour mtrique: M = V, IV I2V 2,V,1 = (Vl'V'2)(VIIV12)' ou, ce qui est quivalent, les composantes principales du tableau X,Vl'V 12 avec la mtrique identit: en d'autres termes on effectue: l'ACP des projections des variables de X 2 sur Xl' Le coefficient de redondance de Stewart et Love entre deux groupes de variables: R2(X 2 : Xi) (notons que R2(X, : X 2) =f= R2(X 2 : XI : . est: R-(
., X
2:.i ,)
Trace (V 21 Vl'V I2 ) = ------..:.-"-'--~ Trace V 22
a_L'analyse canonique et la comparaison de groupes de variables
197
1
Lorsque V:;:;
= R 11
(variables de Xl standardises) R:;(X::: Xl) = -.-
L R1(X~; XI)
1112
1Il2j=J
moyenne des carrs des coefficients de corrlation multiple des rgressions des x~ sur XI' On voit alors que les composantes principales des variables instrumentales ~ sont les combinaisons linaires des colonnes de XI ayant une redondance maximale avec X:!. On vrifie aisment que ~ est vecteur propre de AI W:'. o : et
ACP sous contrainte d'orthogonalit

On peut inversement rechercher des combinaisons linaires des variables de XI de variance maximale sous la contrainte d'tre non corrles aux variables de X:,! afin d'liminer leur effet. Pour que le problme ait une solution il faut que 1112 < ml_ On montre alors que les facteurs ""!l!~Jsque ~ = Xia sont vecteurs propres de :
(1 VI1(V2IV12)-IV21)VII
8.2.2.3
ACP des covariances partielles
Une autre manire d'liminer l'intluence des variables extrieures X:! consiste utlliser la matrice des covariances (ou des corrlations) partielles de Xl X:; fix:
VIII:! = Vll V I2V 2 :!IV:'!1
On cherche alors les vecteurs propres de cette matrice_ Il s'agit ici d'une ACP du nuage des rsidus des rgressions des variables de Xl sur Xl : les composantes principales ne sont pas ici des combinaisons linaires des variables de XI_
8.3
l'ANALYSE CANONIQUE GNRALISE
tendre l'analyse canonique plus de deux groupes de variables se heurte d'emble
la difficult suivante: il n'existe pas de mesure simple de la liaison entre plus de deux
variables. Il y aura donc autant de faons d'obtenir des variables canoniques que de manires de dtinir une corrlation ~) entre p variables: on peut prendre par exemple comme mesure la somme des corrlations deux deux, la somme des carrs des corrlations, le dterminant de la matrice des corrlations, etc. Toule gnralisation est donc plus ou moins arbitraire. Celle que nous prsentons ici a l'avantage d'tre sans doute la plus simple et la plus riche d'interprtations, car elle se relie aisment toutes les autres mthodes d'analyse des donnes.
8.3.1
Une proprit de l'analyse canonique ordinaire
tant donn deux ensembles de variables centres Xl et X;!, les variables canoniques ~ et 11, vecteurs propres de A lA] et A2Al respectivement, possdent la proprit suivante:
~
+ 11 est vecteur propre de AI + A 2
198
BaL'analyse canonique et la comparaison de groupes de
V::II"',,,k'I_..:.'cC'!,,,
En effet, posons z tel que (A, + A 2)z = I-lz ; en prmultipliant par AI ou quation, on trouve en utilisant r idempotence de At et A 2 :
soit: ce qui donne :

AIA:!A,z A:!A,A:!z
et
(I-l - lfA,z
= (I-l
- l):!A:;z
donc au mme coefficient multiplicateur prs, A!z et A 2z ne sont autres que les VilllutllestJ*! canoniques ~ et 'YI ; comme A ,z + A:!z = I-lZ on trouve I-lz ~ + 'YI, ce qui dmontre proprit annonce (fig. 8.3).
FIGURE
8.3
La variable z possde la proprit d'tre la plus lie aux deux ensembles XI et X:!. en sens qu'eHe a une somme des carrs des coefficients de corrlation multiple maximale XI et X 2 . En effet, le coefficient de corrlation multiple de z avec Xi vaut:
car les variables tant centres, Ri est le cosinus de l'angle form par z et Wj
8.3.2
la gnralisation de J. D. Carroll (1968)
De la proprit prcdente dcoule la gnralisation suivante due 1. D. Carroll: plutt;' que de rechercher directement des variables canoniques dans chacun des sous-espaces W; t associs des tableaux de donnes Xi> on cherche une variable auxiHaire z appartenant la; somme des Wj telle que
2: R2(z ; Xi) soit max.imal.

1='
l'
canonique et la comparaison de groupes de variables
199
z est alors vecteur propre de AI + A:! + ... + AI' :
On obtient ensute, si ncessaire, des variables canoniques ~i en projetant z sur les Wi (X I IX2 1 ...
SOUS
Ix/,), matrice Il lignes et Lm; colonnes, la variable z se met

i=1
11
la forme Xb et plutt que de rechercher z comme vecteur propre d'une matrice vaut mieux chercher b qui possde SnI i composantes. Comme Ai = Xi(X~DX)-!X;D, en posant Vu
Il,
n il
X;DX j matrice de variance-covariance
V -I 11 V -I 22
matrice bloc-diagonale des Vii l, on
v- I Pl'
p
trouve asment que LAi

1"'1
LXjV~[X;D s'crit en fat LAi = XMX'D.
l'
i=!
;=!
Donc z est vecteur propre de Xl\tIX'D, et puisque z = Xb, si X est de plein rang, b est vecteur propre de MX'DX :
XMX'Dz
= /.lZ
l\tlX'DXb = /.lb
On reconnat alors les quations donnant les composantes principales et les facteurs principaux, dans l' ACP du tableau total X avec la mtrique M. En particulier si chaque groupe est rduit une seule variable (mi retrouve l'ACP avec la mtrique Dl!s~ puisque z rend alors maximal
= l, i =
i=!
l, 2, ... , p) on
" L r 2(z ; Xi).
L'analyse canonique gnralise est donc une ACP sur des groupes de variables, ce qui nous ramne une optique de description des individus tenant compte des liaisons par blocs plutt qu' une optique de description des relations entre variables. On a toujours 2:J.Lk = 2:111 i Si /.l = p, il existe une intersection commune tous les lVi . Les variables canoniques ~~k) que l'on dduit des zU:.) par projection orthogonale sur les
Wi ont alors la proprit suivante, du moins pour l'ordre 1 : le p-uple (t)I), ~~I), ... , ~;,1) a une
matrice de corrlation dont la plus grande valeur propre Contrairement l'analyse canonique usuelle avec p
I
est maximale. a pas orthogonalit entre
= 2, il n'y
les ~~k) et les t~/).
200
B_L'analyse canonique et la comparaison de groupes de variables
On verra au chapitre lOque si chaque groupe est celui des variables indicatrices de p variables qualitatives, l'analyse canonique gnralise conduit l'analyse des correspon_ dances multiples. L'analyse canonique gnralise de Carroll n'est pas la seule mthode de traitement simultan de p groupes de variables; de trs nombreuses techniques ont t proposes: la mthode Statis, l'analyse factorielle multiple sont les plus connues. Le lecteur intress est invit consulter les ouvrages de B. Escofier, du Ger, ains que l'article de synthse de P. Cazes (2004) cits en bibliographie.
L'analyse des
correspondances
Cette mthode a t propose en France par J.-P. Benzcri dans le but d'tudier la liaison (dite encore correspondance) entre deux variables qualitatives; un exemple de correspondance nous est fourni, par exemple, par la ventilation des sjours de vacances selon le mode d'hbergement eL la catgorie socio-professionnelle (CSP) (voir chapitre 6, 6.5). Sur le plan mathmatique, on peut considrer l'analyse des correspondances soit comme une analyse en composantes principales avec une mtrique spciale, la mtrique du X2 , soit comme une variante de l'analyse canonique. Nous dvelopperons ces deux aspects en accordant toutefois la prfrence l'aspect analyse canonique qui a entre autres avantages de respecter la symtrie entre les deux variables el de gnraliser sans difficult l'ana1yse des correspondances plusieurs variables qualitatives.
9.1 9.1.1
TABLEAU DE CONTINGENCE ET NUAGES ASSOCIS Reprsentations gomtriques des profils associs un tableau de contingence
Le tableau des donnes est un tableau de contingence N ml lignes et 1112 colonnes rsultant du croisement de deux variables qualitatives 1/11 el 111 2 catgories respectivement (voir chapitre 6, paragr. 6.5). Si
r on note DI et D'2. les matrices diagonales des effectifs marginaux des deux variables:
Ill.
Il,!.
o
D}
n. 1
n.2
Dl =
0
Il ..
Le tableau des profils des lignes d'lments
-.!l.. eSL
11 i.
alors D 1 N. est alors ND;- l,
Le tableau des protils des colonnes d'lments

1l.j
202
9_L'analyse des correspondances
Les protils de lignes forment un nuage de m, points dans
; chacun de ces points
affect d'un poids proportionnel sa frquence marginale (matrice de poids: Le centre de gravit de ce nuage de points est:
~' ).
Il.,
Il
P.I
c' est--dire le profil marginal. Rciproquement, les profils-colonnes fonnent un nuage de poids donns par la matrice D
Il 2 ;
111::..
points dans lit'" avec
leur centre de gravit g(, est le point de coordonnes:
Pour garder les conventions du chapitre 7, les profils des colonnes de N sont les lignes du tableau transpos D l N' (<< individus en lignes, variables en colonnes). Dans le cas de l'indpendance statistique: et
Il 11 .J
Il
les deux nuages sont alors rduits chacun un point, leurs centres de gravit respectifs. L'tude de la forme de ces nuages au moyen de l'analyse en composantes principales permettra donc de rendre compte de la structure des carts r indpendance mais il faut choisir alors une mtrique pour chacun de ces espaces.
FIGURE 9.1
. 9_ L 'analyse des correspondances
203
Remarquons que les profils ayant pour somme l, les 11/1 profils-lignes sont en ralil situs
III>
dans le sous-espace W:! de dimension
1112
1 dfini par 2:x}

}=!
l (avec en plus x)
0) ainsi
que leur centre de gravit (fig. 9.1). De mme pour les rn2 protils des colonnes.
9.1.2
la mtrique du X2
pour calculer la distance entre deux profils-lignes i el i' on utilise la formule suivante:
11 s'agit donc de la mtrique diagonale nDil, La considration suivante justifie dans une certaine mesure l'emploi de la distance du X1 La pondration par
:
!!... de
11.)
chaque carr de diffrence revient donner des importances
comparables aux diverses variables ) : ainsi, dans l'exemple de la correspondance modes d'hbergement X CSP, (voir chapitre 6 et 9.3) si l'on calculait la dislance entre deux modes par la formule usuel1e : somme des carrs des diffrences des pourcentages des diverses CSP , il est clair que cette distance reflterait surtout la diffrence entre les CSP les plus importantes en nombre; pour pallier cet inconvnient la division par Il.} est un bon remde (quoiqu'un peu arbitraire). L'argument le plus frquemment utilis en faveur de la mtrique du X'2 est le principe d'quivalence distributionnelle: si deux colonnes de N,.i et j', ont mme protil il est logique de les regrouper en une seule d'effectifs (ni} + 11;/.), il faut alors que cette opration ne modifie pas les distances entre profils-lignes. On vrifie en effet par simple calcul que:
Ji
(11 ij Il.)'
Il i'j 11 1. .,
n.) ni.
)" + (
11
n ij'
Tl /. .
H /., .
Il, .J
)'
- _
11 11' J .11 ., . J
11 ij
+
11 1. .
11 li'
Il i'j
+ Il i'J'):!
Il i',
lorsque
Il ..
.-Ji.
Il,}
Cette proprit n'est pas vrifie pour la mtrique euclidienne usuelle. Lajustification la plus profonde, mais la plus difficile, est en fait la suivante: les profils-lignes sont des lois de probabilit sur des ensembles finis de ml lments (les modalits de la deuxi~ me variable). Au moyen de l'esprance mathmatique, ces lois de probabilit sont associes des formes linaires (qu'on leur identifie) sur les variables quantitatives compatibles avec la deuxime variable qualitative. Ces variables quantitatives (qui ralisent une quantification de la deuxime variable qualitative) formant un espace vectoriel, les individus sont donc des lmenL~ du dual de cet espace (pas tout le dual, mais un simplexe de ce dual). Les modalits de la deuxime variable ayant pour poids P.I' P.:!, ... , les variables 1 quantitatives associes sont munies de la mtrique - D:! qui est la mtrique de la covariance,
11
204
911111L'analyse des correspondances
si l'on se restreint des codages centrs. Le dual doit donc tre muni de la mtrique inverse
nDi l .
On dfinit de mme la mtrique du X:! entre profils-colonnes (matrice nDl1) par la fonnule :
Le terme de mtrique du X:! vient de ce que les deux nuages ont alors pour inertie totale la quantit mesurant l'cart l'indpendance :
cp:! = 1 L
Il
(nu -
Il, Il ,)1 ~
Il
(voir chapitre 6)
11 i. 11 .j
11
En effet, l'inertie du nuage des profils-lignes par rapport g;vut:

111, '" kJ
Il,
;=1 Il
,. d" (' g/) x' l, -
"'V ..i.J /. ..i.J "'V - - i=lj=1 Il Il.j
III 1
1111
Il,
Il
('1"
'.1
- -
11 ,)2
.}
IIi.
Il
ce qui donne cp:! aprs un calcul lmentaire. Il en est de mme pour l'inertie du nuage des profils-colonnes. Nous avons remarqu que le nuage des points profils-lignes tait dans un sous-espace \VI : le vecteur Og, est alors orthogonal au sens de la mtrique du X2 ce sous-espace (fig. 9.2) :
o
FIGURE
9.2
En effet, soit
x un lment de W1 :
(x - gl)'I1Di l g, = < Og[; g,x >x!
=0
car:
et pour tout lment de WI
x'l
L
= 1 donc g; 1 =
l.
De plus "gdl~~
= gl =
205
9.2
ANALYSES EN COMPOSANTES PRINCIPALES DES DEUX NUAGES DE PROFilS
Deux ACP sont alors possibles: 1) Celle du nuage des profils-lignes avec: - tableau de donnes X = DtlN ; - mtrique M = uDi l ; _
2)
poids
= Dl.
Tl
Celle du nuage des profils-colonnes avec: - tableau de donnes X = DiIN '
(Le tableau des profils colonnes est ND;-I mais, pour garder l'usage de mettre les "individus" en ligne, il faut le transposer; d'o X = DilN') ;
mtrique poids
LVi D
= IID I l = D 2
11
Nous allons voir gue leurs rsultats sont en dualit exacte.
9.2.1
ACP non centres et facteur trivial
La matrice de variance d'un nuage de protil est V
= X'DX
- gg'.
D'aprs la proprit tablie la fin du paragraphe 9.1.2 Og est orthogonal au support du nuage, il est donc axe principal, c'est--dire vecteur propre de VM, associ = O. Les vecteurs propres de VM sont alors les mmes que ceux de X'DXl\t1 avec les mmes valeurs propres sauf g qui a pour valeur propre L. En effet gg'M est de rang 1 et :
X'DXl\'1
d'o:
VM
+ gg'M
X'DXMg
= VMg + gg'Mg = 0 + gllgll~~

=g
Il est donc inutile de centrer les tableaux de profils et on effectuera des ACP non centres: la valeur propre l dont on verra plus tard qu'elle est maximale sera ensuite liminer. A cette valeur propre triviale est associ l'axe principal g et le facteur principal constant:
206
9l11i1111L'analyse des correspondances
9.2.2
ACP non centres des nuages de profils
Il suffit d'appliquer ici les rsultats du chapitre 7 : les facteurs principaux sont les vecteurs propres de lVIX'DX, les composantes principales les vecteurs propres de XlV!X'D. 1 Pour les lignes on a X = D,'N d'o X'DX = - N'D,IN, MX'DX = D1 1 N'D l Net J XlVIX'D = Di' ND 1 N'. n Pour les protils-colonnes il suftit de transposer N et d'inverser les indices 1 et 2, comme le montre le tableau 9. t :
TABLEAU
9.1
ACP des profils-lignes Facteurs principaux Vecteurs propres de D1"' N/D,I N
ACP des profils-colonnes Vecteurs propres de D,' ND 1" , N'
Vecteurs propres de D,' ND 1" 1 N' Composantes principales normaliss par
---------4-----------------------Vecteurs propres de
D;-' N'D,' N
normaliss par
b / D:! b = X.
a' D I a n
= X.
On constate que les deux analyses conduisent aux mmes valeurs propres et que les facteurs principaux de l'une sont les composantes principales de l'autre ( un coefficient multiplicateur prs). En pratique on s'intresse ici exclusivemenL aux composantes principales pour obtenir directemenL les coordonnes factorielles des points reprsentatifs des profils-lignes ou colonnes. On remarque que les matrices ayant comme vecteurs propres les composantes principales sont les produits des deux matrices [D,' N] et [D1"' N'l dans un ordre ou dans l'autre: Les coordonnes des points-lignes et points-colonnes s'obtiennent en cherchant les vecteurs propres des produits des deux tableaux de profils. La parfaite symtrie entre ACP des profils-lignes et ACP des profils-colonnes conduit alors superposer les plans principaux des deux ACP atin d'obtenir une reprsentation simultane des catgories des deux variables croises dans le tableau de contingence N. Cette pratique sera justifie plus en dtail au paragraphe 9.4.4 Les cercles de corrlation n'ayant aucun intrt ici dans le contexte de variables qualitatives l'interprtation des composantes se fait essentiellement en utilisant les contributions des diverses catgories aux inerties des axes factoriels, c'est--dire aux valeurs propres.
91111BL'analyse des correspondances
207
Comme: On appelle contribution (CTR) du profil-ligne i t'inertie le quotient:
CTR(i)
11
-.:L (b.f-
Il-
On a de mme:
CTR(j) =
--
Comme en ACP on considre ra les catgories ayanlles plus fortes contributions comme constitutives des axes: un critre simple consistant retenir les CTR(i) > .....!:. La contribution
11
JI-
doit tre complte par le signe de la coordonne car certaines catgories peuvent avoir des contributions de sens opposs. Remarquons qu'ici
n 2: -.!.:.lli = L _hj =
i
0 (les composantes sont centres) ; il ne peut
Il
11
Y avor d'effet de taille car les coordonnes des points ne peuvent tre toutes positives ou toutes ngatives.
9.2.3
Formules de transition
Les coordonnes des points-lignes et les coordonnes des points-colonnes sont relies par des fom1UJes simples dont le premier intrt est d'viter de raliser deux diagonalisations. On diagonalisera la matrice la plus petite, par exemple Dt ND l ' N' si 1111 < ln"].. Connaissant les solutions a de l'quation:
il suffit de prmultiplier les deux membres de cette quation par Dli N' pour obtenir un vecteur proportionnel b :
On a donc b normalisation ND2' I N ' a =
= kD2'1 Nia. Pour dterminer k il suffit ., Di k2 b ' -= b = soit k-a'ND;1 -=. D;I Nia = II -11 n
D-,
a il vient
k 2 a '
d'utiliser la condition de
a'ND;1 N'a 1l
=
.
Comme
Dl
DI a
Il
= soit P =
1 puisque a' Dl a =
208
On a donc les formules suivantes pour chaque axe: soit soit
l'Jj -
9_L'analyse des ... r>rr<>." ..... n'n..l'..... ~, __
'l.
r. " 1-. 1 ai .l.J

=
111\
Il"
1 }l.j
avec:
a=
b=
.Ces formuls dites de transition sont des formules pselldo~barycentriques au sens suivant
...J'X. prs la coordonne d'une catgorie i d'une variable est la moyenne des coordonnes des
catgories de l'autre variable pondres par les frquences conditionnelles du profil de i.
9.2.4
9.2.4.1
Trace et reconstitution des donnes

Dcomposition du <pl
Nous avons dj vu que l'inertie totale des deux nuages tait gale au <.pl, En liminant la valeur propre triviale on a donc si 111,
1111-
<
m2 :
~ . k =
k=l
<.p2
car il Y a au plus min 111, - 1) ; (m2 - 1)) valeurs propres. Chaque direction principale explique une partie de l'cart l'indpendance mesure par le <.p2, Les pourcentages de variance (ou d'inertie) sont donc les
.d <.p'2 ,
P. Cibois (1983) a mis en vidence la proprit suivante qui montre que l'analyse des correspondances tudie la structure des carts l'indpendance plus que les carts eux-mmes; Le tableau N* dfini par:
~+a, ",.-~
1l
1)
n,
11 '
11 ,)
JI
a mmes marges que N donc mme tableau d'indpendance mais des carts il l'indpendance. rduits de ct (si 0 < ct < 1). L'analyse des correspondances de N* est alors presque identique celle de N : mmes' graphiques, mmes pourcentages d'inertie, mmes contributions. Seul <.p2 et les valeurs pro pres ont chang :
(<.p2r~
= a,2 <.p2 et .*=
a'2 .
Un utilisateur ne regardant que les pourcentages et non les valeurs absolues ne verrait aucune diffrence. Le problme est alors de savoir si l'on analyse des cart." significatifs ou non.
des correspondances
209
Formule de reconstitution
La formule X
= L cl;,uJ,lVl- 1 tablie
k
au chapitre 7 s'applique ici pour X tableau des
profils-lignes, CI;, vecteur des coordonnes des lignes sur r axe na k, Uk facteur principal (identique au vecteur des coordonnes des colonnes sur r axe k divis par ~) et IVI = llD~ 1. On a alors:
...21
Tl i .
n..
= 2: _1_-'_
k
a!k)//k)
-{
Il
mais il faut utiliser tous les facteurs y compris le facteur trivial correspondant h = l, d'o :
Il s'agit donc bien d'une reconstitution des carts l'indpendance l'aide des coordon"'isfactorielles des points associs aux profils-lignes et aux profils-colonnes.
9.2.5
Choix du nombre de valeurs propres en AFC
L'AFC est une ACP particulre mais on ne peut appliquer exactement les mmes rgles car la mtrique du khi~deux n'est pas la mtrique usuelle. On peut ne retenir que les valeurs propres suprieures leur moyenne comme le fail la rgle de Kaiser, mais cette pratique est peu usite. La rgle du coude reste cependant valide, mais est toujours quelque peu subjective. Lorsque la taille de l'chantillon le permet, le critre suivant propos par E. Malinvaud peut se rveler trs efficace. Il est bas sur la comparaison entre effectifs observs lIu et effectifs calculs raide de la formule de reconstitution dans le contexte suivant: on fait l'hypothse que [es donnes forment un chantillon tir alatoirement et avec quiprobabilit dans une population teHe que Pij = Pi.P.j(l
Ciik {3jk)' En d'autres termes la loi bidimensionnelle

k=1
sous-jacente est un tableau de rang K. Dans ces conditions, si ,ij};) case ij, raide des K premiers
= (n i .ll d )
11
(1
aikbik/~) est la reconstitution de la

k=l
~
axes~
on peut montrer que la quantit

)' (11 ij
~
Il
ii)
K :!
I.j
Il i.ll~i
Il
suit asymptotiquement une loi du X (1' - K - 1) (q - K 1) degrs de libert. Il s'agt donc d~une gnralisation du test d'cart l'indpendance qui correspond au cas K = O. On trouve sans difficult que QK se calcule l'aide des valeurs propres et est gal rI fois l'inertie au del de la dimension K :
QK
n(l - hl - h 2 -
o r ::::: lIlin(p - l ; q - 1)
210
9. L'analyse des
I..c,-,o.ll,rr,e5J)Orldance~..
-.
-.,
On peut donc tester successivement les valeurs de K depuis K = 0 (hypothse " l' 1" dance),jusqu au moment ou on ne peut p us rejeter ajustement.
;
'l1e1'::.
r
.i.
i
Les conditions d'application sont celles du test du khi-deux: effectifs thoriques au 1I1ins gaux 5. Cependant si :' est tr.s lev le test ~on?~it ~onserver un .tr~p grand nombre de) valeurs propres: on ne l' emplOIera que pour Il mfeneur a quelques millIers. "'.
9.3
UN EXEMPLE
Nous avons soumis l'analyse des correspondances (logiciel SPAD Version .'. le tableau de contingence sur les vacances des franais en 1999 dj tudi dans le: chapitre 6. Le tableau des valeurs propres montre clairement que deux axes suffisent dcrire la liaison entre la catgorie socio-professionnelle et le mode d'hbergement:
.. c
;'
SQt..!1v1E DES VALEURS PROPRES . 0.1073
..'~
HISTOGFLL.J:,!NE DES 7 PREMIERES Vl'.LEURS PROPRES
'.
....
NUHERO
VALEUR PROPRE 0.0657 0.0254 0.0081 0.0037 0.0028 0.0014 0.0002
POURCENT.
POUHCENT.
C-1ULE
1 2
61.24
23.70
3 4 5 6 7
7.55 3.46 2.60 1. 29 0.16
61. 24 84,94. 92.49 95.95 98.55 99.811 100.00
********************************** ******************* ********** ***** "*** **
*
...
Ici le test de Malinvaud est inoprant car 11 = 18352 est trop lev.
Les tableaux suivants permettent de reprer les modalits ayant des contributions significatives : Sur l'axe 1 Hotet, Rsidence seconda re lis avec retraits et opposs tente et ollvriel: L'axe 2 est caractris par Rsidence secondaire de parents et amis et
i
cadres.
On retrouve des associations dtectes par la dcomposition (figure 9.3) du khi-deux, mais le graphique pennet de les illustrer de manire vocatrice. Rappelons que l'interprtation des proximits sur le graphique doit respecter certains principes: si deux modalits d'une mme variable sont proches et bien reprsentes, cela signifie que leurs profils sont semblables (c'est le cas d' ouvrers et employs par exemple qui frquentent les mmes lieux dans des proportions proches). Par contre la proximit entre une modaHt d'une variable et une modalit de l'autre, comme prt~fession illfermdiaire et village de l'acances, est plus dlicate interprter: ce que l'on peut seulement dire c'est que: le barycentre des 3787 sjours des professions n/enndiaires est proche du barycentre des . 686 sjours en village de vacances (voir plus loin).
HODES D' HEBERGEt'lEN'['
COORDONNEES
CONTRIBU'l'IONS
COSInUS CI\ERES
mEN
LIBELLE
14.19 .68 .36 33.73 9.98 4.17 6.10 2.09 3.70
DIS'I'O
0.11 0.0,: 0.33 0.03 0.15 0.31 0.18 0.07 0.07 -0.32 13 -0.55 0.11 -0.06 0.52 0.25 0.15 0.10
2
-0.03 -0.11 0.15 0.09 -0.37 -0.02 0.27 O. 0.12 0 00 -0.10 -0 0.01 0.16 0.10 0.02
4
-0.03 0.03 -0.01 0.02 0.0/1 -0.19 0.09 0.00 -O.lB
5
-0.08 -0.01 0.07
5
,\'329. 3.3.3 0.6 15.2 3.9 LB 3.9 17.0 40.2 0.3 U.2 13.2 0.0 7.3 31.7 11 7
!-lOTE ![ote1 LOCA-Locat.lon RSE:C-Rsid. I1PPA-Rsid. Par RSPA -Hsid. 'l'EN'l'-'l'ent.e CAR.~ Caravane .".J Auberge VILL Village
-o.
-0.13
0.03
0.09
.6 0.:1 3.9 4.1 .628.2 113.2 8.'1 6.3 10.7 38.4 0.5 53.9 .8 17.1 0.1 0.0 6017.3.6 D.7 1..1 .'/ 0.5 O.:': 0.2
0.27 0.07 0.27 O. 0.00 0.360.41 0.33 0.:2'1 0.1,1 0.02
O.
0.30 0.04 0.00 O.LS 0.01 01 .11
.01 0.01 0.01 0.03 0.00 0.03
Ci'.1'EGORIES
SOCIa-PROFESSIONNELLES
COORDONNEES
i
5 -0.11 -0.1'1 O. 0.06 -0.0'1 .02 -0.01 -0.13
CONTRIBUTIONS
COSINUS Cl.. RRES
j
.2
P.HEL
!>.griculteurs 1.27 6.15 23.4'7 20 13 10.57 0.27 0.08
0.15
-0.01 -0.13
Artisans,
Cadres Prof. interm. Employs Ouvriers P.et.raits
J
o.
O. Dl
O.OB
. 26 0.33 -O.,B 0.36
-0.14 -0.15 -0.23 -0.01
0.13
O.lB
-0.03 0.02 -0.04 0.05
O.OB
.1'1
0.40
0.06
.13 0.01
-0 .'14 0.03 0.02 -0 .0'1 0.08

0.01
0.4 0.0 5.6

10.9 28.2 lB .6 4
0.9
5.6 49.9
.6
67.3 1.2
5.5
1 ~l
OB
0.07
o.
1 11. 30 3
3.0 0.9
1.7 :1.7.
16.56
19 . 41 2.12
2.5 7.6 16.3 0.3

-1.7
3.6
0.22 O. '1 ()
.1
13 .
.B2 0.83
0.80
.75 0.00 0.0"1
0.06 0.42 O. O.
73 0.01 0.01 0.10
O. Cll
o
0.01 0.23 0.02
.
o.
0.02 .00 .60
.07
0.00 0.00 0.02
.13
-o.
-0.'19
0.00
O.
62.8
o.
0.00
0.00
0.0'1
Aut.res inactifs
-o.
0.33
212
9 . L'analyse des correspondances
Dans la figure 9.3, les points ont des tailles proportionnelles leurs frqences marginales.
Facleur2,---_ _ _ _ _ _ _ _ _ _ _ _ _,--_ _ _ _ _ varavanE! _ _ _ _ _-.
Ouvriers
0.15
Rsidence Principale Parents

A
Amis
Employs A.utres inactifs
villag1 de vacances
o ---
---1It-----------------------Professions intermdiaires
.... Location Tente
-0.15
Agriculteurs .... Auberge de Jeunesse
Artisans, commerants, chefs d'entreprise
-0.30 -0.50
Cadres et professions intellectuelles suprIeures

i
1 1 1
1
-0.25
Rsidence Secondaire Parents
Amis 0.25
0.50
Facteur 1
FIGURE
9.3
9.4
ANALYSE CANONIQUE DE OEUXVARIABLES QUALITATIVES, JUSTIFICATION DE LA REPRSENTATION SIMULTANE
9.4.1
Mise sous forme disjonctive de donnes qualitatives
Le tableau de contingence N ne constitue pas en ralit le tableau de donnes brutes: il est le rsultat d'un traitement lmentaire (tri crois) de donnes releves sur 11 individus du type : (x}; xl) pour i l , 2, ... , Il o xl et xf sont les numros des catgories des variables qualitatives 2f1 et 3:2 La numrotation des catgories est arbitraire et on introduit , alors la reprsentation suivante comme au paragraphe 6.4.3 : A une variable qualitative gr 111 catgories on associe les 111 variables indicatrices de ses catgories: li 1; li 2, ]m. :[X(i) vaut 1 si x est dans la catgorie i, 0 sinon. Pour un individu i une seule des nI indicatrices vaut l les III - 1 autres valent o. Pour Il individus la variable binaires X suivant:
zr peut
tre reprsente par le tableau de donnes

2
nt
1
2
0 0 ...
0 0
17
...
'analyse des correspondances 9 .. L
213
On dit que f!l'a t mise sous forme disjonctive. On remarque que vecteur 1.
Il
2: ll.x
111
1 donc que les
III
colonnes de X ont pour somme le
A deux variables qualitatives stl et g[,'J;. correspondent donc deux matrices XI et X:. lignes et respectivement ml et 111:. colonnes. On vrifie alors les formules suivantes liant Xl et X:. au tableau de contingence N
et aux deux matrices d'effectifs marginaux DI et D:. :
N = Xi X 2 D,=X,X 1
D2
= xzX"!.
En effet, faire le produit scalaire de deux vecteurs d'indicatrices revient compter le nombre de co-occurrences.
9.4.2
Quantifications de variables qualitatives
Si chaque catgorie d'une variable qualitative ~r on associe une valeur numrique, on transforme gr! en une variable discrte III valeurs: on ralise ainsi une quantification de !Ze en une variable numrique x (cerlains auteurs parlent de codage }). Il existe une infinit de quantifications possibles dont la structure est celle d'un sous-espace vectoriel de l'espace des variables. Si
Clj
est la valeur numrique associe la catgorie j, on a :
2: aj]/
j=1
III
Une quantification n'est donc qu'une combinaison linaire des variables indicatrices.
Pour l'ensemble des n individus on a :
soit si a
=
a III
= Xa
L'ensemble des x est donc le sous-espace Wengendr par les combinaisons linaires des colonnes de X.
214
9aL'analyse des correspondances
9.4.3
Analyse canonique de deux groupes d'indicatrices
L'tude de la dpendance entre fIl'! et f!{~ est donc cene des relations entre les deux groupes de variables indicatrices associes. On peut donc appliquer l'analyse canonique tudie au chapitre prcdent. Les deux tableaux de donnes analyser sont les tableaux disjonctifs XI et X 2 . On constate immdiatement que les deux espaces WI et W2 engendrs par les colonnes de ces tableaux ont en commun le vecteur 1 qui est le vecteur somme des colonnes de Xl ou de X 2 (donc dim (W 1 n W2) 2:!: 1). Les variables canoniques autres que 1 formant des systmes D-orthonorms de WI et W:b sont donc centres, car elles sont orthogonales au vecteur 1. En supposant ici que les on a:
11
individus ont mmes poids 1ln, avec les notations du chapitre 8
v.,., --
1 t 1 =-X.,X., =-D"l
Il Il -
Vil;::::
-Xl X 2 =-N
11 11
V21
= -- N
Il
Les facteurs canoniques du groupe l sont les vecteurs propres de VIIIV 12V;-21V21 c'est-dire de DlNDlN' : ce sont donc les composantes principales de l'ACP des profils-lignes un facteur multiplicatif prs. De mme les facteurs canoniques du groupe 2 sont les vecteurs propres de D;-IN'D1N et fournissent les coordonnes des profils-colonnes sur les axes principaux. Les valeurs propres de \' analyse des correspondances sont donc les carrs des coefticents de corrlation canonique (ce qui prouve que :::;: 1) et la valeur propre triviale = 1 correspond au fait que W1 et W2 ont 1 dans leur intersection. Les facteurs canoniques donnent des combinaisons linaires des variables indicatrices, donc des quantifications de 2r( et 2C2 : on peut interprter l'analyse des correspondances comme la recherche d'une transformation simultane de 2f, et 2l':. en variables numriques telles que leur coefficient de corrlation linaire soit maximal. Cette prsentation plus connue des statisticiens anglophones est attribue Fisher, elle remonte en fait des travaux de Hirschfeld, alias H.O. Hartley, de 1936. Les valeurs numriques optimales attribuer aux catgories sont donc leurs coordonnes sur le premier axe de l'analyse des correspondances. Si l'on rordonne I1gnes et colonnes du tableau de contingence N selon l'ordre des points sur le premier axe principal on obtient un tableau tel que les termes diagonaux aent des effectifs maximaux. Les formules de transition sont identiques ceBes permettant de passer des facteurs canoniques d'un groupe ceux de l'autre groupe.
215
Il n'est donc pas ncessaire dans ce contexte d'introduire la mtrique du X2 et on voit que les catgories des deux variables et sont traites de la mme faon en tant qu'lments de [R'! grce aux variables indicatrices ce qui justitie le fait de les reprsenter simultanment sur les mmes graphiques. Les reprsentations graphiques de l'analyse canonique (cercle des corrlations) sont cependant ici inadquates car la notion de corrlation avec une variable indicatrice n \a gure de sens: on se contentera de reprsenter chaque catgorie par ses codages ) successifs sur les axes.
9.4.4
Reprsentation simultane optimale des (m 1 + m2) catgories d'individus
Les catgories des variables qualitatives !!CJ et dfinissent des sous-groupes d'individus 2 d'effectifs Ili. (i = l, 2, ... ,1111) et 1l.j (j = l, 2, ... , 111:1). Si l'on dispose d'une variable numrique z de moyenne nulle reprsentant les coordonnes des Il individus sur un axe on reprsentera la catgorie i de !!Cl par un point dont la coordonne Cli est la moyenne des coordonnes des l1j. individus de la catgorie en question;
Xii
est la
[me
colonne de
XI'
On en dduit que le vecteur a renfermant les coordonnes des
n11
catgories de XI est:
de mme pour les
1112
catgories de X 2
La variable z est d'autant plus intressante pour Xl qu'elle permet de bien sparer les ai.
c'est-~dire
que la variance - a/DJa est plus grande. Le maximum de cette variance est
Il
obtenu s tous les individus appartenant une mme catgorie de de z.
, ont la mme valeur
Cherchons alors la variable z et les coordonnes a et b telles que en moyenne a'Dla et b ' D 2b soient maximales: on aura alors en un certain sens une reprsentation simultane optimale des catgories des deux variables sur un axe. Comme a'Dla b ' D 2b =
1 (A ,
Zl A 2 z,
= z'X1(X;
X1)-IX;Z = z'Alz o AI est le projecteur sur WI ; et
le maximum de
~ [a'D I a + b ' D2 b] s'obtient lorsque ~ [z/(AI + A 2)z] est
maximal. En supposant V(z) fix ce maxmum est atteint pour z vecteur propre de
+ A:):
216
9. L'analyse des correspondances
Comme Al
= X! D Il X '1 Z = X 1 a
et
soit en prmultipliant les deux membres de cette quation par DII X;
soit : et en prmultipliant par Di 1 X 2:
a + DI! Nb
2Jl.a
ou il vient alors:
DI!Nb = (21-L -1)a { Di'N'a (2f.L-1)b
On reconnat les formules de transition et par substitution on a :
DI! NDil N'a = (2f.L - l)Za { Di! N'DII Nb = (2f.L - Ifb

Ce sont les quations de l'analyse factorielle des correspondances avec (2f.L - 1)2 =
.
Remarquons que l'on aurait pu appliquer directement les rsultats du paragraphe 8.3.1 du chapitre prcdent: z est alors le compromis un facteur prs des deux variables canoniques ~ et Y). Les coordonnes des points catgories donnes par Je premier axe de l'analyse des correspondances sont donc optimales; les axes suivants correspondent au choix d'autres variables z orthogonales aux prcdentes. La signification relle de la reprsentation simultane est donc celle-ci: les points reprsentatifs des catgories des deux variables sont les barycentres des groupes d'indiv;dus qu'elles dfinissent. Les proximits entre points reprsentatifs doivent tre inlerprtes comme des proximits entre moyennes: pour deux catgories i et i' d'une mme variable cela entrane une proximit de leurs profils. Pour deux catgories i et j l'une de 2l'l l'autre de gr:. l'interprtation est plus dlicate. On peut galement reprsenter sur le graphique les cases du tableau de contingence: tout et j de a pour coordonne z sur un axe: individu de la catgorie i de
""
'7
= -
l 1 (a + b.) = --_-=1. 2f.L 1 l + 'l

2f.LZ.
(lli
+ bj )
d'aprs la formule XI a
+ Xl b
des correspondances
217
La mthode des moyennes rciproques

La prsentation suivante connue sous le nom de reciprocal al'eragillg ou de dual scaling claire galement la reprsentation simultane de l'analyse des correspondances. comme des points de Supposons que l'on place sur un axe les catgories de ln variable coordonnes [li' Par exemple les CSP dans le cas tudi prcdemment: CSP 1 CSP 2 CSP
o
Pour reprsenter une catgorie j de l'autre variable 2r::.., ici le mode d'hbergement, il semble logique de la reprsenter comme le barycentre des catgories professionnelles avec pour coefficients les importances relatives des diverses CSP dans le mode d'hbergement en ques-
soit b =
Di l N'a
L'idal serai t que la rciproque soit vraie, c'est--dire que l'on puisse reprsenter les catgories de gel comme barycentres des catgories de
a=DilNb
La simultanit de ces deux relations est impossible: on cherchera alors une reprsentation barycentrique simultane approche avec:
aa = D'Nb { ab = D;-' N'a

o a est le plus grand possible car a correspondances avec a = ..JI.
<
1. On retrouve alors les quations de l'analyse des
L'algorithme consistant partir d'un vecteur a O arbitraire, en dduire b(l) = D;-I N'ao puis a(l) = D 1 Nb(ll, etc., avec normalisation chaque tape jusqu' convergence fournit en gnral la premire solution de l'analyse des correspondances relative il ,I'
9.4.6
Conclusion
L'analyse des correspondances est la mthode privilgie d'tude des relations entre deux variables qualitatives et l'une de ses principales proprits est la facult de reprsenter simultanment lignes et colonnes d'un tableau de contingence. Si en thorie elle ne s'applique qu' des tableaux de contingence, elle peut tre tendue moyennant certaines prcautions d'autres types de tableaux comme le prouvera le chapitre suivant.
L'analyse des correspondances multiples
des correspondances multiples (ACM) est une technique de description de donnes qualitatives: on considre ici Il individus dcrits par p variables 2/;"1' . , !!l~} ml' m'l' ... , ml' catgories. Cette mthode est partculirement bien adapte l'exploration d'enqutes o les questions sont rponses multiples. Sur le plan formel il s'agit d'une simple application de l'analyse des correspondances au tableau disjonctif des 1111 + 1112 + ... + ln!, indicatrices des catgories. Cette mthode possde cependant des proprits qui la relient d'autres mthodes statistiques et lui donnent son statut particulier et en font l'quivalent de l'analyse en composantes principales pour des variables qualitatives.
10.1 10.1.1
PRSENTATION FORMELLE Donnes et notations
Chaque individu est dcrit par les numros des catgories des p variables auxquelles il appartient. Ces donnes brutes se prsentent donc sous forme d'un tableau Il lignes et p colonnes. Les lments de ce tableau sont des codes arbitraires sur lesquels aucune opration arithmtique n'est licite. La forme mathmatique utile pour les calculs est alors le tableau disjonctif des indicatrices des p variables obtenu en juxtaposant les p tableaux d'indicatrices de chaque variable Ainsi le tableau brut suivant:
1
2 2
2 2
2
2 2
3 3
220
ITIUI[IDIF>~,~f!@
correspondant 5 observations de trois variables Ff2, 3, 2, 3 catgories ment engendre le tableau disjonctif X 5 lignes et 8 colonnes:
1 0
rpcnp,,..l-i ~
(X,IX:;IX 3 )
0 0 0 0
1 0 1 0:0 1 : 0 1 0 0 1:0 1: 1 0 0 0 1 : 1 0:0 0
0:0
1:0
l
o: 1 o:
0 0
La somme des lments de chaque ligne de X est gale p, nombre de variables. La somme des lments d'une colonne de X donne 1'effectif marginal de la catgorie correspondan te. La somme des colonnes de chaque tableau d'indicatrices est gale au vecteur 1 ; le de X est donc
2: 111
i=1
fl
i -
1.
On notera D le tableau diagonal des effectifs marginaux des ml
+ J11:; + ... + m" catgories:
10.1 .2
Une proprit remarquable pour p
=2
J
Pour deux variables qualitatives fit, et fIt; m, et ml modalits l'analyse facto .. rielle des correspondances du tableau disjonctif X = (X, 1Xl) est quivalente l'onalyse factorielle des correspondances (AFC) du tableau de contingence N X , X 1
Cette proprit est l'origine du nom de la mthode tudie ici.
10.1.2.1
AFC formelle du tableau disjonctif
L'AFC d'un tableau X revient chercher les valeurs propres et les vecteurs propres du produit des deux tableaux de profils associs X. Le tableau des profils-lignes vaut ici X/2. Le tableau des profils des colonnes XD- ' est tel que:
7O_ L'analyse des correspondances multiples
221
Les coordonnes des profils des colonnes sont les vecteurs propres de :
(XD- 1)'
1
-
= - D-IX'X
2
ml
L'quation donnant les 1111 + 111::. coordonnes des profils des colonnes est, en notant a les premires composantes et b les 111::. suivantes:
d'o les quations:
a + D'Nb = 2j.1a { D I N'a + b = 2j.1b 2
ou
DlNb { D 1N'a 2
= (2j.1 = (2j.1 -
1)a l)b
On reconnat les quations de l'analyse des correspondances de N (formules de transition) et par substitution: D 2 I N'D I Nb { DIND;-IN'a avec ~
= (2j.1 = (2j.1
- lfb - Ifa
= (2j.1
- 1)2.
Les coordonnes des nll + 111::. points colonnes de X sont donc identiques ( un coefficient de proportionnalit prs) aux coordonnes des lignes et des colonnes de N dans la reprsentation simultane.
10.1.2.2
Si
11
Proprits particulires des valeurs propres et vecteurs propres

111 1
>
+ 1112' l'AFC du
Lableau X va aboutir plus de facteurs que l'AFC de N.
D'o viennent les solutions supplmentaires? Notons tout d'abord l'existence d'une solution triviale supplmentaire correspondant une valeur propre nulle puisque les colonnes de X sont lies par une relation linaire (la somme des colonnes de XI est gale la somme des colonnes de X::.). Il y a donc 1111 + 1112 - :2 valeurs propres non trivialement nulles ou gales l. Comme ~
= (2j.1
- 1f, chaque
correspondent deux valeurs propres:

1 - {};.
et
j.1=---
222
10. L'analyse des correspondances multipl
correspondant aux vec te urs propres (:) et ( _ :) soit, si Il Ya en plus /Il,

de multiplicit 1112
-
/Il,
<
1/1,. 2(1/1, -
1) valeurs 11rn'........... _
."""
/Il,
vecteurs propres du type
(~) associs la valeur propre 1/2 qui est
JJ1 l'
Seules les (m 1 - 1) valeurs propres suprieures l/2 ont une signification. Comme:
l'inertie totale est gale
ml + m,
2
- - ].
Bien que fournissant des axes identiques l'analyse des correspondances de N, inerties assoies et les parts d' inertie sont trs diffrentes et ne peuvent tre sans prcaution. Ainsi l'analyse des correspondances sur le tableau disjonctif associ au tableau tudi au chapitre prcdent conduit aux rsultats suivants: (m, = 9 et ml = 8) :
~I =
0.628 0.545 7.5
8.37% 7.77% 7.27%
~I ~2 ~3
7
= 0.0657
= 0.0254
61.24% 23.7% 7.55%
/-L2 = 0.580
~3 =
15
= 0.0081
2: /-Li =
i=1
ml
+ Ill;! 2
2: ~i = 0.1073
""I
Les valeurs propres qui taient trs spares dans l'AFC de N, ne le sont plus dans l'AFC de X.
10.1.3
Le cas gnral
p> 2
La proprit prcdente conduit l'extension p variables qui consiste effectuer une analyse des correspondances sur le tableau disjonctif X = (X, 1X:!I .. X,,) pour obtenir: ainsi une reprsentation simultane des ml + Ill;! + ... + 1111' catgories comme points' d'un espace de faible dimension.
10.1.3.1
Coordonnes des catgories
On notera a
=
ap
le vecteur
2: 11l
1=1
l'
composantes des coordonnes factorielles des ca t-
gories de toutes les variables sur un axe.
to_L'analyse des corresponda.nc.es multiples
223
pour chaque valeur propre /-L on a donc:
D l
01
soit:
1
X;X I
X~XI
X;X 2 ... X(X,,- al

X~X1
a:.>
=j.L
al a:.>
p
()
n- I
"
X~XI .......... X; X" _ al'
aIl
On note B le tableau dont les blocs sont les X;-X j . Ce tableau, dt tableau de Burt, est un super-tableau de contingence puisque chaque bloc X;Xj est le tableau de contingence croisant i?ti avec &'l1. L'quation des coordonnes des catgories est donc:
[~D~IBa = ~a
On prendra comme convention de normalisation:
=JJ.
car la somme des lments de X vaut np.
10.1.3.2
Coordonnes des individus
Les lignes de X reprsentant les individus, les coordonnes des points-lignes s'obtiennent en diagonalisant le produit, effectu dans l'ordre inverse, des deux tableaux des protils. Soit z le vecteur Il composantes des coordonnes des 11 individus sur un axe factoriel. On a :
[~XD~IX'Z = ~Z[
En dveloppant par blocs XO-IX ' il vient:
(X', X 1)-'
(X~X1)-1
j.LZ
224
I-Lz = - 2:A j z. P ;=1

Xi(X~ XJ-1X/; est le projecteur orthogonal Ai sur l'espace engendr par les cOlmD1mllS(Jns linaires des indicatrices des catgories de !!t~.
Jl
ZO
tant la solution triviale associe ~ = ] les autres solutions lui sont orthogonales.
Les coordonnes des individus sur un axe sont donc de moyenne nulle. La condition habituelle de normalisation est: 1
-
/1
"" ~~/
7'~
= - z'z =
Il
11. r-
Il i= 1
10.1.3.3
Formules de transition et relations barycentriques
D'aprs les rsultats du chapitre prcdent on a :
1 -Xa
et
La premire formule s'interprte comme suit:
A 1/ {ji prs la coordonne d'un individu est gale la moyenne arithmtique simple des coordonnes des catgories auxquelles il appartient.
fi
En effet Xa
2:Xj3j. Pour un individu i les seuls termes non nuls sont ceux
j=1
correspondant aux catgories possdes (une par variable). La deuxime formule montre que :
A 1/{ji prs la coordonne d'une catgorie j est gale la moyenne arithmtique des coordonnes des nJ individus de cette catgorie.
Les points reprsentatifs des catgories dans les graphiques factoriels doivent donc tre considrs comme des barycentres : les proximits devront tre interprtes en terme de proximits entre points moyens de groupes d'individus.
10_ L'analyse des correspondances multiples
225
On a l/~ prs, la proprit des moyennes rciproques ) qui est l'origine de certaines prsentations de r analyse des correspondances multiples (dual scaling). z tant une variable de moyenne nulle il s'ensuit que pour chaque variable coordonnes de ses catgores (pondres par les effectifs) sont de moyenne nulle. est possible de reprsenter simultanment individus et catgories des variables les points reprsentatifs des catgories sont barycentres de groupes d'individus. les
Et~
car
Nous conseillons toutefois d'utiliser le systme suivant de coordonnes afin de conserver la proprit barycentrique :
z de variance IJ. et a = n- 1x'z

10.1.3.4
J;.a
Proprits des valeurs propres

(1
Le rang de X tant ~ 1Jl j

;=1
jJ
l, si
11
> Lm;. le nombre de valeurs propres non trivia-
ement gales 0 ou 1 est
2:mi - P =
;=1 li
q.
La somme des valeurs propres non triviales vaut:
2:f.1i = ;=1
Pi
~
1
J.l
1/1;-
L'inertie est donc gale au nombre moyen de catgories diminu d'une unit: c'est une quantit qui ne dpend pas des liaisons entre les variables et n'a donc aucune signification statistique. La moyenne des q valeurs propres vaut Ilp. Cette quantit peut jouer dans une certaine mesure le rle d'un seuil d'limination pour les valeurs propres infrieures comme nous allons le voir. La somme des carrs des valeurs propres est lie, eHe, des indices statistiques.
f.1::! tant valeur propre du carr de la matrice diagonaliser on a :
1+
2: (f.1rf
<=I
Il
o <P~ est Je
c.p='-
de K. Pearson du croisement de
avec Et).
226
10.L'analyse des correspondances
Si les p variables 2r}>
,,"
P-
2l~,
sont indpendantes deux
"" ") 2./1-1-,)i
] 2.;(m, = -:; ""

Pi
1)
1 -:; q.
On a donc:
La moyenne des carrs ne peut tre gale au carr de la moyenne que si toutes les "'r" ....,"""
V
propres sont gales, Le cas de l'indpendance correspond donc il I-I-i
1
l'
Vi.
On retrouve galement cette situation si les donnes sont recueillies selon un quilibr o les ml 111'). /Ill' combinaisons possibles des modalits des sont '""h"'-'L-,,',,;,!, ves avec le mme effectif car tous les tableaux croiss X j ont alors les protils. Pour un tel plan d'exprience l'analyse des correspondances multiples est inutile.
X;
10.1.3.5
AFC du tableau de Burt
Si l'on soumet le tableau B il une analyse des correspondances on retrouve, une constante multiplicative prs, les mmes coordonnes factorielles des catgories. Le tableau de Burt tant symtrique les totaux de lignes et de colonnes sont gaux (on retrouve P fois les totaux marginaux). Le tableau des pronIs-lignes associes il B est donc (pD)-1 B. Le tableau des profilscolonnes associ B est B(pD)- 1. L'AFC de B revient donc diagonaliser:
qui conduit aux mmes vecteurs propres que - D~IB avec des valeurs propres gales f.L2,
10.2
AUTRES PRSENTATIONS
L'extension formelle du cas p = 2 au cas gnral ne suffit pas pour confrer un statut de mthode statistique l'analyse des correspondances multiples. Les prsentations qui suivent, la relianl d'autres mthodes, y contribuent en apportanL des clairages diffrents. Chacune de ces prsentations correspond une "dcouverte" indpendante de rACM.
des correspondances multiples
227
Analyse canonique gnralise de p tableaux d'indicatrices

On sait que l'analyse des correspondances d'un tableau de contingence est une analyse canonique particulire, cene des tableaux XI et X::!. Lorsqu'il Y a P tableaux d'indicatrices associs p variables qualitatives 21;'" .. " est naturel d'utiliser la gnralisation de l'analyse canonique tudie au chapitre 8.
3:;1'
Celle-ci revient chercher les vecteurs propres de la somme des oprateurs de projection
sur les sous-espaces engendrs par les colonnes des Xi'

Au coefficient l/p prs, les valeurs propres sont donc les mmes qu'en analyse des correspondances multiples. Les composantes z sont donc identiques aux variables auxiliaires de la gnralisation de Carron de l'analyse canonique.
Un critre d'association maximale

Puisque l'analyse des correspondances mulLiples est identique l'analyse canonique gnralise de X" X2,
,
X p' les variables z rendent maximale
2: R2(z : X;).
1
fI
Or X j tant un tableau d'indicatrices, le coefficient de corrlation multiple n'est autre que le rapport de corrlation ll(z/X i ) (chapitre 6, paragr. 6.4). Les variables z sont donc les variables de variance J.L, non corrles deux deux vritiant : max
z
2: TJ2( z/ !ft,)
i= 1
f'
Si l'on se rappelle qu'en ACP norme, les composantes principales rendaient maximale
r= 1
L rl( c ; xj) on a ici l'quivalent d'une ACP sur variables qualitatives, la mesure de liaison
,.2.
l'
tant Tl 2 au lieu de
L'analyse des correspondances multiples revient donc rsumer p variables qualitatives par des variables numriques de variance maximale les plus corrles possible, au sens dfini prcdemment, avec les f!e;. Lorsque les variables
a:':!. ... ,
sont dichotomiques (mi
= 2) le
tableau X possde
2p colonnes.
01
tO 01
228
Le coefficient de corrlation multiple au carr entre z et Xi est alors au carr coefficient de corrlation linaire simpJe entre z et l'une des deux indicatrices de puisque la somme des deux indicatrices vaut L
On a donc:
2: TJ2(Z ; g()
=I
l'
i=l
i=1
Dans ce cas r analyse des correspondances multiples de X revient effectuer une norme, c'est--dire sur la matrice de corrlation, sur un tableau JI lignes et p COllonne.~:U; obtenu en ne conservant qu'une indicatrice par variable qualitative.
10.2.3
Quantification optimale de variables qualitatives
On retrouve la solution de l'analyse des correspondances multiples. tout au l'quation du premier facteur, en cherchant rsoudre le problme suivant : tr~n",I'l"\"'''''''l,,~:.';i de faon optimale (selon un critre dfinir) chaque variable qualitative mi modalits une variable discrte il mi valeurs. On sait qu'une telle quantitication s'crit ~i = Xiai ~i est la variable numrique obtenue, ai le vecteur des valeurs numriques attribuer modalits. 10.2.3.1
ACP de variables quantifies
On cherche ici obtenir une ACP des ~i qui soit la meilleure possible au sens o premire valeur propre I de la matrice de corrlation des ~j est maximale. Ceci il chercher:
or:
mrx r (z ; ~)
2
-1
R 2(z ; X)
fI
on est donc amen rechercher le max de
2: R
j=1
(z;
X). Les
codages
optimaux des
catgories ne sont donc autres que les coordonnes de ces catgories sur le premier axe de l'analyse des correspondances multiples de X.
10.2.3.2
Guttman et l'homognit maximale
En 1941 L. L. Guttman avait abouti aux quations de l'analyse des correspondances multiples en rsolvant le problme suivant: tant donn un questionnaire choix multiple il p questions ayant chacune mj modalits de rponse (une seule rponse possible chaque question), on veut attribuer des notes chaque modalit de telle sone que les variables numriques ainsi cres ~j sOent les plus cohrentes au sens suivant : les rponses aux p questions doivent conduire des notes proches, tout en donnant une note globale moyenne la plus disperse possible.
L'analyse des correspondances multiples
229
Considrons le tableau
Il,
p des variables
~I
~j:
., .....
~/'
ll .. 11'
Il
notons ~I' 2. .. ' ;" les moyennes des diffrentes lignes:
Supposons, ce qui ne nuit pas la gnralit que chaque ~j est une variable de moyenne nulle. On cherche alors avoir des mesures les plus homognes possible en minimisant en moyenne la dispersion intra-individuelle.
l~t: . Pour caque 0 bservatlOn cel l ' vaut- L.J (Sij h e-Cl
P J=I
t"ld one en moyenne elle vaut: e:,;)-
La variance totale du tableau des moyennes :
(~ij)
tant gale la moyenne des variances plus la variance
il revient au mme de maximiser:
- 2:(Y
ni;;:;1
/1
II
- 2: 2: (ijf!
np
i=1 j= 1
l'
Or:
l
P
Xa
donc:
230
10.L'analyse des correspondances
/1
2.:c~j)1 = ~jj = (Xja)'(Xja)

i=l
ajDjaj
d'o: La quantit critre vaut donc:
-.,a'X1Xa
I1P-
1 a'X'Xa
p aiDa
-a'Da
IIp
Son maximum est atteint pour a vecteur propre associ la plus grande valeur nromp'"'j'0 l l 4e - D-1X'?C On retrouve bien le premier facteur de l'ACM de X.
p
10.2.4
Approximation d'ACP non linaire

Xl,
Revenons sur le chapitre 7, 7.6 : pour P variables numriques che une combinaison linaire de variance maximale :
x\ ... , xl', ]' ACP
Si l'on veut s'affranchir de la linarit, on peut chercher des transformations les

!.p1(XI), ... , !.pJl(xP)
rorlCUOnIlel-
des variables telles que
v(.
1;;1
!.pj(x ))
soit maximal.
Choisissons pour les i.pj des fonctions en escalier (conSlantes par morceaux) ou splines de degr O. On sait que ces fonctions permettent d'approximer n'importe quelle fonction numrique. Concrtement on dcoupera l'intervalle de variation de x j en mj classes (fig. 10.1).
.
j
2
FIGURE
j
xl
10.1
des correspondances multiples
231
<pj(x j ) est une fonction prenant les valeurs al' a~, ... , amj sur les intervalles de dcoupage;
s'explicite comme la combinaison linaire des variables indicatrices des classes du ,iirMcloUr)uge, coefficients al. a2' ... , (lm/
Le cri tre max
v(7
cpJ(XJ
) est donc identique au critre max v( ~ XJ" j). La solution est
donne par la premire composante de l'analyse des correspondances multiples du X obtenu en dcoupant en classes chacune des variables numriques. La pratique qui consiste dcouper en classes des variables numriques, donc les rendre pour ensuite effectuer une analyse des correspondances multiples se justifie par fait qu'il s'agit d'une analyse non linaire des donnes. Sous rserve d'avoir suftsamment d'observations par classe on peut ainsi visualiser des liaisons non linaires entre variables qui ne seraient pas apparues en ACP ordinaire o )'on travaille avec la matrice R des corrlations linaires.
10.3
PRATIQUE DE l'ANALYSE DES CORRESPONDANCES MULTIPLES
L'interprtation des rsultats d'une ACM se fait grosso-modo comme en analyse des correspondances sur tableau de contingence et comme en ACP. On prendra garde ici au fat que les pourcentages d'inertie n'ont qu'un intrt restreint. La slection et r interprtation des axes factoriels se fera essentiellement raide des contributions des variables actives et des valeur-tests associes aux variables supplmentaires. Rappelons une fois encore la signtication des proximits entre points-colonnes sur un plan factoriel : il s'agit d'une proximit, en projection, de points moyens de catgories reprsentant plusieurs individus.
10.3 . 1 les contributions

10.3.1.1 Contributions un axe factoriel
Clj
Une catgorie d'effectif Jlj qui a une coordonne contribution (CTR) gale :
-L(ai
j.L
Il
sur un axe factoriel fournit une
. np J CTR(j) = - -
On
les modalits intressantes qui ont une contribution suprieure leur poids n j.
np
En correspondances multiples, les modalits d'une mme variable tians qui peuvent tre cumules.
ont des con tribu-
232
"'11I't' ..... I.__
On dfinit la contribution cumule de

Ill,
comme:
CTR(Er;) = ~CTR(j)
j=1 a) tant {J, prs la moyenne des coordonnes des individus de la catgorie j de Z~'i' contributions cumules sont relies au rapport de corrlation entre la composante z de variance J.1 et la variable par:
Remarquons que
1']2
< 1 entrane CTR(2Ti ) < - et que PfL

Il
P i=1
2.: T)2(z/~) =
l'
J-L.
1 On utilise comme en ACP les contflbutims des individus - (zJ! / J-L, et comme en ACP
AFC les cosinus carrs avec les axes pour juger de la qualit d'une projection. On pourra utiliser ici le rsultat donn au chapitre 7 : un individu aura une contribution signiticative si celle-ci dpasse 3.84 fois son poids.
10.3.1.2
Contributions l'inertie totale

-
. L' . mertle totale vau L, rappelons- le, -l.f, nl; L

Pi;ol
-1 1. Le nuage des prott s-colonnes a pour centre
de gravit le vecteur de ~Jl dont toutes les composantes valent 1/11 : en effet la somme des colonnes du tableau disjonctif est le vecteur constant dont toutes les composantes valent p. La mtrique du X2 pour le nuage des profils-colonnes est donc la mtrique diagonale nln (diagonale des inverses des frquences marginales). Le carr de dislance d'un point catgorie j au centre de gravit g vaut donc: d 2 ; g) = (j o
11
Il})X i)/1l)
i=1
l/Ilf!
0 ou 1 on a
Xij
est le terme courant de la/Ille colonne du tableau disjonctif. Comme xi)
X~ = xijd'o:
comme ~ x ij
1
11)
il vient ;
11
Une catgorie est donc d'autant plus loigne du centre que son effectif est faible.
tO_L'analyse des correspondances multiples
233
11" Son inertie vaut -L d 2(j, g) =

'W
(11,) -: l - -1 1
n
ll j )
La contribution d'une modalit l'inertie est fonction dcroissante de son effectif. Il convient donc d'viter de travailler avec des catgories d'effectif trop faible, qui risquent de perturber les rsultats de l'analyse (absence de robustesse). L'inertie totale d'une variable! I(n;), vaut:
ni) ~ = ___
Il
1_)
P
p
P
1)
sa contribution est donc:
1 - Lm p
L(mi - 1)
i
Elle est d'autant plus importante que son nombre de catgories est lev. On recommande gnralement pour cette raison d'viter des disparits trop grandes entre les nombres de catgories des variables f1~, lorsque l'on a le choix du dcoupage.
10.3.2
L'usage de variables supplmentaires
Dj voqu lors de l'tude de r ACP, l'usage de variables supplmentaires est trs courant en analyse des correspondances multiples. Rappelons que les variables actives sont celles qui dterminent les axes. Les variables supplmentaires ne participent pas au calcul des valeurs propres et vecteurs propres mais peuvent tre reprsentes sur les plans factoriels selon le principe barycentrique pour les variables qualitatives: chaque catgorie est le point-moyen d'un groupe d'individus. Pour les catgories des variables suplmentaires qualitatives on calcule comme en ACP des valeurs-test mesurant en nombre d'cart-type l'loignement de r origine. Entn il est possible de mettre en variables supplmentaires les variables numriques qui ne peuvent pas tre aClves ( moins de les rendre qualitatives par dcoupage en classes) : Elles peuvent tre positionnes dans un cercle de corrlation avec pour coordonnes les corrlations avec les composantes de l'analyse. Soit aj la coordonne d'une catgorie d'une variable supplmentaire, d'effectif l1i , sur un certain axe d'inertie gale J.L :
234
10.L'analyse des correspondances multples
On sait que si les I1j individus de cette catgorie taient pris au hasard parmi les Il individus de r chantillon (sans remise) la moyenne des coordonnes des I1j individus concerns serait une variable alatoire centre (puisque par construction les composantes z sont de moyenne nulle) et de variance gale 1:: 11
nj Il -
(voir chapitre 7)_

J
Avec les conventions habituelles de la reprsentation simultane llj est gale 1/~ fois l-I la moyenne des coordonnes, la quantit est donc la valeur-test
aj-r;;; --Il -
nj
Le calcul des valeurs-test n'est lgitime que pour des variables supplmentaires n'ayant pas servi il la dtennination des axes. Leur utilisation pour des variables actives ne doit tre considre qu' titre indicatif: les valeurs-test pour les variables actives sout en gnral trs leves, ce qui est normal car les variables actives dterminent les axes.
10.4
UN EXEMPLE: lES RACES CANINES
Les donnes communiques par M. Tenenhaus (tableau 10.1) dcrivent les caractristiques de 27 races de chiens au moyen de variables qualitatives, les 6 premires ont t considres comme actives, la septime, ~< fonction , comme supplmentaire: ses trois modalits sont compagnie chasse utilit . On remarquera que les paires d'individus (5, 26) (8, 22) (11, 19) ont des valeurs identiques pour les 7 variables, il y aura donc des observations confondues. Le nombre de modalits actives est 16, ce qui conduit 10 facteurs et une inertie totale de 16
1.667, le critre f.L
> l/p conduit ne retenir que trois axes, le diagramme
des valeurs propres montre cependant une chute aprs /Jw2- On interprtera donc uniquement les deux premiers axes (tableau 10.2)1. L'axe 1 oppose ( droite) les chiens de petite taille, affectueux, qui concident avec les chiens de compagnie (valeur-test 4.06), aux chiens de grande taille, trs rapides et agressifs (fonction utilit). L'axe 2 oppose (en bas) les chiens de chasse, de taille moyenne, trs intelligents fI des chiens lents et peu intelligents. Le tableau 10.3 eSlle tableau de Burt qui rsume les liaisons deux deux entre les 6 variables actives. Le tableau 1004 permet de reprer les modalits contribuant fortement l'inertie des axes et sa lecture doit tre complte par celle du tableau 10.5 qui fournit les valeurs tests. Le tableau 10.6 permet d'apprcier la qualit de la reprsentation graphique (tig. 10.2).
(_Les calculs ont t effectus l'aide du logicel SPAD, version 5.6.
TABLEAU
10.1
TABLEAU DISJONCTIF
2 Taille Poids
3 Vlocit
4 Intelligence
5 Affection
6 Agressivit
1 3 4
5
+
0 0 1 0
++
1
+
0 0 1 0 0 1 0 0
++
)
+
0 0 1
1
++
1
+
1 1 1 1
Fonction Co. Ch. Ut.
Cl..
(1)
6 7 8
9
la
II 12 13 14 J5 16 J7 18 19
2a
21
21
23 24 25 26 27
Beauceron Basset Berger Allemand Boxer Bull-Dog Bull-Mastiff Caniche Chihuahua Cocker Colley Dalmatien Dobermann Dogue Allemand pagneul Breton pagneul Franais Fox-Hound Fox-Terrier Grand Bleu de Gascogne Labrador Lvrier MuSliff Pkinois Pointer Saint-Bernard Setter Teckel Terre-Neuve
a a
1
a
l
a
1
a
1 1 0 0 0 0 0
1 1
a a
0 0
a a
0 0
1
J
a a
0
)
0 0
1
0
1
a
0 0
1
a
1 0 0 0 l
0 0 1
a
0 0 0
1 0 0 0
a
1 0 0 1 1 0 0 0 0
1
a
1 0
a
1 1 1
a
1
1 0 0
a a a 0 a a a
0 1 0
0
0 1
a
1 1 0 1
1
a
0 0 0 0 0 0 1 0
0 0 0 0 0
0 1
1
0 0 0 0 0 0
1
a a
1
0 0
()
0 0
0 0 0
[
j
l 0 1 1 1 0 1 t
1
a
0 0 0
1
a
0
0
a
1 0 0
a
1 0
1
()
a
1
a a a 1
0 0 0
1 1
J
0 1 1 0
l
1 1 0
1
1 1
0
1
a
1 1 0
1 1
J
a
0
a
1 l
a a a
0
1
a
0 1
a a 0 a a a
0 0
1 1
0 1 0
t
a
1 1 1 0 0 1 0 1
a
0
0
0 0
a
1 1 1 0
a
1 0 0
0
0 0 1
1 0
a
1
0
1
0 1 0 0 0
0
0 1 1
1 1 0 0 1 0
1 0
a
1 1 0
()
a
1 0 1
a a a
0 1 0
a a
1 0
0
0 0 1 1
a
1 1 1 0 1
0 1 0
a
1
a
0
a a
a
0
a
1
a a J a a 0
1
a a
J
0 1
()
0 1 1 1 0 0 0
a
0 0
l
1 0 1
0 0 1 1 0 0 1 1
1
1 1
0 0 0 0 0 0
1 0 1 0 0 1
VI
o ..., ...,
(1)
VI
"'0 :J
o
n
lU :J
VI
Cl..
0 0
()
l'Il
-5'
c ;:;-
a
0
a a
0 1
1 1
if
a
1 1 0
a a a
1
a
1
J J
0
1 1
0 0 0
a
0 1
a
1
1 1 1
a
0 0
1 0 l
0
1
0 0 1
a a
0 1
1 1
0 0
a a
a
0
a
1
a a a
1 0
1 0
1
a a
l 0
a
0
l
0 0 0 0 0 0
1
a
0
a
0
1
a
1
1 1
0 1 0
0 0 1
N
l.U
V1
Q)
N W
TABLEAU 10.2
lT.:"C.RAMt.!F. DES l r'lUl'lERO VALEUR PROPRE
10
'!.'"-L,EURS PROPHE3 POURCENTAGE CUt-IULE

28~90
POURn~NTAGE
0.4816
28.90
2 4 5
8
10
.3847 0.2110 0.1576 0.1501 0.1233 0.0815 0.0457 0.0235

0.0077
23.0B 12 66 9.45 9.01 7.40 4.89

J.7~
1.41
0.46
51.98 64.64 74.09 83.10 90 50 95.38 98.13 99.54

100.00
r~*.**~**~Y*~*.~*.'**k*j~*~**~**~*.~*~.*.**~*****.**.k*.*A * * * *.* * *~k.r* * *.** * ** *.*** _ *
*****.**~*****.*
*, *.* *.* *.*ko* **_**o *.**.**A _* * * * *

w
Cl
....
** *~.*.* *
1
::J
11'
p.1
~ fi)
0fi)
VI
..." ..." fi)
{;
::J
pJ
0-
::J
fi) VI
-5' iD VI
;;:"
3 c:
..... c::,:, 1
~
r:
::l
~
..:c
VI
rD
TABLEAU TABLEAU DE BUR'I' TAI

'l'Al TA:::!. 'l'A 3 7 0 0
10.3
VEJ : IN1 IN2 H13 APl AF2 :
.L\.G1
0.
rD
VI
T1\2
0 5 0
TA3
0 0 15
POl
P02
P03
VEI
VE2
AG2
o o
VEl VE2 VE3 5 2 0
l 4 0
1 4 0
0 10
0 14
0 0
5
4 2 9
0
6 2 0
0
0 6 8
5
4 0 1
10 0 0
0 8 0
0 0 9
nn
11'12 IN3
l1 ?F2
3 3 l
1 6
5 2 Tl
0 4 1
0 5
3 2 1'1\2
5 6 4
12 J
6 9 TA3
3
Il 1
3 2 7:2 '1 l.
7 7
8 6 PO}
4 5 1
5
l 5 2
3 3 3
6 J
1]
8 0 0
6 2
0 13 0
4 9
8 5 IN2
0 0 6
3 3
3 3 IN3
1
"1
5 0
l /1 P03
13 0
1]
14
14 0 AGl
0
AGI
5 3 POL
5 5
8
AFl
5
AF2
13
AG2
VEl
VE2
VE3
"'-J
l'V W
l'V W
co
TABLEAU
BODALITES COOHDONNEES
10.4
CON'l'IUBOTIOHS COSINUS ChRRES
IDEN-Lf3ELLE
P.REL
DrS'I'O
1:2
<1
Tai1 'l'Al PE'ITT'E T;'.ILLE 'l'A2 - 'l'AILLE J:<10YENNE '1'/,3 - GE.Il.NDE 'l'AILLE
1.32
0.84
0.93 -0.62 0.12 -0.02 12.6 .6 7.8 -1.23 1.U2 0.34 -0.31 4.612. 15.1 -0.02 -0.05 -0.17 011 13 0.0 0.1 CUl-lULEE = 30. :n.823.0
-o. -0.23
0.4 1
01.'1
0.0 2.0 0.8 2.8
0.49 0.30 0.13 0.01 0.00 0.16 34 O. 0.030.02 0.88 O.GO 0.00 0.()1j 0.02
Pois
pal
1'02 1'03 -
PET11' POIDS POIDS '!OYEN POIDS ELEVE
4.94 64 ] 09
0.16
-0.05 -0.19 0.61
H.O .7 3.0 0.9 1.7 15.1 .2 0.8 .6 7.6 :21.8.1
O. 0.29 0.05 0.01 0.00 0.10 0.7:. 0.06 0.0::1 0.04 0.230.22 0.3' 0.00 0.09
CUMULEE
3 . Vlocit
VEl - LENT VE2 ASSEZ Ri"PIDE VE3 TRES RAPIDE
Intelligenc~
22.3
.3 3.7 9.2
31.4
.0
0.3 1.3 2.0 .6 3.8 .5 0.0 8.4 0 06 O. 6 <1 O. 09 O. 00 O. 0 (, O. 0.33 () OS O. 0.06 O.lQ 0.07 0.29 0.D3 0.00
G 17
O. 3 l -0.37 .01
14.2
PEU INTELLIGENT IN~ - INTELLIGENCE ImYEHNE IN] THI':S INTELLIGENT INl 4.94 8.02 3.70 0.81 -0.29 -0.35 0 119 02
17. 5 tl 7 10.1 3.0 2. 15.3 29.6 23.0
-1.
-o. .15 1.28 1.06 CUMULEE
1. .3 0.9
~.4
8.4 9 0.0 35.2 .'f 9. 1.5 .1 2.0 O. 38.2 12.1 18.5 56.8 1.7 1.6 .3
0.05
a.oo
1
O. 0.02 0.32
Il.)
...... c
~f
ro
c.. ro
~
ln
AEtection
IL 8.6'1
APl PI::U hFFEC'PUEUX AF2 - AFFECTUEUX

fi
.OB 0.93
0.84 0.29 -0.78 -0.27
0.07 -O.OB -D 04 08 0.04 Cur1ULEE -0.31 -0.51 0.35 0.33 0.55 .37 CUHULEE
11.6 10. 22.'[
O.::: 0.2 0 3
O. 0.3 0.7
08 0.00 .01 0.00 0.08 0.00 D.Ol O.DO
o '"1
'"1
VI
ro
AGl AG2 - AGRESSIF
Agressiv,it PEU AGRESSIF
8.61 8.02
0.93 1.
-G.llQ
-o.
0.21
0.,13
.9 .1
O. 1. a
3.914.4 7. il.':: .5 7.5 J :2 9 14 5
0.17
!l.Ol 0.10 0.280.13 .0,: 0.10 0.21:l 0.13
" c..
:::J :::J
~
-6'
3 c
ff
~
TABLEAU
1'!ODALI'l'ES IDEN -
10.5
COORDONNEES
1 r
w::l
pJ
V_~LEURS-TEST
--<
VI
!tl
LIBELLE
EFF,
P .l\BS
;)
DT S'l'O.
Taille
TAI TA 2 TA3 - PE"TITE 'ri,ILLE - TI,ILLE NOYEt]NE 'rAILLE 7 5 15 7 .00 -3.6 -2.1 il.B 2.f:l -3.0 -0.1 -1.9 2.5 -0.3
.,1
-1.
-O.L -0.8 O.G
-1.18
-o.
0.84
0.92 -1.23 -0.02
-0, 1. -o.
.12 0.34 .17
-0.02 -0.31 0.11
J.86 4.40 0.80
m .., o
::l
m n o .., ..,
a.
w
VI
a.
Poids
l'Dl PETIT POIDS POIDS --10YEN POIDS ELEVE
::l
14
.00 H.OO 5.00
-3.9 1.6 2.5
:::.7 -4.3 2.4
-1.2 .0
() -G.G 0.2
-O.::: -1.0 1.
-1.17 0.31 ,2
0 -0 0.97
-0.36
-o.:n
1.22
O.lG -0.12 0.07
.05 -0.19 O.Gl
2 38
!tl
3
VI
vlodt6
VEi. ifE? VE3 - j,EN'!' - ASSEZ HAPID2 - 'l'HES Rf1PIDE 10 B 9 10.00 B.OO 9.00 -1.3 -2.0 3.2 1.6
-6'
rt
c::
1.:::
-1.
-:L8
-0.3 1. -0.9
1.2 -1.2 o.a
-o. -o. 0.89
.04 -0.89 -0.37
0.,10 0.36 -0.76
-0.08 0.37 -0.24
0.31 -0.37 .01
1.70 2.3f:l 2.00
ml IN2 IN3
rntelligence PEU Hl'L'ELLIGENT

- HJ'i'ELLlGEHCE llOYENNE - THES IN'l'ELLiGENT
a 13 fi
B.OO 13.00 6.00
1.2 .B
2.7 -1.,1 -1.3
-1.2 2.,1 -1.
0.1 -3.0 ].5
-3.4 0.7 ::1.9
.37 0.34
0.81 -0.29 -0.'l6
-0.35 0.49 -O.GO
0.02 -0 1.
.0<1 0.15 LOG
::.38 1.08 3.
Affection
AFl liF:! PEU Ai~FECTUEUX AFPEC'l'UEUX 13 1\ 13.00 4.1
14.00
-,.1.1
1.,1 -1.'1
0.3 -0.3
-0.4 0.4
O.
0.84 -0.78
0.29 -0.27
0.07
-O.
-O. 0.08
-0.04 0.01
l.08 0.93
".gress i vit:
AG1
!IG2
..;GRESSIF i\GRESSTF
14 13
1'1.00
DO
-2.1 2.1
-1.0 l.0
-1.6 1.6
.7
LB -1.8
.40
(J.1;3
-0.19 O.
-0.31
0.33
-0.51 0.55
0.35 .37
0.93 1.
7 ml
F02 -
Fonction
COf.!PAGNIE CHi\SSE
- UT l L TT 1\ lE E
10.00 9.00 8 . 00
-4..1
1.:::
J .1
O.'i -1.6
-0.3 -G.'! 1. 1
0.0 -1.
L -,
-1.[;,1 0.32 0 . 5' '1
O.
-0.,13
0 . 37
-O.O -0.35 0 . 'lll
-0.09 -0 18 0 . 3::'
-0.01 -0.-1:1 0 . 51
1.'10 .00 ::. . 3 B
N W \.D
I\J
o
TABLEAU 10.6
INDIVIDUS
IDS1'l'l'Ifo" ICA'rEUR BEAUC!'.:HON P. REIJ
COOP.DONNEES
SASSE'l' BElmEfI. ALLE1,lII.ND 30XEP.

BULL-DOG BULL,-I.!ASTTFF
3.70 3.70 3.70 3.70 3.70

3.70
CANICHE
CH l HU1\1!IJA
COCKER CQ[,f,c,Y DM. "\1I n EN DOIlCRNAl'lll

ALLE1!.-\ND
J.70 J.70 .70 3.70 3 70 3.

BRr:;TON
1.6.1 .09 2.15

1.86
J.
:1.'/0 3.70 3,'10 3.70
] .70
1.93 1.11 1. 77 .56 1.95 2.18
FR!,HClHS FOX-'fERHIER GP'i,l']O BLEU DE GASCOGNE

LABJ\ADOR
-0.,12 1.10 -0.,16 -0.88 -LOLO. 0.75 -0.91 -0.84 0.8:1 -0.73 0.08 0.12 -O. 6 5 - 0 . 99 0.87 -0.32 1. 0.51 -o. -1.04 0.14 -0.52 0.03
-0.10 -0.19 -0.50 0.G9 -O.Hi 0.50 -O.5fJ -0,17 (l.Ut)

-(J.J)
-0, 0.17 0.06
-0.21 0.29 0.58 0.26 -0.35 0.66 O. -0.09 0.19 -0.66 - O. 1 9 0.51 O,OG
-0 -O.':):! 028 -0.46 0.33 0.72 0.43 -0.i8 -0.10 0.19 - 0 . 14 0.J4 -0.32 0.::'5
0.13 0.5
1.7 11.7
5.'1
4.1 0.1 3 . ::: 5.9

IL~
0.13 -0.36 0.05 0.04

a <\ G 0.::>1 - 0 19
a.oo
-0.66
LB O. 5,
J.l 2.D J.1 7.0 7.5 1.6 .9 O.~i J.9 .9 4.:\.1 0.0 s.n 9.3 3.~! O. 0.8 .fI 10.2 3. 0 . il 1.0 G.! 7..5 0.1 10.,1 Il.S 2.6 5.:: O.O.
O.:! O.G .'l 8.';
0.63 n.02 O.H 0,16 0.22 il.43 0 0.04 0.18 O. 0.07 0.1<10.120.210.25 D,DO U.l~ 0.180.09 0.12 0.00 0.02 0.23 O. 0.01 10 0.39 0.0] (l. 0:; 0.0l 13 0.17 0.04 0.01 [l.OO 0.'190.00 D,l? 0.22 0.01 0.00 0.00 O. 0.3:.! 0.01 .01
0
1 r::J CJ
VI
CJ-
0.14 -0.11
- il. 9:1
-0.27 -0.il2
6.00.20.11. 2.i n.l 0.0

3 :: 9 . ,I ] . '1 fi . J 0 (3
0.00
0 . 1:; a
0.04 0.46
0
-<
lb Cl.. lb
VI
LEVRiER
H;'SI'IFF
. 7U 3.7U 3.7U
PEKINOiS
1. 3 ') l.90 l.86

1.5,~
0,
81 0.67
- il . 0 9
- 0 . 60 O.
-o.
- 0 . ,1 fi
09 O.OG
3.
0.l 7.6
6.9 1.7
S. 0
0.0l U . .n D.]fJ 0.12
0 . 2 ij 0.113
POHn'E:n.
SJ\HiT-[!EPJ/AJW SETTER TECl,EL TERRE-NEUVE
3.7U 3.7D 3.70 3.70 .70
n.H9 n.!H -042
cL4
5.4
G.l
o.,j
U.2
-0.69 -U.29 -0.16 0.66
,Il 8,j
1,1.0
0.12 0.31
0,1 0.0 0.00 0.00
n
0.U2
D.JO
(l.OG 0.0:::
.,
ro VI
-0
::J
o "'t
1.69 .H
0.513 O.
0.89.13
-0.73 -0.35 -0.58
0.33 0.16
0.33
3.-'
1.4 1.1
0.2!
a.,n
0.07
1.5
1.6-! 1.66
-1.01 0.3[1
0.64
VI
Cl..
lb
10_ L'analyse des correspondances multiples
241
Facteurr2~
____________________
Lent
Reprsenlaton des individus et des variables dans le premier plan factorial

~
______________________________________--,
Poids lev
A. 08ASSET
MASTIFF .\
PelJ/fJ taille
1.0
CHIHUAHUA PEKINOIS
Pelil poids :) BULLDOG TECI<EL A.
A
SAINTBERNARD .\ BULLMASTIFF DOGUE ALLEMAND TERRENEUVE A Ulllil
Peu affectuewc
0.5
ompagnie
FOX- TERRI ER Jo COCIR
Jo
CANICHE : FOXHOUND
o ...... ..... .......................... ......... ...... ... ...... t ..... ......................................................1:':.5" ......... .
GRAND BLEU DE GASCOGNE A
Affec/Ue}U!( Grande taille
o
-0.5
lnlellfgence moyenne
DOBERMANN BEAUCERON SETTER
Jo
Chasse
~
': . :.
EPAGNEUL FRANCAIS
,\
POINTER 0 t.J...ct::"..,<:n ALLEMAND Trs rapide
Jo
A".'R" ''"Rnl,~n
BOXER
COLLEY
Poids moyen
-1.0
LABRADOR EPAGNEUL BRETON DALMATIEN
"
Taille moyenm!
n
-1.0
-0.5
FIGURE
o
10.2
0.5
1.0
Facteur 1
1 11
Mthodes de
classification
Le but des mthodes de classification est de construire une partition, ou une suite de partitions embotes, d'un ensemble d'objets dont on connat les distances deux deux. Les classes formes dOvent tre le plus homogne possible. *
Il.1
GNRALITS
Il.1.1
Distances et dissmilarits
En classification, que les donnes se prsentent initialement sous forme d'un tableau individus-variables ou non, toule l'information utile est contenue dans un tableau Il X Il donnant les dissemblances entre les Il individus classer.
Il.1.1.1
Dfinitions
Il
Notons E l'ensemble des dans ~+ telle que:
objets classer. Une distance est une application de EX E dU,j) d(i,j)
= dU, i)
~
( d(i, j) = 0 ~ i = j dU,j) :::; dU, k) + d(k,j) Rappelons que toute distance n'est pas euclidienne engendre par un produit scalaire (voir chapitre 7). Lorsque r on a seulement:
il faut pour cela qu'elle soit
dU, j) = dU, i) { dU,}) ;:::: 0 dU, i) = 0

on parle de dissimilnrit. Une similarit est une application s telle que:
sU, j) = sU, i) {
l
s(i,j)
s(i, i) ;:::: s(i,j)

(lU
Le lecteur dsireux d'approfondir ce chapitre se reportera avec profit
livre de Nakache et Confais, 2004.
244
11_ Mthodes de classification
Lorsque l'on a seulement une infonnation du type sUvant : i etj sont plus semblables que k et I, on parle de prordonnance ; il s'agt d'un prordre total sur les paires d'lments de E. Shepard, puis Benzcri, ont montr que la connaissance d'une pr ordonnance suffit reconstituer une tigure gomtrique de 11 points dans un espace euclidien de dimension rduite. Benzcri a donn la fonnule approche suivante pour reconstituer une distance dij connaissant seulement le rang de cette distance parmi les n(n - l )/2 possibles:
., 1 P ( Xi> < ;;: cl ij L.

o p est la dimension de l'espace.
2) =
1 ( nn- 1)
Lorsque les donnes se prsentent sous forme d'un tableau X de p caractres numriques. on utilise souvent la mtrique euclidienne classique 1\11 = 1, ou
= D Il.r1,
la mtrique de MahaJanobis IV1 = V-l, la distance LI: dU, j)
= 2:1 x}
k
xJ 1,
la distance de Minkowski LI, : d(i, j) = (
10
(X7 - xJ)" )
Il.1.1.2
Similarits entre objets dcrits par des variables binaires
Ce cas trs frquent concerne des donnes du type suivant: 11 individus sont dcrits par la prsence ou l'absence de p caractristiques. De nombreux indices de similarit ont t proposs qui combinent de diverses manires les quatre nombres suivants associs un couple d'individus:
a = nombre de caractristiques communes; b = nombre de caractristiques possdes par i et pas par j ; c = nombre de caractristiques possdes par j et pas par i ; d = nombre de caractristiques que ne possdent ni i, ni j.
Bien que possder une caractristique ou ne pas possder la caractristique contraire soient logiquement quivalent, a et d ne jouent pas le mme rle pour des donnes relles: le fait que deux vgtaux ne poussent pas dans la mme rgion ne les rend pas ncessairement semblables. Les indices suivants compris entre a et 1 sont aisment transfonnables en dissmilarit par complmentation il l :
a Jaccard : - - - -
a+b+c
. k' Dlce ou CzekanOWS"I: - - 2a - -
2a + b + c
Ochia : -======
(a
li
+ 11)(a +
c)
Russel et Rao:
a+b+c+d a+d Rogers et Tanlmoto : b

a
+d+
2(
De nombreux autres indices ont t proposs.
11_Methodes de classification
245
11.1.1.3
Accord entre distances et dissimilarits
Deux distances ou dssimilarits s'accordent d'autant mieux qu'elles respectent les ordres entre proximits. A toute distance d correspond un ordre sur les parties d'lments de E dfinies par des relations du type d(a, b) ::5 d(c, d). Pour comparer deux distances dl et dl, on formera tous les quadruplets possibles de points de E et on comptera le nombre d'ingalits modities (ceci constitue une distance entre classes de fonctions de E X E dans !Ri-+- dfinies un automorphisme croissant prs). L'ordre sur les paires dfini par une distance s'appelle une ordonnance. Si .1 dsigne l'ensemble des paires de E, cette ordonnance peut tre reprsente par un graphe sur i, c'est--dire une partie Ede i X i. Le nombre des ingalits modifies n'est autre que le cardinal de la diffrence symtrique des graphes G I et G"]. associs d, et d"]. d(d, ; d"].) = card (GILlG"].).
1 1.1.2
Accord entre partitions, indice de Rand
Une partition dtnit une variable qualitative dont les catgories sont les classes de la partition. On pourrait donc comparer deux partitions PI et Pl en tudiant le croisement des deux variables qualitatives associes. Cependant, la numrotaLion des classes tant arbitraire, il est prfrable de considrer les paires d'individus afin de savoir si quand deux individus font partie de la mme classe de P" ils sont dans une mme classe de P"]..
11.1.2.1
Tableau des comparaisons par paires associ une partition
On notera C le tableau de taille Il, telle que cij = 1 si les individus i et j font partie de la mme classe, cij = 0 sinon. Il est facile de voir que C = XX' o X est le tableau disjonctif associ une partition P Les cij vrifient des relations particulires puisqu'une partition est une relation d'quivalence : Rflexi vit : Cfi { Symtrie: cij Transitivit: cij
=1
Cik ::;
= cp + Cjk -
La dernire relation peut ne pas sembler naturelle, mais elle traduit linairement le fait que, si i et j sont dans une mme classe, j et k dans une mme classe, alors les 3 lments sont dans la mme classe. On a de plus les formules suivantes: Le nombre m de classes de la partition est tel que:
111
" 1 = )'-.;;...J/I
1=1"" L.Jcij
j=1
Si
11 110
dsigne le nombre d'individus de la classe
Il :
/Il
2:. :Lcij =
i=1 j=1
Il
Tl
Trace(CC')
:Ln r~.
11=1
246
11_Mthodes de classification
Il.1.2.2
Accord entre deux partitions
Considrons les n 2 paires d'individus, on notera: a : le nombre de paires dans une mme classe de Pl et dans une mme classe de Pz (accords positifs) b : le nombre de paires dans une mme classe de PI et spares dans P2 c: le nombre de paires spares dans PI et dans une mme classe de P2 d: le nombre de paires spares dans PI et spares dans P2 (accords ngatifs) Le pourcentage de paires concordantes a/1l 2 est un coefficient semblable celui de Kendall pour les ordres, mais il est plus courant d'utiliser (a + d)//12 si l'on donne la mme importance l'appartenance au complmentaire d'une classe. On a ainsi dfini le coefficient de Rand R dans la version donne par Marcotorchino et Michaud (1l 2 paires au lieu de /1(n - 1)/2 paires dans la version orginale de Rand). En notant CI et C2}es deux matrices de comparaisons par paire, on trouve facilement:
a
=~
Il
...:..J
"I
I "I k.J C!cf.:: Trace(C C2) = k.J "In 1/1' l] IJ k.J

0=\ \'=\
11
11/1
Ill!
i""l )=\
Il III'
est le terme gnral du tableau de contingence X'IX:, croisant les deux partitions.
ana:
d =
L L(1 ""l j-=\
/1
Il
cij)(l - c~)
Le coefficient de Rand vaut alors:
Il prend ses valeurs entre 0 et 1 ; il est gal 1 lorsque les deux partitions sont identiques. La version suivante (correction de Hubert et Arabie) est galement utilise:
Son avantage est que son esprance est nulle si les deux partitions sont indpendantes, mais l'inconvnient est que l'on peut avoir des valeurs ngatives.
_ Exemple: Considrons les deux partitions PI ana:
= (ab)(cd) et Pl = (a)(bcd) de 4 objets.
Cl
(j
l 1
o o
1)
c' =
(~
o
l
1)
247
Le tableau crois est: a ab cd L'indice de Rand R

1
bcd 2
10/16. ---.,"':"---';;;"- ou G1LlG:; est la dlfference symetnque des graphes

11II1II
On notera que ] - R
card(GI~G1)
. ..
induits par les deux partitions.
ad da
ExE
FIGURE
Il.1
1 1.1 .3
Aspects combinatoires de la classification
On pourrait penser que. muni d'un critre, la recherche de la me11eure partition soit chose facile: E tant fini, il suftirait de considrer toutes les partitions possibles ( nombre tix de classes ou non) et de choisir ce]]e qui optimise le critre de qualit choisi. Les rsultats suivants montrent que cette tche est insurmontable car le nombre de partitions devent vite astronomique: un calculateur pouvant traiter un million de partitions par seconde mettrait plus de 126 000 annes pour tudier toutes les partitions d'un ensemble de 25 lments ! Il faudra donc, dans la plupart des cas, se contenter de solutions approches.
11.1.3.1
Nombre de partitions en k classes de n lments
Notons Pli, k' ce nombre appel nombre de Stirling de deuxime espce. On a les rsultats triviaux suivants : P/l. 1
Pn.1I = l
~ Pll,tI-1
11(11 -
])
.
Le nombre de dIchotomies
248
possibles est : PlI, '1
=2
11
1 - 1. En effet, il y a 2" parties de E, donc ; partitions de E ou
')11
couples de parties complmentaires, mais parmi eUes il y a la partition {E, 0} liminer. Les nombres Pn, k satisfont l'quation de rcurrence suivante qui permet de les calculer de proche en proche : (tableau Il. 1)
_ Dmonstration: Soit une partition de E en k classes et soit un lment e de E : de deux choses l'une, ou bien e est seul dans sa classe, ou il ne r est pas: si e est seul dans sa classe il y a PII _I, k-) partitions de cette sorte; si en' est pas seul dans sa classe c'est que E - {e 1 est partitionn aussi en k classes et 11 y a PII -1. J.. manires de le faire et e peut se trouver alors _ dans l'une quelconque de ces k classes soit kP II _ u possibilits.
On peut montrer que :
Il,~
=k'
~ C i .(-l )k-i i ll
~
k
, 1"'1
et donc
SI Tl
--'J> 00
Pn. k
-,
kn
k!
Il.1.3.2
On a:
Nombre total de partitions Pn (nombre de Bell)
k=1I
Pli
2:PIl ,k
1;;1
On peut aussi obtenir une fonnule de rcurrence sur les Pli" Considrons, comme prcdemment, un lment e : pour une partition donne de E, e se trouve dans une classe ; si cette classe a un lment, il y a PII _ 1 partitions de E laissant e seul dans une classe; si cette classe a deux lments, il y a C 1~-1 manires de choisir le compagnon de e dans sa classe et P/I-1 manires de constituer les autres classes; si cette classe a k lments, il y a C~: \ manires de choisir les compagnons de e et Pn - k manires de constituer les autres classes d'o:
Si l'on pose par convention Po
= l, on a la fonnule :
11IIIIIIII Mthodes de classification
249
kil
1
On dmontre que P'I = e
2: k=1
k!
TABLEAU
r 1.1
TABLE DES
PI!, k
7
k
Il
1 1 1 1
'1
.\.
.5
l)
10
LJ
1 66
P"
1 2
3
../
;
7 15 31
.5
1 10
1
1 1 1
5
6 7 8
15
90
30\
15 52 1
21
65
350 1701 7770 3..J. 105 145750 6\\ SOI
63
127
15 140
1050 6951 42525 146730 \ 379400
203 877
1 36 750 11880 159 on
1 45 1 155 22275
9 10
1\ Il
1 1
1
255
511
1
1
1 o:!3
2047
966 3 OlS l) 330 28501 86526
266 2646 22IQ7 179487 1 313652
28 462
5880
63987 627396
1 55 1705
..J. 140 21 147 115975 678970 42\3 597
1 1.1.4
Sur l'existence et la caractrisation des classes d'un ensemble
La dfinition de classes ~< naturelles )} pose cl' pineux problmes. Si dans certaines situations simples comme celle de la figure 11.2 on voit clairement de quoi il s'agit, il est loin d'en tre ainsi la plupart du temps et il faut bien admettre que l'on ne peut donner de dfinition clare des classes II priori. D'o la difficult de valider des mthodes de classification en essayant de reconnatre des classes prexistantes.
){ )(
JI(
)(
)(
JI( JI(
JI( JI(
)(
x
JI(
le )(
le le
FIGURE
Il.2
Bien souvent, les classes ne seront que ce qu'a produit un algorithme de classification. Sur le plan pratique, la dtermimuion du nombre rel solution satisfaisante.
de classes n'admet pas de
Notons enfin qu'il ne suftt pas de produire des classes: il faut encore les interprter et utiliser alors l'ensemble des infonnations disponibles et pas seulement les distances deux deux.
250
11_Mthodes de cla5iSfication
Il.2
LES MTHODES DE PARTITIONNEMENT
1 1.2.1
les mthodes du type nues dynamiques ou k-means
Ces mthodes permettent de traiter rapidement des ensembles d'effectif assez lev en optimisant localement un critre de type inertie. On supposera que les individus sont des points de IRI' muni d'une distance euclidienne.
Il.2.1.1
Inertie interclasse et inertie intraclasse
tant donn une partition en k groupes d'un nuage de Il points, on dfinira les quantits suivantes: g" g:! .... , gk centres de gravit des k groupes et II. l:!, ... , lk inerties des k groupes. On rappelle que l'inertie est la moyenne des carrs des distances au centre de gravit. L'inertie totale 1 des II points autour du centre de gravit global g est alors gal li la somme de deux termes (thorme de Knig-Huyghens) :
o III' est l'inertie intraclasse Ill' = 'LPij' Pi tant le poids de la classe i et l/J l'inertie interclasse ou inertie du nuage des k centres de gravit: lB = LPid2(gi. g). Un critre usuel de classitication consiste chercher la partition telle que IH' soit minimal pour avoir en moyenne des classes bien homognes, ce qui revient chercher le maximum de lB' Remarquons que ce critre ne s'applique qu' nombre de classes fix: si k n'tait pas fix la solution serait la partition triviale en 11 classes (un individu = une classe) qui annule III"
Il.2.1.2
La mthode des centres mobiles
Due Forgy, elle consiste partir de k poinlli pris parmi E (en gnral tirs au hasard) ; ces k points dfinissent une partition de l'espace, donc une partition de E en k classes Ec E C1 ' , EI.'.(' La partition de IR JI associe k centres CI> c:!' ... , Ck est un ensemble de domaines polydraux convexes dtermin par les hyperplans mdiateurs des centres. ECI est la classe constitue par rensemble des points de E plus proches de Cj que de Lout autre centre (fig. 11.3).
j ,
x
)(
FIGURE
Il.3
11_Mthodes de dassificar.ion
251
On remplace alors les k pOnts pris au hasard par les Il. centres de gravit de ces classes et on recommence: l'algorithme converge rapidement vers un optimum local car le passage d'un centre arbitraire Ci un centre de gravit diminue ncessairement la variance interne des classes. Soit ErJ,1 la classe obtenue en remplaant Ci par gj centre de gravit de Er.::,. TI suffit de montrez que:
car, d'aprs le thorme de Konig-Huyghens, gi n'tant pas le centre de gravit de E"'I' le membre de droite sera suprieur la variance intrac1asse de la partition EgJ' Or, si r on considre un point quelconque, il figurera dans le membre de droite avec son carr de distance au gi qui sera le plus proche de lui par construction des E/!", tandis que dans le membre de gauche il tigurera avec sa distance un gi qui ne sera pas forcment le plus proche de lui. mais qui sera seulement son centre de gravit dans la partition Er!" Ceci dmontre donc le rsultat annonc: le nuage tant fini (l'ensemble de toutes les partitions possibles aussi), 1'algorithme converge car la variance intraclasse ne peut que diminuer; elle atteindra donc son minimum accessible partir du systme initial de centres Ci en un nombre tini d'itrations, le thorme de Huyghens indiquant que cette dcrossance est stricte si gj n'est pas confondu avec Ci' L'exprience montre que le nombre d'itrations ncessaires est trs faible. Si au cours d'une itration une classe se vide, il est possible de tirer au hasard un nouveau centre. La tigure lIA montre le droulement de l'algorithme sur un cas d'cole: on voit qu'en deux itrations on a reconnu ) la structure existante.
x x
x )(
x
FIGURE
liA
Cette mthode peut s'appliquer des donnes qualitatives condition de travailler sur des coordonnes factorielles. On a ainsi effectu une partition en quatre classes de l'ensemble des 27 chiens tudis au chapitre prcdent en utilisant les coordonnes issues de l' ACM du tableau disjonctif (on utilise ici les la facteurs). Quatre centres ont t tirs au hasard (les individus Il, 7, 18, 25) et on a abouti en moins de 10 itrations la partition suivante: Classe Classe Classe Classe l : individus 2 : individus 3 : individus 4: individus n" n n n 2, 5, 7, 8, 17, 22, 26. 4,9, Il, 14, 19. 6, 21, 24. 27.
1,3,10,12,13,15,16,18,20,23,25.
252
11_Mthodes de Classitic:aticln
On a : inertie interclasse 1.66667 = (; 2;'" ,)
0.93665, inertie intruclasse = 0.7300 l, l'inertie totale
l.
Dans la mthode prcedente, on attend que tous les individus aient t affects une classe pour recalculer les centres de gravit. La variante de Mac Queen procde diffremment: les centres sont recalculs aprs l'affectation de chaque point. La mthode des nues dynamiques, propose par E. Diday, est une extension de la prcdenle. Elle en diftre notamment par les traits suivants: au lieu de reprsenter une classe uniquement par son centre de gravit, on la caractrise par un noyau )}. Ce noyau peut tre un ensemble de q points (les plus centraux), un axe principal ou un plan principal, etc.
Il faut donc disposer formellement d'une fonction de reprsentation qui, un ensemble de points, associe son noyau.
Il faut ensuite disposer d'un algorithme de raffectation des points aux noyaux. On procde alors par alternance des deux phases: affectation, reprsentation jusqu' convergence d critre choisi. La mthode des nues dynamiques ne se limite pas au cas de """"UII'-\...:I euclidiennes.
Comme la partition finale peut dpendre du tirage des noyaux de dpart (problme d'optimum local), on recommence alors toute l'opration avec s autres tirages. On appelle formes fortes ou groupements stables les ensembles d'lments ayant toujours t regroups lors de la partition finale pour les s passages de l'algorithme.
1 1.2.2
La mthode de Condorcet
,1111'
Considrons un ensemble de Il individus dcrits par p variables qualitatives 11lb 1n2' modalits respectivement: on a p partitions diffrentes du mme ensemble.
p partitions initiales.
La recherche d'une nouvelle partition revient donc rechercher un compromis entre ces Soit Cl, et C
Cij
e\ ... , CP
les tableaux des comparaisons par paires associs
... , f~"
= :LC/.:.
k
est le nombre de fois parmi p o les objets i etj ont t mis dans une mme classe.
Soit C' = 2C - p. On a alors cij > 0 si i etj sont dans une mme classe pour une majorit de variables g{'k' cij < 0 si il y a une majorit de variables o i et j sont dans des classes di ffrentes ; cij = 0 s'il y a autant de variables pour lesquelles i et j sont spars que de variables pour lesquelles i etj sont runis. Un critre naturel pour former une partition centrale , compromis entre les p partitions, consiste alors mettre i et j dans une mme classe chaque fois que cij est positif et il les sparer il chaque fois que cij est ngatif. Malheureusement, ce critre ne fournit pas ncessairement une partition: il peut y avoir non transitivit de la rgle majoritaire. C'est le paradoxe de Poincar: ce n'est pas parce qu'il y a une majorit pour runir et j, jet k qu'il y a une majorit pour runir i et k.. Il faut donc imposer les contraintes des relations d'quivalence ce qui revient chercher la partition satisfaisant au mieux la majorit des partitions initiales.
It_Mthodes de classification
253
Si Y est le tableau des comparaisons par pares de la partition cherche, on a donc rsoudre le problme suivant:
i
.IJ
avec:
Yij + )jk - )'ik { v, = Oou 1 lJ

~
"" + -\'., JI
:5
C'est un problme de programmation linaire bivalente dont on peut trouver une solution exacte (pas forcment unique) si Il est faible, ou une solution approche si 11 n'est pas trop lev en utilisant des heuristiques (voir l'ouvrage de Marcotorchino et Michaud cit en rfrence). . Il Y a. en eftet, d e l'ord re de w1 tnconnues contraintes. On aura remarqu que le nombre de classes n'a pas tre impos, il fat partie de la solution. La distance de la diffrence symtrique entre les deux partitions associes aux tableaux Cl: et Y vaut: 2:2:1 Yu
i j
(11(11 2 -
1) exactement ) et d e l'ord re de n'3
c~,1 1)
..::.-..::.-
"''''(v" 1]
k C 1).)1
La partition cherche est donc celle qui est distance moyenne minimale des partitions initiales puisque:
ce qui revient chercher max2:2:cijYij'

i j
D'aprs le paragraphe 11.1.2, la partition optimale est donc celle qui maximise la somme des indices de Rand avec chacune des partitions associes aux p varables qualitatives. On retrouve ici une proprit d'association maximale: max2: c (qy, gek) I)
k
o <I> est un critre d'association entre variables qualitatives. Lorsque <I> n'est pas l'indice de Rand, il faut en gnral fixer te nombre de classes de OY, En l'exprimant en termes de comparaison par paires, c'est--dire en explicitant la mesure d'association (1) en fonction des tableaux Y et Cl:., on peut se ramener un problme de programmation linaire dans certains cas. Ainsi l'indice d'association de Belson entre deux variables qualitatives dfini par:
lIu.
2:2:(1111\'
Il l'
Il.I'):!
Il
254
O 11/H'
est le terme gnral du tableau de contingence croisant CfY et tableaux Y et C k :
s'crit avec les
1 1.3
MTHODES HIRARCHIQUES
Elles consistent en un ensemble de partitions de E en classes de moins en moins fines obtenues par regroupements successifs de parties. Une classification hirarchique se reprsente par un delldrograw1Ile ou arbre de classification (fig. 11.5) :
d
Il.5
FIGURE
Cet arbre est obtenu de manire ascendante dans la plupart des mthodes: on regroupe d'abord les deux individus les plus proches qui fonnent un noeud , il ne reste plus que 11 - l objets et on itre le processus jusqu' regroupement complet. Un des problmes consiste dfinir une mesure de dissimilarit entre parties. Les mthodes descendantes, ou algorithmes divisifs, sont plus rarement utilises.
11.3.1
Il.3.1.1
Aspect formel
Hirarchie de parties d'un ensemble E
Une famille H de parties de E est une hirarchie si :

CI) E et les parties un lment appartiennent H.
b) \tA, B E HAn BE lA, B, 0}. En d'autres termes, deux classes sont soit disjointes, soit contenues l'une dans l'autre. ( c) Toute classe est la runion des classes qui sont incluses en elle.
A toute hirarchie correspond un arbre de classification:

_ Exemple: H
= {0, a, b, c, d, e, f; ab ; abc, de, deJ, abcdef}
(fig. 11.6)
Une partition de E compatible avec H est une partition dont les classes sont des lments de H. D'une manire image, c'est une partition obtenue en coupant l'arbre selon une horizontale et en recueillant les morceaux.
11_Mthodes de classificaton
255
FIGURE
Il.6
Lorsque l'on peut dire qu'un lment ou L1ne partie A est relie B avant que C ne soit relie D, autrement dit s'il existe une relation de prordre totale compatible avec la relation d'ordre naturelle par inclusion, on dit qu'on a une hirarchie stratifie. Une hirarchie est indice s'il existe une application ide H dans lR!+ croissante, c'est-dire telle que si A C B : i(A) ~ i(B). A toute hirarchie indice correspond une hirarchie stratifie. Les indices sont appels niveaux d'agrgaton : i(A) est le niveau auquel on trouve agrgs pour la premire fOs tous les constituants de A. Ainsi, dans la figure Il.7 on a i(c, d) = 1 et i(a, b, c) = 0.5.
0.5
0.4
1 1 1 1 1 1 1 -J,.---1
t---------1 1
0.2
+---.....-----.. . .
1 1
o!
a
b
FIGURE
Il.7
Les niveaux d'agrgation sont pris gaux, en gnral, lndice de dissimilarit des deux parties constituant la runion i(a, b, c) = 8(([/, b), c). Le problme se pose alors de savoir si )a hirarchie peut prsenter ou non des inversions : si li, b sont runis avant c, d dans l'algorithme, on doit avoir i(ll, b) < i(e, d) sinon il y a inversion.
Il.3.1.2
Distances ultramtriques
A toute hirarchie indice H correspond un indice de dis Lance entre lments de H : d(A, B) est le niveau d'agrgation de A et de B, c'est--dire nndice de la plus petite partie de H contenant la fois A et B.
256
Cette distance possde la proprit suivante, dite proprit ultramtrique:

d(a, b) $ sup {d(a, c); d(b, c)}
\;/a, b, c
'x
En effet, de deux choses l'une, quand
a a t runi
b pour la premire fois:
ou bien c n'est pas encore runi a (ni b par consquent), il sera donc runi tard, donc d(a, c) qui est gal d(b, c), puisque a et b sont maintenant runis, suprieur d(a, b) ; ou bien c est dj runi 11 ou b, supposons CI pour fixer les ides, avant que a ne soit runi b. Donc d(a, c) < d(a, b). Mais alors d(b, c) = d(a, b), car c est runi b en mme temps que b l'est a. Ce qui dmontre la relation ultramtrique. Rciproquement, toute ultramtrique correspond une hirarchie indice; la recherche d'une classification hirarchique est donc quivalente celle d'une ultramtrique; le problme cl de la classtication est donc le suivant : connaissant une mtrique sur E, en dduire une ultramtrique aussi proche que possible de la mtrique de dpart. Les proprits suivantes de gomtrie ultramtrique prcisent le lien avec les hirarchies indices: En gomtrie ultramtrique, tout triangle est soit isocle pointu (la base est infrieure la longueur commune des deux autres cts), soit quilatral. En effet:
d(a, c) $ sup {d(u, c) ; d(b, c)} d(a, c) ::=; sup {d(a, b); d(b, c)}
d(b, c) ::=; sup {d(a, b) ~ d(b, c)}
Supposons par exemple d(a, b) > d(a, c) > d(b, c). Cette hypothse est absurde car une des trois relations ultramtriques n'est plus vritie. Il faut donc que deux cts soient gaux et on vot aisment que ce sont forcment les deux plus grands qui le sont. En gomtre ultramtrique, tout point d'une boule est centre de cette boule. En effet, soit B la boule ensemble des points dont la distance un centre a est infrieur
r:B(u,r) {xld(a,x)::=;r}.
E
Soient x et)' deux points
B : d(x, y) ::=; sup (d(x, a) ~ d(o, y)}.
On en dduit que, si deux boules ont une intersection non vide, l'une est ncessairement incluse dans l'autre puisqu'elles sont concentriques. On retrouve bien ici la proprit d'inclusion des parties d'une hirarchie.
1 1.3.2
Stratgies d'agrgation sur dissimilarits
On suppose ici que l'on connat un indice de dissimilarit d. Diffrentes solutions existent qui correspondent des choix diffrents de la dissimlart entre parties de E, appels stratgies. Le problme est en effet de dfinir la dissimilarit entre la runion de deux lments et un troisime: du, b) ; c). A chaque solution correspond une ultramtrique diffrente.
11_Mthodes de c1assificaton
257
Il.3.2.1
Le saut minimum
dll, b) ; c)
Cette mthode (connue sous le nom de single linkage en anglais) consiste crire que: inf(d(ll, c) ; d(b, e)). La distance entre parties est donc la plus petite distance (fig. 11.8) entre lments des deux parties.
FIGURE
Il.8
Cette stratgie conduit une ultramtrique particulire : la sous-dominante
qui est
parmi les ultramtriques infrieures d (8(i,j) s; d(i,j)) la plus leve (S(i,j) maximum).
En effet, la construction de l'arbre aboutit une suite de partitions Pli embotes, conduisant chacune une dissimilarit cl" entre parties. Nous allons montrer que dIt, qui est forcment infrieure 8, est suprieure toute ultramtrique infrieure fi : comme, la limite, dl: devient ultramtrique, c'est que l'on a obtenu l'ultramtrique infrieure maximale. Montrons ceci par rcurrence; si c'est vrai pour dll-l~ montrons que c'est encore vrai pour th. Il suffit d'examiner les couples pour lesquels d,,(u, i) =J:. d"_1 (u, i). Ceci n'est possible que si Il (ou i) vient d'tre agrg. Nous sommes donc dans la situation suivante o, au pas h, on vient d'agrger i l' (fig. 11.9).
n
a alors:
d,,(i, i')
dh-l(i, i')
i'
FIGURE
Il.9
Sil' on a agrg i i' , c'est qu'ils taient les plus proches avec la dissimilarit
d,,_, et l'on
s inf (dll-I(U,
i), dlt-I(u, i')}

,
D'autre part, on a prcisment d,,(u, i) =

d(u, i) s; d"-l (u, i).
d,lu, l') = inf {dlt -
(li, i), d"-l (u, i)} par hypothse.

I
Sot d ) une ultramtrique infrieure ou
S, donc d lt -
(rcurrence)
Comme d est ultramtrque, d(ll, i) s; sup [d(i, i') ; lI(u, i')} donc:
d(u, i)
s sup
{dit-ICi, i') ; dll-I(U, i')}
Comme dh-1U, i') s; inf (d"_l(ll, i), dIJ-1(u, t)]. On a d(u, i) s; dh-l(lI, i'). On a donc la fois d(u, i) s; d"_1 (li, i'), d(u, i) s; d h - I (li, i) et:
dil (lI, i)
C'est donc que d(u, i) S dl!(u, i).
inf {dll-I(U, i') ; d,,_,(u, t)}
258
Une autre mthode pour aboutir l'ultramtrique infrieure maximale, due M. Roux, consiste passer en revue tous les triangles possibles faits avec les points de E el les rendre isocles pointus (on remplace la longueur du plus grand ct par celle du ct mdian), de manire obtenir directement l'ultramtrique infrieure maximale. On passe en revue tous les tr,mglesjusqu'~l ce qu'on ne puisse plus rien modifier; le reste ensuite tracer l'arbre.
Il.3.2.2
Le diamtre et autres stratgies
On prend ici comme distance entre parties la plus grande distance:

d(a, b) ; c)
= sup(d(a, c), d(b, e
On aboutit alors une des ultramtriques suprieures minimales, contrairement au cas prcdent o la sous-dominante est unique. Il n'existe pas en effet une seule ultramtrique minimale parmi les ultramtriques suprieures d; on montre mme qu'il en existe (Il - 1)1 dans le cas o toutes les valeurs de la dissimilart sont diffrentes. De nombreuses autres mthodes de calcul de distances entre parties ont t proposes (moyenne des distances, etc.) toutes sont des cas particuliers de la formule de Lance et Williams gnralise par Jambu :
da, b) ; c)
= a\d(a, c) + alll(b, c) + 113d(a, b) + ll~i(a)

+ lI si(b) +
al {
a6i(c)
+ ll71 d(a, b)
1
0
- d(b, (')/
Pour qu'il n'y ail pas d'inversion, il faut que les coefficients vrifient:
+ a2 + [/3
;::
a!, a2' ll), ll.4' il;;, 06;::
Ch 2!: - mm(a\ ; a2)
Ainsi la mthode du saut minimal consiste prendre:

al
= Cl:! = 1/2,03 = Cl~
= as
= 116 =
0,a7
= 1/2
11.3.3
La mthode de Ward pour distances euclidiennes
Si l'on peut considrer E comme un nuage d'un espace IRJ!, on agrge les individus qui font le moins varier l'inertie intrac1asse. En d'autres termes, on cherche obtenir chaque pas un minimum local de l'inertie intraclasse ou un maximum de l'inertie interclasse. L'indice de dissimilarit entre deux classes (ou niveau d'agrgation de ces deux classes) est alors gal la perte d'inertie interclasse rsultant de leur regroupement. Calculons cette perte d'inertie. Soit gA et gl! les centres de gravit de deux classes et gMI le centre de gravit de leur runion. Ona:
PA et PB sont les poids des deux classes (fig. 11.10).
11- Mthodes de classification
259
9AB
FIGURE
9a
11.10
L'inertie interclasse tant la moyenne des carrs des distances des centres de classe au centre de gravit total, la variation d'inertie est gale :
PAd"!(gA' g)
+ PBd"!(g/J' g)
- (PA
+ pl1)d 1(gAl1'
PA
g)
. . . cu ~] , qUI Un ca1 1 e ementmre montre que cette vanatlOn vaut PA PB d'l( gr\, g[J) ( ' est done
+ Pl1
positive). Si l'on pose : Cette mthode rentre dans le cadre de la formule de Lance et Williams gnralise car:
((A, B) ~ C) = (PA
+ pd(A, C) + (Pu + pd(B, C) PA + Pu + Pc
- Pc(A, B)
on peut donc utiliser l'algorithme gnraL On notera que la somme des niveaux d'agrgation des diffrents nuds de l'arbre est gale l'inertie totale du nuage puisque la somme des pertes d'inertie est gale l'inertie totale. Cette mthode est donc complmentaire de l'analyse en composantes princpales et repose sur un critre d'optmisation assez naturel. Elle constitue notre avis la mthode de classification hirarchique de rfrence sur donnes euclidiennes. Tl ne faut pas oublier cependant que le choix de la mtrique dans l'espace des individus conditionne galement les rsultats.
Il.3.4
Classification de donnes qualitatives
Lorsque les 11 individus classer sont dcrits par des variables qualitatives, divers cas se prsentent. Pour les donnes de prsence-absence, on utilisera un des indices de dissimlarit prsents au paragraphe 11. 1.1.2. Pour des donnes du type P variables qualitatives 111!, m"! ... , mp modalits, on utilisera la reprsentation disjonctive complte :
001 . [ 0 lOOI'...'1 001 ] lOOO X
260
11_Mthodes de c:lassification
La distance du X:! entre lignes du tableau possde alors des proprits intressantes: d (i, i') =
2: !!..(Xii - XO)2
) Il.)
P
Il 2:- (xij xr)) xi) tant
) Il.)
L'indice de similarit associ tP est alors le produit scalaire du X2 :
gal 0 ou 1. On voit que la similarit dpend non seulement du nombre de modalits possdes en commun par i et i' mais de leur frquence, ce qui revient dire que deux individus qui onl en commun une modalit rare sont plus proches que deux individus ayant en commun une modalit frquente: cette proprit semble assez naturelle. On utilisera alors la mthode de Ward (puisque la distance Xl est euclidienne) sur le tableau des distances. Une autre solution consiste effectuer une classification hirarchique sur le tableau des coordonnes des 11 individus aprs analyse des correspondances multiples de X. Il faut prendre garde ici que ces deux approches ne seront quivalentes qu' la condition d'utiliser tous les facteurs de l'ACM (soit
2: mi
i=1
Jl
p). En effet, une classification effectue sur un trop petit
nombre de facteurs peut tre fallacieuse car elle peut laisser de ct certaines particularits du nuage de points, Par ailleurs, il ne faut pas oublier de conserver la normalisation -{X. de chaque axe car ceux-ci ont des importances diffrentes. Ces remarques sont valables galement pour des classifications effectues sur des composantes principales. La classification hirarchique des lignes ou des colonnes d'un tableau de contingence s'effectuera avec la mthode de Ward et la distance du X2 entre 1ignes (ou entre colonnes). Cette mthode revient regrouper les catgories d'une variable qualitative de la faon suivante: chaque tape, on runit les deux catgories (en sommant les effectifs) qui font diminuer le moins possible le <.pl puisque l'inertie totale est ici X2/n = q/-.
1 1.3.5
Considrations algorithmiques
.. . 'b ' 1 etape un tabl eau d e ll(n - 1) d' gont lstances L , a1 . llme genera1 conSIste a al ayer a claque' 2 ou dissimilarits afin d'en rechercher l'lment de valeur minimale, runir les deux individus correspondant, mettre jour les distances aprs cette runion et li recommencer avec Il - 1 objets au lieu de Il.
La complexit d'lm tel algorithme est en 11 3 (ordre du nombre d'oprations effectuer) et on atteint rapidement les limites d'un ordinateur mme puissant pour quelques centaines d'observations. Diverses techniques ont l proposes pour acclrer les oprations et pouvoir traiter des ensembles plus vastes d'individus. La mthode des voisinages rductibles (M. Bruynhooghe) consiste n'effectuer les comparaisons de distances que pour celles qui sont infrieures un seuil fix. Il faut ensuite ractualiser ce seu 1 au fur et il mesure que la classHcation s'effectue. La mthode des voisins rciproques (Mac Quitty et 1. P. Benzecri) consiste runir simultanment plusieurs paires d'individus (les voisins rciproques) chaque lecture du tableau
11_Mchodes de dassificacion
261
des distances. la complexit de l'algorithme devient alors en Il'1. La recherche des voisns rciproques s'effectue alors en chane: on part d'un objet quelconque et on cherche son plus proche voisin, puis le plus proche voisin de celui-ci, etc., jusqu' aboutir un lment dont le plus pro~ che voisin est son prdcesseur dans la liste. On runit ces deux lments et on recommence partir du nud cr ou de ravant-dernier lment de la liste jusqu' cration de tous les nuds.
Il.4
MTHODES MIXTES POUR GRANDS ENSEMBLES
La dtermination du nombre de classes est relativement aise en classification hirarchique en tudiant le dendrogramme et en s'aidant de l'histogramme des indices de niveau. La coupure de l'arbre en k classes ne fournit cependant pas la partition optimale en k classes de l'ensemble en mison de la contrainte d'embotement des partitions issues d'une hirarchie. Mais cette coupure fournit une excellente initialisation pour un algorithme de partitionnement de type nues dynamiques. De cette faon on peut rsoudre pratiquement le problme pineux du choix du nombre de classes d'une partition. Cependant les mthodes de classification hirarchique ne sont pas utilisables lorsque le nombre d'individus dac;;ser est trop lev (suprieur plusieurs milliers), alors que les mthodes de partitionnement ne connaissent pas ce genre de limites et sont trs rapides. Le principe des mthodes mixtes, galement apeles hybrides, tire parti des avantages des deux techniques. Concrtement, on procde de la faon suivante en trois tapes: l. 2. 3. Recherche d'une partition en un grand nombre K de classes (par exemple 100) avec une mthode de type nues dynamiques Regroupement hirarchique des K classes partir de leurs centres de gravit et dtermination d'une coupure en k classes Consolidation: amlioration de la partition en II. classes par une mthode de type nues dynamiques
Il.5
CLASSIFICATION DE VARIABLES
La plupart des mthodes exposes prcdemment ont t conues pour classer des individus. Lorsque )' on veut faire des regroupements de variables, il convient de prendre certaines prcautions car la notion de distance entre deux variables pose souvent de dlicats problmes dus la nature des variables.
Il.5.1
Variables numriques
Pour des variables numriques, le coeHicient de corrlation linaire constitue l'indice naturel et 1 - r est alors un indice de dissimilarit qui est en plus une distance euclidienne. On peut alors utiliser la mthode hirarchique de Ward et celle des nues dynamiques puisque l'on dispose d'une distance euclidienne. Une variante consiste utiliser les coordonnes des variables sur des axes factoriels. Mentionnons galement lu mthode divisive (ou descendante) disponible dans le logiciel SAS (procdure varclus) qui revient 11 dterminer les groupes de variables les plus unidimensionnels possible au sens o l'ACP de chaque groupe ne fournit qu'une seule
262
dimension : une seule valeur propre suprieure 1. L'algorithme est sommairement le suivant: on part de l'ensemble des p variables et on effectue une Aep. Si il n'y a qu'une seule valeur propre suprieure l> on s'arrte. Sinon on classe les variables en deux groupes selon leurs proximits avec la premere ou la deuxime composante principale. On recommence alors la procdure dans chaque groupe.
1 1.5.2
Ltapproche de Lerman et l'algorithme de la vraisemblance du lien
Pour des variables qualitatives, un problme vient du fait que les mesures de liaison ne sont comparables que pour des nombres gaux de catgories, ou du degr de libert du couple. I. C. Lerman a propos de remplacer la valeur de l'indice de similarit entre variables de mme nature (corrlation, X~, etc.) par la probabilit de trouver une valeur infrieure dans le cadre de l'hypothse d'indpendance (appele <,( absence de lien}). Ainsi, au lieu de prendre r, on prendra P(R < r). L'avantage est incontestable pour les mesures de similarit entre variables qualitatives qui deviennent ds lors comparables indpendamment des nombres de catgories: un X-r gal 4 correspond une similarit de 0.6 alors qu'un Xfo gal 5 correspond une similarit de 0.12. L'algorithme de la vraisemblance du lien (AVL) consiste alors utiliser comme mesure de proximit entre deux groupes A et B de /Il et 1 variables respectivement, la probabilit associe la plus grande valeur observe de l'indice probabiliste de smilarit. Soit:
10 = sup s(x, y)
xEA .l'EH
o s(x, y)
= P(R <
r(x, y)) par exemple.
Dans l'hypothse d'absence de lien, on a : P(sup s(x, y)

xEII
<
t)
= tm
(voir chapitre 12, paragr. 12.1.3.2), d'o: P(sup

.l'ER
s(x, y)
<
t) = (1111)' =
!/Il1
xE ,t
On prendra donc comme indice de dissimilarit entre A et B : Ifjl/. On peut alors obtenir une classification hirarchique des variables.
1 1.6
EXEMPLES
Reprenons c-dessous les diffrents exemples dj tudis dans les chapitres prcdents, pour montrer la complmentarit entre les rntll0des factorielles et les mthodes de classification.
Il.6.1
Donnes voitures
Les donnes tant euclidiennes, on utilisera tout d'abord la mthode de Ward sur donnes rduites.
1l_Mthodes de classification
263
Le tableau suivant donne l'historique des regroupements. On vrifie que la somme des indices de niveau (ou somme des pertes d'inertie) est gale l'inertie totale. L'appellation an benjamin est sans signification el ne fait que dsigner les deux lments runis. On constate des sauts importants aprs le nud 34 quand on passe de 3 classes deux classes. Une coupure de l'arbre en 3 classes est alors naturelle.
DESCRIPTIOl:J DES NOEUDS J:..INE BEru EFF. NDl-!. POIDS INDICE HLSTOGH.tlNHS DES INiJLCES DE NIVEAU
19
1"\ 16
1)
20
21 2:3
23
7 5
-.
.00
O.Ol'i
J.DO
4 14 15
:!J II 19
le.
17
21
:1
.00
'2
.00 3.00
3.00 3.00 3.00
0.O::!'i32 0.03061 0.03581 0 04593 06556

0.07693 o .08 1178 0.11771 0.12 1185 0.17 159
{J.
25 J6 27
8
'2
28 23
30
:::5
2J
'}
10
,~
4.00 5.00
2
31
28 26 29
13 1
'2.00 .00
.00 11.00 13.00 18.00
**"'****
0.23849
0.36099
0.5~~497
24
32
J3
35
sOtn'IE DES
6 11 13
.06604
.79117 .00000
34
31
18
INDICES DE NIVEAU
RENAULT-30- TS DATSUN-200L OPEL-REKORD-L TAUNUS-2000-GL AUDI-100-L PRINCESS-1800-HL PEUGEOT-504 MAZDA-929S FIAT-132-1600GLS ALFETIA-1.66 LANCIA-BETA- i 300 SIMCA-1307 -GLS RANC HO RENAULT-16-TL LADA-1300 CITROEN-GS-CLUB TOYOT A-COROLLA ALFASUD-TI-1350
FIGURE 11.1 1
264
La coupure en 3 classes semble optimale car aucune amlioration passage d'une mthode de centres mobiles:
n~est
obtenue aprs
CONSOLID.i\TION DE LA PI\RTITION i\UTOUR DES CENTHES DE CLASSES J REALISEE PAR 10 l'l'EB.liTIONS A CENTRES HOBILES ; PHOGRESSIOH DE L'INERTIE INTER-CLI".SSES ITERA'1'ION 1. TO'l'ALE . INTER QUorl'IEN?
o
1
6.00000 6.00000 6.00000
3.85720
3.35720
3.85720
0.64287 0.64287 0.6/1287
ARRET APRES L'ITERATION 2 L' ACCF.OISSm-!ENT DE L'INERTIE IN'rER-CLf..SSES PAR RJ\PPORT AL' ITEH..A.TION PRECEDENTE N' EST QUE DE 0.000 %.
La figure suivante donne dans le plan 1-2 la visualisation des 3 classes.
FIGURE
11. Il
Ces 3 classes correspondent pour l'essentiel la taille des individus
1 1.6.2
Vacances
Reprenons maintenant le tableau de contingence tudi en 9.3 avec une AFC. La distance du khi-deux entre profils-lignes ou protils-colonnes tant une disatnce euclidienne, il est ici possible d'effectuer deux classifications, l'une sur les lignes, l'autre sur les colonnes du tableau de contingence.
, 1.6.2.1
HUt,!.
Classification des professions

BEHJ
AINE
EFF.
:;
poros
50:::7 .00 1375.00 5162.00 5'\19.00 9511. 00 1<1930. 1.8532.00
INDICE
HISTOGR.!\li[!.!E DES INDICES DE NIVEJ\U
10
..,
fi
0.00239 0.00274
12 13
1,1 15
'}
12
10 8 11 13
0.00473
0.00587 0.01107
O.031~5
k,**,
**,~.k'~**
tr*"1I'**>Jrk*".f'r~**""**'ft'*
,,,.*~**+~**~*k,,.****w*kk*~**k****~*****~,,.~**** ~*".~k****k~k*~f'r**wk*"'***f'r***k*p**~*~~k~.*w**
0.04930
SOI.jHE DES iNDICES
rE HIVSAU
11liliiii Mthodes de classification
265
Retraits Ouvriers Employs Autres inactifs Cadres el professions intellecluelles suprieures Professions intermdiaires Artisans, commerants, chers d'entreprise Agriculteurs
FIGURE
11.13
Il.6.2.2
NUIl.
Classification des modes d"hbergement

BENJ
EFF.
2
2
AINE
J -1
POIDS
3479.00
INDICE
HIS'l'OGHAMHE DES IlmrCES DE NIVEAU
10
11
693G.OO
1j364 00 1903.00
12
14
0.00025 0.00276 0.00650

0.OO67~
7fit'w,l,'I't"*1t.lr..lr'f't
15
16 17
7 11 10
5
5
14 16
15 12
8839.00 5329.00 7 HJ68.00 9 18532.00
2 .:1
***ir**f/;)y***
0.OOB64
0.00%9
*** .. *~*ltl'!*-.;***
*"*k*.,.,.***,******~
0.01974 0.05291 0.10734
** r
****.* ** *.
**~*It**~*****.*'f't*1t**~*~*'I't"N***~*~***~*k**~~***
SOHHE DES INDICES DE NIVE1\U
On vrifie dans les deux cas que la somme des indices de niveau est bien gale au phideux de Pearson. On constate que 3 modalits.
r on
pourrait regrouper aussi bien ]es lignes que les colonnes en
RPPA VILLAGEV CARAVANE TENTE LOCATION

AJ
RSPA RSEC HOTEL

FIGURE
11.14
266
11.6.3
Races canines
Les donnes du chapitre 10 concernant 27 races canines ont t soumises une classification ascendante hirarchique selon la mthode de Ward sur les 10 composantes de l'analyse des correspondances multiples. On trouve ci-aprs la liste de fonnation des nuds et le dendrogramme (fig. 1 L 15) et tableau 11.2. Il est clair qu'une coupure est effectuer au-dessus du nud n 50 (coude dans le diagramme des indices de niveau) et que l'on distingue nettement quatre classes homognes, ces classes sont ici voisines de celles obtenues par la mthode des centres mobiles.
,----------------.53
eeaucer.m
Collay
10
Seller
Pointer
25
23
CLASSE 1
Beloer al.
Dobmmann Levrlor Fox.hound Epngnoul F Bleu Gnsc. DOrlun
Mas!i/!
12
20 16
15 III 13 21
24
51
52
BullMn5IJIf SI B~mar CtlCker Epa[Jnoul8 Boxer Lnbmdor DalmallOl1

Fox Terrier
TOHo-Neuve 27
14 4 H) 11
17
Canlcho Tockol 26 47
50
r------;~9
Bulldarl
44
43
Bassel
Chil\unhua Plikinais II
22 1102523312201615161321 fi 24 27!l
29
1<1"
19 1117 7265 2 8 22
FIGURE
11.15
267
TABLEAU
1 1.2
DESCP.!:P'1'10l1
liOElJDS
CLASST'lCAl'IOH ASCI::lm."-.1iTE HIERAPCHIOUE :

l'lUH.
!\INE
1.9
BElI,T
Il
Er':,.
TiOlDS
IODICE 0.00000 0.00000 0.00000

0.01:::~6
III.:?l'C!GRi\lINE DES HlDICES DE !HIJ2AU
:::.00
~,()(l
J2
30
26
.00
J::
33
12
16
2i
.,
:::0
2
~.OO
(JO
(l.Ol:::;!,
~.OO
~.O[)
O.Ol::::i!;
O.Ol~36
35
::8
21 32 18
JG
38 39
40
~~
13
7.5
.00 2.00 2.00

3.00
0.016 1;B a.0175;)

O.Ol9Gil
34 35
:::9
III
12
113
4:j
I~ :J 46 47
17
37
,13
3.00 4.00 . 00 3.00 .00

5.00 5.00 5.00 7.00 7.00 00 15.00 .00 .00
O.020GO O.OJOJ6 0.03119 O.OJ251
n.
0.03297 0.04074 0.04698
{}. lJll9J9
O
30
:10
':1
j.}
,j :;
4fJ
49 50
51 5:::
38
46
~9
10
0.07512 0.0789B 0.D8497
50
o .::::n80
0.:::757
li. '13314
47
51
INDTCES
12
5.2
SQl-U1E
n::s
llTVE;!.U
'" .l.6ii6G7
268
Reprsentation des individus et des centres de gravit des classes dans le premier plan factoriel Facteur 2
0.8
~~\~~U/dsET
CLASSE-1/-l BULLDOG
TECKEL FOXTERRIER
MASTIFF
CLAS 1:2/-1 SAINTBERNARD BU!J::."'MSTIFF DOGUE ALLEMAND
OA
o .......... ,............................................................1'........ .... .... .... 7............

:
CANiHE COCKER
l
j
1GRAND BLEU DE GASCOOf'

CLASS
FOXiHOUND
LEVRIER
14
DOBEAMANN
l
\
BEAUCERON
:..k"
;
!EPAGNEUL FRANCAIS
CO~EV
syrrER
BERGER ALLEMAND
-0.8
CLAS~314
BOXER
DAL~ATIEN
LABRADOR
EPAGNEUL BRETON
0.4
o.a
Facteur 1
FIGURE 11.16
TROISIME PARTIE
1 Statistique infrentielle
Distributions des caractristiques

d'un chantillon
Le problme central de l'infrence statistique est rappelons-le, le suivant : disposant d'observations sur un chantillon de taille n on dsire en dduire les proprits de la population dont il est issu. Ainsi on cherchera estimer, par exemple, la moyenne III de ]a population partir de la moyenne x d'un chantillon. Ceci n'est possible que si l'chantillon a t tir selon des rgles rigoureuses destines en a.ssurer la reprsentativit }) (voir chapitre 20). Le mode de tirage le plus simple et aussi le plus important est l'chantillonnage alatoire simple correspondant des tirages quiprobables et indpendants les uns des autres. Dans ces conditions les observations deviennent des variables alatoires ainsi que les rsums numriques usuels: il convient donc d'en chercher les lois de probabilit avant de tenter d'extrapoler la population .
.. Exemple : On prlve au hasard 11 ampoules lectriques dans une production et on mesure leurs dures de fonctionnement. Si les caractristiques de fabrication n' ont pas vari une ampoule l'autre, les diffrences entre les Xi peuvent tre considres comme des tluctuations de nature alatoire. _
Cette dernire remarque justifie l'hypothse fondan1entale de la thorie de r chantillonnage: les valeurs observes Xi sont des ralisations d'une mme variable alatoire X, appele variable parente. Dans notre exemple, ceci revient postuler l'existence d'une variable abstraite, la dure de vie d'une ampoule de type donn, fabrique dans des conditions donnes. On peut cependant introduire aussi le modle suivant: chaque individu; tir, on associe une variable alatoire Xi dont on observe une seule ralisation Xi (exemple: Xi est la dure de vie de l'ampoule nO i qui, une fois l'exprience faite, a pris la valeur Xi)' L'hypothse fonnule plus haut revient alors dire que les Xi sont des variables alatoires ayant toutes la mme distribution, celle de X. Pour des raisons de commodit, on supposera gnralement les Xi mutuellement indpendantes (dans certains cas, l'indpendance deux deux sera suffisante). On a donc la double conception suivante, qui est la buse de la statistique mathmatique: les valeurs observes (Xl, X2' , xH ) constituent 11 ralisations indpendantes d'une variable alatoire X ou encore, une ralisation unique du n-uple (Xl' X 2, .. , XII) o les Xi sont 11 varables alatoires indpendantes et de mme loi.
272
12 I11\III Distributions des caractristiques d'un chantillon
Par extension, nous appellerons dsormais chantillon Je il-upIe de variables alatoires (X), X 2, , X,I)' La thorie de l'chantillonnage se propose d'tudier les proprits du n-uple (X" Xl, .. " X;l) et des caractristiques le rsumant, encore appeles statistiques, pru1ir de la distribution suppose connue de la variable parente X, et d'tudier en particulier ce qui se passe lorsque la tal1e de l'chantillon est leve. Il est d'usage de rsumer les Il valeurs d'un chantillon XI' X2' .. , X'I par quelques caractristiques simples telles que moyenne, plus grande valeur, etc. Ces caractristiques sont elles-mmes des ralisations de variables alatoires issues de XI' X,2, ... , X'I'
DFINITION
L
12.1
Une statistique T est une variable alatoire fOllction mesurable de X" X::., .. " XII' T f(X}l X::" ... , X,J,
Une statistique peut tre valeurs dans [f,g ou ~f1 ; dans le cas de !FR", on parlera de statis- . tique vectorielle. Les premiers paragraphes de ce chapitre sont consacrs au cas des chantllons d'une variable alatoire relle. On donnera ensuite quelques rsultats concernant les chantillons de vecteurs alatoires.
FONCTION DE RPARTITION D'UN CHANTILLON, STATISTIQUES D'ORDRE ET QUANTI lES

Fonction de rpartition empirique d'un chantillon
F,~I:(X)
12.1.1
x.
Dsignons par
la proportion des
11
variables XI' X2, ... ,
XII
qui sont infrieures
F,~I;(X) est donc une variable alatoire pour tout X qui dtnit ainsi une fonction alatoire appele foncton de rpartition empirique de l'chantillon, dont les ralisations sont des fonctions en escalier de sauts gaux J /n (fig. 12.1).
FIGURE
12.1
12- Distributions des caractristiques d'un chantillon
273
Si les
Xi
sont ordonns par valeurs croissantes:

Fl~!:{X)
F~l:(X)
0
=- -
six
<
XI
si
Xi-I
::s; x
<
Xj
F~!:(x)
= l
12.1.2
Convergence de F;-(x) vers F(x)
Ces trois thormes sont fondamentaux et justifient l'usage des chantillons en statistique.
THORME
1
ps
POlir tout x, 011 a F,1:(x) ~ F(x).
_ Dmonstration : A x fix, soit Y le nombre alatoire de valeurs infrieures x, qui est une somme de variables de Bernoulli de paramtre F(.r). D'aprs ce qui prcde F,~}:(x) qui n'est autre que Y/Il converge presque srement vers la probabilit F(x). _
THORME
(GLIVENKO-CANTELLI)
La
cml\'el~f?ellce de Fl~l; vers F est presque srement WI~r0I111e, c'est--dire que:
DII
sup IF,~I'(X)
x
F(x) 1 ~
_ Dmonstration: voir Renyi, chapitre 7, p. 378.

THORME
(KOLMOGOROV)
+:x::
lim P({,;Dn
Il ........
<
y)
K(y) =
.:c
~ (- 1)kexp ( - 2f!y2)
k;-cc
Ce thorme signifie que la distribution asymptotique de la variable alatoire Dn est connue et ne dpend pas de la variable de dpart X, et permet de calculer des lmites pour les valeurs de DII" La loi exacte de la variable Dn a t tabule (table A 1.14 du recueil).
12.1.3
x]>
chantillons ordonns et lois des valeurs extrmes
, x" un Il-chantillon d'une variable alatoire X. Les ralisations peuvent tre rordonnes en YI' )'2' . . . , )'n o YI < Y2 < ... < )'n' les Yi constituent une permutation particulire des Xi- Les Yi sont des ralisations du n-uple de variables alatoires (YI' Y2' ... , l'Il) qui constitue l'chantillon ordonn de X. Soit F(x) la fonction de rpartition de X de densit f(x) et Hl. et h" les fonctions de rpartition et densi l de Yk -
Soit X], X 2,
X2' , XII
274
12_ Distributions des caractristiques d'un chantillon
12.1.3.1
On a PO"I
Loi de Y,
= inf XI
1/
<
y)
1 - P(Y I > y) et P(inf Xi> y)

HI(y) = 1
rIP(Xj > y) donc:

1=1
[1 - F(y)f' - F(y)]/!-l.f(y)
Il le)')
= n[I
12.1.3.2
Lo; de Yn
= sup XI
11
P(Y'I
<
y) = rI P(Xi
i=1
<
y)
H/I(Y) = [F(y)J'
hile,,)
nfF(y)]!I-lf(y)
Ces deux lois servent en particulier pour la dtection des valeurs aberrantes chantillon: valeurs ( troP petites ou trop ) grandes.
lllIIllII l1l
dans un
Exemple: On sait que pour une loi LG(m ; cr) il y a une probabilit 1.35%0 de dpasser
+ 3cr. Sur un chantillon de 100 observations la probabilit qu'il yen ait au moins une qui dpasse 111 + 3cr monte l - (0.99865)JIlo = 0.126. Si inversement on cherche quelle est la
valeur que YI! a une probabilit L35%0 de dpasser on trouve: F(y/!) 100 environ III + 4.3cr.
(0.99865)1//1 soit pour
Il
12.1.3.3
Loi de l'tendue W
W
Yll - YI
La loi du couple (Y], YlI ) sobtient en crivant:

P(Y,
<
YI)
n (Y
II
<
)'11)) = P(YII
<
.l'II) - PY/!
<
YIl)
n (YI> YI))
(F(YII))" - (F(YII) - F(YI))"
d'o la densit du couple YI 1'/1 en drivant deux fOls:

h(Yld'lI) =
11(11 -
1)(F(Yll) - F(YI))J1- 1.f(y,,).f(YI)

~ (Y], Hl)
Avec le changement de variables (YI! Y,I ) de W:
on obtient la fonction de rpartition
G(u = (Il[F(X
Jp.
w) - F(x)]/I-lf(x)dx
et sa densit:
g(w)
1l(1l -
1) ( [F(x
J~
III) -
F(X)]/I-lf(x)f(x
w)dx
On trouve alors:
E(W)
-
Jf1
r(l -
(F(x))1/ - (l
F(x))/!)dx
en intgrant par parties E(Y,T )
E(Y 1 ).
12_Distributons des caractristiques d'un chantillon
275
'2.' .3.4
Loi de Yh
Appelons Rn(x) le nombre de rptitions de l'vnement X < x en n expriences indpendantes, qui suit donc une loi binomiale:
L'vnement Yk < x peut tre obtenu de plusieurs manires, soit que les k premires valeurs de X soient infrieures x et elles seules, soit qu'il y en ail k + 1, etc.
Il
Donc:
P(Yk < x)
2:C:/[F(x)J[l - F(X)]II-i
j=k
L'vnement x < Yk < X + dx se ralise si un des Xj est compris entre x et x + dx, si (k - 1)xi sont infrieurs x et si les 11 - k restant sont suprieurs x. Les probabilits respectives de ces diffrents vnements sont f(x)dx, [F(x)Y- 1 , [1 - F(x)]/I-k. Il y a
Il
manires de raliser le premier vnement el C~=\ manires de raliser les deux autres (C~= ~ faons de choisir les Xi infrieurs x, les autres tant alors suprieurs) :
F(Yt ) suit donc une IO bta l de paramtres k et
11 -
1.
12.1.3.5
Rsultats asymptotiques pour les extrmes
L'tude du comportement de YI et l'Il lorsque 12 ~ 00 est r objet de la thorie des valeurs extrmes dont nous donnons ci-dessous quelques rsultats. Nous nous bornerons tudier l'II puisque YI = -sup( -XI! -X:!, ... , - X1J Remarquons que si n
~
00 :
(F(y)yr ~
0
1
si F(y)
< 1
(F(y))'1
si F(y) = 1
ce qui est sans intrt. Il convient plutt de rechercher s'il existe des coefticients an et hl! tels que G/I.1';/ + h'l tende vers une limite non dgnre, par une opration semblable au centrage~rduction dans le thorme central-limite.
Nil valeurs XI. X2,
La mthode est la suivante: soit G(y) la loi limite de all J'1I + hl!' Puisque la plus grande des , XNII est aussi la plus grande des N maxima suivants: sup(X1, X2, , XII) ; sup(XIl + 1, , X2J1 ) ; ; sUP(X<N-l}lI ; ... XNII ) on doit avoir:
On dmontre alors que les seules solutions de cette quation fonctionnelle sont les suivantes pour X non born : type l : G(y) = exp( -exp( -y)) loi de Gumbel obtenue si 1 - F(x) tend vers 0 comme exp( -x) quand x ~ 00 ; type II : G(y) = exp( -il) ; y > 0 loi de Weibull (ou de Frchet) si 1 - F(x) tend quand x ~ co (voir chapitre 2, paragr. 2.3.8 et 2.3.9). vers 0 comme
276
Ceci permet en pratique de pouvoir faire les approximations suivantes si

H,,(y)
Il
est trs grand:
exp( -ex p (
-(y a 1;))
ou
X exp ( - ( - b
a)a)
12.1.3.6
F(x) =
Distributions asymptotiques des quanti/es
Si F est continue, rappelons que le quantile d'ordre p not qp est la valeur de x telle que p_ Le quantle empirique d'un n-chantillon Q" est gal YI1l1'1+ 1 o [np] est la partie entire de np suppos non entier. On dmontre (voir Fourgeaud-Fuchs, 1972) que si
Il ~
':X; :
D'o en particulier pour la mdiane:
{,;(Q,12
qll2) -->
LO(ql/, ; 2f(~Ii')
12.2
DISTRIBUTIONS D'CHANTILLONNAGE DE CERTAINS MOMENTS
12.2.1
tude de la statistique X
DFINITION
La statistique X ml moyenne empirique de l'chantillon est:

1
/1
X = - LXi
11 i= 1
12.2.1.1
Proprits lmentaires
Soit m et cr l'esprance et l'cart-type de la variable parente; on a alors:
_ Dmonstration :
1
E(X) = ni:::; 1
2: E(X
l
Il
i)
1 = -ml!
11
111
2
V(X)
=2
Il
(/1 Xi) 2:
i= 1
-:;
1 2:1V(XJ = -:;110-2 = l1-i= 11Il
0-
11
d'aprs l' indpendance des Xi-
12_Distributions des caractristiques d'un chantillon
277
Si I-L3 et I-L-I sont les moments centrs d'ordre 3 et 4 de X on a : et

1)
On en dduit:
o 'YI et 'Y2 sont les coefficients Lorsque

Il ~:::c,
asymtrie et d'aplatissement de X.
V(X) -3> 0, il s'ensuit que X converge en moyenne quadratique vers
m puisque E[(X - m)2] -3> O.
Ce dernier rsultat est une forme des lois des grands nombres que nous allons noncer sous un aspect plus gnral. On voit!ie plus que si 11 -3> x, 'Y,(X) -3> totique de X .
et 'l'2(X) -3> 3, ce qui traduit la normalit asymp_
12.2.1.2
Lois des grands nombres
Elles sont de deux types: lois faibles mettant en jeu la convergence en probabilit et lois fortes relatives la convergence presque sre, Nous considrons ici des suites de variables alatoires XI> Xl, .. " Xli non ncessairement de mme loi.
Loi faible des grands nombres

Soit XI' X 2, , XI! indpendantes d'esprance 1111. 11l2, , 11l '1 finies et de variance crT, cr~ .. " cr~ tinies, Il l Il 1 /1 Si - L111j -3> III et si crl-3> 0, alors XLXi est tel que:
2:
lli;1
/li=1
Loi forte des grands nombres

1 If Soit Xl, X::!" , X'I indpendantes telles que - Lmj-3> m et
lli=1
i=1
2: -+ est convergente ;
'"
cr~
alors:
-
X-3>m
[15
(Pour la dmonstraton,
ci Reny, chapitre 7).
278
12IIIIIIII Distributions des caractristiques d'un chantillon
Application: Cas des chanti110ns : on voiL aisment que

convergente est ralise puisque:
, X~ 111 car la condition 2: ~:

~ ~
1 l-
et ]' on sait que la srie
1 2: 7 converge. r
Distribution
Le thorme central-limite tabli au chapitre 2 peut s'crre :
X
m ::.f
-)0
- -
cr/..hz
ULG(O, 1)
Il suffit en effet de poser: Xl
+ Xz + ... + XII
= IlX.
Ce rsultat est d'une importance capitale en statistique.
12.2.1.3
Application: loi d'un pourcentage
On prlve ndpen~ammenL et avec remise 11 individus d'une population spare en deux sous-populations A et A de proportions p et 1 - fJ (pices dfectueuses ou correctes dans une production industrielle par exemple). Soit K le nombre d'individus de la sous-population A obtenus dans J'chantillon. On sait que K suit une loi binomiale @(n ; p). Notons F
K/n la frquence empirique de la catgorie fi.
F est la moyenne arithmtique de n variables de Bernoulli de paramtre p indpendantes.
On a donc:
E(F) V(F)
=p = pO 11
p)
. . et S1 Il est gran d F = LO( p : -~~ en raIson d u th' eoreme centra1-l'ImIte. La convergence de F vers p, connue sous le nom de thorme de De Moivre-Laplace, est une des premires applications de la loi des grands nombres. Ce rsultat a inspir la thorie frquentiste des probablts (voir chapitre]).
~ fP(1=-p))
Application numrique: Comme pour la loi binomiale l'approximation gaussienne de F est valable si np et n( 1 - p) sont tous deux suprieurs 5.
Ainsi pour un chantillon de 400 pices issues d'une fabrication o 10 % sont dfectueuses, on peut s'attendre trouver dans 95 % des cas un pourcentage de dfectueux dans l'chantillon
. "' /0.10 X 0.90 compns entre 10 % l.96 400 '
'i
SOIt
9.7 % < F < 10.3%.
279
12.2.2
tude de la statistique 52
DFINITION
La statistique S1 Olt variance empirique d'chantillon est: 1 S2 = (Xi - Xf
2:
/1
l1i=1
12.2.2.1
Proprits
1 = - 2: x r -
(II ) (Xf _
i;;;;J
IIIIIIII
_ Dmonstration : Il suffit de dvelopper.
.. Convergence presque sre de 52 vers u 1

D'aprs les lois des grands nombres:
1 2: p~ - (II Xr) ~ E(X

Il
i""'J
et :
x<! ~ [E(X)F
~
donc:
ps
E(X-) - [E(X)]-
"
0--
Dcomposition de S2
Partons de X j
On a alors:
Il
Il
III
= Xi
1I1Y~'
+ X-m.
2: (Xi i=J
2: (Xi
Il
xf + 2: (X - 111)'2 + 2(X
II
m)
2: (X;
i= 1
11
)()
;=1
Comme
2: (Xi - X) = 0; on trouve:
;=J
1
n
Il
2:(Xi
i=1
xf + (X mf
Biais de S1
THORME
E(S-) =
"
--0-Il
2
n - 1 ,
Ce thorme montre que E(S2)
* ,On dit que S2 est une statistique biaise pour cr
280
_ Dmonstration :
E(S2)
==-
1
1
Il
2. E(X i
Il
1Il)2 - E(X - m)2

-
11 i=1
2:V(X i )
1
V(X)
=-
Il
2.(T2
Il
11i=1
Le biais vaut
cr /n et tend donc vers Q.

2
Varance de S2
Un calcul dont la longueur est la seule difticult montre que:

V(S2) = --[(11 3
11
11-]
1)f.1.; - (n - 3)cr"]
el
si
Il
--,)0.
oc :
La variance S'!. tant biaise et ayant donc tendance il sous-estimer (T-, on utilise frquemment la variance corrige dont l'esprance vaut exactement (T2 :
S*1 =
Il
11 -
1 E(S*'!.) = cr:!.
II -
--2:U( - xi1
1/
Cependant. l'cart-type corrig S* reste biais pour cr car :
E(~)
mais est asymptotiquement sans biais.
=1=
~ E(S*:!.)
Il n'existe pas d'expression gnrale donnant E(S*) pour toute distribution. On verra plus loin une formule exacte dans le cas o les Xi suivent des lois normales.
12.2.2.2
Thorme limite pour 52

- - c r2
---===--11
!f
--,)0.
n - 1
U E LO(Q, t)
ce qui peut
5' crire
avec l'approximation prcdente:
:' _cr', {,; .!. U E LG(O, 1)

f.1.;
cr
12.2.2.3
Corrlation entre X et 52
Cherchons cov(X, S2) :

-, Il 1 ,)] cov(X, S-) = E [ (X - 111) ( " \ - -,-,-(TS-
12 _ Distributions des caractristiques d'un chantillon
281
Nous pouvons supposer sans nuire la gnralit que 111 = 0, car on sait que la covariance est insensible un changement par translation sur un des tennes : cov(X, 52)
E(XS2)
E(X5!.) =
E[(! X (~ XJ Xl)] n
i)
llj=1
= 1E[(2:X)(D/~)]
11,
E(X 3 )
Il
\E[2:22 X XJ] j
i
E(X 3 )
3
= 11- E(2: XT) ~ i
11
~ E(2:X~)
i
Il
car E(X; XJ) = 0 pour i =F j cause de l'indpendance :

--.,-f.L3
n-
Avec la formule tablie prcdemment pour V(S:''), on trouve que:
rr~
/-L.I
11 -
3 rr..t n- 1
el n'est donc nul que si f.LJ est nul, ce qui est le cas des distributions symtriques. Il faut se garder de passer de la non corrlation l'indpendance et nous verrons dans un paragraphe suivant que X et S"l ne sont indpendants que si X suit une loi de Laplace-Gauss.
12.2.3
Cas des chantillons gaussiens
On suppose maintenant que X E LG(m, cr) :
12.2.3.1
Loi de X
X combinaison linaire de variables de Laplace-Gauss est aussi de Laplace-Gauss et
XE LG("'. ::n)
Il s'agt ici d'une loi exacte.
12.2.3.2
Loi de 52 et indpendance entre X et S2
D'aprs la dcomposition de S2 on peut crire:

Il
L(Xj
;=1
m)2 =
2: (X; i= 1
Il
X)!.
+ n(X
m?
282
12IIIIIIII Distributions des caractristiques d'un chantillon
Divisons par cr l de chaque ct:
(Xi - Ill):!
cr
-== 1
= IlS,,2 + cr-
(X - 1Il)2
cr;-..Jn
Nous sommes dans les conditions d'application du thorme de Cochran. Le premier membre est une somme de 11 carrs de variables centres rduites et suit donc un X~. Le deuxime membre est constitu de la somme de deux formes quadratiques sur ces 2 " . 111)2 lIS varIables de rang 1 pour - y de rang 11 1 pour en effet X est h aux Xi et ('on cr;~11 cr
(X
---r :
a la relation
2: (Xi =l
Il
X)
= O.
On en dduit les deux rsultats suivants:

THORME 1
l
THORME
I1S 2
suif une loi de X~-I
L
, X
Xel S2 sont indpendants
On peut de plus dmontrer la rciproque du thorme 2 : si Xet S2 sont indpendants alors X est LG (Ill, cr), il s'agit donc d'une proprit caractristique.
Application: Puisque - - " V i l cr
/11 _
TlS 2 LG(O, 1) et -.., cr-
E X~-l
"l
on aura:
X 111_1 ---"VII
cr
x - m_,--;
---"Vil - l
o Tn - I est une variable de Student
Il
1 degrs de libert.
Ce rsultat est extrmement utile car il ne dpend pas de cr et servira donc chaque fois que cr est inconnu.
_ Exemple: On prlve 25 pices dans une production industrielle. Une tude pralable a montr que Je diamtre de ces pices suivait une loi gaussienne LG (10; 2). Entre quelles valeurs a-t-on 90 chances sur 100 de trouver le diamtre moyen de ces 25 pices et leur cart-type?
XLG(IO;~)
avec une probabilit 0.90 on trouvera
10
L64_r;:;-;: < X < 10

'J25
+ 1.64r;:;-;:
9.34 < X < 10.66 car pour la variable centre-rduite U: P( - 1.64 < U <
soit 'J25 1.64) = 0.9.
12&- Distributions des caractristiques d'un chantillon
283
Comme
115"2
"1 X~ - 1 on
1 . se reporte aux ta bl es d l 01 d u X2.t. E n prenant conventIOnne1 e la ' -
lement des risques d'erreur symtriques on trouve: 13.848
< - - < 36.415 (fig.l2.2)

4
255 2
FIGURE
12.2
'J
soit: d'o 1.49 5
< 5 < ~~36.4(5 < 2.41.
12.2.3.3
Esprance et variance des principales caractristiques d'un chantillon gaussien

II
Le tableau 12.1 rcapitule les rsultats:

I/TlL(Xi - X)3 '"\11 = --'-..:...---TABLEAU
'""12 = - - - - - -
12.1
Statistique
Esprance
11/
Variance
x
Il -
l , --cr
Il
11
5*
R
'YI
(1
=0
=3
6
n
=11
'Ti
24
..,
{T-
Mdiane
111
11
284
Un calcul d'intgrale permet de trouver la valeur de E(S*) :
que l'on exprime souvent sous la forme E(S*) = C.icr, o c..\ tend vers 1 quand n augmente (table AiS). S* est donc asymptotiquement sans biais pour cr. On en dduit aisment la variance V(S*)
= E(S*2)
- (E(s*)f = cr 2 - (C.)cr)2
= cr 2( 1
d)
Pour r tendue R, les calculs ne sont pas aiss: les coefficients usuellement nots dl et d 3 qui permettent de calculer E(R) = d 2cr et VeR) (d3(Jf figurent dans la table AI8. On notera que quand Il augmente, d;. tend vers l'infini, car la loi nonnale a pour support l'ensemble des nombres rels.
12.2.4
Application aux cartes de contrle
Il s'agit d'une des plus importantes applications industrielles directes de la thorie de l'chantillonnage.
Introduites par W.A. Shewhart ds 1931, les cartes de contrle permettent de suivre au cours du temps la moyenne el la dispersion d'un procd de fabriacation afin de dtecter des carts significatifs (drglages ou drives) par rapport aux valeurs nominales ou consignes respecter. En effet, tout procd est soumis des variations, que r on modlise souvent par une loi normale: par exemple le diamtre de pices mcaniques suit une loi N(m, cr). Soit mu et (Jo les valeurs nominales. On prl~ve intervalles rguliers des chantillons de n pices. La carte de Shewhart (X ; S) est un double graphique o l'on reporte les valeurs successives de la moyenne et de l'cart-type corrig de chaque chantillon. La ligEe centrale correspond l'esprance de la statistique si le procd est bien rgl: E(X) = 1110 E(S*) C.I(JO' Les limites de contrle sonl conventionnellement 3 cart-types de la valeur centrale soit:
Pour Il :::5 5 la limile infrieure de contrle pour S est mise zro, pour viter une valeur ngative. La probabilit de sortir des limites de contrle tant trs faible lorsque le procd est bien rgl, on interviendra ds que l'une des deux statistiques sort des limites. La figure suivante illustre une carte de contrle pour un procd o nI/) = 24 et (J'o = 2 avec des chantillons de taille 5. Des interventions auraient du avoir lieu aux instants 7, 9 et 20, car la moyenne tait sortie des limites.
12_Distributions des caractristiques d'un chantillon
285
33 31
c
QJ
LCS=26.68 CTR=24.00 LCI=21.32
29
c ~
27
:2: 25
23
21~~~~~~~~~~~~~~
15 10 chantillon
20
25
4[ ___- -_____________________
LCS=3.93 CTR=1.88 LCI=O.OO
10
15
FIGURE
20
25
12.3
Il existe bien d'autres cartes de contrle,
(:f. L. Jaupi, 2002.
12.3
DISTRIBUTION DU CENTRE DE GRAVIT ET DE LA MATRICE OEVARIANCE D'UN CHANTILLON GAUSSIEN p-DIMENSIONNEL
SoiL un chantillon de taille 11 de la loi NI'(p. ;~) (c'est--dire un tableau de donnes 11 lignes et p colonnes), il suffit alors d'appliquer les rsultats du chapitre 4 pour obtenir que:
{,;g
N,,( {,; f'- ; };)
SOil
g - N"
(IL ;;;};)
1) degrs de libert:
La matrice de variance V suit alors une loi de Wishart (11
IlV --
~)(n -
1 ;~)
V et g sont des slaListiques indpendantes.
286
La distance de g f.L au sens de Mahalanobis est :

(g -
f.L)'
2:- I (g
- f.L)
et on a :
n(g - f.L)' :L-1Cg
f.L) - X~
Le rsultat suivant est cependant plus utile car il ne fat intervenir que la matrice V observe et non la matrice 2: thorique:
(n
l)(g
J.t)' V-1(g - J.t) = TJ,(1l - 1)
soit:
il tend la formule unidimensionnelle du T de Student.
12.4
LA MTHODE DELTA ET LES STATISTIQUES ASYMPTOTIQUEMENT NORMALES
Soi t Tune statistique telle que si
Il
--> oc
T --> LG ( e ;
IT~)) el 9 une foncti on drivable. Alors
, . . , ( 91(f))C(J)) g(T) est egalement une statistIque asymptotIquement normale et T ~ LG g(6); -{;; .
En effet d'aprs la formule des accroissements finis: g(T) - g(6) = (T - 6)g'(8) + E Oll E est iC une variable alatoire qui tend vers 0 lorsque T tend vers 6, donc quand
Il
~
cc,
La distribution asymptotique de g(T) - g(8) est donc celle de g'(O)(T - 0) et on a V(g(T # (g'(8))2 V(T) d'o le rsultat annonc. Ce rsultat est particulirement utile lorsque l'on veut obtenir une variance asymptotique indpendante de fl: il suHitde rsoudre l'quation diftrentielle g'(6)<r(6) c. En voici trois applications:
12.4.1
Stabilisation de la variance d'un pourcentage
On a vu que F ~ LG ( p;
~p(l 11-
Pl) d" : ou
'
g(F)
~ LO(9(P); ~p(1
_;hz
- P)g/(P)
287
Si g'(p)
il vient g( p)
2c Arc sin
-{p +
K. En prenant c = I/2 et
K = 0 on en dduil que:
Arc sin{F -> LG( Arc sinfJ;;
2~)
12.4.2
Stabilisation de la variance d'une loi de Poisson
Soil X fi}(). On sait que X - ' ? LG( ; -{.) d'o:
12.4.3
Valeurs propres d'une matrice de variance
Soit un Il*chantillon d'une 101 normale p-dimensionnelle NI,(V-. 1':) et V* = matrice de variance corrige de J'chantillon. Si
;
--v
Il
Il
la
et
a montr que ~(li -
'i dsignent les ;~I!It! valeurs propres de 1': el de V* respectivement, T. W. Anderson

j)
converge vers une loi normale LG(O ;
i-{2).
i ;
On en dduit que In li a pour distribution approche une LO(ln permet d'crire: 0.95
~11-1 ), ce qui 2
p(ln
i -
1.96~ ,,-1 < ln 2
'i
< ln
1.96~ n-l ) 2
d'o:
lieXP(-1.96~11-1 ) < i < l;ex p( 1.96~11-) ) (cf ch 7, 7.3.2) 2 2

Gnralisation au cas multidimensionnel
12.4.4
SiX -> NI' ( ,.. ;
~) et si y
<p( X) avec <p appli cation de n;l" dans n;l" di ffren tiabl e alors :
o il. est la matrice des drives partielles de <fi au point f.l. Ce rsultat est souvent utilis pour calculer des intervalles de confiance asymptotiques pour des paramtres multidimensionnels, le nom de mthode delta provient de l'usage des drives.
L'estimation
13.1
GNRALITS
L'estimation consiste donner des valeurs approches aux paramtres d'une population (m ; rr, etc.) l'aide d'un chantillon de 11 observations issues de cette population. On supposera vrifie l'hypothse d'chantillonnage alatoire simple.
13.1.1
Exemples lmentaires
2
Les lois des grands nombres justifient l'usage de respectivement: on sail que X 111 et S1 ~ rr vnement est une estimation de sa probabilit p.
x et de :;;2 comme estimations de 11l et rr! De mme, la frquence empirique f d'un

,p respectivement.
Les variables alatoires X, S'2, F sont appeles alors estimateurs de m,
Cependant le mme paramtre peut tre estim l'aide d'estimateurs diiTrents : pour une distribution symtrique la mdiane de l'chantillon est galement une estimaton de m. Afin de choisir entre plusieurs estimateurs possibles d'un mme paramtre il faut dfinir les qualils exiges d'un estimateur.
13. 1.2
Qualits d'un estimateur
Soit e le paramtre estimer et Tun estimateur, c'est--dire une fonction des Xi valeurs dans un domaine acceptable pour e.
Il ~
La premire qualit d'un estimateur est d'tre convergent. Il est souhaitable que si JJ T ~ e. C'est le cas des estimateurs prsents au paragraphe prcdent. Deux estimateurs convergents ne convergent cependant pas ncessairement la mme vitesse, cec est li, pour une taille d'chantillon donne, la notion de prcision d'un estimateur. Un estimateur est une variable alatoire. Supposons connue sa loi de probabilit pour une valeur donne de e. La tgure 13.1 illustre alors les deux composantes de l'erreur d'estimation. L'erreur d'estimation T - e qui est une variable alatoire se dcompose de faon lmentaire en T E(T) + E(T) - e ou E(T) est l'esprance de l'estimateur.
T - E(T) reprsente les fluctuations alatoires de T autour de sa valeur moyenne tandis que E(T) - e est assimilable une erreur systmatique due au fait que T varie autour de sa valeur centrale E(T) et non autour de e.
290
13111i1111L'estimation
Biais
FIGURE
13.1
La quantit E(T) (} s'appelle le biais. Il est donc souhaitable d'utiliser des estimateurs sans biais, tels que E(T) = 8. Ainsi est sans biais pour m, mais S1 est biais pour cr:'.
Il est donc souvent prfrable d'utiliser S*2
= -- I S2 pour estimer cr 2 Il
11
On sait cependant que S* n'est pas un estimateur sans biais de cr.

On mesure gnralement la prcision d'un estimateur T par l'erreur quadratique
moyenne:
ET - 8f)
On peut crire :
E[(T
8)21
= EHT - E(T) + E(T) + 2E[(T - E(T)(E(T)

+
0)2]
- 8)1
= E[(T -
E(T)f]
+ E[(E(T)
Of]
Comme E(T) - fl est une constante et que E[T - E(T)]

1
= 0 il vient:
Op
1
E[(T - 0)2] = V(T)
lE(T) -
De deux estimateurs sans biais, le plus prcis est donc celui de variance minimale. 1 Il Montrons ainsi que si 111 est connu l'estimateur T = (Xi - 111)2 est meilleur que S*:. :
2:
lli==1
En effet:
V(T)
V(T)
1 = "2 V(/J :L(X

Il
j;!
j -
mf- ) =
[E(X -
1
11
V[(X - mf!]
"l ,
1 = - [E(X n
m)
-1
1 111)-1-1 = - [t-L-t
Il
rr 4]
et :
V(S*2) = V(S*2) =
- - ) "l V(S1) =
Il
-Il -
Il-Il
)"l
! [J.L-t 11
Il - 3 - - c r -1] Il 1
donc V(T)
<
V(S*1).
13_L'estimaton
291
13.1.3
Recherche du meilleur estimateur d'un paramtre
On ne peut rsoudre d'une faon gnrale le problme de la recherche du meilleur estimateur d'un paramtre sans faire d'hypothses sur le phnomne chantillonn. En effet la variance d'un estimateur ne peut en gnra] se calculer que si l'on connat la loi de T qui dpend de celle des Xi. Le modle utilis en thorie classique de l'estimation est alors le suivant: on observe un chantillon d'une variable X dont on connat la loi de probabilit l'exception de la valeur numrique d'un ou de plusieurs paramtres (par exemple: X suit une loi de Poisson 0'l(fJ) de paramtre e inconnu). En d'autres termes la variable X est dfinie par une famille paramtre de lois f(x ; 8) o / a une expression analytique connue. Cependant la thorie de l'estimation ne permet pas de rsoudre le problme de la recherche d'estimateurs d'erreur quadratique minimale. On se contentera de rechercher pour une famille de loi donne/(x; 8) l'estimateur sans biais de e de variance minimale. II reste toutefois possible dans certains cas particuliers de trouver des estimateurs biaiss plus prcis que le meilleur estimateur sans biais. La recherche d'estimateurs sans biais de variance minimale est intimement lie l'existence de slatistiques exhaustives.
13.2
l'EXHAUSTIVIT
Dans un problme statistique o tigure un paramtre e inconnu, un chantillon apporte une certaine information sur ce paramtre (information qui serait diffrente pour un autre paramtre avec le mme chantillon). Lorsque l'on rsume cet chantillon par une statistique, il s'agit de ne pas perdre cette information; une statistique qui conserve l'information sera qualifie d'exhaustive.
II convient de donner un sens prcis la notion d'information: une premire approche consiSle remarquer qu'une variable alatoire T ne peut nous renseigner sur la valeur d'un paramtre que dans la mesure o sa loi de probabilit dpend de ce paramtre; si la variable T est une statistique relative l'chantillon (X" Xl' ... , XJl) et que la loi conditionnelle de (XI> X"2~ ... , XII) T fix ne dpend plus du paramtre e, on peut dire alors, qu'une fois Tconnu, nous n'obtenons plus d'autre information de l'chantillon concernant fi et donc que T porte taule l'information disponible sur f1. Une deuxime approche consiste dfinir mathmatiquement une quantit d'information et chercher dans quelles circonstances cette quantit se conserve lorsque les donnes sont rsumes par une statistique.
13.2.1
Dfinition d'une statistique exhaustive
Soit un n-chantiHon d'une variable alatoire X. On notera L(x" X1' . , x" ; 8) soit la densit de (X!, Xl ... , XII) si X est absolument continue. soit la probabilit conjointe P(X) = XI n ... n XIl XII) si X est discrte.
L(x; 6) considr comme fonction de 8 seul est appel ( vraisemblance de 8 (voir plus loin).
Soit T une statistique fonction de XI' X,!, ... , XII de loi g(r ; 8) (densit dans le cas continu,
peT = t) dans le cas discret).
292
13. L'estimation
DFINITION
Tsera dite exhaustive si l'Oll a L(x, e) = g(l, e)lz(x) (principe defactorisatioll) e11 d'autres tenues si la densit conditionnelle de l'chamilloll est indpendante du"paramtre.
Ceci veut dire qu'une fois T connu, aucune valeur de l'chantillon ni aucune autre statistique ne nous apportera de renseignements supplmentaires sur O.
_ Exemples:
Loi normale, m connu (J'inconnu :
Posons T =
2: (Xi 1
/1
mf-. On sait que T/cr'2 suit une loi de X~. La densit de Test
alors:
g(t, cr)
d'o:
r(1l/2)
[(X, a) = g(1, cr)
[
n
Il
llll
2: (Xi - mf
i""l
Il
]11/:'-1
g(1, a)h(x)
T = 2:(Xi
=I
mf" est donc exhaustif pour a 2,
Loi de Poisson. inconnu:

Il
11 exp( - ) -,-,1 = exp ( -n)--' '/' 11-'

/1
Xi
"5'x~
r
i==1
/1
Xi-
i=1
s=
X[
+ X2 + ... + Xn est ex1mustive : S suit une loi 2P(Il), d'o

s!
(l1Y g(s: ) = exp(-n)--et:
[
9
s!
lI,ITIX!
Le principe de factorisation nous donne donc un moyen de reconnatre si une statistique est exhaustive, mais ne permet pas de la construire ou mme de savoir s'il en existe une.
13-L'esCmation
293
13.2.2
Lois permettant une statistique exhaustive
Le thorme suivant rpond aux deux proccupations prcdentes:

THORME DE DARMOrs
Soit une variable alatoire X dont le domaine de dfinition Ile dpend pas de 8. Vne cOlldition ncessaire et st~flsante pour que l'chantillon (Xl' X]., ... , XI!) admette une statistique exltazlstl'e est que la forme de la dellsit soit: f(x. 8)
exp[a(x)Cl(a)
+ b(x) +
~(8):I
(famille expone1ltielle)
Si la densit est de cette forme et ,i de plus l'application x 1 ~ contmlnent dUfrentiable pour tout i. alors T particulire.
2: a(x j) est bijective et

1=1
If
2: a(X
;;1
Il
j)
est LIlle statistique exlulllsth'e
_ Dmonstration :
Condition ncessaire: T
= <.p(X 1, X::!, ... , X1J est telle que: = g(l, 8) "(x) = II f(xj, a)
1
1/
L(x, 8)
Ona:
Posons:
\j~,
k(~, a) =
a ln ,'(t, a)
. ':,.
aa
eE lR il existe un point x de
avec
Xi
~x}
Tl. En ce point on a :
ak(~, a)ja~
a<.p(X)j[)Xi d<.p(X)j ilx}
ak(Tl,8)jaTl
ce qui est indpendant de H ~ ceci n' est possible que si :

ilk(x, H) ilx
u(x)1'(8) a(x)\'(O)
d'o en intgrant par rapport x : k(x, 0) lnf(x, e) a(x)ClC8) + 13(0) + b(x).
+ w(O), et en
intgrant par rapport e :
Condition suffisante: L(x, 8) = exp [ n(O),t,O(X,)
,t,b(X,) +
11
13
(0)].
Posons 1
2:a(x i) et effectuons le changement de variable :
294
13_L'estimation
lgitime si l'application est bijective
Xl
" 2:a(xJ :
i=\
car Je jacobien de la transformation se rduit aIl ih l - Pour obtenir la densit g(t, B) de t, iJ ' . fl1l1l~ f aut " Inlegrer L' par rapport il x::' X3' . . . , Xli SOIt dans U\i. 1 :
il Y a donc
bi~n
factorisation de L(x, B).
Ce thorme est un outil trs puissant dans la recherche des statistiques exhaustives et l'on remarque que la plupart des lois usuelles, lois de POsson, de Gauss, lois 'Y sont de la forme exponentielle.
_ Exemple: X suit une loi 'Y de paramtre inconnu:
f{x, B)
f{H) exp( -x)x
IJ
Inf(x, El) = -x
(e - 1) Inx - ln f(e)
La statistique exhaustive est ~I ln Xi = ln
Il
(11
~ il] Xij-
On peut remarquer que toute fonction injective d'une statistique exhaustive est encore exhaustive, ce qui indique que dans )' exemple prcdent la moyenne gomtrique des observations est exhaustive pour e. Une statistique exhaustive T, qui est foncton de toute statistique exhaustive, est dite exhaustive minimale. Remarquons cependant que si le domaine de dfinition de X dpend de e, le thorme de Darmois ne s'applique pas, ce qui n'empche pas de trouver dans certains cas des stalistiques exhaustives. Ainsi si X suit une loi uniforme sur [0 ; H], T sup Xi est exhaustive pour
e.
En effet:
L(x ; fl) = ( 1 )"
et
g(t ~ H)
car peT
<
t) =
(!.-)11 il s'ensuit que!::.. = ~I est indpendant de e.

e
9
nt"
13_L'est:imat:ion
295
_ Autres exemples de statistiques exhaustives: le lecteur pourra vrifier les rsultats

suivants titre d'exercice:
loi de Bernoulli de paramtre
11
p inconnu: T
2:Xi est exhaustif pour p ;

i=1
loi de Laplace-Gauss: N(III ; cr) :

Il
si cr est connu, T = si m est cqnnu, T
:LXi est exhaustif pour m ;

i=1
2: (Xi
Il
m)2 est exhaustif pour
si
/II
el cr sonl tous
d::~ inconnus, le couple (t,x" t,(X; - X)' ) ou (x, S') est

~exp( -~ )
:T
exhaustif pour le couple (m, cr). loi exponentielle de densit
,x; est exhaustif pour e.
13.2.3
l'information de Fisher
sllr
DFINITION
011 appelle quantit d'iI~fonnatioll de Fisher 11/(0) apporte par lUI ll-cllCl1ltilloll paramtre e la quantit suival1te positive Olt nlllle (si elle existe) :
le
Note: L(X, 0) peut tre considre comme une variable alatoire, car fonction de variable
alatoire:
II
L(X" X 2, , X n ; 0)
THORME
IIf(X i ; 0)
i=1
Si le domaine de dfinitio1f de X Ile dpend pas de

- E (--iJe:!
e a/ors:
Pln
L)
si cette quantit existe
- Dmonstration: L tant une densit L,L(X, e)dx
1.
En drivant les deux membres par rapport e et en remarquant que:

aL(x,
ae
e) =
L x.
e a ln L(x, 0) ( .) ae
296
13aL'estimation
il vient:
i
( rJ2 ln L(x, 8)
aln L(x, 0)
~.. .'
ao
L(x, O)dx = 0
ce qui prouve que la variable alatoire Drivons une deuxime fois:
a ln L(X, 0) est centre et que 11/(fJ) = V (ri ln - L) -.
ae
ao
J~"
en utilisant
~l
ao
O)dx
cl ln L(x, e) aL(x. 0)
ao
ao
dx = 0
nouveau la remarque sur
ilL(x,O) . . , il Vient:
ao
' L(x, i (a ln aA th):!L(x,O)d . aoJ ---,-..,--Ldx +

i):!ln
0)
L(x,
[~'J
G~n
ce qui dmontre la proposition.
Remarque: L'utilisation de l'hypothse du domaine indpendant de 0 intervient lors de la drivation sous le signe
J.
Un exemple de variable alatoire domaine non indpendant de 0 est fourni par X de densit exp( -(x - e)) si x ~ e ~ 0 sinon.
PROPRIT DE ' n(6}
Additivit. Si le domaine de dfinition ne dpend pas de
e on a :
En effet les oprnteurs esprance et drive seconde sont linaires. Ceci veut dire que chaque observation a la mme importance, ce qui n'est pas le cas pour la loi uniforme sur rO, 8] o la plus grande observation est la plus intressante. .. Prcison. SOt X une variable alatoire de Laplace-Gauss N(O, rr) o rr est connu. On a 11(0) 1frr:!; l'information apporte par une observation sur la moyenne est d'autant plus grande que la dispersion est petite . Dgradation de l'information. Montrons que l'information porte par une statistique est infrieure ou gale celle apporte par l'chantillon. Soit T de densit g(1, 0) la statistique que l'on substitue l'chantillon, on a :
L(x,O)
g(l, 0)1t (x, Olt)
131i11!11L'estimation
297
o h(x, Olt) est la densit conditionnelle de l'chantillon. On a donc, en prenant l'esprance des drives secondes:
le dernier terme est la quantit d'information conditionnelle 111 /1'(0) (ou information supplmentaire) ; elle est postive ou nulle, donc:
11'((3) ::; 1/1(0)
on voit donc que si T est exhaustive 11"(0) domaine de X est indpendant de e.
= liO)
et que la rciproque est vraie si le
Remarque: On a suppos le domaine indpendant de

1'1(0)
IlO)
a ln h)2] [( - - + 2E ao
[a dO 9adB h]
ln ln - .---.-
car sinon on aurait d crire:
et on n'aurait pas pu conclure une diminution de l'information cause du signe inconnu du dernier terme.
11'(0)
Ce dernier tenne peut laisser supposer, s'il est ngatif et grand en valeur absolue, que > l,/U)) ; jusqu' prsent aucun exemple d'augmentation de j'information n'a t dcouvert mais le problme reste entier.
13.2.4
Gnralisation plusieurs dimensions 6 paramtre vectoriel E~.I"
On consultera Fourgeaud, p. 216, pour un traitement complet. En rsum, on a, si le domaine ne dpend pas de 6 : La matrice de l'information ill a pour terme gnral :
(f,_ .
= cov[a Inf(X, 0). a Inf(X, 8)]
rfl.j
ao.'
1
lO.
J
c'est une matrice symtrique dfinie positive.
Sail Tl' T 2, , T un systme de s statistiques fonctionnellement indpendantes; la notion de dgradation de l'information se gnralise comme suit:
On appelle systme exhaustif un systme de s statistiques fonctionnellement indpendantes, tel que :

L(.y l , X~ .... ,
XI/;
6)
g(tl!
t'2'"''
t~;
6)11 (x},
.1:'2, ... ,
xu)
et l'on a J'/I(O) -
JiT/' 'l':' ... ,-,;(6)
= 0 si et seulement si le systme (Tl' T2 . . . , TJ est exhaustif.
298
13_L'estimation
THORME DE DARMOIS
Ulle condition ncessaire et suffisallte pour qu'ull ll-clwntil/oll admette 1111 systme rsl/m exhaustif est que:
s
lnf(x. 0)
/1
Lalx)ai(O)
j;1
h(x)
+ 13(0)
llIl
en particulier:
T; = La;(Xj )
j=!
l, 2, ... , s est
systme ex/wl/stri'
13.3
13~3.1
L'ESTIMATION SANS BIAIS DEVARIANCE MINIMALE
Les rsultats thoriques
On dispose pour rsoudre ce problme d'une suite de quatre thormes qui montrent en dfinitive que l'estimateur de variance minimale est li l'existence d'une statistique exhaustive.
THORME
1 UNICIT
Wl
l
lIIIIIIiI
S'il existe slrement.
estimateur de
e sans biais, de
l'ariance minimale, il est lIniqlle presque
Dmonstration: Raisonnons par l'absurde et supposons qu'il existe deux estimateurs sans biais TI et T'2. de e de variance minimale V.
Soit:
E(T I )
T) est sans biais car:
E(T) =
+
2
E(T2 )
=--
+
2
et : o p est le coefficient de corrlation linaire entre TI et T:!. Puisque V(T1)

V(T3 ) = V(T:!)
V il vent
~ (l + p). Si p <
1 on a V(T3 )
<
V ce qui est impossible, donc p = 1. C'est--dire V(T:!) il vient
Tl - E(Td = (T2 - E(T2 ) avec > O. Comme V(T,) E(Td = E(T]J = 0 on a Tl (ps).
THORME
= 1 et
pUsque _
2 : RAO-BLACKWELL
Soit T Wl estimateur qllelconljue sans biais de 0 et U lI1le statistiqlle exhaustive pour O. Alors T* = E(T 1 U) est Ull estimateur salis biais de e au moins aussi bail qlle T.
13_L'estmation
299
_ Dmonstration : T* est un estimateur de e. Cette proposition est non triviale car il faut montrer que T* dpend seulement des Xi et non de B.
Puisque U est exhaustive, la densit conditionnelle de l'chantlIon sachant U ne dpend pas de 6 et E(T 1 U) = L.,IL(X,6 1 u)dx ne dpend donc pas de 6 mais des -' seuls. e T* est sans biais. D' aprs le thorme de l'esprance totale:
E(T*)
= E[E(T 1 Un
V(E(T 1 U)} V(T*)
E(T)
T* est au moins aussi bon que T. D'aprs le thorme de la variance totale:

V(T) V(T)
E(V(T 1 U)
+ E(V(T 1 U)
2;:
Comme E( V(T 1 U est positif ou nul on a V(T)
V(T*).
De plus si E(V(TI U)) = 0 c'est que presque srement T=f(U), il y a relation fonctionnelle entre Tet U. Ce thorme fournit une mthode pour amliorer un estmateur sans biais donn.
THORME
lIlIII
S'il existe /Ille statistique exlwllstl'e U, alors l'estimateur T sans biais de 6 de l'lIrallce mhlimale (unique d'aprs le thorme 1) ne dpend que de U.
C'est un corollaire du thorme 2. On ne peut amliorer T par la mthode de Rao-Blackwell puisque T est de variance minimale. Donc V(T*) = V(T) et T = f( U). Cependant, comme il peut exister plusieurs estimateurs sans biais de e fonction de U, on n'est pas sr que j'estimateur T* obtenu par la mthode de Rao-81ackwell soit le meilleur, il faut alors introduire la notion de statistique complte.
DFINITION
si E[h(U)]
On dit qll'ulle statistique U est complte pour zme.tmille de lois de probabilitsf(x, 8) = O\l6=::;.1z = Ops.
On montre en particulier que la statistique exhaustive des familles exponentielles est complte. /1 Ainsi par exemple pour une loi de Poisson 0J() o est inconnu S = ~Xj' est complte.
i=1
En effet:
E[h(S).I =
s=o
2: Iz(s) exp( -J/)-I

s.
:.:: 2: lz(s) (IlY
.>""0
(Il )"
= exp( -n)
s!
300
13111!1l1L'estimation
La srie
lI(s) = 0
THORME
L - - : ' ne
.s=O
;: : Iz(s )I1 J
s!
peut tre nulle 'd. que si elle est nulle terme terme donc si
'ds
N.
4 : LEHMANN-SCHEFF
Si T* estllll estimatellr SllllS billis de e dpendant d'Lille statistique exhai/stive c01nplte U alors T* est l'unique estimateur sans biais de variallce minimale de e. EH particulier si 1'011 dispose dj de T estmateur sans biais de e, T* = E(T 1 U).
En effet l'estimateur de variance minimale est unique et dpend de U, d'autre part U tant complte il n'existe qu'un seul estimateur sans biais dpendant de U (soit TI = f(V) et T2 = g( V) E(T,) - E(T2 ) 0 'de=!>f 9 ps) l'estimateur obtenu est donc ncessuirement le meilleur. En conclusion si "on dispose d'un estimateur sans biais fonction dune statistique exhaustive complte, c'est le meilleur estimateur possible.
13.3.2
Exemple
Le nombre de demandes hebdomadaires d'un certain produit est une variable X qui suit une loi de Poisson f1>(.) o . est inconnu. On cherche valuer la probabilit que X soit nul. On note XI> Xl' ... , XII les observations de X pendant Il semaines. Le paramtre estimer est exp (- .) P(X = 0). Une premire mthode consiste . compter le nombre de fois et estimer P(X = 0) par la frquence K/lI. On a bien sr: exp( - .)(1 exp( - )
f(
o r on a observ X
------"exp~(._) = exp( -2.) ( Tl
_1)
K/Il est sans biais, convergent, mais ne tient pas compte du fat que X suit une loi de Poisson. 11 ne peut donc tre optimal, ce qui se vrifie en remarquant que K/11 n'est pas une fonction
de S
Il
Xi qui est une statistique exhaustive complte pour ..

X)
X est l'estimateur de variance minimale de ., mais exp( L'estimateur sans biais de variance minimale T de exp K/ll par l'application du thorme de Rao-Blackwell : Introduisons les variables de Bernoulli: YJ , Y2' ... , Y siX j 0 si Xi> 1
ll :
est biais pour exp ( - .).
.) peut tre obtenu en amliorant
d'o P(Yi = L) = exp(-) d'o P(Yj 0) = 1 - exp( - )
13- L'estimation
301
On a: Or:
T= E[Y1/S
=
E[~I sJ = ~ E[K/S] n
Il
EIT,/S]
s)
sJ = P(Y I
= l/S = s)
= P(X 1 = OIS =
D'aprs la formule de Bayes:
P(X I
= OIS
s) = -------~P(S s)
P(S
= s/X 1 = O)P(X, = 0)
S suit une loi de Poisson 2P(ll). La loi de S, sachant que XI

fJIll -
0, est une loi de Poisson
1)) car alors S/(X l
= 0)
X'}.
+ X3 + ... + Xw
[exp( -(n - 1))l

D'o:
n s!
1))S
' exp( - )
P(X,
OIS = s)
[exp( -n)] - sI
(IlY
_(Il
-Il
l).\' -_ ( 1
~)
l\nX
~)Il.r
11
Donc:
Un calcul laiss au ;oin du lecteur montre que VtT) = exp( -2) (ex p(;) donc bien V(n
1) ; on a
< V (-;;)
car :
V(T)
= exp( -2) [~
Il
v(li) = "
13.3.3
exp( -2)
[~
n
); +-+ ... +-+ ... ]
2n
k!n
Ingalit de Frchet.. Darmos-Cramer-Rao (FDCR)
Le rsultat suivant nous indique que la variance d'un estimateur ne peut tre infrieure une certane borne, qui dpend de la quantit d'information de Fisher apporte par l'chantillon sur le paramtre e.
Si le domaine de dfinition de X ne dpend pas de biais de e :

V(1') 2 : -
e, on a pour tout estimateur T sans
InCe)
302
1311i111111L'estimation
et si T est un estimateur sans biais de
/zee) :
_ Dmonstration : Considrons:
ln cov T - T ln L) ( , aao L) =E(a - ae
a ln L puisque - - est centre. Donc:

ae
cov ( T,
a ln ae
ae " Jt--Ldx =
-
a ln L
Jt aL dx
ao
h'(e)
de
dJ tLdx = -de E(T) d

VCT)
D'autre part l'ingalit de Schwarz donne:
a InL)]:! [ cov ( T, as ::5

c'est--dire:
v (a
InL) ae
c.q.f.d.
La question se pose de savoir si l'on peut atteindre la borne minimale de la variance; un tel estimateur sera qualiti d'efficace. L'efficacit n'est donc dfinie que dans les conditions de rgularit suivantes qui sont celles de FDCR:
a)
Le domaine de dfinition Eo est indpendant de -
e.
b)
aL
ae
eXIste et est contmue par rapport a
Cl
u.
c)
d)
1,/8) est finie.

-, T -
aL
aL
ae
ae sont intgrables par rapport e.
Dire que T est efficace c'est dire que sous ces conditions:
T est donc un estimateur sans biais de variance minimale de l1(e).
13_L'estimation
303
On a alors le rsultat suivant:

THORME SUR L'EFFICACIT
.. La borne de Cramer-Rao ne peut tre atteinte que si la loi de X est de j'orme exponel1tielle :
Inf(x,S) = a(x)a(8)
car Test 1lcessairemellt
exhaust~f pOlil'
+ b(x) + f3(O)
O .
Si la loi de X est bien de lafonlle pl'cdeme, il n'existe ( ulle transfo17l1ationlinaire prs) qu'ulle seule fonction lr(9) du paramtre qui puisse tre estime eiJcaceme11l : c'est MEl) = - - - , L'estmateur de I1(S) est alors:
W(B) al(S)
La l'arance minimale est:

1
\CT)
(W(S)
a/(O)
::=
-lla'(9) dO
/i'(f}) na'(f})
_ Dmonstration:
ct
T est exhaustif si T est efficace de I1(S).
Comme Eu ne dpend pas de El on a toujours:
Une consquence de FDCR est que:

V(T)~--
[I1'(S)]1 11'(0)
Si T est efficace on a :
donc: donc lie)

{T(EI). T est donc exhaustive.
D'aprs le thorme de Dannois on a alors:

Inf(x, 9) = a(x)a(O)
f3(9)
+ b(x)
304
1 /1 Si T est efficace pour /z(0) et si - ~ l1(X;) est exhaustif alors:
ll i =1
13_L'estimation
h(6)
W(8)
a'(8)
et
=-
2: a(X
1/
i)
lI i =[
L'ingalit de FDCR tant une ingalit de Schwarz, l'galit n'est ralise que s'il y a colinarit pour presque tout e, c'est--dire:
-- =
a8
Il
a ln L
{S)[T - h(8)1
Or. si L
IIexp(a(xi)a(8)
i=J
13(8)
Il
b(Xi)) on doit avoir:
ln L = a(8)
2: [/(Xi)
i=l
Il
+ "13(0) +
~b(Xi)
;=1
et:
JlnL --
ae
Il
a'(8)2:a(x;)
i= 1
1113'(8)
= lIa'(O)
[1
=
- 2:a(xJ
j=
Il
W + -,Il
(O)]
1
Il
a (0)
a ln L . En identifiant les deux expressions de - - on obtient:

as
T
=-
1 '1
2: a (X;)
et
/z(0)
_weB)
a/(e)
Il i= 1
h(O) et T sont donc uniques par construction une transformation affine prs.
La rciproque est alors immdiate: Si la loi est de la famille exponentielle, la statistique exhaustive T
=-
2: a(X;) est efficace

=
ri
13'(8)
pour - - - . a'(S) Calcul de la variance V(T) :
11
D e 1nC 8)
'VT ' = Ir a '(0 )- ( ) et
VT ) (
[h'(S)f = - - - on d'd' e Ult:
InC 8 )
h'(S) V(T) = -1 1 - , - 1 n a (8)

1 h'(O) On peut montrer que V(r) = - -,li a (8)
Le thorme qui vient d'tre dmontr montre qu'on ne peut estimer efficacement qu'une seule fonction h{ 8) qui peul ne pas tre intressante.
13_L'estimation
305
.. Exemple 1. Esti mation du paramtre 0 d'une loi -Vo :
Inl(.\, 8) = (0
Si l'on prend T =
J
Il
1)ln x - x - ln fCO) comme estimuteur, on voit que l'on estime effi-
i~1 ln Xi
Il
= ln
(II
D )1/11
Xi III
cacement 1i(0)
= dO ln Cf( e)).
cl
.. Exemple 2. Dans une loi N(m, cr), si
est connu cr 2 est le seul paramtre que l'on
peut estimer efficacement et ceci par T = 1
.
~~., .
Il
2: (Xi - mY!.. L'estimaleur

Il
il
2
st sans biais pour cr, de variance minimale car T est exhaustive, mais n'est pas efficace au
sens de 1a b orne cle FDCR .
s, .
1/11
est mconnu
1"
estlmaleur
~ '\12
r(y )
r(~)
est sans laIs et
b' .
de variance minimale pour 0'. En pratique on utilisent S* biais (voir 12.2.3).
~~
11 -
S qui est trs lgrement _
Remarque: Si X ne suit pas une loi N(m, cr) on ne peut donner d'expression universelle d'un estimateur sans biais de cr.
La recherche de statistiques exhaustives peut ne pas aboutir. on possde cependant une mthode d'obtention de bons estimateurs.
13.4
LA MTHODE DU MAXIMUM DE VRAISEMBLANCE (MV)

XII
Cette mthode consiste, tant donn un chantillon de valeurs XI' '\2, . . . , comme estimaton de f) la valeur de 0 qui rend maximale la vraisemblance:
prendre
En pratique on prend comme estimation de f) une solution de l'quation dite "quation de la vraisemblance".
ao
ln L(X; 0) = 0,
Intuitivement, puisque L reprsente une densit de probabilit, cela revient supposer que l'vnement qui s'est produit tait le plus probable ).
306
13_L'estimation
Les justifications mathmatiques sont les suivantes:

PROPRIT
S'il existe une statistique exhaustive U, alors l'estimateur du MV en dpend. () ln L , 0 revIent rsoudre
En effet L(x, 0) = g(u, O)It(x) et rsoudre
aB =
aln 9 aB =
0 donc
o = f(u),
Si est sans biais, ce qui n'est pas toujours ralis, sera la meilleure estimation possible de 0 si les conditions des thormes prcdents sont ralises.
PROPRIT
2.
INVARIANCE FONCTIONNELLE
Si
est l'estimateur du MV de 0, f()
est l'estmateur du MV de f(8),
Ldmonstralion est lmentaire si f est bijective, plus dlicate dans le cas gnral. S'il n'existe pas de statistique exhaustive U on a les proprits asymptotiques suivantes.
PROPRIT
3 (ADMise)
l
A
Il existe une suite de valeurs 6 racines de l'quation de la vraisemblance qui converge 11 presque srement vers 0 si ~ 00, De plus 3N tel que 11 > N entrane que n ralise effectivement un maximum pour L.
4 (ADMise)
PROPRIT
il" ~ e -'!." N(O,

~Il/(O)
1)
On peut donc affirmer, avec certaines rserves, qu'asymptotiquement V( 81/)

que 811 est asymptotIquement efficace.
1 - - , donc 111 (8)
Remarques: L'quation de la vraisemblance n'a pas ncessairement une racine unique. De plus cette mthode n'est valable utilement que pour de grands chantillons, cause de ses proprits asymptotiques, s'il n'existe pas de statistique exhaustive U.
liliiii
Exemple: Estimation du paramtre de la loi de \Veibull standard:

F(x) = exp( .lB)
fCx
~ e)
= Bxll-1exp( -x")
Le domaine de dfinition ne dpend pas de B, mais la loi n'est pas de la forme de Darmois, cause du terme en x H Appliquons la mthode du maximum de vraisemblance:
L(x;
e) = o"I1 x~l-lexp( - 2: X~l )

i=1 1
Il
Il
13_L'estimation
307
ln L(x ; 8)
ri ln L
11
ln
Il
e + (a /1
l)
L ln Xi - :Lxl'
i'=l i=l
/1
Il
Il
-- - - +
aS El
:Llnxi - :L xplnxi
i=l 1
est donc solution de l'quation: = ____ __ 11
2: (x~\ i=t
1/
1)ln Xi
Cette quation non linaire ne peut se rsoudre que numriquement par approximations suc_ cessives et on ne peut donc pas obtenir de forme explicite pour l'estimateur de e.
Extension plusieurs paramtres 9" 9 2J , 9 p :

La mthode consiste alors rsoudre le systme d'quations simulLanes :
aInL =
as)
j = 1,2, .... p
Les proprits de convergence et d'invariance fonctionnelle s'tendent sans difficult et on a galement la proprit de normalit asymptotique suivante ( l , 2, . a, quand Il tend vers l'intini, une distribution qui tend vers une loi gaussienne il p dimensions de vecteur esprance Sb S}, ... , el' et dont la matrice de variance est l'inverse de la matrice d'infomlation de Fisher.
,e,,)
Plus prcisment si le doma[~~elnd~ d]tnitiOn ne dpend pas des paramtres estimer:
'L-! a pour terme gnral - E - - .

aS i aa)
13.5
L'ESTIMATION PAR INTERVAllES (lES FOURCHETTES D'UNE ESTIMATION)
Il est souvent plus raliste et plus intressant de fournir un renseignement du type a < plutt que d'crire schement = c. Fournir un tel intervalle [a, estimation ensembliste.
e< b
a ou
bl
s'appelle donner une estimation par nterval1e de
13.5.1
Principe
La mthode des intervalles de confiance est la suivante: Soit Tun estimateur de B~ (on prendra videmment le meilleur estimateur possible), dont on connait la loi de probabilit pour chaque valeur de a. tant donn une valeur en de S, on dtermine un intervalle de probabilit de niveau 1 pour T, c'est--dire deux bornes t 1 et t2 telles que :
P(t 1
CL
<
<
t 21
e = eo) = 1 -
308
13_l'estimation
Ces bornes dpendent videmment de 00 , On choisit dans la plupart des cas un intervalle de probabilit risques symtriques /2 et Ci/2. On adopte alors la rgle de dcision suivante: soit t la valeur observe de T: si t E (1" f;.] on conserve 6(J comme valeur possible de 6 ; si f ~ ft" 12] on limine 80 , On rpte cette opration pour toutes les valeurs de
e.
On peut traduire graphiquement celte mthode dans un plan (6; (fig. 13.2).
n o l'on trace f,(8) tie)
e
FIGURE
13.2
On lit donc selon une verticale les intervalles de probabilit et, selon l'horizontale issue de f, l'intervalle de confiance [a, bl de niveau 1 - Ci (coefficient de confiance).
[a, b] est un intervalle alatoire car il dpend de t.
Si l'on augmente l - . on augmente la longueur de l'intervalle de probabilit, donc les courbes s'cartent. Si Il augmente, comme T est suppos convergent, V(T) diminue, donc [lb t;.] diminue et les courbes se rapprochent de la premire bissectrice.
13_L'estimation
309
13.5.2
13.5.2.1
Esprance d'une variable normale

(J'est connu
Xest le meilleur estimateur de 111 et Xsuit une loi LG (III. :tn ).

L'intervalle de probabilit de X l Ci
est:
d'o l'intervalle de confiance:
si 1 -
ct =
0.95 on a 110./1
1.96.
13.5.2.2
(J'est inconnu
On utilise le fat gue T libert.
--s- 'Ill
X -
1/1 _ r----;
l suit une loi de Student il (JI - 1) degrs de
L'intervalle de probabilit pour 1 est:
-t a/ 2 <
d'o l'intervalle de confiance:
x - m _r----; --s- 'In - 1 <
t{l/:!
X-
s
[(1./2-===
<
III
<.x + tnn._~
< .x +
t u/ :' _ r
Vil - 1
ou bien:
<
s*
111
'Ill
Le thorme central-limite a pour consquence que les intervalles prcdents sont valables pour estimer III d'une loi quelconque que 11 est assez grand.
13.5.3
13.5.3.1
T
Il
Variance d'une loi normale

m est connu
'1 ") nT 1 (Xi - 11/)- est le mel' 1 1 ' cur estimateur de <r et -:;- suit un X~ comme somme de (r
= -1 ~ L.J
Il i=1
carrs de LG(O, 1") indpendantes.
310
13_L'estimation
Soit /.:1 et k:. les bornes de l'intervalle de probabilit d'un X~ (fig. 13.3) :
P ( kt < nT < k:. ) = 1 -
Ci
L'interval1e de confiance est:
13.5.3.2
m est inconnu
'"1 1 On utli1se S - = -
JI i=
2: (Xi Il
X)- et on
..,
Sal t
nS!., . que - , SUl t Xn -" SOlt II et

(T-
/2
les bornes de
l'intervalle de probabilit:
On a alors:
_ Exemple:
Il
= 30; !p- = 12; 1 - a = 0.90; 8.46
<
(T2
< 20.33 d'o 2.9l <
(T
< 4.51._
Note importante: Ces formules ne sont valables que si x suit une loi nonnale.
13.5.4
Intervalle de confiance pour une proportion p
tant donn une population infinie (ou finie si le tirage s'effectue avec remise) o une proportion p des individus possde un certain caractre, il s'agit de trouver un intervalle de confiance pour p partir de J, proportion trouve dans un chantillon de taille 11. On sait que I~f suit une loi binomiale @ (n, p) ; si loi binomiale ou l'abaque (voir Table A3. bis).
Il
est faible on utilisera les tables de la
13_L'estimation
311
Si Il est grand on sait que nF - N(np ; ~llp(1 - p)) donc que:
L'intervalle de probabilit symtrique est:

p
Uu/"l
(l-P) ~ < F< P+

Il
t1(l/2
~(l-P)
Il
Posons
llu/"l
= k pour simplifier les notatons.
Les bornes de l'intervalle de probabilit sont donnes par :
y=p/i. ~p(l - pl
Il
"J k~p(1 - p) (y - p)- = - - - - : . -
soit:
JZ
ou:
y-
"1
+ p-
,(
1+
k -
k'2p 2py - - = 0
n
J1
quation d'une ellipse passant par l'origine et le point O. 1), points pour lesquels elle a une langenle verticale (fig. 13.4).
y
FIGURE
13.4
Les parties de l'ellipse extrieure au carr unit sont sans sign fication ; elles correspondent aux zones o 1'approximation normale n'est pas valable. tant donn une valeur f observe, l'intervalle de confiance s'obtient en rsolvant en
p l'quation :
k' .e + p'2( 1 + -;;1) -
2pf
-p=O
Tl
k:'
312
13_L.'estimation
ou :
p2 1 + -;; - p -;;
k2)
(k2 + ~r) + .f- = 0
Rsolvons-la compltement:
(2/+ -k2)
d'o:
p
11
formule encombrante mais dont on peut trouver une approximation en considrant que 11 est grand et en faisant un dveloppement limit au premier ordre en 0/11) ; le premier terme
k:! 2f+
_ _ __ Il _ /
+ 0 (~), le second se rduit en simplifiant par 11"!.

Ir
I(~
+ 4fnk'2 - 4(-nk2
4(11
+ e-)2
ce radical est quivalent au suivant (en crivant que chaque terme est quivalent celui du plus haut degr en 11) :
_ _ _ = I(,/f(l
-~
- f)
Il
donc, on a si n est grand, l'expression approche suivante pour l'intervalle de confiance :
_ Exemple:
Il
= 400
;f= 36 % ; 1 -
= 0.95. On a 0.31 < p < OA1.
Application: Dtermination de la taille d'un chantillon en fonction de la prcision souhaite.

Supposons que t'on dsre connatre p avec une incertitude ilp pour un niveau de confiance donn 1 - Ci risques symtriques. La formule prcdente nous indique que:
ilp soit:
"l.t/2
-V{O - J)
Il
Il
(lt a i"!.)2 f(1
- f)
(ilp)2
1311!1i1111L'estimation
313
Sifest inconnu on obtient une majoration de pour un sondage). D'o la relation:
11
en posantf
1/2 (eus le plus dfavorable
Dans le cas
d~un
intervalle 95 %,
lI{Y12
= 1.96 # 2, ce qui donne la formule approche:
11 lI1ax
1 {ilpf
on a les valeurs approches suivantes de
11 :
~
!J.p
0.01 0.02 0.05
0.90 6760
0.95 9600 2400 380
0.98 13530 3380 540
1 700
270
Remarque: Les formules prcdentes sont souvent abusivement utilises (en particulier dans les mdias) pour expliquer les marges d'erreur des sondages d'opinion. On ne peut en ralit pas les appliquer aux sondages d'opinion, sauf la rigueur pour donner une borne suprieure de l'erreur d'chantillonnage: en effet, les sondages d'opinion ne sont pas effectus selon la mthode du tirage alaLoire simple quiprobable dans la totalit de la population, mais selon des techniques bien plus complexes (stratification, quotas etc. cl chapitre 20) qui conduisent diminuer la marge d'erreur du sondage simple en utilisant des informations auxiliaires. Signalons enfin que ces calculs de variance ne servent qu' calculer l'erreur de au tirage alatoire des observations; l'chantillonnage n'est qu'une des sources d'erreur, pas toujours la plus importante, laquelle s'ajoute bien d'autres types d'erreurs : non-rponse ou refus. dissimulation, incomprhension des questions etc.
13.5.5
Intervalle de confiance pour le paramtre d'une loi de Poisson
Soil x la moyenne d'un l1-chantillon d'une variable ::P(h). Comme on sait que P(X ::.s k) = P(X~a.+ 1) pour h risques symtriques de niveau 1 -
> 2h), on en dduit l'intervalle de confiance

:
o Xz.; u est le quantile d ~ ordre
d'un X:! c degrs de libert.
314
13_L'estimation
Il
IIIIIIExemple:11
l5;nx= ~x
i=\
20; = O.L
- - :5 x.:5--
26.5 3D
58.1 30
soit 0.88 :5 X. :5 1.94
Pour les grandes valeurs de 11, lorsque 2nx dpasse les possibilits des tables de X2, on utilisera une des approximations normales de la loi du X2. Si l'on utilise l'approximation de Wilson et Hilferty, qui est de loin la plus prcise, on a :
__ 1
9nx
)3
S(x + ~)( 3-1llx + 1 + 1 li

11
9(nx
))3
13.5.6
Ellip~ode de conf.i~nc:e pOiJr la moyenne d'une loi de Gauss multidimensionnelle
On a vu au chapitre 12 paragr. 12.3 que le centre de gravit d'un Il-chantillon suivant une loi N/,(fJ. ; ~) tait tel que si ~ est connu:
ou si ~ est inconnu :
(II - p) (g _ fJ.)'V-1 (g
fJ.)
= F(p ; II
p)
On peut donc en dduire des zones de confiance ellipsodales de ..... uutour de g dtines par :
1 (g
- I1YV- (g - Il)
:0;
~ F1-a(p ; Il -
p)
Pour p = 2 on a des zones eUiptiques duns le plan. Lorsque Il est trs grand; toujours pour 2, l'ellipse 95 % a pour quation approximative:
Les rsultats prcdents s'appliquent en particulier pour les estimateurs du maximum de vraisemblance car ils sont asymptoliquement normaux. La tigure suivante donne l'ellipse de confiance 95 % pour la position simultane des moyennes de deux variables dans un chanti110n de 24 observations (prix et superficie d'apparlements parisiens*). La forme elliptique est ici trs accentue car le coefficient de corrlation entre les deux variables est lev r = 0.9733
Les donnes sont prsentes au chapit 16, 16.4,1.
13.L'estimation
315
800 ~--------~----------~--------~--------~~~~----~
600
------------. ---f---------------. ----------. ----- ----------------r.---------------1

1
)(
400
-- . . ------ -:-:--------; ------------------------------ ---r---- --- ------1 1 1
~_
-~---t
200
...: ... . ------- ----. . . ---.. . . ------ . -------.. ,. . - ---.. . . --r--------.

1
: :
-----------~:
1
------_-------.
'.
20
: :
1
1
: :
1 1
1
o ~--------~.----------~------------------~'--------~
60
100
140
180
220
Superficie
FIGURE
13.5
Ellipse de confiance 95 90
13.6 13.6.1
INTERVAllES DE PRDICTION ET DE TOLRANCE

Prvision d'une valeur d'une loi normale
Lorsque m et er sont connus, J'intervalle de probabilit 0.95 il risques symtriques pour une valeur isole est 111 1.96er. Supposons maintenant que III soit inconnu et estim par la moyenne d'un n-chantil1~n x. Soit X une nouvelle observation, indpendante des 11 prcdentes. L'cart entre X et X suit alors une IO nonnale :
N( 0; rr~ 1 + ~) car V(X - Xl
er2
..J... -
. .
Il
On en dduit l'intervalle de prvision pour une valeur future
1.96cr'" 1 -~
W;, +
S~S*~ @ f+,l
X-X X-X
Il
Lorsque cr est aussi inconnu, en appliquant la mthode de Student, on trouve aisment que
= T,I-I d'ou 1'IIltervalle
'-'
ts
--. 11-1
11+1
n-l
L'intervalle prcdent est une estmation de l'intervalle TH 1.96cr. On voit aisment qu'il est plus large et converge vers lui lorsque 11 augmente indfiniment. On l'appelle intervalle de tolrance sans niveau de contiance, car il existe aussi des intervalles de tolrance avec niveau de confiance 1 - Ct, tels que l'intervalle 111 1.96rr soit contenu avec une probabilit 1 - Cl dans l'intervalle de tolrance. Les intervalles de tolrance avec
316
1311111111 L'estimatiol'l
niveau de confiance sont plus larges que les intervalles de tolrance sans niveau de confiance. Les formules sont plus complexes et nous renvoyons le lecteur intress l'ouvrage de Hahn & Meeker (1991).
13.6.2
Ellipsode de tolrance pour une distribution normale Npl. ; 2;)
De manire similaire, l'ellipsode d'quation (x - J.L)' ~-I (x J.L) k, o k est le frac tile de niveau 1 Ci d'un X7" est un domaine de probabilit 1 Ci pour x.
Si J.L est estim par g, centre de gravit d'un nuage de
Il
ralisations indpendantes de X.
alors x
g suit une loi
NI'( 0; l:( [ + ~) ). Si l'on estime de plus l: pur la la matrice de variance

g)'y-I (x -
du nuage Y, en appliquant les formules du chapitre prcdent, on trouve que:
g)=
( Il Il
I)J)
- - F(n~, Il
Il
Il
+1
.- ,0)
ce qui donne l'quation de l'ellipsode de tolrance en remplaant la variable de Fisher par son tractile. En reprenant les donnes des 24 appartements parisiens, on trouve l'ellipse de tolrance suivante avec p 2. On distingue clairement l'existence de deux points atypiques.
950~--~----------------------------------------------~
750
..
550
350
..
150
.. .
: :G1
. ".
o
20 40 60
80 100 Superiicie
120
140
160
180
200
FIGURE
13.6
Ellipse de tolrance il 95 %
Les ellipses de tolrance sont trs utHes en analyse discriminante.
13l1i1111L'estmation
317
13.7
ESTIMATION BAYSIENNE
Le point de vue baysien ne fat pas de distinction de nature entre paramtres et observations : ce sont des variables alatoires. Le problme de )' estimation est alors rsolu (en thorie du moins) de faon simple et lgante: il suffit de calculer la distribution CI posteriori des paramtres sachant les observations.
13.7.1
Prsentation
Soit un n-chantlIon d varables indpendantes et identiquement distribues telles que leurs densits conditionneIJes xJe soientf(xi : 8). Si ron note comme d'habitude L(x ; 0)
= il f(x
i= 1
Il
j ;
8), la vraisemblance (ici conditionnelle),
la loi conjointe des observations et du paramtre (Xl' X::., ... , XII' 8) est L(x ; O)g(O) o g(8) est la densit a priori de O. La 1 01
Cl
"d . postenort u parametre est g( 01x) =
L(x;8)g(S)
f(x)
. El e est donc proportIOnnelle
au produit de la vraisemblance par la densit a priori. On peut donc en dduire des rgions probables pour e, analogues baysiens des rgons de confiance classiques, mais aussi des estimations ponctuelles : il suftt de calculer un paramtre de tendance centrale de la loi CI posteriori, le plus souvent l'esprance, mais aussi le mode ou la mdiane.
13.7.2
Estimation baysienne de la moyenne p.. d'une loi normale de variance connue
On suppose ici que la loi de XI fL est une N(fL ; cr) et que la loi a priori de fL est une N(fLo ; ,.). Un calcul simple montre que la loi Cl pOSTeriori de I-L/X)! X=,-, ... , XII est une loi nonnale
d, "esprance E(fL1x) =
cr='-J.Lo
11
+ 'j2X
et de vanance V(I-L 1 x)
Il
- +,.='Il
L'esprance a posteriori de I-L est donc une moyenne pondre de l'esprance a priori et de la moyenne empirique des observations. Si l'on introduit le concept de prcision qui est l'inverse de la variance, la prcision rique est Tb =
ri
(l
pl~iori est 111 = ~, la prcision de la moyenne empi'j-
On VOlt alors que E(fL x) =
111/-Ln 111
+ 1l,X et --1- = 1 ll:!
V(I-L x)
111
+ 112' La preCISion de l'estlma-
, . .
teur baysien est donc la somme de la prcision de l'estimation Cl priori et de celle de la moyenne empirique, r estimateur baysien est alors la moyenne des deux estimations (a pror; et empirique) pondres par les prcisions. Si 1'informaLion il priori sur le
318
13_L'escimation
paramtre est trs prcise, les observations ne la modifient gure. Si la prcis~n ri tend vers zro, ou si 11 tend vers l'intini, on retrouve l'estimateur classique X.
Cl
prio.
13.7.3
Estimation baysienne d'une proportion p
Illustrons ce cas par un exemple issu du contrle de qualit: on est amen fI estimer la probabilit p qu'une marchandise soit dfectueuse partir de l'observation du nombre de marchandises dfectueuses X dans un lot de Il marchandises. Pour une va]eur donne de p, X suit une loi binomiale @(n ; p). L'ensemble des valeurs possibles de p peut tre probabilis si des expriences antrieures ont permis d'tudier les variations de p. Tout se passe donc comme si p tait une ralisation d'une variable TI valeurs dans [0 ; 1] que l'on supposera de densit g(p) (loi Cl priori). On a donc le modle suivant: la loi conditionnelle de X/TI = p est une g}J(n ; p) et la loi marginale de 7r de densit g(p). On cherche en gnral dduire p de la valeur de X. Il faut donc pour cela trouver la loi de probabilit a posteriori de '1T.ou loi de TI/X x. La formule de Bayes donne:
l(p /
x _ . _ P(X = x/7i
.1 -
J:) -
p)g(p) P(X = x)
soit :
f(p/X = x)
(1 P'~(1 Jo
p)"-.f g(p)dp
on pourra alors estimer p en choisissant la valeur la plus probable a posteriori ou la valeur moyenne a posteriori.
Si
'TT
suit une IO bta de paramtre a et b on a :

g(p)
r(a+b)
11-1
r(a)r(b) p
( - p)/J-l
d'o:
donc la lO de TI/X = x est une loi bta de paramtres a
+ x et Il + b - x.
L'esprance
Cl
posteriori vaut alors
a+x b . a+ +11
(l
Tout se passe donc comme si l'on avait effectu men li dfectueux.
+ b expriences suplmentaires ayant
Le choix des paramtres a et b de la loi bta se fat en gnral partir de considrations sur la valeur la plus probable a priori et son incertitude. Si l'on choisit II = b 1 ce qui correspond une distribution uniforme de TI sur [0 ; l] (toutes les valeurs de p sont li priori quiprobables) on trouve comme estimation de p
13_L'estimation
319
, soit x + 1 (esperance
11+
Cl
. . . posterwrl') SOtt x / Il ( de ou valeur de p correspon d ant au maXlmo
mum de g(p/x)). Remarquons que la loi marginale de X peut s'obtenir aisment:
- C,\
/1
f(x + l)f(n - x fCn + 2)
1)
Il! .t!Cn - x)! - ---- xl(n x)1 (Il + l)!
P(X = x)
Il
+1
La loi de X est alors la loi discrte unifom1e sur [0 ; l ; .. , ; Ill.
13.7.4
Gnralisation
Les deux cas prcdents se rsolvaient simplement car les lois Cl priori et conditionnelles permettaient de trouver la loi Cl posferori dans la mme famille que la loi a priori: les lois a priori et conditionnelles sont dtes ( conjugues )1, Cette facilit mathmatique disparat si l'on travallle avec des lois quelconques et les calculs des distributions a poslen'ori deviennent impossibles mener analytiquement. Il faul alors recourir des techniques spcifiques de simulation pour obtenir de bonnes approximations des lois il posteriori (C. Robert, 2001). On peut considrer la statistique baysienne comme un raffinement de la statistique paramtrique et lui appliquer les mmes critiques sur le caractre plus ou moins raliste des modles. De plus le choix de la distribution Cl priori peut donner lieu des divergences entre spcialistes et reste fatalement subjectif (voir la discussion sur la nature des probabilits au chapitre 1). Il n'en reste pas moins que cette approche est la seule qui permette d'incorporer de l'information pralable et se rvle trs utile dans des cas limites comme des essais de fiabilit o on ne constate que trs peu de dfaillances (voire mme aucune) sur 11 essais: les estimations classiques du taux de dfaillance sont alors impossibles ou trs imprcises,
13.8
NOTIONS SUR l'ESTIMATION ROBUSTE
La thorie classique de l'estimation permet de dterminer les estimateurs optimaux pour une famille de lois de probabilit dfine l'avance. Ces estimateurs dpendent en gnral fortement de la loi hypothtique: s celle-ci n'est pas correcte, les estimateurs ne le seront pas. On peut donc chercher des classes d'estimateurs relativement insensibles des modifications des lois'a priori: c'est un premier type de robustesse, Un deuxime type de robustesse concerne l'insensibilit des valeurs aberrantes }) : la moyenne arithmtique est sans doute le meilleur estimateur de l'esprance pour une vaste classe de lois mais elle est trs sensible aux grandes valeurs. L'attention des thoriciens et des praticiens a donc t attire sur la recherche d'estimateurs robustes en particulier pour la valeur centraIe d'une distribution.
320
On se proccupera ici d'estimer la valeur centrale l1l d'une distribution symtrique. 1 Il La moyenne arithmtique x = est trs sensible aux valeurs extrmes: on {"\hl~,,>.,..1_.. "'' ,''
2:Xi
Hi='
un estimateur robuste de nI en liminant les valeurs extrmes. On appelle ainsi mCIVf'lnnl> tronque d'ordre Ct la moyenne arithmtique obtenue en liminant les Cln plus grandes et petites valeurs (une valeur gnralement recommande est Cl = 15 %). La mdiane est le cas extrme d'une moyenne tronque
(Cl
= 50 %) et est trs robuste.
Au lieu d'liminer les Clll plus grandes et plus petites valeurs, on peut les rendre toutes gales aux dernires valeurs prises en compte: c'est la "winsorization". Une autre approche est cene des M-estimateurs introduits par P. Huber : on cherche ici IL qui minimise une fonction du type:
i=l
p(~) S
o s est un estimateur robuste de la dispersion ce qui revient annuler
*=p'.
\I/(X
i=l
f.L) o
On retrouve la moyenne arithmtique avec p(x) = x2 , la mdiane avec p(x) = Ixl. Les estimateurs du maximum de vraisemblance sont des cas partculiers de NI-estimateurs avec: p(x) -lnf(x) et lIJ(x) =
j'ex)
Remarquons que le NI-estimateur f.L peut s'crire comme une moyenne pondre des observations :
Il
2:HJ;Xi
f.L=-'l--
i=l
2:w;
i= 1
Wi
dpend des donnes
ll'i
Pour la moyenne arithmtique Pour la mdiane tIJ(x)
x t!J(x)
= x.
1 si x> 0 et t!J(x) =
l si x
< O.
On obtiendra toute une famlle d'estimateur en utilisant diverses formes de \11 :

'I/(x) = x
(1 - X:)2 c-k {
x
pour
lx 1::5 C
k k
(Tukey)
si x <-k
lV(X) =
si Ixl <
si x >
(Huber)
+k
Ces estimateurs sont obtenus par un processus de calcul itratif.
13_ L'estimation
321
L' estmation robuste de dispersion s est prise gnralement gale la mdiane des carts absolus la mdiane.
1.5
-1.5
FoncHon de Huber
FIGURE
Fonction de Tukey
13.7
Dans l'exemple du chapitre 5, la variable (~ taux de taxe d'habitation a une moyenne arithmtique de 17.7707, mais prsentait quelques valeurs extrmes. Les estimations robustes sont: Moyenne tronque 5 % : Estimateur de Huber avec k = 1.339 : Estimateur de Tukey avec c = 4.685 : 17.6182 17.8149 17.6872
13.9
ESTIMATION DE DENSIT
La densit f(x) d'une variable continue donne une information visuelle importante sur la rpmttion des valeurs. Nous prsentons ci-dessous les lments de la thorie de l'estimation de la densit en l'absence de tout mod1e paramtrique: on parle d'estimation fonctionnelle ou non-paramtrique. On supposera que f(x) est une fonction continue. La plupart des dmonstrations seront omises au profit d'une prsentation pratique. Le lecteur intress se reportera aux ouvrages de M. Delecrox et B. Slvemlan cits en bibliographie.
13.9.1
Gnralits
Pour tout point x on cherche une fonction des observations (XI> Xl' ) iJx) possdant les proprits d'une estimation de la densit inconnue f(x). Il semble lgitime de souhaiter que:
.f~(x) soit une densit (positive, d'intgrale gale il 1)
.tlr:) soit convergent .ilr:) soit sans biais

Un rsultat d'apparence paradoxale est que la proprit d'tre sans biais est impossible satisfaire: il n'existe pas d'estimateur sans biais en tout point x de ]a densit.
322
Pour la convergence, on se proccupera non seulement de la convergence en tout point mais aussi de la convergence uniforme atin de borner l'erreur d'estimation maximale suplj~l(x) - f(x) 1.
x
L'erreur quadratique moyenne intgre (MISE en anglais) est souvent utilise pour mesurer l'cart quand Il est fini entre l'estimateur et la densit inconnue:
13.9.2
De l'histogramme la fentre mobile
Considrons des histogrammes classes d'gales amplitudes h. L'histogramme est l' estimateur de la densit le plus lmentaire. Pour qu'il soit convergent, il faut faire tendre la largeur de classe vers a quand 11 tend vers l'infini, mais il ne faut pas que Il tende vers zro trop vite pour que l'effectif par classe puisse quand mme tendre vers l'infini et assurer la convergence au point x. 11 faut que 1111 ~ 00 ce qui peut tre assur par Il = _ ~.
'1/1
Mais en pratique 11 est fini et l'histogramme souffre de dfauts vidents: il est discontinu, et constitue donc une approximation rustique d'une fonction continue. De plus par construction, tous les ponts d'un intervalle ont la mme densit estime, ce qui n'est pas raliste. Une premire amlioration due Rosenblatt est la mthode de la fentre mobile ); : on construit autour de chaque x une classe de longueur h centre sur x: I.x - 11/2 ~ x + h/2] et on fait ensuite varer x. L'estimation en x esl i,(x) tombant dans la classe. --:.. o Il, est le nombre d'observations I1h Tl r
Cet estimateur reste cependant discontinu, car n,t' varie de plus ou moins une unit chaque fois gue x correspond une des valeurs Xi de l'chantillon. L'exemple suivant montre le rsultat pour les donnes dj tudies au chapitre 5 :
0.12 0.1
~
0.08 0.06 0.04 0.02
eii
Cl
ID
c:

FIGURE
13.8
13_L'estimation
323
13.9.3
La mthode du noyau (Parzen)
Remarquons que l'estimateur de la fentre mobile peut s'crire : ll(X) =
~ K(X - Xi)
nh
1
o le
noyau)} K est la fonction indicatrice de l'intervalle [-1/2 ; 1/2].

K(u) = 1 SI - - S LI S -
K(u)
0 sinon
Xi
ilt) est donc une moyenne arithmtique de fonctions donnant chaque observation poids l/h si elle appartient l'intervalle centr sur x.
un
C'est parce que K est discontinue que ir(x) l'est. Pour obtenir une estimation continue, on prendra une fonction noyau K(lI) continue ; on la choisira de plus paire par raison de symtrie, dcroissante quand li s'loigne de zro. ir(x) est alors une moyenne de fonctions donnant chaque observation Xi un poids d'autant plus petit que 1 Xi X 1 est grand. Si K est une densit alors h(x) le sera galement. Les noyaux les plus couramment utiliss sont: le noyau triangulaire K(u)
1-
lui
si
-lSusl
-(l-Ir)
le noyau parabolique d'Epanechnikov K(lI)
"1
si
S
lsu
15 . , "l ' . l 1 blwelg1t de Tu k K(a) = 16 (1 - Ir)e oey

le noyau sinusodal K(u) le noyau gaussien K(li)
si
1 S li
Il
=:
cos (
i Il)
--lr
si
-1 oS
oS
-1 exp -
ili
(1 ,)
2
Les noyaux support born ncessitent moins de calculs que le noyau gaussien. La constante de lissage h dtermine la rgularit de /'I(X), Comme pour la largeur des classes d'un histogramme un Il trop grand lisse trop et un lz trop petit conduit une estimation trs chaotique alors que le choix du noyau n'est pas crucia1. Ainsi pour les mmes donnes que prcdemment on trouve les estimations suivantes pour le noyau sinusodal avec trois largeurs de fentre 10 %, 20 % et 30 % de }' tendue de X) :
0.12 0.1
'(ij
(]J
0.1 0.08
~ [il 0.06
0.06 0.05 0.04 0.03 0.02 0.01 10

FIGURE
0.08 0.06 0,04 0.02 10 20 30 40
c:
c:
"in
c:
(]J
(]J
0.04 0.02 20 30 40
10
20
30
40
13.9
324
13111111L'estimation
Le choix de la valeur optimale de Il a fuit l'objel d'une abondante littrature. Outre le choix subjectif par inspection visuelle (les logiciels permettent souvent de faire varier lz en continu avec un curseur). mentionnons: la rgle gaussienne Iz = cr 1'4/ (31l)] 1/5 . D.9min 1.34] la rgle de Sllverman Il = -------'-::-------Il
la validation croise gnralise o on cherche en quelque sorte une estmation du maximum de vraisemblance mais en enlevant Xi pour l'estimation en Xi maxlli ;~I(X;).
" i=1
/1
4 11
14.1
Les tests statistiques
INTRODUCTION
14.1.1
les faiseurs de pluie
Des relevs effectus pendant de nombreuses annes ont permis d'tablir que le niveau naturel des pluies dans la Beauce en miHimtres par an suit Llne loi de Laplace-Gauss LG(600, 100). Des entrepreneurs, surnomms faiseurs de pluie, prtendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par insmination des nuages au moyen d'iodure cl' argent. Leur procd fut mis l'essai entre 1951 et 1959 et on releva les hauteurs de pluies suivantes: Anne mm 1951 510 1952 614 1953 780
1954
512
ts955
501
1956 534
1957 603
1958 788
1959 650
Que pouvait-on en conclure? Deux hypothses s'affrontaient: ou bien l'insmination tait sans effet, ou bien elle augmentait rellement le niveau moyen de pluie de 50 mm. Ces hypothses pouvaient se fOImaliser comme suit, si de X variable alatoire gale au nveau annuel de pluie:
III
dsigne l'esprance mathmatique
Ho: m { Hl: 111
= 600 mm
650mm
Les agriculteurs hsisant opter pour le procd forcment onreux des faiseurs de pluie tenaient pour l'hypothse Ho et il fallait donc que l'exprience pUsse les convaincre ~ c'est--dire que les faits observs contredisent nettement la validit de l'hypothse Ho dite hypothse nulle (Hl s'appelle l'hypothse alternative). Les agriculteurs n'taient donc dcids abandonner Ho qu'en prsence de faits exprimentaux traduisant une ventualit improbable compte tenu de HoIls choisirent ( 0.05 comme niveau de probabilit, c'est--dire qu'ils taient prts accepter HI si le rsultat obtenu faisait partie d'une ventualit improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que
326
14_ Les tests statistiques
des vnements rares ne sauraent se produire sans remettre en cause le bien-fond de l'hypothse de dpart Hn ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas o prcisment les vnements rares arrivent quand mme. _Comment dcider? Puisqu'il s'agit de tester la valeur m il est naturel de s'intresser X moyenne des observations qui nous apporte le plus de renseignements sur m. X est la variable de dcision . Si Ho est vraie, comme l'exprience a port sur Laplace-Gauss LG( 600, : ) . En principe, de grandes valeurs de X sont improbables et on prendra comme rgle de dci~ sion la suivante: Si X est trop grand, c'est--dire si X est suprieur un seuil k qui n'a que 5 chances sur 100 d'tre dpass, on optera pour HI avec une probabilit 0.05 de se tromper. Si X < k on conservera Ho faute de preuves suffisantes. Il est facile de calculer k grce aux tables et on trouve : 100 k = 600 + -3- 1.64
11
9 ans, X dOt suivre une loi de
655
(fig. 14.1)
600
FIGURE
14.1
La rgle de dcision est donc la suivante: si !S. > 655 mm, repousser Ho et accepter HI ; si X < 655 mm, conserver Ho. L'ensemble d'vnements {X> 655} s'appelle la rgion critique ou rgion de rejet de Ho. L'ensemble complmentaire {X < 655} s'appelle la rgion d'acceptation de Ho. Or, les donnes releves indiquent que = 610.2 mm. La conclusion tait donc de conserver Ho ; c'est--dire que l'insmination tait sans effet notable sur le niveau des pluies: les valeurs observes pouvaient donc tre dues au hasard en l'absence de toute influence de l'iodure d'argent. Cependant, rien ne dit que conserver Ho mette l'abri de se tromper: en effet, les faiseurs de pluie ont peut-tre raison, mais on ne s'en est pas aperu. Il y avait deux manires de se tromper: croire les faiseurs de pluie, alors qu'ils n'taient pour rien dans le rsultat obtenu (probabilit cr 0.05); ne pas croire les faiseurs de pluie, alors que leur mthode est bonne et que seul le hasard (malencontreux pour eux), d au faible nombre d'observations, a donn des rsultats insuffisants pour convaincre les agricul teurs.
14_Les tests statistiques
327
, . 100) Supposons que les fmseurs de plUie ont raison, alors - LG ( 650, 3 ' 0 n commet XE
une erreur chaque fois que X prend une valeur infrieure probabilit:
a 655 mm, c'est~-dire avec une

13 = 0.56
ce qui est considrable.
s'appelle le risque de premire espce; fJ s'appelle le risque de deuxime espce. On aura au cours de cet exemple Je rle particulier jou par Ho : si la forme de la rgion critique > k est indique par la nature de HI (650 plus grand que 600) la valeur de k ne dpend que de Ho. Les deux hypothses ne jouent pas des rles symtriques, k est dtermin par Ho et a. ;
13 est dtermin par la considration supplmentaire de HI'
14. 1.2
Les grandes catgories de tests
On peut classer les tests selon leur objet (ajustement, indpendance, de moyenne, de variance, etc.), ainsi qu'il est fait dans la suite du livre ou selon leurs proprits mathmatiques: on parIe ainsi de tests paramtriques ou non, de tests robustes, de tests libres. Un lest est dit paramtrique si son objet est de tester certaine hypothse relative un ou plusieurs paramtres d'une variable alatoire de loi spcifie ou non: le paragraphe 14.2 en donne des exemples. Dans la plupart des cas, ces tests sont bnss sur la loi normale et supposent donc explicitement l'existence d'une variable alatoire de rfrence X suivant une loi LO. La question se pose alors de savoir si les rsultats restent encore valables lorsque X n'est pas normale: si les rsultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport un certain modle est donc la qunlit de rester relativement insensible certaines modifications du modle : on constatera que les tests de moyenne ou de non corrlation sont robustes. Une catgorie particulirement intressante de tests robusles est la classe des tests libres (en anglais distribution free) : il s'agit de Lests valables quelle que soit la loi de la variable ala~ toire tudie, donc valables en particulier lorsque l'on ignore tout de cette loi (cas trs frquent en pratique) ; on peut dire qu'il s'agit de tests robustes par rapport la loi de probabilit. Exemple: les tests d'ajustement du X2 Ces tests sont bien souvent des tests non paramtriques mais pas ncessairement (tests de moyenne). Pour les tests paramtriques on distingue gnralement hypothses simples et hypothses composites:
une hypothse simple est du type H : 9 = eC) o eo esL une valeur isole du paramtre ; une hypothse composite est du type H : 9 E A o A est une partie de ~ non rduite un lment.
La plupart ds hypothses composites se ramnent aux cas: 9
> 90 ou 9 < 90 ou 9 =f:: eo-
En fait, on construira les rgions critiques en utilisant la valeur eo seule. Lorsque l'hypothse alternative est composite, la puissance du test est variable et on parle de fonction puissance 1 13(9).
328
141111B1Les tests statistiques
14.2
THORIE CLASSIQUE DES TESTS
Un test est un mcanisme qui permet de trancher entre deux hypothses au vu des rsultats d'un chantillon. Soient Ho et HI ces deux hypothses, dont une et une seule est vraie. La dcision aboutira choisir Ho ou Hf. Il y a donc 4 cas possibles schmatiss dans le tableau 14.1 avec les probabilits correspondantes:
TABLEAU
14.1
Dcision
~
Ho
Hl
Ho
1 -a.
a.
Hl
~
l-~
14.2.1
a. et
~
Risques et probabilits d'erreur

sont les probabilits d'erreur de premire et deuxime espce:
a. probabilit de choisir Hl alors que Ho est vraie: ~ probabilit de conserver Ho alors que Hl est vraie.
Ces erreurs correspondent des risques diffrents en pratique; ainsi dans l'exemple des faiseurs de pluie le risque de premire espce consiste acheter un procd d'insmination inefficace; le risque de deuxime espce laisser perdre une occasion d'augmenter le niveau de pluie et peut-tre de rcoltes plus abondantes. Dans la pratique des tests slatistiques, il est de rgle de se fixer a. comme donn (les valeurs courantes sont par exemple 0.05, 0.01 ou 0.1) de prfrence en fonction du risque de premire espce couru, ce qui fait jouer Ho un rle prminent. Le choix de Ho est dict par des motifs assez variables: pUsqu'on ne veut pas abandonner trop souvent Ho, Ho doit tre une hypothse solidement tablie et qui n'a pas t contredite jusqu' prsent par l'exprience; Ho est une hypothse laquelle on tient particulirement pour des raisons qui peuvent tre subjectives; Ho correspond une hypothse de prudence; exemple: test de l'innocuit d'un vaccin; il est prudent de partir d'une hypothse dfavorable au nouveau produit; Hu est la seule hypothse facile fOlmuJer ; exemple: tesler m = m() contre 111 1110; il est vident que seule Ho : 111 = m() permettra d'effectuer des calculs.
'*
a. tant fix, ~ sera dtermin comme rsultat d'un calcul (ceci n'est possible que si l'on connat les lois de probabilits sous Hl)'
Cependant iJ faut savoir que ~ varie en sens contraire de a.. Si l'on veut diminuer a. risque d'erreur de premire espce, on augmente 1 a. probabilit d'accepter Ho. si Ho est vraie ~ mais surtout on est conduit une rgle de dcision plus stricte qui aboutit n'abandonner Ho que dans des cas rarissimes donc conserver Ho bien souvent tort.
329
A force de ne pas vouloir abandonner Ho on finiL par la garder presque tout le temps, donc on augmente [3.
[3 est la probabilit d'opter pour HI en ayant raison. 1

test JJ.
J3 s'appelle (( puissance du
a tant fix, il importe de choisir une variable de dcision: variable qui doit apporter le maximum d'informations sur le problme pos et dont la loi sera diffrente selon que Ho ou Hl est vraie (sinon elle ne servirait rien). Il faut que sa loi soit entirement connue au moins si Ho est vraie.
La rgion critique West l'ensemble des valeurs de la variable de dcision qui conduisent carter Ho au profit de H" La forme de la critique est dtermine
par la nature de HI, sa dtermination exacte se fait en crivant que:
p(WIHo)
La rgion d'acceptation est son complmemaire W et l'on a donc: et La construction d'un test n'est rien d'autre que la dtermination de la rgion critique, cette dtermination se faisant sans connatre le rsultat de l'exprience, donc a priori. La dmarche d'un test est la suivante (pour rsumer) : 1) 2) 3) 4) 5) 6) 7) Choix de Ho el HI_ Dtermination de la variable de dcision. Allure de la rgion critique en fonction de HI' Calcul de la rgion critique en fonction de ct. Calcul ventuel de la puissance 1 - [3. Calcul de la valeur exprimentale de la variable de dcision. Conclusion: rejet ou acceptation de Ho-
14.2.2
Choix de la variable de dcision et de la rgion critique optimales: la mthode de Neyman et Pearson
La faon de choisir la variable de dcision n'a pas encore t lucide dans les paragraphes prcdents o nous nous sommes contents de formaliser l'intuition. Le choix de la meilleure variable de dcision il t rsolu thoriquement par les statisticiens J.Neyman et E.S.Pemson dans une srie d'articles clbres pams de 1933 1938. Mais que veut dire meilleure variable rgion critique optimale?
,
ou plutl ainsi que nous l'utiliserons dsormais,
NOLIS cherchons la rgion critique optimale c'est-~l-dire un domaine de [R'I parmi l'ensemble de toutes les ralisations possibles de l'chantillon (X" Xl' ... , XII) dont la forme dfinira ensuite une variable statistique.
Il s'agit de maximiser la puissance 1 - J3 ceci pour une valeur donne de de premire espce.
fi'
risque
Nous allons tout d'abord envisager le test entre deux hypothses paramtriques simples puis nous gnraliserons d'autres types d'hypothses.
330
Soit X une variable alatoire de densitf(x, 8) o 8 est un paramtre rel inconnu; L(x, 8) dsignera en abrg la densit de l'chantillon.
Il s'agit de tester:
Ho: 8 { HI: 8
= 80 = 81
Supposons a connu. Soit HI une rgion de ~" telle que:
1.
Il s'agit de maximiser: Nous pouvons crire :
L(x, O())dx
= P(WIHo} =
p(WI Hl)
Il'
l - [3
1
Il'
L(x, 8 1)dx
THORME DE NEYMAN ET PEARSON
l
lIIIlI
La rgion critique optimale est d4finie par l'e11semble des points de ~Il tels que:
Dmonstration
.. S'il existe une constante k e" telle que l'ensemble HI des points de ~,r o :
1 ---=- > (I
L(x ; 8 ) L(x ; Sn)
soit de probabilit a sous Ho : P( WIHo) de 1 - [3.
= a,
alors cette rgion HI ralise le maximum
En effet soit HI' une autre rgion de ~Il telle que p(HI'IHo}
= a; W'
diffre alors de Wpar
. ,L(x;8 1) <k. a (fi19. 14')) L" Integrale : ~ cl es pomts ou .~.

L(x; 80 )
1
IV
L(x; 8 1) L(x ; 8 )dx o L(x ; 00)
FIGURE
14.2
331
diffre de l'intgrale: pour les parties non communes W et W' . Wet W' ayant sous Ho mme mesure a, l'ensemble (W - '\V') des points de W n'appartenant pas W' a mme mesure sous Ho que l'ensemble (W I - W) des points de lV' n'appartenant pas W. L'intgrale:
est alors strictement suprieure :
f f
W-W'
L(x ~ 8,) ---'-L(x: 0o)dx L(x ~ 00)
L(x; 8 ,) --..;..-L(x; So)dx W'-IV L(x ~ 80 )
comme intgrale, prise par rapport la mesure L(x ; 8o)dx sur un ensemble de mme mesure, d'une fonction strictement suprieure; le thorme de la moyenne indique en effet:
JIV'-w L(x ; S()
L(x;
L(x ; 8 )dx = L(;: ; 8 1) P(W' - W IHo) o L(~ ; 80)
avec
fE W'
- W
JII'-W' L(x ; 8
L(x ; 8 1) L(x ; 8 )dx = o

0)
L(~ ; 8n)
L(~ : 8,) P(W
avec ~E W - W'
ce qui dmontre le point a) car:
Montrons que cetle constante ka existe.

SoitA(K) la rgion de ~II o L(x, 8 1) > KL(x, 00) et considrons P(A(K) 1Ho) qui est une fonction continue monotone de K, si X est densit continue. Comme L(x, 8,) est toujours positif, car c'est une densit, on a p(A(O)IHo) = 1. D'autre part si K ~ cc, avec une densit borne on a P(A(K) 1Hn) ~ O. II existe donc une valeur intermdiaire ktt telle que P(A(k[l = . _
14.2.3
tude de 1 -
Il : puissance du
.
test
Nous allons montrer que 1 - 13 >
Un tel test est dit sans biais:
P(WIH,)
> p(WIHo}
puisque: d'o:
L(x, 8 ,} > k(l L(x, 80 )
f.
:
L(x, 8\)dx > k ..
IV
f.
L(x,Oo)dx
li'
Si ka est> 1 la proposition est triviale ; si kt! est < i nous allons montrer, ce qui est
quivalent, que 13 < 1 et
332
L(x, fll) West tel que - - L(x, 00)
< ka' donc:
ce qui dmontre la proposition.
Convergence du test: On peut dmontrer que si
Il ~ cr.;"
13 ~
1.
Remarque: Comme P(A(K)) est une fonction monotone de K, on voit que si a. diminue, ku augmente; donc diminuer le risque de premire espce Ci fait augmenter le risque de
deuxime espce
131 - f3 = p(L(X, 1) >

L(x, 90 )
ka
HI) est une fonction dcroissante de k.
14.2.4
Tests et statistiques exhaustives
La considration d'une statistique exhaustive simplifie considrablement la pratique du test car alors la rgion critique en dpend exclusivement.
S'il existe une statistique exhaustive T pour 0, de densit 9U,

L(x, 9) = 9(1, fl)lt(x)
(i), on a :
Le test de Neyman et Pearson se rduit alors :
14.2.5
Exemple
contre
Test de la moyenne d'une loi de Laplace-Gauss, d'cart-type cr connu:
Ho : LG(m 0' (f)

La statistique exhaustive pour /Il est x el :
g(x,11I) =
HI : LG(m" cr)
(f'"
.'V-;;
Le rapport des denSits
. g("i,1I1
g(x, mo)
1 exp(1 (xcr- Ill):!) (2; -2 /..[;;
donne:
Il
g(x,m
g("i,11lo)
exp ( --,-., [(x :2 cr11l0)-
" g("i, ml) ,.". Ecnre que _ > kil est eqmvalent a ecnre que (x g(x, 1110)
. .,
(x -
111 1
f >
k~ soit:
14- Les tests statistiques
333
k~~. k~'.
Si ml> mo il est quivalent d'crire.x > Si

ml
<
n10
il est quivalent d'crire .x <
Ce rsultat vident l'intuition ~e si 1111 > m, on rejettera Ho si X est trop grand. On trouve la constante k en crivant P(X > k 1 Ho) = . En reprsentant sur un mme graphique les densits de X dans Ho et dans HI on a la figure 14.3.
FIGURE
14.3
14.2.6
14.2.6.1
&III
Tests entre hypothses composites

Test d'une hypothse simple contre une hypothse composite
T -) e
Exemples:
{e
III
La fonction puissance
L'hypothse HI tant compose d'un ensemble de valeurs de e, pour chaque valeur particulire de e on peut calculer 1 (3(6), d'o une fonction, dite fonction puissance, dcrivant les variations de 1 - j3 selon les valeurs de e dans Hl' La figure 14.4 montre la fonction puissance du test Ho : correspondant l'exemple introductif.
= 600 contre HI
111
> 600
0.9 0.9
o
:t al 0.6
'p[ 0.5
0.7
DA
a. 0.3
0.2
0.1
Or---~=-~--.---~---r---r--~---.-
550
575
600
625
650
675
700
725
750
Moyenne
FIGURE
14.4
Fonclion puissance. Test unilatml Ho
= 600.
Note: la courbe donnant j3 en fonction du paramlre est appele courbe d'efficacit.
334
14 _ Les tests statistiques
ID
Tests UPP
Un test est dit unifoffilment le plus puissant (UPP) si, quelle que soit la valeur de 8 appartenant l'hypothse allernative, sa puissance 1 - f3(8) est suprieure la puissance de tout autre test.
II1II Exemple: Dans le test Ho : /Il = 1110 contre HI: 111 = 111 1 > 1110, on a pu remarquer que la rgion critique ne dpend pas explicitement de 1111 et donc que celte rgion critique est la mme pour n'importe quel 1111 > nlo. Le test prcdent est donc UPP pour Ho : 111 = 1110 contre H 1 : III > 1110'
n est vident cependant qu'il n'existe pas de test VPP pour Ho: 111 = 1110 contre H 1 : l1l 1= 1110 car, s'il en existait un il devrait tre VPP pour les deux sous-hypothses H; : 111 > 11lo et H;': 11/ < 11l(). Or les tests de Ho contre HI et Ho contre H'1' sont prcisment VPP et diffrents l'un de l'autre. _
14.2.6.2
Test entre deux hypothses composites
Si Ho est elle-mme composite, a dpend de exiger aCe) :5 a donn.
e selon les valeurs de e E

ou 8 2: 82
:5
Ho, et l'on devra
L'existence de tests UPP pour les cas suivants:
Ho: 8 < 80 { H] : 8 2: 8 0
JHo : e
et
lHI: 8
:5 el
1
< 8
82
est assure par le thorme de Lehmann que nous ne dmontrerons pas.
, .. ee theoreme suppose 1" eXIstence d' une statIstique G te Ile que 1e rapport L(x;; 8 ) est une L(x 8
1)
fonction monotone croissante de G si SI > 82 (thorme dit du rapport de vraisemblance monotone )). De telles statistiques sont fournies par les statistiques exhaustives des lois de forme exponentielle. D'autre part il n'existe pas de tests VPP pour les cas Ho : 8] :5 8 :5 82 contre H 1 : 8 > 82 ou 8 < 8] et a fortiori: Ho : 8 = Bo contre HI : 8 =1= 80 , Dans les cas o il n'existe pas de tests UPP, on cherchera s'il existe de bons tests parm une classe plus restreinte, celle des tests sans biais par exemple. Ainsi pour le test prcdent il existe un test UPP sans bias s'il existe une statistique G(x) rpondant la condition de Lehmann et la rgion critique est: ou G(x) > Cl G(x) < CI
14.2.6.3
Test du rapport des vraisemblances maximales
Ce test est fort utile l o les mthodes prcdentes ont chou:
Test de Ho
8
= 8n contre H 1 : 8 =1=
80 o 8 peut tre un paramtre vectoriel de dimension p.
Posons: on a donc 0 :5 :5 1.
L(x, 80)
sup L(x, 8) o
14-Les tests statistiques
335
est intuitivement une statistique convenable pour un test car plus . est grand, plus l'hypotbse Ho est vraisemblable (principe du maximum de vraisemblance). Cela revient remplacer 0 par son estimation par la mthode du maximum de vraisemblance.
La rgion critique du lest sera:
<K
THORME
1
.
La distribution de -21n
est asymptotiquement celle d'lm X~ dans l'hypothse Ho
_ Dmonstration: Nous la ferons pour p

A
1. On a, en dveloppant en srie de Taylor:

A
ln L(x, 00 )
ln L(x, 8) = (O{) - O)-In L(x, 8)
ao
+
ou 8*
E
l 2(0 0
ri 0) ae21n L(x, 8*)

A
[8 o ].
Comme S est l'estimateur du MV on a -ln L(x, S) = 0, d'o: ilO
-2 ln
= -(So
- S)--.., ln L(x. S*)
a ae-
Dans l'hypothse Ho: 8 = 80 , on sait que l'estimation du MV converge presque srement vers 80 ; donc 0* ~ On et lorsque Il ~ 'J.) :
-----11 ~ cc,
a2 1n L(x ; 0*)
if! 1nf(x;; 8) _ 1 ~ a2 Inf(xi; 8) -1l-,L...i HJ2 n Hf!
Lorsque
la loi des grands nombres nous indique que:
;; 2:
Donc: On a alors:
1 a2 1nf(x;; e)
ae i
~E
[a:!.ln f ]
a8 2
= 11(0)
- - - - - ~ 11/ 1(8)
a2 ln L(x ; 0*) ao
:::: l'ICO)
Note: Le domaine de dfinition doit tre indpendant du paramtre.

THORME
2
la suite des tests est cOll\'ergente, c'est-cl-dire que la pUlssallce l
Si Il
~ ,
f3 ~
Test entre deux hypothses composites.

\. A n f ormera l\.
::::;:
1) E
sup L(x, 8) !fn bt' , 'd L( _ 0) e t on OIen t l mernes proprIetes que prece emrnent. es A . . , sup x,
Belli
336
14111111111Les tests statistiques
14.2.7
Niveau de signification, risques, vraisemblance et approche baysienne
Dans la thorie classique que nous venons d'exposer, issue des travaux de J. Neyman et E.S. Pearson, un test se prsente sous forme d'une rgle de dcision binaire fonnule a prori, c'est--dire avant d'avoir failles observations, et intangible ds que le rsque a a t fix. Les donnes recueillies ne peuvent modifier cette et ne sont utilises qu'a posteriori: on est, ou on n'est pas, dans la rgion critique. Cette manire de procder interdit toute manipulation des rsultats et garantit l'objectivit de la dcision: elle convient bien dans des problmes de rglementation ou de normalisation. Il y a cependant quelques inconvnients: Seule une partie de l'information est utilise. On aboutit parfois des conclusions paradoxales: Ainsi si on rejette Ho avec Cl 5 %, avec les mmes observations on la rejettera a fortiori si }' on avait choisi a 20 %. Quel est alors le risque de la rejeter tort: 5 ou 20 % ? Ce genre de questions perturbe bon droit le praticien. Une pratique courante, utilise notamment dans les logiciels, consiste alors calculer le niveau de signification, appel ~< p-value }) en anglais: c'est la probabilit de dpassement de la valeur observe de la variable de dcision sous Hn. Ainsi dans l'exemple des faiseurs 0.38. de pluie, le niveau de signification est p(X > 610.2/ Ho) Cela veut dire que pour tout a<O.38 on conserve Ho. Cette valeur leve est donc en faveur de l'hypothse nulle: les donnes la confortent. Inversement plus le niveau de significaton est faible, plus les donnes sont en faveur de l'hypothse alternative et du rejet de Ho. La dmarche classique de Neyman-Pearson revient simplement comparer le niveau de signification avec le risque Cl, mais on a ici une information plus prcise. On aimerait pouvoir dire que Ho est plus probable que HI' Il faut se garder de telles expressions, dnues de sens dans un contexte non-baysien. Par contre on peut parler de la vraisemblance de chacune des deux hypothses (du moins quand elles sont simples) Lo et LI' Il faut noter ici que le test de Neyman-Pearson ne consiste pas se prononcer en faveur de l'hypothse la plus vraisemblable puisque la constante k(l du rapport des vraisemblances n'est pas gale 1 : il faut que HI soit k(l fois plus vraisemblable que Ho, et kt! est gnrale ment plus grand que 1, ce qui traduit le rait que Ho est privilgie. Dans r exemple des faiseurs de pluie, il est facile de calculer ku qui vaut (f. 14.2.5) :
w
eXP(-~[(655 2.10
650f
(655 - 600f!J)
exp(1.35) = 3.857
Pour rejeter Hn, il aurait fallu que HI soit prs de 4 fois plus vraisemblable que Ho. Dans un contexte baysien on peut parler de probabilits a posteriori (c'est dire une fois connues les observations) si on s'est donn des probabilits Cl priori sur les tats de la nature.
Il faut donc ici se donner TIo et TIl notre infom1ation pralable.
=1
TI!),
probabilits
Cl
priori de Ho et Hl qui quantifient
337
Si x dsigne le vecteur des observations:
P(Ho/x)
= -----7oLo(x) + 7 I L,(x)
On peut remplacer les vraisemblances par les densits de la varable de dcision T, si Test une statistique exhaustive. La rgle baysienne consiste choisir l'hypothse la plus probable li posteriori, donc celle qui a une probabilit suprieure 0.5, On vrifie alors que le test de Neyman-Pearson est en fait un test baysien avec une probabilit Cl priori implicite que l'on peuL calculer aisment (1 - 7o)LI(x) L 1(x) en combinant P(H1/x) = . > 0.5 et - - > k 7oL()(x) + (l - 7o)L1(x) Lo(x) Ce qui donne:
7o = 1
+k
'iio
Pour l'exemple des faiseurs de pluie, on trouve que une fois que Ho est favorise.
0,79 ce qui montre bien encore
Lorsque les probabilits Cl priori sont connues, on dfinit le facleur de Bayes qui est le rapport des odds ratos ) des deux hypothses:
B = P(Ho/x)/ P(HI/x)
7O/'ii1
On peut interprter B comme mesurant la variation du rapport des chances en faveur de
Ho contre H[? de la prise en compte des donnes.

Pour des hypothses simples, on trouve facilement que B est gal au rapport des vraisem bl ances B
Lo{x) / . ct - - , ce qUi. reconci'J' le pOInt e vue b ' . et 1 pomt d l ' le ayeslen e . e vue c asslque, L1(x) car B ne dpend pas des probabilits li prori.
14.3
14.3.1
TESTS PORTANT SUR UN PARAMTRE

Moyenne d'une loi LG(m, 0")
(J
14.3.1. 1
connu
Le test repose sur la variable de dcision X. Ainsi pour Ho : par

111
= nlo contre Hl : m =
111 1
avec
1111
>
l11(),
la rgion critique est dfinie
X>
K. k se dtermine en considrant que
X slIitlIne LG(m ;;,;) :
1110) P(X> k 1 mo) = PU> -----;=- =
(k -
rr/'JJl
Pour un exemple on se reportera l'introduction de ce chapitre.
338
1411111i11Les tests statistiques
14.3.1.2
0'
inconnu
La variable de dcision est la variable de Student :
s
Ainsi pour Ho : nt = mn contre HI:
11l =1=
111n la rgion critique est dfinie par:
TII _ I
_ Exemple: Ho : m
=X
nln~
JI -
30 contre HI : m > 30
Un chantillon de 15 observations a donn . 37.2 - 30_r:-. On en ddmt t = ~ 14 6.2 La valeur critique
37.2 et s = 6.2.
4.35. _
= 0.05
(test unilatral) pour un T'4 est 1.761 : on rejette Hn.
Remarque sur les tests de moyenne: Si la variable parente ne suit pas une loi de Gauss, les tests prcdents s'appliquent encore ds que Il est assez grand (n > 30 environ) en raison du thorme central-limite.
14.3.2
14.3.2.1
Variance d'une loi de LG(m, (J')

m connu
La variable de dcision est D Ainsi pour Ho: a
- 2: (Xi - mf
Jl=1
Il
ao contre HI : a
= al avec al >
ao la rgion critique est dfinie par
:2 (X,
Il
m)1
> k et K est dtermin en considrant que

P(D > k)
12D
suit un X~ :
Jli=1
p(x~ > Tl: ~ ao)
14.3.2.2
m inconnu
-
. L a vana bl e d e d' . . est S" = -1 ~(Xi eCISlOn ~

lli=!
-X)'l' est te Il e que I1S - qUI
2 SUit
un
., X~-
,.
Ainsi pour Ho : a = cro contre Hl : cr S2 > k et k est dtermin par :

P(S-
cr, avec cri > ao la rgion critique est dfinie par
,>
k) = P X~-l
( ') > a J1k)
Ci
14aLes tests stiltistiques
339
II1II
Exemple: Ho : CT
3 contre Hl : cr > 3
soit
S2
Avec 20 observations on a trouv s = La valeur critique d'un X19 pour

Ct
12.25.
= 0.05 est 30.144 d'o:
30.144 X 9
20
13.56
La valeur constate s"2 tant infrieure, on ne peut donc rejeter Ho au seuil choisi de 0.05. _
Remarque sur les tests de varance : Les tests prcdents utilisant la loi du X"2 ne sont valables que dans le cas o X sUt une loi de Gauss.
14.3.3
Test de la valeur thorique p d'un pourcentage pour un grand chantillon
On utilise la frquence empirique F qui suit approximativement une loi:
LG(p; ~P(l,~ P))

Ho : P = Po contre HI : P
'* Po. La rgion critique est:

1F
- Po 1 >
lI a /2
(l - Po) Po--Il
_ Exemple: Sur un chantillon de 200 individus d'une commune, 45 % sont favorables l'implantation d'un centre commercial. Ceci contredit-il l'hypothse qu'un habitant sur deux y est t~1Vorable ?
Ho: P = 0.5 {
avec
Ct
HI: P
'* 0.5
W=
0.05
li
1.96 d'o la rgion critique: 1.96
IF - 0.51 >
Comme
~(O.5)'
200 '
SOIt
IIF - 0.51 > 0.07}
If -
0.501 = 0.05, on ne peut rejeter Ho au seuil Ct = 0.05.
Si 11 est trop petit pour que l'on puisse appliquer la loi de Laplace-Gauss, on utilisera l'abaque elliptique (table A.3 bis). lIlIilIII
14.4
14.4.1
TESTS DE COMPARAISON DtCHANTlllONS

Tests de Fisher-Snedecor et de Student pour chantillons indpendants
tant donn deux chantillons de taille III et n:!~ peut-on admettre qu'ils ont t prlevs dans une mme population relativement la variable tudie, ces deux chantillons ayant t prlevs indpendamment l'un de J'autre?
340
_ Exemples:
Les rsultats scolaires des tilles et des garons sont-ils comparables? Les demandes de deux produits A et B chantillonnes sur un an sont-elles comparables? _ Mathmatiquement le problme se formalise de la manire suivante: on observe sur le premier chantillon les ralisations d'une variable alatoire XI de fonction de rpartition FICx) et sur le deuxime chantillon les ralisations d'une variable alatoire X2 de fonction de rpartition Flx) on veut tester:
Ho: FlY) = F1(x) { HI : FI(x) ':f: F:.(x)

Le choix de Ho est dict par des considrations pratiques car FI(x) pour obtenir une rgion critique.
'* F
2(x)
est trop vague
Dans la pratique on se contentera de vrifier l'galit des esprances et des variances de XI et X~; en disposant de x1 et et ST et si moyennes et variances empiriques des deux chantillons si les lois de XI et Xl sont gaussiennes.
14.4.1.1
Cas de deux chantillons gaussiens Xl et X 2 E LG(rn2' (Tl)
LG(rnh
(TI)
Les hypothses deviennent alors:
Le test va consister tester d'abord les variances et si elles ne sont pas significativement diffrentes tester ensuite les esprances en admettant 0'1 = cr:.:.
l1li
Test des variances de Fisher-Snedecor

En appliquant les rsultats de la thorie de l'chantillonnage:
-..,- E Xnl
Il,ST
01
0"1
.,
Dans l'hypothse Ho : 0'1 =
et l'on a :
111 S T
111 -
Fil
1 ;lIl-1
n2S~
Si
On peut interprter F comme le rapport des deux estimateurs de crI et cr~ respectivement. = :.:, ce rapport ne doit pas diffrer significativement de 1. F sera la variable de dcision. En pratique on met toujours au numrateur la plus grande des deux quantits:
0'1
et
111 11 2 -
et la rgion critique est de la forme F > k avec k
> 1.
341
Si les deux chantillons ont mme taille
111
Il}
= 11, le calcul se simplifie et :
Si le test de Fisher-Snedecor aboutit la conclusion esprances.

_ Exemple:
ni = 25,
(TI
(T:!,
on passe au test des
sr = 0.05,
x
0.07 25
12
0.07,
(Y
= 0.05
. . 13 Il faut penlluter les Indlces 1 et 2 car

La rgion critique est F> 2.18. On accepte l'hypothse
(TI
> ---24
0.09
(T:!.
Test des esprances de Student

Supposons dsormais
(J]
On a : et
(T2
(T.
d'o:
el:
cr tant inconnu on utilise la loi de Student. Par dfinition de la variable de Student :
Il
]Si + 112S~
(T2(11[
+ "2 -
2)
Ce qui se simplifie en liminant (J
Dans l'hypothse Ho,
1111
1H2
et la rgion critique est de la forme:
ITI > k.
342
On aura vu au passage que seule l'hypothse Ho d'galit des moyennes et des variances permet d'obtenir des rgions critiques, car on limine prcisment les valeurs communes de ces moyennes et variances. De plus l'ordre: test de variances, puis test de moyennes, semble indispensable, car le test de Studenl suppose explicitement rrl rr2'
14.4.1.2
Comparaison de moyennes en cas de variances ingales
Lorsque les effectifs des deux chantillons sont levs (suprieurs chacun 20), la formule prcdente reste encore approximativement valable. Pour de petits chantllons, l'approximation d'Aspin-Welch est souvent utilise dans les logiciels: elle consiste remplacer le degr de libert III + Il! - 2, par une valeur infrieure 111 obtenue par les formules suivantes:
nI = ----::--------::III Il::! -
avec c =
--~----
111 -
Il::! -
14.4.1.3
Cas d'chantillons non gaussiens

rr-
Le test de variance F n'est plus valable car nS.. :. ne suit pas une loi de X2, mais on a le rsultat suivant qui permel de tester 1111 =
111::!.
Pour Ill' 11']. assez grand (quelques dizaines d'observations) on peut quand mme tester les moyennes 1111 et 1112 en appliquant la formule de SLudent que (TI soit diffrent ou non de (TlOn dit que le test de Student est robuste ) car il rsiste bien un changement de la loi de XI el Xl'
14.4.2
14.4.2.1
Tests non paramtriques de comparaison de deux chantillons indpendants

Test de Smirnov
Ce test est analogue au lest de Kolmogorov et repose sur le rsultat suivant.

1I(
SOt F;;~(x) et F:i;(x) les fonctions de rpartition empiriques de deux chantillons de taille et 112 issues d'une mme loi, de fonction de rpartition F(x) ; alors:
F~,(x) 1 < ) --+ K(y)
343
D'o le test: soit tester l'hypothse HoF(x) = G(x), contre HIF(x) ::f::. G(x), en disposant de deux chantillons de [aille 111 et 11:. de fonctions de rpartition empiriques F~:Jx) et G;:~(x), on forme la diffrence des deux et on en prend le sup et on rejette Ho si sup 1 F;\Jt) G'i:/x)1 est trop grand.
14.4.2.2
Test de Wilcoxon-Mann-Whitney
Soit (x), x:., ... , XII) et (Yb y:!, ... , JI/I) les deux chantillons. Ce test repose sur l'ide que s l'on mlange les deux sries de valeurs et qu'on ordonne le tout par valeurs croissantes on doit obtenir un mlange homogne. Pour cela les deux suites tant rordonnes, on compte le nombre total de couples (Xi, Yi) o Xi a un rang grand que Yi (ou bien tels que Xi> Yi si X et Y sont quantitatives).
71111 ;
Soit U ce nombre (statistique de Mann~ Whitney). Il est facile de voir que U vare de 0 si U = 0 on a la situation suivante (mlange en deux phases) :
de mme si U
mu:
YI' y::?, .. ,.l'1II'
XI'X:!' " " X II
D'autre part si les deux distributions sont issues de la mme population:

E(U)
11111
et
V(U) =
---1-2-Il
llm(ll
111
1)
et asymptotiquement U est gaussien, l'approximation tant excellente ds que suprieurs ou gaux 8. Dans tous les cas on peut calculer la loi exacte de U.
. ' . Le test consIstera d one a rejeter Ho : F(x)
et m sont
G(x) si 1 U - mil
>
k.
Un autre mode de calcul plus rapide dans certain cas consiste fI calculer la somme des rangs des individus de l'un des deux groupes (le premer par exemple). Soit
W, .,
~\'
cette somme appele statistique de Wi1coxon. Il est facile de montrer que

n(n
= mu +
+ 1)
2
U sous l' hypothse nulle :

, n(u
E(Wx ) = - - - 2 - mn(n
1)
V(Wx) =
+ 111 +
12
1)
La rgion critique est alors dfinie si

Wx
1 -
Il
et
1
111
> 8 par:
nm(n
ll(n
+ 111 +
12
1)
>
+m +
12
1)
ll/2
344
_ Exemple: On veut comparer les performances de deux groupes d'lves des tests d' habi let manuelle.
On choisit alatoirement 8 indvidus du premier groupe et 10 du deuxime. Les performances en minutes sont les suivantes: Groupel: Groupe 2: 22 25 31 13 14 20 1924282728 Il 23 16 21 18
17
26
On rordonne les 18 observations par ordre croissant. Les rsultats du premier groupe sont souligns: Observations: Il 13 14 16 17 18 Rangs : 1
12.
7
20 21 22 23 24 25 26 27 28 28 8
J!
9 10 11 12 13 14 15 16 17 18
La somme des rangs des individus du premier groupe est:
w,\, =
Si Ho tait vraie:
10
12
15
16
17
18 = 98
E(Wx ) =
Comme
8(8 + 10 + 1) 2 = 76 98
8 X 10(8
+
12
10
1)
126.7 = (l
76 . = 1.96, on peut rejeter Ho avec 11.25 rapidit des lves du groupe 2.
Cl
= 0.10 et conclure une plus grande

l1li
Remarque:
XI
= 24.13
27.36
et et
Xl = 19
ST
s~
= 22
Le test de Fisher-Snedecor de comparaison des variances donne: 27.36 X 8
f=---=
22 X 10 9
1.28
ce qui montre que cr) n'est pas significativement diffrent de cr} (FO.05 (7 ~ 9) Le test de Student de diffrence des moyennes donne:
3.29).
--;===============================" 16
24.13 - 19
J:-;
~ Ua + ~)(la x 22 + 8 x 27.36)
2.06
ce qui est suprieur au seuil 0.10 qui vaut 1.745. Le test de Student conduit donc la mme conclusion que le tesl de Wi1coxon. Cependant ici, rien ne justifiant l'hypothse de distributions gaussiennes et vu la petite taille des chantillons, seul le test de Wi1coxon est d'usage lgitime.
141l11i1Les tests statistiques
345
14.4.3
Test non paramtrique de comparaison de plusieurs chantillons dcrits par une variable qualitative: le test du X2
Les donnes se prsentent sous la forme du tableau 14.2 :
TABLEAU 14.2
Modalit
1
chanllllon 1 chantillon 2
Illl Tl2l
rvlodalit 2
1112
Modalit
Total
r
IIlr
112r
11J.
1122
1/2.
chantillon k Total
lJtJ
1//..2
IlAr 11.r
H/.::.
Il
11.1
Il.:.
ni}
est le nombre des individus de l'chantillon possdant la modalit j de la variable:

Il .
2: n ij
)=1
/.::
effectif de l'chantillon i ;
ll.j :2>lij = nombre total des individus possdantj;

=l
Il
2:Ll1ij "n...:;;:.;
l,
"Il "
"':;;:';.)
Il s'agt de tester Ho: les chantillons proviennent de la mme population }) contre HI :

les chantillons sont significativement diffrents .
Dans l'hypothse Ho on peut parler de probabilits PI' P:., ... , Pr de possder les modalits l, 2, ... , 1: Il s'agit alors de comparer les effectifs constats lIij aux effectifs esprs 11 i , Pl' qui ne doivent pas en diffrer beaucoup; on forme alors:
Dans l'hypothse H(h dij est une ralisation d'une variable Dij suivant un X2 dont nous allons chercher le nombre de degrs de libert.
dB porte sur kr termes,

Donc Dij est un X~r-k'
mais ces kr termes sont lis par II. relations qui indiquent que les
sommes de lignes sont constantes
2:11 ij = Lll i. Pl
j
j
11 .
346
on n'a besoin que de r - 1 relations car D'o une nouvelle mesure:
2: Pj =
j=l
1).
alors
D
Il, n .)2 ( n -......!..:.....

1)
Il
Il i.
".j
(,t _
l
Il
est un : X~r-k-(r-I)
Xlk-lJ(r-1)
si Ho est vraie.
On peut remarquer que si l'on utilise la frquence

dl =
112:2: (f;1 - ./;.f/i

j ./;.
fj
Le test consistera donc rejeter Hn si d constat est trop grand, comme pour un test habituel du X2
14.4.4
Test de comparaison de deux pourcentages (grands chantillons)
Dans deux chantillons de grandes tailles III et 1l2' on relve les pourcentages fi et 12 d'individus prsentant un certain caractre. Soit PI et P2 les probabilits correspondantes: il s'agit de savoir sil, etj2 sont significativement diffrents ou non, donc de tester:
Ho: PI = P'2 = P {HI :PI if::. P2

Si Ho est vraie'!1 etI2 sont des ralisations indpendantes de deux variables FI et F2 suivant les lois:
-)
donc: On rejettera Ho, si, avec
Cl
et
LO(O ; p(l _ p l
0.05 par exemple:
~1+
III
1)
112
I./i
121 >
1.96~p(1
pl ~
1
112
1
112
Lorsque p n'est pas connu on le remplace par son estimation

liliiii
fi
Tl If)
+ Il l f1
111+ 1l 2
Exemple:
sur 96 pices venant d'un fournisseur A, 12 sont dfectueuses; sur 55 pices venant d'un fournisseur B, ]5 sont dfectueuses.
347
Les pourcentuges de pices dfectueuses sont-ils significativement diffrents?
.fi = 0.13
96 + 55
-2.28
12
+ 15
= 0.18
~P(1 - P)(~ +~)

III 111
On peut donc rejeter l'hypothse Hn : PI
Pl et conclure que P2
>
PI'
Le mme test aurait pu tre ralis de manire quivalente en utilisant le test du Xl de comparaison d'chantillons. Le calcul est d'ailleurs particulirement simple dans le cas du tableau quatre cases (voir chapitre 6 6.5.2.2) : Dfectueux Fournisseur A Fournisseur B 27 Non dfectueux
96
55
124
= 5.20
151
d- =
15
15 X 27 X 124 X 96 X 55
2 x 40
Avec un degr de Libert la valeur critique du Xl pour ex = 0.05 est 3.84; on rejette donc Ho. On aura remarqu que 5.20 = (2.28f car (la dmonstration est laisse au soin du lecteur) on a exactement:
t
,- =
~p(l - P)(~ + .2..)

11) 112.
fi - 1'-1
)1
1IIIIIIII
14.4.5
Comparaison des movennes de deux chantillons gaussiens indpendants p dimensions de mme matrice de variance
Considrons deux chantillons de III et III observatons issus respectivement de deux lois N/JLI ; :2:) et Np(fL2 ; };). On cherche alors tester:
On nolera g)o g:!, V b V 2, les centres de gravit et matrices de variance des deux chantillons, et on posera W
(
= 11 1VI + n.,V..,111+ 11 2
la matrice de variance intragroupe
---.....;-~
11\+112-
11 1
}1.,
West un estImateur sans
bIaIS
de 2: .
348
14.4.5.1
Il)V)
Test de Hotelling
112V2
Np(O ;k( ~ + ~)) si Ho est vraie.

\1l! Il:.
est une matrice de Wishart Wp (ll\ +
112 -
k) et
gl
g2
une loi
On en dduit (chapitre 4, paragr. 4.5) :
si Ho est vraie d'o le test

En pratique on utilisera la relation entre Ti, et F qui donne:
On vrifiera que pour p = 1 on retrouve le carr de la variable de Student du test dcrit au paragraphe 14.5.1 de ce chapitre.
14.4.5.2
Distance de Mahalanobis
Le test prcdent est plus couramment prsent sous la torme suivante.

(JLI 1-l:.)'::E-1(JLI Soit 6.~ Le test revient donc poser: JL2) le carr de la distance de Ivlahalanobis entre I-ll et f.L2'
La distance de Mahalanobis estime Dp est teUe que:

ni
+
Il)
Il, 1 -
Cg,
112
obtenue en remplaant ~ par son estimation sans bias. Remarquons que ceci ne revient pas estimer sans biais k- I ct que:
E(D~)
Lorsque 6.~
0,
Il
1/ 1
+.
n "2
1I1+1l2-P-1
.~ u""2 + P
1/']. -
Il)
HIll:.
+. 11 2) >
!...l"
:2
/'l, +
D;' suit un T~(Il,

112
2) d'o le rsultat:
Tl 1 Il:! (Il [ Il"2 - P - l) ., -~~----'---~----D~ (11 1 + Il 2) p( Il 1 + Il:. - 2) 1
= F(p;
ni
lb
-
P - 1)
Cette expression est couramment applique en analyse discriminante (voir chapitre 18).
349
14.4.6
Comparaison de moyennes d'chantillons apparis
Un mme chantillon d'individus est soumis deux mesures successives d'une mme variab1e.
14.4.6./
Le cas gaussien
.. Exemples: 15 copies sont soumises une double cOlTection ;

pa.<;jsage du mme test d'aptitude deux instants diffrents (problme de l'apprentissage). On veut tester l'hypothse que les deux sries de valeurs sont semblables. Soit XI la variable correspondant la premire srie et X2 l'autre. En fait on se contente de tester l'hypothse E(X)) = E(X2.) en posant le modle suivant:
XI X 2 LG(11l1
11l~,
cr)
(ce qui sous-entend que XI et X2 sont sparment gaussiens). Le test de Ho : ml = 1112 contre HI : nt J =f=. 1112 consiste former les diffrences Xii et faire un test de Student sur la moyenne des di car cr est en gnral inconnu:
1'1-1
Xi::!
= di
On rejettera Ho si 111 > k.
..
XI
N.B. : La diffrence avec le test de Student d'galit de deux moyennes tudi au paragraphe 14.1.1 provient du fait que les variables Xl et X2 ne peuvent ici tre supposes indpendantes: la variance de leur diffrence ne peut tre estime par la somme des variances.
.. Exemple : Considrons deux sries de mesures effectues sur les mmes individus deux instants diffrents
Individu
Xz
D =X, -X2
1
2
86
92
66 76
63
20
16
12 22
3 4 5 6
7
8 9 10
Les moyennes ont-elles vari? On trouve d
75 84 66 75 97 67
99
62 74 70 86 69 81
92
-8
5 11 -2
68
18 -24
=7
s*
14.56
7 ------c= = 1 5')
14.56/{O
.-
350
14 _ Les tests statistiques
On ne peut donc rejeter l'hypothse que les deux moyennes sont gales car la valeur critique d'un test bilatral 5 % vaut 2.269 pour un Tg. _ Le test prcdent suppose la normalit des deux variables. S1 ce n'est pas le cas, ou si cette hypothse ne peut tre prouve, il peut tre plus prudent, mais avec une puissance moindre, d'effectuer un test non paramtrique.
14.4.6.2
Test des signes
On compte le nombre K de diffrences positives. Sous l'hypothse nulle d'absence de diffrence entre moyennes, il y a une chance sur deux qu'une diffrence soit positive ou ngative; donc K suit une loi binomiale @(10 ; 0.5). Dans l'exemple il y a 7 diffrences positives. Or P(K < 8) = 0.9453. Avec un test bilatral 5 %, la conclusion reste alors la mme.
14.4.6.3
Le test de Wilcoxon pour donnes apparies
IJ~Bt bien plus puissant que le le.~de~sign(!s et doit lui tre prfr. Il teste en ralit hypothse alternative de distribution dcale.
On procde comme suit: on classe par ordre de valeurs absolues croissantes les diffrences:
Rang 1 2 3
4
-24 22 20
18
16
5
6
12
11
7 8 9 10
-8
5 -2
On calcule ensuite la somme des rangs des diffrences positives soit ici :
w.!
= 2
+3+4 +5 +6 +7+9 =
36
Sous l'hypothse nulle, on trouve aisment l'esprance et la variance de W+

2i ~ En effet W+ = 2.,; RjZi o {Zi _ 1 S,i. Xli - X
i""l
Zi -
o5100n
> 0 en ne tenant pas compte des
eXMaequo. Les Rj sont les rangs de toutes les diffrences et sont donc une permutation des entiers de 1 Il. Les Zi sont des variables de Bernoulli indpendantes:
E(Z,) = 1
1 1 V(Z.) = 2 1 4
11
W+ =
2: RiZ
j=[
141/1111Les tests statistiques
351
conditionnellement aux rangs:
~ ~i
J
-
!-' I=J
= ~ 12(12 +
') ') 1 n(n
4
1)
11(11
+
4
1)
2:rr V(Z;)
i=J
Il
1)(211 6
1)
11(11
1 )(2n
1)
24
Les rangs ayant disparus, l'esprance et la variance conditionnelle sont l'esprance et la variance totale. On peut montrer que W + peut tre approxim par une loi normale partir de
11
= 10.
On comparera donc la valeur trouve 36 une loi normale d'esprance 27.5 et de variance 96.25, ce qui donne une valeur centre rduite de 0.87. On ne rejette pas l'hypothse nulle.
14.4.7
Comparaison de variances d'chantillons apparis

Fisher~Snedecor
Les variables n'tant pas indpendantes, le test de On utilisera la proprit suivante:
ne peut tre appliqu.
Tester l'galit des variances revient donc tester si le coefficient de corrlation linaire entre la somme et la diffrence des deux variables est nul. Dans l'exemple prcdent on trouve r = 0.224 ce qui ne permet pas de rejeter l'hypothse d'galit des variances car le seuil 5 % bilatral pour 10 observations est 0.63 (cf. table A.9). Les cart-types corrigs taient respectivement 12.45 et 9.95
14.4.8
le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantillon
On a vu en J 4.4.4 comment comparer des pourcentages sur deux chantillons indpendants. Qu'en est-il lorsqu'il s'agit des mmes individus? Par exemple, on interroge deux reprises, aprs une action, 600 clients d'une socit pour connatre leur taux de satisfaction. On commettrait une grave erreur en appliquant les fonnules des chantillons indpendants: il faut ici connatre pour chaque individu son tat aux deux enqutes, que l'on peut rsumer par le tableau de contingence 2 X 2 croisant les effectifs des deux variables. Prenons l'exemple suivant:
~
Satisfaits Non satisfaits
Satisfaits
200
Non satisfaits
50 270
80
La proportion de satisfaits est passe de 41.7 % 46.7 %. S'il s'agissait de deux chantlllons indpendants de 600 individus, cette diffrence ne serait pas juge significative.
352
14_les tests statistiqu
Mais pour tester la significativit de cette diffrence, il faut en ralit compare les effectifs des individus ayant chang d'avis.
En effet, avec des notations classiques, l'hypothse Ho est Pl. = PI.- Comme PI. = Pli etp.1 = Pli + P::'I Ho revient tester Pr2 = P'21
~
Satisfaits Non satisfaits
Satisfaits
Pli
Non satisfaits
Pl2
Pl.
P 2
P:!l P.I
P22
P.2
On effectue alors un classique test du khi-deux: sous l'hypothse nulle PI'! par (1112 + 1121)/2. La statistique de test est donc:
( 111") 1112
= Pli est
+ 1121)2 +
2
2
11
thl
11 12+ 1l 2J
Un calcul facile montre qu'elle est gale :

(Il
11 12
+ 1121
On comparera cette quantit un
Xy,
ou sa racine carre une variable
normale centre rduite.
80 ~
tive de la satisfaction.
80
- 50 = 2. 63 . 0 n cone l ' une augmentatIOn SlgOl ilca' "f ue a + 50
14.5
L'ANALYSE DE VARIANCE
L'analyse de variance recouvre un ensemble de technique de tests et d'estimation destins apprcier l'effet de variables qualitatives sur une variable numrique et revient dans le cas simple comparer plusieurs moyennes d'chantillons gaussiens. On utilisera ici un vocabulaire particulier: les variables qmtatives susceptibles d'influer sur la distribution de la variable numrique observe sont appeles facteurs de variabilit et leurs modalits niveaux . Lorsqu'il y a plusieurs facteurs, une combinaison de niveaux est un traitement }) (voir chapitre 21). Le domaine tant trs vaste on se contentera ici d'une brve prsentation du modle effets fixes un et deux facteurs (des complments seront donns au chapitre 17 sur le modle linaire
353
14.5.1
14.5. 1. 1
Analyse de variance un facteur

Les
donnes et le modle
111' Il:!~ , Ilk
On dispose de k chantillons de taiUes respectives un niveau diftrent d'un facteur A. On pose n
correspondant chacun
2: l1i et on dresse le tableau 14.3.

i=1
On suppose que le facteur A influe uniquement sur les moyennes des distributions et non sur leur variance. II s'agit donc d'un test de confusion des k moyennes X"X2"'"
TABLEAU
14.3
Facteur
Al
ri 1
A2
ri :1
Ai
......................... .......................
Ak
........ ~ 4 ................ "
X
XIII
.,
.\2
x~~
Xi
' ,,
~
x! 1 .,
JI "
JI
Xk
X"i k
;k
." ............. """"""
..................
... ...................
Xi
. ...................
Moyennes
x[
Xl
LG(nzj; cr),
Si on considre chaque chant110n comme issu d'une variable alatoire Xi suivant une loi Je problme est donc de tester:
{Z:
On peut galement poser:
ml =
m2
= ... = ml
mj
o
nti::j::.
xl
ou encore facteur.
+ E{
E{ LG(Q ; cr)
xl =
f.L
Ci;
+ El o f.L reprsente une valeur moyenne et Cl i l'effet du niveau i du
Si Ho est rejete le problme se posera donc d'estimer lIli (ou f.L et les Ci).
14.5.1.2
Le test
1 Si X est la moyenne totale X
2: 2: X{ et en remarquant que:
kil,
11 i=1 j=1
il vient facilement:
formule qui n'est autre que celle de la variance totale dcompose en moyenne des variances et variance des moyennes.
354
1
14_Les tests
!:ilalC1StlQUf:I
Si on pose:
S-
"l
l '"' = -.J"12: (X~.

.;;;..J
11 i
S~ = n
2: J1,(X i
1
et:
on a donc
= S~
+ S~ formule d'analyse de variance

1
= -
>~"
s~ reprsente la variance due au facteur,
S'k la varance rsiduelle.

/l,
l Si on crit S~ = -
2: Hi Sr avec ST
~
'1
2:(X{
Xjf! en introduisant les dispersions

-
11 ;"" 1
Il i j=1
~. I1S~. '1 chaque echnntillon, on trouve que - " est une vanable de x- a Il
k degres de hberte car _ 1_1

~
' "
tl
Sf
est une variable
" et-" cr-
11 S R
,,~
S1
;;;1
L.J
cr:"
Dans l 'hypothse Ho et dans celle-ci seulement, les Xi sont des variables de mme loi, nS'! . ' "1 llS~ " dans ce cas SUIt un X~-1 et - 1 un xr-J car est alors la variance d'un Il-chantillon d'une LG(m, cr) et s1 est analogue la variance du k-chantillon des moyennes par les Il;,
a-
Xi pondres
L'quation d'analyse de variance n'est autre que la formule du thorme de Cochran, ce qui entrane que S~ et S~ sont des variables alatoires indpendantes, si Ho est vraie; on a en effet:
X~-I
Donc si Ho est vraie:
Xf-I
+ X~-k
s11k
S~/11
A
= F(k -
l'Il - k) '
S~/ li. - 1"S' '1 est supeneur a I l cntlque d' une van' . ~ a va eur ' . . '11 1 SR 11 k able de Fisher-Snedecor on conclut une infuence significative du facteur A.
, e d, ou 1 test: on f"orme 1 rapport e
Le carr moyen rsiduel est alors un estimateur sans biais de cr::.

_ Exemple: Reprenons l'exemple tudi aux chapitres 5 et 6 : les variations du taux de taxe d'habitation de 100 villes franaises et tudions 5' il existe des diffrences entre zones gographiques. La premire tape avait t de comparer les diagrammes en bote qui montraient des diffrences essentiellement entre le Nord et l'lle-de-France et les autres zones.
355
Le tableau suivant donne les moyennes el variances corriges par zone:

Gographique Centre Est Ile-de-France Nord Ouest: Sud-Est Sud-Ouest
Tota.l
Effecr.if
Hoyenne 18.1154 17.662 1l.76i16 25.9511 18.8964 .7694 20.511 17.7707
Variance 3.63619 4.38986 15.0492 50.4071 .59955 .63498 20.6971 30.5765
13 10 26 9 14 18 10
100
Le tableau d'analyse de la variance est alors:

Analyse de variance Source Inter-groupes Intra-groupes l'otal
(Con:.)
Somme des carrs 1706.58 1320. 3027.07
Odl
6
Carr moyen 284.43 14.1988
Pr.oba. 0.0000
20.03
93 99
On rejette donc l'hypothse d'galit des 7 moyennes car la valeur de la statistique de test _ F est trs leve et la probabilit qu'un F 6 : 9:1 dpasse 20 est pratiquement nulle.
14.5.1.3
L'est;mation des effets
Il est clair que les 111i sont estimables par les moyennes .x i mais que les (Yi ne le sont pas: il y a indtermination puisque mi = f.L + ai peut s'obtenir d'une infinit de manires. On pose gnralement la contrainte suivante d'effet moyen nul:
2: n
j=1
i(Y;
= 0 d'o:
,l=x
/4.5.1.4
Comparaisons multiples de moyennes
Le rejet de Ho ne signifie pas que tous les mi sont diffrent..; entre eux, et on cherche souvent tester l'galit 0 des diffrences /Hi - 1Ilj (appeles contrastes). Diverses mthodes existent. Un rsultat d Scheff montre que pour tout contraste J'vnement:
m; -
1/1 j -
Sir
~ 1 +.!c::o; x; /li
(Y
Jij
::0; 1/1; -
III J
S:
Jlj
~J +
IIi
J
Ilj
a lieu avec une probabilit]
donne par :
S2 )
P( F/;_I " I I - k :k :- - : ; , l
t - cr
356
14 _ Les tests
!>Lal:rStll:]Up,
O &2
est le carr moyen rsiduel. On rejette Ho s'il existe au moins un contraste Sin-T'\1h~ . ~. vement diffrent de O.
On peul donc tester simullanment tous les contrastes de la faon suivante : on . . . tout cl' abord : S = ~(k - 1) Fl~Ck - 1 ~
'"fi . et on ven le ensUite
SI
Il -
f.lI ... Ult::,.:.:.::.:;:
k)
'1Xi
.t j
-:;1 > S~~l .SI OUi' . mi r cr - + - , .

Il; Ilj
...J-
nlj _
On prendra garde toutefois que les comparaisons par paires ne sont pas transitives. On pourrait ainsi accepter
ml
1112' 1112 m4'
mais pas
/Ill
= 1114!
fi est souvent plus simple de reprsenter graphiquement les intervalles de dduits de la mthode de Scheff.
Moyennes et intervalles 95% de Scheffe
30
c
~ 25
:0
=ti
Q.l Q.l "C
X
ct!
!
"
20
x 19 15
:::J
! !
~
l)
t
ir.i
0
<li :l
!
ir.i
:::J
1-
ct!
10 5
ru
f
<li
(.)
ir.i
"C
Lt
C rtl
"C
ID
- :::1 en
ir.i
!Il
CIl
:::1
FIGURE
14.5
14.5.1.5
Test de comparaison de k variances
L'hypothse d'galit des variances pour chaque nveau joue un rle important en analyse de variance mais n'est que rarement teste: en effet les tests disponibles sont peu fiables et il vaut mieux se contenter de procdures empiriques. Citons cependant le test de Bartlett : Soient Sr. alors la quantit:
sr:. ., -, sr les variances corriges des k chantillons. si

""1(n1 - 1) Sr. 2 ) ~ 1 k
(n
k
<Tl
= cr:! = ... crk
k) ln ( ;=1
Il
2
_.
2:Clli - 1) In(S}:2)
i=1
suit approximativement une 10 du X k - 1 degrs de libert.
tests statistiques
357
Analyse de variance deux facteurs

Le modle
On notera pet q les nombres de niveaux de deux facteurs A et B. pour chaque couple
i,.i de niveaux
(traitement) on aura /lij observations de la variable X.
On dit que le modle est complet si Ilij
>
0 pour tout traitement, rptition si nu
>
l,
quilibr si nij = 1:
On limitera cette tude au cas quilibr. Les donnes recueillies sont donc, pour un traitement (i,j), .lijl; avec k = 1,2, .. . ,/: On supposera que .lij/; soit une loi LG(mij ; cr) donc que Xij/; On crit alors:
= lIlij + Eij/.. o EUk LG(O ; cr) .
f.L est l'effet moyen ;

ai
l'effet principal du niveau ide 11 ; l'effet principal du niveau j de B ;
f3j
'Yij l'effet d'interacton.

La prsence d'un terme d'interaction quivaut la non-additivit des effets principaux. On posera :
X...
xij.
= -.2:
1
r
fi
pql ;;;1 j;;1 1;=1
2:
If
2:.lijl;
= -: 2:Xijl;
1 k=1
Xi .. = ----:
ql
j=l /;;;1
l' r
22
fi
2: .l jj/;
X.j.
On a alors:
.lijk -
= ----: 2:
2: .l ij/;
pl i=1 /;=1
X...
= (Xi .. - x.J + (x.j. - x.. J + (xij. - x.j,) - (Xi .. + x.. J + (.lij/; - xu.)
les diftrents termes de cette somme correspondant respectivement aux effets principaux, l'interaction et une fluctuation alatoire.
14.5.2.2
L Jquation dJanalyse de variance et le test
On vrifie que pour le modle quilibr on a :

2:2:2:CX u; /
i j
/;
x.. J 2 = s1 + 51 + 5XB + S~
358
avec:
qr2:0:i.. -
s~ S~IJ
= pr2:Cx.j.
j i
x.. Y
x\ .. + x.. ,)!
r2:2:Crij. - x.j
i
donc que les sommes des carrs s'ajoutent: il y a orthogonalit pour le modle quilibr.
Remarque: Les modles orthogonaux sont tels que : nu
= .....!.:..-i.
n
11 . Il .
Comme en analyse de variance un facteur, si l'hypothse Ho mu = 0 't:/ Uest vraie, les diffrentes sommes de carrs suivent cr.! prs des lois du X2 indpendantes. On peut donc tester l'existence des effets principaux, et de l'interaction en comparant S~; S~, SII S~. On prsente usuel1ement les rsultats sous la forme du tableau 14.4 :
TABLEAU
14.4
Source de variation
Somme de carrs
S~
Degr de libert (dd1)

p-l
Carr moyen
S~/(P
S~/(q -
A
B
1)
1)
s1/p Sk/pq(r SVq -
1
1)
S~
q-I
S~/pq(r
S~lJ/(p -
1 1)
1)
Interaction AB Rsiduelle R Totale
S~n
S~
S2
(p
1)(q - 1) pq(r
[)
'AIl
(p -
1)(q - 1)
1)(q - 1)
1)
SYi/pq(r -
Slrlpq(r
pqr- 1
14.5.2.3
L'estimation des effets
En posant: on peut estimer les ai'
2: a = 2:!3j = 2."Yij
i
2.'Yij = 0
j
!3
j,
'Yij on trouve alors:

A _
ai =
Xi..
!3j
x.j. - X...
- Xi ..
'Yij =
+ X...
359
14.5.2.4
Le cas du plan sans rptition
Le modle complet avec interaction ne peut tre test et estim que si et seulement si il y a rptitions car le degr de libert de S'k est pq(r - 1) donc r doit tre strictement suprieur 1.
Si r = 1 on doit se contenter du modle purement additif sans interaction:

!-Lij
= i + r3j
L'quatlon
d~analyse
de variance s'crit alors:
Il
avec:
S~
:=-.:
C/2:Cti.
i<=l
il
x.Y
x.,)2
S~ = P:2) x.}
)=1
s~ =
2:22(xij - XL
i
+:X.Y
On compare donc S~ et S~ au terme d'interaction pris pour terme rsiduel ce qui empche de tester l'interaction.
14.6
TESTS ET PROCDURES D'AJUSTEMENT
Ces tests ont pour but de vrifier qu'un chantillon provient ou non d'une variable alatoire de distribution connue Fo(.r:). SOiL F(x) la fonction de rpartition de la variable chantillonne, il s'agit donc de tester Ho : F(x) = FoCt) contre HI : F(x) =1= FoCx). Avant de prsenter les tests sLatistiques les plus courants (test du X2 , de Kolmogorov, de Cramer-Von Mises) il convient de prsenter brivement les procdures empiriques usuelles qui sont une tape indispensable et permettent de s'orienter vers une distribution adapte aux donnes.
14.6.1
14.6. 1. 1
Les mthodes empiriques

La forme de l'histogramme
Celle-ci peut conduire liminer certains modles, en particulier si les proprits de symtrie ne sont pas vrifies. Une fOffi1e symtrique conduit souvent poser l'hypothse de normalit mais il faut se souvenir que la loi de Laplace-Gauss n'est pas la seule avoir une courbe de densit en cloche: c'est galement le cas des lois de Cauchy el de Student entre autres. Une forme fortement dissymtrique peut suggrer l'usage de lois log-normales, gamma, Weibull ou bta de type deux qui ont des courbes de densit assez ressemblantes au moins pour certaines valeurs des paramtres.
360
Le choix entre diffrentes distributions de forme semblable doit s'effectuer alors en Lenan compte du phnomne tudi: ainsi en nabilit on se limitera aux lois exponentielles ou Weibull qui ont une justification physique alors que la loi log~nonnale n'en possde pas ce cas.
14.6.1.2
Vrification sommaire de certaines proprits mathmatiques
On vrifiera sur l'chantillon si certaines relations concernant les paramtres d'un modle sont vraies. Ainsi pour une loi de Poisson on sail que E(X) = V(X) ; on s'assurera que sur un chantillon . Une telle constatation est seulement un indice du caractre poissonnien d'une distribution mais n'en est nullement une preuve. On ne peut d'ailleurs prouver la vracit d'un modle par des moyens statistiques. Un modle est choisi pour sa commodit et sa facult de reprsenter un phnomne.
x diffre peu de
P.QUL uTle variable de Gausson sait que le coefficient d'aplatissement de cette loi est gal 3 et que son coefficient d'asymtrie est nul. On vrifiera sur l'chantillon que les coefficients empiriques correspondants s'cartent peu des valeurs thoriques: on dispose pour cela de tables donnant les valeurs critiques de ces coefficients pour diffrentes luilles d'chantillon (tables A.15 et A.16), voir galement plus loin J'abaque pour le test de normalit.
14.6.1.3
Ajustements graphiques
Pour la plupart des lois de probabilit une transfonnation fonctionnelle simple permet de reprsenter la courbe de rpartition par une droite. La fonction de rpartition empirique d'un chantillon de taille Il diffre peu, si Il st grand, de la fonction thorique F(x). On vritera alors simplement r adquation des donnes au modle en comparant la fonction de rpartition empirique une drote sur un papier chelles fonctionnelles.
" Loi exponentielle

Si la dure de vie X d'un composant est telle que:
P(X
>
x)
exp(-x)
on a alors
InCl - F(x)) = -..-r
:Pour un chantillon de taille 11 on reportera donc pour chaque valeur du temps de fonctionnement x le pourcentage de survivants la date x sur une chelle logarithmique. En pratique on reporte, si les Xi sont ordonnes par va1eurs croissantes, les pOnts de coordonnes :
Xi;
ln ( 1 -
-'-1-
i -
1)
pour
l:::S;i:::S;1l
Les points dOvent alors tre aligns approximativement le long d'une droite dont la pente fournit une estimation graphique de .
141111111Les tests statstiques
361
Loi de Weibull
Ici P(X > x) = exp( -
xr~), d'o:
ln(-ln P(X > x) et on reporte les points de coordonnes:
ln
+ ~ lnx
La pente de la droite fournit une estimation graphique de une estimation de ln .
i3
et son ordonne l'origine
Loi de Laplace-Gauss
Ici la fonction de rpartition n'ayant pas d'expression mathmatique simple on utilise la ., , propnete U
X 111 e mamere . = --- dal " sUivante: (J'

IIi
cr constituent un chantillon d'une variable normale centre-rduite U. Si le nombre des observations est grand, la foncton de rpartition empirique (de l'chantillon) doit peu diffrer de la fonction de rpartition thorique telle qu' ene est issue des tables. Appelons Fi les valeurs de la fonction de rpartition empirique ( Fi
b' . , . b 1 S Iles 0 servallons Xi provIennent dune vana le normale LG(m: cr) alors es
(Xi = - - 111) -
effectif <
Xi) .
A ces valeurs empiriques Fi associons les valeurs correspondantes li')' de la variable normale centre rduite obtenues par la table: alors si la distribution est rellement gaussienne et si
11
est grand,
ut
doit peu diffrer de - - - et il doit donc exister une relation (J'
linaire entre et Xi (le graphe ut, Xi doit tre peu prs une droite coupant l'axe des abscisses en 111 et de pente l/(J'). Cette droite est appele la drote de Henry. ou "QQ plot" pour quantile-quantile, en anglais. Les donnes ayant t ordonnes par valeurs croissantes, on reportera comme ordonne i 3}8 de chaque valeur Xi et non i/n pour des rasons trop compliques pour tre dve-
11+
loppes ici.
Exemple
Reprenons les donnes tudies au chapitre 5 : les variations du taux de la taxe d'habitation de 100 villes franaises. L'histogramme et le la bote moustaches indiquent une rpartition plutt symtrique; est-elle gaussienne pour autant?
362
14_Les tests
SratlstiCTIII
La droiLe de Henry montre des carts importants concernant les queues de nH::h'lli'\"t;~_ on peut mettre en doute la nonnalit de la distribution, mais il ne s'agit pas d'un vritab test o on matrise les risques d'erreur:
99.9 99
(/J C)
95
. ..
"
<ll
rn
80 50 20
5
<ll
0..
:::J 0
1
0
t!I"'''
0.1
10
FIGURE
20
30
40
14.6
14.6.2
les tests statistiques gnraux
Nous prsenterons ici les deux tests les plus classiques, celui du X"! et celui de Kolmogorov-Smirnov, ainsi que celui de Cramer-von Mises.
14.6.2.1
Le test du X2
Soit une variable alatoire X discrte ou discrtise, c'est--dire divise en k classes de probabilits PI. P"!, ... , Pk' Soit un chantillon de cette variable fournissant les effectifs alatoires Nb N'l' ... , N" dans chacune de ces classes.
On a E(Ni ) = npi'
Considrons alors la statistique D2 dfinie comme suit:
Il est clair que cette statistique est une mesure (on pourrait dire une distance) de l'cart alatoire entre les effectifs raliss et les effectifs et intuitivement on sent que D 2 ne peut tre trop grand. D 1 dpend du nombre de termes de la somme k mais on remarque
Il
que tous ces tennes ne sont pas indpendants puisque ~Ni =

i=l
11 ;
il suffit d'en connatre en
fait k - 1.
363
Donc en fait
dpend de k - l, nombre de degrs de libert de D'1,
D'aprs Je rsultal tabli au chapitre 4 propos de la loi multinomiale on sait que:
Si 11 ......;!> 00, D 2 est asymptotiqllemell1 distribu comme une "ariable de que sait la loi de X.
et ceci quelle
D'ou le test du
x-: on rejettera Ho SI d- constate = 2: (n i

"). ,") ,II
llpJ2
est trop
c'est--dire
i""l
npi
suprieur une valeur qui n'a qu'une probabilit
IX
d'tre dpasse par une variable X2
Cas des estimations

Il arrive bien souvent que seule la forme de la distribution soit spcifie. Poisson, ,"-'"Laplace-Gauss, mais qu'on ignore certains paramtres que l'on estime sur l'chantillon. Soit 1 ) le nombre d'estimations indpendantes ainsi ralises. Le degr de libert du X'1 devient alors k i l . Il convient ici de prendre certaines prcautions: les estimations en question doivent tre des estimations du maximum de vraisemblances effectues au moyen des k classes de la distribution, faute de quoi la distribution limite de n:' n'est plus un X2, mas en tout tat de cause, comprise entre les valeurs d'un XI-l et d'un XI-,-, : si k est grand, ce phnomne n'est pas trop important, mais si k est petit il peut aboutir garder inconsidrment Ho en se fondant sur la distribution de 1-1-
Effectifs par classes

La loi de D'1 est asymptotique et l'on admet que D 2 ~ X~-I si "Pi est suprieur 5 pour toute classe (certains auteurs donnent comme condition 3, ou mme l pour une seule classe en queue de distribution). Dans le cas contraire on procdera des regroupements.
Cas des variables continues

Si on a le choix du dcoupage en classes, on peut hsiter entre des classes quiprobables et des classes d'gales amplitudes, mais ces dernires doivent tre dtermines Ci priori. Cependant pour des variables continues, le test de Kolmogorov-Smrnov est prfrable, s'il n'y a pas d'estimation effectuer. Pour des complments, consulter Kendall et Stuart, volume 2, chapitre 30, Tests offit.
Proprits du test
On peut dmontrer que le test du X2 prsent ici est asymptotiquement quivalent au test du rapport des vraisemblances maximales appliqu aux hypothses:
lHI :Pi '* Pm 3i
rHo :Pi
= PlO Vi
364
14 _ Les tests
staltlstqUles
14.6.2.2
Le test d"'ajustement de Kolmogorov
Il s'agit d'un test non paramtrique d'ajustement il une distribution entirement spcifie de fonction de rpartition F(x). Ce texte repose sur les rsultats de Glivenko, Kolmogorov cits en thorie de l' chantillonnage (chapitre 12). Si F;:: reprsente la fonction de rpartition empirique d'un lt-chantil1on d'une variable alatoire de distribution F(x) , on sait que DT! = sup 1 F~'(x) - F(x) 1 est asymptotiquement distribu comme suit: P({;zD,J < y) ~:L
1;=-'"
l)kexp(-2k2y1) = K(y).
La fonction K(y) a t tubule et fournit donc un test de :
. . .... : . . . { H o : . F.(X.) HI F(x)
= *
F()(x) Fo(x)
La rgion critique tant dfinie par DI! > den). Au seuil Cl. = 0.05 et si 1.6276
D'l>
11
> 80, la rgion critique est
DII
>
~
'Hl
1.3581
pour
Q'.
= 0.01
Si
Il
< 80 on se reportera alors la table A.14.
14.6.2.3
Le test d"'ajustement de Cramer-von Mises
La statistique:
est une variable alatoire dont la distribution indpendante de F(x) sert tester Ho : F(x) = Fo(x) contre HI : F(x) Fo(x) car /1W~ est une mesure de l'cart existant entre une rpartition thorique et une rpartition empirique. Sa distribution a t tabule (voir recueil de tables, table A.13).
On dmontre que:
nw;,
-1 +
1212
2: [2i 211 1 -i=

/1
F(x;)
]2
< X/I)'
si les
Xi
sont les valeurs ordonnes de r chantillon
(Xl
< X1'
. "
. 1 - FO(Xi) I_ll i=l 21l alatoire I1W~ a une probabilit ct de dpasser. Au seuil a 0.05 on rejette Ho si llW~
~ . 1 On rejette Ho 51 '") + 2.J
]2 est 5upeneur,a une va1eur que lvanabl e ,. a '
> 0.46136 pour Il grand.
365
Bien que les lois des statistiques Dn et I1W~ ne soient pas connues, lorsque certains paramtres sont estims on utilisera avec profit les rsultats empiriques (tableau 14.5) obtenus par simulation (Biometrika Tables, volume 2) :
TABLEAU
14.5 Test d'exponentialit
Test de normalit
Ho: LG(m,
CT)
Ho : l(x)
1 = Oex p
(-x) ff-
m est estim par X

If
est estim par
~_l_ 22 (x 11-1
i -
X)2
8 est estim par
On rejette Ho : - au seuil
CY.
On rejette Ho :
si (,f;;
ou (1
= 0.05 0.85/-{;; - O.OI)D"

0.126
>
0.895
- au seuil Cl. = 0.05 si (D II - 0.2/n)({i ou (1
+
>
0.26 -/- 0.5/-{;;)
>
l.094
+ 0.5/n)llw; >
ct
0.16/ Il )nw;
0.224
- au seuil
= 0.01
si (-{;;
ou (1
+ 0.85/,f;; - O.OI)D'J >
1.035
- au seuil IX = 0.01 si (Dn - 0.2/n)(-{;; ou (1
+ 0.26
-/- 0.5/...[;;) > 1.308
0.337
0.5/Il)nw~
>
0.178
+ 0.16/n)nw~ >
14.6.3
14.6.3.1
G
Exemples d'application en fiabilit et en phnomnes d'attente

Test du caractre exponentiel d'une loi de survie
Exprience classique
On dispose d'un chantillon de
11
matriels identiques et on note les dures de vie en heures
Exemple numrique:
X;:>
fi
=
X..j
=
par
169
x]
122
Xs
= 58
Le paramtre
F(x)
x est estim
x = - 2:x i
5 ;=1
= 98, la fonction de rpartition estime est
1 - exp - 98 d'o le tableau: 8

0.079 58 0.447 122 0.711
( x)
Xi
133
0.743
169 0.821
F(xi)
366
La statistique de Kolmogorov vaut:
D" =
sup{1 F(x;) - :'1; 1 F(x;)
~ II}
car le maximum est ncessairement atteint en un des points de sauts de la fonction de rpartition empirique. On trouve Dil
a = 0.05).
0.311 soit DI! - - ;
0.2)(_'111 + 0.26 + 0.5) r -{ii
0.84.
L'hypothse Ho d'une distribution exponentielle peut donc tre retenue (avec La statistique de Cramer-von Mises vaut:
F(X;))'
= 0,09133
et la quantit 1 + - n
( 0.16),
IlW~
0.0943 conduit elle aussi accepter Ho.
" Exprience de dure limite avec renouvellement du matriel dfaillant

II est souvent pratiquement impossible de mener bien l'exprience prcdente des que 11 est assez lev car le temps d'tude devient prohibitif. On prfre de beaucoup imposer une dure limite T l'exprience en renouvelant au besoin au fur et mesure les appareils tombs en panne de manire obtenir plus d'informations. Les instants des pannes obissent alors, s la dure de vie est exponentielle un processus de Poisson: en effet si JI = 1 l'appareil en panne tant remplac immdiatement, les instants des pannes successives suivent un processus de Poisson car les intervalles entre pannes successives sont indpendants et de loi "YI ; pour n appareils, le processus total est une superposition de Il processus de Poisson indpendants, ce qui fournit encore un processus de Poisson. Soit fI, t 2, , t k les instants des pannes pendant T; d'aprs le chapitre 11, la distribution conditionnelle des dates de panne, sachant k, est une loi uniforme sur [0, T] ; les instants des pannes t l , t::. . " tl.. tant ordonns, les tJT forment un chantillon ordonn d'une IO uniforme sur [0, 1] si la dure de vie est exponentielle. Le test du caractre exponentiel de la distribution revient alors tester l'hypothse que les t;fT suivent une loi uniforme sur [0, 1], ce qui peut se faire soit par le test de Kolmogorov, soit par celui de Cramer-von Mises.
_ Exemples : 100 appareils sont constamment en service et sur une priode de 200 heures; 5 pannes ont t releves aux instants: t l 51, t 2 = 78, 13 = 110, t.+ 135, t5 = 180. I11III
14aLes tests statistiques
367
Test de Kolmogorov
On cherche le plus grand cart en valeur absolue entre la fonction F(x) = x et les valeurs de la fonction de rpartition empirique (fig. 14.7).
51 78 110 135 1601 200 200 200 200 200

FIGURE
14.7
L'cart est le plus grand pour la premire valeur et vaut D
= ~ = 0.255.
200
En se reportant il la table de la distribution du test de Kolmogorov on voit qu'on peut accepter l' hypothse Hu que la dure de vie obit une loi exponentielle pour tout seuil ct infrieur il 0.20, puisque ct = 0.20, la valeur critique est 0.447.
Test de Cramer-von Mises

I1W- := Il
.,
121l
i= 1
fiJ2 2: [2i 2n 1 - -- T
JI
puisque pour une loi uniforme sur [0, 1]
F(x)
=x :
+ 10 ( 5
1] 0)2 ( 7 200 + 10
IlOl~
'1
1 60
( 1 51)2 ( 3 78 \2 10 - 200 + 10 - 200) 180)2 200
135)2 200
(~ _
19
nOl~ = 0.05192
= 0.95;
P(I1Ol~
D'aprs la table A.13, on peut accepter Ho pour tout seuil a infrieur 0.85 :
P(nOl;'
< 0.447)
< 0.056)
= 0.15
14.6.3.2
Test du caractre poissonnien des arrives une file d'attente
Pendant 100 intervalles de 10 min on a compt le nombre X d'ouvriers se prsentant un magasin pour emprunter des outils, ce qui donne le tableau 14.6 (Kaufmann et Faure, Initiation cl la recherche oprationnelle, Dunod).
368
On veut vrifier le caractre poissonnien de la loi de X : On utilisera ici un test du X2, car la distribution est discrte (rappelons que les tests de Kolmogorov et de Cramer-Von Mises ne s'appliquent que pour des distributions continues).
TABLEAU
14.6
(11 j
-
Xi
llj
100pi
100Pi)!
100pj
5 6 7 8 9 ID
Il
0 018) 0.33
i)5
3 5 6 9 10 1J 12 8 9 7 5
4
12
13
14 15 16 17 18 19 20 21 22 23 24 25
~25
0.74 5.22 1.45 2.52 3.93 5.58 7.26 8.72 9.73 10.12 9.87 9.07 7.86 6.46 5.04 3.75
0.009
0.220 0.060 0.219 0.009 0.007 0.077 0.460 0.126 0.165 0.045 0.000 0.017
2066) 1.80
[]6
1.17 7.37 0.73 1.01
0.255
d 2 = 1.59
On estime le paramtre ~ de la loi de Poisson suppose, par la moyenne empirique qui vaut 15.61. Pour calculer la valeur de D 2 on opre des regroupements aux extrmits pour les classes d'effectifs trop faibles, ce qui laisse 14 classes. Le paramtre ~ ayant t estim non pas sur les classes rsultantes mais sur les valeurs initiales de l'chantillon, la valeur critique pour D 1 est comprise entre celle d'un Xf! et celle d'un XI3' La valeur du d 2 calcul est bien en de de tout seuil de probabilit habituel pour un test: on peut accepter l'hypothse d'une distribution poissonnienne.
Remarque: un esprit souponneux trouverait peut tre cette valeur de dl trop faible, puisque d'aprs les tables il y a 995 chances sur 1 000 pour que XI:! soit suprieur 3. L'ajustement est-il trop beau pour tre vrai? Nous lasserons le lecteur juge ....
369
14.6.4
Tests de normalit
L'ajustement d'une distribution normale des donnes relles justifie un traitement particulier en raison de l'importance de la loi normale. Il est tout faiL dconseill d'utiliser le lest du khi-deux en raison de son manque de puissance et du caractre subjectif du dcoupage en classes. On peut utiliser les variantes des tests de Kolmogorov et Cramer-Von Mises indiques prcdemment, mais ces tests omnibus n'utilisent pas de proprites spcifiques de la loi de Gauss et sont moins puissants que les suivants qui sont d'ailleurs recommands par la norme AFNOR NF X-06-050. Le plus simple utiliser est le test conjoint d'asymtrie et d'aplatissement qui se prsente sous forme d'abaque (c}: annexe). Il suffit de vrifier si le point dont r abscisse est la valeur absolue du coefficient d'asymtrie (skewness) et l'ordonne le coefficient d'aplatissement (kurtosis) se situe l'intrieur, donc vers la gauche de la courbe correspondant la taille d'chantillon.
6.0
b2
5.5
5.0
4.5
4.0
3.5
3-D
2.5
2.0
FIGURE 14.8
370
14.. Les tests
!>laLlSIIQUI~C;
Pour l'exemple des 100 valeurs de la taxe d'habilation on trouve un coefficient d'asymtrie 0.34 et un coefticient d'aplatissement de 4.47 ce qui conduit rejeter l'hypothse de normalit. Le test le plus recommand est celui de Shapiro-Wilk bas sur la comparaison de
une combinaison linaire Sailli; des tendues successives
~\'1
X'I
Les coefficients de la combinaison dpendent de Il et sont donnes dans des tables, que la rgion critique. Les calculs sont programms dans la plupart des logiciels statistiques. Dans l'exemple prcdent les statistiques de Kolmogorov et de Cramer-Von Mises valent respectivement 0.105 et 0.195 et conduisent au rejet de l'hypothse de normalit. Rappelons pour conclure que d'une part ne pas rejeLer une hypothse ne prouve pas sa vracit et que plusieurs distributions peuvent s'ajuster aux mmes donnes, et d'autre part que lorsque que la taille de l'chantillon augmente il devient de plus en plus difficile d'accepter un modle standard de distribution: en effet les lois de probabilit d'usage courant sont des modles simplificateurs peu de paramtres et ne peuvent pas toujours rendre compte de la complexit d'un grand ensemble de donnes.
14.7
QUELQUES LIMITES DES TESTS
Au terme de ce long chapitre il convient de faire les remarques suivantes. Les tests sont un outil essentiel du processus de dcision en faveur ou en dfaveur d'une hypothse scientifique. Cela a pu conduire des excs : un rsultat ne pouvait tre publi dans certaines revues que si un test l'avait dclar statistiquement significatif au risque 5 %. Un point essentiel concerne la taille des chantillons: l'infrence statistique classique a t dveloppe pour traiter des petits}) chantillons de l'ordre de quelques dizaines ou centaines d'observations au plus. En prsence de trs grandes bases de donnes le paradoxe est que tout devient significatif: par exemple, pour un million d'individus, l'hypothse d'indpendance entre deux variables sera rejete au risque 5 % si le coefficient de corrlation linaire est suprieur en valeur absolue 0.002, ce qui est sans intrt pratique. On peut considrer que l'hypothse nulle a t mal choisie, mais le problme persiste: l'hypothse nulle devant tre fixe avant la collecte, ou en tous cas avant l'analyse des donnes, on aboutira son rejet ds qu'elle est trop prcise car tout cart mme minime devient significatif. Le problme se pose dans les mmes termes pour les tests d'ajustement des modles: si les donnes sont des donnes relles et non simules, on aura tendance rejeter le modle. Il ne faut pas s'en tonner puisqu'un modle est une simp1ii1cation de la ralit: comment imaginer que l'on puisse reprsenter des m11ions d'observations avec seulement 2 ou 3 paramtres ? Ce n'est pas d'ailleurs pour cela qu'il faut ncessairement abandonner le modle, qui peut avoir d'autres vertus ... L'analyse des grandes bases de donnes amne ainsi repenser la notion de test et conduit des recherches nouvelles sur la validation (voir chapitre 19). Un autre problme se pose quand on effectue un trs grand nombre de tests sur les mmes donnes, par exemple en gntique pour savoir si certains caractres sont prsents. Il d'un cas semblable aux comparaisons multiples (voir paragraphe 14.5.1.4) mais de ampleur. Le risque de rejeter tort une des hypothses nulles crot rapidement avec le nombre de tests. Il faut alors recourir la thorie du contrle du taux de fausses dcouvertes (Benjamini et Hochberg, 1995).
thodes de .Monte- aria et de

rchantillonnage (Jack-I<nife,
bootstrap)
Dans de nombreux cas, il n'est pas possible d'obtenir des expressions exactes pour les distributions de statistiques de test ou cl' estimateurs, car les calculs sont trop complexes. Les mthodes de simulation el de rchantillonnage qui ont pu se dvelopper avec les progrs de l'informatique pelTI1ettent de substiruer une tude thorique impossible, une dmarche exprimentale o les lois exactes sont approches par des rpartitions empiriques. La simulation alatoire (dite de Monte-Carlo par rfrence aux jeux de hasard) consiste reproduire avec un ordinateur de nombreux chantillons issus de lois connues et effectuer pour chacun de ces chantllons les calculs ncessaires, qui sont ensute synthtiss.
15.1
GNRATION DE VARIABLES ALATOIRES
la base des mthodes de Monte-Carlo se trouve la ncessit de simuler des chantillons artificiels de variables alatoires. Toutes les mthodes reposent sur la gnration de variables uniformes.
15.1.1
Gnration de variables uniformes sur [0 ; 1]
Bien qu'il existe des procds physiques de ralisation de variables unifolTI1es (roue de loterie par exemple) ils ne sont gure compatibles avec l'informatique et la ncessit de disposer trs rapidement de grands chantillons. On recourt donc des algorithmes de gnration de valeurs comprises entre 0 et 1 : un algorithme tant par nature dterministe, on parle alors de nombres pseudo-alatoires. Un bon algorithme doit pouvoir raliser des suites trs grandes de nombres qui ont en apparence toutes les proprits d'un Il-chantillon de variables indpendantes et identiquement distribues. Il est donc important de tester la qualit d'un gnrateur: on utilise pour cela des tests classiques d'ajustement et d'indpendance. Les mthodes les plus employes sont bases sur des suites rcurrentes (qui fournissent donc ncessairement des suites priodiques). La mthode multiplicative congru entieHe de Lehmer est la plus connue: ri + 1 ari modulo m, c'est--dire que ri 1 est le reste de ari divis par m. En pratique on prend possible.
111
le plus grand possible afin d'avoir la priode la plus grande
372
15I11III Mthodes de Monce-Carlo et de rchantillonnage (Jack-knife.
DOclr"h.....s
On peut montrer que si Cl est de forme 8t 3 et si ro est un nombre entier positif' quelconque la priode de la suite engendre est 111/4. compris entre et 1 sont alors considrs comme pS(~ud.oallalloes. 1 c'est--dire comme un chantillon de la loi uniforme sur [0, 1]. Les nombres
_l_'-
111
Sur ordinateur on choisira gnralement III = 2f1 - 1 o p est le nombre de bits d'un machine (le premier bit est inutilisable car rserv au signe). De plus la division par 2p aise faire sur ordinateur car elle correspond une troncature. Un choix classique est
Cl
= 7 5 = 16807, ou
li
= 2 16
+3
= 65539 avec
III
= 231
15.1.2
/5.1.2.1
Mthodes gnrales de tirage d'un chantillon artificiel de n valeurs d'une variable alatoire X continue
Inversion de la fonctiolJ de rpartition
La mthode suivante s'applique lorsque F- 1 a une forme analytique simple. Soit F(x) la fonction de rpartition de X. La variable Y = P(X) est uniformment distribue sur [0, 1]. En effet: Donc si l'on tire 11 nombres au hasard uniformment rpartis entre 0 et l : rI_ r~, ... , rI! l'chantllon cherch (x" X2," ., x ll ) sera dtermin par Xi = p-l(ri) ; cette mthode est dite de l'anamorphose}) (fig. 15.1).
F(x)
x
FIGURE
15.1
On dit que l'on a simul la variable X.
15.1.2.2
Mthode du rejet de von Neumann
CetLe mthode est applicable lorsque la densit de X est support born et reste finie. On supposera que 0 ::; X::5 1. Soit m un majorant de f(x). On tire un nombre U uniformment rparti entre 0 et 1 et ensuite un nombre V uniformment rparti entre 0 et m (fig. 15.2).
1S_Mchodes de Monte-Carlo et de- rchantllonnage (Jack-knife. bootstrap)
373
-------------------r---------------:
v
f(u}
FIGURE
15.2
Il
Si V < f( U) on conserve U qui est une ralisation de X et on pose
= x sinon on rejette
U et on recommence.
En effet la probabilit conditionnelle qu'une valeur U soit sachant que U = .\: vaut PCV <j(x)) = j(x)/m, la probabilit inconditionnelle est l/m (rapport de la surface sous la courbe de densit la surface du rectangle), donc d'aprs la formule de Bayes: f(x) dx
P(x
<
<
+ dx/U est garde) = -/- =

lm
111
j(x) dx
Cette mthode est recommande pour simuler les lois bta de type re la loi bta de type II par la transformation Y = X/ 1 - X.
r dont on peut ddui-
La mthode du rejet peut conduire dans certains cas rejeter un trop grand nombre de valeurs. U ne amlioration notable de la mthode du rejet consiste utiliser une autre fonction de densit g facilement simuJable, telle gue cg(x) 2: f(x). On alors un couple (y ; tt) de
, . ependantes de Y cl e densIte g et de . fea l"IsatlOns Ind'
Il
'1': unliorme, S)
li
f(y) < --,
cg Cv)
y est accepte
comme ralisation de X de densit f(x), Sinon on rejette la valeur y et on recommence, Si X est
support born, on prendra par exemple pour Y une loi triangulaire.
FIGURE
15.3
374
15_Mthodes de Monte-Carlo et de rchantillonnage
(Jack~knife,
bootstrap)
Si s est la surface comprise entre les deux courbes, on montre que le taux de valeurs acceptes l vaut-. s+l Lorsque la distribution simuler est trop complexe, ou que sa densit n'est connue qu' un facteur multiplicatif prs comme dans le cas de distributions (1 posteriori en statistique baysienne, on utilise actuellement des mthodes dtes MCMC (Monte-Carlo Markov Chalns) qui consistent simuler une chane de Markov qui converge vers la distribution simuler. Les MCMC dpassent le cadre de cet ouvrage et nous renvoyons le lecteur intress l'ouvrage de C. Roberl (2001).
15.1.3
15.1.3.1
Mthodes spcifiques
Variable de Bernoulli X de paramtre p
On tire un nombre au hasard entre 0 et l : 1:
Si r < p, X I ; si r > p, X = o.
partir de la variable de Bernoulli on peut simuler une variable binomiale @(n ; p) en utilisant le fait qu'une binomiale est une somme de Il variables de Bernoulli indpendantes.
15.1.3.2
Loi 'Y p avec p entier
La fonction de rpartition d'une variable X suivant une loi "YI est F(x) = 1 - exp( -x). La mthode de l'anamorphose nous donne, si r est un nombre alatoire uniformment distribu 1 - exp( -x) soit x -ln(1 r). Comme 1 - r est aussi unifonnment entre 0 et 1 : r distribu sur ID, 1] il suftit pour simuler X de faire:
x
= -ln r
Une variable X suivant une loi "YI' est une somme de p variables "YI indpendantes, d'o la ln ri ln r2 ... - ln r" si p est entier soit: formule de simulation: x =
= -ln(nr;)
1=1
15.1.3.3
Lo; de Poisson gjJ(A)
La mthode consiste simuler un processus de Poisson de cadence 1 sur une priode gale - puisque le nombre d'vnements survenant sur cette priode suit une loi de Poisson !?}l(-) (fig. 15.3).
"il
E2
FIGURE 15.4
Les intervalles successifs OEI ; EIE2' ... EIIEII+1 suivent indpendamment des lois "Y,. On engendre comme en 15.1.3.2 des variables 'YI et on ajoute leurs valeurs jusqu'
1S_Mthodes de Monte~Carlo
et de rchantillonnage (Jack-knife, bootstrap)
375
dpasser . tel que : calcul:
la ralisation ln ri
Il
de la variable de Poisson 0'>(.) est alors le plus grand entier
Il
;=11
2:: -
<
. ou ce qui est quivalent mais plus conomique du point de vue
II ri > exp( - .)
i=1
11
15.1.3.4
o
Variable de Laplace-Gauss
La mthode suivante repose sur le thorme central-limite
X~, ~ LG{Q; 1) . Ce thorme lant valable en particulier pour des variables uniforaI'J/l mes, la somme de Il variables unifom1es est donc approximativement une loi de Laplace-Gauss d'esprance n/2 et de variance 11/12 car la loi continue uniforme sur [O~ 1] a pour esprance l/2 et pour variance 1/12.
En pratique ce rsultat est acquis ds que
Il
= 12 d'o la mthode:
Pour obtenir une ralisation d'une variable LG{6 : 1) ajouter 12 nombres au hasard tirs entre 0 et 1. Soit
rI< 1'2' . , 1'12
ces nombres et soit X une variable LG(11l ; CT) ~ on a alors:
x =
III
+ cr(.~ri
1=1
- 6)
Mthode de Box et Mller

Cette mthode exacte dcoule du thorme suivant:
Si U et V sont deux variables uniformes sur [0, 1] indpendantes, alors X et Y dfinies par:
X
y
(-21n U)I/2COS 271"V (-21n U)I/2 sin 2'iTV

y
sont deux variables normales centres-rduites indpendantes.

En effet en notant p2
X~ et uniforme sur
X:!.
y 2 et 0
= Arc tg -. p2 et e suivent indpendamment des lois

X
1.0, 2'iT]. L'algorithme de Box-Muller revient simuler l'angle e par 2'ITV et le rayon p par (-2 ln U)1/2 puisque xy2 suit une loi exponentielle (voir chapitre 4,
paragr. 4.3.1). D'o pour deux nombres alatoires ri et r::!, deux ralisations de la loi LGW ~ 1) indpendantes.
o
Mthode polaire de Marsaglia
C'est une variante de la prcdente utilisant une technique de rejet qui vite le calcul des sinus et cosinus.
376
15_Mthodes de Monce-Carlo et de rchancillonnage (Jack-knife, OOC)1:';tl-:'",\
On engendre deux nombres alatoires r, et r2 puis LIt = 21'[ - 1 et Il'1 21"2 - 1 (UI et Il., sont unifonnment rpartis sur l'intervalle [-1 ; + 1]). On rejette lit et Il} si + ll~ > l de garder un couple uniformment rparti dans le cercle de rayon unit (fig. 15.5).
ur
FIGURE
1S.S
On montre alors que p1
= VT + V~ est une variable uniforme sur [0,
1] indpendante du
Ut ,VI . couple ( - , -= ou - et - sont 1 COSinUS et l SinUS de l' ang 1 a1" e e' e eat01re ppp p rparti entre 0 et 2'li ; d'o la formule:
V,)
U
2
e umiormement
'f,' '"
et La simulation d'un vecteur alatoire gaussien dont les composantes ne sont pas indpendantes peut s'effectuer en recourant une ACP : si l'on connat la matrice de variance covariance !, on en cherche les vecteurs propres qui vont fournir des combinaisons linaires gaussiennes et indpendantes que l'on simule aisment. On peut galement utiliser la transformation de Mahalanobis. 11 suffit ensuite de faire faire la transformation inverse (voir chapitre 4).
15.2 15.2.1
APPLICATIONS Simulation de fonctions de variables alatoires
Soit Y une variable s'exprimant comme une fonction f(X I , Xl, ... Xp ) de variables de lois connues. Il sera en gnral difticile de trouver la loi (densit ou fonction de rpartition) de Y mme dans des cas simples. Si les Xi sont indpendantes, il est facile d'obtenir un chantillon artificiel de Y: il suffit de gnrer indpendamment une valeur de chaque variable, de calculer f et de recommencer. On peut ainsi rsoudre le problme du calcul d'incertitudes en physique ou chimie o J'on connat l'incertitude sur chaque variable sous la forme Llx qui
1s_Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife, bootstrap)
377
n'est en fait que deux fois l'cart-type de X si l'on se rfre la loi normale. L'incertitude
y sera estime par la moiti de l'cart-type de Y.
Exemple: y =
X~X2 o XI suit une loi normale N(3 ; 1), X'2 une loi triangulaire et X3 une
3
loi gamma de paramtre 3. XI, X::. X 3 sont des variables indpendantes.

0,4
0,3
0,5
0,4 0.3 0,2
0,3
0,25
0,2 0,15 0,1
0,2
0,1 0
0,1 -2 0
2
Xj
0.05
2 x.2 3 4
6
X3
8 10 12
En simulant 1000 valeurs de Yon trouve:
40
Moyenne:: 2,4915 Mdiane l,66n1 Variance 8,71593 cart-type = 2,95227 Minimum = -0,0406886 Maximum = 48,2368 tendue =48,2n5 Asymtrie = 5,79394 Aplatissement = 65,2381
30
20
10
7 Y
17
Avec 1000 ralisations, les rsultats sont suffisamment prcis: Intervalle de confiance 95, 0 % pour la moyenne: [2,30852 lntervalle de confiance 95, 0 % pour l'cart-type: [2,82831
2,67448] 3,08768]_
15.2.2
Calcul d'une intgrale par la mthode de Monte Carlo
o et
Toute intgrale peut se ramener par un changement de variable une intgrale entre l. Or 1 =
(1 g(1) dt est l'esprance de g( U) o U est une variable uniforme sur [0, Il. Jo
378
15/111111Mthodes de
Monte~Carlo
et de rchantillonnage (Jack-knife. bootstrap)
l A partir d'un chantillon de la loi uniforme U, on estmera 1 par 1 = A
2: g(Ui) moyenne
1
Il
11
des valeurs de la variable g( U). Ona:
E()
1 et
V() =
~ V(g(U 11
1 ==
= d-IJ[g(U) - g(v)J:! du dv
L.11
Le procd peut tre amlior en remarquant que:
li
'g{t) -p(t) dt pU)
o p(t) est la densit d'une variable T dfinie sur [0, 1] : un choix judicieux de p(t) appele fonction d'importance permet de diminuer considrablement la variance de l'estimation. En effell = E - - d'ou:
[9CT)].
peT)
o les points li ne sont plus choisis uniformment entre 0 et 1 mais selon la loi de densit p. On a alors:
V() =
~ II[(g(1)) - (g(1I)]2 dt du
2n
p(t) peu)
La variance est alors nulle si p est proportionnel 9 (ce qui suppose 1 connu ... ). En pratique on prendra une fonction d'importance dont l'allure est voisine de celle de g. Ce type de calcul est surtout utile pour l'valuation numrique d'intgrales multiples.
1S.2.3
Distributions d'chantillonnage de statistiques complexes
La simulation permet galement de trouver la distribution approche de statistiques complexes, et mme de statistiques simples quand la population a une distribution peu maniable.
Il suffit de rpter N fois la simulation d'un Il-chantillon de X pour obtenir N valeurs de la statistique d'intrt T: si N est assez grand, on aura une bonne prcision.
_ Exemple: Si U est une variable alatoire uniforme sur [0: 9] le milieu de l'tendue d'un Il-chantillon est un estimateur de fJ /2 que l'on notera T. Quelle est la distribution et la variance de T pour 12 = 5 ?
En prenant 11 = 1, on simule N = 1000 chantillons de 5 valeurs d'une loi uniforme, on calcule chaque fois T, d'o sa distribution empirique. Une simulation donne 1 = 0,5003752
s = 0, 1106459
1S_Mthodes de
Monte~Carlo
et de rchantillonnage (Ja.ck-knife, bootstrap)
379
0,10
0,25
0,40 Tl
0,55
0,70
0,85
Remarque: ce n'est pas l'estimateur sans biais de variance minimale qui est
Il + ] - - sup(X1;"'; XIl) et dont 1 d'lstn'b' est lSUlvante : a utlOn a ' 21l
15.2.4
Donnes manquantes et imputation multiple
Il est frquent d'avoir des valeurs manquantes dans des tableaux de donnes (donnes omises, refus de rponse, erreurs etc.), Avant de savoir comment traiter le problme, il faut s'interroger sur le mcanisme qui a produit une valeur manquante pour une variable Y Pour simplifier, nous nous placerons dans le cas o une seule variable numrique prsente une valeur manquante, Le mcanisme est dit non-ignorable ) si la probabilit que Y soit manquant dpend de la vraie valeur de Y (exemple: la probabi1it de ne pus donner son revenu est d'autant plus grande que le revenu est lev), Des modles spcifiques sont alors ncessaires pour prendre en compte ce mcanisme,
380
15_Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife. bootstrap)
Dans le cas contraire on dira que la donne est manquante alatoirement (<< missing at
random ). Deux options principales s'offrent au praticien:

ignorer la donne manquante en supprimant l'individu de l'analyse, mais on voit vite que s'il faut supprimer tous les individus dans ce cas, on risque d'appauvrir fortement }' chantillon ; remplacer la valeur manquante par une valeur plausible: c'est l'imputation. Il existe de nombreuses mthodes d'imputation: remplacer la valeur manquante par la moyenne des valeurs non-manquantes (mais on ne tient pas compte des autres variables) ; effectuer une rgression multiple o Y est explique par les autres variables sur les donnes compltes. Ces mthodes dites d'imputation simple souffrent d'un dfaut majeur: elles sont dterministes en ce sens que deux individus qui ont les mmes valeurs des autres variables auront la mme valeur impute de Y, ce qui n'est pas raliste et condui t une diminution artiticielle de la variance. Il vaut mieux tirer au hasard une ralisation de Y, considre comme une variable alatoire, dans la loi conditionnelle de Y/X,. X:z, ... XI" d'o l'utilisation des techniques de simulation. La solution la plus labore rendue possible par les moyens de calcul actuels est l'imputa .. tion multiple; on effectue plusieurs tirages, ce qui conduit plusieurs tableaux de donnes que l'on analyse sparment. Les rsultats sont ensuite regroups pour tudier la variabilit attribuable aux donnes manquantes. Le problme est en ralit assez complexe et ncessite une approche baysienne : si l'on utilise un modle de rgression pour estimer la valeur manquante Y = 130 + 13 IX 1 + ... I3pX" + E, il ne suffit pas de tirer des valeurs dans la distribution du rsidu E, mais il faut tenir compte du fait que les coefficients I3j du modle sont estims, donc alatoires. On doit donc tirer aussi des valeurs des I3j dans leur distribution a posteriori qui elle mme dpend des valeurs manquantes. Nous renvoyons le lecteur intress l'excellent petit livre de Paul D. Allison (2001).
15.3
MTHODES DE RCHANTllLONNAGE
Les mthodes de simulation exposes prcdemment permettent d'obtenir des distributions d'chantillonnage d'estimateurs dans le cas classique o l'on dispose d'un modle paramtrique J(x ; 6). En l'absence de modle raliste, ce qui est souvent le cas en pratique. comment simuler? En d'autres termes comment tirer des ralisations d'une distribmion inconnue? Ce problme paradoxal se rsout en Lrant dans une distribution proche de la distribution inconnue et la meilleure en l'absence d'information, n'est autre que la distribution empirique. C'est Je principe des mthodes de rchantillonnage o on va tirer au hasard des observations dans l'chantillon dont on dispose. Dans le bootstrap on effectue des tirages avec remise, alors que le jack-knife procde par tirages sans remise.
15.3.1
Le bootstrap
Soit une variable X de loi F inconnue; on dispose d'un chantillon (Xh X2 .. , x,J et on veut tudier par exemple la distribution d'un estimateur T d'un certain paramtre e, calculer su variance, en donner un intervalle de confiance.
1S_Mthodes de MonteCarlo et de rchantillonnage (Jackknjfe. bootstrap)
381
L'ide de cette mthode due B. Efron repose sur le principe lmentaire suivant: Si Il est grand F,~' est proche de F, on aura donc une bonne approximation de la loi de T en utilisant F,~t: la place de F. On est donc amen tirer des chantillons de n valeurs dans la loi F,t ce qui revient rchantillonner dans l'chantillon x" X:h . XII ; autrement dit effectuer des tirages avec remise de 11 valeurs parmi les n valeurs observes: les valeurs observes Xl' X2' . , XII sont donc rptes selon les ralisations d'un vecteur multinomia1 KI' K 2 , KI! d'effectif Il et de probabilits Pi gales l/n.
'!
Lorsque 11 n'est pas trs lev on peut numrer tous les chantillons possibles quiprobables (il yen a 11/1) sinon on se contente d'en tirer un nombre B suffisament grand l'aide d'une technique de tirage dans une population finie. Si le nombre de rplications B tend vers l'intini, la moyenne de toutes les estimations bootstrap converge vers l'estimateur du maximum de vraisemblance empirique (c'est-a-dire utilisant la loi Fin et permet ainsi d'estimer sa variance. En pratique on se contentera de quelques celHaines de tirages au plus. Le calcul d'intervalles de contiance peut se faire par : - La mthode des percentiles qui consiste simplement reprer les quantiles souhaits dans la distribution des B valeurs. C'est la mthode la plus simple. L'approximation normale: on calcule la moyenne et l'cart-type des B ralisations et on utilise un intervalle 1,96 cart-types. 11 faut bien sur vrifier la normalit approximative de la distribution des B valeurs. - D'autres mthodes plus complexes ncessitant une estimation de la variance pour chaque chantillon rpliqu (voir Davison & Hinkley, 1997).
_ Exemple : bien que ce ne soit pas un chantlIon alatoire, reprenons les donnes du chapitre 5 sur les valeurs du taux de taxe d'habitation de tOO communes franaises. On souImite obtenir un intervalle de confiance pour la mdiane qui vaut 17,625 et on effectue pour cela 1000 retirages.
On trouve la distribution suivante:
40
~
30
Moyenne 17,7872 Mdiane 17.625 cart-type:: 0.630658 Minimum 15.87 Maximum = 19.39
~ 20
co
u
Cl
& 10
17 18 19 20
:;
mdianes
L'intervalle de confiance des percentiles est [16,70 18,92] en prenant respectivement la
25<: et ta 97SC valeur ordonne.

L'intervalle avec approximation normale [16,55 19,02]. _
382
151111111Mthodes de
Monte~Carlo
et de rchantillonnage Uack-knife. bootstrap)
Le bootstrap est donc une mthode trs gnrale qui permet de rpondre des problmes jusque l quasi impossibles rsoudre comme l'tude de la variabilit de rsultats d'analyses factorielles (valeurs propres, vecteurs propres etc.) ou l'estimation de variance dans des sondages complexes. Il faut cependant tre conscient que si la taille 11 de r chantillon de dpart est faible, il y aura en gnral sous-estimation de la variabilit: les intervalles de confiance auront tendance tre trop petits (couverture insuffisante). En effet le rchantillonnage ne permet pas par dfinition d'engendrer des valeurs autres que celles dj observes, ce qui peut tre gnant pour des variables numriques, mais l'est moins pour des variables quaHtatives o en gnral, toutes les modalits sont observes, au mOns marginalement. Cela tant, le bootstrap est une mthode d'tude de la variabilit intrinsque un chantillon.
15.3.2
Le Jack-knife
Cette technique a t propose par Quenouille pour diminuer le biais d'un estimateur et reprise par Tukey ~ elle est moins performante que le bootstrap.
15.3.2.1
Dfinition
11.
Soit T un estimateur calcul sur un chantillon de taille
On nOle T-i l'estimateur calcul sur le (11 - 1) chantillon obtenu en enlevant l'observation i et on appelle pseudo-valeur Tt :
L' estimateur Jack~klltfe est alors la moyenne des pseudo-valeurs:
TJ
2:: Tt 11 i= 1
II
1
ce qui donne 7j = T - (n - 1)
2:: (7j -
1/
T).
11 i= 1
La variance de l'estimateur Jack~kllife est alors donne par:
15.3.2.2
Rduction du biais
Supposons que E(T) En effet:
+ -, alors E(TJ)
n
E(T) - (n
6.
-
E(TJ )
= 6
+~
11
1)(E(T_ i )
E(T
(n -
1)[6
11 -
+ -('-'8
n-l
6-
~]
11
1 =6+--a+--a
a
11 11
1S_Mthodes de Monte*Carlo et de rchantillonnage (Jack-knife. bootStrap)
383
titre d'exercice on peut vrifier que la mthode du Jackkll~re applique la variance S2 donne l'estimateur S*1, et que app1que x on retrouve X. Le calcul du Jackkn(fe est surtout utile pour des statistiques biaises dont le biais est trs difficile calculer (coefficient de corrlation par exemple).
15.3.2.3
Intervalle de confiance
J. Tukey a mis la conjecture suivante:
SJ
qui permettrait d'obtenir des intervalles de confiance indpendamment de toute hypothse sur la loi de X et en se servant uniquement de l' infonnation apporte par les donnes. Cependant cette conjecture est manifestement fausse dans certains cas: la mdiane en pnrticulier car les T_ i ne peuvent prendre que deux valeurs diffrentes (si Il est pair). Il vaut mieux prendre comme degr de libert ie nombre de pseudo-valeurs rellement distinctes diminu d'une unit, ce qui condut des rsultats souvent acceptables.
La rgression simple
Considrons un couple de variables alatoires numriques (X, Y). Si X et Y ne sont pas indpendantes, la connaissance de la valeur prise par X change notre incertitude concernant la ralisation de l' : elle la diminue en gnral, car la distribution conditionnelle de Y, sachant que X = x, a une variance qui est en moyenne infrieure la variance de Y: EIV(YIX)] :::; Vey) d'aprs le thorme de la variance totale (il est toutefois possible que VeylX = x) > Vey) pour certaines valeurs de X). Lorsque l'on peut admettre que le phnomne alatoire reprsent par X peut servir prdire celui reprsent par l' (causalit, concomitance, etc.), on est conduit rechercher une formule de prvision de Y par X du type Y= f(X), sans biais E[Y Y] = 0, ainsi qu' valuer l'ordre de grandeur de l'erreur de prvision que r on mesure par la variance de E y Y. On cherchera bien sr minimiser cette variance. Nous tudierons le cas thorique en recherchant la formule de prvision idale (au sens des moindres carrs), plus spcialement si cette formule est linaire avec un cart-type conditionnel constant cr(EIX = x) = cr (homoscdastict), puis le cas usuel o les variables ne sont connues qu' travers les valeurs d'un chantillon.
X sera dit variable explicative ou prdicteur; y sera dit variable explique ou critre.
Certaines proprits seront seulement nonces, le lecteur tant renvoy aux dmonstrations faites dans le chapitre sur la rgression multiple.
16.1 16.1.1
LE MODLE THORIQUE DE LA RGRESSION SIMPLE l'approximation conditionnelle
tant donn deux variables alatoires Y et X, la recherche d'une fonction f telle que !(X) soit aussi proche que possible de Yen moyenne quadratique a dj t aborde au chapitre 3, paragraphe 3.3.2. On sait quef(X) = E(YIX) ralise le minimum de E[(Y - !(X)fl car E(YIX) est ta projection orthogonale de Y sur l'espace L~ des variables du typef(X) (fig. 16.1). espace contenant L\ droite des constantes.
388
16.La rgression
FIGURE
16.1
La qualit de l'approximation de Ypar E(YIX) est mesure par le rapport de corrlation:

, TlNx
V(E(yjX))
Varance explique Vanance totale
Vey)
= cos-a
.,
La fonction qui, une valeur x de X, associe E(YjX = x) s'appelle fonction de rgresSIon de Yen X, son graphe est la courbe de rgression de Yen X. On peut alors poser Y = E(YjX)
E
+ E, o E est un rsidu nlatoire pas toujours ngligeab1e.

0 car E(Y)
a pour proprit d'tre d'esprance nulle: E(E)
= E(E(YjX).
De plus, E est non corrl linairement avec X et avec E(Y j X), car E est orthogonal L~. La variance de
E
ou variance rsiduelle est alors V(E)
(1 - Tlr'/x) Vey) .
16.1.2
Cas o la rgression est linaire
Ce cas, le plus important dans la pratique, est celui o E(YIX) CY + 13X. (Ceci se produit en particu1ier si X et Y suivent une loi normale deux dimensions). On a donc:
1
y =
QI.
f3X
+ El
QI.
En prenant l'esprance des deux membres de la relation E(YjX)

E(Y) ==
0:
f3X, il vient:
I3E(X)
La droite de rgression passe donc par le point de coordonnes (E(X), E(Y)). On a:
y - E(Y)
I3(X - E(X)
+E
+
E[E(X E(X))]
en multipliant par X - E(X) de chaque ct et en prenant l'esprance:

E[(Y E(Y))(X - E(X))]
I3E[(X - E(X))2]
soil cov (X, Y) = f3V(X) il reste:
+ cov (E, X) car E(E) = O.

cov(X, Y)
V(X)
Mais, comme E est non corrl avec X,
16_La rgression simple
389
L'quation de la droite de rgression est donc:

E(YjX) - E(Y)
= cov(X,
(Ty
V(X)
Y) (X
E(X)
d'o:
y = E(Y)
p-(X - E(X)) crx
Comme E est non corrl avec X, on peut crire, en prenant la varance des deux membres:
Vey)
(Ty = p- -:; V(X) +
V(E)
cri
VeY) = p2V(y)
V(E)
Comme on a vu que V(E) = (1 - TlI'/x)V(Y), on retrouve le fait que si la rgression est , ",.linaire :
p- = 1ljx
.,
.,
Rappelons que dans ce cas, il est inutile de chercher une transformation de X, autre que linaire puisque E(YjX) est la mei11eure approximation possible de Y parf(X).
16.2
AJUSTEMENT SUR DES DONNES
On dispose de 11 couples (Xi' Yi) ; i = 1, ... , Il constituant un n-chantillon d'observations indpendantes de (X, Y). On suppose vraie l'hypothse:
E(l'jX)
= Ct +
~X
E.
Le problme est donc d'estimer Ct, J3 ainsi que la variance cr:! du rsidu
La mthode qui va tre dveloppe s'applique encore si la variable X n'est pas alatoire, mais contrle par l'exprimentateur (c'est le cas par exemple quand on mesure Y diffrence de potentiel aux bornes d'une rsistance pour diffrentes valeurs de l'intensit du courant: l'intensit n'est pas alatoire, mais Y l'est, par suite des erreurs de mesure entre au Ires ). ou impose par 1a nature des choses (l'est une grandeur mesure diffrentes dates, x" ... , XI! ; X est donc le temps). Il suffit alors de supposer que pour chaque observation, on a Yi = Ct + ~Xi + Ei o les Ei sont des ralisations indpendantes d'une variable E d'esprance nulle et de variance constante cr:!, quel que soit Xi' On parle alors de modle linaire plutt que de rgression linaire. C'est parce que les proprits de la mthode des moindres carrs ne dpendent que des lois conditionnelles X fix que l'on peut traiter indiffremment la rgression linaire et le modle linaire par les mmes techniques. On prendra garde cependant de ne parler de corrlation entre Y et X que lorsque X est alatoire. De nombreux modles non linaires se ramnent facilement au modle linaire par des transformations simples.
390
16 _ La rgression simple
Ainsi le modle y = ax':', trs utilis en conomtrie (lasticit constante de )' par rapport il x ; 13 coefficient d'lasticit), devient un modle linaire en passant aux logarithmes: y' = ln y, x' = ln x et alors l = ln 0'. + I3x'. Il en va de mme pour le cas du modle croissance exponentielle: y = suffit de poser y' = ln y pour avoir y' = ln Cl + 13x.
Cl
exp({jx) ; il
Le modle logistique souvent pos pour rendre compte des variations d'un taux de rponse y exp(O'. + I3x) . , . (compris entre 0 et 1) en fonction d'une excitation x : y = 1 + exp(O'. + f3x) se Imeanse en posant y'
= ln 1 _
Y On a alors y'
= 0'. + f3x.
Cependant le modle y = 0'. + exp(l3x) n'est pas linarisable, tandis que le modle y = Cl + f3x + '"Yx"2 est linaire, mais est deux variables explicatives si on pose x 2 = Z et y = a + 13x + 'YZ (voir rgression multiple).
16~2. 1
Estimation de 0:, (3, rr 2 par la mthode des moindres carrs
La mthode des moindres carrs due il Gauss reprend sur l'chantillon la proprit que E(Y/X) = 0'. + !3X est la meilleure approximation de Y par X en moyenne quadratique. On cherche donc il ajuster au nuage des points (Xi' Yi) une droite d'quation y* = li + bx de telle sorte que
2: (Yi - Y:Y:! soit minimal (fig. 16.2).

;;1
fi
x
FIGURE 16.2
On tudie ensuite les proprits de li et b en tant qu'estimations de l'estimation cr:! de cr:! que l'on en dduit. La mthode lmentaire de dtermination de a et b est la suivante:
0'.
et f3 ainsi que
2:(Yi - y?'f =
fi
2:(y; -
il -
bXif-
= F(CI,b)
391
Ce minimum est atteint pour

Il
oF
aa
= - = 0, ce qui donne les deux quations:

a
bXi)
iJF ab
~ (Yi
Il
= 0 :::}
=0
y = a
+ b"i
LXi(Yi i=l
11
il -
!JXi)
dont la solution est:
= ;"..;=...::1_ _ _ _ _ _
~ (Yi - Y)(Xi - x)
r'5:
Sx
d'oll:
y* =
y + r -'- (x
SI'
x)
Sx
La droite des moindres carrs passe donc par le centre de gravit du nuage et sa pente est cr l'analogue empirique de la pente de la droite de rgression p....2:. cr., Puisque les Yi et, dans le cas de la rgression, les Xi, sont des ralisations de variables alatoires, il ne faut pas perdre de vue que x, )i, T, sx' Sy' a, b, sont des ralisations de variables alatoires.
THORME 1
a, b et y* sont des estimations sans biais de

b est une ralisation de la variable alatoire B :
(,
f3 et de E(YjX = x)
+ I3x.
L (Xi
B
i=l
Il
Il
X)(ij - Y)
2: (X,. ;=1
X)2
Pour montrer que E(B) = 13, nous a1lons montrer en fait que E(x')(B) :::::; 13 o Elr,}(B) dsigne l'esprance conditionnelle de B connaissant les valeurs Xi = Xi des variables Xi' Comme l'esprance de l'esprance conditionnelle est l'esprance de B on aura E(B) = 13 afortiori :
~(Xj
1=1
11
x)E(x')(Yi
Y)
Or E("')(Yi )
= ( + I3xi par hypothse de rgression
linaire, et aussi alors:
392
16.La rgression simple
Il
L(x; - X)2
Donc:
Elx')(B)
= A _i=_1_ __ IJ
Il
2:(Xi - x)2
i=1
on a donc: Comme a
d'ou
y-
bi,
Cl
est une ralisation de A = Y - BX, et, par le mme procd:

E')(A) = E(r,)(y) - xE(X')(B)
Ct
+ I3x - xl3
donc
1E(A) = Ctl
puisque E(YIX
= x)
Ct
+ I3x,
= a
+ bx est une estimation sans biais de Ct + I3x.
On peut montrer de plus que B n'est pas corrl avec Y: on a tout d'abord la simplification suivante:
2:(Xj - X)Yi
b=_i_ _ _ _ __
2: (x;
car: La covariance conditionnelle de B et Y Xi fixs est donc:
=0
_
cav(B; Y)
= cov
(:?(Xi -
x)Y; _)
") ;
2: Cri i
j
=
;
") 2:(x;
i
cov(Y; : Y)
x)-
2:(x; - x)-
-Or cov(Y; ; Y) = COV(Yi ;
~ L1)) = 11
- , car Yi et
Il
1) sont indpendants si
"* j
; il vient:
car 2:(x; - x) = O. B et Y sont non corrls conditionnellement aux 1 marginalement.
Xi'
ils le sont donc
Cependant, le fait d'tre sans biais n'est qu'une qualit mineure pour des estimateurs. Le thorme suivant (pour une dmonstration, voir le chapitre sur la rgression mulliple) prouve la qualit des estimations obtenues, ceci sans rfrence aucune loi de probabilit.
393
THORME
(GAuss-MARKOV)
C
A et B soll! panni les estimateurs sans biais de variance minimale.

Montrons que la variance conditionnelle de B est:
et fj fO/lction linaire des Yi' ceux de
L(XI - x)2rr 2
En effet:
puisque Xj Iix, Yi = u Comme A =
fjXj
+ E. Donc
V(Y;/X j
Y - BX on a V(A)
= \fOl
= .\) = + x2 V(B) Xi
V(E)
a-2.
fixs, d'o:
ej = Yi
Pour exprimer = V(E), il est naturel de penser utiliser la variance des rsidus Y c'est--dire la quantit que l'on a minimise : ~(Yi y;I'f.
t,
On montre alors (cf rgression multiple) le thorme:

THORME
LeVi 82=
Yif~
est LIlle estimation sans biais de rr 2.
_i_ _ _ _
n-2
16.2.2
Soit
Proprits des carts rsiduels

1
e,
)' .
y/ r cart rsiduel.
THORME
Les ej SOllt de moyenne 1lulle.
_ Dmonstration
Comme y;':
2;. ej
1
= Ji + b(x, -
x), on a 2;.ej =
1
~(Yi
r
y;I')
2;:(Yi 1
y) -
b2;(x j
1
x) donc
_
= 0, ce qui prouve que les ej ne sont pas des ralisations indpendantes d'une variable
alatoire.
394
1 La variance empirique des ei est donc gale Il
2: eT et esl note s;/x et est appele variance

'
rsiduelle. On a alors le rsultat suivant:
En effet:
16.2.3
Cas o le rsidu t suit une loi normale
Tous les rsultats tablis prcdemment supposaient uniquement E(YlX) Si on admet maintenant que
CI)
= Ct + f3X.
suit une loi LG(O ; <T), on a tout d'abord:
LG(Ct + fjx ; <T). b) B, A, Y* suivent, les Xi tixs, des lois de Laplace-Gauss car ils sont des combinaisons linaires de lois de Laplace-Gauss:
Y/X =
X E
c) A, B,
'1
sont les estimateurs de variance minimale de
Ct,
fj, <T2
l''l) A" (Il - L (Td) - - . , - - =

(T-
2:CYi
l'
y;"f
(T-
.,
v/r 'al" . ') . ependante -".,-' est une re IsatlOn d''une vanabl e X~-2 10d' <T-
., ns-
de Y, de B et de A.
Remarque: A et B ne sont pas indpendants.

Les points c) et d) seront dmontrs dans le chapitre concernant la rgression multiple. L'usage des lois de A et B suppose
(T
connu, ce qui n'est pas vrai en gnral.
395
(8
Puisque - - - - - ' - - - - cr
(8 E
- nS;;" LG (0 1) et -~,_. cr-
x;;-:! sont . d' tn epen dantes on a :
...,fn - 2 suit un ~l-J
ce qui permet de donner des intervalles de confiance pour La relation prcdente s'exprime usuellement par:
(B -
13.
On trouve de mme:
(A - ex)
Application: Loi de r quand p En remplaant B par R ~r et s.'-1x

x
= 0, cas de la rgression entre variables alatoires. =
Quand p
0, on a
13 = 0 (hypothse dite de non-rgression).
s.,.~ 1 -
R:! il vient facilement:
~ ~1I
1 - R-
2 suit un T"-2
16.3
TESTS DANS LE MODLE LINAIRE
16.3.1
Analyse de variance de la rgression
Effectuons la dcomposition classique:
e est suppos LG(O ; cr).

On voit aisment que ~(y/ - Y)(Yi - y;r.)
1
= O.
2:(Yi - y)2
= 2:(Yi
i
y;':f + 2:(yt
y)2
Donc:
Somme des carrs Somme des carrs totale rsiduelle
Somme des carrs explique
396
On sait que:
Si l'hypothse Ho : seulement:
13 = 0 (hypothse de non-rgression linaire) est vraie et dans ce cas
Puisque
13 = 0,
on en dduit alors que
2: '., i
(y* - }if
(J
suit un X? car on sait que
----~,- - - suit un
a-
Xf comme carr d'une variable LG(O ; 1).
Le thorme de Cochran s'applique et ~(Yi " et alors:
Y;"f et ~(Y;" -
y):2 sont donc indpendants
2:(Y/ - Yi
_i_ _ _ _
(n
2) suit un F( l ; Il
2)
si j3 = 0
~(yt - Yif
i
Le test du caractre significatif de la rgression est alors immdiat. Ce test est d'ailleurs identique celui du coefficient de corrlation linaire : Ho: P = 0 { Hl: P::f= 0 qui, lui, n'a de sens que si X et Y sont alatoires. En effet, le rapport prcdent n'est autre que l
Rl
(Il - 2) car:
Et comme J'on sait que (r:z- 2f' = F (1 ; Il lest portant sur R.
2) le test prcdent est donc quivalent au
16.3.2
Test d'une quation de rgression spcifie

et ou
Il s'agit de lester simultanment les deux coefilcients de rgression. Comme A et B ne sont pas indpendants, il serait incorrect de tester successivement cr puis 13.
397
Nous donnerons ici uniquement le rsultat qui est un cas particulier de celui obtenu en rgression multiple. Un tel test est souvent utile pour savoir si une droite des moindres cafrs diffre significativement de la premire bissectrice.
Si Ho est vrae, la quantit
~[Il(a - ctof + 2nx(a 2cr-
ct())(b - (3()) + (b - (3o)l2:xl]

i
est une ralisation d'une variable F(2 : Il grande.
2). On rejettera Ho si la quantit trouve est trop
16.3.3
Test de linarit de la rgression
Ce test, qui semble fondamental, a pour but de savoir si l'hypothse E(YjX) = ct + (3X est fonde. Il devrait donc prcder toute tude de rgression linaire. En fait, ce test ncessite d'avoir des observations rptes de l' pour chaque valeur de X, ce qui est souvent difficlle sauf dans le cas d'une exprimentation o X est un facteur contrl. En effet, on cherche savor si la courbe des moyennes conditionnelles est une droite, en d'autres termes si les J'j, moyennes des llj observations de l' lorsque X = Xi' sont peu prs lies linairement aux Xj' Pour cela, on compare le coefficient de corrlation linaire ,2 au rapport de corrlation l
- >.n-C). - -yf n-...J J.J
empirique:
el
car, dans l'hypothse de rgression linaire 1lTx
p:!.
On montre alors que si l'hypothse Ho : 1lTx

(el r 2)/k - 2
plOU
E(Y/X)
-
cv.
+ f3X est vraie alors:
(1 - e 2)/11
F(k
2; Il
k)
o le est le nombre de valeurs distinctes de X. On rejettera Ho si le rapport est trop grand. Dans ces conditions, on pourra aussi tester les hypothses Ho: 1lf'lx = 0 contre HI : 1lT'/x 0 atin de savoir si une formule de rgression autre que linaire peut tre essaye.
En effet, si l1I'IX
= 0 est vraie, on sait que (1
e 2/k ')
1
k
e~)/Il -
= F(k -
1~
Il -
k).
16.3.4
Contrle des hypothses du modle linaire
Les proprits de la mthode des moindres carrs dpendent essentiellement du fait que le rsidu E a une variance constante quel que soi t x, et qu'il n' y a pas d' autocorrlation entre les diverses ralisations de E. Il convient donc toujours de s'assurer de la validit de ces deux hypothses, ce que l'on fait usuellement en tudiant de manire empirique (des tests rigoureux sont dlicats tablir) les valeurs des carts rsiduels el' e2' ... , e'l qui ne doivent pas laisser apparatre de tendan" ce quand on les confronte graphiquement aux Xi par exemple, ou de dpendance en tudiant la liaison ei' ei+l' Dans le cas contraire, les estimateurs b, Cl, ne sont plus de variance minimale (ils restent toutefois sans biais). On se reportera au chapitre suivant pour l'tude dtaille des rsidus.
398
Le test de Durbin-Watson
Ce test est couramment utilis en conomtrie pour s'assurer de la non corrlation des rsidus. On suppose ici que les observations sont ordonnes par le temps et on teste l'hypothse Ho: non corrlation des Ei contre HI : El processus auto-rgressif d'ordre 1 c'est--dire Ej = PEj-l + Lli avec p > 0 (le cas p < 0 est en gnral sans intrt). On prend pour statistique de test:
Il
d =
2: (ei /1
ei-If
;...1=...;2'--_ _ __
l:er
I=}
qui doit tre voisin de 2 si H() est vraie. On vrifie sans peine que 0 :s; ri $ 4. p peut tre estim par 1 de d ont t tabules (voir annexe table A.17).
d/2. Les valeurs critiques
Un cas simple dthtroscdasticit

Il est frquent d'avoir V (E/X = x)
le prdicteur. Les estimateurs des moindres carrs sont sans biais mais ne sont plus de variance minimale. En crivant la vraisemblance des Yi on a :
= cr 2.t2
l'cart-type du rsidu crot linairement avec
L(y" )'2"", )'11) =

')_)"/2 cr ( _Ii
/III" Xl
11
exp(-~ , (Yi ')cr1""
Les estimateurs du maxmum de vraisemb1ance sont alors les estimateurs de variance minimale et on volt sans peine que le problme est quivalent une rgression usuelle sur des donnes transformes. En posant
yI =
Xi
x: =
- et E;
Xi
E ' = - on a i elfet : y! = en
Xi
13
Ei axi + - =
Xi
13
+ cv:; + E~
avec V (ED = cr2 , Il suffit donc d'ajuster une droite au nuage
(~ ~ .\; ~). Xi
La constante du modle transfonn est la pente de la droite de rgression du modle originel et vice-venw, On obtiendra alors, bien sr, une analyse de variance de la rgression moins flatteuse mais des estimations plus prcises des coefficients de rgression.
16.4 16.4.1
APPLICATIONS Exemple (tableau 16.1)
Les donnes suivantes, communiques par M. Tenenhaus, professeur HEC, concernent un chantillon de 24 offres de vente d~appartements situs dans le 5c et le 6C arrondissements de Paris, en 1975.
399
TABLEAU
16.1
y Prix en milliers de Francs

X Surface en mtres carrs
130 28
~
280 50 250 35 78 30
1
800 ]96 350 86 375 105

..i
1
268 55 300 65 200 52 190 155 32 270 80 ,
500
110
320 60 200 40 85
1
250 48 325 70 495 100

l
Prix
Surface
378 90 85 , 28
245 52 295 60
Prix
Surface
:
1
1
1
20
La forme du nuage de points autorise un ajustement linaire (fig. 16.3). On pose donc le modle Y ex + I3X + E et on supposera E E LG(O : cr).
FIGURE
16.3
Des calculs lmentaires conduisent aux 5 rsultats suivants, qui contiennent toute l'information utile:
x=
70,0833 m2
Sy
y=
309,333 103 F
r
.lx
= 44,6915 m2
= 182,9505 103 F
li
0,9733
On en ddut tout d'abord les estimations
et b de ex et
L'quation de la droite d'ajustement est donc y* =
f3 : Cl = 30,0921 3,9844x + 30,0921.
et b
= 3,9844.
Notons ici que les estimateurs des moindres carrs sont invariants par changement d'chelle des variables au sens suivant: Si y est multipli par une constante k (passage du franc l'euro par exemple), la pente b et l'ordonne l'origine a sont multiplies par la mme constante k.
400
Si X est multipli par une constante k (par exemple surface exprime en pieds carrs au lieu de m2)~ la pente est divise par k, l'ordonne l'origine ne change pas.
Dans tous les cas, le coefficient de corrlation ne change pas, pas plus que les statistiques de test. La variance rsidueJle s;lx s'obtient directement par la formule si/.r = (l soit:
S~/x = 1762,1816
,.2)S;,
d'o
srlx
d'o
= 41,98
On en dduit:
A')
(T-
= - - S'VI.I' 11 - 2 -
11
..,
1922,38
rr
= 43,84.
Les estimations des variances de A et B sont donc:

=
cr
1 -r ) ( Il + ~ = (16,6455)2 = 277,0724 ilS;

-
L'hypothse de normalit de
permet de donner des intervalles de confiance pour ces

..,
' X~-2; 1 ta bl e a cr2 de la distribution de X 22 degrs de libert fournit les bornes 1) et 36,8 pour un intervalle de probabilit risques symtriques de niveau 0.95 (fig. 16.4).
.. " ') Ils"lx '1"' . d Iverses estlmatlons ; mnSI, pour cr-, ~ est une rea IsatlOn d' une vaflabl e
11
FIGURE
36.8
16.4
L'intervalle de confiance est donc donn par:

24s~/:c ') 24s;/x ---- < cr- < ----
36.8 Il 1149,25 < cr:! < 3844,76 33,90 < cr < 62,01
soit avec 1 -
ct
= 0,95.
401
Le test de signification de la rgression peul tre effectu par l'analyse de variance prsente dans le tableau 16.2 :
TABLEAU
16.2
Source de variation Explique par la rgression Rsiduelle Totale
Somme des carrs

76L 009 42292
Degr de libert
Carr moyen 761 009 1 922,4
1
23
22
803 301
761 009 La valeur f constate 1 922,4 = 396 est videmment trs signiticative. On pourrait aussi, ce qui est strictement quivalent, tester Ho : fl = 0 contre HI : 13 de libert : comparant b / h une variable de Student 22 = Il - 2
t=-=
0 en
b l!
199 '
ce qui excde tout seuil usuel. On peut donc accepter Ho. On aura remarqu que 19,9 = (396)1/:1,
Les deux tests prcdents sont aussi quivalents au test du coefficient de corrlation linaire Ho : p = 0 contre Hl: p =f:. O.
16.4.2
Prvision d'une valeur ultrieure
Supposons maintenant que l'on dsire prvoir l'aide du modle la valeur de Y pour une valeur non observe Xo de X. La prvision naturelle est y(~!' = li + bxo. Afin d'encadrer cette valeur, cherchons ce que l'on appelle un intervalle de prvision. On a vu que V(;!: est distribu selon une loi: LG (
+ I3xo; (J" ~l + (x0 _ .

11
i
- ' <)' )
2:(x/ -
If
On sait d'autre part que la loi de Y/X =.t() (en abrg Yo) est une 10 LG(a + I3xo; cr) par hypothse du modle de rgression linaire. Y() et y(;l: sont deux variables indpendantes, car Yo ne dpend que de la valeur future Xo tandis que Y(t ne dpend que des valeurs dj observes (xj, X1' ' , " XJI) si l'on suppose les ralisations de E indpendantes.
" Yo - y~. suit alors une loi LG ( 0; cr ~ 1
i + - + (xCl .
Il
2: (Xi - xf
- "r)1 ) et donc:
Ya - y(t -cr--~-rl=::::::':======= suit une loi de Student TII -'2

~
+-+-~-11
(xo - xf
2: (x; - If
402
En remplaant Xo par sa valeur et YI;!: par a + bx(), on peut donc obtenir un intervalle probable pour Y{). Cet intervalle sera d'autant plus grand que Xo sera loign de x. Ainsi, pour notre exemple, on trouve dans la table que P(I Til-li En prenant Xo
< 2,074) = 0,95.
laD, on a y~:
= 428,53. = 43,84~1 +
0,06
+~+
11
(xo - x)2
2:(x, - if
+ 0,03 = 45,15
d'o:
1
Yn - 428, 53 1 4 45,15 < 2,07
l'intervalle de prvision 95 % est donc 334,89 malgr un coefficient de corrlation trs lev.
< Yo < 522,17, ce qui est assez imprcis
La variance de l'erreur de prvision dpend de deux termes: la variabilit intrinsque de la variable Yo qui est gale u l et la variabilit de l'imprcision des estimations de CL et !3 dans la formule de rgression qui dpend pour l'essentiel de la taille de l'chantillon et peut donc tre rduite contrairement la premire source de variabilit. La figure 16.5 montre la droite des moindres carrs encadre par les deux types de contour
95 % (ce sont des arcs d'hyperboles).
800
600
x
d:
400
200
40
16.5
80
Surface
120
160
200
FIGURE
Rgression du prix sur la surface.
Les limites les plus troites correspondent l'intervalle de confiance de la valeur moyenne E(Y/X = x):
V'" -
..,. +
fu
~1
Il
+ -(x -- x)2- -
2: (x; - if
i
403
Les limites les plus loignes correspondent l'intervalle de prdiction pour une valeur unique:
y*
1 trr ~ 1 + _ +
Il
(. .\:
.t
_)2
2:(Xj - X)2
t est la valeur de la variable de Student telle que P( 1 Til-li> r) = 5 %.
16.5
UNE MTHODE DE RGRESSION ROBUSTE
La mthode des moindres carrs est sensible la prsence de donnes aberrantes situes loin de la droite de rg:resslOn. Ainsi sur l'exemple suivant, on a y*
14,55
+ 0,59X avec r
0,978
i 1
2
3 4 5 6
Y 11,797 24,719 45,505 47,752 64,606 71,348
x 4,1379 17,241 37,241 55,172 88,275 95,862
20
40
60
BD
100
Si l'on modifie le dernier point en le remplaant par y = 97,191 L'quation devient y* = 38,41
100
80 60
40 20 0
14,482
+ 0,28 x et le coefficient de corrlation tombe ,. =
0,29.
0
20 40
60
80
100
On peut remdier ce problme de deux faons : - en liminant les points aberrant~ ; - en utilisant un autre critre que les moindres carrs. La premire solution peut tre risque et n'a de valeur que s'il s'agit effectivement de donnes errones ou appartenant une autre population, ce qui n'est pas toujours simple dterminer.
404
161111111La rgression simple
La deuxime approche a l'avantage d'tre automatique et de fournir un modle robuste convenant la majorit des donnes, en perdant toutefois les proprits d'optimalit des estimateurs des moindres carrs, mais ces proprits ne sont valables que sous certaines conditions. De nombreuses techniques robustes ont t proposes; l'une des plus anciennes (elle a t propos en 1757, soit 50 ans avant la mthode des moindres carrs) est la rgression dite LI o on minimise la somme des valeurs absolues:
22IY;': ;=1
Il
li -
bXil
mais son utilisation a longtemps t nglige car contrairement aux moindres carrs, il n'existe pas de formule donnant les coefficients et leurs erreurs standard. Des algorithmes spcitiques sont ncessaires. Dans l'exemple prcdent cette mthode fournit l'quation y* = 19,66 + 0,51x et le graphique suivant montre que la solution LI (en pointill), avec la donne perturbe reste plus proche de la solution initiale (en gras) que celle des moindres carrs (en tiret large). Une particularit de la rgression LI est que la droite optimale passe toujours par deux des points de l'chantillon (ici les points 4 et 5) mais on ne peut savoir l'avance lesquels. On pourra consulter B irkes et Dodge (1993) pour de plus amples dveloppements.
100 80
...
60
40 20
rtII
0 0 20 40 60 80 100
16.6
RGRESSION NON PARAMTRIQUE
Lorsque la forme de la courbe de rgression est compltement inconnue, on peut utiliser une estimation non paramtrique de la courbe f(x) = E(Ylx = x) d'une manire semblable l'estimation non-paramtrique de la densit ((f 13.9). En se donnant un intervalle [x - 1112 ; x + lz/2] centr sur x et de longueur h, le rgressogramme consiste compter le nombre de points appartenant l'intervalle et calculer la moyenne des y correspondants. De manire analogue l'estimateur de la fentre mobile, on peut crire cette estimation:
E (Ylx
= x) = ,--'
K[_Xlz - , -_Xi]V'
=....:....1---===------.::::::-
K[x - Xi]
lz
avec
K(u)
SI
- - ::; Il ::;-
i= 1
405
On obtient l'estimateur de Nadaraya-Watson en utilisant un noyau K continu, d'o une estimation continue de la fonclion de rgression. Son caractre plus ou moins lisse dpend de h que l'on peut optimiser au moyen d'une mthode de validation croise: on cherche la valeur h qui minimise la somme des carrs des carts en omettant chaque fois dans la formule de Nadaraya-Watson la valeur Xi quand on fait l'estimation en ce point. L'estmation non paramtrique de la rgression fournit seulement des valeurs point par point. Cela peut paratre gnant si l'on cherche un modle explicite, mais si l'on ne cherche pas extrapoler en dehors du domaine observ de la variable explicative. on a toujours une prvision. Sur des donnes de B. W. Silverman reliant l'acclration Y subie par le crne d'un motocycliste en fonction du temps X aprs l'impact, on voit clairement l'intrt de la mthode, car il n'y a pas de modle simple pour la courbe de rgression (calculs effectus avec XploRe
Estimateur de Nadaraya.Watson h
=2.8
50-
>-50 ~.
.....
. ... . ..." .. ."

"
~
.....
50
.>-
o
-50
"
-100 -
1 .' .. "."
-100
10
20
30
40
50
10
20
30
40
50
X
FIGURE
16.6
La rgression multiple et le modle lina.ire gnral
Ce chapitre gnralise le prcdent. L'accent y est mis sur les interprtations gomtriques. La complexit du sujet ne provient cependant pas tant de la difficult des calculs, mais plutt de la diversit des approches possbles que nous rsumerons ici par la distinction entre modle linaire et rgression multiple. L'apparente simplicit d'utilisation des programmes de calcul, qui servent aussi bien pour la rgression que pour le modle linaire, car les formules de rsolution sont en pratique les mmes, masque en ralit de profondes diffrences quant au modle utilis. La pratique de la rgression multiple est assez dlicate comme l'illustreront les paragraphes
17.3 et 17.4.
17.1 17.1.1
17. 1. 1.1
RGRESSION ET MODLE LINAIRE Rgression entre variables alatoires

Aspect empirique : la recherche d'un ajustement linaire
On a mesur sur Il individus p + 1 variables reprsentes par des vecteurs de Xl' X:!, .. " x p : y est la variable expliquer ou critre, les Xj les variables explicatives ou prdicteurs.
1Ft y,
Les varables explicatives seront gnralement supposes tre linairement indpendantes. ce qui ne veut pas dire qu'elles sont statistiquement indpendantes (en particulier, elles peuvent tre corrles). Il faut donc proscrire absolument la terminologie utilise dans certains ouvrages o y est dite variable dpendante et les Xi variables indpendantes. On cherche alors reconstruire y au moyen des X,i par une formule linaire. On pose y* = bol possible de y.
+ b)x) + b2x2 + ... + b"XII et on
dsire que y* soit le plus proche
Si l'espace des variables lR"est muni comme d'habitude de la mtrique D, on que lIy - Y*IF~ soit minimal: c'est le critre des moindres carrs.
y* est alors la projection D-orthogonale de y sur le sous~espace W (de dimension (p en gnral) engendr par les variables 1, Xl' x 2' ... , XI' (fig. 17.1),
1)
408
17.La rgression multiple et le modle linaire gnral
FIGURE 17.1
Soit X la matrice
11
lignes dont les colonnes sont 1, xI> ... , Xp
X=
(on exigera Il
>
p)
X'II'
On sait que l'oprateur de projection X(X'DX)-IX'D. Donc:
D~orlhogonal
sur W a pour expression
En posant b =
on a : y* = Xb par hypothse, donc:
En particulier, si D
1
~ 1:
Il
= (X'X)-lX'y
et
b est appel vecteur des coefficients de rgression.
17.1.1.2
Modle probabiliste: rhypothse de rgression linaire multiple

Xj,
Si l'on veut justifier autrement que par sa simplicit l'ajustement linaire de y par les on peut utiliser le modle probabiliste suivant:
On suppose que y, XI' x::!, ... , x p constituent un 11 chantillon d'observations indpendantes de p + 1 variables alatoires ~J, <PI' <Pl , <Pp'
17_La rgression multiple et le modle linaire gnerai
409
On sait que la recherche de la meilleure approximation de donne par l'esprance conditionnelle E[ ~I / 'P l' 'P:!, ... , 'Pp]'
ll' par une fonction des
'Pj est
On pose alors l' hypothse de rgression linaire multiple:
E[ll' / 'P l' 'P:!, ... , 'Pp] = f3() +

p
2: f3 'Pj
j j= 1
l'
qui conduit au modle 11'
f3()
2: f3/Pj + E o E est une variable alatoire d'esprance

j=1
nulle non corrle avec les 'Pj' On note estimer le mieux possible.
cr:! la variance de E. En rgle gnrale, les coefficients f3o, f3b ... , f3p et cr:! sont inconnus; il s'agit donc de les
E
Entre les ralisations Yi' Xii' . . . , x ip ' ei de lV, 'PI, ... , 'Pp' dduite de l'hypothse de rgression linaire multiple:
il existe la relation suivante,
Yi
f3()
1'=1
2: f3j x ij + e
JI
i = 1,2, ... ,11
ce qui s'crit matriciellement 1y =
Xp + el avec:
el
p = ~I
f3"
[~Ol
e2
e=
e"
Sous des hypothses assez gnrales, on montrera au paragraphe 17.2 que le vecteur b obtenu par la mthode des moindres carrs est la meilleure estimation du vecteur p et que l'on peut dduire simplement de Ily - y*ll:! la meilleure estimation sans biais de cr 2 qui sera:
rr-
~")
= Ily-Y*112
n-p-l
17.1.2
17.1.2.1
Le modle linaire gnral

Aspect empirique
Supposons que pour chaque ligne de X on ait Il. reptitions indpendantes de }'. On a donc un nuage de k vecteurs YI' Yl, ... , Yk dans [RI! (fig. 17.2). On obtient ce genre de situations lorsque l'on fixe par exemple certaines valeurs des conditions exprimentales (temprature, pression, etc.) et qu'on mesure plusieurs
410
17.La rgression multiple et le modle linaire gnral
fois de suite un phnomne pour les mmes combinaisons de valeurs des conditions exprimentales. Le modle linaire consiste alors postuler que le centre de gravit du nuage des
YI ; Y2, . ; YI;. se trouve dans W: g =
XI3.
Le problme est alors le suivant: comment, l'aide d'une seule observation y, approximer le mieux possible g ? En effet, en ralit on ne connat la plupart du temps qu'un seul point du nuage. L'approximation g* de g obtenue grce y peut s'exprimer comme la projection orthogonale de y sur W, selon une certaine mtrique 1\11. 11 faut alors choisr cette mtrique M de telle sorte que g* soit le plus proche possible de g. Autrement dit, si l'on rptait l'opration de projection avec YI' Y2' ... ; Yk' les k approximations g'l', g~, ... ; g'};. devraient tre le plus concentres possible autour de g avec g')' = X(X'l\tIX)-1 X'MYi (fig. 17.3).
FIGURE
17.2
FIGURE
17.3
" faut trouver la mtrique M telle que l'inertie du nuage des la mtrique M rendant rinertie des
g;"
soit minimale.
Si V est la matrice de variance-covariance du nuage des Yi' on dmontre alors que minimale est la mtrique V-l .
gt
Ce rsultat constitue le thorme de Gauss-Markov gnralis{l). Comme gt est de la forme Xb i , ceci entrane alors que le nuage des hi est le moins dispers possible dans 1R1'+ 1, car la matrice de variance des b i est gale (X'X) fois cel1e des g1!. Avec une seule observation y, on dduit:
g* = X(X'V- 1 X)-l X'V-1y b = (X'V- I X)-l X'V- 1y
I_Pour une dmonstration complte on consultera l'ouvr-age de Cailliez et Pags, Introduction l'analyse des don-
nes, p. 323 327.
1l_La rgression multiple et le modle linaire gnral
411
17.1.2.2
Modle probabiliste
Ce modle n'est que la gnralisation du cas prcdent pour une infinit de rptitions. On suppose que y est une ralisation d'un vecteur alatoire d'esprance X~ et de matrice variance ~. Ceci revient poser le modle y X(3 + e o e est une ralisation d'un vecteur alatoire centr de matrice de variance ~. Le problme est alors d'estimer au mieux (3. Suivant la notation de C. R. Rao, nous noterons en abrg un tel modle par le triplet
(y ; X~ ; "k).
On montre alors que le vecteur b = (X'"k-1X)-IX'"k-1y est, sous des hypothses assez larges, l'estimation de variance minimale de (3 . b est appel estimation des moindres carrs gnraliss, par opposition (X'X)-IX'y estimation des moindres carrs ordinares (mco).
i 7. 1.3
Synthse
Dans les deux cas, rgression linaire et modle linaire, on a t amen poser le mme modle: y = X~ + e. Cependant, les hypothses sont diffrentes: dans le modle linaire X est un tableau de donnes certai nes, alors qu'en rgression X est alatoire. Le vecteur des rsidus e a une matrice variance quelconque "k dans le modle linaire, alors qu'en rgression le vecteur e a pour matrice variance cr::!I car l'hypothse d'chanti1lonnage suppose les observations indpendantes. Les objectifs sont galement diffrenls ; en rgression, on veut ajuster au mieux y ; dans le modle linaire, on cherche estimer l'effet moyen des variables explicatives. Si l'on considre dans le modle de rgression linaire multiple les variables explicatives comme des constantes, ce qui revient travailler conditionnellement aux <.pi' il est clair que ceci revent au mme que de poser le modle linaire (y ; X~ ; a 2I,J si tous les individus ont le mme poids. En fait, [a plupart des proprits de la rgression multiple s'obtiennent conditionnellement aux variables explicatives comme en rgression simple, ce qui nous autorisera ne plus parler que du modle (y ; X(3 ; cr:2I). Par ailleurs, l'utilisation complte du modle linaire suppose connue la matrice"k. Or, en pratique, on ignore ~ et, faute de mieux, on fait couramment l'hypothse simplificatrice que 2! est diagonale (non corrlation des erreurs) et que tous les termes sont gaux (homoscdasticit), c'est--dire que "k = cr::!I", quitte vrifier a posteriori sur les rsultats la validit de ces deux hypothses. Ceci explique la confusion entre modle linaire et rgression multiple; dans ce qui suit, nous ne ferons plus la distinction, car nous nous rfrerons dsonnais l'unique modle simpJificateur (y; X~ : a 2 ]), en supposant que les poids des observations Pi = 1/11 sont gaux entre eux. Remarquons pour finir que le terme de linaire s'applique en fait au vecteur ~ et non aux variables explicatives; ainsi, la rgression polynomiale li' = 130 + J3I'P + !3::!<.p2 + ... f3 p 'P P est un cas particulier du modle gnral o l'on prend p variables explicatives 'P, 4'2, ... , r.pp.
412
17.la rgression multiple et le modle linaire gnral
17.2
ESTIMATIONS ET TESTS DES PARAMTRES DU MODLE (y ; XJJ ; (J"21)
17.2.1
17.2.1.1
Estimation de
f3 et de
(12
Proprits gnrales
Soit b la solution des moindres carrs: b

THORME
= (X'X)-IX'y.
L
E(y)
b est ml estimateur sans biais de
Il.
_ Dmonstration: E(b) = (X'X)-IX'E(y) car X est constante et est un oprateur linaire.
= Xil par hypothse du modle linaire gnral (E, donc e est d'esprance nulle). Donc: E(b) = (X'X)-l X'XIl = Il
THORME
L
-
1 (DE GAuss-MARKOV) b est de tous les estimateurs salls biais de Il de la Jonne Dy, celui de variance minimale dans le sens qui sera prcis plus loin
_ Dmonstration:
La matrice variance de b est en effet 1 V(b)
V(b)
= rr 2 (X'X)-1/ car:
et
Vey) = V(e) = rr21/1'
= VX'X)-IX'y) = (X'X)-IX'V(y)X(X'X)-l
Il sans biais.
Soit By un autre estimateur linaire de
Soit (X'X)-IX'y - By la diffrence de ces deux estimateurs. Comme ils sont sans biais on a (X'X)-tx'Xj3 = DXp. On a donc DX Comme BX
= 11'+/ car cette relation doit tre vrifie pour tout Il.
+ C.
IJ1+I'
Posons D = (X'X)-IX'
on en dduit: CX = O.
Cherchons la matrice de variances-covariances de By :

V(By)
BV(y)B'
= [(X'X)-l X' + C] cr 2I/1[(X'X)-1 X' + Cl' = rr2 [(X'X)-1 XIX (X'X)-I + CX(X'X)-I + (X'X)-l X'C' + CC']
soit, puisque:
CX = 0
V(By)
= cr2[(X'X)-1 + CC'] = V(b) + rr:!CC'
On en dduit que pour chaque composante de b, b i est un estimateur meilleur que (BY)i et que d'autre part V(By) - V(b) est semi-dtinie positive. (En effet, les termes diagonaux de CC' sont;:::: 0). _
17_La rgression multiple et le modle linaire gnral
413
Ce thorme est un cas particulier du thorme gnral nonc en 17.1.2.1.

THORME
a - = -"------'''--
~,
Ily -y*W
lIy -
Xbll 2
n-p-
n-p-l
est
Ul/
estimateur sans biais de
_ Dmonstration: Considrons (voir fig. 17.4) le triangle rectangle dont les sommets sont les extrmits des vecteurs y, Xb et X(3.
FIGURE
17.4
Soit A le projecteur sur W(A = X(X'X)-IX') et 1
A le projecteur sur W..L.
Puisque y - Xb est orthogonal W, on voit aisment que y - Xb est gal (1 - A)e car e se dcompose sur Wet W..L en Xb - X~ et y - Xb respectivement. Donc y - Xb e/(1 - A)'(I A)e et comme 1 - A est un projecteur:
(1 - A)'
et on obtient alors :
1- A el (1
i,)
(1
A)2 A)e
j
Ily A).
XbU:~ =
L Cl.ijeie
o
Clij
est le terme courant de (1

i,)
Donc E[lJy - XblJ1J =
2: (Yij E(ej e).

cij est le symbole de Kronecker.
1
Comme les ei sont non corrls E(eie) = cija:? o Donc E[lly - Xb112] = a
2: (Yii
i=l
Il
a trace (1 -
A).
On sait que la trace d'un projecteur est gale son rang (car ses valeurs propres sont 0 ou 1), c'est--dire la dimension de l'espace d'arrive qui est ici W.1, Comme dim W p + 1, on a dim W..L = Il P - l :
E[lly XbWJ = a 2 (n - p - 1)
414
1l_La rgression multiple et le modle linaire gnral
17.2.1.2
Proprits supplmentaires si e est gaussien

E
Introduisons alors l'hypothse ei
LG(Q ; a) vi.
La densit du vecteur alatoire y s'crit :
L(y, (3, a)
car
yest alors un vecteur gaussien multidimensionnel; yE Nil (Xa. a~III)'

Les estimateurs de m(u11l1l111 de vraisemblance de (3 et
~
THORME
cr sont .'
=b
(X'X)-I X/y
et
- Il Y 11
Xh 11 2 (qui est biais)
La dmonstration est laisse au soin du lecteur. Conformment il ce qui a t dvelopp dans la partie consacre l'estimation nous allons rechercher des statstiques exhaustives pour les paramtres inconnus et atin d'tudier l'optimalit des estimateurs associs, carla proprit du maximum de vraisemblance ne nous renseigne pas sur l'efficacit des estimateurs.
La densit de y peut s'crire:
L(y, (3, a) =
Soit a(3, (
2 )
_1 ~ - exp - - ? (y'y - 2(3'X'y .., a ''(" 211'yI _a-
(1
le vecteur ligne p
+ 2 composantes:
f3~, j3~, 13;, f3~) (_~, a- a- cr- ..., crLaet :

1
T(y)
[G]
(a(ll, a-)T(y) + C(Il. cr-))
.., .,
On a:
L(y,
Il, cr) = _ ~
(cr-,,211'Yl
exp
o: Le domaine de dfinition de y ne dpendant pas de l'application dfinie par T
Il ni de crl , et le rang de X
tant p + L
= [y/y]
X'y
est bijectve. D'aprs le thorme de Darmois gnralis,
T(y) constitue une statistique exhaustive.
h et cF qui sont fonction de T sont donc les estimateurs sans biais de variance minimale de ~ et cr:!.
17111111La rgression multiple et le modle linaire gnral
415
De plus b transform linaire d'un vecteur gaussien est lui-mme gaussien.
17.2.1.3
Lois des cts du triangle rectangle y, y*,
XI3
(fig. 17.5)
FIGURE
17.5
Ce triangle est rectangle en y* ; le thorme de Pythagore s'crit donc:
Or y - Xb = (1 A)e et Xb - X~ = Ae. On il donc IIeU 2 = e'Ae + e'(I - A)e. e est un vecteur gaussien o les ej suivent indpendamment des lois LG(Q ~ cr). Donc:
.t..J eT
~
"l/"1
(J-
X~
")
Le thorme de Pythagore se transforme alors en thorme de Cochran et on trouve que:

IlXp - Xb11 2 ., -'-'----,--'-'- SUIt un Xpl- 1
cr-
IIy - XbI1 2 SUit un X'i,-p- 1 .. ., -----,=----..;...

cr-
Il
et ces deux variables sont indpendantes comme formes quadratiques de rang p P - 1 (rangs de projecteurs) de Il variables normales centres-rduites. On peut ainsi obtenir des intervalles de confiance pour cr,
+ 1 et
17.2.1.4
1) 2)
Le modle (y ; Xf3
; ~)
Par les mmes procds on peut montrer que: b = (X'~-IX)-lX'~-ly est l'estimateur de variance minimale de p parmi les estimateurs fonctions linaires de y (thorme de Gauss-Markov gnralis). Si l'hypothse de normalit est vrife, b est l'estimateur du maximum de vrasemblance et est de variance minimale.
416
17.La rgression multiple et le modle linaire gnrall
17.2.2
17.2.2.1
Tests dans le modle linaire

Le coefficient de corrlation multiple R et l'analyse de varance de la rgression
R est le coeff1cient de corrlation entre la srie y" Yl, ... , )'1/ et la srie YI':, yi=, ... , y; En d'autres termes, c'est la valeur maximale du coefficient de corrlation linaire simple entre les coordonnes de y et les coordonnes de tout vecteur de la forme Xb (voir chapitre 6).'
Comme tout coefficient de corrlation linaire, son carr s'interprte en termes de variance explique: Variance explique par la rgression Variance des y Si R 2 L Yi
= Yi" tli J'ajustement est parfait.

11
R2 est appel coefficient de dtermination.
Gomtriquement R est le cosinus de 1'angle form par y - y et y* - y dans !R o y est le vecteur dont toutes les composantes sont gales y. Yest la projection de y sur la droite des constantes qui appartient W (fig. 17.6). Voir chapitre 6 ( 6.2).
FIGURE
17.6
D'aprs le thorme des trois perpendiculaires, des constantes.
est aussi la projection de y* sur la droite
Le coefticient R2 est uti1is pour tester la qualit de i' ajustement de y par y* (analyse de variance de la rgression). Il est facile d'crire la dcomposition classique:
- /,(v, 1l'1- 1
1"
-"l
)')-
::= -
1" ~'J 1" >\_ - ' J ~(v' ni -1 - y:)- + - ...Li(v:- - v)1 Il i _1

V'lriancc rsiduelle Variance explique par la rgression
Variance
totale
417
I.(y; - ytf
On sat que un suit
=
2:( v0-/
:1:
xi, si 131 = 131 = ... = 13"

Si
(130
Vp
une loi X;-p-l et on peut montrer que --~-- est quelconque).
131 = 132
... = 131' =
0, alors -= 2:(Yi
(J"-
y)2 suit un X~-I comme variance d'un
chantillon de variables nonnales de mmes lois.
R:' Comme - - - = - - - - - on trouve que si 1 - R~ 2:(Yi quelconque) :
131
f3:!
... =
131'
= () (mais
130
On retrouve comme cas particulier la loi du coefficient de corrlation usuel si p = 1. Le test du R2 est le mme que celui de la nullit de q coefticients de rgression lorsque q p (voir paragr. 17.2.2.3). L'hypothse de non-rgression 131 = 132 ... = 131' = 0 correspond la nullit de coefficient de corrlaLion multiple thorique rJi dans le cadre de la rgression entre variables alatoires. Sous cette hypothse nulle la 10 de rJi est celle cl' une variable bta de type l de paramtre p Il P- 1 p ')(n p - l}p - el on en dduit que E(R2) = - - et VeR:!) = -, . 2 2 Il - 1 (w - l)(Tl - 1) Si l'hypothse de non-rgression n'est pas satisfaite ({IR:! 0), la 10 de R"l ne prend pas une forme aussi simple et R2 est alors un estimateur biais de r!lt"l. On montre en effet que E(R2) =
{ft2
~(l Tl - 1
(n
Il
2 m) + o(~) d'o la dfinition du R 2
"-
ajust j?2 :
R-=-----:...
~,
1) R2 - P
P- 1
o le biais en lin est limin mais qui peut conduire des valeurs ngatives si PJ{! est voisin de O. cu '1" U n ca1 1 e ementalre montre que
(J"A .,
= -Il- ( 1
Il -
17.2.2.2
Test du caractre significatif dlJun des coefficients de rgression
Il s'agit de tester
f3j = 0 contre
13.1
* O.
= 0'2 [(X'X)j~II
o
Soit hj le coefficient de rgression empirique. On sail que V(bj )

l(X}X)j~/] est le terme (j,]) de la matrice (X'X)-I.
418
17.La rgression multiple et le modle linaire
Comme
2: ----'--:-'-'--- suit un X~-I'-" il vient immdiatement que:

i
suit un t de Student Il
P - 1 degrs de libert, ce qui pennet de tester l'hypothse
(3]
= (), car hj suit une loi LG(3j, O'~X'X)ii']).

On peut aussi crire:
lIy - xbll:! [(X'X):: ']

Il -
P - 1
.JJ
Le dnominateur de l'expression prcdente est appel erreur standard ou cart-type du coefficient de rgression et dsign par la lettre s}" (Il s'agit en fat de la racine carre de l'estimation sans biais de la variance de bj)' On prendra garde au fait que les statistiques de test des coefticients de rgression ne sont pas indpendantes car les hj ne sont pas indpendants. On peut par exemp1e trouver un R2 significatif sans qu'aucun coefficient de rgression pris isolment soit significativement diffrent de zro (c'est souvent le cas lorsque les prdicteurs sonL fortement corrls entre eux, voir exemple plus 10n).
17.2.2.3
Test de q coefficients de rgression, test d'une sous-hypothse linaire
Les deux tests prcdents ne sont en fait que des cas particuliers du test plus gnral sUvant qui permet, entre autres choses, de tester la nullit de q coefficients de rgression, crire 131 = f3H)' 132 = une matrice de rang q.
l3:w, .. " I3 q = I3 qu n'est qu'un cas particulier de H(3 = 0, o H est
Le test de Ho : H(3 = 0 contre Hl : H(3 0 s'effectue alors de la manire suivante: on pose y* la solution des moindres carrs y* = X(X'X)-IX'y et y~j1a solution des moindres carrs sous la contrainte H(3 = 9 (on projette sur le sous-espace de HI vrifiant cette contrainte). On montre alors que si Ho est vraie:
"*
ce qui permet de tester Ho. Ce test a pour cas particulier le test simultan de tous les coefficients de rgression
Ho : (3 = 130 contre HI : (3
*-
130'
17- La rgression multiple et le modle linaire gnral
419
Comme
IIXIi - Xbll 2 et Ily - XbW sont indpendantes, on en dduit que:
IIXIl - XbW 1Z - - - - = F(p + Ily - Xhll 2 P + 1
l,Il
P - 1)
En remplaant 13 par Po on peut donc tester l'hypothse nulle. On rejettera Ho si la quantit IIXllo - y*1I 2 11 1 .!!---=--::..---~---=--- est trop grande. lIy - Y*U:~ P + 1 Remarque: Ce dernier test suppose galement une valeur a priori pour 130- Ce n'est pas le test le plus couramment utilis (qui suppose 130 inconnu).
17.2.3
Intervalle de prvision pour une valeur future
Cherchons encadrer la valeur prvue y:r pour un individu supplmentaire pour lequel les variables explicatives prennent les valeurs Xllh .t':!(), - .. , .t'l'O'
Posons:
xo =
alors y,i' = x;) b est une variable alatoire suivant une loi LG(x[)llo; cr~xMX'X)-'xo) d'aprs les rsultats usuels sur les combinaisons linaires de variables gaussiennes. Comme au chapitre prcdent, par studentisation, puisque cr doit tre estim, il vient:
ce qui permet d'encudrer la
vraie valeur Yo'
L'intervalle de confiance pour E( Y/X
= xo) s'obtient en enlevant le 1 sous le radical.
17.3
l'ANALYSE DES RSULTATS
Les principaux problmes abords ici concernent la stabilit des rsultats d'une rgression. On distinguera les questions relatives l'influence d'observations particulires et celles relatives l'intluence des variables sur les estimations (multico1narit). L'analyse des rsidus est galement un moyen de vrifier les hypothses de base du modle.
17.3.1
L'tude des rsidus et des observations influentes
L'tude des rsidus Yi Yi" est fondamentale plus d'un titre: elle permet tout d'abord de reprer des observatons ventuellement aberrantes ou des observations qui jouent un rle
420
important dans la dtermination de la rgression. Ensuite l'tude des rsidus est bien la seule faon de vrifier empiriquement le bien-fond des hypothses du modle: lin homoscdasticit, etc. : les graphes des rsidus en fonction des variables explicatives doivent laisser apparatre aucune tendance. Il est facile d'obtenir la matrice de variance des rsidus puisque y = y - Xb y - Xb est orthogonal Xb d'o Vey) = Vey - Xb) + V(Xb) soit:
+ Xb
u 2II/ = Vey
d'o:
Xb)
+ u 2X(X'X)-IX'
ce qui rappelle que les rsidus sont en gnral corrls entre eux. En dsignant par hi le tmt! terme diagonal du projecteur X(X'X)-IX' on a : avec d'o l'estimation de la variance du rsidu:
2: It
/1
= P
j;
On appelle rsidu studentis la quantit:
Yi -
y;"
rr~
Lorsque
12
est grand les rsidus studentiss doivent rester compris entre - 2 et 2.
Un fort rsidu peut indiquer une valeur aberrante. Cependant une valeur peut tre aberrante sans que son rsidu sot important (voir fig. 17.7).
FIGURE
17.7
Il faut alors tudier l'influence de chaque observation sur les rsultats. On peut tout d'abord tudier l'influence d'une observation sur sa propre prdiction. On appelle rsidu prdit l'cart Yi Y?:"'i) o )'1"-1) est la prvision obtenue avec l'chantillon de (11 - 1) observatjons excluant la i!rru.:.
421
On peut vrifier que Je rsidu prdit vaut )'i - Yi* ; il convient donc d'tre prudent avec 1 - hi des observations dont le hi serait grand. La quantit suivante note Press est une mesure du pouvoir prdictif du modle:
On peut enfin tudier l'influence d'une observation sur les estimatons hj des coefficients de rgression et calculer par exemple une distance entre b et b(_i) o b(-i) est l'estimation de ~ obtenue sans la il!lIle observation. La distance de Cook est r une des plus utilises :
(b - b<_i))'(X'X)(b - b(-i))
(p
+
1
1)a- 2
On montre que:
D=--r"--1 p + J 1 l - hi
hi
Ily* - y(l'-illl:!
(p
1)6 2
ou y~:'1)
= Xb(_i)'
Une distance Di suprieure l indique en gnral une intluence anormale (c}: CookWeisberg, 1982).
17.3.2
la stabilit des coefficients de rgression
L'cart-type s) du coefficient hj est dj un indicateur du caractre plus ou moins stable de l'estimation d'un coefficient. Il est clair que si !Jj est du mme ordre de grandeur que !Jj , ce derner est mal dtermin. La source principale d'instabilit dans l'estimation de f3 est la muIticolinarit : on dsigne par cette expression la situation o les variables explicatives sont trs corrles entre elles. Comme V(b) (X'X)-I rr::!, si les prdicteurs sont trs corrls entre eux X'X est mal conditionne (dterminant proche de 0) et son inverse aura des temles levs. Dans ce cas les paramtres du modle seront estims avec imprcision et les prdictions pourront tre entachs d'erreurs considrables mme si R 2 a une valeur leve. Il esl donc important de mesurer l'effet de la colinarit entre les prdicteurs, cela s'effectue au moyen des facteurs d'intlation de la variance et des valeurs propres de la matrice de corrlation. Il sera commode pour la suite de supposer que toutes les variables sont centres et rduites sans (ce qui ne change pas le R2 ni les valeurs prvues) et que l'on effectue donc une constante: (X'X) est donc une matrice de taille p et b un vecteur p composantes. On a donc (X'X) = nR o R est la matrice de corrlation entre les prdicteurs.
422
17IIIIIIII La rgression multiple et le modle linaire
17.3.2.1
Le facteur d'nflation de la varance (VIF)

V(b)
On a donc:
Or CR -I)jj' l terme diagonal de R-l n'est autre que l _
RJ est le carr du CQ(!tbcielnt<
de corrlation multiple de xl avec les p - 1 autres variables explicatives. Si les p varables explicatives taient orthogonales la rgression multiple reVlenOrallt:
fT:'
p rgressions simples; V(b) serait gal -.

II
Le terme 1
est appel facteur d'inflation de la variance
tandis que 1
appel tolrance ). La moyenne des p facteurs d'inflation est utilise parfois indice global de multicoHnarit.
17.3.2.2
Le rle des valeurs propres de R
Posons R UAU' o A eslla matrce diagonale des valeurs propres et U la matrice des vecteurs propres de R. On a donc R- 1 On en dduit: On voit donc que V(bj ) dpend des inverses de valeurs propres de R : lorsqu'il y a forte colinarit entre les prdicteurs les dernires valeurs propres sont proches de zro d'o l'instabilit des bj"
UA-lU'.
17.4
SLECTION DE VARIABLES
Plutt que de chercher expliquer y par toutes les p variables exp1catives, on peut chercher seulement un ensemble de q variables parmi les p qui donne une reconstitution presque aussi satisfaisante de y. Les objectfs d'une telle dmarche sont multiples: conomiser le nombre de prdicteurs, obtenir des formules stables et d'un bon pouvoir prdictif en liminant des variables redondantes qui augmentent le facteur d'inflation de la variance, obtenir un modle plus facile interprter.
17.4.1
les critres de choix
Ils dpendent bien sr des usages que l'on fait de lu : reconstitution des Yi' prvision de valeurs futures, ou estimation prcise des paramtres d'un modle. Le critre du est bien adapt au premier objectif et est celui qui est le plus utilis dans les programmes de rgression pas pas. Il n'est cependant pas l'abri des critiques: il varie de faon monotone avec le nombre des variables: il ne peut qu'augmemer si l'on rajoute un
423
prdicteur mme peu corrl avec y puisque la dimension de Waugmente. On ne peut donc l'utiliser pour choisir la taille d'un sous-ensemble de prdicteurs. Si l'objectif est de minimiser l'erreur de prvision le R 1 n'est pas adapt et on prferera des critres tels que le ou le Press.
a::>' ne varie pas de faon monotone avec le nombre de variables car'
- , rr- = Il
Jl-k-l
( 1 - R" -)s~
Par contre If2 varie de faon monotone avec le R2 ajust R'1. Il est donc plus intressant de prendre ifl que R1 comme critre de qualit, ce qui permet de comparer des formules de rQ:ression comprenant des nombres diffrents de variables et de choisir celle qui minimise &.2(ou maximise ?l). On peut galement utiliser les crHres, informationnels AIC et BIC, voir chapitre 19.
17.4.2
17.4.2.1
les techniques de slection

Recherche exhaustive
Lorsque p n'est pas trop grand on peut tudier toutes les formules possibles: il y a Cr~ formules k variables et donc 21' - 1 rgressions. A p fix on choisira celle qui fournit le R1 maximum, et si p n'est pas fix celle qui fournit le frl minimum, ou le minimum d'autres critres (voir chapitre 19, 19.4).
17.4.2.2
Les mthodes de pas pas
EUes sont utilises lorsque p est lev et qu'il n'est pas possible de procder une recherche exhaustive. Elles procdent par limination successive ou ajout successif de variables. La mthode descendante consiste liminer la variable la moins significative parmi les p : en gnral celle qui provoque la diminution la plus faible des R2 (elest celle qui a le t de Student le moins signiticatif). On recalcule alors la rgression et on recommence jusqu' limination de p - l variables ou en fonction d'un test d'arrt. La mthode ascendante procde en sens inverse: on part de la meilleure rgression une variable et on ajoute celle qui fait progresser le plus le Rl. La mthode dite stepwise est un perfectionnement de l'algorithme prcdent qui consiste effectuer en plus chaque pas des tests de signification du type Student ou F pour ne pas introduire une variable non significative et pour liminer ventuellement des variables dj introduites qui ne seraient plus informatives compte tenu de la dernire variable slectionne. L'algorithme s'arrte quand on ne peut plus ajouter ni retrancher de variables. Ces mthodes ne donnent pas forcment les meilleures rgressions k variables ni les mmes rsultats St l'on les emploie en concurrence, mais elles sont trs pratiques d'emploi, la mthode stepwise semblant la meilleure. Elles ne mettent cependant pas l'abri de r limination intempestive de variables rellement significatives, ce qui risque de biaiser les rsultats. Il faut ce propos rappeler que si l'on sait (par un modle
424
I7.La rgression multiple et le modle linaire
~t:!np,""I .... '.",",j'j
physique par exemple) qu"une variable doit figurer dans un modle, ce n'est pas qu'un test statistique la dclare non signiticative qu'il faut la rejeter (erreur de nplltv.,cio~."; espce).
17.5
TRAITEMENT DE LA MULTICOLINARIT
Lorsque les variables explicatives sont fortement corrles entre elles, les variances des coefficients de rgression deviennent trs leves: les estimations sont donc imprcises. En effet le dterminant de la matrice XIX est alors proche de 0, d'o des valeurs instables pour V(b) = (j2(X'X)-I. Ceci se produit entre autres si le nombre d'observations est faible devant le nombre de variables. Un cas extrme autrefois banni des manuels, est celui o le nombre de variables est suprieur au nombre d'observations: X'X n'est alors pas inversible. Les mthodes de slection de variables sont une des rponses possibles au problme de la 1l1ulticolinarit, mais elles peuvent conduire l'limination de variables significativement lies y. Il est alors difiicile de proposer l'utilisateur un modle qui ne tient pas compte de variables pourtant influentes et ne pennet pas de quantifier l'effet de leurs variatons sur la rponse y. Les trois mthodes que nous prsentons maintenant permettent de rsoudre ce problme et mme de traiter le cas o p > 11. Ceci se fait au prix de la perte de certaines proprits comme l'absence de biais des estmateurs et l'invariance par changement d'chelle: sur un plan technique on procdera une standardisation pralable des variables par centrage-rduction. D'aprs le thorme de Gauss-Markov, la mthode des moindres carrs fournit les estimateurs de variance minimale des f3j parmi les estimateurs sans biais. On ne pourra donc diminuer la variance des estimateurs qu'en utilisant des estimateurs biaiss. Comme l'erreur quadratique est gale la variance plus le carr du biais, il est possible dans certaines conditions d'obtenir des estmations plus prcises des coefficients avec un lger biais.
17.5.1
.
Rgression sur composantes principales

(11'kP
k
D'aprs la formule tablie au paragraphe 17.3.2.2 on diminuera V(bj ) en ne retenant que certmns termes de la somme des -}-. Ceci revient la pratique suivante: on remplace les p variables explicatives par leurs p composantes principales qui engendrent le mme espace W, et on effectue la rgression sur les composantes principales ce qui revient p rgressions simples:
Quand il y avec y*
fi /,-1
exacte colinarit p
0 on obtient alors une solution des quations normales
2:
(Xje).
j=1
425
Si l'on ne retient que k composantes principales en liminant celles de faibles variances on aura une solution approche en projetant y sur un sous-espace de W.
Il suftit alors d'exprimer les cJ en fonction des variables initiales pour obtenir une fonnule de rgression.
On notera que les composantes principales de forte variance ne sont pas ncessairement
les plus explicatives et qu'il vaut mieux les ordonner en fonction de leurs corrlations avec y. Par ailleurs les composantes principales de variance proche de zro fournissent les relations
linaires approches existant entre les prdicteurs.
17.5.2
la rgression ridge
Hoerf et Kennard en 1970 ont propos de prendre comme estimateur:
bl? = (X'X + kl)-l X/y

o k es[ une constante positive que r on ajoute aux termes diagonaux de X'X el qui permet d'inverser la matrice sans difficult numrique. Dimnution de l'erreur quadratique. Il existe des valeurs de k te11es que l'erreur quadratique de l'estimation de !3 est infrieure celle des moindres carrs au sens o :
2: n l.k
k=
l'
En effet l'erreur quadratique est gale la variance augmente du carr du biais: dans certaines circonstances un lger bias peut tre plus que compens par une faible variance d' o une erreur quadratique infrieure la variance de l'estimateur sans biais de variance minimale. La dmonstration se fait aisment pour la rgression simple (Ll Birkes et Dodge 1993) : Considrons le modle Y
0:'.
r3x
+ . o les Xi sont centrs: dans ces conditions les esti-
mateurs des moindres carrs sont &. Soit
et
r3 = "'5'
2:X i.V i
.::>. ..;...IX;
r3R = c~ un estimateur rtrci avec 0 < c < 1.
L'erreur quadratique de l'estimateur rtrci vaut:
En annulant la drive par rapport c, on trouve que le mnimum est atteint pour d'o ----:- ce qui revient une ..':'nr""""c""r.n ridge avec une con-
(J2
stante k e:ale k = -:::. ... r3.!
426
videmment [3, cr et donc la valeur optimale de k. sont inconnus, mais le rsultat est Prouv il existe bien un estimateur rtrci d'erreur quadratique infrieure la variance de l'estllmatetii des moindres carrs . ., Rgression coefficients borns. Dans le cas de la rgression multiple, on l'estimateur ridge comme solution du problme suivant consistant trouver des cents de rgression borns : minlly
VUllCIII""',"',
-~'~UI- .. "".
XbW
sous
II b ll:!.$
il s'agit donc de rgulariser la solution pour viter des coefficents instables. Xb 11 2 + kil b 11 2) Le problme de minimisation sous contrainte est quivalent : min ( lIy avec un multiplicateur de Lagrange k. En annulant la drive par rapport h, on a : 2X'Xb - 2X'y + 2kb = 0 soit (X'X + kI)b = X'y d'o le rsultat. Rgression baysienne. Le point de vue baysien donne galement une justification clairante de la rgression ridge : On se donne une distribution a priori gaussienne sur ~ N(O ; '1,21) et on suppose que la loi des Y III est une gaussienne N(XIl ; cr::!I). Un calcul simple montre que la loi a posteriori de illY est une gaussienne dont la densit est telle que ( une constante prs) :
ln(f(ll/y =
La valeur la plus probable
~r
1 (y 2
x~)'(y
- XP)
cr::!
Cl
Cl
posteriori, qui est ici aussi l'esprance
posteriori, est alors:
~ = (X'X + a:I)-IX/y. D'o la signification de k comme un rapport de variances.

La valeur de k restant inconnue, une pratique courante consiste tudier les variations des coefficients de rgression selon k et choisir une valeur donnant des coefficients stables : k = 0 n'tant autre que la solution des moindres carrs. au vu d'un graphique appel Trace Ridge . Compte tenu du caractre subjectif de cette mthode, il est prfrable de choisir k par validation croise: on divise les donnes en s sous-ensembles disjoints, chaque sous ensemble est prdit l'aide du regroupement des s - 1 autres et on cherche la valeur de k qui rnimnse la somme des carrs des erreurs.
17.5.3
La rgression PLS
Propose par H. et S. Wold, tudie par M. Tenenhaus, la rgression PLS est proche de la rgression sur composantes principales en ce qu'elle effectue une projection sur des combinaisons linaires des prdicteurs non corrles entre elles, mais avec la diffrence essentielle que les composantes PLS sont optimises pour tre prdictives de Y, alors que les composantes principales ne font qu'extraire le maximum de variance des prdicteurs sans tenir compte de Y.
a_La rgression multiple et le modle linaire gnral
427
Le critre de dtermination des composantes PLS est le critre de Tucker, bas sur la covariance :
posons t i
WII Xl
+ H'L2 X ::!. + ... + WlI'X"
avec
2: 'd
j""l
JI
Maxmiser la covariance aboutit un compromis entre maximiser la corrlation entre t l et y (rgression des moindres carrs ordinaires) et maximiser la variance de t I (ACP des prdicteurs) puisque:
et que V( y) est fix. La solution est lmentaire: les ll'Ij sont proportionnels aux covariances cov( y ; Xj) : les coefficients sont donc du mme signe que les corrlations simples entre y et les Xj ; il ne peul donc y avor de signes surprenants. La rgression PLS avec une composante s'crit alors sous la forme y = clt) + YI On obtent ensuite la deuxime composante PLS t 2 en itrant le procd : on effectue la rgression de YI sur les rsidus des rgressions des Xj avec t l puis on crit y = CI t l + C2 t ,:l + Y2 elc. Le nombre de composantes PLS est en gnral choisi par validation croise. On montre aisment que la premire composante PLS est toujours plus corrle avec Y que la premire composante principale: En effet soit
CI
la premire composante principale:

r(y; c1)rr(c1)a{y)
cov(y ~ tl) = r(y; t 1)rr(t 1)rr(y) 2::: cov(y; CI) donc r{y ; tl)rr(t 1) 2::: r(y ; c1)a{cl) comme
CI
est la premire composante principale, sa variance est maximale: d'o
La proprit reste vraie pour plus d'une composante, c'est dire que la rgression PLS avec k composantes est toujours meilleure que la rgression sur les k premires composantes principales mais la dmonstration est difficile (De Jong, 1993). Un des grands avantages de la rgression PLS rside dans la simplicit de son algorithme qui ne ncessite ni inversion, n. diagonalisation de matrices, mais seulement une succession de rgressions simples, autrement dit des calculs de produits scalaires. On peut donc traiter de trs grands ensembles de donnes. L'exprience montre que la rgression PLS donne en pratique d'excellentes prvisions, mme dans le cas d'un petit nombre d'observations et d'un grand nombre de variables.
428
ll_La rgression multiple et le modle linaire
La rgression dite PLS2 est une alternative l'analyse canonique lorsque l'on cherche expliquer simultanment plusieurs rponses Y. Le critre de Tucker s'crit alors:
Il eSl facile de montrer que la premire composante PLS des X est vecteur propre de (voir chapitre 8)
17.6
UN EXEMPLE
On se propose d'tudier la relalion existant entre le prix et les variables suivantes : cylindre, puissance, longueur, largeur, poids et vitesse de pointe de 18 voilllfes figurant dans le tableau 17.1 :
TABLEAU
17.1
LAR 161 177 168 161 164 169 169 163 1.73 157 162 172 169 170 166 165 173 161 1105 1080 1160 1010 1320 815 1060 1]60 1370 1080 1129 1095 1120 955 165 160 154
0
OES 1 :2 3
4.
NOH .i\LFASUD-TI -13 5 0 AUDI-IOO-L SIJvlCA-13 07 -GLS CI'I'ROEN-GS-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1.66 PRINCESS-1800-HL DATSUN-200L rrAUNUS-2 0 00 -GL
R.J.~'JCHO
CYL 1350 1588 1294 1585 1796 565 664 1166 1570 1798
PUIS 79 85
LON 393
POIDS 870 1110 1050
VI'l'ESSE
FINITION
B
PRIX 30570 39990 29600
65
468
L12 4
TB
N 1-1
68
59 98 82 79 55 128 55 109 82 115
412 439 429 ,149
28250
34900 35480 32300 32000 47700 26540 L12 3 95 33990 43980 35010 39450 27900 32700 22100
5
6
TB B
B
7 8
9
424
452 399 428 445 469 438 431 440 IJ59 404
180 1110 175 158 160 167

N
TB
10
Il
12
13 14
15
16 17 18
l1AZDA-9295 OPEL-REKORD-L LADF. -13 00
1998 1993 1442 1769 1979 1294
TB
B TB
rv1
98 80 83 100 68
144
165 173
140
1'1
17.6.1
Rsultats de la rgression complte
Les calculs ont t effectus avec le logiciel SAS.
17. La rgression multiple et le modle Iinare gnral
429
17.6.1.1
Analyse de variance de la rgression
On trouve (lableau 17.2) :

TABLEAU J 7.2
DDL REGRESSION RESIDUELLE

6
smn-lE DE CARRES
520591932.37 213563857.91 .28
CARRE MOYEN
86765322.06 19114896.17
F
il. 1169
PROB> F
0.0156
11
17
Comme Fs ,;~, (6 ; 11) = 3.09 on rejette J'hypothse H() : 13,

R2
132 = ...
136
o.
0.7091 4406.2
et
0.5504
17.6.1.2
Estimation des paramtres (tableau 17.3)

TABLEAU
17.3
COEFFICIENT
T SI ECART-'I'YPE
HO
0
PROB>
1 TI
V.l\JUABLE
CONS'l'Jl.l'J'l'E CYIJINDREE
ESTIHE
COEFF.
D 'INFLJl..TION
PUISSANCE LONGUEUR Ll>3.GEUR

POIDS
VITESSE
-8239.36 -3.505 282.168 -15.037 208.693 12.574 -111,114
42718.423 5.55
17t1.882
-O. -0.63 1.613

-0.116
129.747 412.047 24.622 222.256
0.506 0.511 -0.500
0.850 0.540 0.134 0.909 0.622 0.619 0.627
o
3.
11. .
7.204 4.197 9.957 6.375
On constate qu'au seuil 10 % aucun des coefficients n'est significativement diffrent de 0 et que certains sont ngatifs alors que les corrlations entre le prix et les prdicteurs pris isolment sont signitcatvement positifs. Ce phnomne est d la forte dpendance entre les prdicteurs (voir galement les valeurs du facteur d'inflation de la variance). Ci-aprs tableau 17.4 la matrice de corrlation entre les 7 variables:
TABLEAU
17.4
LAR
POIDS
0.78895 0.76529 0.86809 0.71687 1.00000 0.47760 0.75329
CYL CYL PUIS LON L,l.R POIDS VI'I'ESSE PRIX

1.00000 0.79663 0.70146 0.62976 0.78895 0.66493
0.63858
LON
O. 1. 00000
Vrl'ESSE
O.
PRIX
O. 858 0.79870 0.64376 0.54665 0.75329 0.58176 1.00000
0.70146
0.6L1136
0.64136 0.52083 0.76529 0.84438 0.79870
1. 00000
0.84927 0.86809 0.47593 0.64376
O. 0.52083 0.84937 1.00000 0.71687 0.47295 0.54665
0.8443
O.t1
0.47295 0.47760 1.00000 0.58176
430
17. La rgression multiple et le modle linaire
17.6.' .3
tude des rsidus et de rinfluence des observations
Le tableau 17.5 contient les informations essentielles.

TABL.EAU
17.5
E-TYPE PREDICT 2914.0 3572.5
2~186.0
PRIX PRIX
1
3
11
Es'rU:1E 9616.1 36259.7 31411. 26445. 37043.0 34972.8 33749.1 26580.0 44445.6 24650.2
LIlvIITE INP 95 % 17989.0 237 .4. 20276.0 15547.2 26241.5 23590.6 23147.9 15135.4. 31805.1 12868.0 26529.5 24163.4 32698.2 25382.3 24538.2 20828.8 25914.1 18952.0 DISTJi.l'llCE DE COOK 0.009 0.573 0.017 0.012 0.014 0.002 0.005 0.230 0.600 0.0116 0.204 O. 0.019 0.Q07 0.070 0.139 0.106 0.533
5 6 7 8 9 10 11 12 13 14 15 16 17 18
ALFASUD.l\UDI 100 SH1CA-13 CITROENFIAT-132 L.l'...NCIA-B PEUGEO'rRENfI.ULTRENAULTTOYOT.;-C fI.LFE'I'TAPRINCESS DATSUN-2 TAUNUS-2 HAl'JCHO 11Jl..ZDA-92 OPEL-REK LfI.DA-130
30570.0 9990.0 29600.0 28250.0 34900.0 35480.0 32300.0 32000.0 47700.0 26540.0
42395.0
33990.0 43980.0 35010.0 39450.0 27900.0 32700.0 22100.0
38270.5
34830. '14872.4. 36343.5 35638.1 32233.tl 37103.5 30389.8
3259.2 2160.8 2707.1 1945.4 2760.8 3683.5 3039.9 3006.8 2018.2 3343.6 2320.9 53.22726.5 2535.7 2755.1 RESIDU STUDENT. 0.2886 .4463 -0.49785 O. L1769 -.558071 0.1459 -.366544 1. 5783 1.3459 0.5925 1.2806 -.214564 -.310978 -.356029 1.0415 -1.2519 -1.222 -2.4108
4 t1350.4 38024.5 57086.0 36432.5 50011.5 45497.4 57046.6 47304.7 46737.9 43638.0 48292.9 41827.6
RESIDU 1
2
E-'I'YPE DU RESID 3305.1 2579.2 3637.9 3783.0 3840.0 3476.6 3953.5 3434.1 2418.0 3189.6 3220.8 3916.9 2869.7 3745.4 3660.1 3L.l.61. <1 3603.5 3438.7
3 4 5
6
7 8 9 11 12
13 14 15 16 '7 18
ALFASUDAUDI-I00 SI!-1CA-13 CITROENFlfI.T-132 LANCIA-B PEUGEOTREN.i\UL'rREN.i\ULTTOYOTA-C ALFETTAPRINCESS DATSUN-2 TAUNUS-2 RANCHO 1-1J.-.ZDA-92 OPEL-REK L"'_DA-130
953.8913 3730.3 -1811.1 1804.2 -2143 507.1657 -1449.1 5420.0 3254.4 1889.8 /1124.5 -840.42 -892.42 -1333.5 3811.9 -4333.4 -,1403.5 -8289.8
Pre,\'s :::::
0.4374 0.6574 0.3183 0.2629 0.2405 0.3775 0.1949 0.3926 0.6988 0.4760 0.4657 0.2098 0.5758 0.2774 0.3100 0.3829 0.3312 0.3910
731 726 946
et
~pre.\'s
Il
6380.21
Tl_La rgression multiple et le modle linaire gnral
431
Seul le vhicule nO 18 (le moins cher) prsente un rsidu studentis anormalement grand,
.. p + mais semble aVOir une mfluence normale ( le /zi moyen vaut 0.39 = -/-1-
1)
Pur contre, le vhicule na 9 (le plus puissant et le plus cher) semble contribuer fortement il la dtermination des paramtres.
17.6.2
Recherche d'un modle restreint
Avec 6 prdicteurs, il y avait 63 modles possibles. Nous donnons ici les meilleurs modles il l, 2, 3, 4, 5, 6 variables (tableau J7 .6) :
TABLEAU
17.6
R:!
"
k
l
2
t10dle Puis Puis. Poids Cyl. Puis. Poids Cyl. Puis. Larg. Poids Cyl. Puis. Larg. Poids Vitesse
Complet
3 4 5
6
0.638 0.686 0.699 0.702 0.709

0.709
4076.0 3916.4 3974.4 4103.7 4221. :2 4406.2
On constate que le meilleur modle au sens de est celui deux variables (Puissance et Poids) qui fournira les prvisions les plus prcises. Les meilleurs modles tant embots les diverses techniques de slection pas pas donnent ici les mmes rsultats et conduisent au mme choix. Nous reproduisons ci-dessous des sorties de la procdure SteplI'ise du logicel SAS.
SLENTRY et SLSTAY sont les seuils de signification des tests F d'admission et d'limination des variables.
La quantit Type II SS reprsente la perte de somme des carrs explique encourue en liminant la variable correspondante (tableau 17.7). Le tableau 17.8 montre une amlioration trs nette des prvisions en n'utilisant que deux variables au lieu de 6.
TABLEAU
17.7
STBP\>JISE REGRESSION PROCEDURE FOR DEPENDENT Vil.RIABLE PRIX NO'1'E: STEP 1 SLENTH.Y AND SLS'I'A y H.lWE EBEN SET VARIABLE PUIS ENTERED
.15 FOR 'l'HE STEP'i.vISE TECHNIQUE. 0.63792233

C(P)
E SQUARE OF
-0.30837792
NEll.N SQUARE
F
SUN OF SQUARES
tJROB
REGRESSION ERROR TOTAL
468334369.05604458 26582142 .221733 734155790.27777768

STO ERROR
468334369.05604458 16613838.82635832
.19
.0001
16 17 B VALUE
TYPE I I SS
PROB
>F
INTERCEP'l'
12363.65292
1 '18.51607106 468334369.05604458 28.19 0.0001
PUIS
BOUNDS ON CONDI'I'ION N'UMBER STEP 2 VARIABLE POIDS ENTERED
257.58978819
1.
R SQUARE
OF
0.68662695
C(
-0 .15009700
SUM OF SQUARES
MEAN SQUARE
252045576.89550306 15337642. 514<1
PROB
>F
REGRESSION ERROR TOTAL
2 15 17
B V.ll,.LUE
504091153.79100612 230064636.48677157 734155790.27777768

STD ERROR
16. <13
0.0002
TYPE II SS
PROB
INrrERCEPT
1775.60120140 172.96722456 16.45116100 2.413555, 9.654219 72.4199984G 10.77448763 8749217 874222 .70 2.33 0.0305 35756784.'7349615d
PUIS
POIDS BOUNDS ON CONDITION NUNBER
o .l 176
i
NO OTHER VARI.ll,.BLES MET THE 0.1500 SIGNIFICj\NCE LEVEr., FOR EN'l'RY IN'ro THE NOOEL.
TABLEAU 17.8
OBS
1
2
ACTUAL
30570.0 39990.0 29600.0 :28250.0 3<1900.0 35480.0 32300.0 32000.0 47700.0 26540.0
t12395.0
PREDICT VALUE
29752.5 34738.6 30811.1 27280.2 369 .9 33726.2 34523.4 27904. 45630.9 24696. 38067.3
350t12.3
~H204.
LONER 95 PEEDICT
20216.1 26136.2 21981. 3 18325.9 28171.0 25139.5 25565.3 18637.2 36023.3 15275.0 8559.2 26191.4 3'1599.8 27676.7 25431.9 25549.9 28742.6 20470.3
UPPER 95 %
PREDICT
39289.0
<133 L11. 396l10.9 3623 l1.6
RESIDUAL
817.4780 5251.4 -1211..1 969.752
-200Ll.9
s'rD ERR RESIDU.i\L

3264.5 3792.9 676.1 3609. 372 .2 3800.8 607.2 3430.9 3218.3 3337.1 3282.7 3665.0 3119.9 3682.9 3715.6 3796.1 3715. 3703.4
S'rUDEN'r RESIDU.i\L
O. 50,1 .3845 .329448 0.2687 .538066 O.461l1 .6163 1.1937
O.6 L 129
COOK' D
0.009 .042 0.005 0.004 0.010 0.0011 0.023 0.1411
O.
5
6
45638.9 42312.
43 1Bl.4
L
1753.8 -2223.4 4095.5 2069.1 1843. 4327.7 -1052.3

-2~H.
7 9 10 11 12
13
37171.7 55238.5 34118. 47575. 43893.1 53810.0 4 10.5 <129'10. 4274 .9 46252.6 38026.
66
0.5524 .3183 -.287114 -.069854 -.4028 t15 1.4166 .6453 -1.2913 -].9302
0.038 0.2{lS 0.0011 0.001 0.007 0.074

O.
33990.0 43980.0 5010.0 39450.0 900.0 32'700,0 22100.0
92
14
15 16 7 18
36493.6 3111 86.3 34145. 37497.6 2924 .2
-ld83.6 5263.7 -624

.9
-'1797.6 -7148.
0.062 0.1117
434
17_ La rgression multiple et le modle linaire gnral
La statistique Press vaut maintenant 308496438 (elle est donc rduite dans un rapport de 2.4) et
~press = 4139.9. -11
Si l'on souhaite une formule contenant les 6 prdicteurs, on a le choix entre la rgression ridge, la rgression sur composantes principales et la rgression PLS.
.. Rgression ridge
Le tableau 17.9 et la figure 17.8 donnent l'volution des coefticients de rgression en fonction du paramtre k La valeur k = 0.25 semble convenir et donne un RMSE de 4706.
TABLEAU
17.9
Coefficients de Rgression
.. -_ ...... ""--- ...... '" ......... _--_ ............ _- ................... _-_ .. _.........
cylindre
longueur largeur poids puissance vitesse _---- .. -.... _- _............ -- .... -- .......................--.. _.......... _- .......... ----- .................. _--_ ... _--_ ...... -"' .... _-_ .... ............... -............. ""'_ .. _----",
~
-15.0377 208.694 12.5747 -3.50518 282.169 -111.114 108.987 -2.18019 2.76652 15.2924 197.405 -26.2437 12.64111 78.4137 -1.30002 14.811 163.095 3.09658 67.2553 14.0478 18.2783 -0.693863 142.962 18.3139 -0.255881} 21.7857 63.497 13.3264 129.251 27.6233 24.1123 62.9383 0.0724271 12.6918 119.112 33.8481 25.727 63.8295 0.325527 12.1402 111.21 38.2416 65.3631 26.8833 11.6592 0.524946 104.817 41.4531 27.7286 67.1422 11.2366 43.8555 0.681805 99.501 28.3541 68.9656 10.8621 0.814737 45.6797 94.9847 28.819 70.7303 10.5273 0.921532 91.0816 -- .......... _---_ .......... _- ............ _.. --_ .. _- ... .. -....... _-_ .. .... -.... -............. ----- ...... _-_ ........ _--_ .... _-_ .........-................. .... _----_ ... -.. --...... _.. -.. ..... _......... -..... _--- .... .;47.0767 .. .... ------ ..... --_
", ".
0.0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
",--._
300
200
'E
ID
~ 0
0
Ti
100
-100 0 0.1 0.2 0.3

0.4
0.5
FIGURE
17.8
435
Rgression sur composantes principales

La rgression sur composantes principales fournit les rsultats suvants ordonns selon le nombre de composantes principales conserves :
aim
RHSE
430.1.68
4401.:!-5 4451.25
Int21:'cept
-43286.46 -34893.0 11 .74369
~.
PUIS
49.978
62 . .
LON
LAR 175.B04 :':4.103 -39.880 -167.635

Hl.
POIDS
VITESSE
71.383 102.
46.0278 34.5556
7.5893
9 J1823
6.1\980
n.5931 18.6615 26.3105 1J 5747
-5360.0::;
-5829.58 -9856.87 -8239.
4.31052
75. 131.959
.148'1
70.7514 -42.913 -15.0377
.222
61.667 Il.:; 1.6 -111.1ltl
11296. ,1:': 9/1.23

'1406.23
-J. -11. () 153 3

-3.50518
181.544
28:::.169
208.
La solution en dimension 6 est celle des moindres carrs ordinaires. La meilleure fonnule est sans conteste celle obtenue avec une seule composante principale qui donne un RMSE de 4301.68, infrieur il celui de la rgression ridge. Le spectre des valeurs propres de la matrice de corrlation est:
V.t..LEUR NUHERO PHOPEE POURCENT. POURCENT.
CUI!ULE
Lj.4209
O.
73.68
14.27
73.68
87.
0.3731
0.2139 0.0928 0.0433
6.22 3.57
1. 55
94 17
97.73
.28
100.00
0.7:l
Les coefficients de corrlation entre la variable prix et les 6 composantes principales sont:
CORREL.;'!' .IONS VI"Rli\BL8- f ACT EUR
PHIX
-0.77
0.09
-0.3
-0.23
-0.16
-0.10
On remarque que l'ordre des corrlations n'est pas celui des valeurs propres
Rgression PLS
La rgression PLS avec une seule composante (c'est ce qu'indique la validation croise) extrait 73.6 % de la variance de y et 60.8 % de la variance des X. On obtient la formule sUvante :
PRIX = -39940.366
.562CYL
58.807PUIS
43.687LON
154.34LAR
+ B.252pOIDS + 71.892VITESSE
Le RMSE est cette fois de 4239, infrieur celui de la rgression sur composantes principales comme le prvoyait la thorie. La rgression PLS fournit donc la meilleure formule conservant les 6 variables.
436
17_La rgression multiple et le modle linaire
17.7
17.7.1
PRDICTEURS QUALITATIFS le principe de quantification optimale
Supposons que parmi les prdicteurs on ait Cf variables qualitatives mb Ill::., ... , ml] ries respectivement. On cherchera alors les transformer en q variubles numriques 111,. /Il::., .. , ml] valeurs au plus de sorte que la rgression fournisse le R2 le plus lev. On sait que la variable numrique obtenue par quantification d'une variable qualitative une combinaison linaire des variables indicatrices des catgories. Il suffit donc de cer chaque variable qualitative par l'ensemble des variables indicatrices de ses catgories ceci revient utiliser comme matrice X de variables explicatives la matrice suivante:
o X(J est le tableau des variables quantitatives et les Xi i associs aux q variables qualitatives.
= 1,2, ... , q les tableaux GlS1onlctiJFs<'H,iE

"IU.ClllL~U-,
Les coefficients de rgression associs aux variables indicatrices seront donc les cations recherches.
Cependant une difficult surgit au momenl de rsoudre l'quation norn1ale X'Xb X/y si q 2:: 1. En effet, il est facile de s'apercevoir que dans ce cas les colonnes de X ne sont pas linairement indpendantes: pour tout tableau disjonctifX b la somme des colonnes est gale au vecteur 1. II existe donc q relations linaires entre les colonnes de X. Dans ce cas, l'quation normale a une infinit de solutions qui correspondent des pseudo-inverses diffrentes de X'X; toutes ces solutions fournissent d'ai11eurs le mme vecteur y* car la projection de y sur HI est unique, mais les coeftlcients hj ne sont pas uniques. Pour obtenir une estimation unique b il faut donc imposer q contraintes linaires sur les codages des variables qualitatives. Les plus simples sont en particulier:
a)
b)
Pour chaque variable qualitative une des modalits aura un coefficient bj nul. Ceci revient en fait il supprimer une colonne dans chaque mbleau Xi' ce qui rend la matrice X de plein rang. Pour chaque variable qualitative la somme des coefficients de b relatifs cette variable est nulle. On peut vrifier que ceci revient supprimer une des colonnes de chaque tableau disjonctif et remplacer les colonnes restantes par leur diffrence avec la colonne supprime.
17.7.2
Retour sur l'analyse de la variance
Lorsque toutes les variables explicatives sont qualitatives la rgression multiple correspond l'analyse de la variance dcIite au chapitre 14 en ce sens que l'estimation des effets des niveaux n'est autre que l'estimation des coefficienls de rgression et que les tests des effets des facteurs sont les tests F de nullit des sous-groupes de coefficients de rgression correspondant aux indicatrices d'une variable qualitative.
437
On vritiera sans peine que le modle d'analyse de variance il un facleur correspond la rgression suivante:
_ 1 \'
)'2
0 0
=
0 0
J.1
Cil
el e:.
+
0 0
Cip
YI!
Cl!
On impose ici la contrainte ~ 11 jCi; = 0 pour pouvoir identil1er les paramtres.

J
L'analyse de variance il deux facteurs avec interaction correspond il effectuer la rgression de y sur un tableau X de variables explicatives compos de :
p q pq
~~~
Xl et X 2 sont les tableaux. des indicatrices des niveaux des deux facteurs A et B et X l2 le tableau des indicatrices d'interaction correspondant aux pq combinaisons des niveaux de A et de B.
O
On retrouve alors le modle:
On peut donc utiliser, moyennant les prcautions dues au rang de X, un programme de rgression multiple pour effectuer de l'analyse de variance mme avec des modles complexes (plusieurs facteurs avec inleractions, plans non quilibrs).
17.7.3
Exemple: prix d'une voiture (suite)
On a ajout aux deux prdicteurs puissance et poids la finition (variable qualitative il trois modalits TB, B, M). Afin d'obtenir une solution on a choisi la contrainte consistant il donner le coefficient 0 la catgorie TB. On trouve alors la relation:
Prix*
= 23383.6 +
+[ -
86.96 Puis + 8.01 Poids
1~~~~: ~l
o
:
TB
Seuls les diffrences entre valeurs associes aux catgories ont ici un sens.
438
17aLa rgression multiple et le modle lina.ire gn
Le R2 est alors de 0.90 et vaut 2320.0. Le tableau 17.10 montre les rsultats de ce modle 4 variables explicatives :
TABLEAU
17.10
Yi
Yi'
30976.30 39663.33 27648.39 25904.76 34510.48 39162.20 33298.60 30010.28 45084.43 24635.99 41350.06 33559.50 44354.30 34310.28 39380.66 29313.20 34804.52 26887.63
1 2 3 4 5 7 8
9
10
Il
30570.00 39990.00 29600.00 8250.00 34900.00 35480.00 32300.00 32000.00 47700.00 26540.00
L12395.00
12 13 14 15 16 17 18
33990.00 43980.00 35010.00 39450.00 27900.00 32700.00 22100.00
nalyse iscriminante
et rgression logistique
Le but des mthodes de discrimination consiste prdire une variable qualitative k catgories l'aide de p prdicteurs, gnralement numriques. On peut considrer l'analyse discriminante comme une extension du problme de la rgression au cas o la variable expliquer est qualitative; on verra d'ailleurs que dans le cas de deux catgories, on peut se ramener exactement une rgression linaire multiple. Les donnes consstent en explicatives.
a)
11
observations rparties en k dasses et dcrites par p variables
On distingue deux aspects en analyse discriminante: descriptif: chercher quelles sont les combinaisons linaires de variables qui permettent de sparer le mieux possible les le catgories et donner une reprsentation graphique (ainsi qu'en analyse factorielle), qui rende compte au mieux de cette sparation; b) dcisionnel: un nouvel individu se prsente pour lequel on connat les valeurs des prdicteurs. Il s'agt alors de dcider dans quelle catgorie il faut l'affecter. C'est un problme de dassement (et non de classification, voir chapitre Il)*.
Ces deux aspects correspondent grosso modo la distinction entre mthodes gomtriques et mthodes probabilistes faite dans ce chapitre. Parmi les innombrables applications de l'analyse discriminante citons quelques domanes : aide li la dcision en mdecine: partir de mesures de laboraloire, on cherche une fonction permettant de prdire au meux le type d'affection d'un malade, ou son volution probable afin d'orienter le traitement: jirulIlce : prvision du comportement de demandeurs de crdit. Le terme discrimination est utilis dans ce chapitre en un sens assez large: nous y incluons la rgression logistique afin de mieux la comparer Panalyse discriminante linaire. Le lecteur dsireux d'en savoir plus sur l'utilisation de logiciels se reportera avec profit II Nakache et Confais (2003) .
.. Remar"que . en anglais" classification a les dew< acceptions.
440
lB_Analyse discrminante et rgression
18.1
MTHODES GOMTRIQUES
Ces mthodes, essentiellement descriptives, ne reposent que sur des notions de dis et ne font pas intervenir d'hypothses probabilistes. On supposera vu que les donnes consistent en n observations de p variables numriq appartenant k classes.
18.1.1
Variances interclasse et intraclasse
Les 11 individus ei de l'chantillon constituent un nuage E, de IRP partag en k ~UllS-lnll:-IOP'I1": El, E1 , .. " Ek de centres de gravt g" g1 ... , gb de matrices de variances VI> V 2 ... , (fig. 18.1).
FIGURE 18.1
Soit g le centre de gravit et V la matrice de variance de E tout entier. Si les Il individus ei sont affects des poids PI. P2' ... , P,I' les poids q" q2' .. "' Cfk de chaque sous-nuage sont alors:
qj
ci EE,
2:
Pi
Ona:
g=
2:
j=!
qjgj
et
Appelons matrice de varance interclasse, la matrice de variance B des k centres de gravit affects des poids Cf} :
B =
2: q/gj
i;;;1
g)(gj
g)'
;,>;,'::Hlllrtlll/",!,lld'l"''''
discriminante et rgression logistique
441
r matrice de variance intrac1asse W la moyenne des matrices Vj

k
W = ~ qjVj
j=1
En rgle gnrale, West inversible tandis que B ne l'est pas, car les k centres de gravit sont 1 de IR;" (si p k - 1 ce qui est gnralement le cas), un sous-espace de dimension Il. alors que la matrice B est de taille p. On
il
alors la relation suivante:
qui se dmontre aisment et constitue une gnralisation de la relation classique: variance .totale moyenne des variances + variance des moyennes. Nous supposerons dsormas que g = 0, c'est--dire que les variables explicatives sont centres. Si l'on considre que le tableau de donnes tudier se met sous la forme: 2
o
:2
k 0
:2
A
11
...
o X est la matrice des p variables explicatives et A le tableau disjonctif associ la variable qualitative, les Il. centres de gravit g" g2, . . ., gk sont les lignes de la matrice (A'DA)-l (A'DX). A'DA est la matrce diagonale des poids qj des sous-nuages:
ql
AIDA
= DI} =
[
0]
Cf?""
CJk
La matrice de variance interclasse s'crit alors, si g = 0 :
A'DA)-IA'DXrA'DAA'DA)-IA'DX)
= X'DA(A'DA)-IA'DX = (X'DA)D,;1 (A'DX)
442
lBaAnalyse discrminante et rgression
Dans le cas o Pi = lin les expressions prcdentes se simplitient et en mtroclui:saI1lt effectifs }lI, 11:. .. , Ilk des k sous-nuages, on a :
1 B = - 2: n.g.g'; g.
11.
J
'.l
= Il.;' i ; W 2:e
J ~
1 -2:nV.
Jl. J
.1
Nous supposerons dsormais tre dans ce cas.
18.1.2
18. 1.2.1
L'analyse factorielle discriminante (AfD)

Les axes et variables discriminantes
L'AFD consiste rechercher de nouvelles variables (les variables discriminantes) respondant des directions de [RI' qui sparent Je mieux possible en projection les k nrr\ll .. ~..;"" d'observations. L'axe 1 de la tigure 18.2 possde un bon pouvoir discriminant tandis que l'axe 2 (qui l'axe principal usuel) ne permet pas de sparer en projection les deux groupes.
/X\ ~xe1
Axe 1
~~e2
FIGURE
18.2
Supposons IRi" muni d'une mtrique M. On notera comme au chapitre 7, a l'axe discriminant, u le facteur associ u = Ma, la variable discriminante sera Xu. En projection sur J'axe a, les k centres de gravit doivent tre aussi spars que possible, tandis que chaque sous-nuage doit se projeter de manire groupe autour de la projection de son centre de gravit. En d'autres termes, l'inerte du nuage des gj projets sur a doit tre maximale. La matrice d'inertie du nuage des g est lVIBlVl, l'inertie du nuage projet sur a est a'IVIBMa si a est M-norm 1.
n faut aussi qu'en projection sur a, chaque sous-nuage reste bien group, donc que a'lVIVj Ma soit faible pour j = 1, 2 ... , k.
On cherchera donc minimiser la moyenne
2: qja'lVIVj Ma soit a'MWMa.

}=I
Or la relation V n + W entrane que lVIVlVl a'MBlVla + a'IVIWMa.
= lVIBlVl + lVIWIVl, donc que: a'MVMa ::=
On prendra alors comme critre, la maximisation du rapport de "inertie interclasse "inertie totale.
1B.Analyse discrimnante et rgression logistique
443
Soit:
a'MBlVla max---ua' J\!I V!VI a
On sait, que ce maximum est atteint si a est vecteur propre de (lVIVlVI)-1 MBM associ sa plus grande valeur propre k, :
lVI-1V-1BlVla = .[a
A l'axe discriminant a est alors associ le facteur discriminant u, tel que u On a alors:
Ma.
Les facteurs discriminants, donc les variables discriminantes Xu, sont indpendants de la mtrique !VI. On choisira par commodit lVl V- I qui donne BV-Ia .a et V-IBu = kU.
On a toujours 0 :::; k! :::; 1 car k, est la quantit maximiser. . 1 = l correspond au cas suivant:
En projection sur a les dispersions intraclasses sont nulles. Les k nuages sont donc chacun dans un hyperplan orthogonal a (fig. 18.3). Il Y a videmment discrimination parfaite si les centres de gravit se projettent en des points diffrents. I = 0 correspond au cus o le meilleur axe ne permet pas de sparer les centres de gravit gj. c'est le cas o ils sont confondus. Les nuages sont donc concentriques et aucune sparation linaire n'est possible (fig. 18.4). Il se peut cependant qu'il existe une possibilit de discrimination non linaire: la distance au centre permet ici de sparer les groupes, mais il s'agt d'une fonction quadratique des variables. La valeur propre est une mesure pessimiste du pouvoir discriminant d'un axe. La figure 18.5 montre qu'on peut discriminer parfaitement car les groupes sont bien spars malgr k < 1. Le nombre des valeurs propres non nulles, donc d'axes discriminants, est gal k 1 dans le cas habituel o Il > P > le el o les variables ne sont pas lies par des relations linaires.
x x
GrO Upe1 x
BY
Xx
g1 =g2
x
x
FIGURE
18.3
FIGURE
18.4
Groupe 2
J)
FIGURE
18.5
444
1BaAnalyse discrimnante et rgression
18.1.2.2
Une analyse en composantes principales (ACP) particulire
D'aprs les quations prcdentes l'analyse factorielle discriminante l'ACP du nuage des k centres de gravi t avec la mtrique V -1 . On en dduit que les variables discriminantes sont non corrles 2 2. S'il existe un second axe discriminant, il est possible de reprsenter le nuage des observations en projection sur le plan dfini par ces deux axes: ce plan est alors celui permet le mieux de visualiser la sparation des observations en classes. Ainsi qu'en ACP, on pourra interprter les variables discriminantes au moyen d'ur des corrlations. Nous verrons plus loin que l'analyse factorielle discriminante quivaut aussi l'ACP gi avec pour mtrique W-I.
18.1.2.3
Une analyse canonique particulire
L'analyse discriminante est l'analyse canonique des tableaux A et X.

En effet, l'quation de l'analyse canonique de A et X donnant les variables canoniques associes X s'crit:
ce qui est identique V-IBu = u d'aprs le paragraphe 1. C'est une nouvelle preuve que les variables discriminantes sont non corrles deux deux. Si "on dsigne par Aa la premire variable canonique associe A solution de l'autre quation de l'analyse canonique:
norme de telle sorte que sa projection sur le sous-espace de ~n engendr par les p variables. explicatives soit identique Xu, on peut prsenter l'analyse discdminante comme la recherche du codage de la variable qualitative qui la rend le plus proche de l'espace engendr par les colonnes de X. Si les p variables explicatives sont cenlTes, alors la variable code l'est aussi et u est le vecteur des coefficients de rgression de Aa sur X. La premire valeur propre
. 1
est alors le carr du coefficient de corrlation multiple.
L'analyse discriminante est donc bien une gnralisation de la rgression multiple au cas o la variable expliquer est qualitative. La fi.gure 18.6 dans ~'l montre l'identit entre les deux conceptions de l'analyse discriminante : analyse canonique d'une part et maximisation de la variance interclasse par rapport la variance totale d'autre part.
Wx est l'espace engendr par les colonnes de X ; WA est l'espace engendr par les indicatrices de la variable expliquer.
lB_Analyse discriminante et rgression logistique
445
Si l'on projette D-orthogonalement la variable discriminant ~ sur W;\ en Aa, le thorme
de pythagore s'crit:
FIGURE
18.6
Variance totale de ~ = variance interclasse
+ variance intrac1asse.
variance interclasse .., La maximisation du rapport. n'est autre que la maximisation de cosvariance totale o est l'angle fonn par Aa et , ce qui est bien le critre de l'analyse canonique.
On appelle d'ailleurs cette mthode analyse discriminante canonique chez les auteurs anglophones.
18.1.2.4
Analyse de variance et mtrique W- 1
Si il n'y avait qu'une seule variable explicative on mesurerait l'efficacit de son pouvoir sparateur sur la vllriable de groupe au moyen d'une analyse de variance ordinaire un facteur. variance interlk 1 La statistique F valant alors . variance intra/n - k Comme il y a p variables on peut rechercher la combinaison linaire dfinie par des coefficients u donnant la valeur maximale pour la statistique de test ce qui revient maximiser:
u'Bu u'Wu
La solution est donne par l'quation:
W-1Bu = J..LU
avec
J..L
maximal
.
Les vecteurs propres de W-1B sont les mmes que ceux de V-lB avec J..L En effeL, Bu = Vu est quivalent :
l -
.'
Bu
= .(W + B)u
soit
(1 - )Bu = .Wu
446
1B.Analyse discriminante et rgression
d'o: Si 0 :::;
:::;
1 on a en revanche 0 :::; 1.1 :::;

I 1
00
et =
1+1.1
L'utilisation de V- ou de W- comme mtrique est donc indiffrent. La mtrique est appele mtrique de Mahalanobis . La convention usuelle dans la plupart des logiciels est d'avoir des variables discrimimmtes dont la variance intrac1asse vaut 1. On doit donc avoir u'Wu = 1. Ce qui revient u'Bu
- - = 1.1 et u'Vu 1-
18.1.2.5
Un exemple classique: les iris de Fisher
Ce fameux exemple sert de jeu d'essai. Les donnes concernent tros espces d'iris versicolor, virginica) reprsentes chacune par 50 individus dcrits par 4 variables (longueur largeur des ptales et spales). Il y a donc uniquement deux axes discriminants ce qui permet une reprsentation plane. On trouve:
J =
2
0.969872 0.222027
l-ll
32.1919 0.2854
3.49.-----~~~----------------~----------------------------~
1.87
C\l
0.24
~+_--------~_4----~~~~~~~----------------+_--~~--~
-1.38
-3.00L---------------------~--~~--------------------------~
-9,17
-4.42
0.34
5.09
9.85
axe 1
FiGURE 18.7 :
Plan discriminant des iris de Fisher
18_Ana1yse discriminante et rgression logistique
447
La figure 18.7 montre, avec les ellipses de tolrance 0.95 (voir 13.6.2), une bonne sparation. L'axe n02 n'est gure discriminant, mais il est bien utile pour faire un graphique et l'carler au vu d'un test statistique serait maladroit.
18.1.3
Rgles gomtriques d'affectation

Il
Ayant trouv la meilleure reprsentation de la sparation en k clusses des peut alors chercher affecter une observation e l'un des groupes.
individus. on
La rgle naturelle consiste calculer les distances de l'observation classer chacun des k centres de gravit et affecter selon la distance la plus faible. Encore faut-il dfinir la mtrique utiliser.
18.1.3.1
Rgle de Mahalanobis-Fisher
Elle consiste utiliser la mtrique ,",V-l (ou V- 1 ce qui quivalent) :
En dveloppant cette quantit on trouve:
Comme e'W-1e ne dpend pas du groupe i, la rgle consiste donc chercher le minimum de g'jW-lg i - 2e'W- l g i ou le maximum de e'W-1g j - (g'jW-l gj )/2. On voit que cette rgle est linaire par rapport aux coordonnes de e. Il faut donc calculer pour chaque individu k fonctions linaires de ses coordonnes et en chercher la valeur maximale. Illustrons ceLLe rgle avec les iris de Fisher: les trois fonctions de classement sont donnes par le tableau suivant.
Variable Constant SepalLength SepalVJidth Pel:alLength Petalij;lidth
Set osa
-85.20986 2.35tJ42 2.35879 -1.64306 1. 73984
Versicolor
-71.75400 1.56982 0.70725 0.52115 0.64342
Virginica
-103.26971 1.24458 0.36853 1.27665 2.10791
Si l'on applique ces rgles aux l50 observations dont on dispose, le tableau suivant (appel matrice de confusion) donne les rsultats de classement: on lrouve que les 50 setosa sont
448
lB_Analyse dscrminante et rgression
partllitement classs et que seuls deux versicolor sont attribus ft r espce viroinica, o qu'un seul virginica est mal class. Ces rsultats semblent mais sont biaiss sens qu'ils surestiment les performances (voir le paragraphe 18.7.2)
De Espece Setosa Versicolor Virginica
Setosa
50
0
0
Versicolor
0
Virginica
0 2
48 1
49
Remarquons que )' application de la rgle gomtrique peut se faire indiffremment l' espace ~/l ou dans l'espace factoriel ~A - J. En particulier si k 3, les frontires d'affectation aux groupes sont des hyperplans 0 gonaux au plan des trois centres de gravit. On peut lire directement les OiSlanCeSi Mahalanobis gl, g2, g3 en utilisant le graphique des deux variables canoniques n'c,-..., ...... nantes normalises 1 (au sens de la variance intraclasse).
18.1.3.2
Insuffisance des rgles gomtriques
L'utilisation de la rgle prcdente conduit des affectations incorrectes lorsque les dispersions des groupes sont trs diffrentes entre elles: rien ne justifie alors l'usage de la mme mtrique pour les diffrents groupes. En effet, si l'on considre la tigure ] 8.8, bien que e soit plus proche de g, que de g2 au sens habituel il est plus naturel d'affecter e la deuxime classe qu' la premire dont le pouvoir d'attraction est moindre.
FIGURE
18.8
Diverses solutions utilisant des mtriques locales Mi telles que:

{(l-(e; gi) = (e - g;)'J\tl i (e - g;)
ont t proposes, la plupart prenant J\tl i proportionnel Vi 1.
discriminante et rgression logistique
449
La question de l'optimalit d'une rgle de dcision gomtrique ne peut cependant tre sans rfrence un modle probabiliste. En effet le problme est de savoir comment rgle se comportera pour de nouvelles observations ce qui impose de faire des hypodistributionnelles sur la rpartition dans l'espace de ces nouvelles observations. On atteint donc ici les limites des mthodes descriptives. Nous verrons plus loin dans quelles conditions elles conduisent des rgles optimales.
FONCTION DE FISHER ET DISTANCE DE MAHALANOBIS POUR DEUX GROUPES

18.2.1 La fonction de Fisher (1936)
II n'y a donc qu'une seule variable discriminante puisque le - 1 = 1.

L'axe discriminant est alors ncessairement la droite reliant les deux centres de gravit g, et gl :
a = (gl
g2)
La variable discriminante d n'obtient en projetant sur a selon la mtrique V-I ou W-I qui tient compte de ]' orientation des nuages par rapport la droite des centres (fig. 18.9).
FIGURE 18.9
Le facteur discriminant u vaut donc:
u = V-1(gt
g2)
ou
qui lui est proportionnel, (voir plus loin)

W-1(gl - g::) est la fonction de Fisher
Pour des raisons d'estimation on prend habituellement non pas W- I mais:

Il I
+n 2 -2 _1 W Il 1 + III
450
1B_Analyse discriminante et rgression logistiqu
On peuL retrouver la dmarche de Fisher par le raisonnement suivant: Cherchons la combinaison linaire des variables explicatives telles que le carr de la tistque du test T cl' galit des moyennes des deux groupes prenne une valeur maximale:
o y = Xu
en posant..!.
.:..
Il, Il,
Il:!,
Il., -
:2
cecI revIent a maXImIser
.,
(u'(g,
A
g:2)2
utIu
u est e ml un
d~f~ .
coefficient multiplicateur prs et doit tre proportionnel
t- I Cg 1 -
g:2)'
18.2.2
Application de l'analyse canonique
On peut trouver l'unique valeur propre de V-lB en remarquant que pour deux groupes'
B
On a donc B
g~)
et symtriquement:
donc en moyennant:
On vritie que u = V-'{gl
g2)
est vecteur propre de V-lB:
avec:
1S_Analyse discriminante et rgression logistique
451
et :
f.L est donc proportionnel au Di, de Mahalanobis estim entre les deux groupes (voir chapitre 14 paragr. 14.4.5.2).
On a exactement:
f.L
ni ., = n(1l Il.,-2) D/'
On trouve alors:
W-I (g, -
g~)
(1 +
Il
IZ(11 -
2)
D~ )V-I (gl 1
- g.,)
-
L'usage de la convention de normalisation u'Wu
1 prsente l'avantage suivant:
Les coordonnes des deux centres de gravit sur l'axe discriminant ont une diffrence gale la distance de Mahalanobis Dl" En effet gj u et gl u sont ces coordonnes o u est le facteur canonique normalis. Celui-ci est proportionnel W-l(gl - g2), la constante de proportionnalit CY tant telle que u'Wu = l soit:
En ngligeant la correction par - - (ou en utilisant ~ la place de W) il vient laI
11
n-2
On a donc:
g2)'ul
= Icyl (gl
- g2)'W- 1 (gl - g;!) = DI'

fi
D2
= DI'
18.2.3
quivalence avec une rgression multiple inhabituelle
L'analyse canonique se rduit ici une rgression multiple puisque aprs avoir centr, l'espace engendr par les deux indicatrices de la variable des groupes est de dimension 1. Il suffit donc de dtinir une variable centre y ne prenant que les deux valeurs a et b sur les groupes 1 et 2 respectivement (ll,a + ll;!b = 0). On obtiendra alors un vecteur des coeftcients de rgression proportionnel la fonction de Fisher pour un choix quelconque de a. Le choix a = - , b = - - condUIt alors b
III
11
11
= (X'X)-lX'y = V-reg,
g2).
Il '2.
452
lB_Analyse discriminante et rgression
On a:
R2 = - - - - ' - - - ----+Dp
llllll
lI(n - 2)
.,
On prendra garde au fait que les hypothses habituelles de la rgression ne sont vrities bien au contraire: ici y est non alatoire et X J'est. Il ne faudra donc pas utiliser statistiques usuelles fournies par un programme de rgression, en particulier les erreurs dard des coefficients et les niveaux de signification. Le fait que la fonction de Fisher puisse tre obtenue par une rgression multiple peu doxe a suscit des controverses et incomprhensions non fondes au profit de la rgre~sslon.i~0i logistique (voir 18.6.3 pour une discussion approfondie).
18.2.4
Fonctions de classement et fonction de Fisher
En appliquant la rgie du paragraphe l8.1.3.1 au cas de deux groupes on d'affecter au groupe 1 si :
solt:
Comme W~I(gl g2) est la fonction de Fisher, la rgle consiste donc affecter au groupe 1 s la valeur de la foncton discriminante est suprieure au seuil:
Lorsque les deux groupes sont de mme effectif gl fonction C'W-I(gl - g2) est positive.
g2
0 ; on affecte au groupe 1 s la
18.2.5
Exemple infarctus
Les donnes du tableau 18.1 (communiques par I-P, Nakache) concernent 101 victimes d'infarctus du myocarde (51 dcderont, 50 survivront) sur lesquels ont t mesures leur admission dans un servce de cardiologie 7 variables (frquence cardiaque, index cardiaque, index systolique, pression diastolique, pression artrielle pulmonaire, pression ventriculaire, rsistance pulmonaire), Le tableau 18.2 donne les statistiques lmentaires par groupe.
1B.Analyse discriminante et rgresson logistique
453
TABLEAU
FRCAR INCAR INSYS
18.1
PAPUL 19.5
PVEN'l'
PRDI.'-'.
REPUL 912 1657 782 1418 1664
PRONO SURVIE DECES DECES
90 90 120 82
1.71 1. 68
1.LlO
9.0 18.7
. ";
31.0
1. 79
.58 1.13
2l.
14
:21
80
80
19.7 14.1
21.7 14.9 27.7 22.8
94 80 78 100 90
.011
1. 2.16 2.28 2.79 2.70 2.61 2.84
3.1.:1
18 23
29.0 17.5 28.0 23.5
16
15
16 15 8
31.0
]1. '1
27 .0 21.0 20.5 23.0 25.0

23.0 15.0 17.0 .0 19.0 19.0 14.0
16.0 .0 8.0 10.0 18.5 9.0 10.0 16.5 .5 4.0
SURVIE
DECES DECES
1059
1412
SURVIE
SURVIE SUHVIE
759
807
7i
SURVIE
SURVIE SURVIE SURVIE
8.0
9.5 .0 ] .0 11.0 11. 0 3.0
86
80 61
q')
681
4.60 '179
96
86
125 80
82 110 80
118 95 80
2.47 1. 88 1. 70 3.37 2.01 3.15 1. 66 1. 50 1. 03 .89 1. 45
32.6 tn.3 31.8 26.8 19.6 19.8 26.9 25.0 8. L1 15.1
11
SURVIE
SURVIE SURVIE SUnifIE SURVIE SURVIE
lS
12 12 18 15 13 23 13 19
5
513
615 809 659 665 796 508
14911
10.5
6.0 6.0 6.0 6.5 12.0 10.0 20.0 15.0 10.0 10.0 10.0 11. 0 10.0 20.0 13.0 10.0 10.0 16.0 6.0 10.0 6.0 12 .0 8.0 15.5 10.0
1Ll.0
28.0
.0
SUEVIE
SURVIE DECES DECES DECES DECES DECES DECES DECES SURVIE
20.0 31.0
l .0
18.7
8.7 19.9 8.
907
2097 1143
19
13 18 25 18
85
105 122 81 118 87
1. 30
1. 84 2.79 .77 2.31 1. 20 1. 2.15 0.91 2.54 2.08 1. 93 0.95 2.38
65
8tl
15.1 .5 22 .9 :'21.9 19.6 13 . 18.3
27.0 27.0 23.0 18.0 22.0 36.0

27.0 .0 41. 0 18.0
1269 1108 957 1032

1220
SURVIE
SUHVIE DECES DECES SURVIE DECES SURVIE
22
34
15
27 30
24
935 2733 1210

1377
25.6
8.8 33.9 23.1
103
75
90
90
90
21. 4 10.6
36.6 10.4 8.9 23.8
65
95 95 86
0.99
0.85 :;; . 2.02 1. 44 3.06 1. 31 1.:2 9
1. 47 1. 21
20 11 20 16 20 1.9
37.0 33.5 31.0 28.0 18.0
29/j5 976 1077 746

2021 739 2222 207l 1093 871 14172 392
2443
SURVIE
SURVIE DECES SURVIE DECES DECES SUHVIE SURVIE DECES SURVIE DECES DECES
24.0
22.0 27.5 22.0 28.0 22.0 .5 15.0 40.0 31.0
82 70
92 94
24.6 20.6
33.3 13 .9 .3
16 19
o
26
24 15 19
79
67
75
21. 9
16.1
18.0
2'1.0
11. 0 6.0 15.0 10.0 16.0 4.0
1922 980 1587
SUHVIE
DECES
454
1B_Analyse disc.riminante et rgression
TABLEAU
18.1
(suite et fin)
PAPUL
24.0 16.0 27. 42.0 22.0 27.0 19.0 PVENT 7.0 7.0 11.0 13.0 5.0 3.0 .0 3.0 6.0 9.0 16.0 REPUL 797 390 1774 1816 880 1096 1583
Ll06
INCAR 80 61 110 116 75 110 95 75 80 102 86

2. t1l 3.28 1. 24
INSYS 30.9 54.0 11.3 15.9 26. .4 8.8 26.9 30.9 33.1 15.7 19.4 13. '7 17.6 '11.0 27. 14.8 13.8 35.6 28.8 23.1 9.9 15.9 25.2 23.5 16.1 19. 16.7 11.8 16.1 12.7 27 . 22.2 15.9 13.9 27.4 13 .9
PRDIA
19 22 3 16 18.0 15.0
85
2.00 1. 97 0.96 :2 56 2.32 2.65 1. 60 1. 67 O. 1.76 .. 28 :2.96 1. 37 1. 38 .85 2.51 2.31 1.18 1. 83 2.55 2.17 1. 42 1. 59 1.47 1.23 .45 0.85 2.37 2.40 .91 1. 2.36 1. 56 1. 34 1. 65 2. .03 1.21 1. 34 1.17 l. 74 .31 0.95 1. 92 0.83 0.60 1.
SURVIE DECES DECES DECES
B.O
8.0 13 .0 2 11.0 18.0 .0 23.0 12.0 24.0 25.0 20.0 25.0 16.0 8.0
13 .0
10.0 19.0 31. 0 .0 32.0 33. 7.0 35.0 46.0 31.0 32.0 .0 12.0 36.0 30.0 30.5 24.0
SURVIE SURVIE
SURVIE
8.5
13.0 2.0 .0 6.5 11. 0 11. 0
60
100 80 108
345 574 1550 1102 3122 1500 4.15
SUHVIE
DECES
SURVIE
DECES
SURVIE
STJHVIE
946 2686
1797 898 765 416 2441 1311 957 885 1465 1031 1769 2146 132'1 3106 743 1033 1131 1813 1153 1487 H93 1600 1608 620 1Ll55 1015 2393 1333 1710 1684 1000 2602 5067 1610
100 80 87 100 120 115 101
SURVIE DECES DECES
7.0
20.0 1.0 8.0 8.0 9.0 3.0 10.0 4.0 10.0 11. 0 8.5 11. 0 10.0 4.0 .0 16.0 8.0 '1.0 16.0 7.0 10.0 7.0 3.0 6.0 10.5 6.0 12.0 7.0 3.0
SURVIE!
DECES
SURVIE
DECES DECES
25.0
25.0 .2 19.0
SURVIE
SURVIE DECES
92
87 80 88 104 90 67
20.0
13.0 23.0
26.0
20.5 32.5 33.0 24.0 33.0 22.0 31.0 27.0 43.0 34.0 29.0 25.0 33.0 41. 0 23.5 22.0 17.0 35.0 29.0 28.0 .0 24.0 27.0 38.0 31. 0
SUHVIE
DECES DECES
27 .0
17.0 26.0 15.0 26.0
SUHVIS
DECES
87
108 120 08 86 112 80 95
SURVIE SURVIE
DECES DECES SURVIE DECES DECES DECES
18.0 28.0
]:1.0
2 L1.0 16.0 20.0 .0 17.0 17.0 11. 0 29.0 24.0
17 .0
17.4 22 .7 33.6 12. 26.3 10.6 18.1 9.9 7.0 .3 .4 5.2
13. B
90
90 94 51 110
9G
DECES
SURVIE DECES DECES DECES DECES DECES DECES DECES
132 135 105 99 112
23.0
15.0 18.0 23.0 33.0 .0
B.O
10.0
8.0
DECES
DECES DECES
tB_Analyse discriminante et rgression logistique
455
TABLEAU
18.2
PHONO = DECES VARIABLE FECAE INCAR INSYS PEDIA
HEAN
95.90196078 1.39470588 14.99607843 21.9607843 29.09803922 10.64705882 1797.27450980
51 51 51 51 51 51
PA!:1UL PVENT REPUL
.34429985 739.87296419
PRONO = SURVIE
FECAR INCAR INSYS
PHDIA
PA!?UL PVENT REPUL
50 50 50 50 50 50 50
88.34000000 2.30580000 26.75200000 16.50400000 22.84000000 8.33000000 8tH.38000000
13.811095,21 0.56055035 8.08319597 5.1530L1388 6. '16532352 4.05398519 303.68256050
La distance de Mahalanobis au carr vaut:

D~
= 4.942
d'o
D7
= 2.223
Sous les hypothses de multinonnalit du chapitre 14 paragraphe 14.4.5.2, cette valeur correspond un F = 16.476 :
----.,;.--D2 p(n 2) p
-1
=F
Il
La valeur critique 1 % pour un F(7; 93) tant de 2.84, le D2 est signtcatif d'une diffrence nette entre les deux groupes. On trouve R2
= = 0.5576 et j.L
1.2604.
La variable discrimnante s'obtient alors par la combinaison linaire des 7 variables centres sur la moyenne des deux groupes (tableau 18.3).
TABLEAU
18.3
-0.026'145290 :2.768181397 -0.075037835 0.009115031 -0.074211897 -0.021086258 0.00008.:1078
FRCAR
PRDIA PJl..PUL PVENT HEPUL
456
lB_Analyse discrmnante et rgression
ou si l'on ne centre pas en ajoutant la constante 1.22816 la combinaison linaire des donnes brutes.
nr.;'I"'''''''~._'"
Les coefficients de corrlation linaires de la variable discriminante avec les 7 va ri (les deux groupes confondus) sont indiqus sur le tableau 18.4.
TABLEAU
18.4
FRCPtR INChH
-0.3097
O.
0.8976
-0.6321 -0.5751 -0.3592
INSYS PRDIA
PAPUL
PVEN'I'
REPUL
-0.8676
Les moyennes des deux groupes sur la variable discriminante sont: Dcs Survie On retrouve D7 = + 1. l 005 + 1. 1225 -1.1005 1.1225
= 2.2230.
En appliquant les gomtriques de classement le tableau 18.5 donne pour l'exemple des infarctus les deux fonctions suivantes
TABLEAU J 8.5
DECES
CONS'I'.l\NT FRC",R
SURVIE
-89.9703,1555
-91.57481116 1.53609883
-52.09,144392 5.44165359 -0.64815662
1.47730875
- iJ 5 . 9 '1 0 5 4 613
INCAR
INSYS
PRDIA
PAPUL
PVENT
0.70738671
0.85037707
O.
0.00657667
REPUL
0.00638975
La fonction de Fisher s'obtient par diffrence entre les deux fonctions de classement (survie - dcs). En divisant ensuite les coefticients par la distance de Mahalanobis, on retrouve les coefficients du tableau 18.3.
18.3
lES SVM OU SPARATEURS VASTE MARGE
Lorqul n'y a que deux groupes, rtablissement d'une linaire est quivalente la dtermination d'un hyperplan sparateur, ou frontire plane~ et rciproquement. A la fonction de Fisher 18.10a) est associ l' hyperplan mdiateur (figure 18. Wb ) de gl et g2 (au sens de la mtrique V-I ou "V- 1).
1B_Analyse discriminante et rgression logistique
457
00.0...------------------,
50.0
GO.Q~-------------,
50.0 40.0
....J
3D (]
Cl..
20.0
10.0
OO~----------------------~
0.0
1.0
2.0
30
4.0
0.0 ' - - - - " - - - - - - - - - - - - - - ' 0.0 1.0 2.0 3.0 4.0

INCAR
I~JCAA
FIGURE J 8.1 Oa
Axe discriminant
FIGURE
18. lOb
Frontire
Si l'on note que la fonction de Fisher ne fait que dfinir une combinaison lnaire sans le seuil de classement revient dplacer l'hyperplan paralllement terme constant lui-mme. On peut chercher directement une frontire, linaire ou non, condition de dfinir un critre convenable.
18.3.1
l'hyperplan optimal
La recherche directe d'un hyperplan optimal a fait l'objet de nombreux travaux depuis le perceptron de Rosenblatt (1958). On doit V. Vapnik (1986) d'avoir dfini un critre timalit bas sur la marge , ou largeur d'une zone de part et d'autre de la frontire, et de ravoir des frontires non-linaires grce un changement d'espace. L'objectif tant de classer. on peut chercher minimiser le nombre d'observations mal classes, ou points du mauvais ct de la frontire. Ce critre ne suffit cependant pas dterminer de manire unique un hyperplan sparateur: pour des donnes linairement sparables, il y a une infinit de solutions comme le montre la figure 18.11.
FIGURE
18.1 1
18.3.1.1
Le cas sparable
Soit C la plus petite distance d'un point la frontire. Vapnik a propos que l'hyperplan optimal soit celui qui maximise cette distance, ce qui revient il avoir le plus grand no man's land de part et d'autre de la frontire. La marge qui est la largeur du couloir vaut donc 2C. En dimension 2, on voit sur la figure 18.12 qu'il suftit de trouver les 3 points Xl' X2' x) (appels points support) pour dtinr la frontire: on trace la parallle tl X2, X3 passant par XI' puis la droite au milieu.
458
18111111!i1Anllyse discriminante et rgression
IU)illiT;IIJUE!
'.
.
.......... x2.
"'~....
c lll.....
.....
~.
...~.~
....
Il
."
p
.........
Il XI......
..~~,
FIGURE 18.12
La solution mathmatique est la suivante: L'hyperplan sparateur a pour quation
2:xi rlj + rlo = x/ll + rlo = 0 o les coefficient\)

i=1
rl sont dfinis un facteur multiplicatif prs.

La distance d'un point XI l'hyperplan vaut:
1 Il + rlol X;
111311
Notons Yi = l ou Yi = -} les appartenances aux deux groupes. Pour que les points soient tous du bon ct et une distance suprieure C, il faut pour tout i :
111111 Yi (x;13
et on doit maximiser C sous ces
Les
Il
+ rlo)
2=
contraintes.
rl tant dfinis une constante prs, on choisit
111111
= C. Maximiser C revient mini-
miser 111111, d'o le programme quadratique suivant: minp,pu 111111 {

2
Yi(X;1l
+ rlo)
2=
Ce problme admet une solution unique, dont les proprits sont les suivantes. Soient ai les multiplicateurs de Lagrange associes aux contraintes. En drivant le lagrangien
Il
Il Il Il:! 11
2 2:lY/[Yi (x~1l
/=1
Il
+ rlo) -
L] (le facteur 2 est introduit par commodit), on
trouve (3
2: aYixi et 2: n,Yi
1=1 j;1
0 ainsi que les conditions de Kuhn et Tucker
1B.Analyse discriminante et rgression logistque
459
Si
(Xi
> 0 alors yj(x:~ +
~o)
('if
1 et le point est sur la marge
Si yj(x:~
~o)
>
1 alors
= 0
La rgle de classement est base sur le signe de

f(x)
= ~o +
~
sUppOI1
{XiYiX;X
L'hyperplan optimal ne dpend que des points support o ai est non nul, stus sur la marge. donc les plus difticiles classer, ce qui le diffrencie de l'hyperplan de Fisher: il peut tre plus robuste, car il ne dpend pas des points situs loin de la frontire. On verra au chapitre suivant une proprit supplmentaire concernant la gnralisation fl de futures donnes.
/8.3.1.2
Le cas non-sparable
Dans ce cas certains points seront du mauvais ct de la frontre (figure 18.13), et on va chercher minimiser l'importance de l'erreur de classement. On introduit alors les variables d'cart * et . Pour un point mal class ~* est la distance la marge de sa classe, et on pose * C.
........................
.~....
l1li ....
......~.
'
.... ,l1li
II II
..........
/f...
FIGURE ) 8.
13
On modifie alors les contraintes par Yi(X;~ + f3()'> ;::: 1 - ~i et on introduit une nouvelle contrainte pour borner l'erreur de classement 2:j < este. Le problme d'optimisation se transfomle en :
et donne une solution du mme type que prcdemment:
support
Le paramtre 'Y peut tre rgl par l'utilisateur, mais cela est dlicat. On prconise une optimisation par validation croise, ou avec un autre chantillon.
460
1BIIIIiIAnalyse discriminante et rgression logistique
18.3.2
Changement d'espace
Des donnes non sparables linairement dans leur espace d'origine E. peuvent le devenir aprs un changement d'espace (I>(E), en gnral de dimension plus leve. A une frontire linaire dans (NE), correspond une frontire non-linaire dans E.
U exemple (figure 18.14) suivant est classique avec deux groupes spares par une parabole: en passant de l'espace [R:\ dfini par (1, Xl> X2) l'espace ~6 dfini par (1, XI> X:h XI:'.' X2::'!' XIX:)), on obtient une sparation linaire dans le sous-espace Xl' Xl:!
f~ +~~
1 ..
............... .
FIGURE
18.14
L'hyperplan optimal dans (IJ(E) s'crit f(x)
= 130 +
support
Son quation ne fait intervenir que les produits scalaires entre points transforms. Comme dans le chapitre 7 avec la kemel-ACP, un choix astucieux du produit scalaire P(Xj) ; (lJ(xj ) > = K(x i ; x) vite de calculer explicitemem (I) et permet d'effectuer tous les calculs dans E. Le classiteur crit alors f(x) que sur les points SUppOltS. La capacit prdictive des SVM est leve. Nous verrons plus loin que le risque de biais de surapprentssage qui parat lev, est matris par la maximisation de la marge, condition de ne pas chercher ncessairement une sparation parfaite dans (NE).
2: iYi (p(xj)I(!>(x)) + 130 et la somme n'est effectuer

i=1
/1
K(x, y) = x, y> +
Les exemples suivanls (figure 18.15) sonl obtenus avec le noyau polynomial de degr 3 C)3 et montrent sa flexibilit (logiciel LIB-SVM):
Il
.. . Il. " .-... ,.

JI
-. li:
..
."
. ., ,.' :....
,,:
-..
....
:
III,,~
a.S
...
Il
.,'
..
FIGURE
18.1 5
18aAnalyse discrimnante et rgression logistique
461
18.4
DISCRIMINATION SUR VARIABLES QUALITATIVES
Les mthodes prcdentes ne s'appliquent pas drectementlorsque les prdicteurs ne sont pas numriques, ce qui est pourtant un cas assez courant.
18.4.1
Discriminante sur variables indicatrices
Une solution consiste transformer (quantifier) les prdicteurs en variables numriques discrtes en attribuant des valeurs (notes ou scores partiels) leurs modalits. On cherchera des valeurs optimales ) en un certain sens li aux performances attendues de la discrimination. On a vu au chapitre 9 paragraphe 9.4.1 et au chapitre 17 paragraphe 17.7.1 que cette transformation revient remplacer les variables qualitatives par les indicatrices des catgories. Ains un problme de discrimination sur p variables qualitatives 1111' , In" catgories revient une analyse discriminante de y sur le tableau disjonctif des IHI + ... + ntl) indicatrices des prdicteurs (X1Ix:J .. IXJI)' . Cette matrice n'tant pas de plein rang, V et W ne sont pas inversibles et il y a donc une intnit de solutions quivalentes. On peut alors faire comme pour le modle linaire gnral et liminer une indicatrice pour chaque prdicteur, ce qui quivaut lui donner un coefficient nul. Dans le cas d'une discrimination entre deux classes, la fonction de Fisher calcule sur ces + ... + J/lp -p) indicatrices fournit par ses coefi1cients la quantitication recherche. Cette quantitication rend maximale la distance de Mahalanobis entre les centres de gravit des deux groupes.
(ml
18.4.2
Discrimination sur composantes d'une ACM
On sait que l'ensemble des composantes de l'ACM de X = (X,lx:J .. IXp ) engendre le mme espace que X. S'inspirant de lu rgression sur composantes principales (17.5. J) la mthode Disqual (Saporta, 1975) consiste effectuer l'analyse discriminante sur une slection d'axes. En rduisant la dimension de l'espace des prdicteurs et en liminant des dimensions inutiles, on assure une plus grande robustesse des rsultats. Dtaillons les formules dans le cas de deux groupes, qui on le sait est quivalent une rgression aprs recodage de y. Notons 'Il les composantes de l'ACM el -j les valeurs propres. A l'aide de tests et aussi de l'expertise du statsticien, on liminera les composantes de faible inertie ainsi que celles ne spanmt pas suftisamment les deux groupes: il suftit d'effectuer un test de comparaison de moyennes sur chaque axe. Soit q le nombre de composantes conserves. Comme les composantes sont orthogonales, i1 est plus simple d'inverser V, qui est diagonale, que W. La fonction de Fisher tant dtinie un coefl1cient multiplicatif prs, c'est sans importance. La variable ({ score }) s qui donne la valeur de la fonction de Fisher pour chaque observation s'crit alors s =
2: u
l''''I
fi
zi avec u
g2)
=
(
-;:J _ -;:J ) .." 1\ .... ::' . \ ..
462
Grce aux formules de transition de r ACM (paragraphe 10.1.3.3), il n'est pas ncessaire d'avoir calculer pour chaque observation ses coordonnes sur les axes factoriels: il suffit d'effectuer la combinaison linaire avec les mmes coefticients llj des coordonnes de ses catgories. En effet un facteur multiplicatif prs, on a zj = Xaj o a j est le vecteur des coordonnes des ml + ... + I1lp modalils sur l'axe n j, d'o:
Q
s =
2: lIJ Xa
J= 1
x.2: IlJ
a)
\~J;...''''_!-.-_-'
grille de !'com
Le score s'exprime alors directement comme combinaison linaire des indicatrices des modalits: pour chaque individu, il suftit d'additionner les scores partiels des modalits qu'il prend. La fonnule ne comporte pas de tenne constant: en pratique ce terme qui correspond au seuil de dcision pOUf classer dans un groupe sera dtennin au vu des erreUfS de classement
18 .. 4.3
Un exemple de credit scoring
(1)
Les donnes analyses, provenant du logiciel SPAD, sont relatives 468 clients d'une banque. On veut prdire la qualit du client (<< bon ou mauvais ) partr de 6 caractristiques qualitatives (voir les rsultats pour le dtail) totalisant 21 modalits. Il y a donc 15 axes. L'ACM avec la qualit client en variable supplmentaire montre un bon pouvoir prdictif: valeurs-test leves pour la variable supplmentaire sur les deux premiers axes.
TABLEAU
18.6
VALEURS PROPRES NUNERO VALEUR POURCENTAGE PEOPRE 0.3401 0.2466 0.2108 0.1948 0.1843 0.1758 0.1700 0.1597 0.1495 0.1375 0.1182 0.1137 0.1092 0.1022 0.0775 13.60 9.87 8.43 7.79 7.37 7.03 6.80 6.39 5.98 5.50 POURCENTAGE
cm1ULE
1 2 3 4 5 7
8
9 10 11 12 13
5.13
4.55
/1.37 4.09 3.10
14
13.60 23.47 31.90 39.69 47.06 54.10 60.90 67.28 73.26 78.76 83.89 88.4'1 92.81 96.90 100.00
********************************** ****************-**-******* ************************ *****,,********** ***** ********************* * ***************** ******************* ****************** ******+********** ***********,,**** **"*****,,**** ************ ****"*** ** ********** *****
Dans la figure 18.16 les tailles des points sont proportionnelles aux effectifs des modalits: on identifie facilement les modalits proches des catgories de client, mais d'autres axes vont se rvler ncessaires.
1II1II Le lecteur intress par les applications au domaine financier se reportera utilemenl Bardos (200 1) etTuftry (2005),
1S_Analyse discriminante et rgression logistique
463
Facteur 2
o veuf
2.25
1.50
0.75
non domicile salaire
plus de 50 ans Ocadre
00
moins de 23 ans
mOns de 2KF encours
profession autre anc. 1 an ou moins
0
mauvais Flient
anc. plus 12 ans 0
~
o ............... ......\Oi7U;;;~ri
clibatare anc. de 4 6 a~s
anc. de 1 4 ans
de
40 50 an. . : dlvocre
de
hKy'OU'S
5
.......................
bon cllenl
salaire
Ci
o
employ
o
-0.75
plus de 5 KF encours
anc. de 6 12 ans
-1.0
-0.5
0.5
1.0
Facteur 1
FIGURE
18.16
TABLEAU l,jODALITES
18.7
COORDONNEES
.f;::.
0'1 VALEURS-TEST
~
Im:N
:::!
LIBELLE
EFP.
P .ABS"1
-1
DISrro.
l'.GEI de 23 ans AGEl 40 ans AGE3 - de 40 50 ano:. AGE:<f plus 50 ans

J CELE -
88 88. -12.!:l 150 150.00 -3.L1 1:22 122.00 2.9 lOB 108.00 .G
2.8 -10.5 0.9 8.1

-3.7 -1.1 0.8 11.3
4.8 9.6 3.6 -9.8 -15.5.2 7.7 3.2
-1.23 -0.23 0.22 -0.8 1.07
0.27
-o.
0.07 0.68
0.46 0.92 0.10 0.25 -0.66 .10 -],21- -0.09 .01 0.65 0.27 -0.07
'1.32 .12 2.8d 3.33
Situation familiale clibat.ai.re l'lArn - mari divorc

veur
70 170.00 -1.3. 221221.00 .3 61 G1.00 16.00 2.6
7. -9. -1. 8.7
6.7 -1.1 -0.El2 .23 -0.2 8.6 .50 -0.05 -9./1-12.1 0 30 0.10 0.3 1.7 0.65 2.79
.d,l 0.41 -0.07 -0.44 -0.01 0.42 -O. -1.12-l. 2.1<1 0.07 O.
1.7
.25
il
ANCI
,\Ne2
ANC3 ANC4 MIe 5
Anciennet ane. l an
anc.
moins
de l
ans
anc.
II 6 ans de G ans
anc. plus 12 ans
:199 47 69 66 87
.00
.00 69.00 66.00
-9.0 -2.3 .9 1.7 13.4
.3 .7 .l -lD.O 3.
-B.4 2.2 4.6 G.9 -1..5
-08
-8. O. 1.0 6.3
-7.0 -0.49 7.9 -0.32 5.5 -0.:21 -8.3 0.19 5.2 1.30
0.3'1 0.09 .J4 .ILl 0 31
-0.45 -0.0 '1

0.31 0.52 0.79 -0.14 .16 0 .11 0.61
-..
Il > ::::l
0.48 .08
CO
5 . Domiciliation du salaire Soui ~ domicile salaire 316 316.00 Snon - non domicile sala.e 152 152. 7
CADH
9.4 -9.11
~9.7
9.
-0.8 O.El
6.4 -6.4
.5
0.30 -0.31 -0.63 O.
-0.03 0.21 O.OB 0.05 -0.43 -0.17
-< '"
(1)
s:..I
0..
EHPL
Profession cadre employ
3'
5'
.J
n ...,
ili"
77.00 J37 J37.00 15 '1 154. () 0

77
.2 6./1 00-12.3 - 8. 8.a -1.2 - 3. 7.1 5. - 0 .8 -5.8
.2 J 8 7.0
-1.0 -1. 2.4
1.17 0.66 G. 0.00 -0.56 -1. 5 - 0 . 58 0 . 53

-6. 6.7 -0.20 0.52 - 0 . 4 - 0 . 11 - 0 . -7.5 O. -0.68
D.54 -0.10 -0.7 .13 -0.07 O. - 0 . 4 GO. 1 6 - 0 . 10
5.08 0.97 :2 0 il
::::l
@
(1) 1"'1' ..., (1).
oq
98 ENC3 pLus de 5 KF encours

rrype de client
62
98.00 3 0 8 . 00 62.00
-11.4 - '1 . 1 .0 0.5 .7

'1.
O. -1.03 O. - 0 . 14 0 . 37 - 0 . 01 0.06 .20 -0.89
3.78 0 . 52 6.55 0.97 1.03
@
:::J
OQ
M
'" o'
VI
v.
BON
!,jAUV
bon client mauvais client
.00 231 231.00

237
7.9 -7.9
.2 6.2
-0.1 0.1
6.0 -6.0
0.0 0.0
0.36 -0.28 .37 0.29
-0.01 0.27 0.01 -0.28
0.00 0.00
.il c
l'tl
7SmAnalyse discriminante et rgression logistique
465
TABLEAU
18,8
Coefficients
Con:latlons
Facteurs
1
F
;:]
avec l.a F.L.D. t,euil = 0.093)

0.368 -0.289 -0.005 O. 0.000 -0.011 -0.060 -0.094 0.057 0.07J 0.046 -0.096 -0.009 -0.077 0.054
F =
de la F.L.D.
1.886240 -1.. 736910 -0.03'1836 1.873010 0.001670 -0.079781 .437118 -0.702389 0.4111749 0.579235 0.383689 -0.853755 -0.084949 -0.720454 0.584582 15.19020 23.91037
Probabilit
F
F F F
3
4 5 6 7 8 9 10
F
F
I? 12
F 13
F ] 4
F 15
0.0000 0.0000 0.8893 0.0000 0.9950 0.7711 0.1174 0.0149 0.1378 0.0622 0.2323 0.0126 0.8070 0.0 1 156 0.1.573
PROBF. 0.000 PROBJ'.. = 0.000
R2 = 02
0.33515 2.00811.
'P2
TABLEAU
18.9
Fonction linaire de Fisher reconstitue il partir des varables d'origine

CoerfLcients
de la F.L.
Age du client moins de JJ anE; de a 40 ns de 40 50 ans plus de 50 ans Situation familiale clibatai n,
-1 311660 -0.461863 0.673484 0.949445
Ecart-type bootstrap
0.904747
O.9~!O693
O. O.9i.0071
mari
di.vorc
veut
l 141 .341 -J.25'l970 -8.:251.150

-'1.034720 .803805 1.931:OQ 2. 14630 6.071820
.697!128
. :<25616 1.057110 2.230390
Anciennet
';;'le.
ou moins
.490477
1. 83 0950
Clnc. anc. anc.

a~c.
plus
l~
:1 ans 6 ans 12 ans ans
D.G301,13 1. 09J 0 1.190080
Domiciliation du salaire domi.d.t,= salaire non domicile salaire Profession Cadre Employ profession autre Moyenne en cours moins de encoucs 'J EF encaE r s plus de
3.66J650 -7.616560
3.846700
Q.
().
8523
.119550
1.095720
0.5854.43
Q.660032
.39~'i870
.929690 . 684670
1.13'! 600 O. o 939;366
466
lBaAnalyse discriminante et rgression logistique
Le tableau 18.8 indique que les 15 dimensions ne sont pas toutes utiles. On limine les facteurs n03, 5, 6, 7, 9, 1l, 13, 15, ce qui ramne une discrimination dans un espace 7 dimensions. Les composantes tant orthogonales, les coefficients ne changent pas aprs limination ( un facteur prs). Le tableau 18.9 donne la grille de score brute avec une estimation par un bootstrap avec lOOO tirages des cart-types des coefficients; rappelons qu'il n'y a en etTet pas de formule permettant d'obtenir ces erreurs standard. Le score d'un clibataire de 30 ans ayant un compte depuis 5 ans etc. s'obtient alors en effectuant la somme -0.461863 + 1.141380 + 1.9315 + ... De te]]es valeurs ne sont pas commodes utiliser et une pratique courante consiste transformer linairement les notes de score pour qu'e]]es soient comprises entre 0 et lOOO. On ajoute aux coefficients de chaque variable une constante telle que la plus mauvaise note soit 0 : ici on ajoute + 1.31166 aux modalits de age du client}) , + 8.25115 aux modalits de situation fafiliale ) etc. On effectue ensuite une multiplication par une constante pour que le maximum soit de 1000. Le tableau 18.10 fournit ces scores aprs avoir rordonn variables et modalits selon l'amplitude de variation des scores pour mettre en vidence les variables et les modalits influentes.
TABLEAU 18.1 0 COEFFICIEN'l'S REORDONNES DE LA FONC'l'ION SCORE
rDEI\!
8
LIBELLES
!
!,joyenne en cours ENC3 - plus de 5 KF encours KF encours ENC2 de 2 ENC1 moins de 2KF encours
5
COEFFICIENTS DU SCOEE 236.93 202.

0.00
; DES
HISTOGKl':.. Nl!ES POIN(l'S DE SCORE
*****************~**
*****************
*
******************* *
Soui Snon
4 ANC5 ANC4 )11'1C3 ANC2 ANCI
3
Domiciliation du salaire domicile salaire non domicile salaire Anciennet anc. plus 12 ans ane. de 6 12 ans ane. de 4 6 ans anc. de l 4 ans anc. 1 an ou moins
221. 24 0.00
198.22 132.37 117.01 63.37

0.00
*************.*** *********** '1r********* *****
"*
**************** ************** **********
Situation familiale CELE - clibataire Ivln..RI - mari divorc DIVO VEUF - veuf
7 Profession CADR cadre EH PL - employ AUTE - pr-ofession autre
181}.21
168.53 117 . 60 0.00 115.05
*
********** ***
40.83
(LOO
Age du client -''IGE4 - plus de 50 ans AGE3 - de 40 50 ans AGE2 - de 23 40 ans moins de 23 ans AGEl
:2
44.35
****
***
38.93
16.67 0.00
*
*
467
En reprsentant simultanment les fonctions de rpartition du score des deux groupes, il est alors possible de choisir des seuils de dcison en fonction des risques de mauvaise classification, avec ventuellement une zone d'incertitude. La figure 18.17 illustre cette pratique: si l'on dcide qu'un client ayant un score infreur 550 est mauvais on dtecte environ 60 % de cette catgorie, tout en ne dclarant mauvais )} que 10% des bons . Inversement si le seuil pour tre class bon est 750, on reconnat environ la moiti de cette catgorie, et seuls 9.5 % des mauvais sont considrs tort comme des bons .
G2 mauvais client
Variable cible: Type de client - Modalit cible: bon client

r--------------------------r--------~~
G1 bon client
~r=~n
__
9.5%
30.7%
50.2%
59.7 ClIo
39.7%
550
IIIIIIIIIII
liIBIIlII
Class G2 : ' mauvais client 1 Non class: zone d'indcision Class G 1 : 'bon client'
FIGURE 18.17
c::::J ~ c::::J
750 Bien class par le modle Non class par le modle 'mauvais client' mal class dans G1 'bon client' mal class dans G2
18.5
18.5.1
ANALYSE DISCRIMINANTE PROBABILISTE

La rgle baysienne et le modle gaussien
Le modle suivant fournit le cadre infrentiel ncessaire l'analyse discriminante. On suppose que les k groupes sont en proportion PI P1, ... , Pk dans la population totale et que la distribution de probabllit du vecteur observation x (xh ... , xp ) est donne pour chaque groupej par une densit (ou une loi discrte)Jj(x). Observant un point de coordonnes (x" x:!, ... , xI') la probabilit qu'il provienne du groupe j est donne par la formule de Bayes:
468
1B_Analyse
discriminante et
rgression
IOglstitClUe.
P(G;lx)
p;.fj(x)
.i=1 '
2: Pi.t(X)
La rgle baysienne consiste alors affecter l'observation x au groupe qui a la probabilit a posteriori maximale.
18.5.1.1
Le cas d'galit des motrices de variance covariance
Si 2:. = 2 2 = ... = I. k I., la rgle devient linaire. En effet ln (det Sj) est une constante et (x - f!.} I-I (x - ~i) est alors gale fi:!(x. fJ.j), distance de Mahalanobs thorique de x f.Lj' En dveloppant et en liminant x'I.-1x qui ne dpend pas du groupe on a:
Si! est estim par - - W, la rgle baysienne correspond la rgle gomtrique lorsIl - k qu'il y il galit des probabilits II priori. La rgle gomtrique est alors optimale. La probabilit a posteriori d'appartenance au groupe j est proportionnelle :
Il
Les dnominateurs tant les mmes pour les k groupes on doit donc chercher le maximum de:
fJjfj(x)
Il est donc ncessaire de connatre ou d'estimer./j(x). Diverses possibilits existent; la plus classique tant de supposer que x suit une loi NfJ(f.L, !) pour chaque groupe:
La rgle baysienne max Pi.fj(x) revient donc en passant en logarithmes minimiser:
Lorsque les I.i sont diffrents cette rgle est donc quadratique et il faut comparer k fonctions quadratiques de x.
"1> ' ., ....) est en genera1 estlme par -11- Vj et IL) par gj'
Il
1BIIIIIIIAnalyse disc.riminante et rgression logistique
469
18.5.1.2
Deux groupes avec galit des matrices de variance
On affectera x au groupe 1 si :
f.12)
+ ln-='
Pl
_1_1- 2
J.h
0.5 on trouve la r!!le de Fisher en estimant

'-
:s par 11
W.
Soit:
S(x)
= X'I-I
(f.11
P-:. n1 Pl
On affectera x au groupe 1 si S(x)
> 0 et au groupe '2 si S(x) < O.
La fonction S(x) appele score ou statistique d'Anderson est lie simplement la probabilit a posteriori d'appartenance au groupe 1. On a en effet:
P(G/x)
P=-~:......:...;.....:.-_--
(x)
PI fi (x)
+ p"!.f-:. (x)
d'o:
p
P2J;(X) Pl -exp -1+ - - .(x) -_ 1+ PI [1 (x PIfl '2
d'o ln
(~-
1 ) = -S(x).
Soit :
. P(G/x)
= ----1 + exp (-S(x))
P est donc fonction logistique du score.

Lorsque PI = P-:. l/2 :
p=
-------,-------------------~
1 + exp (
~ (LI.' (x: JL,) - LI.' (x; JL')
on remarque que modifier les probabilts li priori se traduit simplement par un changement du terme constant. Dans de nombre Lises aplications, ce qui compte essentiellement est la combinaison linaire des variables, le terme constant tant laiss au choix du praticien (voir plus haut). Dans
470
lBaAnalyse discriminante et rgression
ces conditions, le fait que les proportions des groupes soient conformes ou non la ralit sans importance, ce qui compte pour la qualit des estimations tant la taille des chantillons. Voici il titre d'exemple le tableau 18.11 donnuntles affectations des 45 premires des donnes d'infarctus selon la rgle prcdente. L'astrisque indique une erreur de
TABLEAU
Gl~Ol1pe
18.11
(G1!x)
p (G 2 !x)
rel
Groupe attribu SURVIE DECES DECES SURVIE ,DECES DECES SURVIE DECES SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES SURVIE SURVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES
1
2 3 4 5
6
-;
8
SURVIE DECES DECES SURVIE DECES DECES SURVIE SURVIE

SUI~.vIE
0.4515
0.81110 0.9597 0.2250 0.8112 0.8928 0.3202 0.8711 0.0984 0.0797 0.0138 0.0160 0.0052 0.0105 0.0019 O. 58 0.2011 0.2260 0.0022 0.1222 0.001<1 0.8629 0.4804 0.9900 0.5845 0.7447 0.7067 0.4303 .1118 0.5734 0.2124 0.9928 0.7301 0.5354 0.9943 0.1218 0.2757 0.1759 0.9555 0.0695 0.9762 0.9785 0.3340 0.2121 0.7880
10
11
12
13
14 15
16 17 18 19 20 21 22 23 24
25
26 27 28 29 3D 31 32 33 3 35 36 37 38 39
I!O
41 42 '13
44
45
SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE DECES DECES DECES DECES DECES DECES DECES SURVIE SURVIE SURVIE DECES DECES SURVIE DECES SURVIE SUEVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES
0.5485 0.1860 0.0403 0.7750 0.1888 0.1072 0.6798 0.1289 0.3016 0.9203 0.9862 0.9840 0.9948 0.9895 0.9981 0.9742 0.7989 0.7740 0.9978 0.8778 0.9986 0.13 71 0.5196 0.0100
0.4155
0.2553 0.2933 0.5697 0.8882 0.4266 0.7876 0.0072 0.2699 0.4646 0.0057 0.8782 0.7243 0.8241 0.0445 0.9305 0.0238 0.0215 0.6760 0.7879 0.2120
471
Dans l'exemple infarctus, le logiciel a suppos par dfaut l'galit des probabilits hypothse.
{l
priori, ce qui est contestable. Les probabilits li posteriori sont donc dpendantes de cette
Sous rserve du caractre raliste de l'hypothse de multinormalit, ces rsultats sont donc plus prcis qu'une simple dcision selon la distance la plus courte. Le calcul de probabilit a posteriori montre ici que 4 classements errons sur 5 se sont produits dans une zone d'incertitude (probabilits voisines de 0.5).
18.5.1.3
Quand Pl
Taux d'erreur thorique pour deux groupes avec .'2: 1
= 2. 2
= P"].. la rgle de classement thorique est d'affecter au groupe 1 si :

S(x) = x'! -1 (ILl
La probabilit d'erreur de classement est donc:

P(S(x)
>
O/x ENI' (IL2; "2:))
La loi de S(x) est une loi de Gauss 1 dimension comme combinaison linaire des composantes de x.
E(S(x)) = IJ.'
1
(ILl - f.t:;) J.l::) -,~_,
~ (ILl + J.l"2.)'~ -1 (J.ll

_
1 =-(J.l1
(ILl - 1J."l) -
-2: LlTl
=
A~
"2.
V(S(x))
= (ILl
1J.2)'!-IIl- 1 (J.ll - IL2)
d'o:
. S(x) Slllt une LG ( 1 ., -2" Ll;;; 8.p )
La probabilit de classer dans le groupe 1 une observation du groupe 2 est:
Elle est gale P(2/1). Cette relation donne une interprtation concrte la distance de Mahalanobis. Si Pl
=1=
P"l on trouve:
P( ll2)
P(U
>
~"
1 fJ.,) + -ln-=
P(2/l) =
p( U >;
8."
PI
-111-= 8.Jl PI
] p..,)
Lorsque J.lh IL!. I. sont estims, S(x) ne suit plus une loi normale et utiliser DI' comme estimation de 8.1' conduit li une estimation biaise des probabilits d'erreur de classement: il
472
1BIIIII!IAnalyse discriminante et rgression logistiqU
y a en moyenne sous-estimation de la probabilit globale d'erreur PI P(2/I) + p2 P(1I2), due entre autres raisons au fait que surestime 6.~ (voir chapitre 15, paragraphe 15.5.6C).
Di,
Pour l'exemple des infarctus comme Dp d'erreur gale P( U > 1.11) = 0.13.
= 2.223
on aboutit une estimation du taux
1 11 1., 11 L'utilisation de l'estimation sans biais de 6.-, - - - - D- - P - 11-2 Il,112
= 4.37
conduit
une estimation du taux d'erreur voisine de 15 %. La rgle baysienne peut cependant conduire des dcisions absurdes lorsque les probabilits Cl priori sont trs dsquilibres. Supposant par exemple que Pl = 0.01 et Pz = 0.99, ce qui correspond la dtection d'un groupe rare. Il est alors facile de voir que pratiquement toutes les observations seront classes en G2 et aucune en Gl. Notons qu'une tene rgle donne un pourcentage global de bons classement de 99 % ! (moyenne de 0 % sur le groupe 1 et 100 % sur le groupe 2). En effet, si l'on '"'crit )a formule de Bayes sous la forme PCG J/x)
= PI
pd, (x) + p::.f7.(x)
fi (x)
, il
. f au drmt que
pd! (x)
+ p7.f2(x)
(x)
. , epasse 0 .~. ce qUI 5 . > 50 pour que 1 probab')'\te a posterIOri d' a 1
n'est possible que sijj(x)
> 99f2(x), ce qui est fort improbable.
18.5.1.4
Tests et slection de variables
L'hypothse d'galit des matrices 2" peut tre teste au moyen du test de Box qui gnralise celui de Bartlett pour le cas unidimensionneL Si l'hypothse
I,
= ...
Ik est vraie,
la quantit:
(n
k)ln
1)
1_ wl Inl_ Vil]
11
Il -
Tli
IIi -
SUit
.. l' approxlmatlVement une 01
x-." a pep + 12)(1\: -
1) d
' d rb ' egres e l erte.
Si l'on rejette l'hypothse d'galit, doit-on pour autant utiliser les rgles quadratiques? Cela n'est pas sr dans tous les cas. Tout d'abord le lest de Box n'est pas parfaitement fiable, ensuite l'usage de rgles quadratiques implique l'estimation de bien plus de paramtres que la rgle linaire, puisqu'il faut estimer chaque Ij' Lorsque les chantillons sont de petite taille, les fonctions obtenues sont trs peu robustes et il vaut mieux utiliser une rgle linaire malgr tout. Pour deux groupes le rsultat suivant est l'origine des mthodes classiques de slection . de variables: Soit un sous-ensemble de 1 variables parmi les p composantes de x,
1aaAnalyse discriminante et rgression logistique
473
Supposons que Ll~ = /11; en d'autres termes les p - 1 variables restantes n' apportnt aucune information pour sparer les deux populations; alors:
p - 1)
On peut ainsi tester l'accroissement de la distance de fvlahalanobis apport par une nouvelle variable un groupe dj constitu en prenant 1 = p - 1. Lorsque l'on fait de la discrimination entre plus de deux groupes, les tests sont ceux utilisant le A de Wilks. Le test d'galit des k esprances 1-11
1-12 = ... = J.LI. est le suivant:
A=
Iwl
Iv)
Iwl IW+BI
k, k - 1 sous Ho : f.L1
-
suit la loi de Wilks de paramtres p, n
J.L2 = ... = f.Lk
car IlV, nW, nB suivent respectivement les los de Wishart Il libert. Si k
l,
Il -
le, le - 1 degrs de
= 3 on utilisera la loi exacte de A et non une approximation:

--=--- F(2p; 2(1l n-p-2
p - 2)
Si le = 2, le test de Wilks el le test de la distance de Mahalanobis (Ho : Ll~ = 0) sont identiques car B tant de rang l, on a :
A=-----------') 11
1
Dp-----~----
I.L
+1
}-
(ni
Il 2)(11
1+
III -
2)
Le test de Ho : f.li f.l Vi peut s'effectuer galement en utilisant comme statistique de test la trace de W- I B appele statistique de Lawley-Hotelling qui suilla loi du T5 gnralis de Hote11ing approximable par un X~(k-I). La trace de V- I B esl appele trace de Pillai. Pour l'introduction pas pas de variables en discriminante k groupes on utilise souvent le test de variation de A mesur par:
n - k
k
que l'on compare un
Fk-I;If-k-f/'
P (- - - 1 ) Al'
1
AjJ+1
Comme en rgression multiple, il existe divers algorithmes de slection: ascendant, descendant etc. D'ailleurs pour deux groupes, les mthodes sont identiques (voir paragraphe 18.2.3).
474
1BIIIIIIIAnalyse discriminante et rgression logistiquE!
L'application d'une mthode ascendante aux donnes infarctus conduit aux rsultats suivants:
The STEPDISC Procedure Fo["ward Selection: Step 1 Statistics for Entry 1 Variable FEChR INCAR INSYS PRDIA P..\PUL PVENT REPUL Value DF =
99
Fr
>
Tolerance
0.053 0.4826 0.'1493 0.2228
o .184t1
0.0719 0.'1198
5.60 92.33 80.75 28.37 22.38 7.67 71. 62
0.0200 <.0001 .0001 <.0001 <.0001 0.0067 <.0001
1.0000 1.0000 .0000 1.0000 1.0000 1.0000 1.0000
La variable INCAR est alors slectionne car la la plus explicative.

Fon'Jard Selection: Step 2 Statistic5 ror Entry,
OF
1,
98
Par-tial
Variable FRCAR INSYS PROIA PAPUL PVENT REPUL R-Square
F Value
Pro
>
Tolerance
0.0461 0.0265 0.1089 0.1223 0.0110 0.0622
4.73 2.66 11. 98 13.66 1. 09 6.50
0.0320 0.1058 0.0008 0.0004 0.2994

O.OUI!
0.9874 0.2130 0.8699 0.9274 0.9205 0.H17
C'est ensuite la variable PAPUL et la slection s'arrte car plus aucune variable n'est significative au pas n03 conditionnellement aux choix prcdents.
Forward Selection: Step 3 Statistics for Entry, Partial R-Square OF = l, 97
Variable FRCAR INSYS PEDI? PVENT REPUsL
F Value
Pr
>
'l'olerance
0.0107
O. 0013
0.0003 0.0020 0.0000
1. 05 0.13 0.03 0.19 0.00
0.3090 0.7197 0.85'15 0.6609 0.9784
0.81011 0.1832 0.1259 0.8777 0.1994
18.5.2
Mthodes non paramtriques
On ne fuit pas d'hypothse spcifique sur la famille de loi de probabilit. Des variantes multidimensionnelles de la mthode du noyau permettent d'estimer ij(x).
h(X) = - .
'\
12/1 i=1
Xi) L K (x -Il
H,
475
o K est une densit multidimensionnelle. La discrimination par boules}) en est un cas particulier: on trace autour de x une boule de rayon p donn dans ~,J et on compte le nombre d'observation kj du groupe j dans cette boule. On estimera alors directement P(G/x) par:
Remarque: La boule peut tre vide si p est trop pelit.

Une des mthodes les plus utilises est cependant la mthode des k plus proches voisins. On cherche les k points les plus proches de x au sens d'une mtrique prciser et on classe x dans le groupe le plus reprsent: la probabilit (/ posteriori s'obtient comme pour la discrimination par boules mais n'a pas grand sens si k est faible. La mthode du noyau esl en thorie optimale. mais est cependant peu utilise car Je rglage des paramtres de lissage est assez dlicat.
18.6
RGRESSION LOGISTIQUE BINAIRE (DEUX GROUPES)
Au paragraphe 18.5.1.2 on a tabli sous les hypothses de normalit et galit des matrces de variance covariance que la probabilit Cl posteriori d'appartenance au groupe 1 se mettait sous la forme d'une fonction logistique du score, lui-mme combinaison linaire des variables. Lu rgression logistique, uppele galement modle "logit", consiste poser cette relation comme hypothse de dpart, ce qui est donc un modle plus large que celui de l'analyse discriminante probabiliste. La rgression logistique a t introduite en 1944 par Berkson en biostatistique, puis en 1973 par McFadden en conomtrie. e J3o + !l'x
1+
er'lo+!l'x
Ce modle est souvent qualiti de semi-paramtrique, dans la mesure o on modlise le rapport des densits (x) au lieu de chacune. On notera P(Gl/x) f2(X)
= P(Y =
1).
Pour des complments, en particulier pour le cas polytomique, on se reportera
J.1. Droesbeke et al. (2005).
18.6.1
Interprtation
Le choix de la fonction logistique conduit une expression comprise entre 0 et 1, ce qui convent une probabilit, et correspond souvent une bonne reprsentation de certains phnomnes. Les coefficients du modle sont 1is aux odds-ratios ou rappolt de cotes de la manire suivante.
476
181111111Analyse discriminante et rgression logistique
Considrons tout d'abord le cas d'une seule variable explicalive binaire. Par exemple x = 1 si l'on fume, x 0 sinon et Y = 1 dsigne la survenance d'une maladie. La probabilit d'tre malade si l'on fume est pey = lIx - - - - que l'on cnm-
pare tout d'abord la probabilit de ne pas tre malade si l'on fume:
P(Y= O/x
1) = 1 - P(Y= 1/x
L'odds est le rapport de ces deux probabilits pey = IIx = l)/P(Y = Oh = 1) analogue la cote )/ des parieurs. On effectue ensuite les mmes calculs pour les non fumeurs: la probabilit d'tre malade e 1311 l estf(Y = lIX 0) = celle de ne pas tre malade P(Y = l/X = 0)
1+
PC Y = lIx = 1)1P = Olx = = \ c'est le facteur par P( y = lIx = 0) / P (Y = O/x = 0) lequel la cote est multiplie lorsque x passe de 0 1. l'OR est suprieur 1 s'il Ya aggravation.
L'odds ratIo est alors: OR =
Plus gnralement pour une variable explicative numrique, on a :
OR =
1)/(1 - TI(x
l}) = e 131
1T(X)/(l - 'IT(x)
mais l'interprtation et la valeur de l'odds ratio dpendent de l'unit de mesure de la variable: si
x dsigne la quantit quotidienne de tabac, le rapport ne sera pas le mme selon que x s'exprime
en nombre de cigarettes, ou en nombre de paquets. Comme en rgression linaire, le produit f3x reste fixe. On peut sans difticult utiliser des prdicteurs qualitatifs de la mme manire que dans le modle linaire gnral. Chaque variable qualitative III modalits est remplace par III - 1 indicatrices aprs limination d'une des modalits, dite modalit de rfrence, qui aura un coefficient nul. Les comparaisons de coefficients se font alors par rapport cette modalit: une valeur proche de zro ne signifie pas qu'une modalit est sans effet, mais qu'elle est pro~ che de la modalit de rfrence.
18.6.2
Estimation
Elle s'effectue par la mthode du maximum de vraisemblance partir d'un chantillon Ud de 11 observations lVlxj) prleves dans la population totale. La vraisemblance correspond d'habitude la probabilit d'observer les (Yi' Xj) mais il s'ugit ici d'une vraisemblance conditionnelle puisque l'on ne modlise que 1T(X) :
_
L(/3o. (3) -
II1
II
e f3l1 +Jl'x
)y, ( _
x
+e
[P-P'
Il'
e f3i)+/l'x
+e
[3
~11'
)1--'"
x
il'
i=
II1 1T(Xi y, (l
Il
1BIiIIIiIAnalyse discrminante et rgression logistique
477
Notons
'1j
1T(Xj)'
En annulant les drives par rapport aux r:.j de la Iog~vraisemblance :

Il
C(r:.n, (3)
= log L (r:.o, (3)
2:
i=1
[Yi log
'11
(1
Yi) logO - '1i)]
On aboutit au systme d'quations:

Il
2: (Yi i=1
'1;)
j = 1, ... ,p
qui n'a pas de solution analytique et se rsout par des procdmcs de calcul numrique. On obtient la matrice de variance-covariance asymptotique des estimateurs, d'o les erreurs standard des coefticients, en appliquant les rsultats du chapitre 13, paragraphe 13.4 par inversion de la matrice d'infonnalion de Fisher:
Il
Il
-1
V(~)
L'iT;(1
i""l
1TJ
Lxfrfr,(l
i=1
rfr;)
-a2c~~r
ar:.-
l'l=~
Il
LXffii(l - 'n";)
i=1
2: (.rn::!fii (l
1=1
Il
- fiJ
Le tableau 18.11 donne les rsultats de la procdure Logistic de SAS pour les donnes infarctus (on modlise la probabilt de dcs). Le khi-2 de Wald est gal au carr du rapport du coefficient estim son erreur standard estime: il est analogue au carr du T de Student de la rgression linaire multiple. Aucun coefficient n'apparat signiticatif, ce qui s'explique par un phnomne de multicolinarit marqu. Les estimations prcdentes supposent un chantillonnage alatoire simple dans une population avec pour consquences que les effectifs observs de Cl el C2 sont alatoires d'esprances respectives npl et HP::!. Dans de nombreuses applications pratiques on utilise un chantillonnage stratifi (cf chapitre 20) o Tl 1 et Il} sont fixs et o les proportions
478
18aAnalyse dscriminam:e et rgression logistique
TABLEAU
18.11
Pl-
Paramtre Intercept: FRCAR

INC.~R
DF
Estimation
Khi 2 de \'-Jald
Odds
ratio
Khi
I..jmites confiance
INSYS PRDIA PAPUL PVENT REPUL
1 1 1 1 1 1 1.
-1.3378 0.0474 -5.7825 0.1I02 0.0390 0.1511 0.054::: -0.0001
9.5500 0.0899 5.3189 0.3935 0.1950 0.2331 0.0789 0.0039
0.0196 0.286 1.1819 0.0784 0.0401 0.4199 0.4719 0.0000
0.8886 0.5976 0.2770 0.7795 0.8414 0.5170 O. '1921 0.9978
1. 049 0.003 1.116 1.. 040 1.163 1. 056 1. 000
(1-879 <0.001 0.516 0.709 0.736 0.904 0.992
.251
103.790 2.414 1.524 1. 837 1. 232 1. 008
PI et P2 ne sont pas respectes: en particulier il est courant de sur-reprsenter le groupe le plus rare. On montre alors, comme pour l'analyse discriminante, que seule change
l'estImation du terme constant !3n laquelle il suffit d'ajouter ln (;:) On prendra garde que si les probabilits a priori sont inconnues le terme constant ne pourra tre estim et que donc les probabilits a posteriori seront incorrectes (dtinies une transfonnation monotone prs). S'il agit seulement de calculer un score de risque, c'est sans gravit.
18.6.3
Tests et slection de variables
Trois mthodes sont disponibles pour tester rapport d'une variable au modle: Le test de Wald, dj prsent, Le test du rapport des vraisemblances qui consiste calculer pour chaque variable Vraisemblance sans la variable) -21n ( V' ralsem bl ance avec l ' bl e Il vana Le test du score U{(3)'PIJJ(~HJI-1 U{(3)~/I, o .1 est la matrice d'information de Fisher et U le vecteur des drives partielles de la log-vraisemblance estims SOlIS la contrainte ~i O. En rgression logistique simple, le score est gal nr:!., o r est le coefficient de corrlation linaire (abusif!) entre Y et x Ces trois tests suivent asymptotiquement un khi-deux un degr de libert sous l'hypothse de nullit du coefficient thorique. La figure 18.18 illustre le comportement de la logvraisemblance et permet de comparer ces trois tests qui donnent en gnral des rsultats quivalents: le test de Wald compare l'cart entre le coefficient thorique et sa valeur estime en abscisse, le test du rapport des vraisemblances compare, la diffrence en ordonne et le Lest du score compare zro la pente de la tangente au pOnt thorique. Ces tests peuvent tre utiliss pour des algorithmes de slection (ascendante, descendante ou complte). La liste des meilleurs modles (selon la valeur du khi-deux associ au score) de une 7 variables est donne dans le tableau 18.12.
1BaAnalyse discriminante et rgression logistique
479
('
Test du rapport des vraisemblances
Log-vraisemblance
/
.11
FIGURE
18.18
TABLEAU
18.12
Nombre de variables
1 2 3 4 5 6 7
Khi 2 48.7385 55.1304 55.6196 56.1043 56.2861 56.3087 56.3169
variables incluses dans le modle

INCAR INC}\.R PP.PUL FRC.;\.H INCAR P;\PUL FRC.i.R INCAR INSYS PF.PUL FRCAR l NC.l>.H INSYS PAPUL PVEN'I FRCAR INCF.R INSYS PAPUL PVENT REPUL FRCAR INCl'.R INSYS PRDLl>. P.i\PUL PVEN'r REPUL
On retiendra le modle deux variables INCAR PAPUL, les deux mmes qui avaient t slectionnes en analyse discriminante d'o le modle:
Paramtr'e Intercept INCAR

PAPUL
DF
1 1.
Estimation .9331 -4.5491 0.2015
Erreur st 1.7855 0.9402 0.0622
Khi 2 de Ha1d
Pr > Khi :2
0.1.004
Odds ratio
Limites de confiance 95%
2.6985 23.4083 10.11937
< 0001
0.0012
0.011 1.223
0.002 1. 083
0.067 1.382
Ces tests peuvent servir valider globalement un modle c'est dire tester la nullit simul~ tane de tous les coefficients ~ (sauf de la constante). Ains la vraisemblance en l'absence
480
1B.Analyse discriminante et rgression logistique
d' etTet des p variables vaut (';,'
(~,")""
HO
puisque P( Y = 1) ne dpend pl us des x et
s'estime. dans le cas d'chantillonnage global iid par la proportion d'observations de Gl. On comparera -21nL
Il + 2ln (( -;)111
(Il )"0) un khi-deux ti p degrs de libert.
18.6.4
Comparaison avec l'analyse discriminante linaire
La rgression logistique est souvent oppos tort l'analyse linaire discriminante de Fisher, certains praticiens croyant que la rgression logistique serait plus scientifique ; l'incomprhension de la proprit indique en 18.2.3 qui montre que la fonction de Fisher pellt s'obtenir l'aide d'une rgression ordinaire a galement beaucoup jou. En ralit si les deux modles diftrent par leurs hypothses, ils sont en ralit assez proches et les scores obtenus sont dans la pratique trs voisins. Atitre d'exemple le coefficient de corrlation entre les scores de Fisher et logistique dans le cas infarctus vaut 0.99881 ... Les deux mthodes reposent sur des modles probabilistes spcifiant des lois conditionnelles : les lois de Y/x pour la logistique, les lois de x/Y pour l'analyse discriminante. Les deux modles aboutissent une fonction de score linaire du mme type S(x) = 130 + f3'x. La diffrence rside dans le mode d'estimation: maximum de vraisemblance pour la logistique, moindres carrs pour Fisher. Prcisons d'ailleurs que si fi et Ii sont des lois normales de mme matrice de variance, alors l'estimation des moindres carrs donne par la fonction de Fisher concide avec l'estimateur du maximum de vraisemblance complet et esL donc plus prcise que l'estimation fournie par la rgression logistique qui n'est qu'un maximum de vraisemblance conditionnel qui ignore l'information sur les distributions des x. En thorie la rgression logistique est mieux adapte au cas non-gaussien. Cependant la fonction de Fisher ayant aussi une justification gomtrique peut tre applique en dehors de tout contexte probabiliste. Les coefficients sont dtermins de faon unique et ont une interprtation en termes d' odds ratio pour la logistique, alors que pour la fonction de Fisher, ils sont dfinis un facteur multiplicatif prs. Il existe cependant un cas o la rgression logistique ne fonctionne pas, celui de la sparation linaire complte: les estimateurs n'existent pas (non-convergence), dfaut que ne possde la fonction de Fisher que dans le cas fort rare o les deux centres de gravit sont confondus. Le fait que les erreurs-standard ne sont pas calculables en analyse discriminante alors qu'elles le sont en logistique est un argument en faveur de cette dernire, encore faut-il prciser qu'elles sont asymptotiques et que le bootstrap peut fournir des erreurs standard en discriminante. La rgression logistique a t conue plus comme un modle permettant de mettre en vidence des facteurs intluents que comme une technique dcisionnelle de prvision individuelle. Dans certaines applications (credit scoring en particulier), le score !ln + l3'x est utilis des fins de prvision: si l'objectif est purement oprationnel, il convient alors de choisir entre les mthodes en termes de pouvoir prdictif ou taux d'erreur, et non selon la valeur de statistiques de test, (voir plus loin), ni selon des prsupposs idologiques.
181B111Analyse discriminante et rgression logistique
481
18.7
VALIDATION
La qualit d'un score ou d'une rgle de classement n'est pas seulement un problme de test statistique, ou d'estimation d'une distance de Mahalanobs. En effet les statistiques de lests, pour utiles qu'elles soient, ne sont pas directement lies aux performances en termes de classement et reposent sur des hypothses pas toujours vrifies. Il faut non seulement dtinir des indicateurs pertinents, mais aussi pouvoir comparer diffrentes mthodes l'aide de ces indicateurs. La comparaison de performances ne va pas toujours de soi, quand des modles n'ont pas le mme nombre de paramtres: Je modle le plus complexe sera plus performant sur les donnes qui ont servi l'estimer, mais cela sera souvent trompeur. Il faut donc comparer les capacits prdictives sur de nouvelles donnes (ou observations supplmentaires), ce qui conduit il partager les donnes dont on dispose en plusieurs sous-chantillons. Le chapitre suivant reprendra ce problme sous un point de vue plus gnral.
18.7.1
Procdure de classement
Quelle que soit la mthode (discrimination linaire ou quadratique, logistique, SVM etc.) s l'objectif est de prdire]' appartenance des classes, les rsultats tinaux se prsenteront sous forme d'un tableau de classement ou matrice de confusion obtenue en appliquant la mthode des observations dont l'appartenance est connue et compare l'appartenance prdite (voir 18.1.3). Ainsi pour les donnes infarctus, en utilisant la fonction de Fisher avec les 7 variables, et en utilisant la rgle baysienne avec galit des probabilits Cl priori, on obtient 87 % d'observations bien classes:
De PHONO
DECES 46 .20
8
SURVIE
Total
DECES SURVIE Total
5 9.80
51
100.00
50 100.00 101 100.00
42
84.00 47 '16.53
16.00
54
53.
Or si l'on se contente de classer les observations qui ont permis d'estimer le modle ({ resubstitution })) on commet une erreur mthodologique qui peut-tre grave si la taille des chantillons est peu leve (jusqu' quelques centaines) et le modle complexe. En effet on aura tendance trouver des rsultats flatteurs puisque r on utilise deux fois les mmes donnes, une fois pour estimer les paramtres du modle et leur donner donc les meilleures valeurs possibles, et encore une fois pour classer les donnes. Un modle 50 paramtres donnera toujours un excellent ajustement, mais se rvelera inefficace l'avenir. La capacit prdictive ne peut se juger que sur des donnes indpendantes.
482
1B.Analyse discriminante et rgression logiStique
On recommande donc de sparer alatoirement les donnes en deux ensembles dits d'apprentissage et de test. L'ensemble d'apprentissage sert estimer un modle qui va tre uti tis sur l'ensemble lest. Ceci n'est toutefois pas suffisant et pour obtenir non pas une seule estimation du taux de bien classs, mais galement un intervalle de confiance, il faut rpter le tirage alalOire plusieurs fois. On recommande d'effectuer un tirage stratifi dans chaque groupe pour viter des fluctuations parasites des effectifs des groupes. Lorsque le nombre d'observations disponibles est faible, comme dans le cas des infarctus, il n'est pas possible de sparer les donnes en deux sous~ensembles. On utilise alors la validation croise qui consiste effectuer 1l analyses discriminantes: on te tour tour chaque observation que l'on prdit l'aide d'un modle estim sur les 11-1 observations restantes. Cette mthode s'apparente donc aujack-knife et au calcul du press en rgression. On obtient des estimations de biais faible, vOre nul, mais avec une variance pas toujours ngligeable. Voici le rsultat pour les donnes infarctus: l'estimation du taux de bons classements diminue 84 %
De PRONO
DECES
4t!
SUHVIE
'7
Total
DECES SURVIE.
'Total
51
100.00
86.27
9 18.00
1.3.73
41 82.00
t18
50
100.00 101 100.00
53 52.48
47.52
Il faut bien comprendre que ces faons de faire ne servent qu' estimer la capacit prdictive du modle en l'absence de nouvelles donnes, mais que les paramtres doivent toujours tre estims l'aide de la totalit des observations.
18.7.2
Validit d'un score, courbe ROC, AUe
Ce qui suit ne concerne que le cas de deux groupes. On appellera ici score une mesure permettant de noter Je risque d'appartenir au groupe 1. Un score n'est pas forcment obtenu par une mthode linaire, toute mthode pemlettant de calculer une probabilit d'appartenance convient: une probabilit est un score compris entre 0 et 1. On commencera par tudier la sparation entre les distributions du score selon les deux groupes comme dans la figure 18.17. Cependant l'outil le plus pertinent est la courbe ROC. Abrviation de Receiver Operating Curve , cette courbe rsume Jes performances de toutes les rgles de classement que l'on peut obtenir en faisant varier le seuil de
1B.Analyse discriminante et rgression logstique
483
dcision. Supposons que le groupe dtecter prioritairement soit celui des scores levs. La rgle de dcision se compare un test d'hypothse entre Hl (population l) et HO (population 2). Le vocabulaire (positifs, ngatifs) est issu de problmatiques de dtection (sgnal, dpistage mdical) et peut se ramener aux concepts d'erreurs de premire et seconde espces du chapitre 14. On appelle faux positif une observation classe en Gl alors qu'elle appartient II Gl etc. Si l'on dsigne par s le seuil au del duquel on classe en G 1, on dfinit la : sensibilit comme le % de vrais positifs: 1 spcificit comme le % de vrais ngatifs: 1 -
f3 = P(S > sIG 1)

0'
= P{S
< slGl) :
3 2
r\
0.2
Score
0~~~~~1~~~~~~
0.8
(X 1000)
FIGURE
0.2
004
0.6
0.8
Score
1 (X 1000)
18.19
Si s = -00 toute observation est classe en Gl donc 1 - f3 = 1 mais 0' = 1. En augmentant s on diminue la sensibilit mais on augmente la spciticit. La courbe ROC (figure i8.20) donne alors l'volution de la proportion de vrais positifs l faux positifs 0'.
f3 en foncton de la proportion de
Courbe ROC
1,0 -.----------:-7C-r-=;.:=='S(;=;I"I'7Ix 0,8

:
'Il)
XxxxxXx
ac: x x x;tNx xXx 'hM
~~
'XXXXXXX)<X
xxx;:
xxxx
XXi<
0,6
00. xx x:<x XX xnI x Xx:x x x

l'MXX/XXXXXXX
tx X X X:X x X",AUC x x x x x x lx IXIIII~xxxxxxx~
x
)1.)1,
KXXXXXXYV~~0XXXXX
gj 0,4
0,2 0,0
:0 'iii c
XXXx~xxxxxxxxx~ xxxx .xxxxx .xx xxx :x x x x ;: X;(- >< .x.x x
0,0
0,2
0,4
0,6
0,8
1,0
1 - Spcificit
FIGURE
18.20
484
1BaAnalyse discriminante et rgression logistique
La courbe ROC est invariante pour toute transformation monotone croissante du score, en raison des proprits des probabilits: on peut donc sans sans changer la courbe ajouter (ou multiplier par) une constante positive, prendre la probabilit la place du score etc. La courbe ROC ne dpend que du classement des valeurs. Plus les deux distributions sont spares, plus la courbe ROC se rapproche du carr. Si les deux distributions sont identiques, la courbe se confond avec la diagonale. La surface situe sous la courbe ROC note AUe (~( area under curve)) est une mesure de la performance d'un score :
Aue = L~= -~ (1
- [3(,,))<I,,(s)
Elle varie entre 0 et I! en pratique 0.5 et 1, car si AUe < 0.5, cela signite que les scores ont t inverss. Si AUC > 0.5 on utilise galement un coefficient dit de Gini qui est le double d la surface comprise entr la coUrbe ROC et la diagonale et qui vaut donc 2AUC-1.
H
Soit XI la variable dont la loi est celle du score conditionnellement Gl, idem pour X!. Un calcul de convolution (loi de XI X~) montre que la surface sous la courbe ROC thorique est gale P(X] > Xl) si l'on tire au hasard et indpendemment une observation de Gl et une observation de G2. Cette proprit permet de trouver simplement une estimaton de l'AUe. En effet la probabilit que XI > Xl s'estime par le pourcentage de paires d'observations (une de Gl, l'autre de G2) concordantes, c'est dire telles que le score de l'observation de Gl est plus grand que le score de l'observation provenant de G2. Il Y a en tout 111111 paires. La proportion de paires concordantes n'est autre que la slatistique U de Mann-Whitney tudie au paragraphe 14.4.4.2, elle mme fonction de la statistique de Wilcoxon.
lBaAnalyse discriminante et rgression logistique
485
La figure 18.21 permet de comparer les scores issus de la fonction de Fisher et de la rgression logistique pour l'exemple infarctus en ne gardant comme prdicteurs que les variables Tncar et Papul : la diffrence entre les courbes ROC est pratiquement inexistante. Les Aue valent respectivement 0.945 et 0.943.
L'AUe ne donne toutefois pas un ordre total pour classer des modles car les courbes ROC peuvent se croiser. De plus quand les modles ont des complexits diffrentes, la comparaison doit tre effectue sur les observations d'un chantillon test.
9 11
Mthodes
algorithmiques, choix de modles et principes d'apprentissage
L'augmentation de la puissance de calcul a permis le dveloppement de nouvelles mthodes de prdiction utilisant une approche algorithmique et issues plus souvent de travaux d'informaticiens que de statisticiens. Arbres de dcision, rseaux de neurones, plus proches voisins sont ainsi couramment utiliss en data minng et sont en concurrence avec les modles plus statistiques tudis aux chapitres prcdents. D'un autre ct des techniques statistiques labores de rgression non paramtriques. ou de modlisation non-linaire via des transformations fonctionnelles (cf. les SVM) sont devenues disponibles. On peut galement combiner diffrents modles pour en amliorer les perforn1ances : on parle alors de mthodes d'ensemble, de mta-modles ou mta-heuristiques (<< bagging , boosting en sont des exemples). Ces approches empiriques peuvent donner lieu une thorisation expliquant leurs performances ; le lecteur intress se reportera r excellent livre de T. Hastie, R. Tibshirani, 1. Friedman (2001). La gamme de modles offerts au praticien est donc de plus en plus vaste. La question du choix d'un bon modle, sinon du vrai modle tern1es que celui du meilleur ajustement aux donnes :
GI
se pose alors en d'autres
choix d'un modle parcimonieux utilisant peu de paramtres,
choix d'un modle ayant de bonnes capacits prdictives sur de nouvelles observations Ce chapitre prsentera quelques uns de ces aspects ainsi que l'apport de la thorie de l'apprentissage.
19.1
ARBRES DE RGRESSION ET DE DISCRIMINATION
Dveloppes autour de 1960 et trs utilises en marketing, ces mthodes dlaisses par les statisticiens ont connu un regain d'intrt avec les travaux de Breiman & al. (1984) qui en ont renouvel la problmatique: elles sont devenues un des outils les plus populaires du data min;ng ou fouille de donnes en raison de la lisibilit des rsultats. On peut les utiliser pour prdire une variable Y quantitative (arbres de rgression) ou qualitative (arbres de dcision, de classification, de segmentation) l'aide de prdicteurs quantitatifs ou qualitatifs. Le terme de partitionnement rcursif est parfois util1s.
488
19_Mthodes algorithmiques. choix de modles et principes d'apprentissage
19. L 1
Dveloppement d'un arbre binaire
Le procd consiste fI la premire tape diviser l'chantillon d'apprentissage en deux sous ensembles l'aide d'un des prdicteurs Xl, x 2, ,xl'.. Ensuite on recommence sparment dans chaque sous-ensemble etc. Pour chaque variable explicative. il faut donc trouver la mei1Jeure partition de ses valeurs ou modalits en deux sous-ensembles selon un critre d'explication de y. Il s'agit donc d'une classification descendante but prdictif oprant par slection de variables: chaque classe doit tre la plus hornogne possible vis vis de y.
III
Partant de l'ensemble on cherchera le diviser en deux sous-ensembles d'effectifs tels qu'en moyenne on amliore le plus possible l'homognit des deux classes.
III
et
Le nombre de divisions en deux sous-ensembles que l'on peut raliser aide d'un prdicteur (et que l'on doit donc examiner pour choisir lu meilleure) dpend de la nature de ce prdicteur : si x est qualitatif nominal m modalits, il y a 2111 - 1 -1 dichotomies possibles si x est qualitatif ordinal 1IJ modalits et que les coupures doivent respecter l'ordre, il n'y a plus que 111-1 dichotomies si x est numrique li: valeurs distinctes, il y a J.;:- 1 dichotomies ou coupures possibles entre deux valeurs. En prsence d'un prdicteur qualitatif. on pourrait utiliser des arbres non binaires en dcoupant en 111 sous ensembles: cette ide n'est en gnral pas bonne car elle conduit des subdivisions avec trop peu d'observations et souvent non pertinentes. L'intrt des arbres binaires est de pouvoir regrouper les modalits qui ne se distinguent pas vis vis de y.
19.1.1.1
Arbres de rgression
Si Y est numrique, on utilisera de faon naturelle la variance de la classe comme mesure d'homognit. En divisant en deux sous-groupes on cherche alors il minimiser la variance intra-groupe ou ce qui est quivalent maximiser la variance inter-groupe. Pour deux groupes
y)2) est lie de manire simple la n,Il ') _ _ ~ - - Cv 1 - 1")diffrence entre les moyennes (calcul laiss au soin du lecteur) : \linter 11'1 -
la variance inter-groupe
Vin1t!r
= ! (fll(Y'
Il
)if + 111(Y'1 -
La coupure optimale pour une variable qualitative nominale ln modalits doit respecter l'ordre induit par la moyenne de y. On rordonne donc les catgories de x selon Yi et il n'y a plus que m-! dichotomies examiner au lieu de 2111 - ' -1.
19.1.1.2
Discrimination en k classes
Si Y est quaHtative III modalits on dfinit tout d'abord une mesure d'impuret d'un ensemble vis vis de y. Cette mesure doit tre nulle si tous les individus appartiennent ?l la mme modalit de y. maximale si les m catgories sont en proportions gales. Les deux mesures les plus usuelles sont l'entropie
2: Pi ln (Pi)
i=/
l;
et l'indice de diversit de Gin;
2: pjCl
j=1
Pi)'
On cherche la division en deux sOlls-ensembles qui conduit la diminution
maximale de l'impuret.
19. Mchodes algorithmiques, choix de modles et principes d'apprentissage
489
19.1.1.3
Discrimination en deux classes
Si Y n"a que deux modalits en proportions p et I-p l'indice de Oni vaut 2p(l-p) et a un comportement trs proche de l'entropie comme le montre la figure 19.1 o l'entropie a t divise par 11n(0.5) pour avoir 0.5 pour maximum.
0.5
0.4
\----+-;l-:f----~---------1f__--~_t_---
0.3
\_---+-I-I--------I------li----mmmm-1 \ - - ' , - - -
0.2
\--f-f---+----~----\_----~--_'r_'r-
0.1r+~---+------~------~----~----~
0.2
0.4
0.6
0.8
P
FIGURE
19.1
Sur le plan pratique l'indice de Oin prsente les avantages suivants: Un calcul simple montre que la diminution d'impuret au sens de Oini vaut
::t11- 2(PI 11~
P2f' o Pl et p? sont les proportions de la modalit ( dans les deux
sous-ensembles obtenus aprs division. Au facteur 1 prs. l'indice de Oini se confond avec la variance de la variable indicatrice de la modalit 1. L'indice de Oini prsente alors la mme proprit que la variance ntraclasse qui permet de rduire de 2111 - 1 1 m- 1 le nombre de dichotomies tudier si ]' on ordonne les catgories de x selon les proportions d'une des modalits de x.
19.1.2
Utilisation d'un arbre
Pour prdire y, il suffit de parcourir l'arbre depuis le sommet pour dterminer quel nud terminal ou segment. appartient une observation x. Si y est numrique, la prvision sera la moyenne des observations du segment de x. Si les prdicteurs sont numriques, il s;agit d'un modle de rgression constante par morceaux. selon des pavs de ~I' obtenus par dichotomies successives paralllement aux a'\.es de coordonnes. La qualit de la rgression peut tre value l'aide d'indicateurs classiques (elTeur quadratique, R2 etc.) Si y est qualitative. x sera class dans le groupe le plus frquent (rgle majoritaire). On tablit alors comme en discrimination un tableau de classemenl. On peut aussi attribuer x
490
19. Mthodes algorithmiques, choix de modles et principes d'apprentissage
une probabilit conditionnelle d'appartenance, partir des proportions des groupes dans le segment, d'o la possibilit de tracer ventueUement une courbe ROC, mais le nombre de valeurs distinctes de cette probabilit conditionnelle est souvent faible puisque gal au nombre de segments tenninaux. Voici titre d'exemple (figure 19.2) un arbre obtenu sur les donnes du paragraphe 1S.4.3 avec un souschanti11on de 374 individus:
Moye = {ENC2, ENC3}
52(57%)_
40 (43%) And = {ANC3. ANC4. ANC5 ... ' - - _ - ' - - ' - = = - _ - J
III
111(80%)_
Domi ={Snon}
27(20%)
22 (18%) 97(82"/o}_
FIGURE
19.2
Cet arbre se lit sous fonne de rgles logiques: un client qui domicilie son salaire ET qui a une anciennet de moins de 4 ans ET un encours moyen de plus de 2kF est class bon alors que celui qui ne domicilie pas son salaire est cla.. s mauvais . Le taux d'erreur de l'arbre s'obtient en faisant la somme des effectifs des minoritaires de chacun des 4 segments terminaux.
Matrice de confusion PREDIT
OBSERVE BON
NAv
BON 163
67
t-1AUV
25
119
Le taux d'erreur est de 24,6 % du mme ordre que celui de la mthode de score mais sur l'chantillon d'apprentissage.
19.1.3
Slection d'un sous-arbre
Le nombre de nuds terminaux croit exponentiellement avec le niveau de l'arbre et il est ncessaire de fixer des limites, sinon l'arbre est trop grand et inutilisable car s'ajustant trop bien aux donnes d'apprentissage: en laissant crotre indfiniment l'arbre il peut se faire que l'on ne s'arrtera qu'avec des nuds terminaux rduits une seule observation. Le taux d'erreur de classement sera alors nul, puisque chaque individu sera affect sa dasse ! Jusqu'aux travaux de Breiman & al (1984), l'usuge tait de faire des tests d'galit de moyennes ou de proportions en se tixant des seuils pour dterminer si un nud devait tre
19_ Methodes algorithmiques, choix de modles et principes d'apprentissage
491
dcoup ou non. Ces tesls en cascade conditionns par les dcisions prcdentes ont t juste titre critiqus. La mthodologie CART ) consiste ne pas fixer de seuil, laisser crotre l'arbre avec pour seul cri tre d'arrt un effectif minimal par nud et ensuite de procder un lagage astucieux en utilisant un chantillon test ou une procdure de validation croise. Voici succinctement(l) les principes de la mthode clans le cas de la discrimination (prvision d' une variable qualitative). Soit T o ]' arbre maximal obtenu comme nous venons de l'indiquer. L'objectif est de trouver un T de T o obtenu en coupant certaines branches et qui ralise un bon compromis entre sa perfonnance mesure par le taux ou cot d'erreur en apprentissage C(T) et sa complexit mesure par le nombre de segments terminaux ITI. On utilise une mesure pnalise de la performance gale C(T) + ex ITI o ex est un paramtre de rglage que nous prciserons plus tard.
sous~arbre
En tern1es d'erreur de classement le meilleur arbre est forcment le plus grand. Considrons pour simplitier que ITol = 211 avec q niveaux. Il existe ITol12 sous-arbres avec ITol - 1 segments tern1inaux obtenus en supprimant une des dernires divisions au niveau q - 1. On choisit alors le sous-arbre le meilleur en terme de cots d'erreur C(T). On poursuit alors l'lagage pour obtenir un sous-arbre ITol - 2 segments terminaux etc. jusqu' arriver la racine. On dispose alors d'une suite de sous-arbres embots (les branches coupes ne repoussent pas .. ) de qualit de moins en moins bonne. La tigure 19.3 illustre cette dmarche en partant d'un arbre 8 terminaux (tigure 19.3a), il y a 4 sous arbres 7 terminaux. Le meilleur est celui de la figure 19.3b. Il Y a ensuite 3 sous-arbres 6 terminaux dont le meilleur est en 19.3.c. Il reste ensuite deux choix pour un sOlls-arbre 5 terminaux 19.3.d, puis une fois ce choix fait, deux possibilits pour un sous-arbre 4 tenninaux et ensuite il n'y a plus de choix pour passer 3 (19.3.f) puis 2. puis 1 segment. Une solution simple pour choisir un de ces sous-arbres consiste utiliser un chantillontest et dterminer lequel de ces sous-arbres a la meilleure capacit prdictive, mais on risque de trouver un arbre complexe. La solution de Breiman & al. est plus labore: c'est ici qu'intervient le paramtre ex (ce qui prcde revient prendre a = 0). Pour ex fix, il existe un sous-arbre minimisant C(T) + alTI puisque quand 111 diminue C(T) augmente. Pour trouver la valeur adquale de a on procde par validation croise: on divise les donnes disponibles en 10 parties (par exemple), que l'on te tour de rle et que l'on prdi t l'aide des 9 autres. On fai t varier a et on choisit la valeur qui minimise la moyenne des cots d'erreur. La mthode s'tend aux arbres de rgression en prenant pour C(T) la moyenne des carrs des elTeurs.
19.1.4
Avantages et inconvnients
Le principal avantage est l'extrme lisibilit qui fait que tout utilisateur peut comprendre et utiliser un arbre. Parmi les autres avantages figure le fait de pouvoir utiliser des prdicteurs de toute nature, de ne faire aucune hypothse sur leurs distributions, de hirarchiser et slectionner les prdicteurs.
I_Voir I\lakache, Confais (2003) pour un traitement dtaill.
Moyo ~(ENCI)
" lU~ (SOC,,) [_ IBr, (SO',)
FIGURE
19.3a
""ci = (ANC1, ANC2)

55 (47%)
l!iR
'
fi2 (5300)'
Dom; = (SOUI)
16~ (fiS.,,)
lIl!!!!iI!I
Anr.i= rANe], Atle4, ArleS '"
0'3 (35~;) ','::
wu ("o~_") il
10~
111{nO'0)~ 27 (20",;')
(:,IE;) ,
Pmi
""(lU"") Iii 97 (2~\,) :
~(CADF1,HIPL)
~(O'~")~ 1 (20',;) ,
Pr~l=
(AUTR)
0(0%)
2 {IOO'd " ,
FIGURE
19.3b
Moyo = (ENC1)
J (12<;;')
Il
22 (nO",)
Demi = (SOUI)
165 (5';') ~
n~(Js,,,)
:-,'
wn (50',;) lie lC6(50,;) ,
An"
(AtJC1, AtJC2, ANCJ
4{ilD",\~
22 (III"") !il! 97(fl2'\;) ,
1 (20%) ~_
FIGURE
19.3c
19_Mthodes algorithmiques, chox de modles et principes d'apprentissage
493
FIGURE
19.3d
FIGURE
19.3e
FIGURE
19.3f
Malgr les progrs mthodologiques les inconvnients sont non ngligeables: les arbres sont instables; de lgres variations dans les donnes peuvent conduire tl d'autres choix de nuds qui deviennent irrversibles puisque chaque coupure dtermine les autres. Les arbres ne peuvent tre utiliss qu'avec de grands chantillons de plusieurs centaines ou milliers d'observations. C'est pour cela que nous n'avons pas prsent d'arbres pour les donnes intlU'ctus ou voitures.
19.2
RSEAUX DE NEURONES
Les rseaux de neurones sont des outils puissants pour prdire des phnomnes nOI1 linaires. Dvelopps dans les annes 80, ils ont connu un vif succs auprs d'utilisateurs non statisticiens cherchant avant tout des performances. grce en partie 1eur vocabulaire
494
voquant des analogies biologiques. Ils apparaissaient magiques et mystrieux (Hastie & al. p. 350). La technique peut pourtant se dcrire simplement. Nous nous limiterons au cas du rseau le plus connu : le perceptron multicouche, issu des premiers travaux de Rosenblatt (1958). Pour des complments sur les relations entre rseaux de neurones et statistique )), on se reportera au livre ayant ce titre dit par S. Thiria & al. (l997).
19.2.1
Le perceptron multicouche
Il s'agit d'un modle utilisable aussi bien en rgression qu'en discrimination. Les prdicteurs Xl, X2, . . . , x" sont numriques. Dcrivons un rseau monocouche k neurones cachs : On commence par dfinir plusieurs combinaisons linaires WU"
2: HjkXj des prdicteurs.

j=J
l'
Les coefficents \\jk sont parfois appels poids synaptiques. Pour le statisticien ce sont des paramtres estimer Ces combinaisons linaires sont ensuite trans'onnes par une fonction non-linaire, dite fonction d'activation qui est en gnral une fonction logistique nppele parfois sigmode:
Il'1)(
:'k =
----""""'1',---)('01 + L "J~Xj 1+e j~ 1
)-1
2:
T'
IIjk X )
Le neurone est le calculateur qui effectue ces oprations et est reprsent par un nud ou une petite bote sur le schma. Les:." sont ensuite combins de faon similaires pour aboutir des valeurs de sortie qui sont prises pour prvision .v de y. La sortie est unique pour une rgression simple, multiple sinon, comme pour une discrimination. Le ou les )' sont alors des fonctions non linaires complexes des .\:.1, X2, .....r". On retrouve des modles classiques dans certaines contigurations particulires: la rgression logistique pour un rseau sans couche cache avec y binaire. La figure 19.4 (logiciel Weka) illustre un tel rseau pour une discrimination entre les trois espces d'iris: les 4 variables alimentent :2 neurones d'une couche cache dont les sorties sont combines pour obtenir 3 fonctions. une pour chaque espce. Une observation est alors classe dans l'espce qui correspond la valeur maximale des 3 sorties. Ce rseau comporte :2 X 5 + 3 X 3 = 19 paramtres estimer. En effet avec p variables, C neurones sur la couche cache, et s sorties, il y a p + 1 coefficients pour chacune des c fonctions :b puis c + 1 coefficient'\ pour chaque sortie SOil en tout c(p + 1) + s(c + 1) paramtres. Dans un rseau multicouche les sorties d'une couche deviennent les entres d'une autre couche etc. On introduit parfois une entre supplmentaire correspondant une variable constante gale 1 pour grer les termes constants dans les formules. Le perceptron multicouche (une couche sufi1t) possde une proprit d'approximation universelle au sens o toute fonctionf de p variables Xl, x2 , . , X'I peut tre approxime d'aussi prs que l'on veut en augmentant le nombre de neurones de la couche cache (Hornik & al. 1989), condition d'utiliser une fonction d'activation non linaire comme la logistique.
19.Mthodes algorithmiques, chox de modles et principes d'apprentissage
495
::::::>IIi~--l
Irls-:versicolor
. --~1;----l 1ris~vrrgirirta
FIGURE
19.4
Les rseaux de neurones avec perte quadratique et fonction d'activation linaire aboutissent aux mmes modles que la rgression linaire ou la discrimination linaire de Fisher et ne prsentent donc pas d'intrt pratique.
19.2.2
L'estimation
Les paramtres sont estims pour minimiser une fonction de cot (somme des carrs des carts si la rponse est numrique, cot d'erreur de classement en discrimination). Compte tenu du caractre non-linaire, on recourt des algorithmes d'optimisation numrique que nous ne dtaillerons pas ici. Certains algorithmes, de type gradient stochastique, consistent au cours de la phase d'apprentissage lire plusieurs fois squentieHement les donnes en modifiant au fur et mesure les coefficients pour amliorer la prdiction des valeurs suivantes. Cette phase d'apprentissage peut tre extrmement longue. Outre le fait que ces algorithmes peuvent aboutir des optimums locaux, le problme essentiel est le surapprentssage d au grand nombre de paramtres ds que le rseau est un peu complexe: pour profiter de la proprit d'approximateur universel on prend souvent un nombre lev de neurones sur la couche cache. Le choix de r architecture du rseau: nombre de couches et de neurones par couche est galement dlicat et se rsout par des procds empiriques comme J'emploi d'ensembles de Lest ou la validation croise. Le surapprentissa~ ge conduit des coefficients instables et on emploie alors des mthodes de rgularisation du type rgression ridge, dj tudie au chapitre 17 paragraphe) 7.5.2 appele ici weiglzt
Il
decay . On minimisera sur l'chantillon d'apprentissage
2:, (Yi - S\f + 2:,(lIjf o est un

i-I
paramtre de rglage positif. Plus est grand plus les coefticients sont rduits, le choix de se faisant typiquement par validation croise. Les variables d'entre Xl, Xl, . . . , J/ doivent au pralable tre standardises afin que la rgularisation les traite de la mme manire. Les rseaux de neurones sont conus pour des Xj numriques. Lorsque les prdicteurs sont qualitatifs, on peut uti1iser les variables indicatrices des modalits. mais il est prfrable de procder comme dans la mthode Disqual avec les coordonnes sur des axes factoriels.
496
19. Mthodes algorithmiques. choix de modles et principes d'apprentissage
Bien que la prdiction puisse s'crire comme une formule mathmatique puisque l'on enchane des combinaisons linaires et des fonctions logistiques, cette formule est d'une complexit telle qu'en gnral elle n'est pas explicite et le rseau est ensuite utilis en bote noire )}. Si l'avantage des rseaux est leur tlexibilit. un inconvnient majeur dans certaines applications est l'absence de lisibilit. Faut-il utiliser les rseaux de neurones? Ils ont prouv leur efficacit et font maintenanrt partie de la panoplie des outils disponibles, mais la difficult bien les paramtrer est un handicap. D'autres mthodes comme les SVM permettent d'obtenir plus facilement des rsultats de qualit comparable avec souvent une formulation plus simple.
19.3
COMBINAISON DE MODLES
Parfos appeles mthodes d'ensemble, mta-heuristiques, les mthodes prsentes dans ce paragraphe cherchent amliorer les prdictions obtenues raide de diffrents modles par combinaison ou pondration. Il peut s'agir de modles issus de la mme famille (modles paramtriques ou non) comme des arbres de dcision obtenus il l'aide d'chantllons diffrents, ou de modles distincts (rgression logistique et rseaux de neurones). La pondration probabiliste de modles sera tudie au paragraphe 19.4 lors de l'tude du critre BIC.
19.3.1
Retour sur le bootstrap
L'tude par bootstrap d'une mthode consiste tirer avec remise B chantillons de taille Il dans l'ensemble des 11 donnes disponibles. On peut ainsi tudier les distributions d'chantillonnage approches des paramtres et performances de ces mthodes (vor le paragraphe 18.4.3). Dans le cadre d'une modlisation prdictive, on obtient B modles diffrents: appliqus une observation x, ils fournissent B prdictions diffrentes de )~ Si Y est une variable numrique le bagging ou bootstrap averaglzg consiste prendre la moyenne des B prdictions, qui a donc une variance infrieure il celle de la prdiction initiale et ralise un lissage. Un cas intressant est celui o y est qualitative et o on utilise une mthode d'arbres de dcision. On se retrouve alors avec B arbres (une fort !). On procde alors un vote majoritaire pour classer une observation x : on compte le nombre d'arbres parmi B qui classent x dans chaque groupe et on choisit le groupe majoritaire. Le bagging remdie l'instabilit bien connue des arbres, mais la rgle finale n'est pas un arbre et on perd la lisibilit de la mthode. De plus on montre que dans le cas des arbres, si le bagging peut amliorer une bonne rgle, il n'amliore pas une mauvaise rgle mais au contraire l'aggrave (Hastie & al. p. 249) en raison du caractre discontinu de la fonction de perte. Le boosting n'a pas cel inconvnient.
19.3.2
Le boosting
Le boosting invent en 1997 par Freund et Schapire, amliore une rgle de discrimination, surtout si elle est mdiocre, en l'appliquant de manire rpte sur les observations mal classes en les surpondrant chaque fois. Le principe conss[e donc il se focaliser sur les
19aMthodes algorithmiques, choix de modles et principes d'apprentissage
497
observations mal classes, souvent proches de la frontire, plutt que sur celles faciles classer. Aprs chaque itration, on repondre les individus. La rgle finale est un vote pondr fi partir des M rgles obtenues: li chaque rgle est affect un coefficient aJlj' La procdure AdaBoost se droule schmatiquement de la manire suivante:
la premire itration les poids des observations sont tous gaux

A l'itration III on calcule le taux d'erreur pondr vations mal classes),
. On en dduit le coe {'f- . ''1Clent am = ln
Cm
(moyenne des poids des obser-
(1 -
--J-
em
(;;/11
On met il jour les poids des individus de la faon suivante: si i est bien class, son poids ne change pas, sinon il est multipli par exp(a 111), Quand on normalise pour avoir une somme des poids gale il 1, les poids des observations mal classes augmentent et ceux des biens classs diminuent donc. Le boostng donne des amliorutions spectaculaires pour le8 arbres, De nombreux travaux ont t men pour l'expliquer (cf. Hastie et al. chapitre 10). Le dfaut est cependant le mme que pour le bagging puisque l'on perd l'avantage de la lisibilit de J'arbre, Pour une application donne il faut alors comparer son efficacit il celles d'autres mthodes de type bote noire comme les rseaux de neurones, la discrimination par estimation de densit, les plus proches voisins etc.
19.4
CHOIX DE MODLES
Nous entendrons ici par modle aussi bien des modles paramtriques classiques (rgression linaire, logistique) que des mthodes algorithmiques. Devant un ensemble de donnes, le praticien se trouve alors face au choix d'un modle parmi un grand nombre de possibilits. Cette question a dj~l t voque partiellement au chapitre 17 paragraphe 17.4 dans le contexte du choix de variables en rgression linaire multiple. Depuis les annes 1970 olt les critres d'Akak et de Schwartz ont t proposs, une abondante littrature a t consacre au choix de modles et les recherches en ce domaine sont toujours actives. Avant de prsenter les principaux critres et mthodes, 11 faut s'interroger sur l'objectif poursuivi: cherche t-on dcouvrir le vrai modle parmi une famille, ou le modle le plus performant? La distinclion ne va pas de soi et renvoie des questions pistmologiques. En tout cas le choix de modle ne sera pas le mme,
19.4.1
Critres de vraisemblance pnalise
On considre ici des modles paramtrs pouvant se dcrire par une denst g(x ; H). Pour un problme prdictif, il pourra s'agir de la densit conditionnelle de y sachant x ou de la densit conjointe de y et x. Les paramtres seront estims par la mthode du maximum de vraisemblance. La vrpsemblance calcule en fi, L(), est une manire de mesurer l'adquation c1'un modle aux donnes puisqu'elle reprsente la probabilit d'avoir observ l'chantillon sous le modle (cf. chapitre 13). On utilisera en fait la log-vraisemblance ln L(). Si l'on dispose d'une famille de modles gi(X ;
OJ
par exemple des rgressions linaires avec l, 2, .... , p
498
19_Mthodes algorithmiques, chox de modles et principes d'apprentissage
prdicteurs, on peut calculer pour chaque modle ln
LC i) mais ce critre
ne permet pas de
choix car il est croissant avec i : le meilleur modle est celui qui a le plus de paramtres. Les critres AIC et BIC vont pnaliser la log-vraisemblance pour tenir compte du nombre de paramtres. D'apparence semblable, ils visent en ralit des objectifs diffrents.
19.4.1.1
Il vaut
Le critre AIC d'Akak
o k est le nombre de paramtres du modle. Le meilleur modle est donc celui qui minimise Ale. Ce critre tire son origine de la divergence de Kullback-Leibler issue de la thorie de l'information. SOent f et g deux densits de probabilits, et supposons que f est la vraie loi inconnue, g une approximation, alors la divergence, ou perte d'infonnation pour utiliser g la place de.f, est dfinie par : lU; g)
= J.f(l)ln ~;;~ dt. La divergence peut se mettre sous
forme de la diffrence entre deux esprances prises par rapport la vraie loi:
l(.f ; g)
ln (f(t)).f (t) dt - Iln(g(t)).f(t)dt = EfOn(.f(t)) - EJ(ln(g(t))
L'lment le plus proche de f dans une famille paramtre g(t ; 8) correspond au f) qui maximise E/(ln(g(t ; B)). On ne peut rsoudre ce problme sif est inconnu. On utilise alors l'estimateur du maximum de vraisemblance , obtenu dans le cadre de la famille g que l'on porte d~ns la formule cl' o Ej(ln(g(t ; )). Cette dernire expression est une variable alatoire car B dpend des donnes; on en prend alors l'esprance par rapport aux donnes (qui suivent la vraie loi f) que l'on note EEj(ln(g(t ; . Cette quantit n'est pas calculable puisque f est inconnu, mais sous certaines hypothses et l'aide d'un dveloppement de Taylor, Akak a montr qU'asymptotiquement(l), donc pour de grands chantillons, EE.r(1n(g(t; )) - InLC - k.. L'AIC s'en dduit par multiplication par -2
19.4.1.2
Il vaut
Le critre BIC de Schwartz
la pnalisation est donc plus forte qu'avec l'AIC car dpendant du nombre d'observations. Pour de grands chantillons. le BIC aura donc tendance favoriser des modles moins de paramtres que le critre d'Akak. Le critre BIC provient d'un contexte totalement diffrent, celui du choix baysien de modles. Considrons une famille finie de 1Il modles nots !vIi dpendant d'un paramtre (vectoriel) Bi' On se donne des probablits a priori P(M i) sur chaque modle, ainsi qu'une
2_La dmonstration. longue el technique. est omise.
19.Mchodes algorchmiques. choix de modles et principes d'apprentssage
499
distribution CI priori de li pour chaque modle pee/Mi) ; alors la probabilit modle Mi sachant les donnes x est proportionnelle P(lvIJ P(x/M;)
Cl
posteriori du
Si les probabilits a priori P(NI;) sont unifom1es ce qui correspond ne favoriser aucun modle, la probablt Cl posteriori du modle Mi est proportionnelle P(xIM,)
P(x/M,; e,)p(8,jM,)dA, dite vraisemblance intgre. Sous certaines hypothses
de rgularit, et en effectuant un dveloppement limit au voisinage de l'estimateur du maximum xiA k , . . de vraisemblance, on montre (demonstratlon omise) que In(P(xIM j ) ....... In(PV Si. lvl i ) - '21n(11). In(P(x/;, IvIJ est la log-vraisemblance du modle Mi' Le choix du modle le plus probable Mi a posteriori revient choisir celui qui a le BIC minimal. Ayant calcul tous les BIC pour chaque modle, la probabilit a posteriori vaut :
e-O.5
mc,
P(lvlJx)
2: e -0.5 mc)
j=1
III
On peut alors pondrer ]es modles avec ces probabilits, pour en dduire une prdiction moyenne pondre (model averaging).
19.4.1.3
E/ments de comparaison et de rflexion
En rgression linaire
mUltiPle',:[OUS(i(:~Pot:~:)es habituelles, la log -vraisemblance vaut
In(L)
= -2:
ln -
Il
In(2'if)
A nombre fix de variables, le modle qui a le meilleur R"2 est aussi celui qui maximise rAIC ou le Ble. l'AIC oule BIC servent alors comparer des modles ayant des nombres de prdicteurs diffrents. Sur les donnes voitures , r AIC relient un modle 2 variables, tandis que le BIC ne retient qu'un modle une variable.
Tl
Si le vrai modle fait partie des 111 modles de la famille tudie, sera t-il choisi? Si tend vers l'infini on a pu montrer que la probabilit que le BIC choisisse le vrai modle tend vers 1, ce qui est faux pour l'Ale. Par contre l'AIC va choisir le modle qui maximisera la vraisemblance de futures donnes et ralisera le meilleur compromis biais-variance (voir plus loin). L'AIC est donc un critre prdictif tandis que le BIC est un critre explicatif. Il faudrait donc choisir le critre selon l'objectif et non les utiliser de faon simultane.
TABLEAU Nombre dans H ce.t:r
19.1
BIC Variables du modle
PUIS PUIS POIDS
le modle
l 2
3
R-carr
0.6379 0.6866 0.6988
0.7018
ajust
0.6153 0.6448 0.6342 0.6101 0.5874 0.5504
AIC
301.1433 300.5430 301.8305
303.6495
304.2040
305.1183
.7996 J10.9014 314.0329 317 .3025
CYL PUIS POIDS

CYL PUIS LAR POIDS CYL PUIS LAR POIDS VITESSE
0.7087 6 0.7091
305.2253
307.2033
CYl.J PUIS LOt,] U\R POIDS VITESSE
500
19.Mchodes algorithmiques, choix de modles et principes d'apprentissage
Pour 11 fini des simulations ont montr des rsultats contradictoires et le BIC ne choisit pas toujours le modle dont les donnes sont issues car il Li tendance choisi des modles trop simples en raison de sa plus forte pnalisation. Il nous semble cependant, que malgr leur intrt intellectuel, ces critres ne sont pas adapts de nombreux problmes concrets. Ils ne s'appliquent bien que dans des contex~ tes correspondant une maximisation de vraisemblance et pour certains types de modles (erreurs gaussiennes par exemple) et de mthodes. On ne peut pas aisment les utiliser pour des rseaux de neurones, des modles non-linaires ou il variables qualitatives. Le nombre de paramtres ne traduit pas ncessairement la complexit d'un modle, nous y reviendrons plus loin. Une rgression linaire multiple p variables correspond k = p + 1, mais si l'on procde une rgularisation de type ridge la complexit est infrieure. Il faudrait alors remplacer k par un nombre quivalent de paramtres ce qui n'est pas simple. Enfin, la notion de vra }) modle qui est implicite ou explicite dans ces critres at-elle Un sens ? Un modle n'est qu'une simplification de la ralit destine la faire comprendre et obtenir des prvisions convenables. George Box, un des plus grands statisticiens contemporains aimait rappeler que tous les modles sont faux: certains sont utiles ). Lorsque le nombre d'observations est grand, les modles usuels sont en gnral trop simples pour la complexit du monde rel et donc rejets par les tests d'adquation. Que penser alors de l'intrt des proprits asymptotiques?
19.4.2
19.4.2.1
Approche empirique
Le dilemme biais-variance
On peut gnraliser aisment les rsultats du paragraphe 17.2.3 un modle de prdiction du type)' =.t(x) + e. On estime.f par l'aide d'un chantillon et on cherche prdire une valeur future en xo. L'erreur de prdiction est)'o - 5"0 = f(xo) + e - /(xo). Elle esL alatoire deux titres d'une part parce que le phnomne n'est pas dterministe cause de B el d'autre part parce que la prdiction Yo = /(x o) est alatoire : / est une estimalion plus ou moins prcise. L'erreur quadratique moyenne de prdiction est:
le premier terme est irrductible, le deuxime reprsente le carr du biais du modle (diff~ rence entre l'esprance de la prvision et la valeur moyenne de )'0)' le troisime la variance de la prdiction. Plus un modle sera complexe plus le biais sera faible, mais en gnral au dtriment de la variance qui va augmenter. Le terme de biais correspond l'ajustement du modle sur les donnes dites d'apprentissage, ajustement qui s'amliore avec la complexit du modle. La variance correspond la variabilit de ]a prdiction pour de nouvelles donnes.
19_Mthodes algorithmiques, choix de modles et principes d'apprentissage
501
erreur quadratique
(bias)2
complexit
FIGURE
19.5
19.4.2.2
Evaluation et choix de modle
La figure 19.5 montre qu'il existe un compromis entre biais et variance correspondant il un optimum. Comment 1'obtenir empiriquement? Il faut pour cela estimer r erreur du modle sur des donnes qui n'ont pas servi t'apprentissage. Lorsque r on dispose d'un nombre important d'observations, on partagera les donnes en plusieurs sousensembles: r ensemble d'apprentissage sert il estimer chaque modle en comptition l'ensemble de validation sert choisir le meilleur modle, celui qui ralise les meilleures prdictions. L'ensemble de test sert uniquement il estimer la performance du modle retenu On peut ainsi choisir 1e bon ,j modle quelque soil sa nature, par exemple en faisant varier un paramtre de sensibilit, le nombre de neurones, le nombre de prdicteurs etc. Par rapport au chapitre prcdent paragraphe 18.7.1, on voit qu'un troisime ensemble a t introduit: en effet s l'on doit choisir un modle en utilisant l'chantillon-test celui ci sert apprendre le choix de modle et devient en quelque sorte un chantillon d'apprentissage. On ne peut utiliser alors la mesure d'erreur car elle est biaise; il est donc ncessaire de garder des donnes qui ne servent rien d'autre qu' valuer l'erreur. Si les donnes sont en nombre insuffisant, on utilisera la technique de validaton croise qui consiste partager les donnes en K sous-ensembles disjoints de mme lai1le et calculer l' eneur de prdiction moyenne sur chacun de ces sous-ensembles, les K-I autres formant l'chantillon l'apprentissage. Pour K = n on retrouve la mthode utilise en analyse discriminante. Le choix de K est encore un compromis biais-variance: K trop grand va donner une grande variance avec un faible biais, tandis que K faible sous-estimera le biais. En pratique K = IO est souvent prconis.
502
19.5
LES APPORTS DE LA THORIE STATISTIQUE DE l'APPRENTISSAGE DEV.VAPNIK
La thorie dveloppe par V. Vapnik (1998) apporte des vues clairantes sur ce que l'on appelle la gnralisatioll qui n'est autre que la facult d'un modle prdire correctement de nouvelles valeurs et pas seulement rendre compte du pass. Un grand nombre de rsultats font appel une mesure spcifique de la complexit d'un modle, la dimension de Vapnik-Cervonenkis, ou VC-dmension note Iz. Nous donnons ici un aperu sans dmonstration de cette thorie.
19.5.1
Risque et risque empirique
Soit un modle de prvision 51 = f(x ; 6), o f appartient une classe paramtre. On dfinit alors une fonction de perte Uy ; S,), en gnral quadratique, mesurant l'eITeur de prvision: Si y est numrique, L(y; y) = (y - S~):! Si y est qualitative deux modalits, L vaut 0 ou 1 selon que l'observation est bien ou mal classe. En prenant y et.r valeurs dans {-l ; + 1 } L peut s'crire
L( - , V.
1 v) = - 1'\' - -v1 2
A)" -1( -v - .V 2
L dpend du paramtre
e.
Le risque est alors l'esprance de la fonction de perte R
= E(L) =
L(z, B)dP(c) o P(z)
est la loi de probabilit conjointe de y et de x. Le choix optimal de e serait celui qui minimise R mas c'est une opration impossible quand on ne connat pas la loi de probabilil PC:,). La mthode courante (moindres carrs par exemple) consiste alors estimer valeur
e par
la
1 Il qui minimise le risque empirique RI'm!' = - 2:L(Yi ;f(Xi;

ni;1
en
sur lin chantillon
(apprentissage) tir de la 10 P(z). Avec d'autres formes de L, on retrouve restimateur du maximum de vraisemblance, les estimateurs de Huber etc. R"1II1' est alors une variable alatoire et on doit se poser la question de sa convergence vers R lorsque Il tend vers l'infini pour savoir si la mthode est consistante Pour un modle donn, le risque empirque est nul si la laille de l'chantillon est trop petite (modle surparamtr) et crot ensuite jusqu' attendre une limite (quand les 10s des grands nombres s'appliquent). De son ct, R diminue jusqu' une valeur limite. Ces deux limites concident-elles? Si elles ne concident pas (figure 19.6 droite), on a un modle ou processus d'apprentissage non consistant ce qui peut tre gnant : en augmentant Il on aura une erreur systmatique (biais) dans l' estimation de R. A quelle condition il l-on la consistance? Paradoxalement cette question s'tait peu pose avant les travaux de Vapnik.
503
R
Remp
n
FIGURE
n
19.6
En moyenne le risque R est toujours suprieur au risque empirique. Avec des modles surparamtrs, le risque empirique est faible et R grand. Un modle sera dit robuste si les deux risques sont peu diftrents. Il est facile de trouver des modles trs robustes: ]e modle constant y = f(x ; fi) = Cl est trs robuste mais sans intrt. Il faut donc raliser un compromis entre robustesse et ajustement.
19.5.2
La VC-dimension et l'ingalit de Vapnil<
Nous nous limiterons maintenant au cas de la discrimination entre deux classes. La dimension de Vapnik-Cervonenkis d'une famille de fonctions de c1assement (ou class(fiellrs), est une mesure du pouvoir sparateur de cette classe. Ainsi les droites du plan peuvent sparer parfaitement 3 points non aligns (deux d'un groupe, un de l'autre) mais il existe des configurations de 4 points non sparables comme le montre la figure 19.7. La VC-dimension des droites du plan est donc Il 3.
;/
FIGURE
Cl
19.7
DFINITION:
La VC-dimensioll d'une famille de c1ass(fiellrs est le nombre maxhnal Il de pOilUs qui pel/l'ent tre tOl~iolirs spars par la famille de fonctons dans les 2 11 configurations o . ces points son/libells 1
504
Cela ne veut pas dire que toute configuration de h points est sparable\ ainsi dans Je plan, on ne peut pas toujours sparer 3 points aligns, mais que pour Il + 1 points quelconques il existera toujours une configuration non sparable. Plus gnralement les hyperplans de [R;P ont une VC-dimension gale p VC-dimension des paraboles du plan est 4.
+ 1.
La
La VC-dimenson d'une famille de classifieurs n 'esL cependant pas toujours gale au nombre de paramtres, comme le montre l'exemple suivant classique. Dans lIt lu VC-dimension des fonctionsjdfinies par f(x) = 1 si sin(8x) > 0 etjtx) = -1 si sinC8x) < 0 est infinie car en augmentant e on peut sparer un nombre arbitraire de point.s (figure 19.8).
FIGURE 19.8
Revenons maintenant sur les SVM, plus prcisment l'hyperplan vaste marge prsent au 18.3.1.1. Considrons les hyperplans de ~p dont l'quation est contrainte par
1113" sC'
ce qui correspond une demi-marge suprieure C (tigure 18.12). Soit p le rayon de la plus petite sphre contenant toutes les observations alors la VC-dimension Il est borne et est infrieure p + 1 :
ent dsignant la partie entire d'un nombre. (cf Burges 1998 pour une dmonstration rigou-
reuse). La VC-dimenslon est troitement lie aux performances d'un processus d'apprentissage, ici une famille de classifieurs. Vapnik a montr les deux rsultats suivants: la condition ncessaire et suffisante pour avoir la consistance est que ft soit fini. Avec une probabilit d'erreur : R
< R emp +
h(ln(2n/h)
+
Il
1) - In(/4)
L'ingalit de Vapnik donne une borne pour le risque partir du risque empirique dpendant de Il et de Il, mais pas de la distribution des observations. Elle est donc universelle.
505
Plus h est petit, plus le radical se rduit, ce qui explique les bonnes performances des SVM, et de la rgression ridge, mme avec un grand nombre de variables, lorsque l'on met des contraintes sur les coerficients.
19.5.3
le principe de minimisation structure du risque
La borne de r ingalit est la somme du risque empirique (l'erreur d' apprentissage) et d'un terme qui ne dpend que du rappon !tin (et de la probabilit d'erreur). On peut donc choisir des modles plus complexes lorsque le nombre d'observations crot, sans faire augmenter la borne (el1e dcrot d'ailleurs puisque le risque empirique va dcroitre en moyenne en fonction de Il). A Il fix la minimisation de la borne fournit un critre de choix de modles qui ne fait appel ni des hypothses de distributions comme les vraisemblances pnalises, ni un chantillon-test: c'est le principe du SRM (Structllral Risk Nlilllnization). On considre une famille embote de modlcs de YC-dmensons croissantes II) < h"2, < .. , (par des modles linaires (ou non) nombre croissant de prdicteurs, des perceptrons multicouches o on augmente le nombre de neurones de la couche cache, ou le nombre de couches ayant le mme nombre de neurones etc.). Pour chaque valeur hi. on estime le modle sur les donnes et on calcule le risque empirique. Le risque empirique dcroit (en moyenne) avec" tandis que
h(1n(211/h) + 1)-ln(/4)
11
~ .. ,. crOIt avec Il. On chOlslt alors le modele qUI cor-
respond au mimum de la somme de ces deux termes: c'est un compromis entre ajustement et robustesse; la figure 19.9 illustre le SRM (rappelons que Il est un entier), L'approche du SRM fournit une solution au problme du choix de modle en mettant bien en vidence ce qui caractrise vritablement la complexit d'un modle. Cette approche s'est rvle fconde dans de nombreux cas. Quelques remarques: L'ingalit de Vapnik est une ingalit universelle du type des ingalits de BienaymTchebyshev ou Markov. Elle est intressante car elle ne dpend pas d'hypothses sur la distribution des donnes, en revanche la majoration qu'elle donne peut tre trs large surtout si h/n est grand: c'est une fonction croissante non borne de h/n qui peut dpasser l, ce qui est sans intrt pour un risque, qui est une probabilit. De nombreux travaux ont t consacrs la recherche de bornes plus strictes sous certaines hypothses. ' Lorsque la VC-dmension est infinie, l'ingalit ne s'applque pas. On sait qu'il n'y a pas convergence du risque empirique vers R, mais cela n'empche pas certaines mthodes comme celle du plus proche voisin ou les SVM noyaux gaussiens, de donner de bons rsultats : il y a un biais mais R peut-tre faible. L'ingalit donne une borne avec une probabilit d'erreur, elle n'est donc pas certaine et on peut donc trouver des rsultats meilleurs ou pires. Le calcul de la VC-dimension n'est pas simple et dans bien des cas, on ne connat pas la valeur de h mais seulement des approximations ou des bornes, ce qui limite du SRM. Dans le cus olt l'ingalit de Vapnik est inutilisable, il vaut mieux choisir le modle avec une technique de validation croise.
506
19. Mthodes algorithmiques. choix de modles et principes d'apprentissage
0.5
0.4
0.3
0.2
0.1
o~~~~~~~~~~~==~~~~~
20
FIGURE
60
80
100 h
19.9
19.6
PRDIRE OU COMPRENDRE?
La complexit de certains algorithmes de prdiction en font souvent des botes noires que l'on ne peut en gnral pus interprter. La notion de modle diffre alors du sens communment tabli: il ne s'agit plus d'une reprsentation de la ralit issue d'une thorie scientitique (physique, conomique, biologique, psychologie, ... ) mais seulement d'une technique de prvision. Si le problme est uniquement de prdire, une mthode doit tre juge du point de vue de son efficacit et de sa robustesse: les techniques de choix de modles de type SRM ou validation croise apportent une solution. Peut-on prdire sans comprendre? Cette question peut choquer, mais au del du dbut philosophique, les progrs de outils de calcul semblent bien montrer que oui. De nombreuses applications ne ncessitent pas de disposer d'une thorie, qui serait d'ailleurs bien difficile laborer: par exemple la prvision du comportement des emprunteurs, lu dtection de segments de consommateurs potentiels d'un produit. La statistique est dans ce cas un outil d'aide la dcision et non un lment de la recherche scientifique. La meilleure mthode est certes celle qui donne les meilleures prvisions. encore faut-il qu'elle soit acceptable lorsqu'elle aboutit prendre des dcisions concernant des perou qui pense l'tre, est en droit de demander des explications lui sonnes. La personne
19_ Mthodes algorithmiques, choix de modles et principes d'apprentissage
507
permettant de comprendre la dcision(3). Un arbre de dcision, la rigueur un score linaire, seront compris, car on pOUlTa expliquer que telle variable a eu telle intluence ; il n'en sera pas de mme pour une lechnique d~estimation de densit, un SVM non-linaire ou un rseau de neurones. L'acceptabilit des mthodes varie dans le temps, et telle technique qui pouvait paratre complexe une poque peut devenir usuelle 20 ans plus tard, par suite de la diffusion et de la formation aux outils.
3_En France, la Commission Nationale Inronnatique et Liberts s'assure que les traitements statistiques ne peuvent nuire aux dm[s de l'homme et aux liberts individuelles. Voir S. Tuffer'y (2005).
ondages
20.1 20.1.1
OBJECTIFS ET NOTATIONS Gnralits
Les mthodes de sondage ont pour objectif de tirer dans une population concrte des chantillons destins estimer avec la meilleure prcision possible des paramlres d'intrt. Le tirage quiprobable avec remise qui conduit des chantillons de variables alatoires indpendantes et identiquement distribues est la base des dveloppements des chapitres prcdents et est le modle de la statistique mathmatique; ce mode de tirage ne correspond en fait pas la pratique et n'est au mieux qu'une approximation commode. Les sondages rels portent sur des populations finies el sont effectus par tirage sans remise. pour ne risquer d'interroger deux fois le mme individu. Les chantillons ne sont plus constitus de variables indpendantes, et le tirage ne se fait pas toujours avec les mmes probabilits. Ce chapitre il pour objectif de donner une initiation la thorie des sondages alatoires, et ne prtend nullement couvrir Je sujet. En particulier. il faut savoir que les erreurs dues 11 l'chantillonnage ne sont qu'une partie (pas toujours la plus importante) de l'erreur globale qui comprend les erreurs de couverture, de mesure, de non rponse etc. Bien des sondages sont effectus avec des mthodes non-alatoires comme la mthodes des quotas qui ne sera pas traite ici. Le lecteur qui voudrait compller son information se reportera au livre de P. Ard1ly (2006),
20. 1.2
Notations
connu~
Introduisons maintenant les nOlnlons utilises:

N est la taille de la population. N sera suppos
ce qui n'est pas toujours vrai .. ,
Chaque individu de la population (la population est aussi appelee base de sondage) sera dsign par un identifiant i. On notera Y la variable d'intrL dont les valeurs sont (Yb y::! ...... y N)' Y n'est pas une variable alatoire. On suppose que Yi sera obtenu sans erreur si l'individu (ou unt) i est slectionn. Dans ce qui suit Y sera une variable unidimensionnelle numrique. ventuellement binaire quand il s'agira d'estimer des proportio~. On s'intressera l'estimation de quantits dpendant de Y comme la moyenne y de Y sur la population, ou le total des valeurs TCl') not T quand il n'y aura pas d'ambigut.
1
N
-:LVi
Ni=l
512
20.Sondages
On notera : (T~
=-
N i= 1
2: (Yi -
y)2 la variance et S2
= - - 2: (Yi
N - 1 i= 1
Yf
N = - - c r2 la
variance corrige de Y. Il peut paratre curieux d'utiliser la variunce corrige quand il ne s'agit pas d'un chantillon, mais cela conduit des formules plus simples. Un chantillon est un sous-ensemble de
11
units de la population.
'i
!.: est le taux de

N
sondage. Il y a C,V chantillons distincts possibles, chacun not s. probabilit d'inc/usion
Dans un sondage alatoire chaque unit i de la population a une probabilit de tirage, ou 'i bien dfinie qui ne doit pas tre nulle sous peine de ne pouvoir fare des estimations sans biais. On notera que la somme des probabilits d'incluson vaut
(pour des plans de taille fixe) :
2:
';
Il
et que
'i
est gale la somme des probabilits des
chantillons qui contiennent l'unit : 'I =
2:
p(s). Un plan de sondage correspond
une
.$iE.$
distribution de probabilits sur l'ensemble des chantillons. On utilisera galement les probabilits d'nclusion d'ordre 2 : 'ij qui donnent la probabilit que les units i et j appartiennent l'chantillon. On appelle variables de Cornfield les indicatrices Qi correspondant la slection des units. si i E S Ce sont des variables de Bernoulli telles que: Oi o si i r/; s
lrI
On a:
E(Oi) = 'Tri V(oJ = 'TriCl - 'i) COV(i ; ) = 'ij - '(ITj
On dsignera par une lettre minuscule Yi la valeur trouve dans un chantillon. Cette valeur est donc alatoire si le tirage de l'unit i est pro bablli ste. l La moyenne de l'chantillon sera y - 2:Yi' Avec les variables de Cornfield, cette
1 ~y moyenne s ecnt : y = -.L.J ; j.

P -
Il ie.f
J/i=1
20.2
LE SONDAGE ALATOIRE SIMPLE

11
Il constitue la base des autres mthodes. C'est un tirage quiprobable sans remise: on a donc
'f
= - = T et tous les C~ chantillons sont quiprobables.

N
20.2.1
Estimation de la moyenne
La moyenne de l'chantiHon est un estimateur sans biais de la moyenne de la population. En effet:
ECy} = -
2: YjE(Oi) = - 22 ~'iTi = -Il i= N = 2:}i Il

1 11
=
IN
IN
IN
12-
20.Sondages
513
Le calcul de la variance est plus complexe car avec un tirage sans remise, les variables de Corntield ne sont pas indpendantes, mais par raison de symtrie tous les couptes auront la mme covariance
TI'ij -
7i(iTj
TIij -
N . Calculons la probabilit d'inclusion d'ordre 2 :

)
11
'l
il y a CN=~ chantillons incluant i etj. Comme ils sont tous quiprobables:

C~=~ --=
C~
- 1)
N{N - 1)
=T--
11 -
N - 1
T(1 - T)
Aprs quelques calculs simples on trouve que cov(; ; j ) = -
On en dduit V(v) = (1 - T)- qui est donc infrieure la variance du tirage avec remise. n Comme S2 est inconnue, on 1'estime par Sl
S2
= _1_
Il -
'2;(Yi le,\
)if dont on peut montrer le

Il
caractre sans bia~1:i E(s2) = S2. On en dduit donc l'estimation de la variance de la moyenne
---
V(v) = (l - T)- et un intervalle de confiance approximatif si

Il
s~
est assez grand:
y-2s
P-T Il
--<Y<y+2s-Il
P-T
L'estimation d'un pourcentage p s'en dduit en considrant que Y est une variable de Bernoulli de paramtre p. Si f est 1e pourcentage estim sur l'chantillon, on a :
V(f) =
Cl
=
T)P(1 - p)
11
N N-
que l'on estime par :
(I{f)
Cl -
T)P(l - p)
Il -
En pratique si le taux de sondage es!. faible (infrieur 10 %) on a :

ocn=p(l
11
p)
et on retrouve les rsultats du chapitre 13.
20.2.2
Algorithmes de tirage
Une ide lmentaire consiste tirer des entiers au hasard uniformment rpartis entre 0 et N, ce qui peut se faire avec un gnrateur de nombres alatoires: on multiplie li par N et
514
20aSondages
on arrondit il l'entier suprieur. Celte mthode n est cependant pas utilise en pratique car elle prsente divers dfauts: ncessit d'un grand nombre de dcimales si N est grand, existence de doublons. On prfre en gnral des algorithmes squentiels permettant d'extraire des enregistrements d'un fichier numrot de 0 N 1. comme le suivant:
1
-le premier enregistrement est slectionn el on recommence N pour le deuxime enregistrement en remplaant 11 par n l et N par N - l. Si le premier enregistrement n'est pas slectionn, on tire un autre nombre [( et le deuxime enregistrement
li ::;
On tire un nombre li : si
Il
est slectionn si unit, tandis que des Il unls.

11
Il ::; _1_1- .
N - l
Aprs chaque tirage de nombre au hasard, N diminue d'une

<-
ne diminue que si une unit est tire. On continue ainsi jusqu' l'obtention
20.3
SONDAGE PROBABILITS INGALES
Le sondage probabilit gales est utilisable en l'absence de toute information. Supposons par exemple que l'on veuille estimer une production agricole en tirant au sort un certain nombre d'exploitations. Si l'on dispose d'un annuaire donnant les superficies, il est alors prfrable d'effectuer ce tirage avec des probabilits proportionnelles la superficie.
20.3.1
I!estimateur de Horvitz .. Thompson
supposons ici que l'on cherche estimer le total de la variable d'intrt T = alors que le seul estimateur linaire sans biais de la forme
2: ij. On montre
=1
2:aj Yi 2: (l;Yi ll est:

lE.,
i=
En effet pour que: E(T) =
2: OiYiE(8;)
i= 1
2: O(li)"j = 2: Y
i= 1
je;
T, il faut que
0
TI;
Comme les Tl i sont infrieurs 1, on rappelle aussi estimateur des valeurs dilates. L'estimateur de la moyenne s'en dduit aisment:
.!!.
1 y=-), Ni";;:
Tlj
La variance s'exprime par:
que l'on peut mettre sous la forme de Yates-Grundy :

"
V(T) =
2~2: TI:
(Y
lorsque la taille de J'chantillon est fixe.
20_Sondages
515
On en dduit une estimation de la variance:
La formule de Yates-Grundy montre que l'on a intrt tirer proportionnellement aux valeurs d'une variable auxiliaire X corrle (positivement!) Y ce qui est intressant en cas d'effet taille (chiffre d'affaires, nombre d'employs, bniice ... ). Il peut arriver que certaines units soient tires d'office. Ainsi supposons que l'on veuille tirer 3 individus parmi 6 proportionnellement :
Xl
= 300
.\'1
= 90
.\') = 70
x..\
= 50
Xs
= 20
.\6
= 20
Les probabilits d'inclusion doivent donc tre
TIi
= ~~Xi
/=01
LXi
TI,
Ce qui donne TI 1
TI.,
= 3-_- ~
TI)
300 5.)0
1. La solution est que l'unit l soit tire avec
1 et donc que
90 = 2- = 250
0.72
'j-
70 50 = 056 TI = 2 -250'''\ 250
= 04 .
TI3
= TI"a
= 2-
20 250
= 0. 16
20.3.2
le tirage
Le problme est assez compliqu car il y a une intinit de plans de sondages ayant des probabilits d'inclusion d'ordre 1 fixes. Les probabilits d'inclusion d'ordre 2 jouent ici un rle important: elles devraient tre strictement positives et telles que TIij ::5 TIiTI} pour pouvoir estimer sans difficult la variance. Nous renvoyons au livre de Till (2001) pour plus de dtails. Une des mthodes les plus utilises, mais qui peut conduire des probabilits d'inclusion d'ordre 2 nulles, est le tirage systmatique dans les cumuls. Illustrons cette mthode sur l'exemple prcdent. Il reste tirer 2 units parmi les units numrotes de 2 6. On cumule les probabilits d'inclusion, ce qui donne:
TI::! TI:!
= 0.72
TIl
TI]
= 1.28
TIl
TI3
TI.,
+ 'ITs =
1.84
+ TI) + TI4 = 1.68 + 'iT3 + TI" + TIs + TI6 =

TI2
On tire ensuite un nombre au hasard II compris entre 0 et l et on slectionne les deux individus dont les probabilits cumules correspondent II et II + 1. Supposons que li = 0.48 l'unit 2 est tire puisque li < 0.72 ainsi que l'unit 4 puisque 1.28 < li + 1 < l.68. On vritera entre autres qu'il est impossible de tirer simultanment les units 3 et 4.
20.4
STRATIFICATION
La stratification consiste en des tirages spars effectus dans des sous-populations. Lorsque ces sous-populations sont plus homognes que la population elle-mme, ce qui est gnra1ement le cas, la stratification permet d'obtenir des estimations plus prcises qu'un
516
20aSondages
sondage alatoire simple de mme taille dans toute la population. C'est donc une mthode extrmement efficace que l'on peut el doit utiliser aussi souvent que possible. Dans ce qui suit, on supposera que les tirages dans chaque strate sont effectues selon le sondage alatoire simple (quiprobable et sans remise).
20.4.1
If
Formules de base
On notera NI' N 2 Nh
Nu les effectifs des sous-populations ou strates telles que
N = l:N".
It-J
La moyenne des moyennes de strates Yl , y:! ... YIf ... Y pondre par les effectifs redonne H la moyenne gnrale de la population:
La variance de la population se retrouve avec la formule de la variance totale (voir chapitre 2) o les variances (non-corriges) de chaque strate sont crf, cr~ ... cr~ ... crlj :
'1 ' " Nil., cr- = L -crh N
'" Nir + L -N (-yh
-Y- ~ , t = crfv
") + IJ'jj
ITrv est la variance ntra-strates et IJ'~ la variance inter-strates.

Les tailles des chantillons sont 112 . nI! . et on dispose des moyennes et variances corriges de chaque strale : YI' :Y2, ... YIl, ... YH et (fT, (f~, ... IT~, ... ITiJ. Chaque moyenne Yil tant estime sans biais par Yh' la moyenne gnrale est estime par :
Il,,
~
1/"
Y =" ~vIl str .LJ N qui est l'estimateur de Horvitz-Thompson. Sa variance se calcule aisment;
V(~lr) =
l: (N )2V(h) ~
N
Il (j2 Il l: (N )2~ N ~
li "" 1
Il
Il,,
Il
Nil
20.4.2
Rpartition proportionnelle
Ce cas particulier est celui o le taux de sondage est identique d'une strate l'autre (on parle abusivement d'chantillon reprsentatif) :
20aSondages
517
L'estimateur stratifi est alors identique la moyenne usuelle de l'chantillon :
Y/m'JI
La variance se met sous la forme:
sOt:
Si le taux de sondage est faible:

~ , V( y;.,wp)
~
:::=
N - Il --NIl
f!:,
L..; 11=1
Nit., N aii
= -N -
N -
1l
a~.
Il
Or a~, ::s a 2, donc V(r;.mJI)) ::s
N -
Il
S2
si N est grand (cr
:::=
S) qui est la varance de
Il
l'estimateur du sondage alatoire simple. Avec les mmes probabilits d'inclusion d'ordre l, l'chantiHon stra9.fi reprsentatif est donc plus efficace qu'un chantillon simple de mme taille ds que les Yh sont diffrents.
20.4.3
Rpartition optimale
Lorsque les variances de strates sont connues, on peut encore amliorer l'estimateur stratifi et rechercher r estimateur optimal Il fix.
-!!. tifS::! 1 H S2 1 Il Dveloppons V( Ylfr) = -:; N,,(Nlt - Il ,J -.!!.. = -:; ~ N l -.!!.. - -; ~ N"Sl N-It=l Il" N-lt=1 Ill! N-'F=I Le deuxime terme ne dpend pas de l'chantillon. On a alors rsoudre le problme
2.:
SUIvant: mm
,,=1
S~ . L N 7- sous la contramte ~
H
'1
Ill!
Il
11"
Ir=
1
If
En annulant les drives partielles du Lagrangien,
effectifs inconnus (oubliant que ce sont des nombres entiers) on trouve la rpartition de Neymnn qui montre qu'il fnut sur-reprsenter les strates les plus disperses par rapport la rpartition proportionnelle:
L N~ ~ 11= 1 n"
S'
- .
2: Il il par rapport aux

i= 1
fi
518
20aSondages
Les effectifs doivent tre arrondis. Le calcul peut se gnraliser en considrant de!-i cots d'enqute diffrents par strate et en optimisant budget fix. On recommande souvent de faire beaucoup de strates pour amliorer la variance interclasse, mais le risque est alors d'avoir des lailles d'chantillon trop faibles dans certaines strates.
20.5
SONDAGE EN GRAPPES ETTIRAGE SYSTMATIQUE
On appelle grappes M sous-populations d'effectifs NI' N']. . .. NIlI N,\!. La mthode consiste alors tirer 111 grappes et slectionner tous les individus de chaque grappe. On connatra donc sans erreur le totul et la moyenne de chaque grappe. L'intrt essentiel de ce mode de tirage est son caractre conomique, en particulier si les grappes sont des zones~ographiques, car on diminue alors fortement les cots de dplacement en face face. Cette mthode est trs utile lorsque la tuiilede lu population est inconnue, car on n'aura besoin de connatre que la taille des grappes choisies. On ne pourra cependant pas estimer tous les paramtres. La taille de r chantillon est alatoire si les grappes ont des effectifs diffrents.
20.5.1
Tirage de grappes probabilits ingales
Cherchons estimer le total T
= :2, Ti' L'estimateur de Horvitz-Thompson est T

1= 1
:2,--.!.
l1l
T:
i=c; l'Tii
o les 7ri sont les probabilits de tirage des grappes. La variance de cet estimateur est donne par les fonnules du paragraphe 20.3.1 o on remplace Yi par Ti puisque tout revent un tirage de ln totaux parmi M. ...:. 1 III 7j 1 III Nif; . . L'estimateur de la moyenne est Y = - :2, - = - :2,- et necesslte la connaIssance N l'Til Ni'" 1 7ri
deN.
Un cas intressant est celui o les grappes sont tires avec des probabilits proportionN nelles leur effectif 'Ti; = m-.-!.. La taille de l'chantiHon est alatoire d'esprance N
E(lls} = E('ZNa
lES
:2,N,E(i) =
;=1
~
:2, Ni i""l
N.m
1 -
=-
11l M
:2,Nl. Ni=l
L'estimateur de la moyenne est alors Y = -
:2, Yi et sa variance peut tre esti me par:
/Il
111 le: 1
(y)
m(m -
1 (l - mM)(Yi - -V)::!
1)
;=1
Une bonne rpartition en grappes est caractrise par des moyennes de grappes peu diffrentes de la moyenne gnrale ~ c'est donc l'inverse de la stratification: ici les grappes doivent tre les plus htrognes possibles (chacune doit pouvoir reprsenter la population).
20aSondages
519
20.5.2
Tirage de grappes probabilits gales

7ii -
Cette fois
111
Ivl
d'o E(n} = E "'iN.

,\
() i~ f
M 111 = i;o M = ~NJ

f
Ivl .
Nm
'" .!vI L'estimateur du tOlal T = . 2:~. a pour variance

111 i", J
~
Ver) = - - - AI
.!vI - m Ivl
1 1Il
AI r\ 2: ( 7; - -) '!.
=
L'estimateur de la moyenne est Y
.!vI 1 fil - - ~ N;lj.

rn
Ni;]
20.5.3
Le tirage systmatique
Ce mode de tirage est trs utilis quand on ne sait pas, ou que l'on ne veut pas, faire un tirage alatoire quiprobable. Supposons que N est un multiple de Il. Par exemple on veut tirer 10 individus parmi 1000 : on commence par tirer au hasard un nombre entier entre 1 et 100, si ce nombre est 27, le premier individu sera le n027, le deuxime le nO)27, etc. jusqu'au n0927. Il s'agit donc en fait d'un tirage d'une seule grappe parmi Af = Nin grappes.
h, il
De faon gnrale si r on a tir un entier h, les individus slectionns ont les numros: + M, Il + 2M, ... , h + (Il - 1)M.
L'estimaleur de la moyenne est simplement la moyenne de la grappe slectionne et sa
M Lorsque le fichier se trouve tre tri selon un ordre proche de Y, la variance peut tre notablement plus faible que pour le tirage alatoire simple. On pourra s'en convaincre en prenant tl titre d'exercice le cas Yi = i. Il est incorrect d'utiliser la variance de l'estimateur du tirage alatore simple sauf si la base de sondage a t pralablement trie au hasard.
variance est
VeY)
Mf]("BNi N
Y)2.
20.6
REDRESSEMENT
Lorsque l'on dispose a posteriori d'une information supplmentaire corrle avec la variable d'intrt Y, on peut amliorer la prcision des estimations. Cette information peut tre qualitative ou quantitative. Nous exposerons brivement les principaux cas dans le cadre d'un sondage alatoire simple, pour une variable d'intrt quantitative.
20.6. 1 Quotient, rgression

Le cas suivant est inspir de : Ardilly, Till (2003) page 173. On effectue un sondage auprs 11 = ]00 entreprises parmi N = 10 000 pour estimer le chiffre d'affaires moyen. On trouve ~ 5.2 106 . On sait par ailleurs que le nombre moyen de salaris de la population est X = 50. Or dans l'chantillon on a x = 45. Comme on souponne une relation de proportionnalit entre Y et X, on effectue une rgle de 3 : c'est l'estimation par la mthode du quotient: de
_
Yli
_ X
= y-=x
YI}
5.8 106
On corrige donc l'estimation initiale et on trouve
520
20_Sondages
Cet estimateur est biais. mais le biais est faible si n est grand. Comme il est biais. il vaut mieux calculer son erreur quadratique plutt que la variance. On montre qu'elle est approx.i: mativement
ECYq
avec:
Yf
N - n(
Nn
S; - :1 -=- 5~n'
'
X'
Y + (--=- ) 2 S~ )
X
N - JI 1 Il que l'on estime par - - - -.- - Zf Nil Il - l i=l
2:
r=
r :1 La mthode du quotient suppose une stricte proportionnalit. Si la relation est du type y = CI + bX, il vaut mieux effectuer une rgression linaire et utiliser J'estimateur :
Il Y a amlioration si
>
Yr = y + b(X
- i)
mgis pour calculer b, il faut alors disposer des valeurs de X pour chaque unit slectionne et pas seulement de la valeur moyenne.
20.6.2
Post-stratification
Lorsque le caractre aux iIiaire est qualitatif, l'ide consiste effectuer un caIeu 1 comme pour l'estimmeur stratifi vu plus haut:
en rpartissant li posteriori les observations selon les modalits du caractre auxiliaire. La diffrence essentielle ici est que les effectifs nI! pur strates ne sont plus fixs a priori mais sont alatoires de loi hypergomtrique. L'estimateur reste sans biais (si les post-strates ne sont pas vides), mais sa variance va prendre en compte les tluctuations des 11,,Le calcul de la variance est assez complexe. On commence par crire la formule de la variance totale en conditionnant par les Ill! et les supposant non-nuls.
Le premier terme est nul car l'esprance conditionnelle vaut toujours Y. La variance conditionnelle vaut:
par la formule habituelle.
20.Sondages
521
Il faut en prendre ensuite l'esprance
2:(N )"2Sl E(~) - N 2:(NIr)sr Or il n'y a pas de ~ N N

IJ
Ill!
formule simple pour r esprance de l'inverse d'une hypergomtrique, Aprs des dveloppements limits pour 11 grand, que l'on omettra ici, on trouve finalement:
Le premier terme n'est autre que la variance de la stratification (l priori avec rpartition proportionnelle, ce qui prouve que stratifier a priori est toujours meilleur qu' Cl posteriori, Pour que la stratification a posteriori soil plus efficace que le sondage alatoire simple, il faut que le deuxime terme ne soit pas trop grand: cela se produit si le rapport de corrlation Tj:!(YjX) est grand. Lorsque ce rapport est nul. la stratification a posteriori est au contraire moins efficace que le sondage alatoire simple.
20.6.3
Poids de redressement
Considrons une post-stratification selon H post-strates, L'estimateur de la moyenne de la variable d'intrt est:
On appelle poids de redressement le coefficient
Nil La
NI1l!
somme des poids de redressement
sur les 11 units de l'chantillon vaut alors 1. Ceci permet d'obtenir l'estimation de Y comme une moyenne pondre des valeurs observes. Il ne faut pas confondre les poids de redressement avec les poids d'chantillonnage (probabilits d'inclusion). . . 11er Le re d ressement consiste a mo d'f- 1es proportIOns d es post-strates Il Il pour les ren d re
JI
, ,Nil.,. , , egaIes a -N a hude dune reule de 3. '-' ~
Lorsque l'on veut redresser sur plusieurs variables qualitatives la fois (par exemple: sexe, CSP, etc.) Le caJeul des poids de redressement est plus complexe et s'effectue raide d'ulgorithmes itratifs dont le plus connu est celui de Deming et Stephan qui consste en une sUte de rgles de 3 sur chaque critre.
_ Exemple: 1 000 individus ont t interrogs. La rpartition par sexe et profession est la suivante
Pl
P2
100
P3
Total
H F
Total
300 100
4-GO
200
150
150
150
250
600 400
JOOO
522
20aSondages
Supposons que les vraies marges soient 500 el 500 pour le sexe et 350,300, 350 pour la profession. Une premire rgle de 3 permet d'obtenir les marges souhaites pour le sexe: on plie la premire ligne par 500/600 et la deuxime ligne par 500/400
multi~
Pl
H
P2
83 187.5
P3
167 187.5
Total
F
Total
250 125
375
270.5
354.5
500 500 1000
On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession, ce qui change les marges en ligne:
Pl H F
P2
P3
165
Total 490 510 1000
233 117
Total
Puis en ligne:
350
92 208 300
185 350
Pl H
P2
P3
168 181 349
Total 500 500 1000
F Total
238 115 353
94
204
298
En l'absence de cases vides, l'algorithme converge rapidement et donne les poids de redressement appliquer chaque case. Ainsi la quatrime itration (trs proche du rsultat souhait), les 300 individus H et Plant chacun un poids de 0.236. La somme des poids de redressement des 1000 individus vaut 1000.
Pl
H
P2
P3
168 182 350
Total
F
Total
236 114
95
350
205 300
499 501 1000
L' util isation de redressement sur pl usieurs critres doit tre effectue avec prcaution pour viter des poids trop disperss; il ne faut redresser que sr des critres corrls avec la variable d'intrt, sinon on n'amliore pas les estimations. ..
Plans d'expriences
Avec les techniques de sondage, les plans d'expriences constituent la deuxime grande mthodologie statistique pour recueillir des donnes. TI ne s'agit plus ici observer des individus existants en allant les chercher dans leur population, mais de provoquer des rsultats, ou rponse , en faisant varier intentionnellement certains <;< facteurs}) dans le but d'tudier le modle liant la rponse aux facteurs. Les objectifs sont divers: par exemple dtenniner quels sont les facteurs influents, estimer au mieux le modle, trouver pour quelles valeurs on peut obtenir une valeur optimale de la rponse ... Un des grands intrts des plans d'expriences est de pouvoir rduire le nombre des expriences effectuer en les choisissant judicieusement d'o des conomies parfois considrables. Ainsi avec 10 facteurs 2 niveaux chacun, au lieu de faire les 2 10 = 1024 expriences possibles, un plan de Plackett et Burman en proposera seulement 12 et un factoriel fractionnaire 16. Mais les rsultats ne seront valables que si aucune imraction n'existe entre les facteurs. La dtermination d'un plan d'expriences, et plus gnralement d'un dispositif exprimental, ne peut donc se concevoir en dehors du modle de rgression cens reprsenter la relation entre rponse et facteurs. Tel plan sera adapt un modle sans interaction avec effets du premier degr, tel autre pour un modle du second degr, tel encore pour un modle facteurs qualitatifs, etc. Dans un modle linaire y = X!3
+ e, il s'agt donc de trouver lu matrice X.
La pJanification des expriences ne date que du XXme sicle: dveloppe tout d'abord en agronomie avec les travaux de Fisher, puis dans diverses branches de la recherche industrie11e en particulier en chimie puis en mcanique. Ce bref chapitre n'est qu'une introduction fi ce vaste domaine, dans le cas de modles linaires. Nous renvoyons l'ouvrage collectif dit par 11. Droesbeke & al. (1997) pour un traitement plus complet.
21.1
21" 1.1
INTRODUCTION
Vocabulaire
La terminoJogie varie fortement d'un domane d'applications l'autre el mrite donc d'tre prcise.
524
21aPlans d'expriences
Tout d'abord la variable y s'appellera la rponse, les variables explicatives Xj des facteurs. Ces facteurs peuvent tre qualitatifs (type d'engrais. marque) avec des modalits ou bien quantitatifs (temprature, hygromtrie) avec des niveaux. Une exprience ou essai ou traitement sera une combinaison de modalits ou niveaux des facteurs. Toutes les combinaisons ne sont pas ralisables. ce qui conduit dfinir le domaine exprimental, souvent un hypercube pour des facleurs quantitatifs.
" En gnral le nombre d'expriences ralisables sera tni I1JJ1j' mais souvent trs lev,
j=l
mme si chaque facteur ne peut prendre que quelques niveaux mj' On distinguera lu matrice d'expriences qui est la liste des essais effectuer, du dispositif exprimental qui prcise l'ordre des essais. Le plus souvent ce essais seront effectus dans un ordre alatoire obtenu par permutation des lignes de la matrice d'expriences: c' est la randomisation. On recourt galement la mise en blocs, consistant rpartir les essais en sous-ensembles aussi homognes que possibles. Ces dispositifs ont pour but d'liminer l:intluence de certains facteurs non contrlables comme la temprature extrieure, \' ensoleillement. etc. La matrice du modle X se ddut de la matrice d'expriences: on ajoute des colonnes en tenant compte du degr et des interactions entre facleurs. Ainsi pour un modle linaire du second degr 2 facleurs quantitatifs, y = r30 + r31X! + l3::.x 2 + r3J(X 1)2 + r3,j{x 1 ):! + 135-\IX::' +e, X possdera 6 colonnes obtenues en ,~outant une colonne de l pour le Lenne constant, 2 colonnes correspondant aux cans des variables et une tl leur produit. On parlera d'effets du premier degr, du second degr, d'effets d'interaction. L'interaction entre A et B se traduit par la non additivit des effets au sens suivant: si l'on tudie les variations moyennes de la rponse selon A. r effet de A ne doit pas dpendre du niveau du facteur B. Illustrons ce concept par l'exprience suivante (adaple de Sado "Plans d'expriences". AFNOR 1991): on mesure le rendement Y d'une raction chimique selon deux facteurs temprature T et concentration C : T varie de 50 100 oC et C varie de 20 30 g/l. On recode les niveaux en .... 1 et + l el on effectue 4 essais aux extrmits du domaine de variation (voir plus loin) :
Essai
2 3 4
-1
+1 +1
-1 -1 +1 +1
38
25 31
24-
38
31~=+1
25
24
-1
+1
21_Plans d'expriences
525
Le graphique prcdent montre que 1'effet de la temprature n'est pas le mme selon le niveau de la concentration: il y a augmentation de Y quand la temprature augmente, mais celle augmentation dpend de C : elle est de 6 pour C = - 1 el de 14 pour C = + 1. L'absence d'intraction se serait tr'-lduite par des segments parallles. On verra plus loin que certains plans ne pennettent pas d'estimer tous les effets des facleurs, c'est le phnomne de confusion ou d'alias.
21.1.2
Optimalit et orthogonalit
Supposons le nombre n d'essais fix. S'il s'agit d'estimer au mieux les paramtres du modle linaire y = X~ + c, on cherchera des proprits d'optimalit pour la matrice de variance-covariance des (J. On sai t ct' aprs le paragraphe 17 .2.1. J que cette matrice vaut V(f3) = (X'X)-l. L'optimum ne dpend que de X et non de la rponse. Obteni.r des estmateurs de variance minimale revient dtinir un critre de maximalt pour X'X. Le critre le plus utilis est celui du dterminant maximal ou D-optimalit max 1X'X 1. Il revient minimiser le volume de l'ellipsode de confiance des 13, pour un niveau de contiance donn. Il existe bien d'autres critres, mais moins utiliss comme la A-optimalit : min (Trace (X'X)-I) qui revient minimiser la somme des variances des estimateurs des 13. La matrice X doit tre de plein rang: pour des facteurs qualitatifs, on liminera une indicatrice par facteur comme dans le modle linaire gnral. Pour des facteurs quantitatifs, on a vu au chapitre 17 paragraphe 17.3.2.1 que la variance de chaque coefficient de rgression estim tait minimale si les variables explicatives taient non corrles deux deux: les colonnes de X sont orthogonales. Les plans orthogonaux sont donc optimaux, ce qui a conduil il privilgier leur recherche, d'autant plus que l'interprtation des rsultats par l'analyse de variance en est trs simple et que les calculs peuvent se faire manuellement, avantage essentiel avant l'apparition des ordinateurs. Cependant de tels plans n'existent pas toujours: ainsi il est facile de voir qu'il est impossible d'obtenir des colonnes orthogonales pour un modle linaire du second degr cause des termes carrs. On pourra s'intresser d'autres proprits comme l'isovariance par rotation: c'est le cas si la variance de la prdiction de la rponse en un point x, qui vaut tTX'(X'Xr 1x, ne dpend que de la distance au centre du domaine (x'x)~ et est donc indpendante de l'orientation des axes.
21.2
PLANS POUR FACTEURS QUANTITATIFS ET MODLE LINAIRE DU PREMIER DEGR
Le modle pour p facteurs eSl donc celui de la rgression linaire multiple classique : 130 + I3l xl + ... + f3 px l! +8
526
21_Plans d'exprienc.es
21.2.1
Le cas de la rgression simple
Soit un seul facteur prenant ses valeurs dans un intervalle [Xlllin ; x max l. On sait (chapitre 16, 16.2.1) que la variance de l'estimateur du coeftcient de rgression
cr2
- - - - - - Si
1
If
11
est pair,
22Ct
'=I
xf
est maximal lorsque nl2 valeurs de x
valent Xmill et n/2 valent Xmar Le plan optimal consste effectuer les essais par moiti(l) aux: extrmits du domaine, ce qui contredit l'intuition de beaucoup de praticiens qui ont tendance les valeurs de x dans l'intervalle de variation. L'optimalit de ce plan est ndissociable du modle linaire du Si le modle ne l'est pas et est par exemple du second degr y f:jo + f:j,x + + e, on ne pourra pas estimer f:j2 : il est alors ncessaire d'introduire des essais au centre du domaine.
21.2.2
Plans orthogonaux pour p facteurs
Comme la rgression linaire multiple est invariante par changement d'chelle des variables, on notera - 1 et 1 les valeurs minimales et maximales de chaque facteur (niveau bas et 2 haut) ce qui revient la transformation - - - - - - Xl11a~ -
x-
(Xmin
+ xm<lx)
Xmin
2 Sans contraintes sur le domaine, les expriences raliser se situeront aux sommets de l'hypercube. en raison de la proprit du paragraphe prcdent et seuls les niveaux -1 et 1 seront utiliss. La transformation en -1, l facilite grandement la vrification de l'orthogonalit de la matrice X : X'X = 1lI. X doit tre une matrice d'Hadamard qui n'existe que pour 11 multiple de 4. Il faut tout d'abord que Il soit pair: pour chaque facleur le nombre d'essais au niveau -1 doit tre au nombre d'essais au niveau 1 pour avoir l'orthogonalit entre la colonne de 1 (associe au terme constant ~(l) et la colonne associe un facteur. Chaque colonne associe un facteur est alors de moyenne nulle. Pour que deux colonnes associes deux facteurs soient orthogonales, il faut que les 4 combinaisons de niveaux 1; 1) (-1 ; 1) (1 ; - 1) (1 ; 1) soient prsentes le mme nombre de fois: le plan est dit quilibr.
21.2.2.1
Le plan factoriel complet
Il consiste effectuer les 2P expriences possibles. II est orthogonal et donc D- et A- optimal. La matrice d'expriences pour le plan complet avec p 3 est la suivante.
1.Si n est impair, on fait (n-I)/2 essais chaque extrmit, el on mel au hasard le nime une bome ou l'autre.
21. Plans d'expriences
527
essai
A -1
B
{
1
:2 3 4 5 6
7 8
-1
-1
+1
-1
-1
+1
-}
+1 +1
-{
-1
1
+1
-1
+1
-1 +1 +1
+1 +1 +1 +1
La matrice du modle X s'obtient en lui rajoutant la colonne de 1.
B
-[ -1
x=
-1 +1 1 +1 -1 +1 -1 +1
-1
l
+1 +1 -1 -1 +1 +1
-1 -1 +1 +1 +1 +1
Remarquons que le modle y = f3n + f3lxl + 13:.: x 2 + 133 x 3 + B ne dpend que de 4 paramtres et que l'on a huit essais. Cela va permettre d'estimer sans essais supplmentares des effets d'interaction A*B, A*C, B*C qui correspondent aux produits des variables:
La matrice associe ce modle s'obtient en rajoutant les colonnes obtenues en effectuant les produits terme terme de deux colonnes parmi A, B, C. On vrte que cette nouvelle matrice est encore orthogonale.
A -1
A*B
+1 -1
-1
A*C
+1
-{
B*C
+1 +1
-1 -[
-1
-1
1
-1
+1
-}
x=
+1
1
+1 +1
-}
-1
1
+1
-1
-1
+1
+1
+1 +1 +1
+1
+1 +1 -1
-1
+1
+1
+1 -1 -1 +1 -1 +1
-1 -J
+1
+1
528
21_ Plans d'expriences
On pourrait rajouter une Si:IIlC colonne A*B:)'C mais le modle est alors satllr car il y a autant d'essais que de paramtres ft estimer el on ne pourra pas estimer la variance rsiduelle. Notons ce propos une confusion frquente entretenue par les logiciels: ce qu'ils appellent variance rsiduelle n'est autre que la somme des variances des effets considrs comme non significatifs. Pour vritablement estimer la variance rsiduelle, il faut procder des essais supplmentaires (rptitions, points au centre).
21.2.2.2
Plans fractionnaires de type
2P-k
et plans de Plackett et Burman
Pour 4 facteurs, le plan complet demande 16 essas. Mais puisque la colonne A*B du plan prcdent est orthogonale toutes les autres, on peut l'attribuer un quatrime facteur D. On aura alors un plan orthogonal, donc optimal, 8 essais au 1 de ] 6 (demi-fraction). eu
A -1
B
]
+1 1 +1
1
-1 +1 +1
1 -)
C -( 1 1 -1
+1 -1 +1
+1
+1
+1 +1 +1 +1
+1 -1 -1 +1 +1
1
-1
+1
On a perdu la possibilit d'estimer l'interaction A*B puisque cel1e ci est confondue avec le facteur D ; le plan est dit de rsolution Ill. D'autres solutions sont possibles en attribuant D aux colonnes A*C ou B*C, la meilleure consiste attribuer D la colonne A*B*C car alors aucun effet principal n'est confondu avec une interaction entre deux facteurs mais seulement avec les interactions entre trois facteurs. On ne peut cependant estimer sparment les interactons d'ordre deux qui sont partiellement confondues entre elles ; le plan est de rsolution IV. Le voici:
TABLEAU
21.1
essai
1
B D A C -_.. _....... -.... _----_ .. ,.,. .... -_ ... _----- -_ ........................... -,. .......... _-
1
1 -1
-1
-1 -1 1
1
1
-1 1
-1
3
4
-1
1
1
5
6 7
1
-1
1
1 1
1
1
1
1
529
La structure de confusion des effets ou d'alias est:
1
2
3 4 5 6
7
A B C
_~B
= = ..C ::::: AD =
BCD ACD ABD ABC CD BD BC
Une autre faon de r~lre consiste partir du plan en 32 essais et prendre la moiti des essais, celle correspondant A*B*C*D = 1. Le plan complmentaire ou mimir est obtenu en choisissant les autres essais A*B*C*D -1: il donne les expriences supplmentaires faire si l'on veut estimer toutes les interactions (dsaliasage) si l'analyse n montr que l'on ne pouvait pas ngliger les interactions d'ordre 2. Ces procds de construction sont simples et bien connus: ils aboutissent des plans dont le nombre d'essais est une puissance de 2. Le plan prcdent en 8 essais peut convenir jusqu' 7 facteurs (Tableau 21.2) en utilisant toutes les interactions, c'est un plan orthogonal nombre d'essais minimal:
TABLEAU
21.2
--~
Essa
1
3 4
5
6 7 8
A B D E C ..... - -_ .... ---._ ................ -- -- ....... _- ... _.. _ .............. _------- _.............. - ----_ .. -_ ......... ......... - 1 -1 1 1. - 1 -1 1 1 -1 1 1 1 1 -1 1 1 1 1 -1 -1 1 1 1 -1 1 1. 1 1 -1 1 1 1 1 1 1 1 1 1
......... -....
------_........ _. -_ .... ---~
...
1 1 -1 -1 -1 1
-1 1 1 -1 1 1 -1 1
Au del de 8 facteurs on passe donc 16 essais minImum. Les matrces d' Hadamard permettent de construire des plans orthogonaux, dits de Plackett et Burman dont le nombre d'essais est un mulLiple de 4 et est donc intermdiaire entre les puissances de 2. Pour 8 Il facteurs on pourra utiliser un plan en 12 essas tel celui donn par le tableau 21.3. La structure de confusion des effets est trs complexe (Montgomery, 2005) : chaque effet principal du plan prcdent est partiellement confondu avec les 45 interactions d'ordre 2 ne le comprenant pas. Plus encore que les plans 2/J - k , ces plans doivent tre utiliss avec prcaution.
530
21.3
TABLEAU
Essai ............ - ... _-- ........

1 2
A B C ........... -.,.- .......... _- ......... __ ........ -- ...........
F E G H J D ... '" .... _-_ ..................... _-- ............ -_ . --- ------- _............ -- -- ...... ---- ........ -"' .... ---_ ...... _- - .... ...... _..
_~---
........ __K "'......
-1
-1
1 -1
3
4
5
6 7 8 9
-1 -1
1
-1 -1 1 1 -1
-1 1
-1 l
-1
-1
-1
-1 l
1 1
-1
-1
1
-1 1
1 1 -1
1 1 1
-1
-1
l
-1
1
-1
-1 1
la Il
12
1 1 1 1 1
-1
1
1 1
-1
1 1
1
1 1 1
-1 -1 -1 1
1
1 1 -1 1
1
-1
1 1
-1
-1 1
1 1 -1
-1 1
1
1 -1
1
1 -1
-1
1 1
1
-1
1
1
-1
-1
1 1 -1 1 -1 1
1 -1
-1
1 1
-1 1 1 -1 1
1 1 -1 1 1
1
Plan de Plackett et Burman en l2 essais pour Il facteurs. Les plans '2,I.k (dits de Box et Hunter) et de Plackett et Burman constituent des plans de criblage (<< screening ) essentiellement destins liminer rapidement des facteurs dans une tude prliminaire o de nombreux facteurs potentiels ont t souponns.
21.2.3
Exemple
Un plan d'expriences a t ralis selon la matrice du tableau 21.1 (donnes tires de Montgomery 2001 )
D y C B A ..... __ .......... -_ ............... _----_ .... _.. -- ...................... _- ....................... _----- --_ ............ ,. ....
-1. a 1.0 -1. a 1.0 -1. a 1.0 -1. a 1.0
1.0
-1.
a a
-1. a
-1.
1.0 1.0
-1.
-1.0 1.0 1.0
1.0 -1.0 1.0 1.0 1.0 1.0
-1. a 1.0 1.0

-1.
45
100
45 65 75
a a
1.0 -1.0
-1.
1.0
60 80 96
On calcule tout d'abord les effets des facteurs qui sont gaux aux diffrences des moyennes de la rponse entre le niveau + l et le niveau -1 de chaque facteur ou interaction (tableau 2104 et figure 2 LI). Ruppelons que AB est confondue avec CD, AC avec BD et AD avec BC. On ne peut ici effectuer de test d'analyse de la variance car il n'y a pas assez de degrs de libert pour estimer la variance rsiduelle. Il est clair que le facteur B est sans effet ansi que les interactions AB et CD qui peuvent tre limins. On ngligera galement BD et BC qui ne peuvent tre spares de AC et AD en faisant l'hypothse que si le facteur B n'a pas d'effet principal, on peut ne pas tenir compte des interactions entre B et les autres facteurs.
531
TABLEAU 21.4
Effets estims pour rponse moyenne A : Facteur__i\ B : Facteur- B C : Facteur- C D : Facteur- D AB + CD AC + BD AD + BC 70.75 19.0 1.5 14.0 16.5 -1.0 -18.5 19.0
Graphique de Pareto
AC+BD
AB+CD
~~~~~~~~
12
16
20
Effel
FIGURE
21.1
TABLEAU 21.5
Analyse e la variance pour y Source A : Facteur_A B : Facteur_B C : Facteur _C D : Facteur_D AB + CD AC + BD I_D + BC Erreur totale Total (corr . ) Sorrune des carrs 722.0 4.5 392.0 54/4.5 2.0 684.5 722.0 0.0 3071.5 DDL 1 1 1 1 1 1 1 0
7
Carr moyen 722.0 4.5 392.0 544.5 2.0 684.5 722.0
proba.
On restime alors le modle simplifi, crit symboliquement Y = T + A + C + D + AC + AD. Tous les effeLs sont significatifs. L'orthogonalit I<sse invariantes les sommes de carrs. L' erreur totale est en fait la somme des carrs ngligs.
532
TABLEAU 21.6
de la variance pour y
SOITl.t'Tle
des DDL
l
Source A : Facteur_A C : Facteur- C D : Facteur- D AC AD Erreur totale Total (corr.)
carrs 722.0 392.0 544.5 684.5 722.0 6.5 3071.5
carr moyen 722.0 392.0 54 .5 684.5 722.0 3.25
Proba. 0.0045 0.0082 0.0059 0.0047 0.0 5
1 1 1 2
222.15 120.62 167.54 210.62 222.15
Lnodle de rgression nnal s'crit:

y
70.75
9.5
7.0C
8.25D-9.25AC
9.5A.D
21.3
QUELQUES PLANS POUR SURFACES DE RPONSE DU SECOND DEGR
11 s'agit de trouver des matrices d'essais pour des modles linaires avec des termes de degr 2 comme celui-ci: y f30 + [3,x' + f32X:! + f33(X I):! + f3iXl)l + f3sx tx:! + e. faut donner chaque facteur au moins trois niveaux pour pouvoir estimer les effets du second degr. Lorsque le domaine exprimental est cubique, ces trois niveaux seront dfinis par les extrmes et le milieu de l'intervalle de variation de chaque facteur et recods en l, 0, l
2 aprs la transformation dj vue plus haut - - - - - X max J: lll in
x-
(x min
X lTlax)
2 Il ne peul exister de plans orthogonaux pour de tels modles et la recherche s'est focalise sur des plans possdant d'autres proprits comme l'isovariance par rotation. La possibilit d'exprimentation squentielle est galement trs utile; elle consiste augmenter un plan factoriel fractionnaire de criblage permettant d'estimer des effets principaux en lui ajoutant des points au centre et d'autres points pour estimer les autres effets. Il existe bien d'autres plans que ceux prsents maintenant parmi les plus classiques, et nous renvoyons aux ouvrages dj cits, L'analyse des rsultats d'exprience se fait avec la rgression linaire multiple.
21.3.1
Plans composites faces centres
Ce nom s'explique de la manire suivante, Pour 3 facteurs le domaine exprimental est un cube. On effectue tout d'abord les 8 essais aux sommets du cube, que r on complte par 6 essais aux centres des faces. et Ile essais au centre du cube.
533
Voici la matrice d'expriences pour Ile = 2 :

TABLEAU
21.7
B
essai
1 2 3 4 5 6
7 8
9
M ........ _ _ _ _ _ ..... _ _ . . . . . . . . . . . . ..,. . . _ _ _ _ _ . . . . . . . . . . . . _ _ _ _ _ . . . . . . . . . . . . . . . "" . . _
-1.0 1.0 -1.0 1.0 -1. a 1.0 1.0 1.0 -1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0
-1. -1.
a a
.0
-1.0 -1.0 1.0

-1.
.a
1.0 1.0 1.0 1.0 0.0 0.0 -1.0 1.0 0.0 0.0 0.0 0.0
1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0

-1.
la Il
12 13 14 15 16
1.0 0.0 0.0
Plan composite faces centres pour 3 facteurs
FIGURE
21.2
Ce plan n'est pas orthogona1 (il ne peut pas l'tre) : voici la matrice de corrlation entre les colonnes de X :
A
A
A'2
AB
~--
AC
B::
~-----_
BC
c2
0.0000 0.0000 0.0000 0.46 0.0000 0.0000 0.4667 0.0000 .0000
-_ .......................... -_ ........ - - ..... - - - - _ ...................... - - - - - _ .. __ ... _ - - - - -_ ............ - - - - ..... _ - - - - - - - _ ...... *
..................... _ .. _ .............. - - - - - - -
.... _ ............. - - -_ ............. - ..... _ - - -
B C
AB AC
B';
BC C::
_
1. 0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1. 0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.4667 0.0000 0.0000 0.0000 0.0000 0.0000 o.
..
~
0.0000 0.0000 0.0000 0.0000 1. 0000 0.0000 0.0000 0.0000 0.0000

~ _ ~ ~
0.0000 0.0000 0.0000 0.0000 0.0000 1. 0000 0.0000 0.0000 0.0000

................ w __ _
0.0000 0.0000 0.0000 0.4667 0.0000 0.0000 1.0000 0.0000 0.<1667

.. _____
~ ~ _ , . .
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 .0000 0.0000

... _ _ ...... _
. . _ _ ................ _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . _
. . . . . . _ _ _ _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . "" _ _ _ _ _ _ ...... _ _ . . . . . . . . . . . . . . . . . . . .
................. _
.... _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . _ _ _ ., _ _ . . _
534
211i1l11i1Plans d'expriences
II n'est pas non plus isovariant par rotation. Ces plans se gnralisent un nombre quelconque de facteurs. L'hypercube a 21' sommets et 2p faces. La parte factorielle peut-tre une fraction orthogonale et non le plan complet. Le plan minimal pour 5 facteurs comprendra en tout 28 essais avec 2 points au centre. en partant d'un plan 2 5- 1 et laissera 7 degrs de libert.
21.3.2
Plans composites gnraux
Au lieu de mettre les points en toile ) au centre des faces, ils sont une distance du cenlre. Ce qui donne le plan suivant pour 3 facteurs et 2 points au centre. Il y a donc 5 niveaux par facteur.
TABLEAU
21.8
essai
1 2
3 4
.... __ ...... _-_ .... "' .
_..
"'~~--
C --_ ..B..... _.. _-_ .......... _... _......... _.. _... _
.a
.a 1.0 1.0 1.0 1.0 1.0 1.0
-
5 6
7 8
-1.0 -1.0 1.0 1.0 -1. a -1. a 1.0 1.0 0.0 0.0
-
Ci
1.0 .a 1.0
.a
1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0
-Ci Ci
9 la Il 12 13 14
0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0
15 16
0.0 0.0
Plan composite centr pour 3 facteurs
FIGURE
21.3
2I_Plans d'expriences
535
On montre que pour obtenir r isovanance, il faut prendre Cl = (Hr) 1/-1 o nI est le nombre d'essais de la partie factorielle. Pour 3 facteurs ct gO.25 = 1.6818 et pour 2 facteurs a = 425 = 2(1.5 = 1.414. Les points sont alors respectivement sur une sphre ou un cercle. Ces plans conviennent donc bien quand le domaine exprimental est sphrique.
21.3.3
Plans de Box.. Behnken
Ce sont des plans o les facteurs ne prennent que les niveaux - l, 0, 1. Pour p 3 les essais hors du centre sont disposs au milieu des artes du cube (figure 21 A), pour p > 3 au milieu des hyperfaces de dimension p-1 . Ces plans demandent souvent moins d'essais que les composites. Tous les points (hors ceux au centre) sont situs sur une sphre de carr de rayon gal 2 si p 3, 4 ou 5, de carr de rayon gal 3 pour p = 6 ou 7. Ils ne contiennent aucun sommet ce qui peut-tre un intrt si les sommets correspondent des expriences difficiles raliser. Le plus utilis est celui pour 3 faCleurs donn par le tableau 21.9 . 11 n'est pas sovariant par rotation. La matrice de corrlation entre effets (tableau 21.10) montre une nette supriorit sur le plan composite faces centres tudi plus haut.
21.9 C --_ ........ _.. ------ .... _.....
TABLEAU
essai
1
2
B ........ _-_ .. _... _................... '" ........... _... _..

A
3 4 5 6
7
-1.0 1.0 1.0 1.0 -1. a 1.0

-1.
8
9
la
11
12 13 14
15
1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
-1. a -1. a 1.0 1.0 0.0 0.0 0.0 0.0

-1.
0.0 0.0 0.0 0.0

-1.
1.0 -1. a 1.0 0.0 0.0 0.0
-1. a 1.0 1.0 -1. a -1. a 1.0 1.0 0.0 0.0 0.0
Plan de Box-Behnken pour 3 facteurs
FIGURE
21.4
536
TABLEAU
B
............... M
~
21.10
AC
AB
Be
.. _ .................. __ ......... _ ....... _
............... _
.... _
....... _ .
_ _ _ _ "' . . . . . . . . "" . . . . "' . . . . . . "' . . _
. . . . . . . . . . . . . . _ _ . . . . . . . . . . . . "" .. _"" ............... _ _ _ _ _ _ .. _ _ _ _ _ _ _ _ _ _ _ . . _
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . _ _ .. "' .. '" .. _ _ _ _ _ _ _ _ _ _ _ _ . . . . . . . . _
_A.
13
C
.i\B
AC
6::
BC
c1
.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0714 0.0000 0.0000 0.0000 -O. 0714
0.0000 0.0000 0.0000 0.0000 1. 0000 0.0000 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000
0.0000 0.0000 0.0000 0.071"1 0.0000 0.0000 1.0000 0.0000 -0.0714

... _
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000
0.0000 0.0000 0.0000 -0.0714 0.0000 0.0000 -0.0714 0.0000 .0000

..... _ _ _
. . . . . . . . . . . . . . _ _ _ _ ... 'W- _ _ ........... "' _ _ _ _ _ _ _ . . . . . . . . _ _ _ _ . . . . . . . _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . . ,.. .. _
. . . . . . . . . . . . . . . . . . . . . "' . . . . . . . . . . . . _ _ _ _ _ _ _ _ _ _ ........ _ _ _ .. _ _ _ _ _ _ _ _ .... _
... "' .. "' ..... _ _ _ _ _ _ _ _ _ _ _ _ _ .. _ _ _ _ _ _ _ _ . . . . . . . . . . _ _ "" _ _ _ .. _
Matrice des corrlntions entre effets du Plan de Box-Bchnken
Le tableau 11.11 est un plan de Box -Behnken pour 4 facteurs en 27 essais dont 3 au centre. Ce plan est sovariant par rotation.
TABLEAU
21.11
_._-----_ ........ -
essai
1 2 3
4
B C ."A. D ............... _.............. _......................... --_ .......... _-----_ .................. --_ ................... _... _- ........ __ .. _.................
5 6 7 8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
24
1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 1.0 1.0 -1. a 1.0 0.0 0.0 0.0 0.0 -1.0 1.0 -1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
-1. a -1. a 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -1. a 1.0 -1.0 1.0 0.0 0.0 0.0 0.0 -1.0 1.0 -1. a 1.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 -1. a 1.0 1.0 1.0 0.0 0.0 0.0 0.0 1.0 1.0 1.0 1.0 -1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 -1. a -1. a 1.0 1.0 -1. a -1. a 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
-1.
-1.0 1.0 1.0 0.0 0.0 0.0
25 26 27
Plan de Box-Behnken pour 4 facteurs
537
21.3.4
Application un problme d'optimisation
Les donnes sont reprises de Montgomery (2001 page 503) avec le plan de Box-Behnken du tableau 21.9.
yi
= (535
580 596 563 645 458 350 600 595 648 532 656 653 599 620)
Analyse de la variance pour y Source

1''\. :
Sormne des carrs 703.125 6105.13 5408.0 20769.2 1521.0 47742.3

lLl04.0
DDL 1 1 1 1 1 1 1 1 1 5 14
carr moyen. 703.125 6105.13 5408.0 20769.2 1521.0 47742.3 1404.0 1260.25 4719.0 1043.75
Proba. 0.4491 0.0602 0.0719 0.0066 0.2814 0.0011 0.2985 0.3219 0.0868
Facteur A B : Facteur- B C : Facteur - C

AA
AB AC BE BC CC Erreur totale Total (corr.)
1260.25 4719.0 5218.75 94871.3
0.67 5.85 5.18 19.90 1.46 45.74 1.35 1.21 4.52
L'analyse de la variance et le graphe des effets indiquent que l'on peut liminer le terme du premier degr en A, celui du deuxime degr en B ainsi que les produits AB et
Be.
Graphique de Pareto standardis pour y
C: Facteur_C L~,:r::;;;;,''''I--+---+--
CC
ABI~2jr-T---I--------i---
A: Facte ur_A ....0:' ",-,--'--'--'-'--'-'--'--L-L-J.-'--'-' \ .... 2 4 6 8 Effet standardis
FIGURE
21.5
Le modle restreint est signiticatif et s'crit:

y
636.0+27.625B -
26.0C -76.5A 2 + 109.25AC -
37.25C::
538
21_ Plans d'expriences
Analyse de la variance pour y Source B : Facteur- B C : Facteur - C AA

AC CC
Somme des carrs 6105.13 5408.0 21736.9 47742.3 5153.8 10107.1 94871.3
DDL 1 1 1 1 1 9
Carr moyen. 6105.13 5408.0 21736.9

477L12.
Proba. 0.0446 0.0558 0.0017 0.0001 0.0608
Erreur totale Total (corr.)
5153.8 1123.01
5.44 Ll.82 19.36 42.51 4.59
Surface de rponse estime Facteur_B
=1.0
660
610
560
Y 510
FIGURE
21.6
La figure 21.6 reprsente pour B fix au niveau 1 la surface de rponse de y selon A et C. Si l'on cherche maximiser la rponse, compte tenu des contraintes du domaine l'optimum 1 et vaut environ 691. est atteint pour A = -0.71, B = 1 et C =
21.4
PLANS POUR FACTEURS QUALITATIFS
Notons mj le nombre de modalits du facteur nOj. Bien que non ordonnes ces modalits seront encore appeles <:< niveaux . Leur numrotation est donc arbitraire et les niveaux seront nots tantt par les entiers 1, 2, ' . " mi' tantt par des symboles AI, A2, . , , Am}'
21.4.1
Orthogonalits
Comme prcdemment, l'orthogonalit est une proprit souvent recherche. L'orthogonalit d'un plan pour un modle donn se traduit par une analyse de variance orthogonale : les sommes de carrs des diffrents effels sont additives.
539
Une condition suffisante d'orthogonalit pour le modle effets principaux sans intraction est que le plan soit quilibr au sens suivant: pour toute paire de facteurs i etj les 1I1 j H1j traitements sont prsents le mme nombre de fois. On parle galement d'orthogonalit au sens strict; elle entrane la D-optimalit. Cela implique que le nombre d'essais soit un multiple de mimj- Toutes les cases du tableau crois 111; lignes et mi colonnes de dnombrement des essais ont le mme effectif.
n y a orthogonalit au sens large si les effectifs ne sont pas identiques (plan non quilibr) mais si le khi-deux calcul sur ce tableau est nu1. L'analyse de la variance a les mmes proprits que pour l'orthogonalit stricte mais le plan n'est pas ncessairement D-optimal.
21 .4.2 Facteurs m niveaux
Si tous les facteurs ont le mme nombre de niveaux m, le plan complet ncessite ml' expriences. Nous nous intresserons ici aux plans ncessitant moins d'observations. Si 111 = 2, on peut utiliser les mmes plans que dans le cas quantitatif: factoriels fractionnares, Plackett et Burman. La seule diffrence est que les niveaux bas ) et ~( haut ) n'ont pas de sens el que la modlisation ne s'exprimera pas l'aide d'une rgression linaire classique mais plutt symboliquement comme suit:
I:-'{}
r.t
+ ( _Il ) + ( -[3:: ) + [31 Il

1:-' 1 1:-'1
. . .
+ ( -[3/, ) + e Il
1:-'1'
On ajoute [3j si le facteur j esl au niveau l et - [3) s'il est au niveau 2. Pour 3 et 4 facteurs on utilisera les carrs latins et grco-latins, au del on se reportera des recueils de table (par exemple celles de Benoist & al. 1994), ou on les construira par des procds algorithmiques
21.4.2.1
Carrs latins
Pour p = 3 et III quelconque, les plans en calTs latins sont des plans orthogonaux au sens strict en /112 essais au lieu de mJ On peut les obtenir de la manire suivante, d'o leur nom: On consttue un carr en croisant 2 des 3 facteurs, et on affecte chaque case les niveaux du 3rnc facteur par permutations circulaires de la premire ligne. Chaque niveau de chaque facteur est associ une fois et une seule chaque niveau d'un des deux autres. Voici le carr 3 latin pour 3 facteurs 4 niveaux qui comprend 16 essais not parfois L llA . Le premier essai estAI BI Cl etc.
BI
B2 C2 C3 C4 Cl
B3
C3 C4 Cl C2
B4
C4 Cl C2 C3
Al
A2
A3 A4
Cl C2 C3 C4
540
21.Plans d'expriences
La matrice des essais de ce plan en notatons classiques est:
--1
2
essai
3
4
5 6
7
9 10 11 12 13 1 LI 15 16
A B C ----------------"'----1 1 1 1 2 2 1 3 3 1 4 4 2 1 2 2 2 3 4 2 3 2 4 1 3 1 3 2 4 3 3 1 3 3 4 2 <1 1 4 4 2 1 4 3 2 <1 4 3
Les carrs lutins ne peuvent estimer que les effets principaux. Dans l'analyse de variance le nombre de degrs de libert pour l'erreur vaut 111:' - l - 3(m 1) = (m 1) (m - 2). Il y a en effet (nt 1) paramtres estimer pour chaque facteur plus le terme constant.
21.4.2.2
Carrs grco-latins
Ce sont des plans pour 4 facteurs ni niveaux. On peut les construire en super posant deux carrs latins. Ils existent pour tout 1Il > 2 sauf pour 111 6. Les plans en carrs grco-latins sont des plans orthogonaux au sens strict en 1/12 essais au lieu de m4 Voici le carr grco-latin Ll644 sous sa forme originelle et sous forme de matrice d'exprience:
BI
Al A2 Clet C2 'Y C30 C4 !3
B2 C2 r3 Cl 8 C4 'Y C3 et
B3
C3 'Y
B4
C48 C3 r3
C4et
Cl 13 C2
A3 A4
C2et
Cl-y
Comme pour les carrs latins, on ne peut estimer que les effets principaux; dans 1'analyse de variance le nombre de degrs de libert pour l'erreur vaut (Ill l) (m 3).
2I_Plans d'expriences
541
.... _ _ _ ....... ... .........
essai
1 2 3 4 5 6 7 8 9
-............................................-.. __ .. _------_......._""""" ...... _..._---1 1 1 1 1 2 2

-'
-:l
F.
3 3 4 1 2 4 3
2
3
4
1 2
2
.::,
'"1
1 2
3
2
3
41
2 3 4
3 41 2
4
10
11 12
13
14
15
16
3 3 3 4: 4 ,1 4
1
2
3 2 1
2 1 4 3
1
2 3
1 4
21.4.3
Plans asymtriques
On ainsi les plans avec des facteurs n'ayant pas tous le mme nombre de niveaux. La construction de plans fractionnaires est difficile et il n! existe pas de mthode getler.lle. Voici tout d'abord quelques indications concernant le nombre d'essais: Il doit tre au minimum gal au nombre de paramtres estimer 11 >
2:
j=1
Il
(Ill j
1)
1 et
pour avoir un plan orthogonal au sens strict (sans interaction) tre un multiple commun de tous les produits mimi' Cela donne quelques possibilits, mais il n'est pas certain qu'un tel plan existe en dehors du plan complet. On peul alors consulter des recueils de tables, mais ils ne sont pas exhaustifs. ou utiliser une des mthodes suivantes: fusion ou compression en partant d'autres plans. En voici deux exemples simples:
21.4.3.1
Un exemple de fusion
On cherche un plan pour 3 facteurs, l'un 4 niveaux, les deux autres 2 niveaux. Le plan complet comporte 16 essais. Le ppcm des produits IHjmj vaut 8. On trouve le plan de la manire suivante: on part de 4 facteurs deux niveaux et du plan fractionnaire 2-1-1 du tableau 21.1 :
essai
1 2
3
.. _.. _"" ......... ""',. ........ '" -"' .. '" "'-----'" ..

'" '"
_~-"'
D C ...... ""-"" ...... "" .... ............. _-~
1 1 1 1 1
1
5 6
7
-1 -1 1 1 -1 -1 1 1
-1 l
-1
-1 1 1
1 1
1 1 1 1 1 1 1
542
En combinant deux facteurs 2 niveaux on en obtient un 4 niveaux. On remplace par exemple les colonnes C et D de la faon suvante (-1; 1) devient le niveau 1 d'un facleur E, (- 1, 1) le niveau 2, (1 ; -1) le niveau 3 et (1 ; () le niveau 4. Le plan rsultant est slrictement orthogonal et permet d'estimer les effets principaux.
essai
A B ---_ ... _.. _....... ...... ,.. ...

~_
~" ~-
-.. ""_ E .. ---'"
1 2
3
4
-1 1 -1
l.
5 6
7
-1 1 -1 1
-1 -1 1 1 -1 -1 1
1
1
2 2
1
4 3 3 4
21.4.3.2
Un exemple de compressio"
Cette technique consiste regrouper des niveaux d'un facteur
( collapsing ) en anglais).
Cherchons un plan pour 3 facteurs: A et B 3 niveaux el C deux niveaux. Le plan complet demande 12 essais, mais seuls les effets principaux sont estimer. Le ppcm de 6 et 4 est galement 12, donc le plan complet est le selll plan orthogonal au sens strict. Si le facteur C avait eu 3 niveaux, on aurait pu utiliser un carr latin 3 3 comme celui-ci :
BI
Al
B2
C2 C3 Cl
B3
C3 Cl C2
A2 A3
Cl C2 C3
Il suffit alors de regrouper deux des 3 niveaux de C ; par exemple C3 et C2. On obtient un plan orthogonal, mais cette fois-ci au sens large puisque non quilibr.
BI
Al A2
Cl C2 C2
A
B2
C2 C2 Cl
B3
C2 Cl C2
.. -- '" -....
B
.... "'
A3
essai
1
2 3
--_ ..... '" ..........
---~~
........ _..... "'-
1 1 1
2 2 2 3 3 3
1
2 3
1 2
2 2 2
4
5 6
7
1
2
3
1
2
1
2
8 9
1
2
21 IIIIIIII Plans d'expriences
543
21.5
CONSTRUCTION ALGORITHMIQUE DE PLANS OPTIMAUX
Il n'est pas toujours possible de construire la main un plan d'expriences, soit parce que le domane exprimental est irrgulier, ou qu'il est impossible de trouver un plan orthogonal par les mthodes exposes prcdemment (il n'yen a pas ou on ne sait pas le trouver), ou encore parce que le nombre d'essais est limit. On utlisera alors des logiciels, maintenant assez rpandus, pour trouver un plan optimal, en gnral D-optimal. On se donne un ensemble de N points candidats ou essais potenliels parcourant le domaine exprimental, parmi lesquels on va chercher un sous-ensemble de Il essais (avec rptitions ou non). En l'absence de contraintes sur le domaine. N correspond au nombre d'essais du plan complet. Comme il est irralisable d'explorer tous les choix de Ir pamli N, on utilise des algorithmes d'optimisation bass pour les plus connus sur des changes: on part d'un plan, souvent choisi alatoirement, que l'on amliore en changeant un essai du plan contre un autre non choisi. Ces algorithmes ne convergent pas ncessairement vers l'optimum du critre et il est conseiIJ de les relancer plusieurs fois en faisant varier les initialisations. S'il existe un plan orthogonal pour la valeur fixe de II et si l'algorithme converge, alors il dcouvrira ce plan. Sinon on trouvera un plan de bonne qualit. Exemple : On a 4 facteurs A, B, C, D 3, 4, 2, 2 niveaux respectivement. On ne s'intresse qu'aux effets principaux. Le plan complet possde 48 essais. Il existe un plan orthogonal au sens strict en 24 essais mais il est trop onreux el on veut se contenter de 12 essais ce qui laissera encore 4 degrs de libert pour l'erreur rsiduelle. En 10 itrations on aboutit au plan suivant:
Essai
1
....................... _---- ............ - ................. -------------------
2
3 4 5 6 7 8 9 10 11 12
3 3 3 3
L1
";)
-'
2 2
1
4
";)
-'
2 1
4 3
2 1
1 1 2 1 1 2 1 2
2
1 2 1 1 1 2 2 2
1 1
Il Y a orthogonalit entre A et
B et D.
A et C, A et D, C et D mais pas entre B et C, ni entre
544
" . ' ' l ' . L , e f'r: YICactte d' un p1an D -optIma l est souvent mesuree par a quantlte X ' X
1
1
1
/1'
JI
que l' on
interprte comme le rapport entre le nombre hypothtique d'essais d'un plan orthogonal qui aurat mme dterminant et le nombre d'essais du plan. En effet on sait que pour un plan orthogonal X'X est diagonale de termes tOtlS gaux l'effectif du plan. La D-efficacil vaut ici 97.0984 %. On peut galement forcer >1 certains essais (que l'on veut faire, ou qui ont dj t raliN ss) et optimiser sur les essais restant faire. Les algOlithmes de plans D-optimaux constituent une solution pratique, mais ne sont pas une panace: la solution optimale peUl tre instable, certains essais trop complexes, r optimum du dterminant ne correspond pas forcment au critre recherch ...
1Annexes
Tables uSIJelles
Table A.l Table A.2 Table A.3 Table A.4 Table A.5 Table A.6 Table A.7 Table A.8 Table A.9 Table A.l 0 Table A.II Table A.l2 Table A.13 Table A.14 Table A.15 Table A.16 Table A.17 Table A.18
: Nombres au hasard. : Loi binomiale: fonction de rpartition. : Loi binomiale: probabilits individuelles. : Loi de Poisson. : Loi nommle centre-rduite: fonction de rpartition. : Loi du khi-deux. : Loi de Fisher-Snedecor. : Loi de Student. : Valeurs critiques du coefficient de corrlation.
: Corrlation transforme de Fisher.
Table A.3 bis: Abaque pour les intervalles de contiance d'une proportion p.
Table A.5 bis: Loi normale centre-rduite: inverse de la fonction de rpartition.
Table A.9 bis: Abaque pour les intervalles de contiance d'un coefficient de corrlation. : Valeurs critiques du coefficient de corrlation des rangs de Spearman. : Test de concordance de p c1assemenls (W de Kendall). : Loi de la statistique de Cramer-von Mises. : Valeurs critiques pour le test de Kolmogorov. : Valeurs critiques du coefficient d'asymtrie. : Valeurs critiques du coefficient d'aplatissement. : Test de Durbin et Watson. : Coefficients pour calculer l'esprance et la variance de l'cart-type corrig et de l'tendue d'un chantillon gaussien.
Les LabIes A.I et A.2 sont extraites de J. Mothes, Prl'isiollS et dcisions statistiques dans
l'entreprise, Dunod, 1968.
Les tables A.3 et A.9 bis sont extraites de Massey et Dxon, lll/mdllclion 10 statistical al1a1.l'sis, Mc Graw-HilL 1951.
548
AIIIIIIIIIITables usuelles
L'abaque A.3 bis est extrait de E. Mariee et F. Chartier, .Mthode statistique, deuxime partie, INSEE. 1954. Les tables A.6 et A.7 sont extrates de Hald, Stmstcal tables andlormillas, Wiley, 1952. La table A.9 est extraite des tables scientifiques dites par Ciba-Geigy, 1973. La table A.ll esl extraite d'un article de J. H. Zar paru dans le JOllrnal Stafis/ical Association, n 339 de septembre 1972.
(d the American.
La table A.I::! est adapte de celle de M. G. Kendall, Rank correlation methods, Ch. Griffin and Co., 1962. La table A.13 est extraite d'un article de Knotl paru dans Joumal of the Royal Statistical Society, B36, n 3, p. 436, 1974. La table A.14 est extraite d'un article de L. H. Miller paru dans Journal Statistical Association. 5 l, pp. 113-11 S, 1956.
(~f tlze
American
Les tables A.4, A.5, A.5 bis, A.8, A.10 sont extraites du numro spcial de la Re\'lle de Sfatistque Applique, dite par l'Institut de Statistique des Universits de Paris, 1973. Les tables A.l5 et A.16 sont extraites de E. S. Pearson et H. O. Hartley Biometrika tables for statisticicms, 2 tomes, Cambridge University Press, 1969-1972, qui contient de nombreuses autres tables spcialises. La table A.17 est extraite de New York, 1977.
Chatterjee~Price
Regression Alfalysis by Example, Wiley,
L'index bibliographique de Greenwood et Hartley, Guide aftables in matlIematical statistles, 10 l4 pages, Princeton University Press, 1962, est une prcieuse liste de rfrences.
A_Tables usuelles
549
TABLE
A.1 NOMBRES AU HASARD
5 13407 50130 84980 22116 68645 26518 36493 77402 83679 71802 57494 73364 14499 40747 42137 32934 05764 32706 21190 81616 26099 71874 08774 37194 33912 63610 01570 14159 92834 16178 81808 28628 62249 84541 89052
10
15 78937 94083 09703 17545 56898 96561 27871 59892 40341 02981 22676 93128 75403 07734 91855 58707 73069 93188 95668 94921 69870 80001 42245 56850 78967 26980 30182 38973 88301 59284 80660 04854 12273 01585 99811
10 90525 93634 78397 31311 87021 56004 71329 85581 84741 89107 4431 ] 10297 18002 88940 62097 44858 80830 66049 5326] 95970 84446 11430 51903 83380 57201 23804 54647 82178 22127 16279 98391 52809 9]261 96711 69831
15 25033 71651 66179 65772 40115 50260 69212 70813 08967 797R8 15356 11419 45068 88722 81176 36081 1713] 25988 11676 63506 58148 02305 69179 05912 66916 54972 06077 46802 23459 48003 62243 86608 96983 29712 47234
30
35 78902 57532 67619 09811 41221 85596 65281 34405 94952 37129 03582 84389 18085 73810 81607 01191 48472 35365 43618 29966 56938 34261 91819 37612 54289 19403 95704 01805 74678 08623 39551 11120 83851 70955 47386
40 47008 60307 39154 81848 88293 83979 57233 67080 59008 31898 66183 88273 92625 79866 00565 68707 18782 ]3800 42110 38144 54729 15157 60812 15593 07147 53756 75918 23906 21859 32752 18398 28638 77682 59693 17462
45 72488 91619 90763 92211 67592 09041 07732 16568 95774 34011 68391 96010 60911 84853 56616 45427 51646 83745 93402 62556 67757 27545 47631 73198 84313 04281 21811 96559 98645 40742 36918 72850 81728 26838 18874
50 57949 48916 74056 51178 06430 62350 58439 00854 44927 43304 86844 09843 39137 68647 77422 82145 37564 40141 93997 07864 68411 14522 50609 99287 51938 98012 88274 06785 72388 05470 43543 03650 52157 96011 74210
61899 63237 61458 33646 15068 39]22 41666 12994 97154 39356 72484 38416 83965 03084 59122 60217 14284 94879 17559 15641 65801 61692 29689 92018 37996 61475 41701 77787 52941 60063 32980 82072 65757 99891 39061
56358 01656 46982 86506 27524 68648 57932 53338 73187 51330 05348 81937 54257 85717 06318 79981 41936 46656 98943 22007 21281 59741 96682 29830 73998 72068 19354 90245 40229 44634 19678 68017 15082 02877 93263
10
15
20
25
30
35
TABLE
A.2 Lor
BINOMIALE
Taille de
]' chuntillon
/.:
f1
1%
=20/.-, p
3 t;f,
p=4%
0,8153 0,9851 0.9994 1
p=5%
0,7738 0.9774 0,9988 1
6 r;{,
7 rr p=Rl;()
U,659 1 0,9466 0,9955 0,9998 1 0,4344
{7
9%
p= 10%
0,5905 O,9lH5 0.9914 n,9995 i 0.3--187 0.7361 0,9298 0,9872 0,9984 0,9999 1
{)
20%
fi
30 rk
fi = 40 %
{' = 50 %
0
N::::5 1 2 3 4 5
()
0,9510 0,9980 1
0.9039 0,9962
0,8587 0,9915 0,9997 1
0,7339 0,9681 0,9980 1
0,6957 0,9575 0,9969 0,9999 l 0,480.10 n.8483 0.9717 0.9964 0,9997
0,6240 0,1)326 0,9937 0,9997 1 0,3894 U.77<-16 0,9460 0,9912 0,9990 0,9999 1
0.3277 D,7373
O,9l21
0,9933 0,9997 1 0.1074 0.3758 0,6778 0.8791 0,9671 O,lJ936 0,9991 0,9999 1
0,1681 0,5282 O.H369 0,9692 0,9976
...
0,90+4 0,9957 0,9999 0,8171 0,9838 0,9991 0.7374 0,9655 0,9972 0,9999 D,6M3 0,9418 0,9938 0,9996 0,5987 n,9139 0,9885 0,9990 0,9999 1 0,5386 0,8824 0.9812 0,9980 0,9998 1
1
0,0282 0.1493 0,3828 0,64% 0,H4Y7 0.9527 0.9894 0.991)4 0.9999 1 0,OD47 0.0353 0,1268 0,2969 0,5155 0.7110 0.8689 0,9500 O,984R 0,9963 0,9993 0,9999 1
0,0778 0,3370 0,6826 0,9130 0,9898 1
0,0313 0,1875 0.5000 0.8125 0,9687 1 0.0010 n.OID7 0.0547 0,1719 0.3770 0,0230 0.8281 0.9453 0,9893 0,9990 1
1 2.
3 4
O,IH21
0,9599 0,9942 0,9994 1
N= 10
5
6 7 8 1) 10
[)
0.OD6n 0,0464 0,1673 0,3823 0,6331 O.833l-i 0,9452 0.91377 0.99133 0,9999 1 ... n,0005 0.0052 0.0271 0.0905 0,2173 0,4032 0.6098 0.7869 0.9050 0,9661 0,9907 O,99HI 0,9997
1
1 :2
3
0,8601 0,9904 0.9996
1
5 6 7 8 9 10 Il 12 13 14 15
0,7386 0,9647 0,9970 0.9998 1
0,6333 0.9270 0,9906 0,9992 0.9999 1
0,5421 0,8809 0,1)797 0.9976 0,9998 1
0,4633 0,8290 0,9638 0,9945 0,9994 1
0,3953 0,7738 0,9429 0,9896 0,9986 n.9999 1
0.3367 0,7168 0,9171
0,9825
0,9972 0,9997 !
0,2863 0,6597 0.8870 U,9717 0,9950 0,9993 0,9999 1
0,2430 0.6035 0.8531 0.9601 0,9918 0,9987 0,9999
0,2059 0,5490
O,S159
0.9445 0.9873 O,997ti 0,9997
N= 15
0.0352 0.1071 0,3980 0,6482 0,8358 0,9389 0,9819 0.9958 0.9992 0.9999 1
n,sooo
0.6964 O,fWJI 0,9408 0.982-l 0,9963
0,0000 D,ODOS 0,0037 0,0176 0,0592 0,15U9 0.3036
~.9995
--
TABLE
A.2 (suite)
LOI BINOMIALE
Fonction de rpartilion Pk
Il
1 - P )"'-k
=1% p=2% p=3%

0,8179 0,9831 0,9990 1 0,6676 n,9401 0,9929 0,9994
]
{J
4 (li,
= 5 (;..
fJ = 6
{J
J1
8 (Ji-
9(J'r;
P = IO(;},
0,1216 0,3917 0,6769 0,8670 0,9568 0,9887 0,9976 0.9996 0,9999
~()
" = 30 (~, 1 fi = 40 <;f, 1 l'

0.0008 0,0076 0,0355 0,1071 0.2375 0,4164 O,60S0 0,7723 0,8867 0,9520 0,9829 0,9949 0,9987 0,9997 1 0.0005 0,0036 0,0160 0,0510 0,1256 0,2500 0,4159 0,5956 0,7553 n,R7:25 0,9435 0,9790 0,9935 0,9984 0,9997
1
50
:2
3
4
0.5438 0,8802 0,9790 0.9973 0,9997
5 6
7
0,4410 0,8103 0.9561 0,9916 0,9990 0,9999
0,3585 0,7358 0,9145 0.9841 0,9974 0,9997
0,2901 0,6605 0,8850 0,9710 0,9944 0,9991 0,9999 1
0,1342 0,5869
0,8390
0,9529 0,9893 0,9981 0,9997
8
N
0,1887 0,5169 0,7879 0,9:294 0,9817 0,9962 0,9994 0,9999 1
0,1516 0,4516 0,7334 0,9007 0,9710 0,9932 0,9987 D.999B

1
20
9 1 [0
I[
12 13
[-l
0,0115 0,0692 0,2061 O,-l114 0,6296 0,8042 0,9133 0.%79 0,9900 0,9974 0,9994 0,9999 1
15 [6 [7 18 [9 20
0,0002 0.0013 0.0059 0,0207 0,0577 0,1316 O,25l7 0,4119 O,58RI 0,7483 0,8684 0,9423 0,9793 0,9941 0,9987 0,9998 1
TABLE
A.2 (suite)
LOI BINOMIALE
k
Fonction de rparLiLion p~
2:C,~-pi.(1 - py-I. n
TailJ~ d~
l'chantillon
k
0 1
1'=1% 0,7397 0,9639 0,9967 0,9998 0,9999 1
p ='2 17('
0,5455 0.1;79-10,9783 0,9971 0,9996 1
[1=3% 0,4010 0,7731 0.9399 0,9881 0,9982 0,9997 1
l' = 4- fi';'
0,2939 0,6612 0,8831 0,9694 0,9937 0,9989 0,9999 1
p =5 r:'r,
0.21-1-6 0,5535 0.!H22 0,9392 0,984-10,9967 0,9994 0,9999 1
fi =61,''''
p=7%
0,113-10,369-10,6-1-88 0.8450 0,944-7 0,9838 0,9960 0,9992 O,9!)99 1
p = R 1;(' 1'=9% l' = 10%

0,0820 0.2958 0,56540,7842 0.91'26 0.9707 0,9918 O,99S0 0,9996 0.9999 1 O,DS91 0,2343 0,4855 D,7175 0,8723 0,9519 n,984-8 0,9959 0,Y99D 0.9998 1 0.04-24 0,1837 0,4111
0,6-1-7"~
p=:WI,:;,
0,0012
p =301J'f->
P =40 171,
~50%
2.
3 -1-
5
6 7 8 9 10
0,1563 0.4555 0,7324 0,8974 0.9685 0,9921 0.9983 0.9997 0,9999 1
o,ooon
0.0003 0,0021 0,0093 0,0302 0,0766 0,1595 0,2814 0,4315 n,5888 0,730-10,8-107 0.9155 0.9599 0,9831 0,9936 0,9979 0,999-10,9998 1
D,OIOS
0,0-1--1-2 n.1 :2:1.7 0,2552 0.4275 0,6070 0,7608 O,S713 0,9389 0,97440,9905 0,9969 0.9991 n.9998 1
0,0000 0,0003 0,0015 0,0057 0,0172 0,0435 0,0940 0,1763 0,2915 0,4311 0.5785 0,7145 0,8246 0,LJ029 0,9519 0,9798 0,9917 0.9971 0,9991 0.9998 1
0.0000 0,0002 0,0007 0,0026 0.0081 n,02I-10,0-1-94O,IOD2 0,1808 0,2923 0,4278 0,5722 0.7077 0,8192 0,8998 0,9506 0,9786 0,9919 0,99740,9993 0,9998 1
Il t2 13
N= 30
1'1 15
0,824-5 0,9268 0,9742 0,9922 0.9980 0,9995 n,9999 1
16
17 18 19 20 2l 22 23
~4
25
~6
27
~!:!
29 30
--r C" = r-t Ir. r=- oc ccccccc66ocoooocccdddco:::; 0 0 0 0 0

M (""1 M
r"'j
::: C ;:::: C C C
r"'j -
c--t
~j r i ~ ~
r-j 0
=--- - ::c
~ ~
C' (""'"'j r----. -t r- ........ rl ("'!
("1 0' t" X r-- :f.) ::;-.. t'- =' l n tr, ~I ::7' C ...0 cc =' C' \0 :tO .::0 \0 ('" 1 ~~ C' ::;-, c::;;'\ 0' \0 ':0 0' 0\ C' :i' c::i' 0. 0'
:;:
Il
o "-=
o ::
dcicicicicicicicidcicidddcicidcicicid
- r- 00 tr. - lJj r- (""'j - =--- ri \C := ri r- ~ .~ :i'\ C =: c ("'1 r- 1..0 ct; r-"'j ~ ~j ("'f"'j lli oc =' ::::J'\ ~ ~ ~ C. ~ '~ q -" ("-! -1'.. l'1 r-~ ~ ~ =; ~ =;. ~ :7;. ~ ::::C::::;:'OO==CCCC::CCCCOO=c
l.n
C 0 rI IrA ~ .:::) -t r- ::::; .:G ( ....1 \C .Xl ::J\ .::J'". 0. 0- 0"CCCCOC--~~~~~OO~~~~~~~~
=('"
l rl
\0
~ X, t-I 0 C'\ r- I,CJ r1 r l -:t' ,~ 1 CC \"'1"'j IrA ,~ lrj 00 r- ("t"'j r- -t
.=
r-
==
...c
C (""1 00 'ri
r('f"".
\C -
r-
r- 0"0' :;-. C'
c:;;-.
~l
~ -
::J:i ("1 Ir" :;:
..c -
:;::;. r-
c;.
=--
::...
r- lr, -
ln ::i' l~ ..c ::r, ("""';C::.c-t'"7'tX.:::f',O'\
C'\C t r.xoO'-O\::7't'- O".;.O";.o--.;.~.~::r- ~ .. ... c c .:::..:::. . c :;..::;:. -
l
1:
0
=:
~
ri -
f"t'1 -:t
::::;".
=_ -:
C=CO=::OOOOOO~-
~ ("'1 rr'. t.I co =::; >..0 C" C' C f"1j ...c; Ir" ri rOC C tri rc-" r- ~ =:i\ ("'~ \'1 r-...~ ~
:;-.,
:;j',
-r
=: =: =:
=: =:i\ ~
:i\
::f
W ...J
-<
::::;".
i5
.....J ,..-...
~
"G~
""'v-l:::
C!...
-<
!!:l '5
'-'
1...
<i
...J tt'I
("'1 ::; IrA ""T 0'\ \C

~,:::"\
r-- -r rI C
'2
c..
CCCOO:~O=~-
("'!
Ir~ """. :7'~
..cX-I..O~:::'\:::'\::l'\
0'\ :::;
C\
r-
r- .:::;-.,
tri ':;--.
.::::7\
0;. ~ ~ ~ ~
ct 1-
.g ~2
i.t
~
Ir'/. -- """ 0'\ .~ ~ rt"'. '.X: ::;j'\ I.!: r1 '..c; ~ ~ r-I ~ """ ...c' tr.:;.G:.:"\:::"
='
=='
C=CO-=::::::~C::;-
- .. r-r-!~~~~~~=-.
-r ::: tri
.r$ :;-., ('"'"1
--: Ir!
0~ =~OC=CC'~-
Ir. trJ ::"\ ln :>0 r i t- ='
r-I
=~
l': =;,
C'. c;.
='
:;j'\
oc
""" lli r-l \C
rr-.
lf')
C"'>~:>:\CO"o.O"
r-I
("'l
cc :c rr, -:C.:::;-.
("'~ \C.. ~ ~ 0; c;. :1'~ CCOCOoo-
t:~
~
....::;!""""'j~::::"'>
:.:"\:i" t""1
=:
rr"} Ir/ rr"j
="
===::0:::::-
~~~~
ri
("t"i
-:t "n ....c """
.:t:J .~
("'1 l'"'J
-r
If")
\oC t-
--
.:r- 0" C - t""'1 rr", 1" lfJ C 1-- :.0 ~ - ri ri ri Nrl rI ri ri ri ri
l''''''~ <""", ~ ~ ~~ ~
-r
Fonction de rpartition Pk = 2:C,~ p k( 1 ()
jJ )II-l
Tuille de l'chantillon k
0 1 2
p=1
0,6050 0,9106 0,9862 0,9984 0.9999
J
p::1% p = 3
0,3642 0,7358 0,9216 0,9822 0,9968 0,9995 0,9999 1 0,2181 0,5553
P =4(;(;
5%
p=6% 0.0453 0,1900 0,4162 0,6473 0,8206 0,9224 0,9711 0,9906 0,9973 0,9993 O.999H 1
{J
7 (V ,n
8%
9 CI. ln
P = 10% IJ = 10 IJr, P
0,0052 0,0338 0,11[7 0,2503 0,.:.1312 0,6161 0,7702 0,8779 0,9421 n.9755 0,9906 0,9968 0,9990 0.9997 0,9999 1 0,0001 0,0013 0.0057 0,0185 0,0480 0,1034 0,1904 0.3073 0,4437 0,5836 0,7107 0,8139 0,8894 0,9393 0,9692 0,9856 0,9937 0,9975 0.9991 0,9997 0.9999 1
30%
fI -
40
(i:;)
5001,
(l,BIOB
0,9372 0,9832 0,9963 0,9993 0.9999 1
3
4
5
6 7 8
1)
0,1299 OAn05 0,6767 0,8609 0,9510 0,9856 0,9964 0,9992 0,9999

1
10 Il 12 13 14 15 16 17 18
0,0769 0,2794 0,5405 0,7604n,89M 0,9622 0,9882 0,9968 0,9992 0,9998 1
0,0266
0,1165 O,310H 0,5327 0,7290 0,8650 0,9417 0,9780 0,9927 O,997!-\ 0,9994 0.9999 1
0.0155 0,0827 0,2260 0,4253 0,6290 0,7919 0,8981 0,9562 0,9834 0.99440,9983 0,9995 0,9999 1
0,0090 0,0532 0,J605 0,3303 0,5277 0,7072 0,8404 0,9232 0.9672 0,9875 0,9957 0,9987 0,991)6 0,9999 1
50
19 20 21 22
23
24
25
16 27 28 29 30 31
D,DODO 0,0002 0,0007 0,0015 0,0073 0,0183 0,0402 O,OSOI) 0,1390 0.2229 0,3279 0,4468 0.5692 0,6839 0,7822 0,8594 0,9152 0,9522 0,9749 0,9877 0.9944 0,9976 0.9991 0,9997 0,9999
0,0000 0.0001 0,0002 0.0008 O,(J022 0,0057 0,0133 0,0280 0,0540 0,0955 0,1561 0,1369 0.3356 0,4465 0.5610 0.6701 0,7660 0,8438 0,9022 0,9427 0,9686 0,9840 0,9924 0.9966 0,9986 0,9995 0,9998 0.9999
J
0,0000 0.0002 0,0005 0.0013
0,0033
0,0077 0,()164 0,0325 0,0595 0.1013 0,1611 0,2399 0.3359 0,4439 0.5561 0,664\ 0.7601 0,8389 0,8987 0,9-105 0,9675 0,9B36 0,9923 0,9967 0.9987 0,9995 O,999H 1
32
33 34
35
36
37 38
III
.05
.9025
.10
.15
.7125 .2550
.25
.JO
..l900
A100
3
..!44-1
.35
,4125
A550 .1225
AO
.3600 A 800
.1600
..15
.3025
.50
.2500
o
1 1
3
.9801
.slon
.IBOO .0100
.7290
.Ol9R
.noOl
.9703
.029-1 .0003 .OOO!)
.9606
.0950 .0025
.S57~
.6-1()() .3200
.5625 .3750
.0625
.44-1..4
.1111
.0225
.6141 .3251
.(WOO
.5120
Jl900
.313(1
AlJ50 .2025
.50no
. 25()()
o
!
:::
3
.135.J. .0071
.0001
.2..430
.0270
.3840
.0960
.0574
.003~
.(lOIO
.6561 .2916 .0186 .0036 .0001 .5905 .3180
.G080
A09fi .'1096 .1536
A219 A219 .1406 .0156

.316-1
.4-110 .1890 .0270 .2-101 ,4116

.2616 .0756
.2963 .4.+.J.-1
.2222
.27-16
A~36
.2160 A320
.0370
.1975
.3951
.2389 .0.J.29 .1785 .3l:1..45 .3105 .1115 .0150 .1160 .311.+ .3364 .1811
.2880
.06..40
.1296
.166-1 ,40g1 .33-11 .0911

.0915
.1250
.3750 .3750 .1250
o
1 2
3
.0388 .0006
.(j0(){) .m)(){)
.J.
5
.81..45 .1715 .0135 .{J005 .0000
.5220 .3685 .0975 .0115
.0625
.25()() .3750 .2500 JJ62S .0312
A219
.1109
.3.+56
.3456 .1536
.1995
.3675
.0005
7
.0-169 .0039
.2373 .4096
.(lOSI
.1681 .3602 .3087 .1323 ,02R4 .0024
.1176 .3025
.32~
.2963 .0988 Jln3

.1317
.0256
o
:::
3
-1 5
.9510 .041\0 .0010 .0000

.0mlO .0000
.7738
.2036
.021'~
.0011
.O(){)O
.0719 .OOSI
.0004
5 :2
.()O:12 .0001
.1048 .OSI2 .006.J.

.0003 .1621
.3955 .2637
.0879
.3292
.3192 .16-16 .(M12 .00'+1 .OH78 .263'+ ..:l2Q2
.0778 .2592
.3~56
.1562
.3369
.2757
.J125
.3115 .1562 .0312 .0156 .0938 .23-14 .3125
.23(W
.01-16
.0010 .1780 .3560
.0000
.7351
.2321 .0305 .0021
.omm
.5314 .35U .0984
mS8
'(lO53
.0768
.0102
.0467 .1866 .3110 .:!65
.1382
.1128 .01R5
()
()
.9-115
.0571
.3771
.3993
.1762
1
2
.3932
.2-158
,2966
.1318
.3
.+ 5 6
7
.0000
.0000 .9321
.OOO! .(lOOO .OOO()

.o9!B
.01-16 .OOI:! .(){)Ol .0000
.1)-115 .0055 .(lOn4

.0000 .3206 .3960 .2097
.0819 .015..4
.0015 .0001
.1852 .0595 JH02

.0007
.2195
.OH13 .01(,5 .nOI-i
.075.J. .2..B7 .3180 .2355

.0951 .0:205 .0018
Jl277 .1359 .2780 .303::!

.1861 .0609
.2344
.0938
Jl369 .1)041
JlOS3 ,(1152
.Oti72 .1140
JJl56
.0078 .05-17
.1641
n
1
.2097
.3670 .2753 .1147
2 3 -1 5 6 7
.0659 .0010
.0000
.2573 .0-106
.0036 .0002 .0000
.1335 .3115 .3115 .1730
.081-1
.2-171 .3177 .2269
.0585
.20'+8 .3073 .2561 .12RD .038-1
.(W90
.18~8
.0000 .0000
.0000
.0187
.0043
.0577
.0972
.0250
.29H5 .2679 .1-I.J.2

J
.m80 .1306 .2613 .21)03

.1935
.GOOD
.9127 J17-16
.0026 .0001
.0000 .0000
.6634 .2793 .0515 .005-1 ,4305 .3826
.0()()..4
.00(){)
.oon
.0001
.1001 .2670 .3115 .2076 .lJ865 .U13 1 .ml3!l
.0115
.077-1
.0172
.2')18 .2381\ .1172

.0320 .0037
.008~
.nom
.0576 .1977 .2%5 .2541 .1:161 .IMo7 J}JOO
.0036
.006..4
.0005 .0390
J
.(
.273-1 .273-1 .1641 .0547

.007S .0039 .0312
.1()9~
.0016
.0168 .0896
o
1
.::'715 .38-17
.2376
2 3 -1 5 6
7 ti 9
.1-188
JI331 .O()46 .000-1 .0000 .0000 .3874 .3874 .1722
.1678 .3355 .2936
.0319
.1561 .2731
.2731 .1707 .0683 .0171
.1373
.0548
.1569
.2587
.2786
.2090
.1787 .1322
.0000 .0000 .()(JOO .0000
.ooon
.0000
.OOO.J.
.ooon
.0839 .0185 J1026
.14@
.0459
.2561-\
.1627 .1719 .0703
.2183
.1875
.0808
. 273.J.
.(Jon::.
.(l092 .0011
.0001
.1239
,(W13 .007!)
.2188
.109.J. .0311
JI039
.()OOO
.0000 .6302
.0000
.9135 .0830 .003-l
.0000 .0000
.2316 .3679
.0004
.0000 .0751 .2253
.(lOI2
.0001
JJ02.+
.0002
.mm
.0217
.00{)2 .0207 .I()(M
.0164
.0017 .OU-l6
.0000
.13-11 .3020 .3020
.1762 .0661 .0165
.0007
o
1
.2985
.061!)
3
-1
.oom
.0000
.0000
.2597
.1069
JJ283
.0077
.0006
.0-146
J)074 ,0008 .0001 .0000
.3003 .2336
.116ti
.0IOl .1556 .2668 .1M!:! .1715

.0735
.0260 .1171 .23-11

.2731 .2(MS
.0339
.1110 .2508 .1672 .0743
.0020 .0176
.0703
.1162
.1716 .:219-1 .1181
.2119 .:!600
.2128
.1160
.16-11
.2~61
5 6
7 8 9 10
.{)()OO
.0050
.0006 .0000
J)389
.00B7
.101-1
.0341
.0000
.0000
.<
.!
.0028
.ooon
.0000 .90+:1.
.091-1 .0012
J
.0000
.5987
.ODOO
.0000
.0000
.0000
.ooon
.OUOO
.0003
.(lOI2
.0001
.0110 .0039 .000-1

.0000 JI2S2
.0-124
.1-161 . 16.J. 1
.0703 .0176 .0020
.0010 .(109B
J)~39
.mm
JI009
.0000
.0563
.0001
J1I73 .0867 .1951 .2601
.nool
.OOlJ8 .0013
.oms
.0003
.0212
.ooos
.0025 .0207 .0763
.0-107 ,CIOS3
o
1
.3487
.3874 .1937 .0574 .0112 .0015
.3151
.0716
.0105 .00 JO .0001
.199 .3,17..4
.2759
.107-1
.2684
.1877
.2816 .2503 .1-160 .058-1 .0162
.1211
.2335 .2668 .2001 .1019 .036R
.0135 .0725
.1757
.3010
3 -1
5
(,
.(J[)OI
.ooon
.0000 .0000 .0000
.1298
.0-101
.(lOS5
.0012 .0001 .0000 .0000
.O()OO
7
8
.ooon
.0000
.ooo!
.1276 .1366
.0569
.:!512 .2377
.1536
.0060 .0-103 .12(}1j .2150

.2508 ,2007 .1115 .0425 .0106
.1665
.238'+ .23-10
.1172
.1051
9
10
.0000 .0000 .OOO(]
.ooon
.0000
.0000
.0000
.oom;
.(JOOI
.0055
.0689
.0112
.orBI
.001j0
.(0).1 .0001
.o()(m
.0000
.0000
.ooon
.0000
.ooon
.00(J-1 .0000
.omo
.0003 .0000
.0163
.OQ.U
.0005
JlOI6
.0001
.1596 .07-16 .0229 .OO;!1

.0003
.1-16l .1051 .1172

.0439 .0091l
.0000
.OllOO
.fIn 10
556
A IIII!I Tables usuelles
TABLE
A.3 bis
ABAQUE DONNANT EN FONCTION DE (L'INTERVALLE DE CONFIANCE
0.95
(PO.OI5
Po.m)
f: frquence observe (en %) sur un chanlillon d'effectif Il p: proportion (en %) dans la populalion chantiUonnc
p
90
BD
70
60 _
50
40
30g&
10
10
20
30
40
50
60
70
80
90
100
AIIlIIIITables usuelles
557
TABLE
A.4
LOI DE POISSON
Probabilits individuelles P(X

k
0 1 2 3 4 5 6
111
===
k) = e-II/ ~
k!
0.1
11/
0,2
1/1
= 0,3
11/ .:::
0,4
III
= 0.5
111
= 0,6
l1l
0.7
III
= 0.8
m = 0,9
0.9048 0,0905 0,0045 0,0002
0,8187 0,1637 0,0164 0,0011 0,0001
0.7408 0,2222 0,0333 0,0033 0,0003
0,6703 0,2681 0,0536 0.0072 0,0007 0,0001
0,6065 0.3033 0,0758 0,0126 0,0016 0,0002
0,5488 0.3293 0,0988 0.0198 0.0030 0,0004

1;=<:
0.4966 0,3476 0.l217 0,0284 0,0050 0,0007 0.0001

ml..
0,4493 0,3595 0.1438 0,0383 0,0077 0.0012 0,0002
OA066 0,3659 0,1647 0,04940.0111 0,0020 0,0003
Probabilits cumules P(X :::; c) =

c
m
2: e- m III
k=1l
k!
III
0.1
III =
0,2
III
=0,3
III
= 0,4
111
0,5
111
0.6
= 0,7
= 0,8
m = 0,9
0.4066 D,7725 0,9372 0,9866 0,9977 0,9997 1
a
1
2. .,
.)
0.9048 0,9953 0,9998 1
4-
0,8187 0,9825 0,9988 0,9999 1
0,7408 0,9631 0.9964 0,9997 1
0,6703 0,9384 0.9920 0,9992 0,9999
5
6
0,6065 0.9098 0,9856 n.9982 0,9998 1
0,5488 0,8781 0,9769 0.9966 0,9996 1
0,4966 0,8442 0,9659 0,9942 0,9992 0,9999 l
0,4493 0,8088 0,9526 0,9909 0,9986 0,9998
Remarques:
1) SiX suit une loi de Poisson de paramtre
P(X:5:; c)
lU
on a la relation exacte:
P(X~(C+I)
>
2111)
2)
Si
111
est> 18 on peut utiliser l'approximation grossire:

---=---= U
+ 0.5 - m
.r,-;;
o U est la variable de Laplace-Gauss centre-rduite.

3) Une approximation plus prcise est donne par:
P(X
~ c) =
p(u > 301((_m_)1/3 + __ 1_ c+1 9(c+l)
558
AaTables usuelles
TABLE
A.4 (suite)
LOI DE POISSON
Probabilits individuelles P(X = k)
k
111=
= c- m -k!
/JI
ml,
1.0
lU
1.5
III
2.0
111
2.5
/JJ
3.0
111
= 3,5
= 4,0
m =
4.5
111
5.0
a
1 2 3 4 5
6
7 8 9
LO
0.3679 0,3679 0.1839 0.0613 0,0153 0,0031 0.0005 0,0001
0,2231 0,3347 0.2510 0,\255 0,0471 0.0141 0,0035 0,0008 0,0001
0,1353 0,2707 0,2707 0,1804 0,0902 0,0361 0.0120 0.0034 0.0009 0.0002
n.OH21 0,2052 0.2565 0,2138 0,1336 0,0668 0,0278 0,0099 0,0031 0,0009 0.0002
11 12 13 14 15 16
......................
0,0498 0.l494 0.2240 0,2240 0,1680 O,L008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0002 0,0001
0.0302 0,1057 0,1850 0,2158 0,1888 0.1322 0,0771 0,0385 0.0169 0,0066 0,0023 0.0007 0,0002 0,0001
n.0183 0.0733 0,1465 0,1954 0,1954 0,1563 0,1042 0,0595 0.0298 0,0132 0.0053 0,0019 0,0006 0,0002 0,0001
0,0111 0.0500 0.1125 0,1687 0,1898 0,1708 0,1281 0,0824 0,0463 0,0232 0,0104 0,0043 0.0016 0,0006 0,0002 0,0001
0.0067 0,0337 0,0842 0,1404 0.1755 0,1755 0,1462 0.1044 0,0653 0.0363 0,0181 0,0082 0,0034 n.OOI3 0,0005 OJ)002 0.0001
k=c
Prohabi1ils cumules P(X ::; c) =
c
III =
k~~O
2:e-lII,
k.
III
mk
1.0
/II
1,5
11/
2,0
IJJ
2.5
m = 3.0
III
= 3.5
=4,0
111
= 4.5
III
= 5,0
a
1
:2 3 4 5 6 7
8 9
LO
0,3679 0,7358 0.9197 0,9810 0,9963 0.9994 0,9999 1
0,2231 0,5578 0,8088 0,9344 0.9814 0,9955 0,9991 0,9998 1
0,1353 0,4060 0.6767 0,8571 0,9473 0,9834 0,9955 0.9989 0,9998

1
11 12 13 14 15 16
0,0821 0,2873 0,5438 0,7576 0.8912 0,9579 0,9858 0,9958 0,9989 0.9997 0,9999 1
0,0498 0,1991 0,4232 0.6472 0.8153 0.9161 0,9665 0,9881 0,9962 0.9989 0,9997 0.9999 1
0,0302 0.1359 0,3208 0,5366 0,7154 0,8576 0,9347 0,9733 0,9901 0,9967 0.9990 0.9997 0,9999 1
0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786 0,9919 0,9972 0.9991 0,9997 0,9999 1
0.0111 0,0611 0,1736 0,3423 0,5321 0.7029 0,8311 0,9134 0.9597 0,9829 0.9933 0.9976 0.9992 0.9997 0,9999 1
0,0067 0,0404 0,1247 0,2650 0,4405 0.6160 0,7622 0,8666 0,9319 0,9682 0,9863 0,9945 0,9980 0,9993 0,9998 0.9999 1
A I11\III Tables usuelles
559
TABLE
A.4 (sui(e)
LOI DE POISSON
1..
k
III
Probabilits individuelles P(X = k) = e- III ~ 1- 1 "-
= 5.5
6,0
111
6.5
TIl
7.0
1Il
= 7,5
m = 8,0 0,0003
111
= 8,5
III
= 9,0
/II
= 9,5
0
1 1 3 45 6 7
8
9 10 11 12 13 14 15 16 17 18 19 20
21
0.0041 0,0115 0.0618 0.1133 0.1558 0,1714 0.1571 0,1134 0.0849 0.0519 0,0185 0.0143 0,0065 OJ)018 0.001\ CLOO04 0,0001
0.0015 0,0149 0,0446 0,0891 0,1339 0,1606 0.1606 0.1377 0,1033 0,0688 0,0413 0,0225 0,0113 0,0052 0,()O21 0,0009 0,0003 0,0001
0,0015 0,0098 0,(BI8 0.0688 0.1118 0.14540.1575 0,1461 0,] 188 0,0858 0,0558 0,0330 0,0179 0,0089 0,0041 0.0018 0.0007 0,0003 0.0001
0,0009 0,00640,0123 0,0521 0,0911 0,1277 0,1490 0,1490 0,1304 0,1014 0,0710 0.0452 0,0264 0.0142 0,0071 0,0033 0,00\4 0,0006 0.0001 0.0001
0,0006 0.0041 0,0156 0,0389 0.0719 0,1094 0,1367 0,1465 0.1373 0,1144 0,0858 0,0585 0,0366 0.0211 0,0113 OJJ057 0,0026 0.0012 0.0005 0,0001 0,0001
o.oon
0.0107 0,0286 0,0573 0,0916 0,1121 0.1396 0,1396 0.1241 0,0993 0,0712 0,0481 0,0296 n,0169 0,0090 0,0045 0,0011 0,0009 0,0004 0,0001 0.0001
0.0001 C>.OOl7 0,0074-
0,0208
0.0443 0,0751 0.1066 0.1294 0,U75 0,1299 0,11040.0853 0,0604 0.0395 0,0240 0.0136 O,O07:? 0,0036 0,0017 0,0008 0,0003 0,0001 0,0001
22
:?3 24
0,0001 0,0011 0.0050 0,0150 0,0337 0,0607 0.0911 0,1171 0,1318 0,1318 0,1186 0,0970 0,0718 0,0504 0,0324 0,0194 0,0109 0,0058 0,0029 0.0014 0.0006 D,DOm 0,0001
0,0001 0.0007 0,0034 0.0107 0.01540,0483 0,0764 0.1037 0,1132 0,1300 0.1135 0.1067 0.0844 0,0617 0,0419 0,0265 0.0157 0,0088 0,0046 0.0023 0,0011 0,0005 O,OOO:? 0,0001
560
A_Tables usuelles
TABLE
A.4 (suite)
LOI DE POISSON
ml;
Probubilits cumules P(X ::::; c)

c
III
e-"'k!
III
= 5,5
m = 6.0
1/1 =
6,5
J1l
7.Ol
7,5
111
= 8.0
8.5
III
9,0
III
9,5
0 1 2 3 4 5 6 7 8 9 10 Il 12 13 14 15 16 17 18 19 20 21 22 23 24
0.0041 0.0266 0,0884 0,1017 0,3575 0,5289 0,6860 0,8095 0.9044 0,9462 0.9747 0,9890 0,9955 0,9983 0.9994 0,9998 0.9999 1
0,0025 0.0174 0.0620 0,1512 0,2851 0,4457 0.6063 0,7440 0,8472 0,9161 0.9574 0,9799 0,9912 0,9964 0,9986 0,9995 0.9998 1
0,0015 0,0113 0,0430 0.1118 0.2237 0,3690 0.5265 0,6728 0,7916 0,8774 0.9332 0,9661 0.9840 0,9929 0,9970 0,9988 0,9996 0,9998
1
0,0009 0.0073 0.0196 0,0818 0,1730 0,3007 0.4497 0.5987 0,7191 0,8305 0,9015 0,9466 0,9730 0.9871 0.9943 0.9976 0.9990 0,9996 0,9999 1
0,0006 0,0047 0.0103 0,0591 0.1311 0,2414 0,3782 0,5246 0.6620 0,7764 0,8622 0,9208 0,9573 0,9784 0,9897 0,99540,9980 0,9992 0,9997 0,9999
1
0,0003 0.0030 0,0138 0.0424 0.0996 0,1912 0,3134 0.4530 0,5925 0,7166 0,8159 0,8881 0,9362 0.9658 0,9827 0,9918 0,9963 0,9984 0,9993 0.9997 0,9999
1
0,0002 0,0019 0,0093 0,0301 0,0746 0,1496 0,2562 0,3856 0,5231 0,6530 0,7634 0.8487 0,909\ 0.9486 0,9726 0,9862 0,9934 0,9970 9,9987 0.9995 0,9998 0.9999 1
0.0001 0,0012 0,0062 0,0211 0.0550 0.1157 0,2068 0.3239 0,4557 0,5874 0,7060 0,8030 0.8758 0,9261 0,9585 0,9780 0,9889 0,9947 0,9976 0,9989 0,9996 0.9998 0,9999
1
0.0001 0,0008 0.0042 0,0149 0,0403 0,0885 0,1649 0.2687 0.3918 0,5218 0,6453 0,7520 0,8364 0.8981 0,9400 0.9665 0,9823 0,9911 0.9957 0,9980 0,9991 0,9996 0,9998 0.9999
\
AIIIIIIIIiITables usuelles
561
TABLE
A.4 (suite)
LOI DE POISSON
Probabilits individuelles P(X

k
1Jl
,n
k)
e- m
15
III
ml;
k! 16
111
12
m= 13
111
14
11/
17
m=IS
0 1
.2
3 4 5 6 7 8 9
10 Il 12 13 14 15 16 17 18 19 20 21
T")
0,0005 0.0023 0.0076 0,0189 0,(l378 0.0631 0.0901 0.1126 0,1251 0,1251 0.1137 0.0948 0.0729
0.05~1
0,0347 0.0217 0.0128 0,0071 n.OD37 0,0019 n,DOO9 0,0004
23 14 25 16 27 28 29 30 31 32 33 34 35 36
n.nom o,noo 1
0.0002 0.0010 0.0037 0.0102 0,0124 0,0411 0.0646 0,0888 0.1085 0,1194 0.1194 0,1094 0.0926 0,0728 0,0534 0,0367 0.0237 0,0145 0.0084 0,0046 0.0024 0,0012 0,0006 OJ)003 0,0001
0.0001 0.0004 0.0018 O,()O53 0,0127 n.0255 0,0437 0.0655 0,0874 0.1048 0,1144 0,1144 0.1056 0,0905 0.0724 0.0543 0.0383 0.0255 0,0161 0.0097 0,0055
OJ)030
0.0016 0.0008 0.0004 n.0001 D.DOO 1
0.0002 O.OOOS 0.0027 0,0070 0,0152 0.0281 0,0457 0.0661 0,0859 0.1015 0.1099 D, 1099 0,1021 0.0885 0,0719 0.0550 0.0397 0,0272 0.0177 0.0109 OJ)065 0.0037 0.0020 0.0010 0.0005
o.onC}1
0.0001
D,nOO 1 0,0004 O,ClOI3 0,0037 0.OOS7 0,0174 0.0304 0.0473 0.0663 0.0844 0,0984 0,1060 0.1060 0,0989 0,0866 0.0713 0.0554 0.0409 0,()286 0.0191 0.0121 (LOO74 (LOO43 0.0024 n.oo 13 0.0007
o.nom
0.0002 0.0001
0.0002 0.0007 0.0019 0.0048 0.0104 0.0194 0.0324 0,0486 0,0663 0.0829 0.0956 0,1024 0,1024 0,0960 0,0847 0.0706 0.055R 0.0418 0.0299 0.0204 0.0133 0.0083 0,0050 0,0029 0.()OI6 0,0009 (l.()OO4 0.0002 0,0001 0.0001
0.0001 0,0003 n.oo 10 0.0026
n,nonn
0,0120 0,0213 0.0341 0.0496 0.0661 0,0814 0.0930 OJJ992 0.0992 0.0934 0,0830 0.0699 0.0559 0.0426 0.0310 0.0216 0.0144 0,(>091 0.0057 0.0034 0,0019 0.0010 0.0006 0.0003 0.0001 0.0001
n.nOO2 0.0005 0.0014 0,00340.0072 0.0135 0,0230 0,0356 0.0504 0,0658 0.0700 0.0906 0,0963 0,0963 0.0909 0,0814 0.0692 0.0560 0.0433 0,0320 0.0227 0.0154 0.0101 0,0063 0.0039 0.0023 0.0013 0.0007 OJJOD4 0.00D2 o.nOO]
(l.OOOI 0.0002 0.0007 0.0019 0.0042 0.0083 n.0150 0.0245 0.0368 0.0509 0.0655 0.0786 0.0884 0,0936 0.0936 0,0887 0,0798 0,0684 0,0560 OJ)438 0.0329 OJ)137 0.0164 n.OI09 0.0070 OJ)044 0.0026 n.oo 15 O.OOOg
o.noos
0.0002 0.0001 0.0001
562
A_Tables usuelles
TABLE
A.4 (suite et fin)
LOI DE POISSON
III;;
Probabilits cumules P(X :::; c)

C
c- III
/JI
k!
111
== 10
111=
Il
III
12
111
= 13
14-
111=15
16
11/=
17
III
== 18
0 1 2
3
4 5 6 7 8 9 10 II 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
0,0005 0,0028 0,0104 0,0293 0,0671 0.1302 0,2203 0,3329 0,4580 0,5831 0.6968 0,7916 0.8645 0,9166 0,9513 0,9730 0,9857 0,9928 0,9965 0,9984 0.9993 0,9997 0,9999 1
0.000:2 0,0012 0.0049 0,0151 0.0375 0,0786 0,1432 0,2320 0,3405 0,4599 0,5793 0,6887 0,7813 0,8541 0,9075 0,9442 0.9679 0,9824 0,9908 0,9954 0,9978 0,9990 0.9996 0,9999 1
0,000] 0,0005 0.0023 0,0076 0,0203 0,0458 0,0895 0,1550 0.2424 0,3472 0,4616 0,5760 0.6816 0,7721 0,8445 0,8988 0,9371 0,9626 0,9787 0,9884 0,9939 0,9969 0,9985 0,9993 0.9997 0,9999 1
0,0001 0.0010 0,0037 0,0107 0,0259 0.0540 0,0997 0,1658 0,2517 0,3532 0.4631 0,5730 0,6751 0,7636 0,8355 0,8905 0,9302 0,9574 0,9751 0,9860 0,9925 0,9962 0,9982 0,9992 0,9997 0,9999 1
0,0001 0,0005 0,0018 0,0055 0.0142 0,0316 0,0620 0,1093 0,1756 0,2600 0,35840.4644 0,5704 0,6693 0,7559 0,8272 0,8826 0,9235 0,9521 0.9712 0,9833 0.9907 0,9950 0,9974 0,9987 0,9994 0,9997 0.9999 1
0,0002 0,0009 0,0028 0,0076 0,0180 0,0374 0,0698 0,1184 0,[847 0.2676 0,3622 0,4656 0,5680 0,6640 0,7487 0,8193 0,8751 0,9169 0.9468 0.9672 0,9805 0,9888 0,9938 0,9967 0,9983 0,9992 0,9996 0,9998 0,9999 1
0,0001 0,0004 0,0014 0,0040 0,0100 0,0220 0,0433 0,0774 0,1270 0,1931 0,2745 0,3675 0.4667 0,5659 0,6593 0.7423 0,8122 0,8681 0,9107 0,9617 0.9633 0,9777 0,9869 0.9926 0,9960 0,9979 0,9989 0,9995 0,9998 0,9999 1
0,0002 0,0007 OJ)021 0,0054 0,0126 0,0261 0,0491 0,0847 0,1350 0,2009 0.2808 0,3714 0,4677 0,5440 0,6550 0,7363 0,8055 0,8615 0,9048 0,9367 0.9593 0,9748 0,9848 0,9912 0,9950 0,9973 0,9986 0,9993 0,9996 0,9998 0,9999 1
0.0001 0,0003 0.0010 0,0029 0.0071 0,0154 0,0304 0,0549 0,0917 0,1426 0,208i 0.2867 0,3750 0,4686 0,5622 0,6509 0,7307 0,7991 0,8551 0.8989 0,93l3 0,9554 0.9718 0.9827 0.9897 0,9941 0,9967 0,9982 0,9990 0,9995 0.9998 0,9999 1
A 1IIIIIIII Tables usuelles
563
TABLE
A.S FONCTION DE REPARTITION DE LA LOI NORMALE (Probabilit de trouver une valeur infrieure Il)
RDUITE
li
0,00 0.5000 0,5398 0,5793 0,6179 0.6554 0,6915 0.7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0.9554 0,9641 0,9713 0,9772 0.9821 0.9861 0.9893 0.9918 0,9938 0,9953 0,9965 0,9974 0,9981
0.01 0,5040 0,5438 0,5832 0,6217 0,6591 0.6950 0,7290 0,7611 0.7910 0,8186 0,8438 0,8665 0.8869 0,9049 0,9207 0.9345 0,9463 0,9564 0,9649 0,9719 0.9779 0,9826 0,9864 0,9896 0,9920 0,9940 0.9955 0,9966 0.9975 0,9982
0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,82\2
0,8461 0,8686
0.03 0,5120 0,5517 0.5910 0,6293 0,6664 0,70l9 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0.9370 0,9484 0.9582 0,9664 0,9732 0,9788 0.9834 0,9871 0.9901 0,9925 0,9943 0,9957 0.9968 0,9977 0,9983
0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838
0,9875
0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0.7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0.9978 0,9984
0,06 0,5239 0,5636 0.6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0.8554 0,8770 0,8962 0,9131 0.9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0.9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985
Il
0,07 0.5279 0,5675 0,6064 0,6443 0,6808 0,7157 0.7486 0,7794 0,8078
0,8340
0.08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106
0,8365
0,09 0.5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0.9916 0,9936 0.9952 0,9964 0.9974 0,9981 0,9986
0,0 0,1 0,2 0,3
OA
0.5 0,6
0.7
0,8 0,9
1,0
0.8577
0,8790
LI
1.2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2.5 2,6 2.7 2,8 2,9
0.8888 0,9066 0.9222 0,9357 0,9474 0,9573 0.9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982
0,8980 0,9147 0.9292 0,9418 0,9525 0.9616 0,9693 0,9756 0,9808 0.9850 0,9884 0.9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985
0,8599 0,8810 0,8997 0,9162 0.9306 0,9429 0,9535 0.9625 0,9699 0,9761 0,9812 0,9854 0,9887 0.9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986
0,9904 0,9927 0,9945 0.9959 0,9969 0,9977 0,9984
Table pour les grandes valeurs de

Il
3,0
3, J
3.1
0.999
3,4
3,5
0,99976
3,6
0.999841
3.8 0.999918
4,0
4.5
F(u)
0.99865 0.91)904
0.99966
0.999968 0,999997
TABLE
A.5 bis
FRACTILES DE LA LOI NORMALE RDUITE
p
(J.OO D,DI 0,01
0.000 2,3263 2,0537 l,fiflOll 1.7j07 L6-1-19 155-18 1,-1758 1,-1051 1,3-108 1,'2816 1,2265 1.1750 L l,
0,001 3,01:102 2.290-\ 2m35 I,Sn63 1.7392 1,6352 15-1n-1 1.-IfiR-I 1.398-1 1.33-16 1.2759 1,2212 1.1700 l.I217 ].0758 1,(1312 O.
(J,002 2,8782 2.2571 2,01-11 1,85:::2 1.7279 1.6258 1.53lt! IA6I1 1,3917 1,3185 1,2702 1,2160 1,1650 1,1170 1,07 !.~ 1,0279 0.9863 n.9463 0.9078 1.1.8705 0.83-l5 0.7995 0,7655 0.7313 0,6<)99 O,6fJ82 0.6372 0,6068 0,5769 0.5-176 0.5187 OA902 0,1621 OA3-1-1
0,-1070
().OO}
O,UO-l 2.6521 2,1973 1,977-1 1,8250 1.7060
0,005
O,OOU
O.D07 2.4573 2,1201 1,9268 1,7BM Ui7-17 1.5805 1,-19B5 1.-1255 1,3595 1.298H 1,2C.n
0,008 2.4089 2'()9fJ9 1.9110 1.77-1-1 1.66-16 1.571R I.-II){)<) 1,-1187 U532 1.11J30 1.23n 1.1850 1.1359 I,OH!)3 1Jl.j.5n 1,0017 0.%21 0.9230 0.885.1 0.8-188
OJ)09
OJ13
(1.0-1
OJI5 0.06 0,07 0,08 0.U9
(J,ID
0.11 0,11 0.13 0, I~ 0,15 0.16 1)J7 0.18 0.19 0,20 0,21 0,22 0.23 0,2-1 0.::25 0.2/J 0,17
2.7-178 2.2262 1,( 1 )5-1 1,838-1 1.7169 1.616-1 15301 1,..1.538 US52 1,3225 1,26-16 1.1107 1,1601 1.1123 1.06fiQ
t.
1 1,-1-166 1.37H7 J.J 165 1.259) 1.2055 1.1552 1.1077 l,
2,5758 2,1701 1.9600 1,8119 1,695-1 1.5982 1.51-11 1.-1395 1.3722 UI06 1.2536 1,200-1 1.IS03 1.1031 1.(15f{1 1.0152 0,9711 0,93-16 0.8%5 0,8596 0.8239 0.7892 0.755-1 n.7225 0.0903 n.65SB 0.62RO 0.5978 ().5()~ 1 0531:18 05101 0,1817 0.4538 0.-1261 n,39RIJ 0,3719 0.3-151 O.31Rri 0,292-1 0.2663 0.1-10-1 (J.11-17 0,1891 0.1637 0,1383 0,1130 O,()S78
OJ)627
2.5121 2,1-1-1-1 1,9-131 1.7991 1Ji8-19 1.5893 Ij063 1.-1325 1.3658 1.3047 1.2-181 1.1952 1,1-155 IJ)9S5 l,nS}7
1.1 90 1
1,1-107 I,093!) UWJ4 l,
2,3(i56 2,07-\lJ I,K957 1.762..11.65-1 ri 1.5632 IA833 1,4IIS 1,3469 1.2873 1,2319 1.1800 1.l311 I.OR-IR 1,0-107 0,9986
O,95RI
2,326~
2.053i l.fl80B 1.7507 1.6-1-19 1.55-1H 1...1751\ 1,..1051 1.3-108 1.1816 1.2265 1.1750 1.126\ I.OS03
I.rnfl-l
om
0,96 0.95 0,9-1 0.93 D.Y2 0.91 0,90 0,89 (UlS 0.87
0,99 0.91:\
n.sc,
o.
n.
l.
L
0, O. 0,
o.
omOi
1,01 !O
o.
O. O.
O. O.
O. O. 0.7688 0,7356 0,7031
D.
O.
0, 0, 0.7621 0,7290 0,6%7
O.
O. O. 0.7588 0.7257 O.6!)35
0,7722 0.7388 0.7[)6] 0.67-15 0,6-133 0.6128 0.5828 0.553-1 n.52-l-1 0,4959 OA677 0,-1399 0.-1125 0,3853 0,3585 0,3319
n.28
0.29 n.30 0.31 0.32 0.33 (),J-1 0,35 0.36 0,37
O,3R
0,6713 O.fJ-I03 O.60t)R n.5799 0.5505 Il,5215 O.-l1)30 0.-16-19 0.-1372 O,-I()97 0,3826 0,3558 0.3292 0..1029 0.1767 0,1508 O. O.
0.6651 n.63-11 O.fi()jR 0.5740 0.5-1-16 n.SI5R 0,-11)74 0..1593 0.-13 Hi 0,-10-13 0.3772 0,3505 (l,3239 0.2976 0.2715 6 H 2 7 -1
0.3055
tJ.::!793 :1
0.39 OAO OAI OA1 0.-13 0.-1-1 OA5 0,-16 O,-l7 0,-18 0.19
<U791J 0.3531 OJ2M 0.3002 0,27-11 0.2
0.6620 0.6311 0.6008 0,5710 0,5-117 O,:i129 O...JR-l5 0.-1565 0.4289 O,.JOI6 O,J7-l5 0,3478 0,3213 0.1950 0,2689
0.9307 0,8927 0,8560 O,R20-1 0,7858 0.7521 0.7192 0.6871 0,6557 0.6250 O.59-1R n.5n;1 0,5359 0.5072 O,-l7S()
O.
0.9191 O. O.
0.9915 O. O. O. O.
o.
0,
n.sni
0,7790 O.7..J51 0.7128
n.
O.
O. O. O.lh..J. 0.6158 n.5R5!! 0.5563 0.5273 OA987 0.-\705 0.-1-127 0.-1152 0,3880 0,3(,11 0.33-15 n.30S 1 n.2f\llJ
o.
O. 0, O. O. O. 6..D3 O,bl28 0.5B28 (lj53-l 0,52-1-1
O.
o.
o,mo
0..1134 0.3961 0.3692 0,3125 0,3160 O.2H0R 0.2637 0.2378 0,2121 0,1866 0,1611
0.6S-10 0.6526 0,6219 n.591R n.5622 0.5330 0.50-l-l O.-17hl 0.-1-182 0..1207 0.393-1
n.MOR 0.6195 0,6189 O.5f!KR O.55<J2 0.530::: 0.5015 0.-1733 0,-1-154 0..1179 0,3907
0.3638 0.3372 0,3107 O.2fl-l5 0.2585
0.-1959 O.-I77 O,.J399 OAI25 O.3H53 0.3585 0,3319 IU055 0.1793
0,85 0,840,83 0.82 0.81 O.SO 0.79 0.78 0.77 0,76 0.75 n.71 0.73 0,12 0,71 0.70 0.69 n,6S n.7 0,66 0,65
(},6-1
0.63 0.62 [J.ul 0.60
n. n.
O. O. 0, O,()-I76 0,0226
O.
O.
9
7 6 0.0175 0.008 0.007 0.0150
0,006
O. O.
O.
(J,
0,0376 (J,DI 25 D,005
(JJlO9
Grandes valeurs de
1/
O,LJ999999
0.99999999 5.6120
0.999999999
5,LJLJ78
5.1993
N.Il, Si P < 0.5.
Il
est ngatif.
TABLE
A.6
FRACTILES DE LA LOI DU
X2.
l! NOMBRE DE DEGRS DE LIBERT
o
O.oow
O,t){MlntMI.W3
1
(I.~O
O,IIU511
O,t~M)o39J
0.010
O,():!5f1
O,(HJO'lH2 O.U50h tI,:!!!) U,.IR.'
n.IOI 1,237 l,mil 2,1/l0 2,7(HI
O.lltI~
0.H1
Il.UI5t1 n,:! 1 1
(),5H~
jUil
(1.50
O,hI) 1 n,70
H,IOII 1,m.1
1).'11)
1 11.951l 1 O,'J7S!! 1 Il.'1'l1) 1 0.')<)50 1 Il,1)')90

J.H41 1 5,024 5.'}!) 1 7.:l7U
7,HIS
'J,4ilii
tI,IH1HHl (I,OlS3
tI,lllOUI57 Il,O(J:!(Jtl
tI,U~.1J
tI,or"N
0,15/1 0,1'1'1 O,.\H5
O,tl'JOK
0,210 O,3ill
0.11100 Il,11717 U,:!1l7

Il,,112 Il,(,76 O,9H'J I,H.j
n,molS7 O,OltH
n.115 O,!'J7
0.103 0.:152
n.IlC,!:! 0,.1.111
n.i4H n.1I)
1,.1::'.1
0,275 1.022
l,nos
I,(H')
2,J~J
1.1169
=',75]
nA55 l,)tH, 2,J6
1.113.1
2,9~()
,1,(~15
2AtlK
J.665
3.!I"
.j,(..!~
2.70h .1.1,115
h,'251
Il,71!
1.1~5
I,Ofl4
JJ57 .1.J51
S.J,HI
fI,3lf,
-I,!l71l
b,llI..! 7.Z31 !l,3HJ 'J,;;::'.I 10,(,56
S,lJl!'J
7,779 9.231;
lU.MS
hJd517'B7'J I),~ lU ill.S"J7 11.).15 1~,~.l1i 13.177 1,I,I1hll

15,!i!lh
10,11111
13,HII,
l(i.~b6
12,11(1 15,2t12
17,7JO
l').'J9g
IH,Hi?
l.oJ5
2.1(,7
2.73]
3,325
n,710
O,H57 1,I5J
1,,17') UI3,I 2,211 2,617 3.11.11
3,~H3
!,fJ-I(,
U,IO 2.::!!l4 1,HJJ 3 ..\'11)

.I,lflH
J,071l
J.H:!~
J,IlO(J 3,H!1I
~,671
3,655
.I,571l
5,.11J3
b .j:!3
5.IJ1
7.2ti'J
S,55/!
~,H()J
1;,211
1,2!U 9..11-1 IUA7)
Il,5](1
1~.5R1
1.735
~,I~(.
l,OIl!!
-1,5'11 5,JII0 6,17') h.!)!!'}
5.527
,3'H
7.~h7
7,3-1.1
tI,JB
I).J~:!
II.!lJO
J2,:!,I:!
12,017 lJ.Jb2
1.1,f,H.1 15.')H7
7.357
Ii,ll); '),237 IO,! H2 11.1:9 12,117'J \3.UJO IJ,'l!LI 1.I.'J37 15.IlIB 1(j,B5!) 17,HO() IK,7(,l! ILJ,721) 10,(0'10 ::!.I,65:
1~.51)2 Il.1..1.11) 14.067 lb,nl) 15.507 17 ..:iJ5 1("li 19 1'J,Il:!J
16,KI::!
Hi,475
ln,IN()
~I,r,tJh
!f1.751l lil,5lll lU,:!7/! 21.955 2],581)

25.1 HH
:0515
22,.\5K
1.I,]:!:'
2h,L!:'i
:!2.lU5
2.j.HlJ 21"Dlil ::!7,!l(,il 2'),(,116
JI.-I19
27.1177 2!J.5!!6 31,264 3::!,l){)'1

J.l,52H ](',123
1,(,03 ),074
:!5SH 3.1153 3,571

I,lU7
4,f.htl
J.2.j7
J,HI(.
3.'J41l
,1.fI(';
11.7t1l
1~,!ll)'J
.1,575
5.:!~('
5.5711
(i,3{~1
H,HI!
IIl,J.11
11,3~U
13,4.12 l-l,(>] 1
IS,HI! Il,,'1H5
,1,,101
5.1~)<l
7,!l07
3,5115 .I,m5
.J,6tH
5,629
('1:!(':! (,,,)UH
S.HiE Il.571
1).03-4 9,'J1(' Hl.H:!1
12,l1()
13,~3'!
13,/136 11,f,H;i
14,011 15.119
1(,,2:.'~
17.!75 IIl,5")
l 'J,t! 12
16,15121.06-1
1'J,3ll 211.,1('5 21,(115 22,760 23,'1{)1) 25.031\ 26.171 l7JOI 211,.12" !'J.55J
~2.Jtl7
Ill.JIl1 1Y,li75 21,026 21,3(,2 :2J.bHS

21.9"(, ::'h.:!lJh
~7,5li7
:!O,.l!!J
:.'.1.:09
21.')21)
n ..l.16
2.1, ?Jf,
:!-l.115 2h,:! 17
~7,fJIIH
2(,.757 l!UIlO
29,1111) JI,JI'I
33.13[, JI.I!:!I
Jri,171l
3H,I(~)
2(0.11'1 27,lIlIl
2It,B.IS JtJ.I'/1
21).1~1
5,229
7,2111
7,%'2 Il,f,72 'I.J'IU 111,117
1'1
3,5)(. .1 ,'1 IHl 4.-13'1 ,1,1)12

5.J'J!! 5,i\IJ(.
3,').12 1.111,
,I,1)()5
.5.1';2 S.ft1J7
(,1 1(15
7.SfI1
Il,231
7,63J
1I.2bO
! 1.72\ 12,(.2j 1.1,5JI 1.1.1.\11

15--';~
1~.3J'1
15,nU 17,33R 18.3311 IIj.JJ7 ::'0.3J7 21,J.17 22.H7 2J,JJ7
15,733 1(j.7HI1
17,.122 IH,I!!i
2J,512
!7.fi21
1lI,IIClfi 1'J,91O
~U.1}51
1'I,5! 1
:?JI,(,1l1 ::'.IJ.II" 22.775 23.655
2~.'131j
2.\,7(1)
:!5.'lli1j
~1.2n.1
5,.107
6.H';-l
Il.'IU7 'J.S'II 1O.'2!l] W,'JH2

1l,6HII
2i\.!WJ J(I.II-I 31,.(11)
31.52(.
J~,li52
,1I).j71l J::'.IlUO D,.IO') :;.I,!ltJ5

~(),I'JI
.11.11111 3.j,:!ti7 35,71 R 37.15(, J8.582

JI.l.997 .11,101 ,12,7%
J7,(m .\11.251
,IO'?'JI) .12,]1:! U.!!:!U
J'J,711)
-lIJU~
-l2.S7"
.I.I.HI
.15,'17J 47,4')11
50,511
211 11
5.'121
6;1-17
7.\3-1
II,OH
!1,1l-\)
(l.,I05 1J
~,I
h,If:!.1 7,.153
1i.'I1D 7.5:!,}
9,260 !J,tlHG
H,H'J7 '),5.12 111.1% lU,H56
12.401
11.591 12.J3H D.O'l1 13,11,111
1-l,H.J!l
15,(15'1
IIl.U(,::!
10,2(,(. 17,1112 ItI.IOI 1'1,021 l'I,I}.j)
2 I.I}') 1 :!J.O) 1 2I,llf,'1 25.106
2'"IlIR 27.11%
:!It,.ll! 2'1,(115 )0,81.1 n,Ill17 D,I%
31,671
.Llm1 J5.17:! Jh,.\15
J.I,170 J5A7LJ .1f,,7HI JH.07(j

39,J/~
J7.56" )!i,1J32
10,211'1 1I.(>3H
~2,~HO
.\5..115
.j(i.71)7
.j,UIH .15,551;
.IH.2fJH 1'),1211
51.17'/
52,mu 53,.11'1
TABLE
l'
Il,mUSII
A.6 (suite)
Xl.
V NOMBRE
DE DEGRES DE LIBERT
O,HO
Il.'m
n.mw
Il,fl19
~,:!:!1
Il.Utl5tl
U.OIO
Il ,::~-l
Il,0250
lun
IH.'!H) 1'.I,tI:!.O
~I),7()3
oJn 1 OAO
::!(UII,7 22.tlH,
n,
:!-I.
1 Il,'/51) Il),'175U
1 0,'1'10 1 O,'I'!~f)
1 0.')11<10
1 O,'J'I'J511
5.\,9..\7 .'i(,,11)7
57,~5H
2S
2(,
7.'1'11
11,5:;1l
'J,(~J3
12.19U IUU)!! 12,161 13.111 1J.7U7

l-l,-ISH
12.1l79
1.I.11il 13.11-1-1
1.1.57J 15 ..ltlil lb,O.\7
Ih,7'JI
JO,Ii7 51 ,i.1.Jtl1
.11,7')5 35,5f1J
21.792
n,71IJ 23,(,.17
23.579
21,5.1.1 25.511'1
25,
:!C,.
ln'hS:! JI\,!lil5
IO,IU
.1I),I . lh
-l1.'12J
,11.'1.'
.\5,(>12 .\h.'JhJ
.1!l.!7!1 ..\'I,5/iH
I(,.'!!K
52,h20
5I,05! :iS,m,
56.:W~
.111.2(11)
.11),t~15
27
:lII,HI
:'I7,9Ih
Jt..25n
37,359
2li 1')
J(I
'I.t.5h lO,:!27
W,HO.I
lUI!')
W..l91
W.')Il(,
1J,5r,s
1-1.156
21.5B!!
22 175
27,
li!,
11.337
.12.557 -13,773 .1-I.'mS .1r.,I'J.;
2-1.577 25.508
~C,,.I,IO
2bA75 27,.1-12 :!K,.IO')

29,376
,LI.I'I.I .1,1,.lbl .-I5,n2
50.'1''-1
52,,\)C,
51,(,72
55,tHIJ 5n.3l!!
5Il,:IU!
31
3!
3~
J.I
35
)fl
Il,979 12,57C, 13,17'.1

13,7H!! ],\.-101 15,0:'.0 IS,M.' 1(',273
II.SHII 12.19t, 12,HII IJ.131 1-1.057

1-1.6HH 15.J11 15,%5 16,(011
15.13,1 15.H15 16.5UI
11.'15J 15,(,55 Ird62 n.O?) 17,711')

IH,5n'.l
l7,53" 111,1')1
1'1,0.\7
1",2!!1
11..13-1
2~.271
:23,36..\ 21,255
1j,I.I~
m,2S(,
41,.\22
.1!,5H5
-th,'H')
.IH,D~
50.!!'!!
52.I'JI
5'1,111'\
Ill,lJ'lil fI!,1!!7
(,~,I,I
6},S!!:!
10,lm
:!O,Hfl7 21,()(;.\
27,373
:lII,IIIe.
.1'1,.1110
5J,..lUf,
r,.I.'}')5
(,(",102
13,110
~fl,I~I!
~b.').1H
1l\,Jm
:'.9,~12
l'),HIIC,
:m,5(") 1I,:W,
23,952
1~,7'l7
.1(1,.11-1 J I.J IJ 32,21l2 D,:"52

J.I.222
1 l2J3tJ
JJ,JJ(,
,1.1,.131> 35,336 36.3:,6 .17.3.15 3t!,335
J'),572
,10,67(,
,13.1,15
+1,90)
1
,17,4(X)
.\H,O:'.
jO.7!5
51,%h
H77h 56,Ofol
,';7.312
,'i1i,(,I')
57.6-111 5H.%.1
101),275
ftJ,H711 (,5,217
M',illl)
f,7,li03
W,l'!!\
70,~H~
17.lll2 17,IIH7
11I.51lf,
11 ..lfl5
1'J,23J
1'l,IJf>O 211,691
J7 JU
~I)
:!2.10l,
17.2(,1 mJll
1'J.289 19.9%
::0.707
~1.-I21
11.871\
1),{.51
13,2119 21,075 lI,IIHl

15,(0'15
15,tHJ
~(".I'n
27,1\3/, 2H,735
!1).{,]5
.10,171\ J 1,115
n,OS]
41,771!
~fl,(J5') 1 ~~.lI02 -17,212 50,9')H
5J,1f1.1
51,.1.11
tol,5KI
1,!,BiU
.IS,)(,3
51,1'n
53,3H.1
5~,572
55/,(,11
5(1.11')5 :H.120
.27,31)
JU.5J7
21...\21'
2!1,1%
31.-1"
32.9<.12 JJ.'IJ:!
35,192 J(,,1I,J
S'J,K'12 (oI,l(,!
(,2A!H
67,')H5 II'I,.W,
71.'m
73)51 7.1,725 71i,m5
rH,li!!
1,~A7()
70,703
n.055
7,1,7.15
7(,,011.'
17,51.\ .12
22,Ihl 12,'IDC,
13,(.jll
21.,13J
15,215 25,t}fJl) 26,71i5
2f>.5I 1 1'),051 1 32.3-15 33.251

3~.I57
37.1.1 ..
1 .W,335
-10,3)5
55,7511
1 S~,jt:! 1 Il.l,(oI) 1 1 6,7hl' 1 73 "102

W.561 Il 1.777
11-1.'15(1
51,,9-11
P).:!J!!
HI,liJ2
l'J,I)n5
22.1311
22,1!5'1 23.5K.1
5B,114
l,fI,ll1ft
flH,053 h'J,3Jh
77,15'1
7U,IEU
u
-1-1
IIJ,Hl2
:!O,lJ6 211,7f},\ 21.,15(, 11,121 21.711'J
21l.57('
21.2.51 li,'}:") 11,(,10
2.1,3\111 3,1.111 25,1)01 2fJ.b57 27Alh

2H,I77 :!K.').ll
17.575
2!l.Jb6 29.lbO
JS,Oh5 35,IJ7.1
Hn,17f>
1l1.5Z8
-15 .If> .17

.Ill
~')
2J,21J5 1J,<JU]
:'.1,]11 25.011 25,nl 26,511

27.2-19
21),'JSr,
30,755 31,555
31.IJ9 3:!.2f>1\
JJ,II'J!!
31.215
JS.II
J(',IiS1 37,7')5
]tI,71l/i
,1-1,335
15,335
-13'9'12 1-1II.3J5 -12,110 -1.\,915 .17,33.5 -13,J1o(, 1-I5.1lll'l .HI.JJ5
35,')-1 1)
J().~ltI
:Hmo
39,621 -10,5J.\
TABLE
A.6 (suite)
0.10
0."0
FRACTILES DE LA LOI DU X2, V NOMBRE DE DEGRS DE LIBERT

IlJIl
O,~11
)Z
"
tl,OU()50
n,unI(}
~.1.(,7~
f),(lll50
fl.flHI
0,0150
.12,357 B,I6::! JJ,%H J.I,77f1
fW~1)
fI,50
Il.611
O,O
O,HO
5a,I/,~
0.90 63.1(,7
(,~,1i)5
O.'l51l
(1.'1750
7I,I!1I n,61(, 7J.1i1ll
H.IMI;!
n,'l'lO
7(',151 77,:1116 7!1,(II/, 7'I.H.n Il l ,UIII)
1I1.!'!l
(),I)'150
fI.'N'JO llti.61 ii7.%1i Il'),!?! 90,57:1 1!l,S7:! 9.1,lh7 1).1,.I(i> '15,751
0.'I'N50 li'l.S(o! 1)f),11I17 IJ!.!II 'n53:!
50 51
51 5.1 5.l
:23 ..1(,1
~.I.I3{,
17,'1'11
~Il,735
::!9,~H!
25,Jf,1I
2/t,!}(,S
2.1,111.1 15..1 1 )5 11>.179 1/"H(,6 27,55(,

:W,!~H
2f,.7(,5 27,.1611 2l!,17.l 2Jl,BUI

!~J.51}:l JI)J\)~
.10.230
.10.'lKI JI,7JS :12,.1'111 n,:!'!!! '.l,OOl!
~.f.771
1'I.Il7 _IO,.l75 .1 l ,:!.IIJ 3::.11111

J~,7'JJ
35,511(,
.1 (,,J 'Hi
37.112 3ft,II:!7 JII,K.14
]1),0(,2
3.l,7/,.l J5,wn 36,-1J7 J7,Z7f, Jll,llf,

JH,IJ51\
J'l,HU!
.H,6B'I
4I.-1l'J
311.5W
nln
JOJOS Jl,llI)
.l~,()(,(l
-12,3(15 -D.:!!II
-IJ.191)
.!-I.JI3 .15,!(,1
M"Hfl.;
,Ih,ln')
-17,157 ..\H,lIli,
~9,1J5(,
-405,117
Jh.036
.17,HJ/l .III,flU ,l'J,7111l 51l,7h.1 51,7)IJ 52,715 53.691 5J,6(j7
.111,335 50,D5 51,D5 5:!,Wi SJ.JJ5 51,:135

55,335
.s1.8'11 51,917 53.'141

5~.%7
55,992
57.1I1/! 5H.Il1O
5'I,Il("(
j.I,n3 55,775 56,lt!? 57,1\79 5H,'J30 51 ).%0 IlI.nJ! (,2,0I11l

/,J,12'J
<i7,505
6H,bh'I
S'),;!lll
hO,JJ:'
5,.1~2
/il"I1.1
(,I,.II)(,
(,(,.5.111 67.h7J (,H,79/>

o'),~IJ!
11'1,:1.11 70,IJ'IJ 71,15) 73.311 71 .1(,11 75.(,21 76.7?H 77,9JI 7'I,Oli:?' ftO,:!.I1 HIJHI !l2,5llJ !0.(,75
7("I')!
7'1,.I'JO HO,7.t7 IC,OUl R.1,;!,';) 1(.1.501 Ji5,7.1')

HfI,')II-!
')-1.11-1'1
%,I(d
55
Sh 57 Sil 5')
D,57() ).I.J5D
-15.131
.Il,'})7
IJ,UUI
.I{,.9;5
.17,1(7(, ,!Il,7 1 17 1'),7IU
SO,fI';l
21l,')1J 2'),(,-HI
35,'11)
36,(1'.lB
J7,~1\5
31.021
40,[Ht. Jl,192 J2,3J'I
I-!,fll)(,
15,577
.j().J5 1 ' -I7,J-l:!
50,005 50,'1511 51,9Of, 5:!.1!57

5J,IU~}
foJ,.:77 6-1,6511
(,s.n7
h/"HIII h7,H').1
nO-Hl
72,lilO
5:;,1"0
57..1.15 51!,3):59J35
flO,JJ5
(,(J,wm
hl,II1
fo.I,171!
(.5~::'2(,
IJ,Z7'1 7'.JI17 75,51.J 7(,.hJO 77,715 '!H,!l1lO
77,JRIl 711.5h7 7'J,752 liu,'1.'1I, K!,117

I!J,~IJ!I
lIJ.SU !lJ.7D 115-')5n 117.l/lh

HI!.)7 1 )
HIJ,5'1I
Hi1.23(, fi9,177 '/1),715 'JI,95;! ')).IRft ').1,.11')

')5.h~1)
'17..175 'IH,7H.1
'17,0::1'1
')iU~~
lOomo
IOI,W.I
1O~,W5
roll
hl il!
(,.1
6.1 f.5
6/,
.10.J.1(I 3I,!I.l) 3I,7.U! 3:!,-155 33,165
.1 !.7J'1
J1,-IW
.15.535 Jo.JIIl
37,!)(JfI
37,H~H
.1Il.-IH:!
U,llit!
.M.n)!! 11 ,lUi\) ,15,7.\1
4h.5~5
5(.,WIl
57.51)7 SM,57.1 5'1.55! 60.5211
fi l,SUI>
6:!,~H1
61.135
6.1,15H 1>4.11.11 (,5.2[n
tI6.!:!rJ
foU,'n:,
711.1).11)
71,1~5
JIi.~7J
D,llIl
D,'}lIh
,~,(l33
39,0(1)
~'I.Hj5
1 l ,311J 12,1:!(, .12.'150
-l1l,2:?fJ
.19,111
~~,I)'J(,
] I!,ft! 0 J'l,JIU
.IO.!5i\
.Hl,!,.I'!
-11,~,I1
n.771>
.!.I.llm ..\5,J.1I Je,,;!61 .I7.11'J2 "\7.')1,1 411,75!! .1().5n
50,.1~1I
515(,-1 5~ ..Un 53.-111 5,I.JJh 55 ..::!tJ2
5,1.7rll
5S.71~
51>,61lb
57,fil'l 5K,573
(,1.335 (,:!.JJ5 bJ,JH
611,17.1 67.J1! I,R,JI>'! (,1),,116 70.4h2 7 un!!

7~.551
7:!,!OI 73.171,
7~_351
R5,65.1 Hr..R;l1l IIH,OI),I
'IU,Hlll ')1.010 1)},217

9~.-I!!
9.5,tJ~fI
%,878 'Ja,1U5
1)1}.607 100. Kilt, Hl2,IIIII 1(1.'1,1.12 104,716

W5.'lHH 107 ..::!5H
IO:15~5
!I~),7'JI
11)3,'1'13
WS,!!!'! W6,5!l1 107_il7'
1Ol).I(,~
JJ.I177 _H.5'JI
117 (,II
fol)
J5J1J7
)h.II~5
J5.3112 Jfi.fl'l3 J(',1I2/,
.l2,:!~O
.\7.561
3'),n.lh 39,777 -10,520 ,11.2/01 J:?.IIlU
.IU,'J3S .lUI3
..t 2 ,..t 9":
3[1.7.15
.'17,-1(,7
13,11311 ,13,1!3R .1..\ AN
.17,,150 .IK,JU; "\'1.1(,2 50.0Z\) SIl,!(71) 51,7)'1

5~,IlUU
50.1\10 51,770 51,fI:;')

5:;,5~K
(j.I,:1J5
(05.335 (,b,].15 (i7.33-1
(,JI,DI
5rdHH
57.115
5t\.U..\2
:i'J,517
(,II . UII (,I,.lJ(,
it:!.J'IJ
h3.J~h
5.1,nH 55,)2'1 511,::!:?1 57,IU 511,(Jllh Sil,'IOU

---
5H.1J70
59,H911
h3.-IM h.l,\1II (05,.IIH ilh,Jl)(1 ti7.J75 (,11,.153

W.J3~
h7.2-!(] hl!,271 ht),1 l J'; 70..115 71.3)7
7'J."'7J
III,Ollfl
1\~,l'n
lW,I77
1\7.103 111\.250 Il'I,J'J1 1)(1.531 ')1.670
')2,IIIl~
73.6IH)
7~.~5
75.115 710,.1'111 77,571
IC\.:lOil
711,[,13
7'1,715 fill,7Hr, fll,!!57 HZ,9!7 113,9'17
g.".1II1
115.527 lIh.ldS H7,7.1J 1111,11511
'111,3!9 'lI,Sl'i 'J:?JJI!8 1)),11511 ')5.02.1 W',III'I '17 ..15.1 911,51(, 'J'J,f,7H
1)l),:nu
IO().55~
%,1!2/l
'JH,IJ~!!
'N,:::!7
IIIO,J25 101,(,21
1O~.III(O
101,7711 IU!,')')(I
1O~.215
1()5,~J:'
IIl,U55 111.317 Il.1,577 11I,!l)5 1 1(',m 1 117.3-16
1111.151 111.735 1 iJ,O!H 111,2'JI) 115,577 116.115.1
711 71 T!
.n.::m
-I.I,USK
~,HU
~H,~')
.15A-l1
.I/,.~-16
W,_UI
72,3511
7J.31!O
7~,-I()1
.111.191
311,9111 J'I,h-lf, 10,376
7J
71
1(,.-117
-17.1151 -I7,!lS8 .IR.(o(,fl
53,1(,:'
j.I,J~5
60,H!7 bl.75b
(,),(,1(,
6-1,3 Il!
115.:!5K
51.165
52. Hl)
55.!!l'!
(,(~I~ 67.1711
70.311
71),.1.11 71,33-1 n.]).1 13,33-1
75.hll'l 76,131
77,7711
7H.H12 'UII,5
1Il(,,(,.1!l
7S"I~~
'U.'J15
'15Ji!l1
104.0111
HI:'i,~n1
7f1.-11J
107,11(,2 10'1,01..\
120,i,7J
""""1
1l'JAn:!
TABLE
A.6 (suite et
O,Hl
5'J,7'15
030
X2
11 NOMBRE DE DEGRS DE LIBERT

0,70
lUlU
0.')(1
(I.~50
IUI2..'iO 1 Il.050
11.:>0
(...1,5-17 fi5.-I7H (,(, .. I(~). (,7.3-1\ tiR,n1
r.9,1!l7
70.1~()
0.-10
71,1'10
Il.511
(I,(~I
(l.'HSU
lOo.a}'! 1I11.'!')'J
Il. INO
O.I)~5()
n,'}')'150
52.'14:!
56,05! 56.'120 57.7116 511,(,51 j'J,522
IIH,I17
1 74,3.11
7(, 77
7~
7~
13.50(,
.1:2,57(, .13,JI:I -lI.U51
4-1.7 f)l
.'.1,157
15.010
-I5.7(~1
1'1,582 50,37/0 51,17! 51.%9 52.7(.7
50'286153'782 51,(1'17 5I.23 51.'110 55.46{1 5:!,7!5 56.31~)

53,5-10
61l.6~O /j I.5H(, 62.-11U ,,3.3liO
r,'J,llIl.J 7(1.11-12 7(J,/)'1'1 71,'157

72,'/15
72,170 73,2.1')
7,I,2~H
HU,YIJK 1 85.066 1lr..135 H7,:!!)}
'JI,Ofli
')~,!h(j
'!fo.:!17
97,351
W6.J'1}
1ll7,51ti
11n,2H6
111,~t)5
111.'},I:!
75.!OH
7C"IHfI 77.IM 11l.14!! 71),1:!/l fill,InH
!il,ml~)
88.171 1I'J.33R
"II.. ms
)I.H~
93,:;70 91.37.'
1)5,17(,
~(,,5711
Hl3,1511 9'M17 100.749 IOI.H7') 103,(ff)<1 101.1:19 IOS,:!m !IIr,,)'J:; W7,522 1O!l,f>41! 109.773 1 HI.I\'JH
112,021 1 !J.I.I:;
H~I.JI6
1115.17]
106.629
WI:!,771 1f1'J.'J5H 111.1,1'\

1I1.3:!'1 m,51:!
Jl.I.II'IS
Il:>,711.1 113.'1l 1 115.117 Ilh,J!1 117.521 111I.nt>

Il').'n7
1~1,1~(,
121,W(}
J2J.101j 11,1 ..175

125,73'1
111,J-IH 123.5'/.'
12I.U3'1 116,OH3
1:!7.UU!
1~1l,2b;
1111 HI
Il:!
.15,533
.16.27(, .n.o:!1
~7.7(,7
113
-1(1,520 ,17.277 4H,OJh -l1l,7'H,

.1'J.557
51,157 55,17-1 55.9'1J

5(,,1\/3
57/t3~
57.153 57,'1:111 SH.H" 5'J,(.') 2

()(),5,U!
li-l
MS
flr.
.54J6!!
55,170
W.391 Il l ,YII ('::!, IJ:! (,),OIJ-I (,3.1176

(~1.7.1'J
(...1,278 fiS, 17(, 06.1176 6.'176 67,H7(,

6H,777 69,67\1
7J.!l7.1
7.I.H33
71,1)7,
n,lHIH 72.'1,1)
!11,]]1
75.7')2 76,751
n,7IU
1!2,3J.1 1i},3J4
H~.JJ.\
Il.I,6Of, 115,fi2h 8(,.(,-1(.

!17,(,('5
illI,ftli5
HII.:m
H!}.2-l3 'lIl,:!!!-1
1):.'.5311 93.fIl).1
!!7.hHU ')/l,7HO
~'I,IlIl(l
107.7113 1011,'137 IW,fI'.!!)

1II,!I~
'2~.510
117,32.1
1211,56S
94.669
95,7].\ [)(,,7'}9
IOfl,9llfl
IIS.1l76 117,057 IIH,!3r.

IIIJ..IJ.I 120.591 121.167
112.1J-I~
IJO,177 IJ2.033
IJJ.:?H7
12tJ,HO1
131.1~1
.111,515 .").26-1
50,320 51,IlHS
51,/l511
61.31l9
h:!,2J I) (,J,llIi')
63,~-l1
')1,325
t}2.36~
117 Sil
'1(1
'JI 'J2
50.015 50.7(,7 51.521

52,27(, 53.032 53.7')1)
55m3 56,777
57.5H2 5!UIi'J
!'I,i% W.005
(,(l,HIS
5B,-I5b
511,~79
65.(':"] M,-l98
71!,mU
82.0119
HJ.05U H4.IlJ 1 115,Ul2 1!5,t)I}3 H{I,ll74 A7,9S5
H5,J}.1
52.617
53JHb
{,Il. III:! fill,')::!H

fd,754 (,2.58\ (,3,4J
M.23fl (,5,(j(dl (.fl')11
(,h,DU
0,1.7'13
M.M7 6b,501 m,35f,
f,H,::!.11 (,1),061!
fl<),1)~5
67,373 /tll,:!>!'}
705HI 71,.\H1
n,3117
73,2~1
77,f12:; 7H.55B 7'J,.I%

~(),.IJ3
71J,630 HO,5!Jf) HI,5Sll

112.511 113,.;n Il.1,-133
IiS.3'J!
H(,,:n! 117,JJ4 1111.3.1-1

H9,3J.\
q(l.JJ.\
119,704 'lO.nJ 1)1.7.12

1)2,761
'J3,7HU 1),1.79'J
93.405 1).\ ....15

'1S"liM
1J7,!!6J 'J!!,'l27
102,079 103,177 HJ..I,::m W5J72
112,J').1 113,51-1
Il.l,h!)]
IIS.N4l Iltt,989
Il:!J15 123.521 IlI.71!! 115,912

127,W6
1),15-10
13:.'.277 IJJ,512
1.35,792
137,(1-I~
13.1,745 135.'177
Ll7,10K
13l! .\3H 139.h(,11 loIO,lI'lJ I.I:!.!I')
IJfl.2'}(I 139.537
5-1.155
5-1.()~r.
r.9,12(,
7U,IlU) 70.HIl!
71,1(~'
71.1%
75.\1)1 76.00(,
7('.'11~
%,524 97.563
9i1.602
IIS.Ut.
Il''.~H2
12.\.lIh
125,2!!9
12H,1')'}
IIC611
115.J\10
IW,7H) 1.12,017
1.)J.~7U
'u
'l~
54 ..,1"
55J!~)
55 ,fi'}!! 5f,,.!71
S7.1.1f>
'J1.331
'J:!.J3.\
120,.1:'7
1::!(l,lh2
127.633
61.h15 61,.137
6J,:!5()
1>.I,l1l13
/lI,]?1
72,MO
7J.5~O
li2.3119
HJ.14H
!I~.IH7
1!6JSr.
H7,J17 HIl,271J !l'1,211
'11J,~O.1
HR.!lJ(, H').!) 17
')U,U'}'}
'J3,3J-l
'}4,H~ /)5.n~
'IS,KIl! 96,BJb
97.855 '11!.87J 'J'J,H'):! 1!H),'J!f)
WJ,'I~H
')'J/,41 1110,117') 101.717 1112,755

IUJ.79)
IIl,tJ-I-I W6.J6.J 1117,415 101!.-IHI>

IO'J.5~7
116,511 IP.hJ:! 1tH,75~ Il'J,!!71 110.9'Jt) 12:!.101i 123.2:!)

12~.JU
121,571 L!2,715
1~t511
12!Uili3
1:13,115"
1]-1.2.17
145,751 141,.')'lO I.\H.2:!ll 119 . I(,.j

150,6')1}
,,:;
'n
'JIi
1)')
56.070 5rt,ll3J 57.5'J7 51l.362 51J.118
511.U22 511.7/)') 5'1.577 60.356 61.136
n,fil Il
IIJ,03B
114.131
70,71U
C.I,!l7li flS,Ii')'1 fi(',511l
(.7,562
t1H,3%
7UH1 n.501
7J,.1r.!
74.41l!l 75,2112
76,16-1
77,(1.16
7H,725 7'1,(,33 H0.541

81.~~"
'JI ,Jill!
H5.126
1l9.BO
86,1l!15 87,l5
'JI, 16ft
92,1162 93.111.1 '14,H:'1i
/)(,,33-1 1}7.JJ.J
98.D1
t 15.223
Ilf,,315
117 .IOt.
W4.liJl 1Il.'i,H(,H
llU,607
1::!3,H5H 125,000 1!6.1-I1 t::!7,2tl:! 12/1.1!2
119.973
l31.1~t
n~.3(1'}
m.1JJ
Ur..I'J
1J7,II03 IJH,'187
I~O,I69
DJ.,17fo
131.(,-12
I.LI,JH 1-lI,S67 1.\5.78\1 1-l7.0Ifl

I~H.BO
151,')3.1
11111 1 5'1.11'17 1 (!I,91 1' 1 ('7.J~1I 1 7().O5 1 H.122 1 77,930
57,').15 1 n,)21) 1 1}5.HOH 1 'J'I.B.I 1 W2.'I~(, IIOb.!Jf)(, 1111.6t;7
1 12<>,5[,1 1 US,HO,; 1
1 1.1'1 . 1.11\ 1 153.165
Pour
Il
> tOo on utilisera l'une des deux approx.imations suivantes, la seconde tant de loin la meilleure:
(l)~
-
= U
b)[(~r +:v lN~
TABLE
A.7
VALEURS fDE LA VARIABLE DE FISHER-SNEDECOR
; V2) AYANT LA PROBABILIT
0.10 D'TRE DPASSES
~.
1'1
l':2
./
53.59 9.[6 5.39 4.19 3.62 3.29
7 58.91
H 59,,/.'
9
59.86
10
12
15
l()
24
30
40 62.53
9,-17 5.16 3.HO
60
)20 63.06 ('-./s

5.1~
2 3
39.1:16 8.53
49.50
9.00
55.83 9.2./
5.34 ./.11 3.52 3.18 2.96 2.81 2.69 2.61 2.5..J 2.48 2,43 2.39 2.36 2.33 2.31 2.29 2.27 2.25 2.23 2.22 2.21 2.19 2.lll 2.17 2.17 2.16 2.15 2.1./ 2.09 1.0-.1 I.Y9 1.94
57.:U 9.29
5.31 ./.05 3..15 3.1 2.HB 2.73 2.61 2.52
5B.20 9.33
5.21:! .... 01 3.40
5.54
1.5./ 4.06
5....16
4.32
9.35 5,27
3.98 3.37
9.37
5.25 3.95
9.311 5.2./
3.9~
60.19 9.39
60.71
9.'11 5.22
61.21 9..12
5.20
61.74
4 5 6 7
8
3.78
3.46
3.3..\
3.32
9
10 Il 12 13 14 15
16 17
3.78 3.59 3.46 3.36

3.29 3.23 J.Il:! 3.14
3.05
2.83
3.01
2.78 2.62
2.98
2.75 2.59
J.26 :UI
3.01
2.Y2 2.B6 2.s[
3.07 2.92 2.81

2.73 2.66 2.61
2.96 2.72
2.56 2,44 2.35
5.23 3.92 3.30 2.94 2.70

2.50
9..1.1 5.18
3.84
3.90
3.27 2.90 2.67 1,50 2.38 2.21:!
3.H7
3.2-1
2.87
2.63
3.21 2.8'
2.67
2.55
2.-16
2.34
2.59 lA2
2.30
2.20
2.51
2,4 1
2A7
:UB
2..16
2.39 2.33
2A5
2.39
2.3..\ 2.28
2.23 2.19
2.76
2.73 2.70
2.56
2.52
3.10 3.07
3.05 3.03
3.UI
2.35 2.31
2.27 2.24 2.22 2.20 2.18
J.28
2.24
2.30 2.2'" 2.20

2.15
2.27
2.41 2.32 J.25

2.19
2.2.
2.17 1. lU 2.05 2,01
1.97 1.9 ...
61.00 9.-15 5.18 J.ti3 3.19 2X!. 2.5l:! L..JO 2.21:1 2.18
62.26 9..16 5.17 3.82 3.17

2.80
62.79
Y,47 5.15
63.33 9.-19
5.13
2.56 2.3H
2.15 1.16 2.0H
2.21
2.J6 1.12 2.09
2.14 2.\0
2.06 2.03
2.21 2.15 1.10

2.05
2.12 2.06
2.01 1.96 1.91 1.89 Ul6 1.11' 1.81 1.79
2.10
1.0' 1.911 1.9-1 1.90
3.16 2.78 1.5-1 1.36 1.23 1.13 2.05

1.9Y
3.79 3.1./ 2.76

2.51 1.34 2.21 2.11 2.lB \.96 1.90 [Jl6 1.82 1.71:! 1.75 1.72 1.70 1.6H 1.66 1.(j1 1.62 1.61 1.59 1.51) 1.57 1.56 1.55 1.5./ IA7 1..10 1.31 1.2-1
3.7H
3.12
3.76
3.10 1.T!.
2.7./ 1.19 2.32

2.18 1.08 2.00 1.93
2..17
1.29
2.16
1.0()
1.97
1. 1 )0
2.01
1.96 1.91
2A9
2..l6 2..l./
2.67 2.6-1
2.62 2.61
IR
19 20
2A2
2.Y9 2.Y7
lAO
2.38
2.59
21
22
23
21
25
2.96 2.95 1.9' 2.9]

2.92 2.91
'2.57
2.56
2.36 2.35
2.34 2.33
26 27 28
29
30 .1(} 60 120
cc-
2.90 2.89 2.1)9 2. Il 1:1

2.8' 2.79
2.55 2.5./ 1.53 1.52 1.5 [ 2.50

2.50
2.\6 2.1./ 1.13 2.[ 1

2.10 2.09 2.0B :U17 2.06
2.21 2.18 2.15 2.13 2.11 2.09 2.0S

2.()6
2.\6 2.\3
2.10 2.0R 2.06 2.0'" 2.02 2.01 1.91) 1.9H 1.97 1.96 1.95 1.9'-1 1.93
2.12 2.ml
2.06 2.04
2.02
1.99 1.96 1.93 !.91 1.89 1.87 1.86
2.02 2.00
1.9H
2.0h 2.03 2.00 1.9B 1.96

1.95 1.93
un
un
1.93 1.1\9 1.85

LRI
U un
1.79 1.75
2.00 1.98
1.96
1.91
1.89 1.1:!6 1.84 1.l:!3 I.BI 1.80
1.9./
1.92
I.7R
1.76
1.74 1.7:1
1.97
1.95 1.9..\ 1.93 1.92 1.91 1.9() l.!N
2.05
2J>..\ 2.02
1.92
1.91 UN
1.9D I.B9
\J.
[,ll7
I.B4 1.81 1.79 1.77 1.75 1.7::\
1.1)-+ Ull
I.7l:! 1.76
1.7.~
1.78
1.75 1.73
I.n
1,69 1.67 1.6-1
1.85 I.RO 1.76 1.72

1.69 1.66
1.63
1.61 1.59
1.72
1.71 1.69
1,[)7 I.b6 1.64 l.3 L 1 I.GO 1.59 1.58
1.62
1.60 1.59 1.57
1.70
1.69 1.67 I.G6 1.65 1.61 1.63 1.62
1.57
1.55 1.53
U:l1 U13
1.82
1.72
1.70
2.32 2.31 2.30

2.29
2.tH LOO
2.00 1.99 1.98
2.28
2.28 2.23 2.18
2A9
2A./
2.39
2.35 2.JO
2.06 2.05 2.00 1.95

1.90
1.81:1 1.87 I.R7 1.86

1.80 1.79
1.93
1.87
I.RH
I.B6 1.85 1.84 1.83 I.B2
un
1.80
1.71:1 1.77 1.76
Ln
1.71 1.70 1.69 1.6R 1.67 1.61 [.5' LIH 1...\2
1.69 1.68
1.67
1.66
1.56
1.51
1.53
1.79 1.78
1.77 1.71
1.66
1.75 1.71 1.73

1.72 1.66 1.60 1.55 IAY
1.52 1.50 IA9

1.48 1.-17 1. ... 6
1.51
1.51 1.50 1.41
1.65
1.64
1.93
un
UB
1.77
1.72
1.82
1.77
1.74
1.68 1.63
2.75
2.71
2.U 2.011
1.1:12
1.77
1.76 1.71 1.65

UiO
1.57
1.51 IA5 1.3!:l
1.85
1.72
1.67
1.60 1.55
1.61 1.5-1 I,4H lAI 1,31
[.57
1.51
1.38
1.29 1.19 1.00
IA..\ 1.37
1.3U
US 1.26
1.l7
570
A_Tables usuelles
TABLE
A.7 (suite)
VALEURS fDE LA VARIABLE DE FISHERMSNEDECOR 0.05 D'TRE DPASSES
F(vi : 112) AYANT LA PROBABILIT
l'~
9 2 3 4 () 7
fi
10
Il 243 19.4 1:1.76 5.94 UO 4.03 3.60 3.31 3.10 2.94
J:!
13
14 245 19.4 8.71 5.87 4.6' 3.96 3.53 3.24 3.03 2.86 1.74 2.64 2.55 2.48 2.42
15 2-16 19A 8.70 5.1\6 4.62 3.94 3.51 3.22 3.01 2.85
lli
246 19,4 8.69 5.84 4.60 3.92 3.49 3.20 2.99 2.83 2.70 2.60 2.51 2,4-1 2.38 2.33 2.24 2.25 2.21 2.11\ 2. 16 2.13 2.1 1 2.09 2.07 2Jl5 2.04 2.02 ::!.Ol 1.99 1.97 1.95 1.93 1.91 1.90
17 247 19,4 8.68 5.83 4.59 3.91 3,48 3.19 2.97 2,Rl 2.69 2.58 2.50 2.43 2.37 2.32 2.27 2.23 2.20 2.17
1&
247 19.4 8.67 5.82 4.58 3.90 3.47 3.17 2.96 2.80 2.67 2.57 2.48 2.41 2,35 2.30 2.16 2.22
161 18.5 10.1 7.71 6.61 5.99 5.59 5.32 5.12 -l.9U 4.84 -l.75 4.67 4.60 -1.54 -1.49 ..1.45 4.41 4.3H 4.35 4.:\:: 4.30 4.28 4.26 4.24 4.23 4.21 -l.20 -l.IS 4.17 4.15 1.13 U 1 4. JO 4.08
:WO
216 225 no 19.0 19.2 19.2 19.3 9.55 9.28 9.12 9.01 6.94 6.59 6.39 6.26 5.79 S.H 5.19 S.OS 4.76 4.53 US 4.12 4.07 3.R4 3.R6 J.63 3.71 JAS 3.59 3.49 3.41 3.3-l J.29 3.24 J.20 3.16 3.13 3.10
3.07 3.05 3.03 3.01 2.99
234 19.3 8.94 6.16 -1.95 4.1.8 3.87 3.58 3.37
237 19A 8.H9 6.09 4.88 4.1.1 3.79 3.50 3.29 3.14 ],01 2.91 1,83 2.76 2.71 2.66 2.61 2.58 2,S-l 2.51
239 19A 8.85 6.04 1 X! -l.IS 3.73 3A4 3.23' 3.07 2.95 2.85
241 19.-1 8.81 6.00 177 -1.10 3.61l 3.39 3.18
242 19.-1 8.79 5.96 4.74 H)6 3.64 3.35 3.14 2.98 2.85 2.75 :2.67 2.60 2.5-1
245 19A 19.4 !:L74 8.73 5.91 5.89 -I.fl8 4.66 LOO 3.57 3.28 3.07 2.91 3.98 3.55 3.26 3.05 2.89 2.76 1.66 2.58 2.51 2.45
2-14
9 10 Il 12
5.14 4.74 4.46 L26 4.10 3.98 3.S9 3.81 3.74 3.68 3.63 3.59 :\.55 3.52 3,49 3.47 3..l4 3.42 3.40 3 ..19 3.37 3.35 3.J4 3.33 3.32 3.29 3.28 3.26 3.:24 3.23
4.39 3.97
3.69
3.48 3.33 3.20 3.11 :U)3 2.96 2.90
3.22
3.09 3.00 2.92 2.1:15 2.79 2.7-l 2.70 2.66 2.fi3 2.60
3.02
J3
14 15 !6 17 18 19
3.36 3.26 3.18 3.11 3.06
1.90 2.80 2.77 2.71 2.70 1.65 2.6' 2.59 2.59 2.55 2.51 2.48 2.45
2.82 2.79 2.72 2.69 2.63 2.60 2.57 2.53 2.51 2.48 2,46 2.-1 [ 2.37 2.34 2.31 2.42 2.38 2.34 2.31 2.28
2.12
2.62 2.53 2.46 2.-10
20
21 22 23 2' 25 26 27 28 29
3.01 2.85 2.96 2.81 2.93 2.77 2.90 2.74 2.S7 2.71 2.84 2.82 2.80 2.71\ 2.76 2.74 2.73 2.71 2.70 2.69 2.68 2.66 2.6-t 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.51 2.49 :2.48 2.46 2.45
1..54 2.-19 2.49 1...J.5 2.-16 2.-11
2.40 2.37 2.35
:2.35 2.33 2.31

2.31 2.29 2.27 2.28 2.26 2.23 2.25 2,22 2.20 2.18 2. t5 2.13 1.11
2.0t)
2A2 :'1..38
2.39 2.35
:!.I8
:2.15
2.57 2A9 2.-12 1.37 2.32 2.55 2...16 2.-10 2.3-+ 2.30
2.53 2.44 2.37 2.32 2.27 2.51 2A2 2.36 2.30 2.25 2.49 2.-10 2.34 2.28 2.2-1 2.-17 2.16 2.-15 2.43 2.-12 2.40 2.38 2.36 2.35 2.3-l 2.32 2.31 2.30 2.29 2.29 2.27 2.25 2.24 1.23 2.21 2.19 2.17 2.16 2.14 2.13 2.12 2.11 2.10 2.39 2.37 1.36 2.35 2.33 2.31 2.29 2.28 2.26 2.25 2.24 2.23 2.22 2.21 2.20 2.18 2.17 2.15 2.14 :2.13 2.32 2.31 2.29 2.28 2.27 2.24 2.23 2.21 2.19 2.18 2.17 2.16 2.15 2.14 2.13 2.11 2.10 2.08 2.07 2.0fi 2.27 2.25 2.2-1 2.22 2.21 2.19 2.17 2,15 2.1-1 2.12 2.11 2.10 2.{)c) 2.08 2.07 2.22 2.20 2.19 2.18 2.16 :l.I4 2.12 2.11 2.09 2.08 1.06 2.05 2,04 2.03 2.03
2,:28 2.25 2.22 2.20 2.:26 2.23 2.20 2.17 2.23 2.20 2.18 2.15 2.212.182.152.13 2.20 2.16 2.14 2.11 2.11! 2.17 2.15 :2 .14 2.13 2.10 2.08 2.07 2.05 2.04 2.03 2.01 2.00 1.99 1.99 2.15 2.13 2.12 2.10 2'(l9 2.10 2.09 2.08 2.06
::u 1
2.14 1. 12
:UO
2J19 2.07 2.07 2.05 2.05 2.0-l 2.en 2.02 1.02 2.00 2.00 1.99 1.99 1.97 1.98 1.96 1.95 1.94 1.93 1.92 1.92 1.90 1.90 1.88 1.89 un 1.87 I.H6 1.86 1.84 1.85 !.lB 1.84 1.82 1.83 un
JO
32 34 36 38 -10
.f:!
2.98 2.96 2.95 2.93 2.92
2.12 2.09 2.07

2.08 2.06 2.06 2.04 2.05 2.03 2.04 2.01 1.99 1.97 1.95 1.94 1.92 1.9\ 1.90 1.89 1.8S 1.87'
1.85 1.84 1.82 1.81 1.79
2.9{) 2.67 2.lUl 2.65 :un 2.63 1.85 Ui2 1.1!4 :2.fil 2.S3 2.82 2.81 2.80 2.79 2.77 2.76 2.75 2.74
2.12
2.07 1.04 2.01 2.05 2.02 1.99 2.03 2.00 1.98 2.02 1.99 1.9fi 2.00 1.97 1.95 1.99 1.98 1.97 1.96 1.95 1.96 1.95 1.9-1 1.93 1.92 1.93 1.92 1.91 1.90 1.1l9 1.88 Ul6 1.85 1.84 1.82
44 46 48 50
4.07 3.2:2 4.06 3.21 4.05 3.20 4.04 3.19 4.03 3.18 4.02 4.00 3.9!) 3.98 3.96 3.95 3.9l 3.92 3.90 3.89 3.87 3.86 3.&5 3.84 3.16 3.15 ,l14 3.13 3.11 3.10 3.09 3J17 3.06 3.04
3Jl3 3.01 3.00 3.00
2.59 2,44
:2.58 2,43
2.57 2A2 2.57 2...J 1 2.56 2.-10 2.54 2.38 2.53 2.37 2.51 2.36 2.50 2.35
2AI} 2.33
55 60 65 70 SO 90 100
125 150 200
2.06 2.01 2.04 1.99 2.03 1.98 2.02 1.97 2.00 1.95 1.97 1.96 1.94 1.93 1.93 1.91 1.89 1.88
1.97 1.93 1.90 1.95 1.92 1.89 1.94 1.90 1.93 1.89 1.86 1.91 1.88 1.84
1.89 US 1.87 1.86 1.85 1.83

1.82 1.80 1.79 1.77
I.R 1 1.79
1.80 I.7S 1.77 1.75 1.74 1.73 1.70 1.69 1.67 1.66 1.64 1.63 1.62 1.78 1.76 1.75 1.73
1.72 1.71 1.69 1.67 1.66
un
2.71 2.70 2.68 1,66 2.65 2.63 2.61 2.61 2.60
2.47 2.46 2.44 2A3 2.42 1.40 1.39 2.38 2.37
2.32 2.31 2.29
2.:W 2.11 2.04 1.99 1.94

2.10 2.03 2JJ8 2.01 2.07 :2.00 2.06 1.98
2.27
2.26 2.24 2.23 2.21 1.1.1
1.90 1.89 1.Il 7 1.85 1.84
1.86 1.85 1.83 1.82 I.S0 1.78 l.77 1.76 1.75
UB 1.82 1.80 1.79 1.77
1.8n 1.78 1.79 1.77 1.77 1.75 1.76 1.73 1.74 1.72 1.72 1.71 1.70 1.69 1.70 1.69 1.68 1.67
1.76 1.75 1.72 1.71 1.69 1.6R 1.66 1.65 1.61
300 SOO 1000

::r.
2.04 1.97 1.91 1.86 2.03 1.96 1.90 1.85 2.02 1.95 1.89 I.R-I 2.01 1.94 1.88 1.83
UC 1.81 1.80 1.79
1.75 1.74 1.73 1.72
I.M1.62 1.61 1.60
A_Tables usuelles
571
TABLE
A.7 (suite)
VALEURS (DE LA VARIABLE DE FISHER-SNEDECOR F{\l1 ; 1'2) AYANT LA PROBABILITE 0.05 D'TRE DPASSES
19
20
22 249 19.5 8.65 5.79

-I.5~
21 219 19.5
!t6.f
16 249 19.5 8.63 5.76 4.52 3.83 3.-10 3.10 2.89 2.71
28 250 19.5 8.62 5.75 ".50 3.82 3.39 3.09 2.87 2.71
30 250 19.5 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70
35 251 19.5 S.GO 5.73 4 ... 8 3.79 3.36 3.06 2.84 2.68 2.55 2,4-\. 2.36 1.18 2.21 1.17 1.11 2.08 2.05 1.DI 1.98 1.96 l.93 1.91 I.R9
.. 0
45 251 195 859 5.71 4..15
50 152
60 252
Rn
252
]1).5
100 253 19,5 8.55 5.66 "AI 3.71 3.27 2.97 2.76 1.59 2.-16 :2.35 2.26 1.19 1.11
200 25" 19.5 8.54 5.65 ".39 3.69 3.15 1.95 2.73 2.56 lA3 1.32 2.13 1.16 1.10
SOO
248 148 2 19..1 19..1 3 8.67 8.66 4 5.81 5.80 ".57 t56 6 3.88 3.87 7 3A6 3A4 8 3.16 3.15 9 2.95 2.9..J. 10 2.78 2.77
3.86 3043 3.D 2.92 2.75 2.6J 2.52 2A-I 2.37 2.31 2.25 2.21 2.17 2.13 2.10 2.07 2.05 2.02 2.00 1.98 1.97 1.95 1.93 1.92 1.91 1.88 1.86 1.85 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.74 1.72 1.71 1.70 1.68 1.66 1.65 1.63 1.61 1.60 1.58 1.56 135 1.54
5.77 1.53 3.R4 3AI J.12 2.90 2.74
251 19.5 839 5.72 1,46
19.5 193
838 8.57 5.70 5.69 IAI .. A] 3.74 3.30 3.01 2.71) 2.62 2.19 2.38 2.30 1.11 2.16 1.11 2.06 2.02 ID8 1.95 1.92 UN 1.86 1.84 1.82 1.80 1.79 1.77 1.75 L7.J.
3.77 3.76 3.75 3.34 3.J3 3.32 3.0-1 3.03 3.02 2.83 2.81 1.80 2.66 2.65 2.64 2.53 2AJ 1.34 1.17 2.20 1.15 1.10 2.06 2.03 1.99 1.96 1.91 1.91 1.89 1.87 1.51 2,41 2.33 2.25 2.19 2.14 2,01} 2.05 2.01 1.9S 1.95 1.92 J.90 1.88 1.86 1.51 2,40 2.31 2.1-1 1.18 1.12 1.0B 1.0-1 1.00 1.97 1.9-1 1.91 1.88 1.86 1.84
Il 12 13 ,.. 15 16 17 18 19 10 21 22 13 1-1 25 26 27
2.66 2.56 2..17 2..10 2.3" 2.29 2.24 2.211 2.17 2.1" 1. (1 1.0B 1.06
2.0-1 :W2
2.00
1.99
28 1.97
29 1.96 30 1.95 32 34 36 38 -l0 .J.2 -14 -16 -18 50 55
60
2.65 2.51 lA6 2.39 2.33 1.211 2.23 2.19 1.16 2.12 1.10 1.D7 1.05 2.03 2.01 J.99 1.97 1.96 1.9-l1.93
2.61 2.59 2.58 2.57 2.51 lA9 2A8 2,47 2A2 2AI 2.39 1.38 ::1.35 2.33 2.32 2.31 2.29 2.17 2.26 2.15 2.24 2.22 2.21 2,19 2.19 2.17 2.16 2.15 2.152,132.122.11 2.11 2.10 2.08 2.07 2.08 2.07 l.05 1,04 2.05 2.0-1 2.02 2.01 2.03 1.01 1.00 1.98 2.00 l,l)I) 1.97 1.96 1.98 \.97 1.95 1.9.. 1.96 1.95 1.9) 1.92 1.95 1.93 1.91 1.90 1.89 1.93 1.91 1.90 1.88 1.87 1.91 1.90 1.88 1.87 1.85 1.90 I.! 1.87 1.85 1.8-l 1.81 1.80 1.78 1.76 1.7.. 1.73 1.72 1.71
8.56 5.67 IAI 3.72 3.29 2.99 2.77 1.60 2A7 2.36 2.27 1.10 2.1{
:W8
1.117 2.0" 2.03 2.02 1.99 1.99 1.98 1.95 1.96 1.94 1.9! 1.92 1.91 1.88 1.89 t.R6 I.S-l Ui1 1.80 1.88 1.85 1.82 1.80 1.78 1.84 1.82 1.79 1.77 1.75
1.87 1.85 1.84 1.82 1.86 1.84 1.82 1.81 1.8..J. 1.82 1.80 1.79 UB 1.81 1.79 1.77 U!I 1.79 1.77 1.76
1.92 1.90 1.88 1.87 1.85 1.84
1.91 1.89 1.87 1.85 1.84 1.10 un 1.81 1.82 1.80 1.81 1.79 um 1.78 1.76 1.75 1.73
65 70 80
90
Ion
125 150 200
1.7S 1.76 1.75 1.7-1 1.72 1.70 1.69 1.67 1.66 1.6-1
Ln
1.70 1.69 1.61-\ 1.65 1.64 1.62 1.61 1.59 1.58 1.57
30U 1.62 500 1.61 loon 1.60 21d 1.59
1.86 1.85 1.83 1.8" 1.82 um 1.81 l.B 1 1.79 1.81 1.79 1.77 1.79 1.77 1.76 1.78 1.76 1.74 1.77 1.75 1.73 1.76 1.7.. 1.72 1.75 1.73 1.71 Dl 1.71 1.70 1.72 1.70 1.68 1.70 1.68 1.6fi 1.69 1.67 1.65 1.67 1.65 1.6-1 1.65 1.63 1.62 t.64 1.62 1.60 1.63 1.61 1.59 1.60 1.58 1.57 1.59 1.57 1.55 1.57 1.55 1.53 1.55 1.53 1.51 1.5-1 1.52 1.50 13) 131 1..J.9 1.51 1.50 1.-18
un
1.69 1.67 1.65 1.63 1.61 1.60 1.59 1.57 1.55 1.53 1.51 1.50 IA8
lA7
1.79 1.77 1.75 1.74 1.71 1.77 1.75 1.73 1.71 1.69 1.75 1.73 1.71 1.69 1.67 1.73 1.71 1.69 1.68 1.65 1.72 1.69 1.67 1.66 1.6' 1.70 1.68 1.66 1.65 1.62 1.69 1.67 1.65 1.63 1.61 1.68 1.65 1.6" 1.62 1.60 1.67 1.6-l- 1.62 1.61 1.59 I.M 1.63 1.61 l.60 1.58 1.64 1.62 1.60 1.59 1.57 1.55 1.54 1.52 !.50 1,48 IA6 1,45 1A.J. 1.42 1.61 1.59 1.58 1.57 1.5-1 1.53 1.52 IA9 lAS 1.46 1.59 1.57 1.56 1.55 1.52 1.51 1.-19 IA7 1.45 1.-13 1.58 1.56 1.54 1.53 1.51 1A9 1AS IA5 IA-I lAI 1.55 1.53 1.52 1.50 1.-18 1.-16 1.15 1. .. 1 1.-11 1.39 1.34 1.33 1.31
1.78 1.76 1.73 1.76 1.74 1.71 1.7.. 1.73 1.69 1.73 1.71 1.67 1.71 1.70 1.66 1.69 1.67 1.63 1.66 1.65 l.61 1.6-1 1.62 1.59 1.62 1.61 1.57 1.61 1.59 1.55 1.59 1.5 Il 1.57 1.56 1.5" 1.52 1.50 1.-19 IA7 1A5 1.57 1.56 1.55 1.54 1.51 1.50
IAH 1...16 1...15
1.53
1.52
1.51
1.-19
254 19.5 8.53 5.M .. .37 J.6B 3.1,4 2.94 2.72 1.55 2A2 2.31 1.21 2.1" 1.08 1.01 1.97 1.93 1.89 U;6 1.82 1.80 1.77 1.75 1.73 1.71 1.69 1.67 \.65 1.64 1.61 1.59 1.56 1.5.J. 1.53 1.51 1A9 1A1l
IA7
25-1 19.5 8.53 5.63 4.37 3.67 3.23 2.93 2.71 2.5-\. 1,40 2.30 1.11 1.13 1.07 1.0 J 1.96 1.92 US 1.8.J. 1.8\ 1.78 1.76 1.73 1.71 1.69 1.67 1.65 1.61 1.61 1.59 1.57 1.55 1.53 1.5\ 1.49 1.48 1.46
lAS
I.-Ill 1.46 1.-14 1.46 1043 lAI

l.-I.~
1.-13
1A2 1.-10 1.38
lAI 1.39 1.37 1..15
1.39 1.37 US 1.]2
I.n 1.41 1.39 1.36

IA2 IAO 1.38 1A 1 1.38 1.36 1.39 1.37 1.35
1.-16
1AJ lAI 1.39 1.37 1.35 1.32 1.30 1.29 1.27
lAI 1.36 1.32 1.39 1.3-l 1.31 1.36 1.31 1.17 1.3~ 1.29 1.25 1.32 1.26 1.22 un 1.23 1.19 1.28 1.11 1.16 1.26 1.19 1.13 1.2.. 1.17 1.11
1.30 1.28 1.15 1.22 1.19 1.15 Lli 1.08 1.00
572
A ..Tables usuelles
TABLE
A.7 (suite)
VALEURS (DE LA VARIABLE DE FISHER-SNEDECOR F(vi ; IJ 2) AYANT LA PROBABILlT 0.01 D'TRE DPASSES
l'~
10
Il
11
13
14
15
[6
17
lB
(Les valeurs de la premire ligne doivent lre mulliplics par IO)

:2 3 4
5
-!05 500 5-10 563 9R.5 99.0 99.2 99.1 34.1 30.R 29.5 28.7 21.2 18.0 16.7 16.0 16. 3 LU 12.1 lIA
56 99.3 28 ..2 15.5 11.0
586 99.3 27.9 15.2
D.7 12.2 11.3 l) 1(1.6 ln Hl.O Il 9.65 12 9.33 13 g.n7 l-l 8.86 15 8.68 16 8.53 17 8AO 18 8. 19 19 8.18 20 8.10 21 8.02 22 7.95 23 7.88 24 7.82 25 7.77 26 7.72 27 7.68 21! 7.64 19 7.60 30 7.56 32 7.50 34 7,44 36 7.40 38 7.35 40 7.3\ 42 7.28 -44 7.25 46 7.22 ,18 7.19 50 7. 17 55 7.12 60 7.08 65 7.0' 70 7.01 80 6.96 90 6.93 100 6.90 115 6.84 150 6.81 200 6.76 300 6.72 5UO 6,69 1000 6.66 :x; 6.63 6 7 8
10.9 9.78 9.15 8.75 9.55 8.45 7.85 7.46 8.65 7.59 7.Ol 6.63
8.02 7.56 7.21 6.93 6.70 651 6.36 6.2) 6. Il 6.oJ 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5,49 5045 5,42 5.39 5.34 5.29 5.25 5.21 5.18 5.15 5.12 5.10 6.1l{j 6.55 6.22 5.95 5.74 5.56
5,42
5.08
.5.06 5.01 4.98 4.95 4.92' 4.88 4.85 4.82 4.7R 4.75 4.71 4.68 4.65 4.63 4.61
5.29 5.18 5.09 5.01 4.94 4.87 4.82 4.76 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4.46 4,42 4.38 4.34 4.31 4.29 4.26 4.24 4.22 4.20 4.16 4.13 4.1D 4.08 4.[14 . .tOI 3.98 3.94 3.92 3.88 3.85 3.82 3.80 3.78
6,42 5.99 5.67 5.41 5.11 5.04 4.R9 4.77 4.67 4.58 4.50 4,43 4.37 4.31 4. 16 4.22 4. J 8 4.14 4.11 -4.07 4JJ4 4.02 3.97 3.93 3.89 3.S6 3.83 3.80 3.78 3.76 3.74 3.72 3.68 3.65 3.61 3.60 3.56 ].54 3.51 3.47 3,45 3041 3.38 3.36 3.34 3.31
6.06
5 . 64 5.32 5.0G 4.86 4.70 4.56 4.4-4 4.34 4.25 4.17 4.10 4.04 3 . 99 3.94 3.90 3.86 3.82 3.78 3.75 3.73 3.70 3.65 3.61 3.57 3.54 3.51 3.-19 3.47 3.44 3.43 3.41 3.37 3 . 34 3.]1 3.29 3.26 3.23 3.21 3.17 3.14 3.11 3.08 3,05 HW 3.01
593 9904 27.7 15.0 10. 7 10.5 8A7 8.26 7.19 6.99 6.37 6.18 5JW 5.61 5039 5.20 5.07 Ul9 4.82 4.64 4.62 4,44 4.46 4.28 4.32 U4 4 . 20 -l.l13 4.10 3.93 -l.01 3.84 3.94 3.77 3,87 3.70 3.RI 3.64 3.76 3.59 3.71 3.54 3.67 3.50 3.63 3.46 3.59 3A2 3.56 3.39 3.53 3.36 3.50 3.33 3.47 3.30 3.43 3.~6 3.39 3.21 3.35 3. J 8 3.32 3.15 3.29 3.12 3.27 3.10 3.24 3.08 3.22 3.06 3.20 3.04 3.19 3.02 3.15 2.98 3.11 2.95 3. ()9 2.93 3.07 2.91 3.04 1.87 3.01 1.84 2.99 ::UI2 2.95 2.79 2.92 2.76 2.89 2.73 2.86 2.70 2.84 2.68 2.82 2.66 2.80 2.fi4
598 99.4 27.5 14.8 10 . 3 8.10 6.84 6.03 5A7 5.06 4.74 ,L50 4.30 4.14 4.00 3.89 3.79 3.71 3 . 63 3.56 3.51 3.45 3.41 3.36 3.32 3.19 3.16 3.23 3.20 3.17 3.13 3.09 3.05 3.01 2.99 2.97 2.95 2.93 2. 91 2.89 2.85 2.82 2.80 2.78 2.74 2.72 2.69 2.66 2.63 1.60 1.57 2.55 2.53 2.51
602 99.4 27.3 14.7 10.2 7.98 6 . 72 5.91 5.. 35 4.94 4.63 4.39 4.19 ..t03 3.89 3.78 3.68 3.60 3.52 3.46 3.40 335 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 ).01 2.98 2.95 2.92 2.89 2.86 2.84 2.81 2.RO 2.79 2.75 2.72 2.69 1.67 2.64 2.61 1.59 2.55 2. 53
2.50
606 99..1 27.2 14.5 10.1
608 99.4 27.1 14.4 9.96
611 99.4 17.[ 14.4 9.1:19
fil] fiN 99.4 9904 27.0 26.9 14.3 Ik::! 9.81 9.77
616
7.87 6.62 5.81 5. 26 4.85 . t54 4.30 UO 3.94 3.80 3.69 3.59 3.5' 3,43 3.37 3.31 3.26 3.21 3.17 3.13 ].09 106
::un
3.00 2.98 2.93 1.89 2.86 2.83 2.80 2.78 2.75 1.73 2.72 2.70 1.66 2.63 2.61
2.59
2.55 2.52 2.50 2,47 2.44 2.41 2.38 2. 36 2.34 2.32
2.47 2.44 2.43

2Al
7.79 6.54 5.73 5-18 4.77 4.46 4.22 4.02 3.86 3.73 3.62 3.52 3.-13 3.36 3.19 3.2-4 3.18 :t14 3.09 3.06 ].02 2.99 2.96 2.93 2.91 2.86 2.82 2.79 2.75 2.73 2.70 2.68 2.66 2.64 2.63 259 2.56 2.53 1.51 2.48 2,45 2.43 2.39 2.37 2.34 2.31 2.28 2.27 2.25
7. 72 6.47 5.67 5.11 UI L40 4.16 3.96 3.80 3.67 3.55 3.46 3.37 .:UO 3.23 3 . 17 3.12 3.07 3.03 2.99 2. 96 2 . 93 1.!)O 2.87 2.84 1.80 2.76
~.72
7.66 6AI 5.61
5.05
4.65 4.34 4.10 3.91 3.75 3 . 61 3.50 3.40 3.32 3.24 3.18 3..11 3.07 3.02 2.98 2.94 2.90 2.87 2.8 . ' 2.81 2.79 2.74 2.70 2.67 2.64 2.61 2.59 2.56 2.54 2.53 2.51 2,47 2,44 2.42 2.40 2.36 2.33 2.31 1.11! 2.25 2.22 2.19 2.17 2.15 2.13
2.69 2.66 2.64 2.61 2.60 2.5R 2.56 2. 53 250 2.47 2,45 2,42 2.39 2. 37 2 . 33 2.31 2.27 2.14 2.22 2.20 2.18
99,4 26.9 [. 1..2 9 . 72 7.60 7.56 6 . 36 6.31 5 . 56 5.51 5 . UO ..4096 4.60 4.56 4.19 4. 15 4.05 4.01 3.86 3.fi2 3.70 3.66 3 . 56 3.52 3,45 3AI 3.35 3.31 3.17 3.23 3.19 3.15 3.13 3.09 3.07 3.03 3.02 2.98 2.97 2.93 2.93 2.89 2.89 2.85 2.86 2.82 2J!2 2.78 2. 79 2.75 2.77 2.73 2.74 2.70 2.70 2. 66 2.66 2.62 2.62 2.58 2.59 2.55 1. 56 2.52 2.54 2.50 2.52 2,47 2.50 2A5 2.-18 2,4~ 2.46 2.42 1.42 2.38 2.39 2.35 2.37 2.33 2.35 2.3 J 2.31 2.27 2.29 2.24 2.26 2.22 1.23 2.19 2. 10 2.16 2.17 2.13 2.14 2. 10 2.12 2.07 2.10 2.06 2.08 2.04
617 99...! 26.8 14.1 9.68 7.52 6.27 5...!8

4.92
4.52 4.21 3.97 3.78 3.62 3.49 3.37 3.17 3.. 19 3.12 3.05 1.99 2.9' 2.89 2.81 2.78 2.75 2.72 1.69 2.66 2. 62 2.58 2.54 2.51 2A8 2.46 2...w. 2.42 2...!0 2.38 1.34 2.31
618 99.4 26.8 1.1.1 9.64 7...!R 6.24 5,44 4.89 4.49 4 . 18 3.94 3.75 3.59 3.45 3.3-l 3.2...\ 3.16 3 . 08 3.02 2.96 2.9\ 1.86 2.78 2.74 2.71 .2,68 2.66 2.63 2.58 1.55 2.51 1.48 2,45 2.43 2,40 2.38 2.37 2.35 2.31 2,28 2.26 1 . 23 2. 20 .2. 17 2.15 2. II 2.09 2.06 2.03
619
2.85 :un
99.4 26.8 I. U 9.61 7.45 6.21 5.41 4.86 4..16 4.15 3.91 3.72 3.56 3.42 3.31 3.11 3.l3 3.05 2.99 2.93 2.l 2.83 2.79 2.75 2.72 2.68 2.65 2.63 2.60 2.55
2.51
2.48 2.45 2,42
2.40 2.37 2.35 2.33 2 ..32 2.28 2.25 2.29 1.23 2.20 2.27 2.23 2.17 2.11 2.l-t 2.19 2.12 2.15 2.08 2.12 2.06 2.09 2.01 1.99 2.06 2.04 ::!.Oo 1.97 2.01 1.98 1.95 2.00 1.97 1.93
A_Tables usuelles
573
TABLE
A.7 (suite et fin)
VALEURS (DE LA VARIABLE DE FISHER-SNEDECOR PROBABILIT 0.01 D'TRE DEPASSES
F(vi ;
Pl) AYANT LA
19
20
12
26
30
(,25 99.5 26.5 13.9 9.40
35
40
./5
50
60
80
Ion
200
,:iOO
<Xl
(Les valt.:urs de la premire ligne doivent circ

620 62J
mlillipli~c;;
pur 1())
3 ./ 6 7 8
Il
10 Il 11 13 14 15
16
17 1fi 19 :W 21 12 13 2-\. 15 16 27 2R 29 JO 32 34 36 38 40 -\.1 ././ ./6 48 50 55 60 65 70 80 90 100 125 150 :200 300 500 1000
~
99.4 16.7 I ..LO 9.58 7.42 6.18 5.38 .J.83 .J.13 4.12 3.88 3.69 3.53 3...10 3.18 3.18 3. [(} 3.03 1.96 2.90 2.85 2.80 2.76 2.72 2.69 2.66 2.63 2.60 2.57 2.53 1../9 1,45 2...l2 2.39 2.37 2.35 2.33 2.31 2.29 2.25 1.12 1.20 1.IR 2.14 1.11 2.09 1.05 2.03 1.00 1.97 1.94 1.91 1.90
99 ../ 26.7 14.0 9.55 7 ../0

6.16
5.36 tlll 4.41 ./.10 3.86 3.66 3.51 3.37 3.26 3.16 3.08 3.00 2.94 2.8R 2.83 2.78 1.74 2.70 1.66 1.63 1.60 2.57 2.55 2.50 1,46 2A3 1...l0 2.37 2.34 1.31 1.JO 1.18 2.17 2.13 2.20 2.17 2.15 1.12 2.09
2.(}7
622 99.5 26.6 I./.n 9.51 7.35 6.11 5.32

~L77
623 99.5 26.6 13.9 9,./7
-\..36 4.06 3.82 3.61 3.46 3.33 .1.11 3.12 3.03 2.% 1.90 2.84 1.78 2.7./ 2.70 2.66 2.62 1.59
1.56
2.53 2.51 2,46 2A2 2.38 2.35 2.33 2.30 2.28 2.26 2.24 2.22 2.18 2.15 1.13 1.11 2.07 2.!)'+ 2.D2 1.98 1.96 1.93 1.89 1.87 1.85 1.83
2.03 2.00 1.97 1.9./ 1.92 1.90 1.88
626 99.5 16.5 13JJ 9.38 7.31 7.15 7.23 6.07 6.U-\. 6.01 5.99 5.28 5.25 5.22 5.20 A1.73 4.70 . 1.67 ~1.65 4.33 4.30 4.27 -\..1.5 4.02 3.99 3.96 3.9-\. 3.78 3.75 3.72 3.70 3.59 3.56 3.53 3.51 3A3 3...10 3.37 3.35 3.29 3.26 3.24 3.2! 3.18 3.15 3.11 3.10 .1.08 3.05 .1.03 3.00 .1.00 2.97 2.94 2.92 2.91 2.R9 1.87 1.84 2.86 1.83 2.80 2.78 2.S0 2.77 2.74 2.72 2.75 2.72 2.69 2.67 2.70 1.67 2.64 2.61 2.66 2.63 2.60 2.58 2.62 2.59 2.56 2.5-4 2.58 2.55 2.53 2.50 2.55 2.52 2,49 2,./7 2S.! 2..19 2.46 2,44 2.49 2.46 1.44 2,4 1 2..17 2.-14 2...11 2.39 2.42 1.39 2.36 2.3.t 1.38 2.35 2.32 2.30 1.35 2.J2 1.29 2.26 2.32 2.28 1.16 2.23 2.29 2.26 1.13 2.:!O 2.26 2.23 2.20 2.18 2.24 2.21 1.18 2.15 2.12 2.19 2.16 2.13 2.20 2.17 2.14 2.1:2 2.18 2.15 2.12 2.10 2.15 1.11 2.08 2.06 2.12 2.08 2.05 2.03 2.09 2.06 2.03 2.00 2.07 2.03 2.01 1.98 2.03 2.00 1.97 1.9.:\ 2.00 1.1)7 1.94 1.92 1.911 1.9-4 1.92 I.R9 1.94 1.91 1.88 1.85 1.92 1.88 I.R5 1.83 1.89 1.85 1.82 1.79 1.85 1.82 1.79 1.76 1.83 1.79 1.76 1.74 1.81 1.77 1.74 1.72 1.79 1.76 1.72 1.70
62./ 99.5 26.6 13.9 9.-13 7.28
628 99.5 26.5 I3.R 9.33 7.IR 5.9.t 5.15 4.60 UO 3.89 3.65 .1,46 3.30 3.17 3.05 2.96 2.R7 2.80 2.73 2.67 2.62 2.57 2.53 2.49 2..15 2,42 2.39 2.36 2.31 2.29 1.25 2.21 2.18 2.15 2.13 1.10 2.08 2.06 2.05 2JH 1.98 1.95 1.93 1.89 1.86 1.8.t 1.80 1.77 1.74 1.71 1.68 1.66 1.64
99.5 26.4 13.7 9.16 7.14 7.11 5.91 5.SR 5.12 5JI9 ..1.57 ~t5~; -\..17 4.14 .1.86 3.IB 3.61 3.59 3.43 3.40 3.27 3.14 3.13 3.10 3.02 2.99 2.92 1.89 2.84 2.81 2.76 2.73 2.69 2.67 1.6.t 2.61 2.58 2.55 2.54 2.5\ 2.49 2,46 1.45 2.42 2,./2 2.39 2.38 1.35 2.35 2.32 2.33 2.30 2.30 2.27 2.25 2.12 2.21 2.18 2.17 2.1-\. 2.1-4 2.11 2.11 2.08 2.09 2.06 2.06 :U)3 2.0.t 2.01 1.02 1.99 2.01 1.97 1.97 1.93 1.94 1.90 1.91 1.88 1.89 1.85 1.85 1.81 1.82 1.79 1.80 1.76 1.76 1.72 1.73 1.69 1.69 1.66 1.(,6 1.62 1.63 1.60 1.61 1.57 1.59 1.55
629 99.5 26../ 13.7 9.29
(i30
630
631
99.5 26../ 13.7 9.24 7.09 5.86 5.07 rL52 4.11 3.81 .1.57 3.38 3.22 3.08 2.97
::UU
2.78 2.71 2.61 2.58 2.53 2.48 2.44 2.40 2.36 2.33 1.30 2.27 2.25 2.20 2.16 2.12 2.09 2.06 :!.l13 2.01 1.99 1.97 1.95 1.91 !.R8 1.85 l.83 1.79 1.76 1.73 1.69 LM 1.63 1.59 1.56 1.54 1.52
99.5 2603 13.7 9.10 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.3./ 3.18 :'1.05 2.93 2.83 2.75 1.67 1.61 2.55 2.50 2A5 2AO 2.36 2.33 2.29 2.26 2.23 2.21 2.16 2.12 2.0R 2.05 2.02 1.99 1.97 1.95 1.93 1.91 1.87 1.84 1.81 1.78 1.75 1.7:2 1.69 1.65 1.62 1.58 1.55 152 1.50 IA7
6JJ 99.5 26.3 13.6 9.16 7.01 5.78 4.99 4A4 .t.Il-\. 3.73 3../9 3.30 3.11 3.00 2.89 2.79 2.70 2.63 2.56 2.50
2A5 2.40 1.36 2.31
633 99.5 26.2 13.6 9.13 6.99 5.75 .t.96 .!A2 1.01 3.71 3.-17 3.17 3.11 1. I)R 2.86 2.76 2.68 2.60 1.54 2AS
2A1 2.37 2.33 2.29 1.25 2.22 2.19 2.16 1.13 2.08 2'(}'+ 1.0{) 1.97 1.9.t 1.91 1.89 I.R6 1.84 1.82 1.78 1.75 1.71 1.70 1.66 1.62 1.60 1.55 1.52 1.48 1A./ lAl 1.38 1.36
635 99.5 26.2 13.5 9.08 6.93 5.70 4.91
Du
3.96 3.66 3.4 1 3.22 3.06 2.92 1.81 :2.71 1.62 2.55 2.48 2A2 2.36 2.31 2.27 2.23 1.19 2.16 2.13 2.10 2.07 2.01 1.98 1.9.t 1.90 1.87 1.85 1.82 1.80 1.78 1.76 1.71 1.68 1.65 1.62 1.58 1.54 1.52
IA7 1A3
2.18 2.25 2.22 2.19 2.16 2.11 2.07 2.03 2.00 1.97 1.94 1.92 1.90 l.88 l.86 1.81 1.78 1.75 1.73 1.69 1.66 1.63 1.59
1.56
636 99.5 26.1 13.5 9.0-16.90 5.67 -\..RS 4.3.1 3.93 3.62 3.38 3.19 3.03 1.89 2.78 2.68 2.59 2.51 2.44 2.38 2.33 2.28 2.21 2.19 2.16 2.12 2.09 2.06 2.03 1.98 1.94 1.90 1.86 \.!B 1.80 I.7S 1.75 1.73 1.71 1.67 1.63 1.60 1.57 1.53 IA9 1A7
lAI
637 99.5 16.1 13.5 9.02 6.RR 5.65 ./.86 ..\-.31 3.91 3.60 3.36 3.17 3.00 2.87 2.75 2.65 2.57 2.49 1A2 2.36 1.31 2.16 2.21 2.17 2.13 2.10 2.06 2.03 1.01 1.96 1.91 1.87 Ul-\. 1.80 1.73 1.75 1.73 1.70 1.68 LM 1.60 1.57 1.5' !..t9 \A6 1..t3
1.37
1.52 1.48 1.45 1.13 1AO
1.39 1.35 1.31 1.28 1.25
UI:l 1.33 1.18 1.23 1.19 1.15
1.33 1.28 1.22 1.16 1.11 1.00
574
AIIIIIiITables usuelles
TABLE
A.a
TABLE DE DISTRIBUTION DE
T (LOI
DE STUDENT)
Valeurs de T ayant la probabilit P d'tre dpasses en valeur absolue

F(t)
2
+00
X
1 2 3 4 5 6 7 8 9 10
0.90 0,158 0,142 0,137 0,134 0,132 0,131 O,BO 0,130 0.129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0.127 0,127 0.127
0,80
0,70
0.60
n.50
0,40
0.30
0.20
0.10
0.05
0,02
0.01
0,001
0.325 0.510 0.717 1.000 1,376 1.963 3.078 6.314 12,706 31.821 63.657 636,619 0.289 0,445 0,617 0,816 1,061 1.386 1,886 2,920 4,303 6,965 9.925 31,598 0.277 0.424 0,584 0,765 0,978 1,250 1.638 2,353 3,182 4.541 5,841 12.929
0,271 0.267 0,265 0,263 0,262 0.261 0,260 0,260 0.259 0.259 0,258 0.258 0.258 0,257 0,257 0,257 0.257
0,414 00408 0.404 0,402 0,399 0.398 0,397
0,569 0,741 0,941 0.559 0,727 0,920 0,553 0, 0, 0.549 0, O. 0, 0,546 0 0,543 0 O. 0,542 0 0,
1,]90 1,156 1,134 1,119 1,\08 1,100 ].093
1.533 2,132 2,776 1.476 2.015 2,571 ].440 1.943 2,447 1.415 1,895 1,397 1,860 1.383 1.833 1,372 1,812 2.201 2,179 2,160 2.145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2.069 2,064 2.060 2,056 2.051 2,048 2.045 2,042
3.747 3,365 3,143 2.998 2,896 2,821 2,764 2.718 2.681 2,650 2.624
2,602
.:1.604 4,032 3,707 3,499 3,355 3,250 3.169 3,106 3,055 3,012 2,977 2.947 2.92] 2,898 2.878 2,861 2.845 2.831 2.819 2.807 2,797 2.787 2.779 2.771 2.763 2.756 2,750 2,704 2,660 2.617 2.576
8.610 6.869 5,959 5.408 5,041 4,781 4,587 4.437 4,318 4.221 4,140 4,073 4.015 3,965 3.922 3,88.3 3.850 3,819 3,792 3,767 3.745 3.725 3.707 3.690 3,674 3.659 3,646 3,551 3.460 3,373 3.291
Il 12 13 14 15 16 17 18 19 20
0,396 0.540 0,697 0,876 0.395 0.539 0,695 0.873 0,394 0,538 0,694 0,870 0,393 0.537 0.692 0,868 0,393 0,536 0,691 0,866 0,392 0.535 0.690 0.865 0.392 0,534 0.689 0.863 0,392 0.534 n,688 0,862 0.391 0,533 0,688 0,861 0,391 0.533 0,687 0.860 0.391 0,390 0.390 0,390 0,390 0,390 0,389 0,389 0,389 0,389 0.532 0,532 0532 0,531 0.531 0.531 0,531 0530 0.530 0,530 0,529 0.527 0,526 0.524 0.686 0,686 0.685 0,685 0,684 0.684 0,684 0.683 0,683 0,683 0,681 0.679 0.677 0,674
\,088 1,363 1.796

1,083 1.356 1.782
1.079 1,350 1,771

1.076 1.345 1.761
1.074 1,341 1,753 1,071 1.337 1,746 1,069 1,333 1,740 l, 1.330 1.734 1,328 1,729 L 1,064 1,325 1.725
2583 2,567 2552 2539 2.528 2.518

2,508
21 0.127 0,257 22 0,127 0.256 13 0,127 0.156 24 0,127 0.256 25 0.127 0,256 26 0,127 0,256 27 0,127 0.256 28 0,127 0,256 29 0,127 0.256 30 0,127 0,256
0.859 1,063 1,323 L721 0,858 1.061 1,321 1.717 0.858 1,060 1,319 1.714 0,857 1.059 1.318 1,711 0,856 1,058 1.316 1,708 0.856 1,058 1,315 1,706 0.855 1,057 1.314 1.703 0,855 1.056 1,313 1,701 0,854 1,055 1.311 1,699 0,854 1,055 1.310 1,697 0,851 0,848 0,845 0.842 1,050 1,046 1.041 1,036 1,303 1.296 1,289 1,282
2.500 2,492 2,485 2,479 2.473 2,467 2.462 2,457 2,423 2.390 2,358 2.326
40 0,126 0,255 0,388 80 0,116 0,254 0.387 120 0,126 0.254 0,386 cr:. 0.126 0,253 0,385
1.684 2,021 1.671 2,000 1.658 1,980 1,645 1,960
TABLE
A.9
VALEURS CRITIQUES DU COEFFICIENT DE CORRLATION
R D'UN CHANTillON ISSU D'UNE POPULATION Celte table donne les valeurs r telles que P(IRI > r) , li = " - 2 corrlation simple li , , - 2 - cl corrlation partielle tlvec cl variables fixes
NORf"1ALE O
I~
1 2 3 4 5 6 7
8
0,1
0,05 0,9969 9500 8783 8114 0,7545 7067 6664 6319 6021 0,5760 5529 5324 5139 4973 0,4821 4683 4555 4438 4329 0,4227 4132 4044 3961 3882
0,01 0,9999 9900 9587 9172 0,8745 8343 7977 7646 7348 0,7079 6835 6614 6411 6226 0,6055 5897 5751 5614 5487 0,5368 5256 515t 5052 4958
D,DOL
~
25 26 27 28 29
30 31
0,1 0,3233 3172 3115 3061 3009 0,2960 2913 2869 2826 2785 0,2746 2709 2673 2638 2605 0,2573 2542 2512 2483 2455 0,2428 2403 2377 1353
0,05 0,3809 3739 3673 3610 3550 0,3494 3440 3388 3338 3291 0,3246 3202 3160 3120 3081 0,3044 3008 2973 2940 2907 0,2875 2845 2816 2787
.
0,01 0,4869 4785 4705 4629 4556 0,4487 4421 4357 4297 4238 0,4182 4128 4076 4026 3978 0,3932 3887 3843 3802 3761 0,3721 3683 3646 3610
0,001 0,5974 5880 5790 5703 5620 0,5541 5465 5392 5322 5255 0,5189 5126 5066 5007 4951 0,4896 4843 4792 4742 4694 0,..+647 4602 4558 4515
9
10 II 12
13 14
15
16 17 18 19
20
21 22 23 24
0,9877 9000 8054 7293 0,6694 6215 5822 5494 5214 0,4973 4762 4575 4409 4259 0,4124 4000 3887 3783 3687 0,3598 3515 3438 3365 3297
1,0000 0,9990 9911 9741 0,9509 9249 8983 8721 8471 0,8233 8010 7800 7604 7419 0,7247 7084 6932 6788 6652 0,6524 6402 6287 6177 6073
~-
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
-
TABLE
A.9 (suite)
R D'UN CHANTillON ISSU D'UNE POPULATION Cette table donne les valeurs r telles que P(IRI > r) = U', v = Il - 2 corrlation simple v = TI - 2 - cl corrlation partielle avec d variables fixes
NORMALE OU
P= 0
~
49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
0,1 2329 0,2306 2284 2262 2241 2221 0,2201 2181 2162 2144 2126 0,2108 2091 2075 2058 2042 0,2027 2012 1997 1982 1968 0,1954 1940 1927 1914 1901
0,05 2759 0,2732 2706 2681 2656 2632 0,2609 2586 2564 2542 2521 0,2500 2480 2461 2442 2423 0,2405 2387 2369 2352 2335 0,2319 2303 2287 2272 2257
0,01 3575 0,3541 3509 3477 3445 3415 0,3385 3357 3329 3301 3274 0,3248 3223 3198 3174 3150 0,3127 3104 3081 3060 3038 0,3017 2997 2977 2957 2938
0,001 4473 0,4433 4393 4355 4317 4281 0,4245 42\0 4176 4143 4111 0,4079 4048 4018 3988 3959 0,3931 3904 3877 3850 3824 0,3798 3773 3749 3725 3701
~
75 76 77 78 79
80
0,1 0,1889 IB76 1864 1852 1841 0,1829 1818 1807 1796 1786 0,1775 1765 1755 1745 1735 0,1726 1716 1707 1698 1689 0,1680 1671 1663 1654 1646 0,1638
0,05 0,2242 2227 2213 2199 2185 0,2172 2159 2146 2133 2120 0,2108 2096 2084 2072 2061 0,2050 2039 2028 2017 2006 0,1996 1986 1976 1966 1956 0,1946
0,01 0,2919 2900 2882 2864 2847 0,2830 2813 2796 2780 2764 0,2748 2733 2717 2702 2688 0,2673 2659 2645 2631 2617 0,2604 2591 2578 2565 2552 0,2540
0,001 0,3678 3655 3633 3611 3590 0,3569 3548 3527 3507 3488 0,3468 3449 3430 3412 3394 0,3376 3358 3341 3324 3307 0,3291 3274 3258 3242 3127 0,3211
81 82 83 84
85
86 87 88 89 90 91 92 93 94 95 96 97 98 99
100
TABLE
A.9 (sute)
VALEURS CRITIQUES DU COEFFICIENT DE CORRELATION
R D'UN
CHANTillON ISSU D'UNE POPULATION NORMALE O
P= 0
Cette table donne les valeurs r teHes que PCIR) > l') = 0', V Il 2 corrlation simple 11 = 11 - 2 cl corrlation partielle avec li variables fixes
I~
lOI
0,1 0,1630 1622 1614 1606 0,1599 159] 1584 1577 1569 0.1562 1555 1548 1542 1535 0,1528 1522 ]515 1509 1502 0,1496 1490 1484 1478 1472 0,1466 1460 1455
0,05 0,]937 1927 1918 1909 0.1900 1891 1882 1874 1865 0,1857 1848 1840 1832 1824 0,1816 1809 1801 1793 1786 0.1779 1771 1764 1757 t750 0,1743 1736 1730
0,01 0,2528 2515 2504 2492 0,2480 2469 2458 2447 2436 0,2425 2414 2404 2393 2383 0,2373 2363 2353 2343 2334 0,2324 2315 2305 2296 2287 0,2278 2269 2261
0,001 0,3196 3181 3166 3152 0.3138 3123 3109 3095 3082 0.3069 3055 3042 3029 3017 0,3004 2992 2979 2967 2955 0,2943 2932 2920 2909 2897 0,2886 2875 2864
~
128 129
130
0,1 1449 1443 0,1438 1432 1427 1422 1416 0,1411 1406 1401 1396 1391 0,1386 1381 1376 1371 1367 0,1362 1357 1353 1348 1344 0,1339 1335 1330 1326 1322
0,05 1723 1716 0,1710 1703 1697 1690 1684 0,1678 1672 1666 1660 1654 0.1648 1642 1637 1631 1625 0,1620 1614 1609 1603 1598 0,1593 1587 1582 1577 1572
0.01 2252 2243 0,2235 2226 2218 2210 2202 0,2194 2186 2178 2170 2163 0,2155 2148 2140 2133 2126 0.2118 2111 2104 2097 2090 0,2083 2077 2070 2063 2057
0,001 2854 2843 O,283? 282? 28[7 2801 2791 0.2781 2771 2762 275? 2742 0,2733 2724 2714 2705 2696 0,2687 2678 2669 2660 2652 0,2643 2635 2626 26[8 2610
102 103 104

lOS
131 132
133
106 107
108
134
135
109
110
III
112 113 114

115
J 16 117 118 119
136 137 138 139

140
141 142 143 144

145
120
121 122 123 124

125
146 147 148 149

150
126 127
151 152 153 154
TABLE
A.9 (suite et fin)

11
R D'UN
CHANrlLLON ISSU D'UNE POPULATION NORMALE O

Il
P=0
Celte table donne les valeurs r telles que P(!R! > r)
= Il
2 corrlation simple 2 - d corrlation partielle avec d variables fixes

ex,lI
I~
155
0,1 0,1318 1313 1309

1305
0,05 0,1567 1562 \557 1552 1547 0,\543 1538 1533 1529 1524 0,1519 1515 1510 1506 1501 0,1497 1493 1488 1484 1480 0,1476 1471 1467
0,01 0,2050 2044 2037 2031 2025

0,2019
0,001 0,2602 2594 2586 2578 2570 0,2562 2554 2547 2539 2532 0,2524 2517 2510 2502 2495 0,2488 2481 2474 2467 2460 0,2453 2446 2440
~
178 179
180
OJ
1230 1227
0,1223
0,05 1463 1459 0,1455 145\ 1447 \443 1439 0,1435 1432 1428 1424 1420 0,1417 1413 1409 1406 1402 0,1399 1395 1391 1388 1384 0,1381
D,DI
0,001 2433 2426 0,2420 2413 2407 2400 2394 0,2388 2381 2375 2369 2363 0,2357 2351 2345 2339 2333 0,2327 2321 2316 2310 2304 0,2299
156 157
158
159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176
\77
1301 0,1297 1293 1289 1285 1281 0,1277 1273 1270 1266 1262 0,1258 1255 1251 1248 1244 0,1240 1237 1233
2012 2006 2000 1994 0,1988 1982 1977 1971 1965 0,1959 1954 1948 1943 1937 0,1932 1926 1921
181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
1220 1216 1213 1210 0,1207 1203 1200 1197 1194 0,ll91
1188
1184 1181 1178 0,1175 lt72 1169 1166 ][64 O,Il61
1915 1910 0,1905 1900 1895 1890 1885 0,1880 1874 1870 1865 1860 0,1855 1850 1845 1841 1836 0,1831 1827 1822 1818 1813 0,1809
Pour v > 200 on admet que r est une ralisation d'une variable de LaplaceMGauss d'esprance nulle et d'cart-type _~.
'IV
A_Tables usuelles
579
TABLE
A.9 bis
INTERVALLES DE CONFIANCE POUR LE COEFFICIENT DE CORRELATION
(Niveau de confiance .95)
-1.0 -0.9 +1.0 +0.9 +0.8 +0.7

,Q +0.6
-o.B -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 +0.1 +0.2 +0.3 +0.4 +0.5 +0.6 +0.7 +0.8 +0.9 + 1.0
+1.0 +0.9 +0.8 +0.7 +0.6 +0.5
C(j
El +0.4
(]J
~ +0.5 0 a.
+0.3
+004
+0.3 +0.2 +0.1 0 -0,1 -0.2 -0.3 -0,4 -o.S
"0
c:
.Q +0.2
(j
u
~ +0.1
Ci
(JJ
0 -0.1 -0.2
"0
(]J
13
~ 0
~ -0.3
Cl.
Ul
(]J
-DA
-o.S
"0
Qi
.c: -0.6 u
W
-o.G
-0.7 -0.8 -0.9
~~
-o.i
-o.a -0.9
~~
-1.0 -0.9 -o.a -0.7 -0.6 -0.5 -0,4 -0.3 -0.2 -0.1
+0.1 +0.2 +0.3 +0.4 +0.5 +0.6 +0.7 +0.8 +0.9 +1.0
chelle des r (coefficient de corrlation de l'chantillon) Les nombres sur les courbes correspondent aux tailles d'chantillon
TABLE
A.I 0 TABLE DE CORRESPONDANCE ENTRE r ET z (Corrlation transforme de R. A. Fisher)
r=
exp(2t) exp(2t)
+1
0.0 0.1 0,2 0,3 OA 0,5 0,6 0.7 0,8 0,9 l,n 0.00 0,0000 0,0997 0.1974 0,1913 0,3800 0.4621 0.5370 0,6044 0,6640 0,7163 0.7616 0,8005 0,8337 0,8617 0,8854 0,9051 0.9217 0.9354 0.9468 0.95624 0,96403 0,97045 0,97574 0,98010 0,98367 O,9R661 0,98903 0,99101 0,99263 0.99396 0.01 0,0100 0,1096 0.2070 0.3004 0,3885 0,4699 0,5441 0.6107 0,6696 0,7211 0.7658 0.8041 0,8367 0,8643 0.8875 0.9069 0.9232 0,9336 0,94783 0.95709 0,96473 0,97103 0,97622 0,98049 0,98399 0,98688 0,98924 0,99118 0,99278 0,99408
;- = - I n - 0.04 0,0400 0.1391 0.2355 0,3275 OAI3h 0,4930 0.5649 0,6291 0,6858 0,7352 0.7779 0.8144 0.8455 0.8717 0.8937 0,9121 0,9275 0.9402 0,95080 0,95953 0.96675 0.97269 0,97752 0.98161 0.98492 0,98764 0.98987 0.99170 0,99320 0,99443
1 2
1+ r 1- r
0,05 0.0500 0,1489 0,2449 0.3364 0,4219 0,5005 0,5717 0.6351 0,6911 0,7398 0,7818 0,8178 0,8483 0.8741 0,8957 0,9138 0,9289 0.9414 0.95175 0,96032 0,96739 0,97323 0.97803 0.98197 0,98522 0,98788 0,99007 0,99185 0,99333 0,99454 0.06 0,0599 0,1586 0,2548 0,3452 0,4301 0,5080 0,5784 0.64\1 0,6963 0.7443 0,7857 0,8210 0.85\1 0.8764 0.8977 0.9154 0.9302 0,9425 0,95268 0.96109 0,96803 0,97375 0.97846 0.98233 0,9855\ 0.98812 0,99026 0,99202 0,99346 0,99464 0,07 0,0699 0,1684 0,2636 n,3540 0,4382 0,5154 0,5850 0,6469 0,7014 0,7487 0.7895 0.8243 0,8538 0,8787 0.8996 0.9170 0,9316 0,9436 0.95359 0,96185 0,96865 0,97426 0,97888 0,98267 0,98579 0,98835 0,99045 0,99218 0,99359 0,99475 0.08 0,0798 0,1781 0,2729 0.3627 0,4462 0,5227 0,5915 0,6527 0,7064 0.7531 0,7932 0.8275 0,8565 0,8810 0,9015 0,9186 0,9329 0,9447 0,95449 0,96259 0,96926 0,97477 0,97929 0,98301 0,98607 0,98858 0,99064 0,99233 0,99372 0,99485 0,09 0.0898 0,1877 0.2821 0.3714 0.4542 0,5299 0,5980 0,6584 0,7\14 0.7574 0,7969 0,8306 0.8591 0,8831 0,9033 0,9201 0,9341 0,9458 0,95537 0,96331 0,96986 0,97526 0,97970 0.98335 0.98635 0,98881 0,99083 0,99248 0.99384 0,99495
o,m
0,0200 0,1194 0,2165 0,3095 0.3969 0,4777 0.5511 0,6169 0,6751 0,7259 0,7699 0,8076 0,8397 0,8668 0,8896 0,9087 0,9246 0.9379 0,94884 0,95792 0.96541 0,97159 0,97668 0,98087 0,98431 0.98714 0,98945 0,99136 0,99292 0.99420
0.03 0.0300 0,1193 0.2260 0,3185 0,4053 0,4854 0,5580 0,6231 0,6805 0,7306 0,7739 0,8110 0,8416 0,8691 0.89[7 0.9104 0.9261 0,9391 0.94983 0.95873 0,96609 0.97215 0.97714 0,98124 0.98462 0,98739 0,98966 0,99153 0.99306 0,99431
1.1
1,2 \,3 1.4 1,5 1,6 1,7 1,8
1.9
2,0 2,1 2.2 2.3 2,4 2.5 2,6 2,7 2,8 2.9
A_Tables usuelles
581
TABLE
A.II
TABLE DU COEFFICIENT DE CORRLATION DES RANGS DE SPEARMAN ENTRE DE DEUX VARIABLES INDPENDANTES
Valeurs r de R" ayant une probabilit ct d'tre dpasse en valeur absolue p(l R, 1 > r) = ct
0.50 4 5 6 7 8 9 10
Il 12 13 [4 15
0.20 1.000 0.800 0.657 0.571 0.524 0,483 0,455 0,427 0.406 0.385 0.367 0.354 0.341 0.328 0.317 0.309 0.299 0.292 0.284 0.278 0.271 0.265 0.259 0.255 0.250 0.245 0.240 0.236 0.232 0.229 0.225 0.222 0.219 0.216 0.212 0.210 0.207
0.10
0.05
0.02
0.01
0.005
0.002
0.001
0.600 0.500 0.371 0.321 0.310 0.267 0.248 0.236 0.224 0.209 0.200 0.189 0.182 0.176 0.170 0.165 0.161 0.156 0.152 0.148 0.144 0.142 0.138 0.136 0.133 0.130 0.128 0.126 0.124 0.121 0.120 0.118 0.116 0.114 0.113 0.111 0.110
LOOO 0.900 0.829 0.714 0.643 0.600 0.564

0.536 0.503 0.484 0.464 0.443 0.429 0.414 OAOI 0.391 0.380 0.370 0.361 0.353 0.344 0.337 0.331 0.324 0.317 0.312 0.306 0.301 0.296 0.291 0.287 0.283 0.279 0.275 0.271 0.267 0.264
1.000 0.886 0.786 0.738 0.700 0.648 0.618 0.587 0.560 0.538 0.521 0.503 0.485 0.472 0.460 0.447 0.435 0.425 0.415 0.406 0.398 0.390 0.382 0.375 0.368 0.362 0.356 0.350 0.345 0.340 0.335 0.330 0.325 0.321 0.317 0.313
1.000 0.943 0.893 0.833 0.783 0.745 0.709 0.671 0.648 0.622 0.604 0.582 0.566 0.550 0.535 0.520 0.508 0.496 0.486 0.476 0.466 0.457 0.448 0.440 0.433 0.425 0.418 0.412 0.405 0.399 0.394 0.388 0.383 0.378 0.373 0.368
1.000 0.929 0.88] 0.833 0.794 0.755 0.727 0.703 0.675 0.654 0.635 0.615 0.600 0.584 0.570 0.556 0.544 0.532 0.521 0.511 0.501 0.491 0.483 0.475 0.467 0.459 0.452 0.446 0.439 0.433 0.427 0.421 0.415 0.410 0.405
l.000 0.964 0.905 0.867 0.830 0.800 0.776 0.747 0.723 0.700 0.679 0.662 0.643 0.628 0.611 0.599 0.586 0.573 0.562 0.551 0.541 0.531 0.522 0.513 0.5040.496 0.489 0.482 0.475 0.468 0.462 0.456 0.450 0.444 0.439
1.000 0.952 0.917 0.879 0.845 0.825 0.802 0.776 0.754 0.732 0.713 0.695 0.677 0.662 0.648 0.634 0.622 0.610 0.598 0.587 0.577 0.567 0.558 0.549 0.541 0.533 0.525 0.517 0.510 0.504 0.497 0.491 0.485 0.479
].000 0.976 0.933 0.903 0.873 0.860 0.835 0.81l 0.786 0.765 0.748 0.728 0.712 0.696 0.681 0.667 0.654 0.642 0.630 0.619 0.608 0.598 0.589 0.580 0.571 0.563 0.554 0.547 0.539 0.533 0.526 0.519 0.513 0.507
[6 17 [8 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
38
39 40
582
A_Tables usuelles
TABLE
A.II (suite et fin)
TABLE DU COEFFICIENT DE CORRLATION DES RANGS DE SPEARMAN DE DEUX VARIABLES INDPENDANTES
Valeurs r de R, ayant une probabilit a d'tre dpasse en valeur absolue pd R, 1> r) = 0: 0.50 41 42 43 44 45 46 47 48 49 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 0.108 0.107 0.105 0.104 0.103 0.102 0.101 0.100 0.098 0.097 0.095 0.094 0.092 0.090 0.089 0.087 0.086 0.084 0.083 0.082 0.081 0.080 0.078 0.077 0.076 0.075 0.074 0.074 0.073 0.072 0.071 0.070 0.070 0.069 0.068 0.20 0.104 0.202 0.199 0.197 0.194 0.192 0.190 0.188 0.186 0.184 0.180 0.]77 0.174 0.17] 0.168 0.165 0.]62 0.160 0.157 0.155 0.153 0.151 0.149 0.147 0.145 0.143 0.141 0.139 0.138 0.136 0.]35 0.133 0.132 0.130 0.129 0.10 0.261 0.257 0.254 0.251 0.148 0.246 0.243 0.240 0.238 0.235 0.231 0.226 0.222 0.218 0.214 0.211 0.207 0.204 0.201 0.198 0.195 0.193 0.190 0.\88 0.185 0.183 0.181 0.179 0.176 0.l74 0.173 0.171 0.169 0.167 0.165 0.05 0.309 0.305 0.301 0.298 0.294 0.291 0.288 0.285 0.282 0.279 0.274 0.268 0.264 0.259 0.255 0.250 0.246 0.243 0.239 0.235 0.232 0.229 0.226 0.223 0.220 0.217 0.215 0.212 0.210 0.207 0.205 0.203 0.201 0.199 0.197 0.02 0.364 0.359 0.355 0.351 0.347 0.343 0.340 0.336 0.333 0.329 0.323 0.317 0.311 0.306 0.300 0.296 0.291 0.287 0.282 0.278 0.274 0.271 0.267 0.264 0.260 0.257 0.254 0.251 0.248 0.245 0.243 0.240 0.238 0.235 0.233 0.01 0.400 0.395 0.39\ 0.386 0.382 0.378 0.374 0.370 0.366 0.363 0.356 0.349 0.343 0.337 0.331 0.326 0.321 0.316 0.311 0.307 0.303 0.299 0.295 0.291 0.287 0.284 0.280 0.277 0.274 0.271 0.268 0.265 0.262 0.260 0.257 0.005 0.002 0.473 0.468 0.463 0.458 0.453 0.448 0.443 0.439 0.434 0.430 0.001 0.501 0.495 0.490 0.484 0.479
00433 0.428 0.423 0.419 00414

00410 OA05 00401 0.397 0.393 0.386 0.379 0.372 0.366 0.360 0.354 0.348 0.343 0.338 0.333 0.329 0.324 0.320 0.316 0.312 0.308 0.305 0.30] 0.298 0.294 0.291 0.288 0.285 0.282 0.279
OA74 0.469 0.465 0.460 0.456

0.447 0.439 0.432 0.424 0.418 0.411 0.405 0.399 0.393 0.388 0.382 0.377 0.372 0.368 0.363 0.359 0.355 0.351 0.347 0.343 0.339 0.336 0.332 0.329 0.326
OA22 0.414 OA07 0.400 0.394

0.388 0.382 0.376 0.370 0.365 0.360 0.355 0.351 0.346 0.342 0.338 0.334 0.330 0.327 0.323 0.319 0.316 0.313 0.310 0.307
98
100
Pour 1/ > 100 on admet que R, est distribu comme LG( 0 ;
A_Tables usuelles
583
A.12 TEST DE CONCORDANCE DE P CLASSEMENTS (lest du W de M. G. Kendall) Valeurs critiques 1\' de Wall: = 0.05 P(W lI') = 0.05 3
TABLE
~
11
4 0,750 0,619 0,553 0,512 0,484 0,461 0,447 0.434 0,425 0,415 0,409 0,402 0,395 0,37 0,33 0,3\ 0,29 0,25
5
0,600 0,500 0,449 0,418 0,395 0,378 0,365 0,354 0,346 0,336 0,332 0,327 0,322 0,30 0,26 0,25 0,24 0,20
6 0,500 0,421 0,377 0,351 0,332 0,319 0,307 0,299 0,287 0,287 0,280 0,275 0,272 0,25 0,22 0,21 0,20 0,17
3 4 5 6 7 8 9 10 Il 12
[3
14 15 20 40 60 100
co
1 0,822 0,716 0,660 0,626 0,595 0,576 0,560 0,548 0,535 0,527 0,520 0,514 0,49 0,43 0,41 0.38 0,33
Pour p 2: 7 la quantit p(n - 1) West distribue approximativement selon un X~ _1"
TABLE
A.ll
lIor = /1
FONCTiON DE RPARTiTiON DE LA STATISTiQUE DE CRAMER-VON MISES

J
...
121/
i':',
Il
(2i - 1-2n
~
dF(x)
F,;I: est la fonction de rpanilion empirique de l'chantillon
F est lu fonction de rpartition de la variable chantillonne YI' Y2' ... , Yll les valeurs de l'chantillon ordonn
Celle table donne les valeurs
telles que: 1 ]-r.x.
Il
t:Y
<
z)
0.99 0.55052 0.63976 0.67017 0.68352 0.69443 0.70154 0.70912 O.711tG 0.71582 0.72948 0.73784 0.74205 0.743J8 0.74346
0.975 0.48897 0.53316 0.54200 0.55056 0.55572 0.55935 0.56327 0.56513 0.56663 0.57352 0.57775 0.57990 0.58047 0.58061
0.95 0,42482 0,43938 0.44199 0,44697 0.44911 0,45100 0,45285 0.45377 0.45450 0.-15788 0.45996 0.46101 0.46129 0,46136
0.90 0.34346 0.33786 0.34183 0.34238 0.34352 0.34397 0.34461 0.34491 0.34514 0.3-1621 0.34686 0.34719 0.34728 0.34730
0.85 0.28853 0.27963 0.28337 0.28305 0.28331 0.28345 0.28358 0.21G64 0.28368 0.28387 0.28398 0.18404
0.28~06
D.!m
0.75 0.21521 0.21339 0.2\ 173 0.21165 0.21110 0.21087 0.21066 0.21052 0.21041 0.20990 0.20960 0.20944 0.20940 0.20939
0.50 0.12659 0.12542 0.\2405 0.12152 0.12200 0.12158 0.12113 0.12088 0.12069 0.11979 0.11924 0.11897 0.11890 0.11888
0.25 0.08145 0.07683 0.07494 0.07427 0.07352 0.07297 0.07254 0.07228 0.07208 0.07117 0,(J7062 0.07035 0.07027 0.07026
0.20 0.07351 0.06886 0.06681 0.06611 0.06548 0.06492 0.06448 0.06423 0.06403 0.06312 0.06258 0.06131 0.06224 0.06212
0.15 0.06554 0.06092 0.05895 0.05799 0.05747 0.05697 0.05650 0.05625 0.05605 0.05515 0.05462 0.05435 ()'()5428 0.05426
0.10 0.05758 0.05287 0.05093 0.04970 0.04910 0.04869 0.04823 0.04798 0.04778 0.04689 0.04636 0.(14610 0.()4603 0.04601
0.05 0.04963 0.04355 0.()4147 0.04035 0.03960 O,()3914 0.03876 OJJ3850 0.03830
0.037~2
O.02S 0.04565 0.03777 0.03537 0.03422 0.03344 0.03293 0.03256 0.03230 0.03209 0.03120 0.03068 0.03043 0.03037 0.03035
0.01 0.04326 0.03324 0.03013 0.02876 0.02794 0.02738 0.02706 0.02679 0.02657 0.02564 0.01512 0.02488 0.0248\ 0.02480
2 3 4 5 6 7 8 9 10 20 50 200 1000
00
0.28406
0.24743 0.24169 0.24260 0.24236 0.24198 0.24197 0.24187 0.24180 0.24175 0.24150 0.24134 0.24126 0.24124 0.24124
0.03690 OJB665 0.03658 0.03656
AIIIIIIIIIITables usuelles
585
A.14
TABLE
TABLE DU TEST DE KOLMOGOROV-SMIRNOV

1 1
DII = sup f~;(x) - F(x) Valeurs de dl! lelles que P = P(Dn < dit)
/1
p:= .80
.90000 .68377 .56481 ,49165 ,44698 A 1037 .38148 .35831 33910 .32160 .30829 .19577 .28470 .27481 .26588 .25778 .15039 .14360 .13735 .23156 .22617 .22115 .21645 ,21105 .20790 .20399 .20030 ,19680 19348 .19032 .18732 .18445 .18171 .17909 .17659 .17418 17188 .16966 16753 .16547 .16349 .16158 .15974 .15796 .15623 .15457 .15295 .15139 14987 .14840
p = .90
p;;; .95
p= .98
.99
2 3 4 5 6 7 8 9 10
Il
.95000 .77639 .63604 .56522 .50945 .-1-6799 .-1-3607 .40962 .38746 .36866 .35242 .33815 .31549 .31417 .30397 .29412 .28627 .17851 .17136 .16473 .25858 .25283 .24746 .24242 .23768 .23320 .22898 .21497 .22117 .11756 .21411 .2[085 .20771 .20471 .20185 .19910 .19646 .19392 .19148 .18913 .18687 .18468 .18257 .18053 .17856 ,17665 .17481 .17302 .17128 .16959
.97500 .84189 .70760 .62394 .56328 .51926 .48342 .45427 .43001 .40925 39112 .37543 .36143 .34890 .33760 .32733 .31796 .30936 .30143 .19408 .18724 .28087 .17490 .26931 .26404 .25907 .25438 .24993 .24571 .24170 .13788 .23424 .23076 .22743 .22425 .22119 .21826 .21544 .21273 .21012 .20760 .20517 .20283 .20056 .19837 .19625 .19420 .19221 .19028 .18841
.99000 .90000 .78456 .68887 .61718 .57741 .53844 .50654 .47960 .45662 .43670 041918 A0362 .38970 .37713 .36571 .35528 .34569 .33685 .32866 .31104 .31394 .30728 .30104 .29516 .28962 .28438 .27941 .27471 .27023 .16596 .26189 .25801 .25429 .15073 .24731 .24404 .24089 .13786 .23494 .13113 .11941 .22679 ,22426 .n181 .21944.21715 .21493 .21277 .21068
.99500 .92929 .82900 .73424 .66853 .61661 .57581 .54179 .51331 .48893 .46770 .44905 .43247 .41762 .40410 .39201 .38086 .37061 .36117 .35241 .34427 .33666 .32954 .32286 .31657 .31064 .30501 .29971 .29466 .28987 .28530 .18094 .27677 .27179 .26897 .26532 .26180 .25843 .25518 .25205 .24904 .24613 .24332 .24060 .23798 .23544 .23298 .23059 .22828 .22604
Il
13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 4\ 42 43 4445 46 47
48
49 50
586
A_Tables usuelles
TABLE
A. 14 (suite et fin) TABLE DU TEST DE KOlHOGOROV-SMIRNOV

DI! = sup F:1(x) - F(x) Valeurs de dl! telles que P P(Dn
1 1
<
dl!)
1/
p
.14697 .14558 .14423 .14292 .]4164 .14040 .13919 .13801 .13686 .13573 .13464 .13357 .13253 .13151 ,13052 .12954 .12859 .12766 .12675 .12586 .12499 .12413 .12329 .12247 ,12167 .12088 .12011 .11935 .11860 .11787 .11716 .11645 .11576 .11508 .11442 .11376 .11311 .11248 .11186 .11125 .11064 .11005 .10947 .10889 .10833 .10777 .10712 .10668 .10615 .10563 1.073/.,Jn
.90 .16796 .16637 .16483 .16332 .16186 .16044 .15906 .15771 .15639 .15511 .15385 .15263 .15144 .15027 .14913 .14802 .14693 .14587 .14483 .[4381 .14281 ,14183 .14087 .13993 .13901 .13811 .13723 .13636 .13551 .13467 .13385 .13305 .13226 .13148 .13072 .12997 .12923 .12850 .12779 .12709 .12640 .12572 .12506 .12440 .12375 .12312 .12249 .12187 .12126 .12067 1.223/-fn
P = .95
.18659 .18482 .18311 .18144 .17981 .17823 .17669 .17519 .17373 .17231 .17091 .16956 .16823 .16693 .16567 .16443 .16322 .16204 .16088 .15975 .15864 .15755 .15649 .15544 .15442 .15342 .15244 .15147 .15052 .14960 .14868 .14779 .14691 .14605 .14520 .14437 .14355 .14274 .14195 .14117 .14040 .13965 .13891 .13818 .13746 .13675 .13606 .13537 .13469 .13403 1.358/-fn
P = .98
.20864 .20667 .20475 .20289 .20107 .19930 .19758 .19590 .19427 .19267 .19112 .18960 .18812 .18667
P = .99
.22386 .22174 .21968 .21768 .21574 .21384 .21199 .2\019 .20844 .20673 .20506 .20343 .20184 .20029 .19877 .19729 .19584 .19442 .19303 .19167 .19034 .18903 .18776 .18650 .18528 .18408 .18290 .18174 .18060 .17949 .17840 .17732 .17627 .17523 .1742\ .17321 .17223 .17126 .17031 .16938 .16846 .16755 .16666 .16579 .16493 .16408 .16324 .16242 .16161 .16081 1.629/.,Jn
51
52
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
.18515
.18387 .18252 .18119 .17990 .17863 .17739 .17618 .17498 .17382 .17168 .17155 .17045 .16938 .16832 .16728 .\6626 .\6526 .16428 .16331 .16236 .16143 .1605\ .15961 .15R73 .15786 .15700 .15616 .15533 .15451 .15371 .15291 .15214 .15137 .15061 .14987 1.518/-fn
96
97 98 99 100
n> 100
4_Tables usuelles
587
TABLE
A.I 5
VALEURS CRITIQUES DU COEFFICIENT D'ASYMTRIE EMPIRIQUE
D'UN CHANTILLON DE
n OBSER.VATIONS
D'UNE VARIABLE DE LAPLACEGAUSS
p 0.05 7 8 9 10 12 15 20 25 30 35 40 45 50 60 70 80 90 100 125 150 175 200 250 1.018 0.998 0.977 0.954 0.910 0.851 0.772 0.711 0.662 0.621 0.587 0.558 0.534 0,492 0.459 0.432 0.409 0.389 0.350 0.311 0.298 0.180 0.251
O.DO
(1- 2:(.\:j " Il;-1

1 .\"
:\:)3
>b =a
0.01 1,457 1,452 1.433 1.407 1.353 1.272 1.155 1.061 0.986 0.923 0.870 0.825 0.787 0.723 0.673 0.631 0.596 0.567 0.508 0.464 0,430 0,403 0.360 0.329 350 400 450 500 550 600 650 700 750 800 850 900 950 1000 1200 l400 1600 1800 1000 1500 3000 3500 4000 4500 5000
0.05 0.213 0.200 0.188 0.179 0.171 0.163 0.157 0.151 0.146 0.142 0.138 0.134 0.130 0.127 0.116 0.107 0.100 0.095 0.090 0.080 0.073 0.068 0.064 0.060 0.057
0.01 0.305 0.285 0.269 0.255 0.243 0.233 0.224 0.215 0.108 0.202 0.196 0.190 0.L85 0.180 0.165 0.152 0.142 0.134 0.127 0.114 0.104 0.096 0.090 0.085 0.081
300
588
A.16
A_Tables usuelles
TABLE
VALEURS CRITIQUES DE COEFFICIENT D'APLATISSEMENT
D'UN CHANTILLON DE
n OBSERVATIONS D'UNE VARIABLE DE LAPLACE-GAUSS
P
0.01 7 8 9 10 Il 15 20 25 30 35 40 45 50 75 100 125 150 100 250 300 350 400 450 500 550 600 650 700 800 900 1000 1200 1400 1600 1800 1000 2500 3000 3500 4000 4500 5000 1.25 1.31 1.35 1.34 1.46 1.55 1.65 1.72 1.79 1.84 1.89 1.93 1.95 1.08 2.18 2.24 2.29 1.37 2,42 2.46 2.50 2.52 2.55 2.57 2.58 2.60 2.61 2.62 2.65 2.66 2.68 2.71 2.72 2.74 2.76 2.77 2.79 2.81 2.82 2.83 2.84 2.85
C'
- 2: (Xi
/1 i=1
.'1
~I
0.05 1,41 1.46 1.53 1.56 1.64 1.71 1.81 1.91 1.98 2.03 2.07 2.11 1.15 2.17 2.35 2,40 2,45 3.51 2.55 2.59 2.62 2.64 2.66 2.67 2.69 2.70 2.71 2.71 2.74 2.75 2.76 2.78 2.80 2.81 2.82 2.83 2.85 2.86 2.87 2.88 2.88 2.89
<b =
0:
0.95 3.55 3.70 3.86 3.95 4.05 4.13 4.17 4.16 4.11 4.10 4.06 4.00 3.99 3.87 3.77 3.71 3.65 3.57 3.52 3,47 3.44 3,41 3.39 3.37 3.35 3.34 3.33 3.31 3.29 3.28 3.26 3.24 3.22 3.21 3.20 3.18 3.16 3.15 3.14 3.13 3.12 3.12
0.99 4.19 4.53 4.82 5.00 5.20 5.30 5.36 5.30 5.21 5.13 5.04 4.94 4.88 4.59 4.39 4.24 4.13 3.98 3.87 3.79 3.72 3.67 3.63 3.60 3.57 3.54 3.52 3.50 3,46 3,43 3,41 3.37 3.34 3.32 3.30 3.28 3.25 3.22 3.21 3.19 3.18 3.17
A_Tables usuelles
589
TABLE
A.I 7
TEST DE DURBIN ET WATSON
VALEURS CRITIQUES AU SEUIL
5 % POUR Ho : p = 0 Ji : nombre de variables explicatives Il ; nombre d'observations
o
p=1
11
Ho refuse
p=2
incertitude
Ho accepte
p
d~up
{/inf
p=3
4
d sup
p=5
diflr
"sup
dinf'
"SliP
dinf
clinf
d,ur
15 16 17
18
19 20 21 22 23 24 25 26 27 28 29 30 31 32
33
1.08 1.10 1.13 1.16 1.18 1.20 1.12 1.24 1.26 1.27 1.29 1.30
1.32
1.36 1.37
1.38
0.95
0.98 1.02
1.39 1040
lAI
34 35 36 37 38 39 40 45 50 55 60 65 70 75 80
85
1.33 1.34 1.35 1.36 1.37 1.38 1.39 1040 1.41 1.42 1.43 1.43
l.44
90 95 100
1048 1.50 1.53 1.55 1.57 1.58 1.60 1.61 L62 1.63 1.64 1.65
1.42 1.43 1.44 1.45 L.45 1.46 1.47 1.48 1048 1.49 1.50 1.50 1.51 1.51 1.52 1.52 1.53 1.54 1.54 1.54 1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.69
l.05 1.08 1.10 1.13 1.15

1.17
1.19 1.21 1.22 1.24 1.26 1.27 1.28

1.30
1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.43 1046 1.49 1.51 1.54 1.55 1.57 1.59 1.60 1.61 1.62 1.63
1.54 1.54 1.54 1.53 1.53 1.54 1.54 1.54 1.54 1.55 1.55 1.55 1.56 1.56 1.56 1.57 l.57 1.57 1.58 1.58 1.58 1.59 1.59 1.59 1.60 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.70 1.71 1.72
0.82 0.86 0.90 0.93 0.97 1.00 1.03 l.05 1.08 1.10 1.12 1.14 1.16 1.18
1.20
1.21 1.23 1.24 1.26 1.27 1.28 1.29 1.31 1.32 1.33 1.34 1.38 1.42 1.45 1.48 1.50 1.52 1.54 1.56 1.57 1.59 1.60 1.61
1.75 1.73 1.71 1.69 1.68 1.68 1.67 1.66 1.66 1.66 1.66 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.67 1.67 1.68 1.69 1.70 1.70 1.71
1.72 1.72
0.69 0.74 0.78 0.82 0.86

0.90 0.93
1.97 1.93
1.90
1.87 1.85
1.83
0.56 0.62 0.67 0.71 0.75 0.79

0.83
2.21 1.15 2.10

2.06
0.96 0.99 1.01

1.04
1.06 1.08 1.10 L12 1.14 1.16

1.18
1.19 1.21 1.22 1.24 1.25 1.26 1.27 1.29 1.34 1.38 1.41
1.44
1.81 1.80 1.79 1.78 1.77 1.76 1.76 1.75 1.74 1.74 1.74 1.73 1.73 1.73 1.73 1.73
1.72
0.86 0.90
0.93
0.95 0.98 1.01 1.03 1.05 1.07 L09 1.11

1.l3
1. J 5 1.16
1.18
1.72 1.72 1.72 1.71 1.72

1.72
1.73 1.73 1.74
1.47 1.49 1.51 1.53 1.55 1.57 1.58 1.59
1.73 1.73 1.74 1.74 1.74 1.75 1.75 L75 1.76
1.19 1.21 1.22 1.23 1.29 1.34 1.38 1.41

1.44
1.02 1.99 1.96 1.94 1.92 1.90 1.89 1.88 1.86 1.85 1.84 1.83 1.83 1.82 1.81 1.81 1.80 1.80 1.80 1.79 1.79 1.79 1.78
1.77
1.46 1.49
1.51
1.52 1.54 1.56 1.57
1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78 1.78 1.78
590
A_Tables usuelles
TABLE
A.18 COEFFICIENTS POUR CALCULER L'ESPRANCE ET LA VARIANCE DE L'CART-TYPE CORRIG ET DE L1TENDUE D'UN CHANTILLON GAUSSIEN
C4
Il
d2
1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.173 3.258 3.336 3.407 3.472 V(S*)
dJ
0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.787 0.778 0.770 0.762 0.755
3
4 5 6 7 8 9 10 11 12 13 14 15
0.7979 0.8862 0.9213 0.9400 0.9515 0.9594 0.9650 0.9693 0.9727 0.9754 0.9776 0.9794 0.9810 0.9823
E(S*)
= c.,cr
= (1
c/}O'2
E(R) = dp
VeR) = (d;,O'f-
Voir chapitre 12 12.2.3.3.
r.!}
Formulaire
TABLEAU
B.I PARAMTRES DES PRINCIPALES DISTRIBUTIONS DISCRTES

1
Esprance Loi
E(X)
Variance
V(X)
Coefticicnt d'asymtrie "Y,
Coellicient
d'aplatissement "YJ
Binomiale OO(1l ; p)
P(X
x)
CI;~pxqrr-\
"(1
I/pq
q - p --
{,;pq
+
1 - 6pq + -----'-~
npq
0,1,2, . .. ,11
; p)
Binomiale ngative 8-(11

P(X
x)
C::.;_)_I q
_ (,,)-
1- q
p)1I
l
np
1 1
npC!
1 + -+ 6pq -"pq
C:'/lp-<q-"-X q
1+ p 0, 1.2, "
,,00
Pascal PU(1l ; p)
P(X x)
Il, Il
--------~----~---1
C~~II(1l1q.I-1l
Il
IIq
~
2 -
P
= 1
p-
p2 + 6q + ---
Ilq
1, ... ,0:::
P+q
Hypergomtrique
Il,p) P(X x) , IIp N - 11 Ilpq-N - 1
Ci~J C,::/-.I
c,~
q - P N - 2u --='--~Tlpq N 2
{N (N
J
1)(N + i)
2)(N - 3)
([ _
+ -------(N - TI)(N - 2)(N
(N -
1)N(N
l)
lIpq
6~ N+ 1
3)
(pq + n(" ., N))

N-
Poisson PJl(IIl)
P(X
x)
=:
exp(-IIl)
,,00
(~) x!
Il
III
III
+~
III
0, 1.2, " l
Uniforme
P(X x)=:Il
+
2
--
Il"l -
12
1.8--.,--
2.4
u- - 1
1,2,.,., Il
TABLEAU
B.2
PARAMTRES DES PRINCIPALES DISTRIBUTIONS CONTINUES
Esprance Loi Comnuc uniforme sur [0, 1j LO(III; rr)

E(X)
Variance
V(X)
Coefficiem d'asymtrie "YI

0
()
CocfI1ccnt d'aplatissement "Y2

1.8
---_...... _--.
1/1
1/1
1/12
u2
3 3 + 6/1'
'Yr
X,;
~
r
Il
r
'lI!
11/(/1 - 2yll
{87;;
0
3 + 12/11
3
Student 7;,
0
11/(11
+ 6/(11
4)(2)
Bela 1 (fi, p)
+ p)
"17 (Il
- 6
p) t 1)
+ P + 1)(/1 +
/1(/1
Beta Il (II, p)
II
+
+
P - 1)
+3
P
F(1I, p)
11
(p 2p'2(fI
t)2 (p - 2)
P - 2)
- 22) + 3
p-2
cxp(m
n(p - 2)2(p - 4)
-----Log-normale
+~)
exp(2111 -1- rr2 )(exp rr::! - 1)
(exp
(}"2
exp -lu'! + '2 exp 3rr2
+ 3 exp 2rr2 -
Weibull
f(x) "'" I3x11-1
r(1 + cxp(-x exp( -x
k)
r(
~) 'iT
2
(E(x"
-_._---- 0.57722
Oumbc1
(1) si (2) si
/1
/6
1.29857
5A
/1
> 2. > 4.
594
B_Formulaire
Quelques relations exactes entre les principales distributions

Loi de Pascal et loi binomiale ngative
Si X suit une loi Pa
(Il :
pl, X -
Il
suit une loi binomiale ngative B- (,,; 1 ~
p),
Loi de Poisson et loi du X2

Si X suit une loi 9(111) :
P(X::; x) = P(X~(x+l)
>
2111)
Loi binomiale et loi de Fisher-Snedecor

Si X suit une loi @(Il ; p):
P(X:5 x)
P( F > - - - X + Il P
Il-X
o F a pour degr de libert 2(x + 1) et 2(n - x).
Loi de Fisher-Snedecor et loi de Student

T} F(l;n)
Loi gamma et loi du X2

Si X suit une lO 'Y r> 2X est un
Xir.
p
11
Lois bta et loi de Fisher-Snedecor

Si X bta 1 (Il ;p):
X
1- X
-
= F(2n ~ 2p)
SiX bta Il (Il ; p) :
pX
Il
= F(21l ; 2p)
Calcul des fonctions de rpartition de certaines lois continues
Les formules qui suivent permettent de calculer exactement ou approximativement avec une grande prcision P(X < x) ou P(X > x). Leur intrt est d'tre facilement programmables mme sur une calculatrice de poche et d'viter le recours des tables.
C.I
LOI NORMALE CENTRE-RDUITE

li
L'approximation suivante fournit pour tout rieure 10- 7
positif PC U <
LI)
avec une erreur inf-
avec:
1 + O.2316419u '
hl
= 0.319381530 ~
bl = -0.356563782;
b] = L781477937;
b4
-
1.821255978 ;
b'j
1.330274429.
596
CIIIIIIIICaicul des fonctions de rpartition de certaines lois continues
C.2 C.2.1
C.2. 1. 1
lOI DU X~
Formules exactes
11
pair:
peX;: > x) =
en particulier on a peXi
.,
\'/2-1
exp
-ry- -.-,
-
_\-)
(x)'
~ ;-
i;(j
1.
., <
x)
1 - exp
(-'2 . x)
C.2.1.2
v impair:
peX~ >
x)
= 2P U > ~x + _ exp -ry- x ~ ~

1J27f -
-)
")
(1)1
FI
1.3.5 ... C2j - 1)
en particulier on a PCXT
<
x)
= 2P( V < -{;) -
1.
C.2.2
Formules approches
La meilleure est celle de Wilson-Hilferty qui donne P avec deux dcimales exactes ds que Il ~ 3 :
peX~ < x) = P U <
2 ~ ( 9V)~ ((r)J + ;v 'J
1))
d'o pour la valeur x de X~ ayant la probabilit p d'tre dpasse:
x=1' l--=-+u 91'

o
Il
[ ")
~]J -=9\'
est le fractile correspondant de U: PCV>
ll)
= p.
C.l
lOI DE FISHER-SNEDECOR F(l1l ; 112)
On utilisera l'approximation de Paulson drive de cel1e de Wilson-Hilferty :
C_Calcul des fonctions de rpartition de certaines lois continues
597
elle donne ds que Si ",
Il::. ;:::
4 el pour tout
VI'
2 dcimales exactes.
3 on multipliera la fmction ci-dessus par (1
+ 0.08
,\~;).
C.4
FONCTION DE RPARTITION DE LA LOI DE STUDENT Tn

Formules exactes
n
C.4. 1
C.4.1.1
=1
1
'li(l
TI est la loi de Cauchy de densit
t-)
") d'o:
peT < t)
rciproquement si on connat Cl tel que:
=- +-
1 2
Arc tg t
t g(
'li
p(Ir,1 < tl on a : 1 :
~ ex).
CA.I.2
En posant
Il
e=
Arc tg _r on a :
'111
impair:
p
(T" 1 < 1
t) = -
'li
2 { e + sin .
2 e [ cos e + - cos 3 e + ... + 2.4..... (11
- 3) ,]} cm;//-- e 1.3 ..... (11 - 2)
Tl
pair:
P (T" 1
<
t)
1", . = sm e { 1 + - cos- A + ... +
1.3.5 .. .(n - 3)
2.4.6 .. .(n - 2)
.,} cos/J-- e
en particulier on en dduit:
PCll1l <
t) = - -
et
P (IT 1
4
<
t)
61
(4
+ (3 + /1)3/1 .
C.4.2
Formule approche
F(l ; n)
Elle se dduit de l'approximation de la loi de Fisher-Snedecor car T}'
(ITI
>
1)
les fonctions
eulriennes
et B
D.I
LA FONCTION f'
EUe est dfinie pour x > 0 par:
f(x) =
lXexp( -t)tX-1dt
()
Relation fondamenLale : En effet: f(x
1) =
r
1
r(x
1) = x1'(x)
exp( -1)1-' dl =
r
1
d(exp( -t))t-'
= [-eXP(-llI X ] :
+ xI.:eXP(-lll x - t dt
Or exp ( - t)t X vaut 0 si x vaut 0 ou Ona: d'o:

f(1l
.:.c.
f(1) = J""'eXp(-t)df = 1
()
1)
nf(Jl) = n(n -
1)f(n - 2)
1)
n!f(l) = n!
f(n
= n!
La fonction f gnralise la notion de factorielle aux nombres rels positifs (fig. D.l) : Lorsque x
~
0, f(x)
00.
En effet, supposons f(x) ~ m tin, d'aprs f(x + 1) x ~ 0 f( 1) = 0 ce qui est absurde, donc f(x) ~ 00.
= xf(x) on obtient par continuit si
600
D_Les fonctions eulriennes
r et B
r(x)
5
4
3
2
x
FIGURE
D.I
On dmontre la formule de Stirling partir de l'tude de la fonction f :

Il!
11"
exp( -Il)
On a aussi la formule: r(l.)fO En effet
z) = -.-'iT
sm TIZ
et f ( k + 1
1)
L.3.5 ... (2le - J) r(~).

2k
r( + D=
k
(k
~) r( k - ~) = 2k 2
r(
k -
~) d'o le rsultat en itrant.
0.2
LA FONCTION B DE DEUX VARIABLES
Dfinition:
f(p) f(q)
B(p, q)
= ['(p + q)
en particulier si p et li sont entiers :

B(p, q)
= ----"---Cp + q 1)!
1)!
-----=------=-----=------:-(p + q - 1)(p + q 2)! (p + q l)CF+l~-:!
(p - l)!(q
1)!
Cherchons exprimer B par une intgrale :
D_ Les fonctions eulriennes
r et B
601
donc:
Passons en polaires:
li
p cos
\' = p sin
e:
donc:
B(p, q)
=1
1
()
"1r/2
(cos
H)~l'-I(sin
ef!iJ- Ide
En particulier:
B(~ ~) J rG)L[r(~\)]:2
2'1
r(1)
donc:
H~) = {,;I
En passant en coordonnes cartsiennes, donc en posant cos:! A = t on trouve:
Quelques rsultats utiles d'algbre

linaire
E est un espace vectoriel de dimension finie muni d'une mtrique IVI (matrice symtrique dfinie positive). La plupart des proprits suivantes seront nonces sans dmonstration.
E.I
MATRICES M-SYMTRIQUES
n'Mv,
Soit A une matrice carre 17, 11. Le produit scalaire dans E tant dfini par (n, v) l'adjointe A* de A est dfinie par: (A*u, v) (n, Av) Vu, v
Si A* = A on dit que A est M-symtrique, ceci entrane que:
n'MAv = ni A'IVIv Vu, v

donc: lVIA = A'lV[
On montre que A est alors diagonalisable, que ses valeurs propres sont relles et que ses vecteurs propres sont lVI-orthogonaux deux deux, ce qui gnralise les proprits des matrices symtriques. Si n"
U2 ... ,
u ll forment une base M-orthononne de E alors
2: UiU~ =
1
11
lVi- l .
E.2
PROJECTEURS M-ORTHOGONAUX
Py
tant donn un sous-espace W de E, P est la matrice de projection M-orthogonale sur "V si E Wet si (Py, y Py) = 0 (fig. E.l). Ce qui revient crire que Py
E
W Vy, que p:!
P et que P'IVI
MP.
Un projecteur M-orthogonal est une matrice idempotente et M-symtrique. Les valeurs propres de P sont alors 1 ou 0 et Trace P
= dim
W = rang P.
604
EIIIIIIIQuelques rsultats utiles d'algbre linaire
w
FIGURE
El
Si Pl + P:, + ... + Pk sont des projecteurs J'VI-orthogonaux alors PI + P 2 + ... + Pk n'est un projecteur M-orthogonal que si, et seulement si, PiPj = 0 pour i j, c'est--dire si les espaces d'arrive des Pi sont lVI-orthogonaux.
'*
M~orthogonal
Si W.l est le supplmentaire .J'VI~orthogonal de ~v dans E, alors 1 - P est le projecteur sur W.l.
criture explicite du projecteur P

Supposons W engendr par p vecteurs linairement indpendants la matrice (11, p) ayant les Xi pour vecleurs~colonnes.
XI> X2' "
xl' et soit
y Py dOt tre orthogonal tout vecteur de W ; or, tous les vecteurs de W sont de la forme Xu, en particul ier Py = Xb.
11 faut donc {Xu j ; y - Py) = 0
i = l, 2, ... , 12
Py)
o les
Ui
forment une base de
!R/I :
u~ X'l\1(y
=0
'\Ii
p, X/MX est inversible, il vient:
donc X/My
= X'.J'VIPy ; comme Py = Xb et que dim W

X'lVIy X'MXb et
= X(X'MX)-IX'l\tI
X 5' crit:
En particulier, le projecteur l\1-orthogonal sur un vecteur
xx'J'Vl
(x'lVIx)
car x'lVIx est un scalaire.
E.3
PSEUDO-INVERSES
Soit A une matrice rectangle appliquant un espace E dans un espace F. Une matrice A - appliquant F dans E telle que:
A-y = x
est appele pseudo-inverse de A.
el
Ax = y
'\Iy
Im(A)
E_Quelques rsultats utiles d'algbre linaire
605
Il existe toujours au moins un pseudo-inverse qui vritie la relation caractristique:
AA-A
Il Y a en gnral une infinit de pseudo-inverses, mais il n'existe qu'un seul pseudoinverse A +, dit de Moore-Penrose, vrifiant en plus:
A+ Ak'<
A+
AA+ = (AA+)' A+ A = (A+ A)'

Pseudo-inverse d'une matrice diagonale:
D=
[dl
d2
0
[IMI
il vient:
D+
1/d2
0
J J
<p
le projecteur M-orthogonal
Il est alors immdiat de trouver le pseudo-inverse de Moore-Penrose d'une matrice symtrique non rgulire en travaillant sur la matrice diagonale de ses valeurs propres.
On en dduit la forme gnrale du pseudo-inverse de Moore de toute matrice rectangle A :
A+ = (A'A)+A'
o A' A est symtrique, en particulier si A' A est inversible (le rang de A est gal au nombre de colonnes de A) A + = (A'A)-lA'. Si XI' x::' ... , xl' engendrent un espace W de dimenson sur West alors:
X(X'MX)-X'M
E.4
FORMULES DE DRIVATION VECTORIEllE

--'l>
Soit 9 une applicaton de l'espace vectoriellRP dans IR lu Par diinition on a :
g(u).
dg
du
u=
606
1
PROPRIT
--- = a
du En effet:
d(a/u)
si a est un vecteur constant.

p
a'u =
d(a'u)
LClilli i=]
Donc:
--- -
au i
ai
PROPRIT
l
J~'
Soit A une matrice carre de taille p :

d(u'Au) du
= Au + A'u
Soit aij l'lment courant de A ; on a :

U
1
Au
LLaijlt iU)
i )
Cherchons
a(u ' Au)

altI ll)
. : les termes contenant LI] au premIer degr sont de deux sortes:
ceux provenant de
= Ui
et ceux provenant de
Ui
= LI!,
c'est--dire
L (lillljll,
i*!
et
.~(/]PI1.1) dont les drives sont .~a)}lj et ,~(/illIi et il faut ajouter li Il tI, chacun.
J~")
l,)
On a donc:
d(u/Au)
"il,~J'lI' ~ ]
j
"(l,') li ~ 1,
du
---=
d(u/Au) du
u+ A' u
En particulier pour une matrice H, symtrique H Donc:

d(u'Hu) ---=2Hu du
= H'.
607
Application la maximisation du quotient de deux formes quadratiques

Soient A et B deux matrices symtriques de mme taille. B sera suppose inversible. u'Au Alors le rapport 1 est maximal pour u vecteur propre de B- JA, associ sa plus u Bu grande valeur propre .j. I tant alors la valeur du maximum.
lII1IIlII
u' . ' . tient en annu 1 sa d'" ant envee qUi vaut: D emonstratlon: Un extremum de -Au S , 0 b' u'Bu
(u'Bu)(2Au) (u ' Au)(2Bu)
(u'Bu):!
Sot:
(u'Bu)Au = (u' Au)Bu B-1Au =
U'AU) -.(,u'Ru u (U/AU). Le maximum est u'Bu
u est donc vecteur propre de n-1A associ la valeur propre donc atteint si cette valeur propre est maximale.
ibliographie
ALLlSON, P.D., i'vlissing data, Sage Publications, 200l. ANDERBERG, M.R., Cll/ster analyss for applications, Academie Press, New York, 1973. ANDERSON, T.\V., AI1 introdllctio1l ta nmltivariate statisticczl ana/j'sis, '''iley, 3 e d., New York, 2003. ARDrLLY, P., Les techniques de sondage, Editions Technip, 2006. BARDOS, M., Analyse discriminante, Dunod, 200l. BAR.NETI, V., Interpreting multivariale data, Wiley, New York, 198 t. BENJAMINI, Y., HOCHBERG, Y. Controlling the faise discovery rate: a practical and powerfuI approach to multiple testing }). Journal of tlle Royal Statistical Society, B, 57,
289-300, 1995.
BENOIST, D., TOURBR, Y., GER.MAlN-TOURBR, S., Plans d'expriences: construction et analyse, Tec et Doc Lavoisier, 1994. BENZCRI, J.-P. et al., L'analyse des donnes, tome 1 : la tax:nomie, tome II : l'analyse des correspondances, 3e d., Dunod, Paris, 1979. BENZCRI, J.-P., Histoire et prhistoire de l'allalyse des d01lnes, Dunod, Paris, 1983. BENZCRI, 1.-P., La place de l'a priori, Encyc10pedia Universals, tome 17, 11-23, Paris. BERNIER, 1., UUvIO, J., lments de dcision statistique, PUE Paris, 1973. BERTIER, P., BOUROCHE, J.-M., Analyse des donl1es TllllltidhneTlsioll11elles, PUF, Paris, 1975. BHATTACHARYYA, G.K., JOHNSON, R.A., Statistical concepts and met/wds, Wiley, New York,
1977.
BIRJs, D., DODGE, Y, Alfemutive methods of regressioll, Wiley, 1993. BOUROCHE, J.-M., Analyse des d01lnes en 111arkelillfj, Masson, Paris, 1977. BOUROCHE, J.-M., SAPORTA, G., L'analyse des dOlllIes, Collection Que sais-je, PUF, Paris, 1980. BREUvIAN, L., FRIEDMAN, J., OLSHEN, R.A., STONE, C.J. Classificatioll and regl'ession trees,
Wadsworth,1984.
BRUYNHOOGHE, M., Classification ascendante hirarchique de grands ensembles de donnes. Un algorithme rapide fond sur la construction de voisinages rductibles ). Calliers de l'Analyse des DOlInes 3, 1, 1978. BURGES, C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition . Knowledge Discovery and Data Mini1lg, 2(2), 1998.
610
_ Bibliographie
CAILLIEZ, E The analytical solution of the additive constant problem . Ps)'chometrika, 48, 305-310, 1983. CAILLIEZ, E, J.-P., ln/roduction il l'analyse des donnes, Smash, Pars, 1976. CAPERAA, P., VAN 8., Mthodes et modles ell statistique non paramtrique, Dunod, Paris, 1988. CARROLL, J.D., Generalisation of canonical ana1ysis to three or more sets of variables ~), Proe. Amer. Psy. Assist., 227-228, 1968. CAZES, P. Quelques mthodes d'analyse factorielle d'une srie de tableaux de donnes. ~) La Revue MODULAD, 31, 1-31,2004. CHATIERJEE, S., PRICE, B., Regression llnalysis by example, Wiley, New York, 1977. CIBOIS, P., L 'lina/J'se factorielle, Collection Que sais-je, PUF, Paris, 1983. CONOVER, W.1., Practicalnonparametric statistics, 2 ed., Wiley, New York, 1980. COOK, R.D., WEISBERG, S., Residullis and I~flllellCe ill regressioll, Chapman and Hall, London, 1982. DAGNEUE, P., Alla/yse statistique il plusieurs variables, Presses agronomiques de Gembloux, 1975. DAGNELIE, P. Thories et mthodes statistiques, lome I, 1973, tome IL Presses Agronomiques Gembloux, 1975. DAVISON, A.D., HINKLEY, D.V., BoolsIrap metllOds and their applications, Cambridge University Press, 1997. DE FINETI1, B., Theory ofprobabilit)', 2 tomes, Wiley, New York, 1974. DE JONG, S. PLS fits doser than PCR , Journal of Chemometrcs, 7, 551-557, 1993. DEHEUVELS, P., Probabilit, hasard et certitude, Collection Que PUF, Paris, 1982. DELECROIX, M., Histogrammes et estimation de la densit, Collection Que sais-je, PUF, Paris. 1983. DEROO, M., DUSSAIX, A.-M., Pratique et analyse des ellqutes par sondage, PUF, Paris, 1980. DEVILLE, J.-C., MALlNVAUD, E, Data analysis in official socio-economic statistics .lRSS, srie A, 146, 335-361, 1983. DEVILLE, J.-C., SAPORTA, G., Correspondence analysls with an extension towards nominal time series }), Journal of Econometries, 22, 169-189, 1983. DIDAY, E. et al., Optimisation en c/assUication automatiqlle, 2 tomes, Inria, Rocquencourt, 1979. DIDAY, E., LEMAIRE, 1., POUGET, P., TESTU, E, lments d'analyse des dOllnes, Dunod, Paris, 1983. DRAPER, N.R., SMITH, H., Applied regressioll analysis, Wiley, New York, 1966. DROESBEKE, J.1., FINE, J., SAPORTA, G. (diteurs), Plans d'expriences, applications l'eJltreprise, Editions Technip, 1997. EFRON, B., The jackknife, the bootstrap and other resampling plans, SIAM, New York, 1982. ESCOFIER, B., PAGS, J., Allalysesfactorielles simples et multiples, Dunod, L988. ESCOUFIER, Y., New results and new uses in principal components of instrumental variables , Pmc. 42 1111 Se,ssioJ11nt. Stat. 111S1., 49-152, 1979.
C
_ Bibliographie
611
FELLER. W., An introduction fo probabiliry theory and its applications, 2 voL, Wiley, New York, 1968 et 197 L FOURGEAUD, C., FUCHS, A., Statistique. Dunod, 2c d., Paris, 1972. FREUND. Y., SCHAPIRE R.E. ,( A decision-theoretic generalization of on-line learning and an application to boosting. }) Journal of Compttler and System Sciences, 55, ] 19-139, 1997. GENTLE, J. Random Humber generation and !vlonle Carlo metllods, Springer, 2003. GERI, Analyse des dOllnes volutives, Editions Technip, 1996. Gnu, N., Nlultivariate statistical 1~frel1ce, Academie Press. New York, 1977. GIITINS, R., CauO/zicalcmal)'sis, Springer-Verlag, New York, 1985. GNANADEsrKAN, R., Nlet/lOds for statistical data analysis of 11lultil'ariate obser\'atons, Wi]ey, New York, ] 977. GNEDENKO, B. et al., Mthodes mathmatiques en thore de la .fiabilit, Mir, Moscou, 1972. GOODMAN, L., KRUSKAL, W., Measures ofassociatiollfor cross-class{fications, Springer-Ver1ag, New York, 1979. GOURIROUX, C., MONFORT, A., Statistique et rnodles conorntriques, Economiea, Paris, 1989. GOWER, J., HAND, D., Biplots, Chapman & Hall, 1996. GREEN, B., AnalYZng 11Iultil'arillte data, Ho]t, Rinehart, Winston, New York, ] 978. GREENACRE, M.J., Theor)' and application of correspondence ana/J'sis, Academie Press, New York, ] 984. GUTTMAN, L., The quantification of a class of attributes. A theory and method of scale construction in the prediction of personal adjustment , 319-348 Soc. Sc. Res. Council, New York, 1941. HAHN, GJ., MEEKER, W.Q., Statistical ntel1'als, Wiley, 1991. HAND, DJ., Data mining: statisties and more? , The American Statistician, 52, l ]2-118, 1998. HAND, DJ., Discrimination and class(ftcatioll, WiIey, London, 198 L HARTlGAN, Cillstering algorithms, Wiley, New York, 1975. HASTIE, T., TmsHIRANI, R., FRIEDMAN, J., Elements ofstatisticallearning, Springer, 2001. HUBER, P., Robast statistics, Wiley, New York, 1981. JACQUARD, A., Les probabilits, Collection Que sais-je, PUE Paris, 1974. JAMBU, M., LEBEAUX, l'v1.0., Classijicatioll alltomatique pOlir l'analyse des dO/lnes, tome l : Mthodes et algorit/111Ies, tome II : Logiciels, Dunod, Paris, 1978. JAUPI, L., Contrle de /0 qualit, Dunod, 2002. JOHNSON, N.L., KOTZ, S" Distribution in statistics (4 vol.). Wiley, ] 969-1972. KARLIS, D., SAPORTA, G., SPINAKJS, A., A Simple Rule for the Selection of Principal Components , Communications in Statistics - Theory and Applications, 32, 3, 643-666,2003. KENDALL, M.G., Rank correlation met/lOds, Griftn, London, 1962. KENDALL, M.G., STUART, A.. The adl'llnced tlteory of statistics (3 voL), Griffin, London, 1966.
612
_ Bibliographie
KRUSKAL, J.B., WISH, M., Multidimensional scalillg~ Sage publications, 1978. KSHlRSAGAR, A.M., Ivlultipariate allalysis, Marcel Dekker, New York 1972. LECOUTRE, l-P., TASSI. P., Statistique non paramtriqlle et robustesse, Economica, Paris, 1987. LEHMANN, EL., Non pararnetrics, Ho1den Day, San Francisco, 1975. LETEUNE, M., Statistiqlle, la thorie et ses applications, Springer, 2005. MAC QUITTY, L.L., Similarity analysis by reciprocal pairs of discrete and continuous Data , EdIle. Psycho Meas., 26, 825-831, 1966. MALINVAUD, E., Mthodes statistiques de l'conomtrie, Dunod, Paris, 1964. MARCOTORCHINO, J.F., MTCHAUD, P., Optimisatiol1 en analyse ordinale des donnes, Masson, Paris, 1979. IvIARDlA, K.V., KENT, J.T., BIBBY, J.M., .Atlultivariate aualyss, Academic Press, London, 1979. MATALON, B., pistmologie des probabilits. bl : Logique et c01lnaissance seieHtffiqlle, Pliade. Paris. 526-553. L967. MATHERON, G., Estimer et choisir; essai sur la pratiqlle des probabilits, Centre de Morpho. Math., cole des Mines de Paris, 1978. MTIVIER, M., Notions fondamentales de la thorie des probabilits, Dunod, 2e d., Paris, 1972. MOREAU, J., DOUDlN, P.A., CAZES, P., L'analyse des correspondances et les tec/l1liques cOllnexes. Springer, 2000. NAKACHE, J.P., CONFAIS, J., Approche pragnllltique de la class(ficatioll, Editions Technip, 2005. NA KACHE, J.P., CONFAIS J., Statistique explicatil'e applique, Editions Technip, 2003. NEVEU, l, Bases mathnu.1tiques du calcul des probabilits, Masson, Paris, 1964. NTSHISATO, S., Analysis of categorical data: dllal sCliling and ifs applications, University of Toronto Press, 1980. PAPOULIS, A., Probability, randolTl variables and stoc/lllstic processes. Mc Graw HiB, New York, 1965. RAMSAY, J.O., \< Monotone regression splines in action .), Statistical Science, 3, 425-461, 1988. RAO, C.R., The use and interpretation of principal components analysis in appled research , SCl11khya, A 26, 329-358, 1964. RAo, C.R., Lzear statistical llference and its applications, WiIey, 2e ed., New York, 1973. RNYI, A., Calcul des probabilits, Dunod, Paris, 1966. ROBERT, C., The bayesm choice, Springer, 2001. ROTHSCHILD, J.E, STlGLlTZ, M., Increasing risk : 1. a definition . J. Ecol!. Theory, 2, 225-243, 1970. Roux, M., Algorithmes de classification, Masson, Paris, 1986. SAPORTA. G., Une mthode et un programme d'analyse discriminante sur variables qualitatives ;>, Premires JOlIrnes Internationales, Analyses des dOl1nes et h{(ormatiques, INRIA, Rocquencourt, 1977.
_ Bibliographie
613
SCHOLKOPFF, B., SMOLA, A., MULLER, K.R. Nonlinear Component Analysis as a Kernel Eigenvulue Problem , Neural Computation, 10, 1299-1319, 1998. SCHEFFE, H., The cmalysis of variance, Wiley, New York, 1959. SCHIFFMAN, S., REYNOLDS, M.L., YOUNG, EW., Introduction to nlllltidime1lsiorwl scaling, Academie Press, New York, ) 98l. SILVERMAN, B.W., Density estimation for statistics and data analysis, Chapman and Hall, London, ) 986. SOKAL, R.S., SNEATH, P., Princip/es ofnumerical 10Xo11(111)', Freeman, San Francisco, 1963. TAKEUCHI, K., YANAr, H., MUKHERJEE, B., The foundations of multivariate cmalysis, Wiley Eastern, New Delhi, 1982. TASSI, P., Mthodes STatistiques, Economica, Paris, 1985. TENENHAUS, M. La rgression PLS, Edtions Technp, 1998. THIRIA, S., LECHEVALLIER, Y, GASCUEL, O. (diteurs), Statistique et mthodes neuronales, Dunod, 1997. TrLL, Y, Thorie des sondages, Dunod, 2001. TOMASSONE, R., LEsQuOY, E" MILLIEZ, C., La rgressioll, Masson, Paris, 1983. TUFFRY, S., Data Mlll1g et statistique dcisonnelle, Editions Technip, 2005. TUKEY, J., Exploratory data ana/ysis, Addison-Wesley, Reading, 1977. VAPNIK, V, Statistical Learning Theor)', Wiley, 1998. VOLLE, M.; Analyse des donnes, Economica, 2e d., Paris, 1981.
Index des noms

A
Almk,497 Allison,380 Anderson, 172,469 Arabie, 246 Ardilly, 51 , 5 19 Cibois, 208 Cochran, 97, 282, 396,415 Cohen, 154 Condorcet, 252 Confais. 243, 439, 491 Cook, 421 Corntield, 512 Craig, 96 Cramer. 62, 87, 150,301, 362, 364 Czekanowski, 244
B
Bardos, 462 BartIett, 106,356 Bayes, 9, 10, 13 Behnken,535 Bell, 248 Belson,253 Benjamini, 370 Benoist, 539 Benzcri, xxxii, 201,244,260 Berkson, 475 Bernoulli, 30 Bertrand, Il Bienaym-Tchebyshev, 25 Birls,404 Blackwell,298 Bochner, 57 Box, 375,472,500,535 Bravais, 126 Breiman,487 Bruynhooghe,260 Burges,504 Burman,523 Burt, 223
D
Daniels, 141 Darmois, 293, 301,414 Davison, 381 De Finetti, 12 De .long, 427 De Moivre, 62 Delecroix, 321 Deming,521 Dice,244 Diday,252 Dodge, 404 Droesbeke,475,523 Dugu,62 Durbin,398
E
Eckart-Young, 168 Erron,381 Epanechnikov, 323 Erlang,40 Escofier, 200
C
Cailliez, 183,410 Cantelli,273 Carroll, 184, 185, 198.227 Cauchy. 46, 98, 359 Cazes, 200
F Faure, 367 Fisher, 106,214,295,339,447,449,523 Forgy,250
616
. . Index des noms
Fourgeaud,276,297 Frchet, 301 Freund,496 Friedman, 487 Fubini,53 Fuchs, 276
Kruslml, 153, 183 Kuhn, 458 Kullback,498
L
Lance, 258 Lawley, 473 Lehmann, 300 Leibler, 498 Lejeune, 26 Lerman, 262 Levy, 62 Lindeberg, 66 Lorenz, 116 Love,154
G
Gauss, 393,410,412 Gini, 117,484,488 Glivenko, 273, 364 Goodman, 153 Grundy, 514 Gumbel, 47,275 Guttriirii; 141,228
H
Hahn, 316 Hand, xxxii Hartley,214 Hastie, 487,494,496 Hinkley, 381 Hirschfeld,214 Hochberg ,370 Hoerl,425 Hornik,494 Horvitz, 514 Hotelling, 103, 104,348,473 Hubert, 246
M
Mac Queen, 252 Mac Quitty, 260 Mahalanobis, 89, 244, 286, 348, 447,451, 461,473 lVIalinvaud, 209 Mann, 343,484 Marcotorchino, 153,246,253 lVlarkov,28,393,410,412 Marsaglia, 375 Mc Fadden, 475 Mc Nemar, 351 Meeker,316 Mercer, 188 Mtivier, 78 Michaud, 246, 253 Minkowski,244 Montgomery, 529,530 Mller, 375
J
J accard, 244 Jambu, 258 Jaupi,285 Jensen, 23
K
Kaiser, 172, 209 Kaufmann, 367 Kendall, 138, 142,246,363 Kennard, 425 Kolmogorov, 5,273,364,366 Konig-Huyghens, 121,250
N
Nadaraya, 405 Nalmche, 243, 439, 452, 491 Neveu, 3,78 Newton, 31 Neyman, 329, 330, 336
liliiii
Index des noms
617
o
Ochia,244
p
Pags,410 Parzen, 323 Pascal, 38 Pearson, 43, 126,225,329,330,336 Pillai, 473 Plackett, 523 Poincar, 6, 252 Poisson, 33 Polya, 62 Pythagore, 97, 158,415
Stephan, 521 Stewart, 154 Stiglitz, 29 Stirling, 247 Stuart, 363 Student, 339
T
Tanimoto, 244 Tenenhaus, 234, 398,426 Thiria, 494 Thompson, 514 Tibshirani,487 Till, 515, 519 Torgerson, 182 Tschuprow, 150 Thcker, 427, 458 Thffry, 462, 507 Thkey, 115,320,382,383
Q
Quenouille, 382
R
Ramsay, 187 Rand, 245, 253 Rao, 244, 298,301,411 Renyi, 11,273 Robert, 319, 374 Rogers, 244 Rosenblatt, 322,457,494 Rothschild,29 Roux, 258 Russel, 244
V
Vapnik, 457, 502 Von Mises, 362,364 Von Neumann, 372
W
Wald,477 Ward, 258 Watson, 398,405 Weibull, 46,275, 359 Weisberg,421 Whitney, 343, 484 Wilcoxon,343,350,484 Wilks, 103, 105,473 Williams, 258 Wilson-Hilferty, 94 Wishart, 103,285 Wold, 87,426
S
Sado,524 Schapire, 496 Scheff, 300, 355 SchOlkopf, 187 Schwartz, 497 Shepard,244 Shewhart, 284 Silverman, 321,405 Smirnov, 342 Snedecor,106,339 Spearman, 137
y
Yates, 514
Index
A
A pm;teriOl'i, 9 Apl'ori.9 Analyse de variance, 352 Analyse factorielle discriminante, 442 Aplatissement, 27~ 123 Arbre, 488 Arc sinus, 42 Association maximale, 253 Asymtrie, 27, 123 Axes principaux, 164
Convergence, 60 Convolution, 52 Corrlation des rangs, 136 Corrlation linaire, 126 Corrlation multiple, 134, 416 Corrlation partielle, 132 Corrlation, 125 Courbe ROC, AUC, 482 Covariance, 26 Criblage, 530 Critre AIC, 498 Critre BIC, 498
B
Baggillg, 496
D
Data mining, xxxi Dendrogramme, 254 Densit, 18 Diffrence symtrique, 245 Disqual,461 Dissimilarit, 243 Distance, 243 Distance de Cook, 421 Distance de Mahalanobis, 348 Dominance stochastique, 28 Donnes manquantes, 379 Droite de Henry, 361
Barre, 112 Biais, 290 Binomiale, 31 Bote moustache. 115 Boosting, 496 Bootsrap, 496 Box-plot, 115
C
Camembert, 112 Carrs grco-latins, 540 Carrs latins, 539 CART, 491 Cartes de contrle, 284 Cercle des corrlations, 173 Coefficient de concordance de Kendall, 142 Coefficient de corrlation linaire, 71 Coefficient de Rand, 246 Coefficient de Spcarman, 137 Comparaisons multiples, 355 Composante principale, 166 Concentration, 116 Contrastes, 355
E
cart-type, 25 chantillon, 271 Effet taille , 176 Efticace, 302 Ellipse de confiance, 3 14 Ellipse de tolrance, 316 Erreur quadratique, 290 Esprance, 22 Esprance conditionnelle, 71 Esprance totale, 72
620
1ndex
Estimateur, 289, 302 Estimateur de Nadaraya-Watson, 405 Estimateur robuste, 320 Estimation baysienne, 317 tendue, 121 vnement, 4, 5, 8 Exprience alatoire, 3
Intervalle de prcision, 315 Intervalle de prvision, 40 l, 419 Intervalle de tolrance, 3 15 Intervalles de confiance, 307 Isovariance, 525
J
Jack-/mife, 382
F
F de Fisher-Snedecor, 97 Facteur prncipal~ 166 Fentre mobile, 322 Fiabilit, 7, 39, 365 Fonction caractristique, 55 Fonction d'mportance, 378 Fonction de Fisher, 449 Fonction de rpartition, 16 Fonction gnratrice, 60 Formule de reconstitution, 167~ 209 Formules de transition, 207
K
Kappa de Cohen, 154 Khi-deux, 93 K"rtosis, 27
L
Lambda (?) de Wilks, 105 Loi binomiale, 31 Lo binomiale ngative, 38 Loi de Bernoulli, 30 Loi de Cauchy, 46 Loi de Gumbel, 47 Loi de Laplace-Gauss, 43 Loi de Poisson, 33 Loi de probabilit, 16 Loi de Student, 98 Loi de Weibull, 46 Loi de Wishart, 103 Loi discrte uniforme, 30 Lo du Khi-deux, 93 Loi exponentielle, 39 Loi hypergomtrique, 36 Loi log-normale, 45 Loi multinomiale, 99 Loi normale, 43 Loi uniforme, 38 Lois bta, 41 Lois conditionnelles, 70 Lois des grands nombres, 277 Lois gamma, 40
G
Grappes, 518
H
Histogramme, 114 Homoscdasticit,387
1
Imputation, 380 Indpendance~ 8,21 Indice de Gini, 117 Indice de diversit de Gini, 488 Indice de Rand, 253 INDSCAL, 184 Ingalit de Frchet-Darmois-CramerRao, 301 Ingalit de Vapnik, 504 Inertie interclasse, 250 Inertie intraclasse, 250 Inertie, 160 Information, 295 Information de Fisher, 295
M
lVlarge, 457 Marginale, 69
... Index
621
IVIaximum de vraisemblance, 305 Mdiale, 117 Mdiane, 120 lU-estimateur, 320 Mthodes de lVIonte-Carlo, 371 Moment, 22 LVloyennc, 120 1I1ultitlimellsmal sealblg, 181 Muticolinarit, 424
Rgression, 72 Rgression ridge , 425 Rgression logistique, 475 Rgression PLS, 426 Rseaux de neurones, 493 Risque de deuxime espce, 327 Risque de premire espce, 327
S
Score, 461, 469 Similarit, 243 Skewlless, 27 Splines, 185 Statistique, 272 Statistique exhaustive, 291 Stepwise, 423 Stratification, 515 Stratification a posteriori, 521 Surapprentissage, 495 Surfaces de rponse, 532 Survie, 7 SVl\'I, 456
N
Niveau de signiJication, 336 Noyau, 114, 323 Nues dynamiques. 250
o
Odds ratio, 476
p
Perceptron, 494 Plan de sondage, 512 Plan factoriel, 526 Plans d'exprience, 523 Plans de Placltt et Burman, 528 Plans fractionnaires, 528 Press, 421 Probabilit conditionnelle, 7 Probabilit d'inclusion, 512 Processus de Poisson, 49 Profils-colonnes, 146 Profils-lignes, 146 Puissance, 331
T
T2 de Hotelling, 104 Tableau de Burt, 223 Tableau disjonctif, 220 Tableau disjonctif, xxvii Tableaux de contingence, xxvii Taux de dfaillance, 39 Taux instantan de dfaillance, 19 Test de Durbin-Watson, 398 Test de Mc Nemar, 351 Tests de normalit, 369 Thorme central-limite, 65, 92, 278 Thorme de Cochran, 97 Thorme de Gauss-LVlarkov, 410 Transformation de Mahalabonis, 89 Transforme de Fisher, 132
Q
QQ plot, 361 Quantification, 213, 228
R
Rapport de corrlation, 82, 143 Redondance, 154 Redressement, 519 Rgion critique, 326 Rgle baysienne, 467
U
Ultramtrique, 256
622
I11III
Index
v
Valeurs extrmes, 273 Valeur-test, 177 Validation croise, 501 Variable alatoire, 15 Variable supplmentaire, 176, 233 Variables canoniques, 190 Variables de Cornfield, 512 Variance, 25 Variance conditionnelle, 73
Variance corrige, 280 Variance totale, 73 Vraisemblance, 291
w
JJlillsorzatlm, 320
'tb de Goodman et Kruskal, 153 "1.2 d' cart l'indpendance, 149
Imprim en France par EUROPE MEDIA DUPLICATION SAS.
53110 Lassay-les-Chateaux W 15585 - Dpt lgal: Juin 2006

Probabilités, Analyse de Données Et Statistiques (WWW - Bibliodunet.com)

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Probabilités, Analyse de Données Et Statistiques (WWW - Bibliodunet.com)

Încărcat de

Drepturi de autor:

Formate disponibile

Gilbert SAPORTA

Professeur au Conservatoire National

des Arts et Mtiers

2e dition rvise et augmente

27 rue Ginoux, 75737 PARIS Cedex 15, FRANCE

CHEZ LE MME .DITEUR

Data rnining et statistique dcisionnelle

Statistique explicative applique

Les techniques de sondage, nOliveHe dition

Analyse statistique des donnes spatiales

Modles statistiques pour donnes qualitatives

Plans d'expriences. Applications l'entreprise

Mthodes baysiennes en statistique

La rgression PLS. Thorie et pratique

Probabilits. Exercices corrigs

Tous droits de traduction, de reproduction et d'adaptation rservs pour tous pays.

Editions Teclmip. Paris, 2006. Imprim en France

Gilbert Saporta (mars 2006)

Table des matires

Avant propos .......................................................... v Introduction ............................................................ xx v

Premire partie: Outils probabilistes

Ch 1 : Le modle probabiliste ............................................ 3

Espace probabilis ................................................... 5

Ch 2 : Variables alatoires .............................................. \5

.Table des matires

Distributions continues usuelles .................................... 38

2.3.6 2.3.7 2.3.8 2.3.9

aTable des matires

Ch 3 : Couples de variables alatoires, conditionnement. ...................... 69

.. Table des matires

Ch 4 : Vecteurs alatoires, formes quadratiques et lois associes ................ 85

4.1.2 4.1.3 4.1.4

Vecteurs alatoires gaussiens: la loi multinormale .........................

Formes quadratiques dfinies sur un vecteur gaussien et lois drives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .................... 93

.Table des matires

Deuxime partie: Statistique exploratoire

Ch 5 : Description unidimensionnelle de donnes numriques ................. 109

Ch 6 : Description bidimensionnelle et mesures de liaison entre variables ........ 125

Ch 7 : L'analyse en composantes principales ............................... 155

.Table des matires

Interprtation des rsultats .......................................... 169

Exemple ......................................................... 177

Ch 8 : L'analyse canonique et la comparaison de groupes de variables .......... 189

.Table des matires

Ch 9 : L'analyse des correspondances .................................... 201

Ch 10 : L'analyse des correspondances multiples ............................ 219

10.2 Autres prsentations .............................................. 226

_ Table des matires

Ch Il : lVlthodes'de classification ....................................... 243

11.3 rvfthodes hirarchiques ................................. , ......... 254

_Table des madres

11.6 Exemples ...................................................... 262

Fonction de rpartition d'un chantillon, statistiques d'ordre et quantiles ... 272

.Table des matires

Ch 13 : L'estimation .................................................. 289

_Table des matires

Ch 14 : Les tests statistiques ............................................ 325

.Table des matires

Ch 15 : Mthodes de Monte-Carlo et de rchantillonnage (Jack-knife, bootstrap) .................................................... 371

Gnration de variables alatoires .................................. 371

aTable des matires

Quatrime partie: Modles prdictifs 1

Ch 16 : La rgression simple ............................................ 387