Documente Academic
Documente Profesional
Documente Cultură
OB
2006
Editions TECHNIP
..
s.
..
TUFFRY
..
..
Eds.
Eds.
Eds.
..
ISBN 2-7108-0814-5
Avant-propos
La prcdente dition de cet ouvrage a t publie en 1990. Nous voquions alors les volutions de la statistique de la dcennie passe. Depuis lors, les de l'informatique n'ont cess. permettant d'une part l'utilisation de nouvelles mthodes fondes sur des calculs intensifs (simulation, mthodes non-paramtriques et algorithmiques), et d'autre part le traitement de donnes en masse qui a donn lieu l'mergence du data mining ou fouille de donnes . Les logiciels de calcul statistique n'ont cess de se perfectionner et de se diffuser tel point que des mthodes complexes sont employes de faon routinire sans pour cela que l'utilisateur les domine toujours. Cette nouvelle dition prend en compte ces volutions. Outre une mise jour de certains exemples, les principaux dveloppements concernent les mthodes de Monte Carlo, l'estimation non paramtrique, la modlisation prdictive avec l'introduction des mthodes de rgression en prsence de mul ticolinari t, la rgression logistique, les SVM et les techniques d'apprentissage. Nous avons galement rajout deux chapitres consacrs aux deux grandes mthodologies de recueil des donnes: sondages et plans d'expriences. Ce livre a pour but de donner aux tudiants et aux praticiens les outils ncessaires pour appliquer correctement les mthodes statistiques. La plupart des rsultats sont dmontrs, sauf certains pour lesquels les preuves trop techniques auraient alourdi ce livre. Les 21 chapitres sont regroups en cinq parties: La premire outils probabilistes donne les bases ncessaires l'infrence classique. L'approche probabiliste permet de prendre en compte le fait que notre univers n'est pas dterministe et que les donnes dont on dispose ne sont pas parfaites. La deuxime partie intitule statistique exploratoire regroupe les outils de description non-probabilistes des donnes, allant de la statistique descriptive unidimensionnelle ce que l'on appelle analyse des donnes en un sens restreint qui selon nous ne se limite pas aux mthodes drives de l'analyse en composantes principales et de la classification : pour nous le but de la statistique est d'analyser des donnes ... La troisime partie statistique infrentielle est consacre classiquement l'estimation et aux tests. La quatrime partie modles prdictifs regroupe les techniques de rgression au sens large o on cherche un modle reliant une rponse Y des prdicteurs Xj La cinquime partie concerne le recueil des donnes par sondages ou exprimentation. Le recueil des donnes constitue un pralable l'analyse; le placer en dernire parte peut sembler
vi
_Avant-propos
illogique, mais le fait est que la collecte des donnes ne peut se concevoir sans en connatre l'usage ultrieur, ce qui ncessite la comprhension de l'estimation el de la modlisation. Je remercie enfin tous ceux qui onl contribu un titre ou un autre la ralsation de cet ouvrage, ainsi que les ditions Technip pour leur patience et le soin apport sa ralsution.
1.2
1.3
1.4
viii
2.1.2
2.1.3 2.1.4
2.1.1.2 Fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.3 Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. L lA Taux instantan de dfaillance . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi d'une fonction d'une variable alatoire Y <p(X) ... 2.1.2.1 <p bijective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2.2 <p quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indpendance de deux variables alatoires . . . . . . . . . . . . . . . . . . . . . . . . . Moments d'une variable alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.1 L'esprance mathmatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4.2 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.104.3 Autres momenLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.lAA Ordres stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16 18
19
20 20 21 21 22 22 25 27
28
30 30 30
2.2
Lois de probabilit discrtes d'usage courant . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Loi discrte uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Loi de Bernoulli de paramtre p . ............................. 2.2.3 Loi binomiale 93(n ; p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Loi de Poisson rJ'l(X-) .... 2.2.5 Loi hypergomtrique 'dC(N, Il, p) ou du tirage exhaustif. . . . . . . . . . . . . . . . 2.2.5.1 Esprance de l'hypergomtrique ........................... 2.2.5.2 Variance de l'hypergomtrique ............................ 2.2.5.3 Tendance vers la loi binomiale ............................. 2.2.6 Lois gomtrique, de Pascal, binomiale ngative . . . . . . . . . . . . . . . . . . . . . 2.3.1 1.3.2 2.3.3
31 33
36 36 36 37 38
2.3
2.3.4
2.3.5
2.4
Le processus ponctuel de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 204.1 Flux poissonnen d'vnements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 204.2 tude de la dure T sparant deux vnements consculifs E j et Ei + 1 49 204.3 tude de la dure Y sparant n + 1 vnements . . . . . . . . . . . . . . . . . . . . . 50
ix
lude du nombre d'vnements se produisant pendant une priode de dure T fixe ............................ 50 2.4.5 tude de la rpartition des dates El' E:!. ... El! dans l'intervalle AB . ........ 51 1.4.6 Le processus (Nt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Convolution........... . ........................................... 51 2.5.1 Cas discret. ................................................... 51 2.5.2 Cas gnral ................................................... 53 2.5.3 Applications .................................................. 54 2.5.3.1 Somme de lois "y .. 54 2.5.3.2 Somme de lois uniformes sur [0, 1]. . . . . . . . ................ 55 2.6 Fonctions caractristiques ............................................ 55 1.6.1 Dfinitions et principales proprits ................................. 55 2.6.LI Dfinition ............................................. 55 2.U.2 Fonction caractristique d'une fonne 1inaire .................. 56 2.6.1.3 Convolution ........................................... 56 2.6.1.4 Cas d'une distribution symtrique ........................... 56 2.6.1.5 Drives l'origine et moments non centrs ................... 56 2.6.1.6 Unicit et inversion de la fonction caractristique ............... 57 2.6.2 Fonctions caractristiques des lois usuelles ........................... 58 2.6.2.1 Lois discrtes .......................................... 58 1.6.2.1 Lois continues .......................................... 58 1.6.3 Fonctions gnratrices ........................................... 60 2.7 Convergences des suites de variables alatores ............................ 60 2.7.1 Les diffrents types de convergence ................................. 60 2.7.1.1 La convergence en probabilit .............................. 60 2.7.1.2 La convergence presque sre ou convergence forte .............. 61 2.7.1.3 La convergence en moyenne d'ordre p ....................... 61 2.7.1.4 La convergence en loi .................................... 62 2.7.2 Convergence en loi de la binomiale vers la loi de Laplace-Gauss (thorme de De Moivre-Laplace) .................... 62 2.7.3 Convergence de la loi de Poisson vers la loi de Gauss. . ................ 64 2.7.4 Le thorme central-limite ........................................ 65
1.4.4
tude d'un couple de variables discrtes ................................. 69 Lois associes un couple (X, Y) ................................... 69
3.1. LI Loi jointe ............................................. 69 3.1.1.2 Lois marginales ......................................... 69 3.1.1.3 Los conditionnelles .. . ................................. 70 Covariance et corrlation linaire ................................... 71 Moments conditionnels .......................................... 71 3.1.3.1 L'esprance conditionnelle . . . . . . . . . . .. ................. . 71 3.1.3.2 La variance conditionnelle ................................. 73 3.1.3.3 Exemple d'utilisation de l'esprance et de la variance conditionnelle ............................. 74
3.1.2 3.1.3
x
3. [.4
3.2
3.3
4.2
4.3
4.4
4.5
xi
5.2
5.3
6.L3 6.1.4
6.2
Corrlation multiple entre une variable numrique et p autres variables numriques . . . . . . . . .. .......... ....................
6.2.1 6.2.2 6.2.3 6.2.4
. .. 134
134 135 135 136
Dtinition ................................................... Interprtution gomtrique ....................................... Calcul de R . . . . . . . . . . . .. . ................................... Signification d'un coefficient de corrlation multiple ...................
xii
IIIIIIII Table
des matires
6.3
6.4
6.5
Liaison entre variables ordinales: la corrlation des rangs. . . .. . .......... 6.3.1 Le coefficient de Spearman ...................................... 6.3.2 Le coefticient de corrlation des rangs T de M. G. Kendall .............. 6.3.2.1 Aspect thorique ....................................... 6.3.2.2 Ca1cu1 sur un chantillon ................................. 6.3.3 Coefficients de Oaniels et de Guttmann ............................. 6.3.4 Le coefficient W de Kendall de concordance de p classements ............ Liaison entre une variable numrique et une variable qualitative ............ 6.4.1 Le rapport de corrlation thorique (rappel) .......................... 6.4.2 Le rapport de corrlation empirique ................................ 6.4.3 Interprtation gomtrique et lien avec le coefficient de corrlation multiple .......................................... Liaison entre deux variables qualitatives ................................ 6.5.1 Tableau de contingence, marges et profils ........................... 6.5.2 L'cart l'indpendance ........................................ 6.5.2.1 Le X2 d'cart l'indpendance etles autres mesures associes .... 6.5.2.2 Cas des tableaux 2. X 2 .................................. 6.5.2.3 Caractre significatif de J'cart l'indpendance. . ............ 6.5.2.4 Autres mesures de dpendance ............................ 6.5.3 Un indice non symtrique de dpendance: Je Th de Goodman et Kruskal ..................................... 6.5.4 Le kappa de Cohen ............................................
136 137 138 138 138 141 141 143 143 143 145 J46 146 149 149 152 152 153 153 154
7.2
xiii
7.3
7.3.2
7.3.3
7.3.4
7.4
7.5
7.6
8.2
xiv
8.3
8.2.2.2 ACP sous contrainte d'orthogonalit. . . . . . . . . . . . . . . . . . . . .. . 197 8.2.2.3 ACP des covariances partielles ............................ 197 L'analyse canonique gnralise ....................................... 197
8.3.1 8.3.2 Une proprit de l'analyse canonique ordinaire. .. . .................. 197 La gnralisation de J.O. Carroll (1968) ............................ 198
9.2
9.1.2 Analyse en composantes principales des deux nuages de profils '" .......... 205 9.2.1 ACP non centres et facteur trivial. . . . . . . .. . ...................... 205 9.2.2 ACP non centres des nuages de profils ............................. 206 9.2.3 Formules de transition .......................................... 207
9.2.4 Trace et reconstitulol1des donnes ............................... 9.2.4.] Dcomposition du c.p2 ........... 9.2.4.2 Formule de reconstitution ................................ Chox du nombre de valeurs propres en AFC ......................... 208
208
209
9.2.5 209 9.3 Un exemple ....................................................... 210 9.4 Analyse canonique de deux variables qualitatives, justification de la reprsentation simultane ....................................... 212 9.4.1 Mise sous forme disjonctive de donnes qualitatives ................... 212
9.4.2 9.4.3 9.4.4 Quantifications de variables qualitatives ............................ Analyse canonique des deux groupes d'indicatrices. . . . . . . . . . . . . .. . ... Reprsentation simultane optimale des (111 1 + 1112) catgories d'individus ............................... La mlhode des moyennes rciproques ............................. Conclusion..................... . ........................... 213 214 215 217 217
9.4.5
9.4.6
10.1.3
xv
Un critre d'association maximale .............................. Quantification optimale de variables qualitatives ................... 10.1.3.1 ACP de variables quantifies .......................... 10.2.3.1 Guttman et l'homognit maximale .................... Approximation d'ACP non linaire .............................
10.3
1004
227 228 228 228 230 10.2.4 Pratique de l'analyse des correspondances multiples .................... 131 10.3.1 Les contributions ........................................... 231 10.3.1.1 Contributions un axe factoriel. . . . . . . . . . . . .. . ........ 231 10.3.1.2 Contributions l'inertie totale ......................... 132 10.3.1 L'usage de variables supplmentaires . . ........................ 233 Un exemple: les races canines ....................................... 234 10.1.2 ]0.2.3
11.2
xvi
11.6.3
Troisime partie: Statistique infrentelle Ch 12 : Distributions des caractristiques d'un chantillon ................... 271
12.1
12.2
Distribution du centre de gravit et de la matrice de variance d'un chantillon gaussien p-dimensionnel ............................. 285 12.4 La mthode ( delta et les statistiques asymptotiquement normales ....... 286
12.3 12,4.1 12.4.2 Stabilisation de la variance d'un pourcentage .................... 286 Stabilisation de la variance d'une loi de Poisson ............... " . 287 Valeurs propres d'une matrice de variance ....................... 287 Gnralisation au cas multidimensionnel ......................... 287
12.4.3 t 1.4,4
xvii
13.2
13.3
13.4 13.5
13.6
13.7
13.8 13.9
xviii
xix
Comparaison de moyennes d'chantillons apparis ................. 349 14.4.6.1 Le cus gaussien. . . . . . . .. . ........................ 349 14.4.6.2 Test des signes .................................... 350 14.4.6.3 Le test de Wilcoxon pour donnes apparies. . .......... 350 14.4.7 Comparaison de variances d'chantillons apparis ................. 351 14.4.8 Le test de Mc Nemar de comparaison de deux pourcentages pour un mme chantllon .................................... 351 14.5 L'analyse de variance. . .. . ....................................... 352 ]4.5.1 Analyse de variance un facleur ............................... 353 14.5.1.1 Les donnes el le modle ............................ 353 14.5.1.2 Le lest ........................................... 353 14.5.1.3 L'estimation des effets .............................. 355 14.5.1.4 Comparaisons multiples de moyennes .................. 355 ... 14.5.1.5 TeSl de comparaison de k variances. . . . . . . . . . . . . . . . . . .. 356 14.5.2 Analyse de variance deux facteurs ............................ 357 14.5.2. L Le modle ........................................ 357 14.5.2.2 L'quation d'analyse de variance et le test ................ 357 14.5.2.3 L'estimalion des effets .............................. 358 14.5.2.4 Le cas du plan sans rptition ......................... 359 14.6 Tests et procdures d'ajustement ................................... 359 14.6.1 Les mthodes empiriques .................................... 359 14.6.1.1 La forme de l'histogramme ........................... 359 14.6.1.2 Vrification sommaire de certaines proprits mathmaLiques .................................... 360 14.6.1.3 Ajustements graphiques ............................. 360 14.6.2 Les tests statistiques gnraux ................................. 362 14.6.2.1 Le test du X2 362 14.6.2.2 Le test d'ajustement de Kolmogorov .................... 364 14.6.2.3 Le test d'ajustement de Cramer-von Mises ............... 364 14.6.3 Exemples d'application en fiabilit et en phnomnes d'attente ........ 365 14.6.3.1 Test du caractre exponentiel d'une loi de survie ........... 365 14.6.3.2 TeSl du camctre poissonnien des arrives une file d'attente. 367 14.6.4 Tests de normalit .......................................... 369 14.7 Quelques limites des tests .................. ,. . .................. 370
14.4.6
15.1.3
xx
15.1.3.3 15.1.3.4
Loi de Poisson {Jl() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 Variable de Laplace-Gauss ........................... 375 15.2 Applications .................................................... 376 15.2.1 Simulation de fonctions de variables alaloires . . . . . . . . . .. . ....... 376 15.2.2 Calcul d'une intgrale par la mthode de Monte Carlo .............. 377 15.2.3 Distributions d'chantillonnage de statistiques complexes ............ 378 15.2.4 Donnes manquantes el imputation multiple ...................... 379 15.3 Mthodes de rchantiIJonnage ..................................... 380 15.3.1 Le bootslrap .............................................. 380 15.3.2 Le Jack-knife ............................................. 382 15.3.2.1 Dfinition ........................................ 382 15.3.2.2 Rduction du biais ................................. 382 15.3.2.3 Intervalle de confiance .............................. 383
16.1.1 16.1 .2
17.1.2
17.1.3
xxi
17.2
17.3
17.4
17.5
17.6
17.7
Estimation et tests des paramtres du modle (y; X(3 ; CT 2I) .... . ........ 412 17.2.1 Estimation de (3 et cr2 . . 412 17.2.1.1 Proprits gnrales ................................. 412 17.2.1.2 Proprits supplmentaires si e est gaussien ............... 414 17.2.1.3 Lois des cts du triangle reclangley,y*, X(3 ............. 415 17.2.1.4 Le modle (y; X(3; I) ............... , .............. 415 17.2.2 Tests dans le modle linaire .................................. 416 17.2.2.1 Le coefficient de corrlation multiple R et l'analyse de variance de la rgression .......................... 416 17.2.2.2 Test du caractre significatif d'un des coefficients de rgression ...................................... 417 17.2.2.3 Test de q coefficents de rgression, test d'une sous-hypothse linaire ...................... 418 17.2.3 ... Intervalle de prvision pour une valeur future ..................... 419 L'analyse des rsultato; ............................................ 419 17.3.1 L'tude des rsidus et des observations influentes .................. 419 17.3.2 La stablt des coefficients de rgression ......................... 421 17.3.2.1 Le facteur d'inllation de la variance (VIF) ................ 422 17.3.2.2 Le rle des valeurs propres de R ....................... 422 Slection de variables ............................................. 421 17.4.1 Les critres de choix ....................................... 422 17.4.2 Les techniques de slection ................................... 413 1704.2.1 Recherche exhaustive ............................... 423 17.4.2.1 Les mthodes de pas pas ............. . ............ 423 Traitement de la multicolinarit ................................... 424 17.5.1 Rgression sur composantes principales ......................... 424 17.5.2 La rgression ~( ridge}) ...................................... 425 17.5.3 La rgression PLS .......................................... 426 Un exemple ..................................................... 428 17.6.1 Rsultats de la rgression complte ............................. 428 17 .6. L l Analyse de variance de la rgression .................... 429 17.6.1.2 Estimation des paramtres ............................ 429 17.6.1.3 tude des rsidus et de l'influence des observations ........ 430 17.6.2 Recherche d'un modle restreint ............................... 431 Prdicteurs qualitatifs ............................................ 436 17.7.1 Le principe de quantification optimale .......................... 436 17.7.2 Retour sur l'analyse de la variance ............................. 436 17.7.3 Exemple: prix d'une voiture (suite) ............................ 437
xxii
18.2
18.3
18.4
18.5
18.6
18.7
18.1.204 AnaLyse de variance el mtrique W- l . . . . . . . . . . . . . . . . . . . 445 18.1.2.5 Un exemple classique: les iris de Fisher ................. 446 18.1.3 Rgles gomtriques d'affectation .............................. 447 18.1.3.1 Rgle de Mahalanobis-Fisher .. . ..................... 447 18.1.3.2 Insuffisance des rgles gomtriques .................... 448 Fonction de Fisher et distance de Mahalanobis pour deux groupes ........ 449 18.2.1 La fonction de Fisher (1936) .................................. 449 18.2.2 Application de l'analyse canonique .......................... , .450 18.2.3 quvalence avec une rgression muLtiple inhabituelle .............. 45 f 18.204 Fonctions de classement et fonction de Fisher .......... , .......... 452 18.2.5 Exemple infarctus ............................. _ ......... 452 Les SVM ou sparateurs vaste marge ............................ __ 456 18.3.1 L'hyperplan optimal ... . ................................... 457 18.3.1. i Le cas spamble ...................... . ........... 457 18.3.1.2 Le cas non-sparable ................................ 459 18.3.2 Changement despi:c~: ..................................... 460 Discrimination sur variables qualitatives ............................. 46 f 1804.1 Discriminante sur variables indicatrices ......................... 461 18.4.2 Discrimination sur composantes d'une ACM . . . . . . . . . . . . . .. . ..... 461 1804.3 Un exemple de credit scoring .............................. 462 Analyse discriminante probabiliste .................................. 467 18.5.1 La rgle baysienne et le modle gaussien ............ . ......... 467 18.5.1.1 Le cas d'galit des matrices de variance covariance ........ 468 18.5.1.2 Deux groupes avec galit des mutrices de variance ........ 469 18.5.1.3 Taux d'erreur thorique pour deux groupes avec~! ~2' 471 18.5.1.4 Tests et slection de variables ................. _ _ ..... 472 18.5.2 Mthodes non paramtriques 474 Rgression logistique binaire (deux groupes) ....... _.................. 475 L8.6.1 Interprtation ............................................. 475 18.6.2 Estimation .................... . ......................... 476 18.6.3 Tests et slection de variables ............. _ ................... 478 18.6.4 Comparaison avec l'analyse discriminante linaire ................. 480 Validation ............................................. . ..... 481 18.7.1 Procdure de classement ..................................... 481 18.7.2 Validit d'un score, courbe ROC, AUe. .......................... 482
xxiii
19.2
19.3
19.4
19.5
19.6
20.2
20.3
20.4
20.5
20.6
xxiv
'I11III Table
des matires
21.2
21.3
21.4
21.5
Bibliographie ......................................................... 609 Index des noms ....................................................... 615 Index .............................................................. 619
Introduction
Les mthodes statistiques sont aujourd'hui utilises dans presque tous les secteurs de l'activit humaine et font partie des connaissances de base de l'ingnieur, du gestionnaire, de l'conomiste, du biologiste, de l'informaticien ... Parmi les innombrables applications dans le domaine industriel: la tiabilit des matriels, le contrle de qualit, l'analyse des rsultats de mesure et leur planification, la prvision, et dans le domaine de l'conomie et des sciences de l'homme: les modles conomtriques, les sondages, les enqutes d'opinion, les tudes quantitatives de march, etc. Nous allons tenter de prciser dans les paragraphes suivants les notions fondamentales de la statistique et les rapports qu'elle entretient avec la thorie des probabilits ainsi que ce qu'on entend par dmarche statistique.
Individus et variables
Dfinitions gnrales
Faire de la statistique suppose que l'on tudie un ensemble d'objets quivalents sur lesquels on observe des caractristiques appeles variables )). Ainsi en contrle de fabrication on prlvera un ensemble de pices dans une production homogne et on mesurera leur poids, leur diamtre. En marketing on tudiera les clients
xxvi
_Introduction
d~une
entreprise en les dcrivant par leurs caractristiques socio-dmographiques et leurs achats passs.
La notion fondamentale en statistique est celle de groupe ou d'ensemble dobjets quivalents que l'on appelle population. Ce terme hrit des premires applications de la statistique la dmographie est employ pour dsigner toute collection d'objets tudier ayant des proprits communes. Ces objets sont appels des individus ou units statis-
tiques.
La statistique traite des proprits des populations ou de sous-populations plus que de celles d'individus particuliers: Gnralement la population tudier est trop vaste pour pouvoir tre observe exhaustivement : c'est videmment le cas lorsque la population est inti nie : par exemple l'ensemble de toutes les pices mtalliques que pourrait sortir une machine dans des conditions de fabrication dtermines, mais c'est aussi le cas lorsque les observations sont coteuses (contrle destructif entre autres). L'lude de LOUS les individus d'une population finie s'appelle un recensement. Lorsque l'on n'observe qu'une de la population on parle de sondage, la partie tudie s'appellant Ichantillon. Chaque individu d'une population est dcrit par un ensemble de caractristiques appeles variables ou caractres. Ces variables peuvent tre classes selon leur nature: variables quantitatives ou numriques: par exemple taille, poids. volume, s'expriment par des nombres rels sur lesquels les oprations arithmtiques courantes (somme, moyenne, ... ) ont un sens. Certaines peuvent tre discrtes (nombre fini ou dnombrable de valeurs) : nombre de dfauts d'une pice, de vhicules passant en une heure un page, etc. ou continues si toutes les valeurs d'un intervalle de IR; sont acceptables. variables qualitatives s'exprimant par l'appartenance une catgorie ou modalit d'un ensemble fini. Certaines sont purement nominales: par exemple type de traitement thermique subi par un alliage, catgorie socio-professionnelle d'un actif (ouvrier, cadre, employ ... ), d'autres sont ordinales lorsque l'ensemble des catgories est muni d'un ordre total; par exemple: trs rsistant, assez rsistant, peu rsistant. Le concept cl en statistique est la variabilit qui signifie que des individus en apparence semblables peuvent prendre des valeurs diftrentes : ainsi un processus industriel de fabrication ne fournt jamais des caractristiques parfaitement constantes. L'analyse statistique est pour l'essentiel une tude de la variabilit: on peut en tenir compte pour prvoir de faon probabiliste le comportement d'individus non encore observs, chercher la rduire ou l'expliquer l'aide de variables extrieures, ou chercher l'augmenter dans le but de distinguer le mieux possible les individus entre eux.
Tableaux de donnes
On prsente usuellement sous forme de tableau Il les donnes recueillies sur Il individus. Lorsque l'on observe uniquement des variables numriques le tableau a la forme d'une matrice Il et p colonnes de terme gnral x~ :
_Introduction
xxvii
..,
Xl
x-
xj
xl'
r}
Il
Lorsque les variables sOf!t toutes qualitatives, le tableau o x1 dsigne le numro de la catgorie de la variable gel laquelle appartient l'individu i est le tableau des codages rduits. Les numros des modalits tant arbitraires, on lui associera le tableau disjonctif ml + m? + ... + 1111, colonnes constitu de la faon suivante: A toute variable I1lj catgories on substitue un ensemble de /1Ij variables valant 0 ou 1 (les indicatrices des catgories), Ainsi au tableau 5 X 3 des observations sur 5 individus de 3 variables ri 2, 3 et 2 modalits respectivement:
2 3
2 2 222
correspond le tableau disjonctif 5 lignes et 7 colonnes suivant:
o. 1
0 0 0
0 1: 1 0 0:0 0:0 1 0: 1 0
Mentionnons enfin les tableaux de contingence ou tableaux croiss qui rsultent d'un premier traitement et fournissent la ventilation de Il individus selon deux variables qualitatives 1111 el ml modalits:
1
2 j
111'2
N=
1111
IZij
xxviii
_Introduction
o nij est le nombre d'individus appartenant simultanment aux catgories deux variables.
et j des
Statistique et probabilits
La thorie des probabilits est une branche des mathmatiques qui traite des proprits de certaines structures modlisant des phnomnes o Je hasard intervient. En tant que thorie mathmatique abstraite, elle repose sur une axiomatique et se dveloppe de faon autonome par rapport la ralit physique. Seuls les noms des concepts utiliss (vnements, variables ... ) renvoient l'exprience. La thorie des probabilits permet de modliser efficacement certans phnomnes alatoires et d'en faire l'tude thorique. Quels sont ses liens avec la statistique qui repose plutt sur l'observation de phnomnes concrets? On peut en voir schmatiquement trois: tout d'abord les donnes observes sont souvent imprcises, entaches d'erreur. Le modle probabiliste permet alors de reprsenter comme des variables alatoires les dviations entre ~< vraies ), valeurs et valeurs observes. Deuximement on constate souvent que la rpartition statistique d'une variable au sein d'une population est voisine de modles mathmatiques proposs par le calcul des probabilits (lois de probabilit). Enfin et c'est il notre avis le rle le plus important du calcul des probabilits, les chantillons d'individus observs sont la plupart du temps tirs au hasard dans la population, ceci pour assurer mathmatiquement leur reprsentativit: si le tirage est fait de manire quiprobable chaque individu de la population a une probabilit constante et bien dfinie d'appartenir l'chantillon. Les caractristiques observes sur l'chantillon deviennent, grce ce tirage au sort, des variables alatoires et le calcul des probabilits permet d'tudier leurs rpartitions. Mentionnons ici les mthodes de validation par rchantillonnage (bootstrap, validation croise) qui consistent re-tirer des observations l'intrieur de l'chantillon initial. Il faut bien distinguer ce dernier rle du calcul des probabilits des deux premiers: dans les premiers cas le calcul des probabilits propose des modles simplificateurs, ventuellement contestables, du comportement d'un phnomne (par exemple supposer que la dure de vie X d'un composant lectronique suit une loi exponentieIJe P(X > x) = exp (- ex)) : dans le dernier cas, le calcul des probabilits fournit des thormes si le processus d'chantillonnage est respect: ainsi le thorme centrallimte permet d'tablir que la moyenne x d'une variable numrique mesure sur rz individus s'carte de la moyenne m de la population selon une loi approximativement gaussienne. Le calcul des probabilits est donc un des outils essentiels de la statistique pour pouvoir extrapoler la population les rsultats constats sur l ~ chantillon mais on ne peut y rduire la statistique: ct du calcul des probabilits, la statistique utilise des mathmatiques assez classiques (algbre linaire, gomtrie euclidienne) et de plus en plus l'informatique, car les calculs mettre en uvre ncessitent l'emploi d'ordinateurs: J'informatique a rvolutionn la pratique de la statistique en permettant la prise en compte de donnes multidimensionnelles ansi que l'exploration rapide par simulation de nombreuses hypothses.
_Introduccion
xxix
Ce livre met plus l'accent sur les techniques et la dmarche statistiques que sur la tho~ rie des probabilits, conue ici comme un outil pour la statistique et non comme un objet d'tude en elle-mme.
Les sondages
Essentiellement utiliss dans les sciences humaines, mais galement pour obtenir des chantillons dans des bases de donnes, les techniques de sondages servent choisir dans une population les units interroger ou observer. Le choix des units se fait en gnral alatoirement, mais pas ncessairement avec des probabilits gales pour toules les units. L'important est qu'il n'y ait pas d'individus de la population qui aient une probabilit nulle de figurer dans l'chantillon, sinon les rsultats risquent d'tre biaiss car l'chantillon ne sera plus reprsentatif. Les mthodes non-alatoires sont galement souvent utilises dans les tudes de march et d'opinion qui constituent un secteur d'activit important.
La statistique exploratoire
Son but est de synthtiser, rsumer, structurer l'information contenue dans les donnes. Elle utilise pour cela des reprsentations des donnes sous forme de tableaux, de graphiques, d'indicateurs numriques.
xxx
.lntroducton
Le rle de la statistique exploratoire est de mettre en vidence des proprits de l'chantillon et de suggrer des hypothses. Les modles probabilistes ne jouent ici qu'un rle trs restreint voire mme nul. Les principales mthodes de l'analyse exploratoire se sparent en deux groupes: Aprs une phase de description variable par variable, puis par couples de variables (la statistique descriptive classique) l'analyse des donnes au sens franais restreint, exploite le caractre multidimensionnel des observations au mogen de : mthodes de classification visant rduire la taille de l'ensemble des individus en formant des groupes homognes~ mthodes factorielles qui cherchent rduire le nombre de variables en les rsumant par un petit nombre de composantes synthtiques. Selon que l'on travaille avec un tableau de variables numriques ou qualitatives on utilisera l'analyse en composantes principales ou l'analyse des correspondances. Les liens entre groupes de variables peu vent tre traits par l'analyse canonique.
Lastatistiqe infrntille
Son but est d'tendre les proprits constates sur l'chantillon la population toute entire et de valider ou d'infinner des hypothses a priori ou fonnules aprs une phase exploratoire. Le calcul des probabilits joue souvent un rle fondamental. Donnons ici quelques exemples lmentaires.
x=
x est une estimation de m. L'chantillon ayant t tir au hasard la valeur constate x n'est qu'une de celles que
~-~----.;.;. Il
+ ... +
de
l'on aurait pu trouver: c'est donc une variable alatoire qui aurait pu fournir une autre valeur si on avait rpt l'exprience dans les mmes conditions. Si Tl est assez grand le calcul des probabilts fournt avec une grande prcision la loi de rpartition des valeurs possibles de autour de 111 et on pourrait en dduire si m tait connu un interva1le du type [m 1l11l, 111 + llm l ayant une probabilit fixe, disons 95 %, de contenir Connaissant une observation x on inverse alors la problmatique et on peut en dduire une fourchette ou intervalle de confiance pour la vraie valeur m.
x.
_Introduction
xxx
contrle sur 50 pices el en trouve trois dfectueuses soit 6 % : doit-il livrer quand mme au risque de se faire refuser la marchandise? Le raisonnement est alors le suivant: si le taux thorique de dfectueux est de 4 % quelles sont les chances d'observer un tel nombre de dfectueux? Le calcul des probabilits montre alors qu'il y a une probabilit voisine de 0.32 d'observer trois pices dfectueuses ou plus (loi binomiale 03(50 ; 0.04)). Cette probabilit tant assez forte, l'vnement constat parat donc normal au fournisseur et ne semble pas de nature remettre en cause l'hypothse formule. Mais le client serait-il d'accord? ... Il faut alors calculer le risque d'un refus par le client. Dans ces deux cas le raisonnement procde du mme schma: l'chantillon est tir au hasard dans une population plus vaste; le calcul des probabilits permet ensuite de prciser les caractristiques de l'ensemble des chantillons que l'on aurai t pu obtenir par le mme procd, c'est l'tude des
distribut;ons~dJchantillonnage
.gn_jnY~r~~ l~sc::ol1c::JlJsions
de la phase prcdente pour en dduire la structure vraisemblable de la population dont est issu l'chantillon observ. C'est la phase infrentielle.
On ne manquera pas de constater la similitude de cette dmarche statistique avec la dmarche scientifique habituelle: observation, hypothses, vrification.
L'avnement des ordinateurs et le dveloppement du calcul statistique permettent dans une certaine mesure de s'affranchir de modles probabilistes souvent illusoires car choisis pour leur relative simplicit mathmatique mais pas toujours adapts aux donnes. Les mthodes de rchantillonnage renouvellent la problmatique de l'infrence en n'utilisant que les donnes observes.
xxxii
_Introduction
publicit pour obtenir un taux de retour maximal, qui dois-je accorder un crdit pour minimiser le risque de perte? La statistique n'est plus alors un auxiliaire de la science mais aussi un outil pour l'action. Le data mning que l'on peut traduire par fouille de donnes est apparu au milieu des annes 1990 comme une nouvelle discipline l'interface de la statistique et des technologies de l'information: bases de donnes, intelligence artiticielle, apprentissage automatique (machine leal1ling). David Hand (1998) en donne la dfinition suivante: Data Milling COl1ssts in the discovery of interesting. unexpected. or vall/able strl/ClUreS in large data selS . La mtaphore qui consste considrer les grandes bases de donnes comme des gisements d'o l'on peut extraire des ppites l'aide d'outils spcifiques n'est pas nouvelle. Ds les annes 1970 Jean-Paul Benzcri n'assignait-il pas le mme objectif l'analyse des donnes? : ( L'analyse des dOJlnes est lin outil pour dgager de la gangue des donnes le pl/r diamant de la vridique nature . Tel
M~
_Introduction
xxxiii
donnes. Si de nouvelles mthodes ont vu le jour en dehors du monde des statisticiens, il n'en reste pas moins que ces mthodes relvent de la statistique au sens large recueil, traitement, interprtation de donnes et que r esprit statistique imprgn des notions de marge d'erreur, de risque, d'incertain, reste indispensable pour en relativiser les conclusions. Le praticien de la statistique doit donc tre non seulement l'inlerface avec les disciplines d'application, mais aussi dominer les outils informatiques de son temps.
le modle probabiliste
En tant que thorie mathmatique, la thorie des probabilits n'a pas tre justifie: une fois ses axiomes poss, elle se dveloppe de faon autonome par rapport la ralit concrte. Il en va autrement lorsque l'on cherche appl iquer le calcul des probabil its : on ne peut alors luder la question de la nature de la probabilit et de la validit du modle probabiliste. Aprs trois paragraphes consacrs un expos simple<l) de la thorie on se proposera de donner quelques lments de rtlexion sur le concept de probabilit.
1.1
ESPACE PROBABILISABLE
1.1.1
U ne exprience est qualifie d'alatoire si l'on ne peut prvoir par avance son rsultat et si, rpte dans des conditions identiques, elle peut (on aurait pu s'il s'agit d'une exprience par nature unique) donner lieu des rsultats diffrents. On reprsente le rsultat de cette exprience comme un lment w de l'ensemble n de tous les rsultats possibles: n est appel l'ensemble fondamental ou encore l'univers des possibles.
n=
Ainsi l'exprience alatoire qui consiste lancer deux ds, on peut associer l'ensemble {( l.1), (1.2), (1.3) ... } 36 lments.
II convient de noter ici que l'ensemble n ne se dduit pas de manire unique de l'exprience mais dpend de l'usage qui doit tre fait des rsultats: ainsi, si l'on convient une fois pour toutes qu'on ne retiendra de l'exprience des deux ds que la somme des points affichs, on peut trs bien se contenter d'un ensemble n' = [2, 3, 4 ... 12}.
IIIIIIiIIUn expos complet des fondements thoriques, comprenant en particulier le thorme de prolongement, dpasserait le cadre de ce livre. On se reportera l'ouvrage de J. Neveu (1964).
Un J'llement est une assertion ou proposition logique relative au rsu1tat de l'exprience (ex. : la somme des points est suprieure 10). On dira qu'un vnement est ralis ou non suivant que la proposition est vraie ou fausse une fois l'exprience accomplie. A la ralisation d'un vnement on peut donc associer tous les rsultats de l'preuve correspondante; ainsi la somme suprieure ou gale 10 est l'ensemble de rsultats suivants:
[(4.6) ; (5.6) ; (6.6) ; (6.4) ; (6.5)}
c'est--dire une partie de n. Dsonnais nous identifierons un vnement la partie de pour laquelle cet vnement est ralis. On appelle vnemellt lmentaire une partie de
n.
1. 1.. 2
Rciproqument toute partie de peut-elle tre considre comme un vnement, ou du moins est-il utile qu'il en soit ainsi? Afin de rpondre cette question nous allons supposer pour l'instant que l'ensemble des vnements consttue une dasse (15 de parties de n dont nous allons dtinir les proprits en nous rfrant des besoins usuels; nous en profiterons pour introduire Je vocabulaire probabiliste. A tout vnement A, on associe son contraire not A tel que si A est ralis alors A ne l'est pas, et rciproquement. A est donc reprsent dans par la partie complmentaire de A.
.n
cg alors A
(g,
tant donn deux vnements A, B on est conduit s'intresser leur union A ou B (A U B) et leur intersection (A et B ou A n B). Il faudra donc que si A, B E (g, A U B et A n B E (J, et ceci d'une manire gnrale pour un nombre quelconque d'vnements. On dtnit galement l'vnement certain reprsent par tout entier et l'vnement logiquement impossible (tel que avoir une somme de points gale 13) reprsent par l'ensemble vide 0. Nous pouvons maintenant dfinir la classe cg par les trois axiomes:
VA
cg, A E
(g;
pour tout ensemble fini ou dnombrable Al, A2' .. " A'l d'lments de ((5,
ilE~
l! Ai E cg;
1 1
On peut montrer titre d'exercice que ces axiomes impliquent que 0 E cg et que (l Ai E cg. Les proprits prcdenles dtinissent ce que l'on appelle une cr-algbre de Boole ou une tribu, f7l(n) est une cr-algbre particulire, la plus grosse, mais il n'est pas toujours utile ni souhaitable de J'utiliser. On peut donc donner maintenant la dfinition d'un espace probabilisable:
DFINITION
On appelle espace probabilisable le COl/pIe (il ; cg) o cg constitue une tribu de parties
den.
vnemellts illcompatibles. Dellx \'l1ements A et B so1ll dits lu.:ompatibles si la ralisation de l'lin exclut celle de l'atltre, alllrement dit si les partes A et B de il som disjointes A n B = 0. Systme complet d'vnements. A" A 2 ., A ll formel1t lm systme complet d'l'nements si les parties AI; ... , An de il constituent tille partiton de
n:
Vi=F j { UA i =
1.2 1.2.1
A chaque vnement on associe un nombre positif compris entre 0 et 1, sa probabilit. Afin d'viter toute discussion de nature philosophique sur le hasard, la thorie moderne des probabilits repose sur l'axiomatique suivante:
DFINITIONS
(n, (g) (ou loi de probabilit) tille application P de (g dans [0, 1] telle que: P{fl) 1; - pour fol/! ensemble dnombrable d'vneme1lts incompatibles AI' A2' .. " Ali' on
li
peU Ai)
2:P(AJ,
Une loi de probabilit n'est donc rien d'autre qu'une mesure positive de masse totale 1 et la thorie des probabilits s'inscrit dans le cadre de la thorie de la mesure.
1.2.2
Proprits lmentaires
: P(@) = O.
: P(A) = 1 - P(A). : P(A) :::; P(B) s A C B. : P(A U B) = P(A) + P(B) - P(A
: peU
Ai) :::;
2: P(AJ
i
n B).
Proprit 6 : Si Ai ~
2: P(A n Bi)'
i
fORMULE DE POINCAR
Cette formule permet de calculer la probabilit de la runion d'un nombre quelconque d'venements ; elle se dmontre par rcurrence:
11
Il
2:
l:::5i<j~l
11
p(AinAj )
i"'l
2:
1~;<j</.::::51
Il
p(AinAjnAJJ
Remarque: P(A) 0 n'implique pas ncessairement A 0. Un vnement de probabilit nulle n'est pas ncessairement impossible: soit il = [0, 1] muni de la loi de probabilit uniforme (c'est--dire de la mesure de Lebesgue) alors P(l) 0 "dl.
De mme P(A) = 1 n'implique pas que A soit l'vnement certain: on parlera d'vnement presque certain et dans le cas prcdent d'vnement presque impossible. Les vnements de probabilit:nllsorit en ralit trs communs, comme on le verra dans l'tude des variables alatoires continues possdant une densit: tous les vnements (X = x) sont de probabilit nulle mais aucun n'est impossible. La variable X prend une valeur prcise une fois l'exprience ralise. Cela est comparable au fait qu'un intervalle de longueur donne 1 est fonn d'une infinit de points de longueur nulle.
1.3
1.3.1
Introduction et dfinitions
Supposons que l'on s'intresse la ralisation d'un vnement A, tout en sachant qu'un vnement B est ralis (fig. 1.1). Si A et B sont incompatibles la question est tranche: A ne se ralisera pas, mais si A n B ::f:. O. il est possible que A se ralise; cependant, l'univers des possibles n'est plus tout entier, mais est restreint B ; en fait, seule nous intresse la ralisation de A l'intrieur de B, c'est--dire A n B par rapport B.
FIGURE
1.1
, . Le modle probabiliste
Soit B lm vnement de probabilit non Ilulle. On appelle probabilit conditiollllelle de A sac/wllt B (ml encore de A si B) le rapport Ilot P(AIB) :
P(AI B)
= P(A n
P(B)
B)
Il faut s'assurer que le nom de probabilit est justifi. Vrifions les axiomes:
P~ .,
DI
B)
p(n
B)
P(B)
P(B) = P(B)
p[ y(A, n B)]
P(B)
~P(Ai
i
B)
P(R)
2:P(A j lB)
i
c.q.f.d
On peut donc munir (n, (g) d'une nouvelle loi de probabilit, la loi de probabilit conditionnelle B fix et ceci pour tout B de probabilit non-nulle. Il sera ncessaire d'tendre ]a notion de 101 de probabilit conditionnelle lorsque B est de probabilit nulle (rappelons que la tribu ce contient de tels vnements) : cela sera fait au chapitre 3 dans certains cas particuliers.
_ Exemple: En fiabilit (ou en assurance sur la vie), on considre la fonction de survie
R(t) dfinie comme la probabilit qu'un individu vive au-del d'une date t: R(t) P(X> 1).
~+
et :
La probabilit conditionnelle de dfaillance (ou de dcs) entre t l et t 2 sachant que l'individu a dj fonctionn (ou vcu) jusqu' t 1 est: P(t ~ X <
1
f1/x > -
t ) =
1
R(t ) - R(t,)
1
R(t,)
il n'y a pas de vieillissement: la probabilit de fonctionner pendant t:. fi partir de t l est la mme qu'au dmarrage. Ce modle est couramment utilis en lectronique. IIIIIIB
1.3.2
1.3.2.1
Indpendance
Indpendance de deux vnements
DFINITION
= P(A).
de ralisation de ;\.
A indpendant de B ~ B indpendant de A.
On parlera dsormais d'vnements indpendants sans autre prcision. En effet, si P(AIB)
= P(A), alors:
P(A
B)
= P(A)
P(B)
et :
= P(B)
On a dmontr au passage
r importante formule:
1
P(A
B)
= P(A)P(B)
N.B.: La notion d'indpendance n'est pas une notion purement ensembliste comme l'incompatibilit: deux vnements peuvent tre indpendants pour une loi de probabilit P et pas pour une autre P'. On s'en convaincra en vrifiant qu'en gnral si A et B sont indpendants, ils ne le sont plus conditionnellement il un troisime vnement C.
1.3.2.2
Soient A Jo A2' ... , Ail des vnements ~ ils sont dits mutuellement indpendants si pour toute partie J de l'ensemble des indices allant de 1 il Il on a :
II P(A
1
i)
Cette condition est beaucoup plus forte que l'indpendance deux deux, qui ne lui est pas quivalente mais en est une simple consquence.
Remarque: Dans les applications il est assez frquent que l'on n'ait pas dmontrer l'indpendance de deux vnements car celle-ci est une proprit de l'exprience alatoire. Ainsi lorsqu'on procde un tirage avec remise de Il individus dans une population finie les vnements relatifs aux diffrents tirages sont indpendants entre eux par construction.
modle probabiliste
1. 3.3
Formules de Bayes
P(A
=
P(B)
B)
et P(B/ A)
P(A
B)
Soit Bi un systme complet d'vnements. On peut crire: P(A Le thorme des probabilits totales devient donc:
P(A) =
n Bi)
2: P(A/ B;)P(Bi)
i
PCA/Bi)P(Bj) 2:P(A/B,JP(BJ.J
_ Exemple: Dans une usine trois machines IvI" Nt!, !vI] fabriquent des boulons de mme type. MI sort en moyenne 0.3 % de boulons dfectueux, !vI2 0.8 % et Iv!} 1 %. On mlange 1 000 boulons dans une caisse, 500 provenant de MI' 350 de lH! et 150 de M]. On tire un boulon au hasard dans la caisse; il est dfectueux. Quelle est la probabilit qu'i1 ait t fabriqu par Ml (ou N!;. ou M3 ) ?
Lorsque l'on tire un boulon au hasard les probabilits dites {l priori qu'il provienne de lvl l , M 2 ou M} sont videmment P(M 1) 0.50, P(!vIl ) 0.35, PUV!3) = 0.15. Lorsque l'on sait qu'il est dfectueux, vnement not D, il faut alors calculer les probabilits conditionnelles:
P(M I / D), P(!vI2/ D), P(!v!3/ D)
Comme on connat P(D/ Iv!l) 0.003, PCD/IvI!) = 0.008 et P(DlM 3 ) formule de Bayes permet d'crire:
PM
(1
= 0.01
la deuxime
/D ) -
+ 0.01
X 0.15
= 0.48
Ce sont les probabilits {/ posteriori, sachant que le boulon est dfectueux. ail voit donc que la prse en compte d'une information (le boulon est dfectueux) modifie les valeurs des _ probabilits de lv!l. A12 et 1v!3'
10
Le thorme de Bayes, simple consquence des axiomes et de la dfinition de la probabilit conditionnelle, tent une place part dans le calcul des probabilits en raison de son importance pratique considrable et des controverses auxquelles son application a donn lieu: il est la base de toute une branche de )a statistique appele statistique baysiemle. Parmi les applications courantes citons: en diagnostic mdical la rvision des probabilits de telle ou telle affection aprs obtention des rsultats d'examens de laboratoire, en matire financire la dtermination du risque de faillite des entreprises aprs observations de certains ratios. Le thorme de Bayes est souvent appele thorme sur la probabilit des causes ce qui se conoit aisment sur r exemple prcdent. Son application gnrale a donn lieu de violentes critiques de la part des logiciens pour qui causalit et alatoire sont antinomiques: il n' y a qu' une cause possible parmi des causes mutuellement exclusives et leur donner des probabilits n'aurait aucun sens. Certains auteurs interprtent le fail que les formules de Bayes ont t publies titre posthllme (enJ763) par la crainte du sacrilge: Thomas Bayes tait en effet un cclsiastique et l'application de sa formule la recherche des causes ultimes d'un vnement aurait pu conduire probabiliser l'existence de Dieu ...
1.4
La thorie mathmatique des probabilits ne dit pas quelle loi de probabilit mettre sur un ensemble il parmi toutes les lois possibles (et elles sont nombreuses ... ). Ce problme concerne ceux qui veulent appliquer le calcul des probabilits, et renvoie la nature physique , si l'on peut dire, du concept de probabilit qui formalise et quantifie Je sentment d'incertitude vis--vis d'un vnement.
1.4.1
la conception objectiviste
Pour les tenants de ce point de vue, la probabilit d'un vnement peut tre dtermine de manire unique.
, .4.1.1
La vision classique
C'est ceHe qui est hrite des jeux de hasard . .n est en gnral fini et des raisons de symtrie conduisent il donner chaque vnement lmentaire la mme probabilit: ainsi le lancer d'un d parfait conduit un ensemble il 6 lments quiprobables. Le calcul des probabilits n'est donc plus qu'une affaire de dnombrement, d'o la clbre formule:
P(A)
L'analyse combinatoire fournit alors les rponses aux cas classiques. Cette approche ne s'tend pas aux cas o il n'est plus dnombrable (voir plus loin) et repose sur une conception idalise de l'exprience alatoire: les symtries parfaites n'existent pas; ainsi le d parfait n'est qu'une vue de l'esprit et ses 6 faces ne sont pas en ralit
11
quiprobables en raison de la non homognit de la matire et surtout des gravures des numros sur les faces.
1.4.1.2
Un paradoxe clbre
Les limites de la vision classique apparaissent, nous semble-t-il, assez bien dans le clbre paradoxe de Bertrand. Considrons un triangle quilatral et son cercle circonscrit. On tire une corde au hasard. Quelle est la probabilit que sa longueur soit suprieure celle du ct du triangle? Reproduisons ici les commentaires de Renyi (1966) : Premire solution. Comme la longueur de la corde est dtermine par la position de son milieu, le chox de la corde peut consister marquer un point au hasard l'intrieur du cercIe. La probabilit pour que la corde soit plus longue que le ct du triangle quilatral inscrit est alors videmment gale la probabilit pour que le milieu de la corde soit intrieur au cercle inscrit qui est. de rayon moiti (cf fig. 1.2). Si l'on admet que la rpartition de ce point est uniforme dans le cercle, on trouve pour la probabilit demande :
7I(r/2f
4
Deuxime solution. La longueur de la corde est dtermine par la distance de son milieu au centre du cercIe. Par raison de symtrie nous pouvons considrer que le milieu de la corde est pris sur un rayon donn du cercle et supposer que la rpartition de ce point sur le rayon est uniforme. La corde sera plus longue que le ct du triangle quilatral inscrit si son milieu est une distance du centre infrieur r/2 ; 'a probabilit cherche est alors 1/2 (cl fig. 1.3).
FIGURE 1.2
FIGURE
1.3
FIGURE
1.4
12
Troisime solution. Par raison de symtrie nous pouvons supposer qu'on a fix une des extrmits de la corde, soit Po. L'autre sera choisie au hasard sur la circonfrence. Si l'on admet que la probabilit pour que l'autre extrmit P tombe sur un arc donn de la crconfrence est proportionnelle la longueur de cet arc, la corde PoP est plus grande que le ct du triangle quilatral inscrit quand P se trouve sur rare P 1P2 donc la longueur est le 1/3 de celle de la circonfrence (cf. fig. lA) ; la probabilit est alors 1/3. Il est clair que ces trois hypothses de rpartition, sont galement ralisables. L'exemple parut paradoxal en son temps uniquement parce qu'on ne comprenait pas que des conditions exprimentales diffrentes pour le choix au hasard de la corde, dans les trois procds dcrits, conduisaient des mesures-probabilits diffrentes sur la mme algbre d'vnements.
1.4.1.3
La vision frquentiste
Elle repose sur la loi des grands nombres (voir chapitre 2). Une seule exprience ne suffisant pas pour valuer la probabilit d'un vnement on va rpter un trs grand nombre de fois l'exprience. Ainsi du lancer d'un d : la probabilit d'observer la [ace 6 est la limite du rapport:
-------=1
Nombre d'essais lorsque le nombre d'essais augmente indfiniment. En effet la loi des grands nombres assure que f converge vers )a probabi lit p de l'vnement. Du point de vue pratique il est clair que la vision frquentiste ne permet pas de trouver la probabilit d'un vnement puisqu'un tel processus ncessitant une infinit d'observations est physiquement irralisable: cela permet tout au plus de donner une dfinition de la probabi1it comme limite d'une frquence. Remarquons que dans la conception frquentiste il est impossible de donner une valeur et mme un sens la probabilit d'un vnement non rptable du genre ,< neigera-t-il le 25 octobre 2990) ; ce qui limite le champ d'application du calcul des probabilits. Cependant la critique la plus radicale du point de vue frquentiste eslla suivante: la dfinition de la probabilit repose sur la loi des grands nombres, or celle-ci est un thorme de probabilits qui suppose donc dfini le concept de probabi1it : il y a donc un cercle vicieux.
Nombre de 6 obtenus
1.4.2
la conception subjectiviste
Le point de vue classique tant trop limit, le frquentisme logiquement intenable, la probabilit d'un vnement sujette rvision en fonction d'infonnations nouvelles (thorme de Bayes), l'existence mme de probabilits objectives a t nie par beaucoup. C'est ainsi que le magistral Trait de Probabilits de de Finetti (1974) commence par l'afiirmation en lettres capitales <~ La Probabilit n'existe pas ) et continue par:
L'abandoll de croyances superstitieuses sur l'existence dll phlogistique, de l'thel; de l'espace et du temps absolu . .. Olt des fes, CI t Hne tape essentielle dans la pense scientifique. La probabilit, c01lsidre cOlllme qllelque chose ayant llne existence objectil'e est galement !lIle conceptioll errone el dangereuse, llne tentative d'extrioriser Olt de matrialiser 110S l'ritables conceptions probabilistes!
13
1.4.2.1
Mesure d'incertitude
La probabilit objective d'un vnement n'existe pas et n'esl donc pas une grandeur mesurable analogue la masse d'un corps, c'est simplement une mesure d'incertitude, pouvant varier avec les circonstances et l'observateur, donc subjective, la seule exigence tant qu'elle satisfasse aux axiomes du calcul des probabilits. Les tenants de l'cole subjectiviste proposent alors des mthodes permettant de passer d'une probabilit qualitative c'est--dire d'un simple pr-ordre sur les vnements. une mesure de probabilit. puisque la rptition n'est plus ncessaire on peut probabiliser des vnements non tables et tendre le domaine d'application du calcul des probabilits en particulier pour tout ce qui concerne les dcisions conomiques.
1.4.2.2
Le baysianisme
Un pas de plus va tre franchi par l'coh; baysienne (ou plus exactement nobaysienne vu les deux sicles de dcalage entre Bayes et ceux qui s'en rclament actuellement) qui va probabiliser tout ce qui est incertain et mme des phnomnes non alatoires. Pour 11ustrer la thorie baysienne modifions quelque peu l'exemple prcdent de la fabrication des boulons: supposons qu'il n'y ait plus qu'une machine et que l'on cherche estimer le pourcentage p de boulons dfectueux produit en moyenne par la machine: si l'on admet qu'il n'y a que trois valeurs possibles PI' p'}., P3 respectivement 1 % de probabilits a priori 1T), 1T,;!, 1Tj respectivement, la solution gales 0.3 %, 0.8 est inchange et la valeur la plus probable il posteriori est 0.008 (s r on tire un seul bouton dfectueux). Supposons qu'on tire maintenant Il boulons et que le nombre de boulons dfectueux soit k, la probabilit que le pourcentage de dfectueux produit par la machine soit P2 est alors:
On peut encore gnraliser et supposer que p prenne toutes les valeurs possibles dans l'intervalle rO, IJ. Si l'on connat la loi de probabilit de p sur [0, 1] et qu'elle admet une densitf(p) par rapport la mesure de Lebesgue, la fornlUle de Bayes s'crit:
P(p/II:)
= --:---------- p)"-kf(p) dp
()
l,C~pk(1
C~pk( 1
- p)/J-kf(p)
A condition de connatre une distribution de probabilit li priori sur les valeurs de p, on peut donc en dduire les valeurs de p a posteriori les plus probables, donc estimer p. On aura remarqu que p n'est pas alatoire mais un paramtre the de valeur inconnue et que l'on a modlis notre incertitude sur ses valeurs, par une mesure de probabilit. Mais
14
comment choisir cette mesure a priori? on retombe sur la difticult signale plus haut et, si cette probabilit est subjective, quel statut scientifique donner une grandeur qU peut varier d'un observateur li l'autre? Telles sonlles critiques usuelles faites par les objectivistes. De plus on a montr qu'un ordre de probabilits donn n'induisait pas ncessairement une mesure de probabilit unique P sur fi, compatible avec la relation d'ordre. P n'existe pas forcment ou encore, si P existe, P n' est pas toujours unique. Nous arrterons l ces quelques remarques et sans prendre parti dans une querelle qui dure encore, rappelons que le modle probabiliste a prouv son efticacit dans de nombreuses applications mais que comme tout modle ce n'est qu'une reprsentation simplificatrice de la ralit el que ses hypothses doivent tre mises l'preuve des faits. Nous renvoyons Je lecteur intress par la philosophie des probabilits aux travaux de de Finetti (1974), Matalon (1967), Matheron (1978) et Savage (1954). cits en rfrences.
Variables alatoires
Dans ce chapitre, on tudiera uniquement les variables alatoires relles. Les variables qualitatives ou ordinales ( valeurs dans un ensemble quelconque ou muni d'une structure d'ordre) ne feront pas l'objet d'une tude thorique; on les trouvera voques dans les chapitres consacrs la statistique.
2.1
LOI DE PROBABILIT ET MOMENTS D'UNE VARIABLE ALATOIRE RELLE Dfinition et fonction de rpartition
Gnralits
2.1.1
2. 1.1. 1
Le concept de variable alatoire formalise la notion de grandeur variant selon le rsultat d'une exprience alatoire. Considrons le lancer de deux ds parfaitement quilibrs: cette exprience se traduit par l'ensemble de tous les couples de chiffres de 1 6 :
= 3~' Vw E n.
Intressons-nous la somme des points marqus par les deux ds. On dfinit ainsi une application S de !1 dans l'ensemble E = {2, 3, ... , 121 (fig. 2.1).
g-y;_S(_W)-------l
il
FIGURE
2.1
16
2aVariabies alatoires
Pour obtenir la probabilit d'une valeur quelconque de S, il suffit de dnombrer les w qui ralisent cette valeur. Ainsi:
P(S
5)
l)})
4 36
et gnralement P(S
s)
P( fS - I(S)}).
On voit que, pour dfinir la loi de probabilit sur S, on transporte la loi de probabilit de
E soit probabilisable, c'est--dire muni d'un tribu ,0/ et que rimage rciproque de tout lment de ET soit un vnement, c'est--dire un lment de ((5. On reconnat ici la dfinition mathmatique de la mesurabilit d'une foncton. Une variable alatore X est donc une application mesurable de (0,
ET).
Lorsque E = IR':, on utilise comme tribu la a-algbre engendre par les intervalles de tRi. ; c'est la plus petite (autrement dit l'intersection de toutes les cr-algbres) contenant les intervalles. Cette tribu est appele tribu borlienne et est note !?A.
DFINITION 1
Une variable alatoire relle est une application Inesurable de (n, ((5, P) dans tRi. 1I11l1zi de sa tribu borlienne (tRi., g'j).
= P{ {wIX(w) E = P([X-I(E)])
B})
Pour une variable discrte, c'est--dire une variable ne pouvant prendre qu'un nombre fini (ou dnombrable) de valeurs x" X2' . , XII' la loi Px est constitue de masses ponctuelles. Px peut alors tre reprsente par un diagramme en btons. Ainsi, pour l'exemple du lancer de deux ds, on a la figure 2.2.
2.1.1.2
Fonction de rpartition
La fonction de rpartition d'une variable alatoire X est l'application F de tRi. dans [0, 1] dfinie par :
1
F(x) = P(X
<
x)
2/1111111Variables alatoires
17
6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36
1
7
FIGURE
10
11
12
2.2
PROPRITS
(sans dmonstration)
F est une fonction monotone croissante continue gauche. En tant que fonction monotone, elle admet un nombre de points de discontinuit au plus dnombrable. Rciproquement, toute fonction monotone croissante continue gauche telle que F( -,:r.;) = 0 et F( +y:,) = 1 dfinit une loi de probabilit unique sur IR.
Un exemple de fonction de rpartition correspondant une variable discrte (celle de S dfinie prcdemment) est donn par la figure 2.3.
F(x)
10
11
12
FIGURE
2.3
La figure 2.4 est un exemple de fonction de rpartition correspondant une variable continue (voir plus loin). L'importance pratique de la fonction de rpartition est qu'elle permet de calculer la probabilit de tout intervalle de IR :
IP(a::::; X< b)
F(/;) - F(l7) 1
18
2aVariables alatores
_______ J _________________________ _
F(x)
o
FIGURE
2.4
2.1.1.3
Varables continues
La notion de variable continue, ou plus exactement absolument continue, se confond avec celle de variable admettant une densit de probabilit.
DFINITION
Une loi de probabilit Px admet ulle densit fsi, pour tOtit intervalle / de
Px(l)
= If(X) dx = li 1(x)f(x) dx
1
lit Oll a :
P-
P( a
< X < b)
l
a
f(x) dx
F(b) - F(a)
(fig. 2.5)
f(x)
b
FIGURE
x
2.5
1
li,
1(X) dx =
2.Variables alatoires
19
= x) =
'\Ix
et on peut crire:
." + dx)
>
x)
= exp( -
= . exp( 0
.x)
si x ;;::: 0 si x
<0
(fig. 2.6)
f(x)
x
FIGURE
2.6
Elle est utilise couramment pour reprsenter la dure de vie de phnomnes sans velIis_ sement (comme les composants lectroniques).
2.1.1.4
Si X est une variable contnue positive reprsentant une dure, on dfinit la fonction suivante:
Il . (x) -
j(x)
1 - F(x)
appeles selon les domaines d'application : ~< taux instantan de dfaillance , fonction de hasard ) ou encore quotient de mortalits ). Pour une dure de vie X, h(x) s'interprte comme la probabilit de dcs immdiatement aprs x, sachant que l'on a vcu jusqu' x. En effet, pour dx infiniment petit:
P(x
j(x) dx 1 - F(x)
l1(x) dx.
20
2_Variables alatoires
lI(x) caractrise la loi de X car on peut retrouver F(x) partir de h(x) : lI(x)
d --ln(1 - F(x
dx
F(x)
= 1-
exp( -lxlz(t)dt)
Une fonction 17(x) croissante est caractristique d'un phnomne de vieillissement. Si h(x) = c, il y a absence de vieillissement, le dcs est d des causes alatoires externes: X suit alors la loi exponentielle F(x) = 1 - exp( -ex), qui sera tudie plus loin.
2.1.2
On supposera X continue avec une densit f et une fonction de rpartition F. 'P sera suppos drivable. On recherche 9 et G densit et fonction de rpartition de Y.
2.1.2.1
cp bijective
y= <p(x)
(p-l(X)
x
x
(a)
FIGURE
(b)
2.7a
f['P - le)')] g(y)
FIGURE
2.7b
'P 'P
1[
-'(1')1 .'
<x
.,..;...,V!lr'i:\l:lleS alatoires
21
g(y)
'fl'(X)
g(y)
_ Exemple:
y = exp(X)
g(y)
et
X= ln Y
y
f(x)
exp(x)
2.1.2.2
<fi quelconque
<
y) = P( -~
< X < + ~) :
F(~)
F(-~) 1
g(y) =
, 1 . 1 j(f;,) + f(-{y)-
2-vy
21Y
g(y) =
'} en partlcu '1er 9 () = 1(1Y). f' est une f"onctlOn pmre. y ~ SI.
'Jy
2.1.3
Soient X et Y deux varables alatoires relles dfinies sur le mme espace probabilis. Le couple (X, Y) esl donc une applicaton mesurable de (n, cg, P) dans ~2 mun de sa tribu borlienne.
DFINITION
ml Cl :
n CY E
22
2aVariables alatoires
En d'autres termes, la loi de probabilit p.n du couple (X, Y) n'est autre que la loi produit que l'on note:
COROLLAIRE
X el Y sont indpendantes si et seulement si la fonction de rpartition du couple (X, Y) dfinie par H(x, y) = P(X < x n y < y) est gale au produit des fonctions de rpartition respectives de X et de Y, appeles fonctions de rpartition marginales:
1
Si X et Y admettent des densits f(x) et g(y), alors le couple (X, Y) admet pour densit f(x)g(y). Dans ce cas, la rciproque est galement vraie.
2.1.4
Une loi de probabilit peut tre caractrise par certaines valeurs typiques associes aux notions de valeur centrale, de dispersion et de forme de la distribution.
2.' .4.'
L'esprance mathmatique
E(X) = LXjP(X =
j
xJ
(si cette expression a un sens). ECX) est la moyenne arithmtique des diffrentes valeurs de X pondres par leurs probabilits. Pour une variable continue admettant une densit, E(X) est la valeur, si l'intgrale converge, de (xf(x) dx.
J~
Ces deux expressions ne sont en fait que des cas particuliers de la dfinition gnrale suivante:
DFINITION
X tallt une l'ariable alatoire relle dfinie sur (n, ((5, P), l'esprance l11t.1thmatique de X est, si elle existe, l'intgrale de X par rapport il la mesure P .'
E(X) = ( XdP
Jn
E(X)
Lx
dPx(x)
23
d'o, en particulier si Px est absolument continue par rapport la mesure de Lebesgue de IR, = l(x) dx et alors on retrouve:
E(X)
J~
(xf(x) dx
Il faut prendre garde au fait que l'esprance mathmatique n'existe pas toujours. Ainsi, la variable X ayant pour densit sur IR :
J(x)
= 'jj( 1 + x 2 )
(loi de Cauchy)
+x
-:>0
'jj(J
+ x-)
"1
dx diverge.
Les proprits lmentaires de l'esprance mathmatique sont celles des ." ...'6 ........ " et se dduisent de la linarit. Si il est une constante:
E(a) E(aX)
=(1
= aE(X)
= E(X)
E(X
+ a)
+ il
La plus importante proprit est l'additivit: l'esprance d'une somme de variables alatoires (qu'elles soient ou non indpendantes) est gale la somme de leurs esprances:
E('f'(X)) =
'f'(x) dPx(x)
Ce rsultat trs important est d'un emploi courant et permet de calculer l'esprance d'une variable <p(X) sans avoir dterminer la loi de tp(\x.
B. Ingalit de Jensen
Si <p est une fonction convexe, on peut montrer, si les esprances existent, que:
IE(tp(X)) 2: <p(E(X))
1
On en dduit en particulier:
24
2_Variables alatores
Lx.\' dPXY(x, y)
Lx dPx(x) Ly dP,.(y)
d'o:
X et Y indpendants ~ E(XY)
E(X)E(Y)
= E(XY)
On montre alors que si Il ~ 00, s ~ 7 en un sens qui sera prcis plus tard (loi des grands nombres, voir paragr. 2.7 et chapitre 12).
Jo
(x(1-F(XdX
En effet, en intgrant par parties: l""O-F(X) dx o crochet est nul si l'intgrale converge.
[(1 - F(x))x(
+ lXXf(X) dx, et le
0
0.6
~~~~""';"';';~~~-----+----+----I
0.5
FIGURE
1.5
2.5
2.8
2.Variables alacores
25
L'esprance d'une variable positive s'interprte donc comme raire situe entre l'horizontale y = 1 et la fonction de rpartition. La tigure 2.8 correspond la fonction de rpartition d'une loi log-normale d'esprance 1 et d'cart-type DA.
2.1.4.2
La variance
III
= E(X).
rr s'appelle l'cart-type de X.
La variance est donc le moment centr d'ordre 2 de la distribution et est une mesure de lu dispersion de X autour de m.
Proprits de la variance
Comme E((X - a):!) = V(X) + (E(X) - af (formule de Konig-Huyghens) on en dduit que V(X) est la valeur minimale de E((X - af) quand a varie. On en dduit la formule classique
Par ailleurs :
V(X -a) V(aX)
V(X) rr(aX) =
a2 V(X)
et
=
Cl
lai rr(X)
V(X) = 0
<=> X
(presque srement)
p(lx -
1
:':S -::;
k-
_ Dmonstration
111)2
par
(x -
mf dPx(x) >
m]
k 2rr:!
j'"
IX-m!>J.cT
dPx(x)
IX-ml>kcr
>
26
2.Variables alatoires
Cette ingalit, dont l'intrt thorique vient de ce qu'eHe est valable quelle que soit la 10' de X, n'a que peu d'applications pratiques, car la majoration qu'elle fournit est la plupart d temps excessive. Ainsi pour une loi normale, pclx - ECX)I > 20') = 0.05 alors qu l'ingalit de Bienaym-Tchebyshev donne 0.25 comme majorant. Remarquons, de plus, que l'ingalit est inutilisable pour k.:5 1.
+ Y) = E[(X +
= E(X!)
y)2] - (ECX)
+ E(Y)f!
E(X)! - E(y)2 - 2E(X)E(Y) - E(X)E(Y))
V(X)
EX - E(X(Y - E(Y)
"(X
+ 2 cov(X,
V(X)
Y)
En particulier:
Y)
Vey)
V(XY) = V(X)V(Y)
+ V(X)(E(l')f + V(Y)(E(X21
+ -
Cr 2
m)2
tpl/(m)
En prenant l'esprance :
E(tp(X - c.p(m) = E (
X-
m)2) tpl/(m)
Il
soit :
E(c.pCX) = c.p(m)
1 + "2 V(X)c.p
(m)
En levant au carr tp(X) - c.p(m) et en prenant l'esprance, on trouve galement [Lejeune, 2004.1 :
\ V(tp(X)) = (tp'(m)fV(X)
1
27
Autres moments
dfinit, si ils existent, les moments centrs d'ordre k :
1/-11;
= E[(X
- Ill)!;] 1
.,,.'n""11 ",[-'_
Les moments /-13 et /-1-1 sont utiliss pour caractriser la forme de distribution. pour obtenir des quantits sans dimension, on utilise les coefficients d'asymtrie et
aol.atlSSf~m~~m 1'1 et 1'2 (en anglais ske~vl/ess et klirtoss) :
La figure 2.9 donne quelques allures typiques de courbes de densit correspondant certaines valeurs de l' 1 et "t::.. On remarquera que "t2 est toujours suprieur 1 car l'ingalit classique entre moyennes d'ordre p entrane (/-1.1)1/-1 > (/-12)]/::! => /-1.1. > (/-12):.'.'
De plus, on a toujours 1'2 :2: 1 + ("tIf. Plus que \' aplatissement, le coefficient 1'2 mesure l'importance des queues de distribution.
Lo de Gauss
Loi uniforme
FIGURE
u
2.9
Loi en
28
211111111Variables alatoires
Ingalit de Markov: En utilisant la mme mthode que pour l'ingalit de BienaymTchebyshev, on montre que:
E(X k )
2.1.4.4
Ordres stochastiques
Les concepts de dominance stochastique sont utiliss dans diffrents domaines, en particulier en fiabilit pour comparer des fonctions de survie, et en thorie de la dcision pour comparer des risques.
P(X> c)
2.:
PO' >
c) pour tout c
ce qui revient dire que la fonction de rpartition de X est toujours infrieure celle de Y.
-3
-2
-1
FIGURE
0
2.10
THORME (ADMIS)
POlir que X dOlnlle stochastiquemellt Y, il/aul el il sl(lfit que E(f(X)) toute fonction f croissante.
2.:
2:
E(Y).
On peut montrer (exercice faire ... ) la proprit suivante: si la fonction de hasard (ou taux de dfaillance) de X est partout infrieure celle de Y, alors X domine stochastiquement Y. C'est par exemple le cas de la dure de vie des femmes en France qui domine celle des hommes: non seulement l'esprance de vie des femmes est plus leve que celle des hommes, mais galement la probabilit de survie tout ge.
.. _.\1..
'''I~rlle!>
alatoires
29
pour lOtit c.
L'ingalit porte cette fois sur les intgrales des fonctions de rpartition. La dominance stochastique d'ordre 1 entrane celle d'ordre 2.
-6
-4
-2
FIGURE
o
2.1 1
Cette forme de dominance est utilise en thorie du risque pour des variables positives reprsentant des gains alatoires. Supposons de plus que X et Yont mme esprance: alors les aires hachures sur la figure prcdente sont gales. On voit intuitivement que la rpartition de X est moins disperse que celle de Y. Un individu qui a de l'aversion pour le risque prferera donc X Y. La dominance stochastique d'ordre 2 implique V(X) < V(Y) mais est plus gnrale (la rciproque est fausse). On montre que si X domine Y, Ya la mme distribution que X + e o e est une variable telle que E(ejX) O. Intuitivement, Y est plus alatoire ) que X. Le thorme du paragraphe prcdent est alors modifi comme suit [Rothschild et Stiglitz, 1970] :
THORME
POlir que X domine stochastiqueme11t Y li l'ordre 2, iljut et il sl~ttl que E(f(X)) pOlir tOtltefol1ctionfcmissame concove.
E(f( Y))
30
2.Variables alatoires
2.2
2.2.1
1)
P(X = 2)
= ... =
P(X
11)
(fig. 2.12)
P(X = k) =Il
~f 1 1 1 .. 1
1 2 3
FIGURE
2.12
E(X) = - -
Il
+
2
par symtrie
11
E(X) = - (1
11
+ 2 + ... + 11)
+1
2
., 1 E( X -) = - (1
11
+ 4 + 9 + ... + +
1)(211
lZ-)
.,
E(X-) = - - - - - 11
.,
1 11(11
1)
(Il
+
+ 1
1)(211 6
1)
(11
3(11
+
4
1)2
= --(4n + 2 12
V(X) = - n:' -
11
1))
soit:
12
2.2.2
C'est la loi d'une variable X ne pouvant prendre que les deux valeurs l ou 0 avec le~ probabilits pet 1 p ; X est la fonction indicatrice d'un vnement A de probabilit p :
Comme X 2
X, E(X2)
= p, d'o:
1
V(X)
= p(l
- p)
'"J_.V~"I:Hm::;.
alatoires
31
loi binomiale
A. Principe
!:JJ(n ; p)
Supposons que l'on repte 11 fois dans des conditions identiques une exprience alatoire, dont l'issue se traduit par l'apparition ou la non-apparition d'un vnement A de probabilit P~ le rsultat de chaque exprience tant indpendant des rsultats prcdents. Soit X nombre d'apparitions de l'vnement A parmi ces 11 expriences (0 X:5 Tl). On dit alors que X suit une loi binomiale de paramtres Il et P note ~ p). Comme chaque exprience numrote iCi = l, 2, .. " 11), on peut associer une variable de Bernoulli Xj de paramtre p, on a: X
Il
loi binomiale @(1l ; p) si X est une somme de 11 variables de Bernoulli indpendantes et de mme paramtre p. De cette dfinition, dcoulent l'esprance et la variance de X . ......".hE(X) = 2:E(Xi ), donc: E(X) = HP V(X) = 2: V(Xi ) car les Xi sont indpendants; donc:
1 1
B. Loi de probabilit
Ann de chercher l'expression de P(X 11.), remarquons que toutes les configurations, telles que k variables Xi prennent la valeur 1 el 11 - le la valeur 0, sont quiprobables et qu'il Y a C~ configurations de cette sorte (nombre de manires de choisir k Xi parmi n). D'autre part:
P(X,
XI
Il
;=1
II pX{l
1=1
Il
p)l-xi
Comme
LXi
= le,
on trouve:
Cette formule justifie le nom de la loi binomiale car les P(X = k) sont les termes du p))rt selon la formule du binme de Newton (on vrifie au dveloppement de (p + (1
k=/J
passage que
L P(X
k) = 1).
1;=0
La fgure 2.13 reprsente quelques diagrammes en btons correspondant diverses valeurs de Il et p. On notera que la distribution est symtrique si p = 1/2 et le devient approximativement sinon, ds que Il est assez lev.
32
2.Yariables alatoires:
0.4
0.3
0.1
n= 0.5 p= 0.1
0.6 0.5
0.4
0.2
n=10 p= 0.05
0.3
o
0.4
0.2
1 2 3 4 5 0.1 x
n = 10
p= 0.1
1 2
4 5
0.3
n= 10 p=0.2
x
j
~~lll
o
1
n=20 p= 0.1
01234567
n= 10 p=0.5
234
1 5 6
~
789
n= 50
0.3\
~:~ il--~f-l-I-+1-+-1
2 3 4 5
~:~
f - l - - - + - -
-+-I-P=f--0-f-';-11-1--1 X
6 7 8 9 10
FIGURE
2.13
Un rsultat utile pour l'utilisation des tables: si X suit une loi binomiale fYJ(n ; p), suit alors une loi binomiale i1J(n ; 1 - p).
JI -
Pour 11 grand, on verra plus loin que la loi binomiale peut tre approxime soit par une loi de Poisson (si p est petit) soit par une loi de Gauss.
}J
La somme de deux variables alatoires binomiales indpendantes et de mme paramtre est une variable alatoire binomiale:
_ Dmonstration
XI : somme de ni variables de Bernoulli; X2 : somme de 112 variables de Bernoulli.
.:::':':"'\J~rllaDII::::'
alatoires
33
x + X"
1
somme de Il, + variables de Bernoulli est bien une variable binomiale oal la somme des effectifs. _ o
"2
On peut vrifier toul d'abord qu'il s'agt bien d'une loi de probabilit:
LP(X
x=O
= x)
exp( -
.r=O _or!
= exp( - ) exp(X.)
0.6 0.5
DA
OA
x. = 0.5
0.3
x. = 1.0
0.3
X.
1.5
DA
0.3
0.2 0.1
0.2 0.1
0.2 0.1
o
o
5
10
0.4
10
10
OA
0.3
x. = 2.0
0.3
x. =3.0
0.2 0.1
0.2 0.1
10
10
0.31
o
0.2
10
x.::::: 10.0
1-1.....1-
0.1
~!
!
4---L--Ll
1 1-I....I....J1111-J-I-11.I.-J.....I./ 1 ,
1
5
FIGURE
10
15
2.14
34
2_Variables alatoires
On obtient la loi de Poisson comme approximation de la loi binomiale dans le schma: suivant: Soit un vnement A de probabilit p trs faible (en pratique p < 0.1) que l'on essaie' d'obtenir quelques fois en rptant l'exprience un grand nombre de fois (en pratique Il > 50). Le nombre de ralisations de A suit une loi binomiale @(n ; p) telle qu'en pratique: .
@(1l,
p) - r!J(np)
c'est--dire :
Soit X'I une sllite de variables binomiales @(n, p) telles que Il~ ,7Jj et p ~ 0 de manire' li ce qlle le pmdllit I1P te1lde l'ers une limite finie k. Alors la suite de variables alatoires XII converge en loi l'ers une variable de POsson fJJ(k).
_ Dmonstration
(pl1Y -- ( 1 - -
xl
(l - PYI-X
11
Faisons tendre Il -
".
!;) ... (1 - x :
~
produit tend vers l car ils sont en nombre fini. Dcomposons (l - p)/I-X en (l
pyl(l - p)-X
(1 - p) -x ~ 1 car p
Quant (1 -
O.
pt -
11/1 ( -= .t.
)Xexp(-)
c.q.f.d.
La suite des esprances des binomiales Xli : E(X/!) = IIp converge vers :
35
E(X) =
x=()
2: exp( -) x.1
,I'
exp(-) exp() = Ln suite des variances des binomiales X,,: V(XII ) = np(l
p) tend aussi vers car
np ~
p~
o.
_ Dmonstration
V(X) = E(X:!)
0:;
[E(X)f = E(X:!) - :!
X
~
avec x = x - 1
+ l, il vient:
E(X:!) =
(x -
2)!
) - (x -
1)!
exp(-)exp()
= :2 + = {i;..
::'
On verra plus loin que la somme de deux variables de Poisson indpendantes est encore une variable de Poisson. Lorsque est grand, on verra que la loi de Poisson peut tre approxime par la loi de Gauss. La loi de Poisson s'obtient aussi comme loi exacte du nombre d'vnements survenant pendant une priode donne, sous certaines conditions (voir plus loin le paragraphe consacr au processus de Poisson).
- Exemples d'application de la loi de Poisson: loi du nombre de suicides par an dans un pays donn;
loi du nombre d'appels tlphoniques pendant un intervalle de temps T; loi du nombre de pices dfectueuses dans une livraison importante, la production tant de bonne qualit; etc.
..
'~~
\)
36
2aVariables a'atoireiil
2.2.5
Soit une population de N individus parmi lesquels une proportion p (donc Np individus)! possde un certain caractre. On prlve un chantillon de Il individus parmi cette populaL; tion (le tirage pouvant s'effectuer d'un seul coup ou au fur et mesure mais sans remise).": Soit X le nombre alatoire d'individus de l'chantillon possdant la proprit envisage.'; X suit la loi hypergomtrique et l'on a :
nombre de groupes de x individus possdant la proprit; nombre de groupes de (n - x) individus ne possdant pas la proprit.
Le nombre
On peut considrer X comme une somme de 11 variables de Bernoulli XI' X 2, indpendantes correspondant aux tirages successifs de 11 individus. On sait que E(X I )
XII nan
Nous allons montrer que ces variables Xi ont toutes le mme paramtre gal p.
P(X1 = 1)
soit:
= P(X2 = 11x I =
1)P(X 1
= 1) + P(X'!, = 1lx)
+N
= O)P(X)
= 0)
Np-I P(X 2 = 1) = N _ 1 P
Np _ 1 ( 1 - p) p
(N -
Np:' - P
+ Np
- Np!
1)
N- 1
N-}
=p
2.1.5.1
Esprance de l'hypergomtrique
L'esprance ne dpend pas de N et est la mme que dans le cas du tirage avec remise (loi binomiale).
2.2.5.2
Varance de l'hypergomtrique
V(X)
= 2: V(X i ) + 2 2:cov(X"
i~
Xj ) = 2:V(Xi )
+ 2:cov(X;, X)
i~
,V:lr'iaDI,es
alatoires
37
p2 = P(XiX}
P(Xj =
!lxi =
1)P(Xr = 1) = P('X.i
= 1) - p2 llxi = 1)]1
ne
et j
N-I
cov(X, X)
l'
=P
Np - 1 ., - pN 1
p)
+ lI(n
Np 1 ,] 1) p - p[ N-I
V(X) =
8"
pl.
P (j - pli
_ Dmonstration
C;VI'C;v--'tv1'
CN
(NO
Nq!
p))!
Il
n!(N - 11)!
x)!(N - Np -
+ x)!
N!
(N - n)!
avec q
= 1-
p.
+ 1)
Si N est grand, Np
Donc:
1 ~ Np
2 ...
(Np - x
+ 1) -
Np!
(Np - x)! - (Nq)/I-X
- (Npy
De mme:
(Nq -
11
+ x)!
CX
/1
et
N! ----Nil
(N - Il)!
donc:
cx
Np
cn-x ~ NI[
(N )X("A' )'J-.t
lVq
C;!.;
Nil
c.q.f.d.
En pratique, ce rsultat s'applique ds que Il/N < 10 c'est--dire ds que la population est 10 fois plus grande que l'chantillon, ce qui arrive frquemment en sondages.
38
2_Variables
Un chantillon de 2000 individus conviendra donc aussi bien pour faire un sondage une vlle de 200000 habitants que dans une ville de 2 millions d'habitants.
2.2.6
La la; gomtrique est la loi du nombre d'essais ncessaires pour faire apparatre vnement de probabilit p :
P(X
= x) =
p(1 - py-I
V(X)
= p~
YI
2q
Y1
= 9 +q
La loi de Pascal d'ordre Il est la loi du nombre d'essais ncessaires pour observer Il fois un vnement A de probabilit p. L'exprience devant se terminer par A, on a: pour x
= Il, Tl +
1, .. "
00
Cette loi est la somme de nlois gomtriques indpendantes (apparition de A pour la premire fois, puis pour la deuxime fois, etc.), on a:
E(X) = Il
V(X) =-:;-
nq
p-
2 P YI=--
Y'2= 3 + - - nq
p2
+ 6q
Il :
- p)lp, on a:
YI
P+Q ,JllPQ
y., -
= 3 +--nPQ
+ 6PQ
2. 3 2.3.1
Sa densit est:
J(x) J(x)
= 0 ailleurs ~
~\I..,r.j::.nle5
alatoires
39
{(X).
FIGURE
R~)z
a
2.15
I
()
II
xl -
dx - a 4
al
= -.
12
a2
La somme de deux IOs unformes n'est pas une loi unifonne. Ainsi, soit X et Y deux variables uniformes sur [0, a] ; leur somme Z, si elles sont indpendantes, est une variable de densit triangulaire (fig. 2.16).
a
FIGURE
2a
2.16
2.3.2
Sa densit estfC-x)
= exp( -
X)
six> O.
En fiabilit, cette loi est trs utilise pour reprsenter la dure de vie de circuits lectroniques. L'esprance l/ est souvent appele le MTBF (NJean Time Betweell Failllre) et le
'f ' t aux de de 'aI11 ance car 1 z(x) =
f(x)
1 - F(x)
et est constant.
40
2 . .Variables alatoires
2.3.3
lois gamma
La loi exponentielle est un cas particulier d'une famille de lois appels lois 'Y. Prcisment, si X est une loi exponentielle de paramtre x., X.X est une variable suivant une loi "YI' On dit qu'une variable alatoire positive X suit une loi gamma de paramtre r, note 'Yr si sa densit est donne par:
f(x)
= -f(-r) ex4P(-X) x
... 1
-'
Jo
r~f(x) dx =
lois "Ir avec rentier> 1 sont aussi connues sous le nom de lois d'Erlang.
2.3.3.1
EsPrance
1
E(X)
= ri
f(r + 1) fer)
En effet:
E(X)
fer) ()
=1'
2.3.3.2
Variance
En effet:
V(X)
E(X -) - [E(X)]-
.,
.,
= - 1 LOC
fer)
x
exp(-x) dx -
1'2
soit :
V(X) =
+ 1)., 1) - - - - r- = r(r
fer)
1) - r-
.,
Cette loi prsente donc une certaine analogie avec la loi de Poisson mais en continu. Les courbes de densit sont reprsentes la figure 2.17. Les lois "Y vrifient la proprit d'additivit suivante:
THORME
Si X el Y sont des W-triables indpendantes suivant respectivement des lois 'Yr et "'1.0 alors X + Y stlil ulle loi 'Yr +S' Ce rsultat sera dmo1lfr au paragraphe 2.5 de ce chapitre.
Les lois 'Y sont lies aux lois du X2 utilises en statistique par une fonnule simple (voir chapitre 4) : Si X suit une loi 'Y" 2X suit une loi X~r'
41
FIGURE
2.17
2~3.4
Lois bta
Loi bta de type 1
Il
2.3.4.1
C'est la loi d'une variable X; 0:5 X:5 1 dpendant de deux paramtres densit est:
et p dont la
. 1 1 }(x) = - - x " - (1
B(n, p)
n,p
>0
ou B(n, p) = f
+ p)
On trouve:
Ces lois sont utilises en statistique baysienne pour reprsenter la distribution a priori de la probabilit d'un vnement. L'allure de quelques courbes de densit est donne par la figure 2.18.
2.3.4.2
Soit X une variable suivant une loi bta T(Il, p) ; par dfinition, Y X/(l - X) suit une loi bta de type TT dont la densit s'obtient aisment par changement de variable:
J(y)
B(J1,p) (l
+ y)7I+1'
Vey) =
n(n
(p
+P-
., I)-(p - 2)
1')
PROPRIT
Le rapport de deux variables indpendantes suivant des lois 'Yn et 'Yll respectivement suit une loi bta U(1/, p).
42
2.Variables alatoires
3.0 f(x)
r(n+p) xn-1(1_x)P-1 nn) r(p)
2.0
1.0~----~----~----~----~~~----+-----~--~~--~
a ~~~----+----+--==~----~---+----+---~----~--~
o
.1 .2 .3
.4
.5
.6
.7
.8
,9
1.0
FIGURE 2.18
La dmonstration est laisse au soin du lecteur. Les diverses valeurs de Il et p font que cette loi s'adapte bien la reprsentation de nombreux phnomnes alatoires positifs (temps d'attente, dures de vie, mthode Pert avec dure alatoire). Ces lois sont lies aux lois de Fisher-Snedecor utilises en statistique (voir chapitre 4).
2.3.4.3
.y
x(l - x)
On a E(X) = 1/2,
V(X)
1.5.
Cette loi assez paradoxale, puisque l'esprance est la valeur la moins probable et les valeurs extrmes sont les plus probables, s'applique en particulier dans certains phnomnes lis aux jeux de hasard. Par exemple, deux joueurs jouent un jeu quitable (du type pile ou face). Soit S" S2, ... Sil la suite des gains d'un des deux joueurs; si X dsigne la proportion du temps pass en gain positif, la loi limite de X quand 11 ~ 00 est la loi de l'arc sinus. Il y a donc plus de chance d'tre constamment en gain ou constamment en perte que d'tre dans le c~c;; mdian (c'est la loi de la persistance de la chance ou de la malchance ...).
... __ \I.,"'~lnIE!~
alatoires
43
Cette loi a pu tre appliqu la persistance du temps en mtorologie et rend compte du fait qu'il est plus frquent de battre des records (de froid ou de chaud) que d'avoir un temps moyen.
2.3.5
La loi de laplace-Gauss
Cette loi joue un rle fondamental en probabilits et statistique mathmatique. Elle constitue un modle frquemment utilis dans divers domaines: variation du diamtre d'une pice dans une fabrication industrielle, rpartition des erreurs de mesure autour de la vraie valeur J>, etc. Malgr son appellation malencontreuse de loi normale(l), elle est cependant loin de dcrire tauS les phnomnes physiques et il faut se garder de considrer comme anormale une variable ne suivant pas la loi de Laplace-Gauss. Son rle principal en statistique provient en ralit de ce qu'elle apparat comme loi limite de caractristiques lies un chantillon de grande taille. Le thorme central-limite que nous tablirons au paragraphe 2.7 montre que dans certaines conditions la somme, et donc la moyenne, de variables indpendantes et de mme loi est asymptotiquement une loi normale.
f(x)
1 exp ( - - - 2 rr
(x - m)3)
'-----_.
U est:
U est une LG (0, 1), donc toute variable X LG (111 ; rr) se ramne simplement la variable
U par X = m
+ rr U.
Montrons que V{ U) = 1 :
V(U) =
J+:C_l-ltlexP(-~1I2)dll = ~ (:Z:li2exP(-~ll:!)dtl
-:::12;
LI
12;Jo
Posons t =
UZ/2,
il vient
du = dt :
V(U) = - 2
-r; ()
{:IT 2
I_Cette dnomination fut introduite par K Pearson qui voulat viter les querelles d'antriorit concernant son introduction en statistique et l'a d'ailleurs par la suite comme l'indique cette ct3tion : Many years ago 1called the LoplaceGaussian curve the normal CJ)rve nome, while ![ ovoids an intemational question o{priority, hos tlle disadl/onfage ofleading people iD beJieve that 011 other distributions or rrequency are in one sense or anor.her 'obnorma/:That belie{is, or course, nOt juslJ~Qble, Ir has 100 many writers ta /.ry and (oree 011 rrequency by aid or one or anor.her process o(distorrJon into a 'normal' (urVe (paper read
to the Society of Biometricians and Mathematical Statisticians, June 14, 1920). 2_La notation LG sera utilise couramment dans cet ouvrage. La notation N(m : (T) sera galement utilise.
44
2.Variables alatoires
comme
=.Ji:
11 en rsulte que rr est l'cart-type de X. La fonction de rpartition et la densit de X sont reprsentes sur la figure 2.19. Les points d'inl1exion sont :trr de part et d'autre de
ilL
37 .
7
o
20 30' 40 -40' -30 -2cr -cr
FIGURE
.250
0'
20 30' 40
2.19
2.3.5.1
Valeurs remarquables
P(m P(m P(m
111
111
1.64rr)
111
+ 1.96rr) + 3.09rr)
2.3.5.2
Moments
Ils existent pour tout ordre. Pur suite de la symtrie, tous les moments d'ordre impair sont nuls. Calculons les moments d'ordre pair:
IL"
Lu"
:
exp ( -
~ )dll =
Il'
2 i"H"ex p ( -
11'
)dll
Posons y
li:! /2
2_ Variables alatoires
45
d'o:
11lk
21;: = -J; r
+ 2'
t)
= 1 35 ... 2k - 1 ,r;;;
Comme:
r (k + ~) =
1 . 3 5 ... (2k - 1)
(i)
1-.J .. (2k - 1) =
"'l
(lk)!
on en dduit 1-L4
= 3, d'o "12 = 3.
2.3.5.3
Additivit
Si Xl et Xl sont des variables indpendantes suivant respectivement des lois LG(m, ; cri)
Ce rsultat fondamental sera dmontr au paragraphe 2.6 ft J'aide des fonctions caractristiques. On ne peut cependant pas dire que toute combinaison linaire de p variables gaussiennes non indpendantes soit encore gaussienne. Il faut pour cela que le p-uple de variables suive une loi normale p-dimensions (dont c'est prcisment la dfinition. cf chapitre 4).
2.3.5.4
Loi de U2
U 2 est:
(()
= _1_ t -1/2 ex p
{2;
(-!..) 2
en remplaant
f(t} par
ex~ - ~ ,,1), on remarque que U"/2 suit une loi "Y 111 ou loi du
2.3.6
La loi log-normale
Laplace~Gauss
C'est la loi d'une variable positive X telle que son logarithme nprien suive une loi de : ln X - LG( 111 ; cr) Sa densit s'obtient par un simple changement de variable et on trouve:
f(x) = _1_
(Jx~
exp(_~(ln x
2
cr
111\2)
)
46
2aVariabies alatoires
E(X)
= exp(m + ~')
V(X) = (exp(2m
+ rr 2(exp al
- 1)
On utilise parfois la loi log-normale trois paramtres -y, 111, rr telle que: ln (X - "1) -- LG(m ; rr) avec X> "1.
= 0.58
= 0.47)
0.5
OA
0.3
0.2 0.1
2
FIGURE
2.20
2.3.7
loi de Cauchy
1
TI(1
~ TI(1
dx diverge.
On montre que la loi de Cauchy est la loi du rapport de deux variables LG(O; 1) indpendantes. Elle s'identifie TI variable de Student de degr 1 (voir chapitre 4).
2.3.8
loi de Weibull
Trs utilise en fiabilit, la loi de Weibull deux paramtres donne la probabilit qu'une dure X de fonctionnement sans dfaillance soit suprieure x par:
47
En d'autres termes,
Le paramtre Cl, qui est sans dimension, est appel paramtre de fOffile. Selon ses valeurs, la densit de probabilit est plus ou moins dissymtrique. Le paramtre de forme est li au vieillissement: quand il vaut l, on a une loi exponentielle caractristique des matriels sans usure ni fatigue. Quand il est plus grand que 1, on est en prsence de fatigue: le taux nstantan de dfaillance Il(x) est alors croissant avec x :
h(x) =
Ct f3 (x)U f3
1
Si
Ct
Le paramtre !3 s'exprime dans la mme unit que X (jours, heures, nombre de cycles, etc.). C'est un paramtre d'chelle li la dure de vie mdiane par:
~=--.,.-
mdiane
2 et
r3 = L
o
FIGURE
2
2.21
La relation E [
. 'd prece ent ( =
.!.
"fl
et
= 1, on trouve E(X)
= { ; et V(X)
2
2.3.9
Loi de Gumbel
Cette loi est utilise pour les distributions de valeurs extrmes (voir chapitre 12). Sous sa forme standard sa fonction de rpartition est: 1F(x)=exp(-exp(-x1
48
2 . . Variables alatoires
soil:
(fig. 2.22)
.5
.4
-3
-1
o
FIGURE
2.22
(constante d'Euler)
V(X)
="6
= 1.29857
5.4
7-
.,
'YI
"12
La loi de Gumbel est utilise pour modliser des phnomnes tels que: crue maximale annuelle d'une rivire, magnitude du plus grand tremblement de terre enregistr en une anne, etc.
2.4
Considrons une famille XI de variables de Bernou11i (X! = 1 si un vnement (arrive d'un client, accident, appel tlphonique ... ) se produit l'instant t) : on s'intressera la rpartition des dates d'arrive des vnements, ainsi qu NI nombre d'vnements entre o et f.
49
E,!,
La loi du nombre d 1 vnements arrivant dans l'intervalle ft; t + Si T l , on notera c son esprance, dite ({ cadence ). Deux vnements ne peuvent arriver simultanment.
Tl
ne dpend que
Soit Po (Il) la probabilit qu'aucun vnement ne se produise pendant une dure Il ; d'aprs delUXleI111e condition, Po (Il) ne dpend que de Iz et non de l'instant considr. Soient trois instants t, t + h, t + Il + k. La probabilit qu'il ne se passe rien entre t et t+ h + k est Po (h + k) ; d'aprs l'axiome cl' indpendance, on a : vil, v/.:. Po (Il + k) = Po (II) Po (1;:) D'o le rsultat:
POU,) = exp( -cil)
avec c> 0
10
8
6
~
2
0 0
2
10
12
14
16
18
FIGURE 2.23
Une trajeclOire d'un processus de Poisson avec c = 1 ; en ordonne le nombre cumul d'vnements depuis t O.
2.4.2
Soit T cette dure qui est une variable alatoire, la probabilit que T> t est gale la probabilit qu'il n'arrive rien pendant une dure t soit:
P (T
>
t) = exp( -ct)
50
2.Variables alatoires:
d'o la fonction de rpartition de T: peT < t) = l - exp( -ct}. La densit vaut alors.
1(1) ::::.: exp ( -ct)c il s'ensuit que cT suit une loi 'YI' donc E(T) = 1/c.
2.4.3
1 vnements
+ T2 + ... + Til
II
soit:
c Y = cTI
+ cT]. + ... + cT
(fig. 2.24)
y
FIGURE
2.24
2.4.4
THORME
A
FIGURE
B
2.25
1).
= n) =
P(N;::: n) - P(N;::::
Il
La probabilit peN :.:: Il) est aussi la probabilit que la dure AEn soit infrieure il T; cette dure est constitue de AEJ + EIE1 + ... EH-lE" qui sont des lois exponentielles indpendantes ~ donc c AE'I suit une loi 'Vil et r on a :
P(N = Il)
exp( -ct)
(Ct)II-1
(n - 1)!
c dt -
!uT
0
exp( -ct) -
(ct)/I
Il!
c dt
,::;;;"'V':IrfrlOleS
alatoires
51
exp( -ct)
(ctt-I
(n -
l)!
c dt
= exp(-cT) - - +
n!
(cT)'1
lT
0
exp(-ct) -
(ctY' c dt n!
peN
Il)
= exp( -cT)-1/!
(cTr'
trouve E(N)
= P(X~(I'+l) >
2.)1
P("YII+I
> )
P(X;(1I+1)
>
2.)
2.4.5
Posons A = 0 et cherchons la loi de probabilit conjointe des dates E" El' ... , EII et de N nombre d'vnements survenus. La probabilit pour que le premier vnement se passe entre t, et t,
+ dt,
est:
c exp( -ct l ) dt l .
La probabilit conditionnelle que E 2 arrive entre t 2 et t1 c exp(-c(t1 - t\ dt l , etc.
+ dt 1
sachant E, est:
La probabilit qu'aucun vnement n'arrive aprs EH sachant la date de EII est: exp(-c(T - fil ; d'o:
La loi conditionnelle:
. C'l
= Il) =
11!
Til
exp(-cT) - -
n!
ce qui prouve que les instants t" 12 , , ., fil constituent un chantillon ordonn de la loi unfonne sur [0, T] : en effet, si l'on s'intresse seulement aux dates et non leur ordre, il faut diviser par Il! qui est le nombre d'ordres possibles,
52
2aVariabies
2.4.6
Le processus (Nt)
D'aprs ce qui prcde, Nt suit pour tout 1 une loi de Poisson f!P(ct). Comme E(Nt) = ct V(N I ) , ce processus n'est pas stationnaire mais il est accroissements stationnaires indpendants puisque 't;/h, NI + 11- NI = (!}(h). La fonction de covariance de ce processus est facile obtenir: si s> 1 : CU, .'1) = cov(Nt ; N.() = cov(Nt ; Nt + X) = VeNt) + cov(Nt ; X) : or X une variable indpendante de NI (accroissements indpendants) donc: si s 2: t : C(t ~ s) = VeNt) = cl; et on trouve de mme si t> s : CU, s)
2.5
CONVOLUTION
Un problme courant consiste trouver la loi de probabilit d'une somme de deux bles indpendantes Z = X + Y.
2.5.1
Cas discret
z)
= 22 P(X = x n
.\"
= z-
x)
= 22 P(X = z )'
ny
y)
= z) = ;
P(X
= x)P(Y = z -
x)!
= 2: P(X = x)P(Y
z: - x/X
x)
Remarquons que, pour la sommation, x ne prend pas ncessairement toutes les possibles de X mais uniquement celles compatibles avec l'vnement l
lIIIIIl Exemple: Soit X et Y, deux variables de Poisson indpendantes de paramtres respectivement:
et IL
P(X = x) = exp(-)-
x!
pey
= y)
y!
On a donc:
.r=~
53
11.)
r--
x=;:
~ C~ X/-1:-x
~
x=o
exp( -(
/-1))
z!
/-1)~
liIIII
=X +
la loi de Zn' est autre que la mesure image de Pxr par l'application de ,
L.lV" .......... -
La loi de probabilit de la somme Z de del/x variables i1ldpendal1tes est la mesure image de Px 0 p~. par l'application (x, y) ~ x + y de ~2 dans ~.
Note Px bore:uen B :
* Pl' = Pz (produit de convolution de deux mesures), elle est telle que pour tout
Pz(B)
LIl.(x
LIl
+ y) dPx(x) 0
dP,.(y)
B(X
y)f(x)g(y) dx dy
Posons x
= =
J~
lln(z.) dz
f)x
D'aprs la dfinition des variables continues, on en dduit que Z admet pour densit:
k(;.)
DI'
g(y) fC:
- y) d)'
Dl
les domaines Dx et DI' tant les ensembles de valeurs de X et de Y respectivement compatibles avec l'vnement Z = z.
54
2.Variables alatoires
<
7,)
K(z)
JfJ
r J(x) G(z x
x)dx
DI'
FIGURE
2.26
2.5.3
2.5.3.1
Applications
Somme de lois 'Y
1
(1')
exp(-v) r(s) -
1 ind-
k(z) =
' l
-
() fer)
= n,)ns)
Posons x
l'
-,'-1 (z - xy-Ids
= Iz, il vient:
k(z)
exp(-z)i
f(r)r(s)
0
l
r'-
(z - tzY- 1 dt
Ir-I
d'o:
k(z) =
exp( -z)zr+,f-11 l
f(r)r(s)
0
(1
t)s-l dt
k(z)
exp( -
z)
1C
2_Variables alatoires
55
Cr +
s)
puisqu'on reconnat
l'expression de la densit d'une loi -y, On en dduit une preuve (probabiliste) de la fonnule :
I
Il
t r- 1 (l - t),\ - 1 dt
-ys
f(r)f(s-)
f(r
'
s}
J'
indpendante, X
+ Y est une -y r +
2.5.3.2
Soient X et }' deux variables continues uniformes sur [0, 1], La loi de leur somme s'obtient par l'argument gomtrique suivant: le couple (X, Y) est unifonnment rparti sur le carr unit et l'vnement Z < z correspond la zone hachure dont il suffit alors de trouver la surface. K et k ont deux dterminations mais sont continues (fig. 2.27).
1 Y
o
z<1 K(z)
1X
o
z> 1
K(z} = 1 _ (2
2
Z}2
1X
=2
Z2
Iz) =2 FIGURE
2.27
2.6 2.6.1
2.6.1.1
La fonction caractristique d'une variable alatoire relle X est la transforme de Fourier de sa loi de probabilit. EIle est note 'Px et on a :
'Px(t)
Cette fonction existe toujours car Px est une mesure borne et ]exp(itX)[ = L. Il s'ensuit que la fonction caractristique est continue.
56
JB
(eXP(itx)f(X) dx
2.6.1.2
= '-Px (I..t)
111
....
et d'cart-type cr, en
I!U~ilnr
U = (X - ln)/cr :
'-PX-Ill (t) = <.pu(t)
(r
<.px(t)
exp(itm) <.pu(crt)
2.6.1.3
Convolution
L
La fonction caractristique se prte bien aux additions de variab1es alatoires ~md-llL'peIl-,j~ dantes : la fonction caractristique d'une somme de variables indpendantes est gale au produit de leurs fonctions caractristiques: .)
En effet:
<.pXI+X/!) =
E [exp(it (XI
+ X2]
E [exp(itX 1) exp(itX2)]
si XI et X 2 sont indpendantes, il en est de mme pour exp(itX\) et exp(itX2) et l'esprance du produit est alors gal au produit des esprances. Notons au passage qu'il ne s'agit donc pas d'une condition ncessaire et suffisante d'indpendance.
2.6.1.4
Supposons la loi de X symtrique par rapport l'origine. Alors la fonction caractristique de X est relle :
<.pX( -t)
Po
J~
( exp(itx) dP x ( -x)
La premire intgrale vaut '-Px(t) et la deuxime est gale <.px(t) cause de la symtrie car dPx(x) :.:::; dPx( - x).
2.6.1.5
Notons tout d'abord que 'l'x (0) = 1 car 'l'x(O) = totale gale 1.
::::::;"'\./.. r'I:1n1iES
alatores
57
q>:~)(O)
= jkE(X k )
effet,
'P~)(t) = ((ixi exp(lx) dPx(x) par drivation sous le signe somme. En particulier:
Jr~
q>,~(O) = iE(X)
q>_~(O) = - E(X 1 )
2.: 1
I:=(]
Je
ikE(X k )
Si
Jn1
(1 'Px(t)1
dl
<
::::0
J(x)
T--:::;
hm 27i
J+T'Px(t) exp(-ita) -.
-T If
exp(-itb)
dt
Une fonction quelconque n'est pas ncessairement une fonction de rpartition; de pour qu'une fonction <p(t) saiL une fonction caractristique elle doit vrifier certaines proprits. Le thorme suivant, que nous ne dmontrerons pas, identifie 1es fonctions caractristiques aux fonctions de type positif >:>.
THORME (BOCHNER)
POli r qll 'wle fOllction continue 'P soil tille fOllction caractristique, il fmtt et il suftt que pour toute famille finie t). 12, , tl! de rels et pOlir toute famille finie de complexes Z il Z:h .. '\ ZI! on ait:
2: 2: 'P(ti i=lj==1
Il
Il
t)zizj
58
2.Variables
""",:>rr\l",'~_
2.6.2
2.6.2.1
+ q avec q
Il
l - p. variables de Bernoulli
md,pi:ndlanlte8.;':~
<PxU) = (p exp(it)
+ q)11
Loi de Poisson :
lPx(t) = exp(. (exp(it) - l))
En effet:
E[expUtX)]
.x
""
(. eXPUt y ) x!
2.6.2.2
Lois continues
sin at
<Px (t)
En effet: E[expUt X)]
~f:!::fexP(itx) dt = 2a
+ i sin at.
2mt
e Lois gamma: Si X suit une loi 'YI' c'est--dire une loi exponentielle de paramtre 1, on a:
1
1 - it
En effet:
lP yl (1)
/1
Jo
Jo
- it)x) dx
entier:
Il
"YI indpendantes.
1
(l -
;tY
dx = -
fer)
1:>0exp(-(1
0
it) x) x r - I dx
21l1i1Variabies alatoires
59
en posant (1
iOx
= li :
0
itY
f(r)(l
iI)r
(1
ity
Il convient cependant de justifier ce rsultat car il s'agit d'une intgrale dans le champ complexe. Nous le laisserons au soin du lecteur.
Loi de Laplace~Gauss : Si U est la loi LG(Q ~ 1) :
Q si
k est impair et
E(U
2k )
(2k)! == 2k kl'
la formule de Mac-Laurin :
k
"D~aprs
1)
2k! 2kk!
Remarquons qu'ici aussi un calcul formel (qui devrait tre justifi par une intgration dans le plan complexe) donne le mme rsultat:
+X
-x~
f+::<:exp ( -;; [x 1
-x _
- itf t 2/2 dt
= exp( -[2/2)
'I-::t;
-:x:
exp
(1 [x - )2dt -'2
it]
et l'intgrale vaut 1 car c'est l'intgrale de la densit d'une variable de Gauss imaginaire (1) de moyenne it et de variance 1. Si X est une LG(m ; 0") :
on en dduit que la somme de deux variables de Gauss indpendantes est encore une variable de Gauss:
donc XI
Ill']. ;
).
60
2 _ Variables
alei'l.toilres;i,~
2.6.3
fonctions gnratrices
Il en existe deux fonnes assez voisines; en es servent essentiellement calculer les mc)m(~nt~~,;~ de variables alatoires et de sommes de variables indpendantes car la fonction gnratrice produit de variables indpendantes est gale au produit de leurs fonctions gnratrices. Pour des variables valeurs entires positives, on utilisera la forme suivante:
gx(t)
= E(tx) =
2: tllP(X =
112:0
Il)
Par drivations successives en zro, on trouve facilement que g~)(O) = Il! P(X qui prouve que la fonction gnratrice dtermine la loi de probabilit de X. Sous rserve d'existence, les drives successives en l sont gales aux moments factoriels:
g,\-(l) = E(X)
g~~(1,) = E(X(X g~)(l) = E(X(X -
1
1)(X - 2) ... (X Il
1))
= <Px( - j In(t)
2.7
CONVERGENCES DES SUITES DE VARIABLES ALATOI RES Les diffrents types de convergence
2.7.1
Une suite (XII) de variables alatoires tant une suite de fonctions de dans III il existe diverses faons de dfinir la convergence de (X,J dont certaines jouent un grand rle en calcul des probabilits.
2.7.1.1
La convergence en probabilit
DFINITION
La suite (XII) cOllverge en probabilit vers la constante a si, 'dE et 11 (arbitrairement petits), il existe /lo tel que Il > 110 entrane:
p(IX'1 -
al > E) < 11
2 ..Variables alatoires
61
a.
On dfinit alors la convergence en probabilit vers une variable alatoire X comme la convergence vers 0 de la suite XII - X. Lorsque E(X/I) ~ a, il suffit de montrer que V(Xn) ~ 0 pour tablir la convergence en probabilit de X'l vers a. En effet, d'aprs l'ingalit de Bienaym-Tchebycheff:
P( 1XII - E(X,I) 1 > E)
<
V(Xn)
-'l-
E-
2.7.1.2
* Y(w)})
= O.
C'est l'galit presque partout des fonctions mesurables. On dfinit donc ainsi des classes
l
l
La suite
vers X si :
* X(w)})
et on noIe Xn
lU
X.
En d'autres tennes, l'ensemble des points de divergence est de probabilit nulle. Remarquons que la limite de (XII) n'est pas unique mais que deux limites sont presque srement gales.
Il est immdiat de montrer que la convergence presque sre implique la convergence en probabilit.
2.7.1.3
Si E[(X" DFINITION
X)"l
existe, on a :
tlx
lI -
xl"J ~ O.
2.
62
2.7.1.4
La convergence en loi
Bien que la plus faible, eUe est trs utilise en pratique car elle permet d'approximer fonction de rpartition de XII par celle de X.
DFINITION
La sL/te (XII) cOJz\'el___r::e ellloi l'ers la \'Clriable X defonction de rpartition F si, en de COJ1fiJ~tit de F, la suite (Fil) des fOllctions de rpartition des XII converge vers F. Ilote XII ~ X.
Un thorme d Polya tablit que si F est continue alors la convergence est uniforme.
Pour des variables discrtes, la convergence en loi vers une variable discrte s'exprime P(X II x) ~ P(X = x). C'est ainsi qu'on a tabli la convergence de la loi binomiale vers la loi de Poisson.
Une suite de variables discrtes peut cependant converger en loi vers une variable corltmlue!!~ (voir plus loin). On montre galement que, SI (XJ est une suite de variables de densits hl et X une de densit./: alors :
vaJlat)lej~~~
La convergence en loi est intimement lie la convergence des fonctions caJractristiques!r,~ comme le prcise le rsultat fondamental suivant, que nous noncerons sans dmonstration:
THORME (lEVY-CRAMER-DUGu)
l
l
sute
Si XI! ~ X alors <Px/t(t) ~ <Px(t) uniformment dans tout intervalle fini [- 1/, Il]. Si des fonctions caractristiques <Px,,(O converge \'ers une Jonction <p dont la relle est continue l'origine, alors <p est Wle jonction caractristique et la suite cOlll'erge en loi vers ulle variable alatoire X dom <p est la fonction caractristique.
La convergence en probabilit entrane la convergence en loi et on a, pour rsumer, la rarchie suivante des convergences:
Moyenne d'ordre p
1 ----....
,....-----...,
-vllpq
LG(Q; 1) en
2.7.2
THORME
l'lIna
:'lJ
rflj (
Il ~
1 - p.
63
I11III
de
X - np
{,u;;; npq
vaut:
'PU)
)'1 (
ln 'P
In'P =
_ itnp -1 npq
puis le logarithme:
ln 'P =
11
pit [- -1 npq
t"!.
--
pt?
2npq
pt 2
+ -- ---
p2 t?] 2npq
itnp
-1 npq
t2
soit:
ln 'P = - 2q
+-
2q
=-
t"!.
2q
(p -
1)
= -2
car p = 1 - q.
'PU) ~ exp( - t? /2) qui est la fonction caractristique de la loi normale centre-rduite.
E!IIII
Application: Lorsque n est assez grand, on peut donc approximer la loi binomiale par la loi de Gauss. On donne gnralement comme condition np et nq > 5.
Il convient cependant d'effectuer ce que l'on appelle la correction de continuit: la convergence de la loi binomiale vers la loi de Gauss se traduit par le fail que les extrmits des btons du diagramme de la binomiale fJ3(n ; p) sont voisines de la courbe de densit de
= x)
+_t
(fig. 2.28).
XP(X = x) = P (
~-.Jnpq
np
<
<
+ ~ - np)
-Illpq
---==---
On aura alors :
P(X ::::;
x)
= P (U <
\: + ~ -.Jnpq
17P )
----==--
64
2.Variables alatoires
~ 1~ ~: .': .
-"\
\
\
\..
FIGURE
2.28
_ Exemple:X @(40; 0.3) IIp = 12; Ilpq = 8.4. La valeur exacte pour P(X
La formule d'approximation avec une loi LG(l2 ; {8.4) donne:
P(
soit:
= P(0.17 <
Quant P(X:::; 11) qui vaut exactement 0.4406) l'approximation normale fournit P( U < 0.17) soit 0.4325. En l'absence de correction de continuit, on aurait trouv
THORME
00,
LG(O~l).
_ Dmonstration
<Px(t)
= exp(.)(exp(it -
1))
d'o:
.... _.V~rl;H)le~
alatoires
65
exp ( . 1\
-\JI\.
it )
+- - ~
il
2~
il vient:
t2 "2 - ~ -
it {i;. = exp
(t l) -"2
La figure 2.29 illustre l'approximation de la loi de Poisson @l(~) par la loi de Gauss de mme esprance et de mme cart-type ~. L'approximation est trs satisfaisante pour ~ > 18. On trouvera en annexe d'autres fonnules d'approximation plus prcises. On a, ici encore, intrt effectuer la correction de continuit.
.300]
.
= 2.0
300]
.200
.300
.
= 3.0 .200
= 4.0
.200
.100
.100
.100
= 6.0 .100
.100
0.000
0.0
5.0
10.0
15.0
o::::,~,
0.0 5.0 10.0 15.0
FIGURE
100
20.0
2.29
2.7.4
L'tude de sommes de variables indpendantes et de mme loi joue un rle capital en statistique. Le thorme suivant connu sous le nom de thorme central-limite (il vaudrait mieux dire thorme de la limite centre) tablit la convergence vers la loi de Gauss sous des hypothses peu contraignantes.
66
THORME
2.Variables alatoires
Soit (XII) une suite de variables alatoires indpendantes de mme loi d'esprance I-L et d'cart-type (J". Alors:
_
-.r;;
(Xl
+ X, + ... + X - 1111) r
Il
U'
LG(O ; 1).
(J"
_ Dmonstration
2: --='-- est
Il
donc
['PX-IL (t)] Il , Or X
rr-..J
(J"
commence par
2: --='--
11
est
quivalente (1 -
On remarque que, si les variables X j sont des variables de Bernoulli, on retrouve comme cas particulier la convergence de la loi binomiale vers la loi de Gauss. On peut dmontrer un thorme encore plus gnral d Lindeberg :
THORME
Soient XI' X]. ' .. , XII des varables alatoires indpendantes pliS forcment de Inll1e loi et d'esprance mi et de variance (J"T. Soit S~ rpartition de (Xi lIli)'
et F(x) la fOl1ction de
/1_";
1 Hm [ ,.
Il
2:
11
x 1 dFi(x)
]
1)
2:(X i
lIli)
alors:
i=1
.!4 U E LG(O;
SIl
2_Variables alatoires
67
- m
petites}) avec une grande probabilit. Le rsultat veut dire qu' force d'ajouter de telles variables, on finit par obtenir une loi de Gauss. Ce phnomne est souvent exprim de la manire suivante: si une variable est la rsultante d'un grand nombre de causes, petites, effet additif, cette variable suit une loi de Gauss. On peut y voir la justification de l'emploi abondant et sou vent abusif de la loi de Laplace-Gauss comme modle. Pour tenniner, notons que l'existence des moments E(X) et V(X) est indispensable. La loi 1 de Cauchy de densit sur IR. n'a aucun moment et fournit un contre-exemple classique: on montre que
'Ti(1 + Xl + X..,
+ ... + X
Il
11.
Il
L'tude de la loi de probabilit d'une variable alatoire Y connaissant la valeur prise par une autre variable alatoire X est fondamentale pour les problmes d'approximation et de prvision. Il faul pour cela connatre en premier lieu la distribution de probabilit du couple eX, Y) qui est une application de (n, P) dans IR:! muni de sa tribu borlienne si il s'agit d'un couple de variables alatoires relles, lIn'est cependanL pas ncessaire que X el Y soient valeurs dans IR.
3.1
On tudiera ici la distribution d'un couple de variables alatoires valeurs dans des ensembles finis ou dnombmbles ; par exemple la distribution simultane de la somme et du produit des points amens par deux ds,
3.1.1
3.1.1.1
Loi jointe
Yj
Yq
La loi du couple (X, Y) Px!' est alors entirement dfinie par l'ensemble des nombres :
Px}' (x i ; Jj) = P(X = Xi
y = Yi)
Xi
Pi.
dans le cas fini cette loi de probabilit conjointe peut se mettre sous la forme d'une table. On note Pu
P(X = Xi
ny
Xp
P.j
3.1.1.2
Lois marginales
On appelle lois marginales les lois de probabilit de X et de Ypris sparment. On a d'aprs le thorme des probabilits totales :
fi
P(X =
Xi)
= 2:Pij = Pi.
j= 1
pey =
v) .1
i=1
70
3.1.1.3
Lois conditionnelles
Les vnements {X = Xi} et {Y = Yj} tunt de probabilits non nulles on dfinit alors deux familles de lois conditionnelles selon que l'on connat la valeur ) de X ou de Y. Rappelons qu'ici X et Y ne sont pas forcment des variables alatoires relles mais peuvent tre des variables qualitatives. D'aprs le chapitre 1 on a :
Lois conditionnelles de X si Y = Yj :
P(X
= xj Y=
.'j)
Pa
P.j
Lois conditionnelles de Y si X
= x, :
Pi. =
pey
-
x.) =
1
P(X =
Xi
y = y}.)
P(X = x)
P(X =
Xi
n y = y)
22p(x
j= 1
xjY
}j)P(Y
Jj)
l'
Xi)
Remarques:
Pour deux vnements BI et 8 2 relatifs Y et X on a :
22 pey E B~jX
XEE 1
x)P(X
x)
formule qui servira pour tendre la notion de probabilit conditionnelle lorsque X = x est de mesure nulle . Il arrive frquemment dans les applications que r on utilise la dmarche inverse : on connat la loi conditionnelle de Y X fix et celle de X et on en dduit alors la loi du couple. Les formules de Bayes permettent d'exprimer une loi conditionnelle en fonction de l'autre:
P(X = x;/Y
-}
v ) =
-1" 1
)P(X = t'.) r
Xi)
22p(y = y/X
i""l
= xJP(X =
et :
pey = y/X
= Xi)
if
22P(X
j=1
71
= Pi. P.}
'Vi et j
ce qui revient dire que les q lois conditionnelles de X Y tix (en faisant varier Y) sont identiques; il en est de mme pour les p lois conditionnelles de Y X fix.
3.1.2
= E(XY)
- E(X)E(Y)
On a:
cov(X; X) = V(X)
et
cov(Y; Y)
Vey)
On montrera plus loin que: (cov(X; Y)? ::s V(X)V(Y) ce qui permet de dfinir le coefficient de corrlation linaire p, qui est donc toujours compris entre -1 et + 1 :
p=
cov(X; Y)
Pour deux variables indpendantes p = O. Cependant, la rciproque est en gnral inexacte et un coefficient de corrlation linaire nul n' entraine pas que les variables sont indpendantes. Deux exceptions notables o non~corrlation et indpendance sont quivalents : les couples (X; Y) gaussiens (voir chapitre 4), et les couples de variables de Bernoulli (facile montrer). Les valeurs limites entre Yet X.
l et
3.1.3
Moments conditionnels
Supposons Y relle mais pas ncessairement X qui peut tre une variable qualitative. On peut alors dfinir, sous rserve de l'existence de ces expressions pour le cas dnombrable, l'esprance et la variance de Y X fix.
3.1.3.1
L'esprance conditionnelle
DFINITION
x et
011
E(Y/X
x)
2:yP(Y
y
= y/X = x)
72
C'est donc l'esprance de Y prise par rapport sa loi conditionnelle. On note que E(YIX
x) est une fonction de x: E(YIX
= x)
= <p(x).
Cette fonction cp s'appelle fonction de rgression( 1) de Y en X. Son graphe est le lieu des moyennes conditionnelles de Y sachant X. On voit donc que E(Y IX = x) dpend des valeurs prises par X. On peut alors dfinr la variable alatoire esprance conditionnelle, qui prend pour valeurs E( YI X = x) avec les probabilits P(X = x) :
DFINITION
l
l
On appelle variable alatore esprance conditionnelle de Y sachant X et E(Y IX) la variable dfinie par:
E(YIX) = q:>(X)
011 IlOte
Cette variable prsente un certain nombre de proprits remarquables. Tout d'abord la linarit comme consquence de sa dfinition en tant qu'esprance:
E[E(YIX)]
= E(Y)
_ Dmonstration
E[E(Y/X)] =
= 2:y2:P(Y =
)" x
= x)
2:yPCY
y)
= E(Y)
Ce thorme est un outil trs puissant pour calculer l'esprance mathmatique d'une loi complique mais dont les lois conditionnelles sont simples: on voit mme que l'on n'a pas besoin de connatre explicitement la loi de Y (voir plus loin). Si lll(X) est une autre variable fonction de X on a E[Ylll(X)IXl = lIJ(X)E[Y IX] ; la dmonstration sans difficult est omise. Concrtement cette formule signifie qu' X tix \jJ(X) esl une constante et sort donc de l' e~prance.
1_Ce terme de rgresson pt"Ovient des travaux, du statisticien Galton qui tudj;:t la taIlle des enfants Y en fonc:tion de la taille de leur pre X, Il avait constat exprimentalement que la taille moyenne des fils dont le pre avait une taille x suprieure la moyenne E(X) tait elle-mme suprieure ci E(Y) mais dans une moindre mesure --'-----'-----'--'- tait infrieur- il 1 ; il y avait donc rgression au sens ordinaire du mot.
73
3.1.3.2
La variance conditionnelle
DFINITION
=x
et on note V( Y/X
= x) la quantit:
Vey/X
= x) = E[(Y
E(Y/X
= x)f/X = x]
= x)
= tIJ(X) = E[(Y
E(Y/X))2/X]
en donnant l'esprance sa signification usuelle de moyenne on voit que la variance de Yest la somme de deux lermes : la moyenne des diverses variances conditionnelles et la variance des diverses moyennes conditionnelles.
_ Dmonstration
V(Y) = E[(Y E(Y)f] EI(Y - E(Y/X)
+ E(Y/X)
- E(y))2]
Le dernier terme est gal V[E(YlX)] par dtnition de la variance puisque E(Y) est l'esprance de E(YIX). Le premier terme n'est autre que E[V(Y/ X)J : en effet en appliquant le thorme de l'esprance totale: Er(Y - E(Y/X2] = - E(Y/X2/Xll et on reconnat l'expression de Vey/X). Notons que Vey/X) n'est pas gale (Y - E(Y/X))2 ce sont simplement deux variables ayant mme esprance. On vrifie que le double produit est nul en conditionnant nouveau: l'esprance conditionnelle tl X fix de (Y - E(Y/X)(E(Y/X) - E(Y)) vaut alors:
[E(Y/X) - E(Y)][E(Y E(Y/X))/X]
puisque E(YlX) E(Y) est une constante X fix (voir la dernire proprit de l'esprance conditionnelle nonce au sous-pamgraphe prcdenl). Quant :
E[(Y - E(Y/X)/X.I
ce terme est nul, il suftt de dvelopper. L'esprance conditionnelle du double produit est nul, il en est de mme de son esprance. (on trouvera plus loin une dmonstration gomtrique plus rapide et plus lgante) ..
74
3.1.3.3
Un examen se droule sous forme d'un questionnaire choix multiple (QCM) o on pose 20 questions; chaque queston comporte quatre rponses possibles, dont une et une seule est la bonne; une rponse juste compte 1 point, sinon zro. On suppose que le programme de l'examen comporte 100 questions dont on tirera alatoirement les 20 de l'examen. Si l'on considre un candidat ayant appris une proportion p du programme, on tudie la distribution de sa note N.
Solution : Parmi les 20 questions, un certan nombre X va figurer dans la partie des 100 p questions rvises et fournir automatiquement X points. Les 20 questions tant tires sans remise parmi les 100, la loi de X est une hypergomtrique d't(lOO ; 20; p).
Un certain nombre de rponses pourront tre devines par le jeu du hasard parmi les 20 - X questions non rvises, soit Y ce nombre. A chaque question non rvise est associe une variable de Bernoulli de paramtre 1/4. Si X = x est fix, la loi de Yest alors une loi binomiale @(20 - x; 1/4). On a donc N = X + Y avec Y/X @(20 - X; 1/4). X et Y ne sont pas indpendantes puisque la distribution conditionnel1e de Y/X = x dpend de x. Le calcul de la distribution de N conduit en tout tat de cause une expression difficilement manipulable :
X=/I
peN = n)
=
-
2: P(X
lOG!,
x)P(Y =
11 -
x/X = x)
.t''''0
-"
x=/!
ex c 20-x
e:w
IOn
H)[)(I-l') Cl/-.~
x='o
..t.J
(1)"-X(3)20-11 _ _
4 4
:!o-x
+ E(Y)
= E(X)
+ E[E(Y/X)]
E(Y/X)=(20 E[E(Y/X)] = 5 -
E~)
+
= 5 - 5p
soit :
E(N) = 15p
75
Calcul de V(N) :
= x) = l'Lx + Yj X
16
= x]
VI'YjX
= x]
1 3 (20 - x) 4 ':4
VeNjX) = (20 -
X)~E[V(NjX)]
x
= 20(1 _ p) 3 = I5(] - p)
16
x) = 5
E[NjX = x] E[NjX]
+ 4 (20
3r
~
5
9
+4
3X
V[E(NjX)]
100
p) 100
= 16 l'(X)
20 1
p)
= 16 20])(1
15(1 - p) 4
100p( 1 Il
p)
= (1
p) [- + -
15
4
100P]
Il
La figure 3.1 donne les varations de E(N) et de VeN) en fonction de p. Un taux de rvision de 0.6 0.7 devrait donc assurer la russite l'examen avec une forte probabilit.
20~------------~
1 1
1
15
10
,
,,
.
1 1 1 1 l ' 1 1 1 1 1
,.
1
#
1 ;
" l'
l'
""
#
.i
0; ,
l' i:'\'
0'
,.
,.
'<.1
I~,' ,. 1
,
1
/~t/ '<.1.'
,.'
, 1 , i:'\ '
1
/0;)0/
OI....-...l--L..--'---L-..L.......1--L..-L-..J....to..I
o 0.1 0.2
0.5 3.1
FIGURE
76
3.1.4
= x)
P(Y<
puis si elle existe la densit conditionnelle g(y/x) qui sera la drive de G en y. La densit marginale de Y s'obtient par:
g(y) = L9(y/x)P(X
= x)
E(YjX
= xl = Lyg(yjX)dY
Les formules de l'esprance totale et de la variance totale sont galement valables. La formule de Bayes donne:
P(X = x/Y
<
G(v/x)P(X v) = ' .
G()')
= x)
= x/ Y =
o.
3.1.5
Le problme suivant est courant en assurance: au cours d'une priode de temps donne le nombre de sinistres survenus est une variable alatoire N. Chaque sinistre a un cot alatoire reprsent par une variable X. Le montant total des sinistres est alors:
Si les Xi sont indpendantes et de mme loi, les thormes de l'esprance et de la variance totale, en conditionnant par N, permettent de montrer facilement que:
E(S) = E(N)E(X) V(S) = E(N)V(X)
V(N)(E(X)Y:-
77
3.2 3.2.1
Si (X, Y) est il valeurs dans [H2 rappelons que la fonction de rpartition du couple H(x, y) se dfinit par:
H(x, y)
P(X
<
<
y)
H(oo ; y)
x) y)
'.,
a2H = -axa)'
=
=
J~~
Iz(x. y) dy
g(x)
Jr.!
f lz(x, y) d\:
\Ix ; y \Ix; y
F(x)G(y)
h(x, y) = f(x)g(y)
3.2.2
Conditionnement
Le problme essentiel est de donner un sens aux expressions du type pey E RIX = x) et E(Ylx = x) lorsque X = x est un vnement de probabilit nulle ce qui est toujours le cas lorsque X est une variable admettant une densit.
3.2.2.1
Prsentation nave
Lorsque X est une variable continue on peut songer dfinir la fonction de rpartition conditionnelle de Y sachant que X = x comme la limite pour E tendant vers 0 de :
POl < y
P(x
+ E))
H(x
E)
F(x
+ E ; y) + E)
- H(x; y)
- F(x)
78
Lorsque X possde une densit f(x) on voit que la limite de cette expression est
iJH(x ; y) . x) et que S1 (X , 11") Il une d ' 'J l (x, iJx ensIte
jl'( ,
= g(y/x)
On conot cependant aisment qu'une telle approche est peu rigoureuse et ne recouvre en plus qu'une partie du problme: dans certaines applications il faut pouvoir conditonner par rapport une variable quelconque pas ncessairement valeur dans IR! ni dans un ensemble fini. Pour dfinir une esprance conditionnelle il faut seulement que Y soit relle et que E(Y) existe,
3.2.2.2
Aperus thoriques
Vu sa complexit nous ne donnerons que les rsultats les plus importants sans rentrer dans les dtails des dmonstrations qui figurent dans les ouvrages de Thorie des probabilits (Neveu (1964) ou Mtivier (1972) par exemple).
Premire prsentation
X tant une variable alatoire quelconque de (n, P) dans un ensemble mesurable (E, ~) on dfinira la probabilit conditionnelle d'un vnement A par rapport X grce au thorme suivant:
THORME
Soit A
(E,
E ce, alors VBErg il existe une classe d'quivalence unique de fOllctions de dans [0; 1] note P(A /X = x) telle qlle ;
P(A
{X E Bl)
Ju
rP(A/X = x) dPx(x)
La fonction P(A/X = x) n'est pas unique car une modification de cene-cl sur un ensemble de probabilit Px nulle ne change pas le rsultat de l'intgrale. Peut-on choisir un reprsentant de cette classe pour tout A qui dfinisse une loi de probabilit conditionnelle sur il? Ce n'est pas sr si X est quelconque et P(./X = x) n'est pas ncessairement une mesure de probabilit: ici se trouve la difficult majeure de la thorie. Si un tel choix est possible on dit que c'est une (< version rgulire de ]a probabilit conditionnelle par rapport X, note P(./X = x). On peut alors dfinir l'esprance conditionnelle d'une variable Y intgrable par:
E(Y/X
= x) =
Y(w) dP(w/X = x)
79
Deuxime prsentation
Les ouvrages rcents de thorie des probabilits prfrent partir de la dfinition de ]' esprance conditionnelle grce au thorme suivant qui tend la formule de l'esprance totale en intgrant sur un vnement quelconque de E au lieu d'intgrer sur E tout entier.
THORME
Soit Y Hne variable alatoire relle de (0, (g, P) dans (IR, @) telle que E( Y) soit jini, et X U1le variable quelconque de (.0, (g, P) dans (E. de loi de probabilit Px.
Il existe alors une classe d'quivalence unique de fonctions Px intgrables de (E, '0) dans (IR, @) note E(Y/X = x) telle que:
'VB E iR
(
JX- 1(8)
Y(w) dP(w)
= lE(Y/X = x) dPx(x)
/1
Ceci dfinit alors de manire (presque srement) unique la variable alatoire esprance conditionnelle E(Y/X). On en dduit alors la probabilit d'un vnement A quelconque de X en prenant pour Y la variable indicatrice de A :
P(A/X)
n conditionnellement
= EClir\/X)
Comme nA est intgrable la probabilit conditionnelle de A existe toujours. Le problme de l'existence d'une version rgulire de la probabilit conditionnel1e reste cependant entier, cette existence est ncessaire pour pouvoir calculer l'esprance conditionnelle par la formule:
E(Y/X
x)
= ( Y(w) dP(w/X = x)
Jn
et pour pouvoir parler de distribution conditionnelle de Y sachant X. La distribution conditionnelle de Y sachant X = x est en effet dfinie comme la mesure image de P(./X = x) par Y pour chaque x. Il faut donc que P(./X = x) soit une mesure de probabilit sur n. La preuve directe de l'existence de distributions conditionnelles dans les cas les plus usuels est donn par le thorme de Jirina : il suffit que E soit un espace mtrique complet sparable (ou espace polonais), c'est--dire admettant un sous-ensemble partout dense, ce qui est le cas de IRI'.
3.2.2.3
Il ressort des rsultats prcdents [es proprits utiles suivantes: si (X, Y) est un couple de variables alatoires o Yest valeurs dans IR el X valeurs dans un ensemble tini ou dnombrable, o valeurs dans IR ou IRP : Il existe une mesure de probabilit conditionnelle P(./X Il existe une distribution conditionnelle de V/X = x.
= x) sur n.
80
Si E(Y) existe, alors il existe une variable alatoire esprance conditionnelle: E(Y/X) qui prend les valeurs E(Y/X = x) avec la loi de probabilit Px :
E(YjX = x)
= LY(",) dP(wjX = x)
D,
dP(yjX = xl
et E[E(Y/X)] = E(Y). Si Vey) existe on a Vey) = E(V(Y/X)) + V(E(X/Y)). Si le couple (X, Y) est il valeur dans 1R2 et possde une densit h(x, y) les densits conditionnelles existent et sont donnes par :
f(x/y) = - g{y)
et on a E(Y /x = x) ==
Iz(x ~ y)
g(y/x) =
~~--'--
f(x/y)g(y)
g(y/x)f(x) f(.r/y) == - : . - - - - - -
fj'(Xjy)g(y) d),
g(yjx)f(x) dx
Lorsque l'une des variables est discrte el l'autre possde une densit il suffit de remplacer l o c'est ncessaire les intgrales par des sommes finies et les densits par des probabilits ponctuelles.
3.3
SYNTHSE GOMTRIQUE
Le cas o on n'tudie que des variables alatoires relles de moment d'ordre 2 fini est un des plus importants en pratique et est susceptible d'interprtations gomtriques trs clairantes.
3.3.1
L'ensemble de toutes les variables alatoires dfinies sur un mme univers (en fait l'ensemble des classes de variables alatoires presque partout gales) forme un espace de Hilbert L 2 si l'on le munit du produit scalaire:
(X, Y) = E(XY)
et de la norme:
!!XII
= {E(X 2)1/1
L'cart-type est donc la norme des variables centres, et la covariance le produit scalaire des variables centres. Si l'on considre l'ensemble des variables alatoires constantes, on obtient une droite D de L 2. Car si X est constante, llX l'est aussi. L'esprance mathmatique de X est alors la projection orthogonale de X sur cette droite (fig. 3.2) : en effet, on sait que le minimum de EX - a)2) est atteint pour Cl = E(X), ce qui dl1nit la projection orthogonale de X sur D.
81
D
FIGURE
3.2
La formule de Konig-Huyghens :
E((X
af) = V(X)
+ (E(X)
af'
E(X) est. en d'autres termes, la meilleure approximation de la variable X par une constante (au sens de la norme de U).
Comme cov(X, Y) = (X - E(X) ; y Icov(X,Y)I:s; soit:
1
E(Y)
IIX-E(X)II HY-E(Y)II
1
Le cosinus de l'angle fonn par X - E(X) et Y - E(Y) vaut donc ve le coefficient de corrlation linaire p entre X et }~
p = 1 s cov(X, Y) = axa}' donc si (X E(X) = a(Y - E(Y)).
1
. On retrou-
soit: X
Le coefficient de corrlation linaire est donc gal il l s'il y a une relation linaire entre les deux variables X et Y. La nullit de ce coefticient exclut la relation linaire, mais n'exclut pas l'existence d'autres relations. Il est facile de fabriquer des contre-exemples de dpendance fonctionnelle avec un coefficient de corrlation linaire nul: ainsi. X et X"J. ou sin X et cos X lorsque la loi de X est symtrique.
3.3.2
Soit L~ le sous~espace de L2 constitu des variables alatoires fonctions seulement de X du type (.l(X) : Ll est convexe et contient la droite des constantes D. C'est donc un sous-espace de Hilbert ferm. Alors l'esprance conditionnelle de Y sachant X, E(Y/X), s'interprte comme la projection orthogonale de Y sur LX"
82
SOl en effet l'oprateur qui associe toute variable alatoire son esprance conditionnelle X. C'est un oprateur linaire; pour montrer que c'est un projecteur orthogonal il suffit de vrifier qu'il est idempotent et auto-adjoint:
il est idempotent: E(E(YjX)jX) = E(YjX) ; et auto-adjoint: <Z ; E(YjX) ) = < E(ZjX) ; Y).
En effet, les deux membres de cette relation sont gaux E[E(ZjX)E(YjX)]. Le thorme de l'esprance totale E(Y) = E(E(YjX) est alors un cas particulier du thorme des trois perpendiculaires, comme l'illustre la figure 3.3.
y- - - - - - - - - - - - - - -
FIGURE
3.3
E(Y jX) tant une projection orthogonale, ceci montre que le minimum de : E[(Y <p(X)f]
est atteint pour <p(X) = E( Yj X), rsultat qui sera repris lors de l'tude de la rgression. On peut dire que si E(Y) est la meilleure approximation de Y par une constante, E(YjX) est la meilleure approximation de Y par une fonction de X. Il est alors immdiat que le rsidu Y - E( Yj X) est non corrl avec X par suite de l' orthogonali t. Le thorme de la variance totale s'interprte comme Je thorme de Pythagore appliqu au triangle rectangle Y, E(Y), E( YjX) :
/lY - E(Y)W
= Vey)
IIY - E(YjX)11 2
= V(E(YjX
3.3.3
Rapport de corrlation de Y en X
Le coefficient de corrlation linaire p est une mesure symtrique de dpendance, qui est maximale dans le cas de la liaison linaire. Le thorme de la variance totale permet de dfinir une autre mesure de liaison non symtrique cette fois: le rapport de corrlation Tl}'!.\' tel que:
"i,x = - - - V(Y)
V(E(YjX))
83
Ce rapport est le cosinus carr de l'angle form par Y - E(Y) et l'espace Li:. On a donc:
PROPRIT
Si lli/x
1, E(V(Y jX)
= O.
On en dduit donc que VeyjX) = 0 presque srement, car c'est une variable positive. Ce qui veut dire qu' X fix la variance de Y est nulle, donc que Y ne prend qu'une seule valeur.
ll~'/X = 1 => Y = 'P(X)
,,-,,1;;
Si lli/x = 0, \I(E(YjX))
On dit que Yest non corrl avec X, il Y a absence de dpendance en moyenne. C'est en particulier le cas si X et Y sont indpendantes mais la rciproque est inexacte. On montre en fait que l'indpendance entre Y et X est quivalente l'orthogonalit des espaces Li: et L~, engendrs par X et Y le long de la droite des constantes (fig. 3.4) :
FIGURE
3.4
Indpendance de X et Y.
11~'IX = 0 signifie seulement que Y - E(Y) est orthogonal LI ; 11 2 est une mesure de liaison fonctionnelIe alors que p est une mesure de liaison linaire; 11YX est toujours suprieur ou gal p2 car p2 est le cosinus carr de l'angle form par y - E(Y) avec le sous-espace de dimension 2 de Li: engendr par la droite des conslan~ tes D et la variable X.
Ci
+ I3X
c'est celui de la rgression linaire dont l'tude sera effectue en dtail au chapitre 16. Si E(Y jX) =
Ci
84
En effet d'une part llI-lx = sup p2(y; <.p(X)), et d'autre part la linarit de la rgression implique ll~'lx ::;::: p1(y; X). Lorsque (Y; X) est un couple gaussien on a simultanment E(YIX) =
Cl
j3X el E(X/Y)
)' + 5Y
On en dduit le thorme suivant:
THORME
Si (Y; X) est 1I1l couple gaussien, O1l11e peul pas trouver de trallsfonnations <.p(X) et ~J( Y) augmentant en l'aleur absolue le coe./Jicient de corrlation:
Ce chapitre prsente les rsultats les plus utiles pour r tude des variables plusieurs dimensions. Certaines dmonstrations purement techniques seront omises.
4.1.1
4.1.1.1
P(X(
x,,)
dont les proprits se dduisent aisment de celles vues pour les couples de vecteurs alatoires.
4.1.1.2
Densit
4.1.1.3
Yi = tpj(X(, X 2 ,
X p)
'1
Les fonctions tpj tant telles que le passage de (XI. Xl' .. X,,) (YI. Y2 ... , YI') est biunivoque. Nous dsignerons en abrg par tp la transformation:
x y
tp(X)
86
detJ =
YI ........................ il)'" ax p iJx/ iJx)
.....................
JXI
aYt
iJyP
(detJ)-1
La dmonstration de cette proprit figure dans tous les ouvrages consacrs l'intgration (changement de variable dans les intgrales multiples). Si la transformation cp est linaire de matrice A constante, Y = AX CA doit tre rgulire) on a det J = lAI. En particulier si A est une transfonnation orthogonale le jacobien vaut 1.
4.1.2
fonction caractristique
(l'l ,
a,J
On appelle fOllction caractristique dl( vecteur alatoire X la fonction de l'argument vectoriel a dfinie par:
THORME
Les composalltes Xl, X], ... , XI' de X sont indpendautes si et seulement si la fOllctiol1 caractristique de X est gale au produit des fa Il ct ions caractristiques de ses compOslllltes :
'P~Ja)
= II 'Pxi(lli)
i=1
f.'
87
Si les Xi sont indpendantes l'esprance d'un produit de fonctions des Xi est gale au produit des esprances donc: E[exp(ia'X)]
= E[expUa 1Xl)] E[exp(ia2X2)] ... E[exp(iapXp )]
ce qui dmontre une partie de la proposition. La rciproque plus dlicate utilise l'inversion de la fonction caractristique et est omise. Le rsultal suivant fondamental permet de dfinir des lois de probabilits p-dimensions partir des lois unidimensionnelles.
THORME DE CRAMER-WaLD
La loi de X est entirement dtermine par celles de tolites les combinasons linares de ses composClmes.
JI
Posons en effet Y
a'X
= LCliX
""l
!.pr(t)
= E[exp{itY)] = E[expUta'X)]
d'o 'Pr(l) = tpx(a). Si la loi de Y est connue pour tout a on connat donc la fonction caractristique de X donc la loi de X.
4.1.3
le vecteur
J.L
(JT
cov(X I, X 2)
(J~
.......
cov(X 1, XJl)
= E[XX']
rrj;
"1
- J.L1l- 1
88
IOs aSSOCle5;)
4.1.4
Transformations linaires
Effectuons un changement de variable linaire Y = AX o A est une matrice quelconque de constantes (pas ncessairement carre), alors:
IJ.r = AlJ.x
~r= ~xA'
ce qui se dmontre en appliquant les dfinitions. En particulier si A est une matrice uniligne, Y est alors une variable alatoire uni dimensionnelle. Si a' cette ligne Y = LaiX; et VeY)
j;;
"
Vile condtion ncessare el suffisante pOlir qu'une nwtrice 2: symtrique soit la matrice de variance d'll1l vecteur alatoire est que 2: soit LIlle matrice positive.
La rciproque s'tablit partir de la proprit classique suivante des matrices symtriques positives: Toute matrice symtrique positive :l: peut s'crire sous la forme 2: = TT' o T est dfinie une transformation orthogonale prs (si T convient, S = TV, o V est orthogonale, convient aussi; une solution particulire est fournie par T = 2: 1/2 = PA l/:!P/ o P est la matrice des vecteurs propres norms de T et A la matrice diagonale des valeurs propres). Il suftit donc de partir d'un vecteur alatoire X de matrice de variance 1, (par exemple un p-uple de variables indpendantes centres-rduites) et de faire la transformation Y = TX pour obtenir un vecteur alatoire de matrice de variance 2:. Si ~ est rgulire, c'est--dire si les composantes de X ne sont pas linairement dpendantes on peut trouver une transfonnation inverse qui nomlalse le vecteur X.
THORME
l
T
Si ~ est rgulire il existe une infinit de transfol11uztiolls linaires A, telles que Y = AX soit Wl vecteur de matrice de variance l
Il suffit de prendre A
=~I/l.
= T- 1
6._.\I",rr(3.llrs
89
= D 2 a pour esprance p.
En effet D 2
C1t!i!lllIll';C
de Mahalanobis de X IL.
Dfinitions et fonction caractristiqueX est un vecteur gallssien p dimensions si toute combinaison linaire de ses composantes a'X suit llne loi de Laplace-Gallss I.me dimensioll .
. Le thorme de Cramer-Wold pelmet d'tablr que la loi de X est ainsi parfaitement dter:mine. On remarquera que la normalit de chaque composante ne suffit nullement dfinir vecteur gaussien. La fonction caractristique de X s'en dduit aisment (on supposera ici que X est centr qui ne nuit pas la gnralit).
THORME
<p,(a)
= ex p(
-3: a'~a
) o
Les composantes d 'ml vecteur gaussien X SOllt indpendantes si et selileme1l1 si:k est diagonale, c'est-ii-dire si elles .lOTIt Hon corrles.
90
On notera Np CI1- ; :k) la loi normale p dimensions d'esprance 11- et de matrice de variance :L.
4.2 . 2
En effet Y ~-1/2(X - f.l) est alors un vecteur gaussien dont les composantes sont centres-rduites et indpendantes. Y a pour densit:
g(y)
" = il gCYi)
i=1
Il suffit alors d'appliquer la formule du changement de variable; le jacobien det ~t12 = (det ~)J/2 ce qui tablit le rsultat.
J vaut ici
c.
Les suriaces d'isodensit sont donc les ellipsodes d'quation (x - f-L)'~-I(X - f-L)
4.2 . 3
d'o: et:
91
La figure 4.1 reprsente quelques surfaces de densit correspondant cri = diverses valeurs de p ainsi que les ellipses d'sodensit dans le plan XJ, X2'
cr:!
= 1 et
(a)
(b)
(c)
Ellipses contenant 50 % et gO % des observations
FIGURE
4.1
92
4.2.4
x = [~:J
La matrice de variance-covariance se partitionne en 4 blocs:
~II [~21
Si
~I::!]
2:22
THORME
+ ~12~ll1
de matrice l'arallce-covarance :
2: JlI2 = ~II -
On constate donc que la rgression de XI en X 2 est linaire. Les termes de ~1l!2 s'appellent les covariances partielles cov U, j 12), desquelles on dduit les corrlations partielles: cov(i, j 12)
crii/'1 cr))12
Pij/2
il y a
4.2.5
De mme que pour des lois une dimension on peut tablir le rsultat suivant: Soit XI' X 2, , XII une suite de vecteurs alatoires indpendants de mme loi, d'esprance .... et de matrice de variance ~ alors :
THORME
93
4.3
4.3.1
lois du X2 (khi-deux)
;~;dpeJ1dcllltes,
DFINITION
2: Ur.
i=1
C'est donc la loi de la somme des carrs des composantes d'un vecteur gaussien centr et de matrice de variance l.
On en dduit immdiatement que la somme de deux variables Xl indpendantes :". pet q degrs de libert est encore une variable X::', P + q degrs de libert. La loi du X:! se dduit de la loi 'Y par une simple transformation. Prenons en effet un XT, c'est--dire le carr d'une variable de Gauss. D'aprs un rsultat tabli au chapitre 2, la densit de T V 2 est:
Puisque
r (2")
'd . on en de UIt que V : . = 'Y 111- 0 n a d lpropnete SUIvante: one a ' "
2"
PROPRIT
X~r 1
IE(X;')
=p
Densit: g(XJ,)
__1--,-..,.-ew
2PI2r(~)
A.
Fonction caractristique
Elle se dduit de cel1e de la loi 'Y :
(1-2il)1'/2
94
.500
.438 .375 1
.313,
.250
.188
.063
12
18
24
30
48
60
66
72
FIGURE
4.2
B.
f2X2 - ~2p -
= -'--------'-2
(approximation de Fisher)
xi, )1/3 + - - 1 ] 2 [( - p 9p
ffp
-=U 2
x~ =
1
(approximation de Wilson-Hilferty)
Cette dernire approximation, trs prcise, est correcte mme pour des valeurs faibles de p. On trouvera en annexe des formules exactes permettant de calculer la fonction de rpartition du X2 La table A 1.6 donne les fractiles de la loi de X1 jusqu' 100 degrs de libert. On peut donc en dduire ceux de la loi "'Ir pour des valeurs de r allant de 1/2 50 par demi-entier.
4.3.2
Formes quadratiques
Sous certaines conditions, des formes quadratiques dfinies sur des vecteurs gaussiens suivent des lois du X2. Ces rsultats sont fondamentaux en statistique dans les problmes de dcomposition de variance.
"_.\I",rrPllr~
95
THORME
l
L
,...r 2,
JI
1
I(X -,...)
Sl/it LIlle
loi du X;)
Considrons maintenant Y vecteur gaussien centr-rduit composantes indpendantes et cherchons la loi d'une forme quadratique gnrale Q = Y'A Y
fJ
2: aijYJj.
i=1 j=l
Nous allons tablr la forme de la fonction caractristique de Q ce qui permettra aprs de dduire dans quels cas Q suit une loi du X2
THORME
!.pQ(t)
= [det(I
- 2itA)r 1/2
_ Dmonstration
!.pQ(t) = E[expUtQ)] = E[expUtY' AY)]
crivons A = P' AP o P est la matrice orthogonale des vecteurs propres et A la matrice diagonale des valeurs propres ; de A :
l'
Y' A Y
2:]Z]
];1
en posant Z
PY
P tanL orthogonale Z est encore un vecteur gaussien centr-rduit composantes indpendan tes.
Donc:
or or si
!.pQ(t) =
rIo ]=1
fl
2i/)-1/2
2i1A, donc:
II Cl
j=l
1)
On peut galement donner la dmonstration suivante plus directe mais utilisant des gaussiennes complexes.
96
_ Dmonstration
E[exp(itY' AY)] =
exp(ity' AY)g(y) dy =
(Hi'
J~l'
=_1_ , 1
(2'iT)fJ - !R"
exp(-!yl(I - 2itA)Y) dy
2
Or si l'on considre une loi gaussienne de matrice de variance 2: = (1 - 2itA)-1 sait que:
l
THORME
IR}' (21T)pJ2
(1
,)
..
l
L
Q = yi AY suit une loi du X2 si et seulement si A est un projecteur orthogonal, c'est-tl-dire si Al = A. Le rang de A est alors le degr de libert dll X.2.
En effet si A2 = A 'A) = 0 ou 1 et 'Pa(t) est la fonction caractristique d'un x.~. La rciproque est alors immdiate.
= O.
.. Dmonstration
<f>QIQPI,
(2)
= E[exp(it,QI
Comparons cette expression au produit des deux fonctions caractristiques de QI et Q2' <f>QI(tI)<f>Q/!2) = (det(I - 2if,A,) det(1 - 2it l A::)r l12 = [det(I 2itlAI - 2it"J.A"). 4t,f l A I A 2)]-1/2 on aura <f>QI(tI)<f>Q!(t2) = thorme.
'PQIQ~(tlt"J.) Vtlt").
Nous pouvons enfin noncer le rsultat le plus important concernant les fonnes quadratiques qui gnralise la proprit d'additivit du x. 2 :
''.':::A_.V:.,rrE~UI::'
97
LlF:(:')RE:ME DE COCHRAN
k p
Soient QI. Q2' ... , QI.-. k formes quadratiques sur Y telles que 2:Qj
j=1
= Y'Y
;=1
l:Yl
ctest--dre ralisant tlne dcomposition du carr de Iwnne de Y. Alors les tros conditions suivantes sont quivalentes:
2: rang (Qj) = P ;
1
Ce thorme n'est que la version probabiliste d'un thorme classique d'algbre linaire k que voici. Soit k motrices symtriques AI> Al' .
0 0'
2: rang Ai = P ;
Vi;
pour
II
. ...;... J. .
La dmonstration, sans difficult, est laisse au soin du lecteur. Gomtriquement ce thorme est une extension du thorme de Pythagore et de sa rciproque la dcomposition d'un vecteur et donc de son carr de norme, sur des sous-espaces deux deux orthogonaux. L'orthogonalit est ici synonyme d'indpendance pour des vecteurs gaussiens.
4.3.3
Cette loi, lie au rapport de deux formes quadraLiques indpendantes joue un grand rle en statistique (loi du rapport des variances de deux chantillons indpendants par exemple). X et Y tant des variables suivant indpendamment des lois
F(n ; p) =
X;' et xl"
on dfinit:
X/Il Y7P
La densit de F s'obtient aisment par transformation de celle d'une bta II car X/2 et Y/2 suivent des lois 'YIII2 et 'Yp /2 :
g(.f)
= -(-11-1-1) (
B-;2 2
et
(~rf'"'-l
11
1+-}
p
j(!I+ P )/2
11
P E(F) = - -
p-2
V(F) = 2 - - - - - - Il (p - 4)
p2
'J
98
Cette loi est tabule en annexe ce qui permet d'obtenir les distributions des lois bta 1 et bta II ; on a en effet les relations suvantes :
si l' suit une loi bta II(n, p), alors p y est un F(2n, 2p) ;
Il
alors!!..~ Il 1 - X
4.3.4
loi de Student
Soit une variable alatoire U suivant une LG(O, 1) et X une variable alatoire suivant indpendamment de U une loi X~. On dfinit alors la variable de Student Til 11 degrs de libert comme tant :
On a:
E(T,,) = 0
V(Tl!)
J.L3
/-L4
si
IZ
>
= -n-2 =0
si
Il
11
sin> 2
>3
si si
11
= (n
"(-, = 3
-
2)(11 - 4)
>4
4
+-11 - 4
11
>
Pour 11 = l la loi de Student est la loi de Cauchy, loi du quotient de deux variables ala- : ' toires de Laplace-Gauss indpendantes, dont la densit est:
1
J(t) = 1T(l
t
~I
est:
.lU)
=_ f-
'JllB -, -
(1 Il) ( 1 + - 2)<1/+
t
[)/2
2 2
11
LGCO; 1), ainsi que l'expression des moments le laissait supposer. On a la relation suivante entre les variables de Student et de Fisher-Snedecor :
99
DA
0.3
0.2
0.1
0
-5
-4 4.3
-3
-2
-1
FIGURE
On remarquera le comportement particulier de la loi de Cauchy TI' qui a des queues de distribution trs importantes:
P(ITd >
4.4
2)
0.29
4.4.1
il
FIGURE
4.4
100
On rpte alors indpendamment Il fois l'exprience alatoire et on compte les nombres de ralisations respectives des Ai : NI' N'J. .. " N", Le vecteur alatoire (discret) (NI. N2, , N k) suit alors par dfinition une loi ............ ,V .lU.:.l11: d'effectif 11 et de paramtres Pl. P2 ... , PI;' Ce schma se produit en particulier dans des problmes de sondages: une population est partage en li. catgories et on tire avec remise n individus ~ on compte ensuite les effectifs de cet chantillon appartenant aux diverses catgories. On l'observe galement lors du dnombrement des ralisations d'une variable alatoire X: L'ensemble des valeurs de X est partag en k dasses de probabilits Pi et on compte sur un ensemble de 11 individus les nombres d'individus appartenant chacune de ces dasses (fig. 4.5) : la dmarche utilise pour construire un histogramme, voir chapitre 5).
~x)
Pt
P2
x
FIGURE
4.5
Par construction, les composantes NI' N:., ... , Nk du vecteur multinomial sont linairement dpendantes:
2: Ni =
i=]
11
et on a bien sr 2:Pi = 1.
i=]
Chaque composante Ni suit une loi binomiale fJ3(1l ~ Pi) donc E(Ni )
V(N j ) np/l -
= npi
et
pJ
fJ3('1 -
~ ~. 1 - Pj
11 suffit de remarquer que tout se passe comme si il restait tirer Il - nj individus dans une population li. - 1 catgories: la catgorie Aj tant limine la probabilit conditionnelle d'observer
A/Aj vaut
Pj
101
4.4.2
f1.=
Pour tablir la covariance entre N; et Nj il suffit de remarquer que le vecteur multinomial . est une somme de Il vecteurs indpendants de mme loi que le vecteur X = (Xl' X 2 , . . , X,,) tel que Xi = 0 ou 1 avec les probabilits 1 - Pi et Pi ; un seul des X; tant nul. Les Xi sont les indicatrices des caLgories Al' A 2 , . . . , AI,: pour un des Il tirages. On a alors E(XiXj ) = 0 si i
-E(Xi)E(Xj ) = -P;Pj"
"* j
-PIPk
-P21h
Il
Cette matrice n'est pas rgulire car ~Ni = colonnes sont nulles). = 1
Il
4.4.3
00
D'aprs le thorme central limite multidimensionnel. comme (NI' N 1 somme de Il vecteurs alatoires indpendants et de mme loi, on a :
" " .,
Nk ) est une
102
La loi limite est dgnre (elle n'admet pas de densit) car L(N; - l1Pi) =
1
o.
Cependant si l'on supprime par exemple la dernire composante on a alors un vecteur limite gaussien non dgnr et :
X=
'Ill
o:.:E* s'obtient en supprimant la dernire ligne et la dernire colonne de l:. Par une simple vrification on trouve:
1 1) ( -+PI lh 1
lh
1 1) - (P1+Pk
1 1) (-+P/.:-I Pk
Ih
En dveloppant on a :
k-'(N. = ~ J
i= 1
npi
IIp-f- +
!
k-I
car
2: Ni =
1
/.:-1
n - Nk et 2211Pi =
;"'" 1
Il -
IlP",
-=
103
Il vient donc:
Ce rsultat capital est la base du test du khi-deux permettant de comparer une distribution d'observations NI, N'l' ... , N k une distribution thorique de probabilits Pl' lh, ... , th (voir chapitre 14, paragraphe 14.6.2.1).
4.5
4.5.1
Loi de Wishart
DFINITION
Une matrice M (p, p) Cl une distribution de Wishart ~J(ll ; ~) si M pel/t s'crire M = X'X o X est une matrice (n, p) alatoire dfinie de la faon suipanle : les Il lignes de X sollt des vecteurs alatoires gaussiens de mme loi NpC0 ; ~) indpendants.
X reprsente donc un chantillon de n observations indpendantes d'une loi normale multidimensionnelle. Nous allons voir que cette loi gnralise d'une cerlaine faon la loi du X2 . Si p = l on a en effet:
WI(n ; cr2 ) = (j2X?t
LX l
i=1
Il
II
j;J
IT1lP(p+l)/2
tr
104
On note galement que la fonction caractristique de la loi de Wishart ~~ll1 ; 2:) est: E[exp (iTM)] o T est une matrice (p, p), Rappelons que la fonction caractristique d'un X~ est <P.t~(t) = (1 - 2it)-IlI!, On a: E(LVI) = 112:
= Il -
iT2: /-1111
et
si
Il -
P -
>
a'Ma a/2:a
a'1\IIa
En effet on vrifie sans peine que a'Ma est une matrice de Wishart W,(1l ~ a'2:a) car a'X'Xa o Xa suit N,(O ; a'2:a).
1 01
' ' ' 'l' A n peut montrer egalement, mats 1a demonstratlOn est de lcate, que a,'i: -1 a -1
X~-p+"
"l
aM a
SUIt
. une
Soit x un vecteur alatoire (de loi quelconque) indpendant de IVI alors: et suivent les lois X~ et X~-p+ 1 respectivement et sont des variables indpendantes de x. a'Ma et b'Mb sont indpendantes si a'i:b = O.
4.5.2
La loi du Tl de Hotelling
Cette distribution gnralise celle de Student (ou plutt son carr). C' est celle d'une variable unidimensionnelle.
DFINITION
Soit x lm vecteur alatoire normal Np(O ~ 1) et M llne matrice de Wishart ~,(1l ; 1), 1zdpendallte de x ; a/ors la qUlIntit llx'M- 1x suit par d4finitioll une loi du Tl de Hotelling de paramtres p et Il.
105
PROPRIT
Si x sut une loi Np(fL ; 2;) et lVI une loi de Wishart indpendante de x M'p(n ; 2;) alors n(x - fL)'lVl- 1 (x f.1) suit une loi ~~(n).
La dmonstration vidente utHse la transformation de Mahalanobis y et le fait que 2;-I/:::M~-I/:! est une W/n ; 1,,).
2;-lI:!(X - fL)
1lx/lVl- I x suit ce qu'on appelle une loi de Hotelling dcentre ~~(n, :2) o :2 est le paramtre de dcentrement.
= fL'2:f.1
')
np
JI -
1 F(p ; Il
1)
x N,,(O ; 1) :
1 indpendant
'l T ;;(/1 ) =
Jl - : : : - XII-f/+I
11 degrs de libert.
NOlons que:
E(T,;(n))
.,
= n-p-
np
4.5.3
Cette loi joue un grand rle en ;malyse de variance multidimensionnelle o elle gnralise celle de Fsher-Snedecor : elle concerne les rapports de variance gnralise qui sont des dterminants de matrices de Wishart. A est une variable unidimensionnelle.
DFINITION
Soit A et n deux matrices de Wishart Wp(m ; 2;) et WpCn ; 2:) indpendantes o alors le quotient:
lJl
p,
1 - - - - - = 1\ lA-lB + Il .
a une distribution de lVi/ks de paramtres p, nt et Il, A( p, dpend pas de 2;).
111.
106
A
A(p, m,
Il)
II (l
i""l
11
ei)-l
et A(n, m
+ Il
A(p,
Ill,
1)
m-p+1
Il
F(p ~
111 -
1)
= - F(n; m)
JJl
2)
-lA(p, m, 2)
1 - -JA(2,
Ill,
p = - - - - 1 F(2p ; 2(m - p
111
1)
r)
= --F(2n; 2(m - 1)
Il
111-1
[/II - ~ (p -
Il
1)] ln
A(p,
Ill,
/1) =
X~/
DEUXIME PARTIE
1Statistique exploratoire
Description
unidimensionnelle de dorlnes ,. numerlques
La plupart du temps les donnes se prsentent sous la forme suivante : on a relev sur n units appeles individus p variables numriques. Lorsque Il et p sont grands on cherche synthtiser cette masse informations sous une forme exploitable el comprhensible. Une .. "premire tape consisre dcrire sparment les rsultats obtenus pour chaque variable: c'est la description unidimensionnelle, phase indispensable, mais insuftisante (voir chapitre suivant), dans toute tude statistique. On considrera donc ici qu'on ne s'intresse qu' une variable X, appele encore caractre, dont on possde Il valeurs XI' Xl, . , XIf' La synthse de ces donnes se fait sous forme de tableaux, de graphiques et de rsums numriques. C'est ce que l'on appelle couramment la statistique descriptive )j dout l'usage a t considrablement facilit par l'informatique.
5.1
TABLEAUX STATISTIQUES
S.1.1
Pour chaque valeur ou modalit Xi de la variable on note 1li le nombre d'occurrences (ou effectif) de Xi dans l'chantillon,kl1i = 1l,etfr la frquence correspondantefr = n/11 (on utilise en fait Je plus souvent le pourcentage lOOfr.). Le tableau statistique se prsente en gnral sous la forme:
_ Exemple 1 : Le recensement gnral de la population franaise en 1999 donne la rpartition des 23 810 161 mnages, selon la variable X nombre de personnes du mnage.
Rappelons qu'un mnage est compos de toutes les personnes habitanl normalement dans un Jogement, quels que soient leurs liens de parent. Les mnages sont donc ici les individus ou units statistiques.
110
TABLEAU
Nombre de personnes
1 2
3
4
16.2 13.8
5
6 et plus
5.5
2.4
..
j=l
5.1.2
On regroupe Iesvaleurs en k classes d'extrmits eo, el' ... , C\ et l'on note pour chaque classe lei ~ h ei] l'effectif l1i et la frquence.t ainsi que les frquences cumules Fi ou proportion des individus pour lesquels X < ei' Le tableau statistique se prsente en gnral comme suit:
L.t,
fi
]
Ville Taux tuxe Zone d'habitation Gographique
Par convention, la borne suprieure d'une classe est toujours exclue de cette classe.
_ Exemple 2 : Le magazine Capital a donn pour 100 villes franaises les valeurs du taux de la taxe d'habitation.
TABLEAU
5.2
Ville
Aix-en-Provence Ajaccio Amiens Angers Annecy Antibes Antony Argenteuil Arles Asnire!Hiur-Seine
18.94
22.06 17.97 18.86 14.97
Sud-Est
Sud-Esl
Aubervilliers Aulnuy-sous-Bois Avignon Beauvuis Belfort Besanon Bziers Blois Bordeaux Boulogne-Billancourt
16.:!O
20.20
14.30
11.07 16.90
Est
Sud-Ouest Centre Sud-Ouest lIe-de-France
22.14
17.07
24.49
10.13
22.11
9.46
111
Ville
Ville
Bourges Brest Brive-la-Gaillarde Caen Calais Cannes Chalon-sur-Saone Chambry Champigny/Marne Charleville-Mzires Chteauroux Cholet Clermont-Ferrand Colmar Colombes Courbevoie Crteil Dijon Drancy Dunkerque Evreux Forncnay-sous-Bois Grenoble Ivry-sur-Seine La Rochelle La Seyne-sur-Mer Laval Le Havre Le Mans
Centre Ouest Centre Ouest Nord Sud-Est Centre Sud-Est lIe-de-France Est Centre Ouest Centre Est lIe-oe-France Ile-de-France I1e-oe-France Centre lIe-de-France Nord Ouest lIe-de-France Sud-Est Ile-de-France Centre Sud-Esl Ouest Ouest Ouest Nord Centre Ouest Sud-Est
Maisons-Alfort Marseille Mrignac Melz Montauban Montpellier Montreuil Mulhouse Nancy Nanterre Nantes Neuilly-sur-Seine Nice Nimes Niort Noisy-le-Grand Orlans Paris Pau Perpignan Pessac Potiers Quimper Reims Rennes Roubaix Rouen Rueil-Malmaison Saint-Denis Saint-Etienne St-Maur-des-Fosss Saint-Nazaire Saitll-Quentin
Ile-oe-France Sud-Est Sud-Ouest Est Sud-Ouest Sud-Ouest tle-de-Fnmce Est Est Ile-oc-France Ouest Ile-oc-France Sud-Est Sud-Ouest Centre Ile-oe-France Centre lIe-de-Fnmce Sud-Ouest Sud-Ouest Sud-Ouest Centre Ouest Est Ouest Nord Ouest He-de-France Ile-de-France Sud-Est lIe-de-France Ouest Nord
16.62
12.n
21.40 13.67 16.65 18.21 6.13 21.13 3.68 19.75 30.13 I9.IY 16.91 10.05 9.15 21.31 15.87 10.71 11.55 16.67 14.98 21.75 17.97 20.97 14.93 9.17 19.90 10.81 16.36 10.46
15.85 16.31
14.16 4.86 17.58 18.75 10.42 28.69 11.17 12.10 19.43 9.16 18.75 25.98 19.48 17.67 17.54 36.17 17.24 16.74 19.09
Lille
Limoges Lorient Lyon
112
Ville
Zone
Gograph<)ue lIc-de-France Ilc-de-France Est Sud-Est Sud-Ouest
Nord
Ville
Zone
Gographique Est Sud-Est Sud-Est lIe-de-France Nord Sud-Est Hc-de-Francc
,
...
Centre
On ndduitpour la variable taux de taxe d'habitaton, Je tableau SUIvant obtenu aprs '''',. en classes d'amplitudes gales 5, qui permet dj de mieux comprendre le phnomne: on voit clairement une concentration des valeurs (84 %) dans l'intervalle [10 ; 251.
TABLEAU
5.3
'.
point Classe Limite Limite Effectif Frquence Effectif Frquence cumul infr. supr. central cumule
l
2 3
4
5 6 '7
8
25.0
30.0 35.0
6 17 47 20 5 2 1
8 25 72
92 97 99 100
5.2 5.2.1
Pour des variables qualitatives modalits non ordonnes, il existe une grande varit de diagrammes. Les plus rpandus sont: les diagrammes en barres (verticales ou horizontales) : les barres sont de longueurs proportionnelles aux frquences des catgories, leur paisseur est sans importance. Les camemberts (en anglais pie-chart) : chaque catgorie est reprsente par une portion de superficie proportionnelle sa frquence.
113
18.00%
10.00%,
14.00%
ml Centre D Est []] lIe-de-France IS'] Nord D Ouest lEI Sud-Est El Sud-Ouest
FIGURE
5.1
centre~.~~
Est
lIe-de-France Nord Ouest
Sud-Est
Sud-Ouest
10 15 20 25 30
Pourcentages
FIGURE
5.2
Pour des variables numriques discrtes, on utilisera de prfrence un diagramme en barres verticales comme celui-cl:
40
(Il
ID
30
ra
01
20
:::l
a.. 10
O~
____________________________________________ 1""",~",,,i~;l::2: 1
2
3
FIGURE
6 et plus
5.3
114
5.2.2
Histogrammes
Analogues la courbe de densit d'une variable alatoire, un histogramme est un graphique barres verticales accoles, obtenu aprs dcoupage en classes des observations d'une variable continue. La surface de chaque barre, encore appele tuyau d'orgue, doit tre proportionnelle la frquence de la classe. Pour des classes d'gale amplitude, la hauteur de chaque barre est proportionnelle la frquence. Voici quelques histogrammes de la distribution des taux de taxe d'habitation: tous ont pour proprit que la surface sous l'histogramme vaut 1.
60
U'}
50
1/) (1)
50
.$ 40
ai 30
ID
40
Cl
"1 3O
a 20 a..
H
5 20
a.. 10
0 0 10 20 30 40 0 10 20 30 40
Taux de taxe d'habitation Taux de taxe d'habitation
0
ID
10 0
50
1/)
50
1/)
~ 30
ID O'l
40
40 30
ID
~
C
Cl
5 20
a.. 10
0
ID
(])
~ 20
0
a.. 10
0 10 20 30 40 0 0 5.3
bis
10
20
30
40
brouille )) l'information.
La dtermination du nombre de classes d'un histogramme est dlicate et on ne dispose pas de rgles absolues. Un trop faible nombre de classes fait perdre de l'information et aboutit gommer les diffrences pouvanl exister entre des groupes de l'ensemble tudi. En revanche un trop grand nombre de classes aboutit des graphiques incohrents : certaines classes deviennent vides ou presque, car 11 est fini. On peut d'ailleurs critiquer le fait de reprsenter par une fonction en escalier la distribution d'une variable continue: l'histogramme est une approximation assez pauvre d'une fonction de densit et il serait plus logique de chercher une fonction plus rgulire. La thorie de l'estimation de densit permet de proposer des solutions ce problme (voir chapitre 13, paragraphe 13.9.3). Une estimation de densit calcule pour 100 abscisses par la mthode du noyau (ici un noyau cosinus avec une largeur de fentre gale 60 % de l'tendue) fournit une information plus claire, et la forme de la courbe suggre une distribution gaussienne.
_n~ .. ,. .. inf'IQn
115
0.08 0.06
'(i)
~
c
(J)
0.04 0.02 0 0
10
20
30
40
5.4
M.eux qu'un histogramme. une courbe de densil estime permeL des dlecter des modes multiples, correspondant des mlanges de distribution (donnes provenant de plusieurs populations diffrentes).
5.2.3
Ce diagramme, introduit par J.W. Tukey, est une reprsentation synthtique extrmement efficace des principales caractristiques d'une variable numrique. Il en existe plusieurs variantes, mais celle dcrite ci-dessous est la plus complte. La bote correspond la partie centrale de )a distribution ; la moiti des valeurs comprises entre le premier et le troisime quartile QI et Q1 (voir plus loin). Les moustaches s'tendent de part et d'autre de la bote jusqu'aux valeurs suivantes: gauche jusqu' QI - 1.5(Q3 - QI) si il existe des valeurs encore plus petites, sinon jusqu' la valeur minimale; droite jusqu' QI + 1.5(Q3 QI) si il existe des valeurs au-del, sinon jusqu' la valeur maximale. Les valeurs au-del des moustaches repres par des * sont des valeurs hors nonne ventuellement suspectes ou aberrantes mais pas ncessairement. Ainsi le diagramme en bote moustaches montre clairement l'existence de points atypiques pour le taux de taxe d'habitation, ici 3 valeurs trs basses, et 4 valeurs trs leves. Il devient alors intressant d'identifier les individus correspondants.
Bote moust;1ches
10
20
FIGURE
30
40
5.5
116
Un autre grand intrt de ces diagrammes est de pouvoir faire facilement des comparai_ sons entre sous-groupes de donnes: il est plus simple de comparer des diagrammes en bote que des histogrammes. La figure suivante pennel de comparer les distributions du taux taxe d'habitation selon la rgion:
40
30
20
"""'""fd
__________________________________________
@
10
o~
ID
"E o
Z
ID
ID :::J
FIGURE
5.6
5.2.4
Courbe de concentration
Apple galement courbe de Lorenz, elle est utilise principalement en staustlque conomique pour tudier les ingalits de rpartition d'une grandeur positive cumulable (revenu, chiffre d'affaire, ... ) (fig. 5.7).
G
2"
o
FIGURE
1 F
5.7
lIB Exemple: Soit une distribution de revenus X et soit M la masse totale des revenus. A chaque valeur du revenu X, on associe un point de coordonnes F(x) en abscisse: proportion des individus gagnant moins de x et G(x) en ordonne o G(x) reprsente la proportion de Ivl correspondante, c'est--dire le rapport:
117
Cette courbe est toujours en dessous de la premire bissectrice car F(x) > G(x) pour une distribution non dgnre: il suffit de remarquer que les individus qui gagnent moins de x, qui sont donc en proportion F(x), ne peuvent gagner globalement autant que les IOOF(x) % suivants. La mdiale ,lU est la valeur de la variable qui partage en deux la masse totale de la variable. On a donc: Mdiale> Mdiane
5.2.4.1
Proprits mathmatiques
Supposons connue la distribution thorique de X de densitf(x). L'abscisse d'un point de la courbe est:
F(x) =
L'J(t) dt
L'yU) dt f"I.f(t) dl
Si X est une variable qui prend ses valeurs entre Xmin et xma )( la courbe de concentration est
- = .t(x)
dx
q
dF
= ~lx
111 x"''"
fU) dt
dq dx
= ~ xfex)
nl
On a:
dq dF
= dl]
dx dx dF
= .=:
111
On remarque que - = 1 si x = m. dF La courbe possde alors une tangente parallle la premire bissectrice. Aux extrmits du carr les pentes des tangentes sont Si X varie de 0 ''X, en particulier, les pentes sont 0 et verticale l'arrive).
Xmill
dq
et Xma;l respectivement.
JJ1
00
5.2.4.2
Plus la distribution de X est ingalement rpartie, plus la courbe s'loigne de la premire bissectrice (distribution ultra concentre: cas o les 9/10 des individus reprsentent moins de 1/10 de la masse et o le 1/10 restant concentre la quasi-totalit de la variable).
118
Un indice de concentration propos par Gini est Je double de la surface comprise entre courbe et la bissectrice (Hg. 5.8).
C ,-----------c== B
o
FIGURE
5.8
G
G
= aire OEBA
o ()
- aire ODBA ;
= llFdq -l'qdF;
L:"
F(x)xf(x) dx -
111 L:"q(X)f(X)
dx
mG =
L:xf"
Comme
iL:"f.
X
_>: _::<:
IJ+::<:f"" (y + 2:
_>:
- x)j(x)j(v) dx d)'
Soit:
mG =
'1J+:::J+>: lx 2
y !f(x)f(y) dx dy
l :2 ~I
119
G=-
.6.,
2m
d'o:
= --"-----n(n -
1).I
5.3
RSUMS NUMRIQUES
Il est indispensable en gnral de rsumer une srie d'observations par des indicateurs typiques dont le plus connu est la moyenne arithmtique. II est cependant toujours insuffisant de rsumer une srie par un seul indicateur. Voici une liste typique de rsums numriques pour la variable taux de taxe d'habitation
TABLEAU
S.4
Effectif Moyenne Mdiane Variance cart-type Minimum Maximum tendue 1'''[' le 3 e quartile Intervalle inter-quartiles Asymtrie Aplatissement Coef. de variation
100 17.7707 17.625 30.2707 5.5019 3.68 36.17 32.49 15.035 20.585 5.55 0.368299 4.46798 31.1164 %
120
5.3.1
Il s'agit en quelque sorte de dfinir une valeur c autour de laquelle se rpartissent les observations (fig. 5.9). Les plus usites sont la mdiane, la moyenne arithmtique et le mode.
.. ..
5.3.1.1
La mdiane
1:
FIGURE
5.9
C'est la valeur M telle que F(M) = 0.50. SI les observations sont ranges par ordre croissant M x(n 1)/2 pour Il impair. Si Il est pair on prendra conventionnellement:
Lorsque l'on ne connait qu'une rpartition en classes (situation viter mais que l'on rencontre si l'on travaille sur des documents rsultant d'un traitement pralable) on cherche la classe mdiane [Ci 1. e,J telle que:
F(ei- 1)
< 0.5 et
F(ej)
> 0.5
M=e/ - I + a -j; - 1
L'interpolation linaire revient supposer une distribution uniforme l'intrieur de la classe mdiane. La mdiane est un indicateur de position insensible aux variations des valeurs extrmes (elle ne dpend en fait que des valeurs centrales de l'chantillon tud) mais n'a que peu de proprits algbriques.
0.5 -
5.3.1.2
La moyenne arithmtique
l
X= -
2: X;
Il
ou
:x = 2: PiJ: i
i= 1
1/
J1 i=1
2: j;c;
i=1
avec
Ci
La moyenne arithmtique est fonction de toutes les observations mais est sensible aux valeurs extrmes: c'est un indicateur peu robuste bien qu'universellement utilis.
121
5.3.1.3
Le mode
Valeur la plus frquente pour une distribution discrte; classe correspondant au pic de l'histogramme pour une variable continue. Sa dtermination est malaise et dpend du dcoupage en classes. Pour une rpartition parfaitement symtrique on a : Moyenne = mode = mdiane
5.3.2
Caractristiques de dispersion
Plus encore que la tendance centrale, la dispersion est la notion cl en statistique car si tous les individus avaient la mme valeur il n' y aurait plus de raisonnement statistique ...
5.3.2.1
5.3.2.2
IQ3 -
L'intervalle interquartile
Les quartiles QI, Q2' Q3 tant dfinis par FCQI) = 0.25 F(Q2) = 0.50 et F(QJ) 0.75, QI! est un indicateur parfois utilis pour mesurer la dispersion: il est plus robuste que l'tendue.
5.3.2.3
= - '2:(Xi
Il i=1
Il
X)2
ou
L'cart-type s s'exprime dans la mme unit que la variable tudie. s Le coefticient de variation exprime en pourcentage le rapport =. Il n'a de sens que si x> O. x On a les formules suivantes:
- 2,;X f - (x)Il
1~
s:!
=! '2:(Xi
Il
Ces deux formules ne prsentent d'intrt que pour des calculs la main sur des petites sries et doivent tre prohibes pour des calculs automatiques sur des grandes sries, les sommes de carrs pouvant conduire des dpassements de capacit ou des pertes de prcision.
122
Il
L'algorithme suivant permet de calculer la somme des carrs des carts SC la moyenne valeurs par ajustement progressif: chaque nouvelle valeur .\j introduite entrane une moditica_ tion simple et positive de la somme des carrs calcule pour les j 1 valeurs dj introduites: SC = 0
SC
d'o quandj
Il,
= SC + j(j
T)2
Till el S2 = SC/n.
5.3.3
Xi
Nous pouvons considrer qu'une valeur centrale c doit tre proche de ('ensemble des 1 Il 1 et minimiser une fonction du type - Ld(c; Xi) o cl est un cart. D = - Ld(c; xJ dfinit
"i=1
Il
alors une mesure de dispersion des observations autour de c. Le choix d'une certaine forme analytique pour d entrane alors l'usage simultan d'une mesure de tendance centrale et d'une mesure de dispersion cohrenles :
si d(c;
Xi)
= (c -
~ 2:lxi - MI.
x=
chercher une valeur centrale c revient chercher une variable constante c'est--dire un vecteur:
1
=c
= cl
123
le plus proche possible de x au sens d'une certaine topologie. En munissant ~l! de la mtrique euclidienne usuelle, sur ~ (fig. 5.10).
FIGURE
5.10
5.3.4
Caractristiques de forme
Elles sont utiles notamment pour vrifier rapidement le caractre normal d'une distribution (on sait que le coefficient d'aplatissement thorique de la loi normale est 3) : coefficient d'asymtrie: 1'1 = 1Il]/::;3 ; coefficient d'aplatissement: 1'2 1114/~,4;
o
J1l3
= 1 2:(x;
Il
- X)3 et /114
= ~ 2:CXj 11
X)4.
Les notations ne sont pas universelles et 1'1 est pmfois not auteurs utilisent 1'2 - 3.
Description
bidimensionnelle et mesures de liaison entre variables
Aprs les descriptions unidimensionnelles on tudie gnralement les liaisons entre les variables observes: c'est ce que l'on appelle communment l'tude des corrlations. Les mthodes et les indices de dpendance varient selon la nature (qualitative, ordinale, numrique) des variables tudies.
6.1
couples
x=
y=
XII
_ Il
6.1.1
Afin d'examiner s'il existe une liaison entre X et Y on reprsente chaque observation i comme un point de coordonnes (Xi, Yi) dans un repre carlsien. La forme du nuage de points ainsi trac est fondamentale pour la suite: ainsi la tigure 6.1 montre: a) une absence de liaison; b) une absence de liaison en moyenne mais pas en dispersion; c) une corrlation linaire positive; d) une corrlation non linaire.
126
y~.
~
x
(a) (b)
x
(c)
FIGURE 6.1
x
(d)
_ On dit qu'il y a corrlation si il y a dpendance en moyenne: X = x fix la moyenne y est fonction de x. Si cette liaison est approximativement 1inaire on se trouve dans le cas de la corrlation linaire. Rappelons que la non corrlation
n~est
6.1.2
Ce coefficient dit de Bravais-Pearson}) mesure exclusivement le caractre plus ou moins linaire du nuage de points.
6.1.2.1
Dfinition
ST
et y :
s-: = \
-
L( ". - - , v)/1
~
Il i== 1
1/
De mme que pour p (voir chapitre 3) dont il est la version empirique: -1 $' r::; l et 1 ri = l est quivalent l'existence d'une relation linaire exacte: lL\; + bYi + C 0 "iIi. Si l'on considre dans l' espace ~" les deux vecteurs :
XI -
X
X
'\'1 - y
)'2 -
X2 -
et
XJI
YII -
r est le cosinus de l'angle form par ces deux vecteurs comme un calcul lmentaire le montre, d'o ses proprits.
127
..
.0. ::.
A .:.
rA=0.BB2 r9=O,951
..
.. ..
"
B
r=0.778
r=O
.. 0
DO:
..
.....
0
.....
"
"
""
rA 0.913 r6=0.956
" " ..
..
""
C "".0
rc =0.899 ro=0.915
r=0.626
r=0.981
FIGURE
6.2
Les 4 nuages de la figure 6.3 ont mmes moyennes, mmes variances et mme coefficient de corrlation :
x
r
= 9
7.5
10.0
0.82
s~ = 3.75
128
V;:Jrl~I'\JI~":C('1~"!
10
..
..
....
10
..
..
..... ..
15
20
..
.......
FIGURE
6.3
Notons pour finir que la corrlation n'est pas transitive: x trs corrl avec y, y corrl avec z, n'implique nullement que x soit corrl avec z.
6.1.2.3
Lorsque l'on observe les valeurs numriques de p variables sur en prsence d'un tableau X 11 lignes et p colonnes: 2 2
j ... p
individus on se
X=
-.-j
11
sur le i me individu.
129
A est la matrice
au:= 1
Il
n de terme gnral:
,
11
a IJ ..
= -Il
si
'* j.
..,
Si
Sl2
SIl'
S2
S1p
V=
o:
= - Y/Y.
11
La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :
R=
En posant:
On a R
= DI!s VDI/.,'
R est identique la matrice de variance-covariance des donnes centres et rduites. R rsume la structure des dpendances linaires entre les p variables. Comme V, R est une matrice symtrique positive.
130
Vrlr'I:I"'I"'ft;;,)!,~,
II1II Exemple: Les rsultats suivants concernent 6 variables du tableau de donnes au chapitre 17 et donnant pour 18 vhicules des caractristiques techniques.
ugIUfanf@!
Il -
1 en dnominateur:
On constate que toutes les variables sont corrles positivement, avec certains COi~ttlcii~nt:~' trs levs : il existe donc une forte redondance entre les variables, ce qui conduit phnomne dit de multicolinarit (voir chapitre 17). La tlgure suivante, appele matrice de dispersion. est trs utile: elle permet en un graphique de juger des liaisons entre toutes les variables.
.
cylindre
... :.-.
.......
~
,,::
.... :t
:-" :
..... ....
41.
_S
i .. :.
1
il
.1,,'"
a. -.-
41 :
~..
;.
.. .
~
pUissance .""... _
"
.1-
.,., :
1 _ .a, . '
.. .
..
. . :. . . .
Il
~ : _ ..... longueur
..
.......
.:-.,..
....
.. .. "," ..... , ",," .. .. eI',;...... ::. . . - :. ..". .... .. . .. ...... -.. ....-. . .. .: ..
........
"
.... .....
.!
largeur
a.
.. 'IF"
" ,p":
.....fJA
. . . . ...
.
1
l'.
poids
..:,. ..."
"
..
. ... ".
II'
'"..
..
..
vilesse
FIGURE
6.4
Matrice de dispersion
n~rr"l:nrl("~n
131
r=::::::R=::::::~n
=0:
fer)
2) B (1 .- 2' 2
Il -
(l -
1'2)<11- -HI:!
Pour Il = 4, on remarquera que R suit une loi uniforme sur [ -1, 1] et donc que toutes les valeurs possibles sont quiprobables. On a: Pour Il > 100, la loi de R est approxime de trs prs par une loi de Laplace-Gauss:
LG(O;_~)
"'Ill -
Sinon la loi de Rest tabule, Table A.9. Ainsi au risque 5 % on dclarera qu'une liaison est significative sur un chantillon de 30 observations si 1 ri > 0.36. On remarquera que le seuil de signification dcrot quand Il crot; le fait de trouver que r diffre significativement de 0 ne garantit nullement que la liaison soit forte (voir chapitre 16). Lorsque p est diffrent de zro la loi exacte de R bien que connue est trs difficilement exploitable on notera cependant que:
E(R)
P _ p(l
211
p2)
VeR) = _(1_---'-_ Tl - 1
132
La figure 6.5 donne les distributions d'chanlillonnage de r pour diffrentes valeurs de p~ avec Il = 10. On ne peut pas faire directement une approximation normale. On utilisera plutt Je rsultat suivant conduisant une approximation correcte ds que Il > 25.
3
-1
-0.5
o
FIGURE
0.5
6.5
+ -ln - 2 l-R
1 (1
R)
II-X
(1 1
1)
Z est la transforme de Fisher de R (table A.10). On notera que VeZ) est indpendant de p. Cette transformation permet de tester des valeurs a priori pour p et de trouver des intervalles de confiance pour p partir de R. On peut galement utiliser l'abaque fourni en annexe
(table A 1.9 bis). Lorsque le couple (X, Y) n'est pas gaussien les rsultats prcdents restent utilisables Il > 30), mais le fait de trouver que r n'est pas signiftcativement diffrent de 0 n'entrane pas ncessairement l'indpendance.
6.1 .4
Corrlation partielle
Il arrive frquemment que la dpendance apparente entre deux variables soit due en ralit aux variations d'une troisime variable. La littrature statistique abonde en exemple de tllUsses corrlations surprenantes entre phnomnes varis qui disparaissent lorsque l'on fixe une troisime variable (souvent non alatoire comme le temps) ainsi de la corrlation entre le nombre de maladies mentales dclares chaque anne et le nombre de postes de radio installs. Les coefficients de corrlation partielle constituent un moyen d'liminer l'influence d'une' ou plusieurs variables. Ces coefticients peuvent tre introduits de diverses faons en particulier dans le cadre de la rgression multiple (chapitre 17). Nous en donnerons ici deux prsentations, l'une issue: du modle gaussien, r autre gomtrique.
133
6.1.4.1
Soit un vecteur alatoire (XI_ X2, Xp ) suivant une loi Np (!-L, ~). En appliquant les rsultats du chapitre 4, paragraphe 4.2.4, on sait que la loi du couple XI X~ conditionne par X3 Kt ... Xp est une loi normale deux dimensions. On obtient alors le coefficient de corrlation partiel (ou conditionnel) P 12.3.\ .. _l" partir de la matrice des covariances partielles. Un calcul simple montre qu'en particulier pour p = 3 :
Cette formule se gnralise et permet de calculer de proche en proche les divers coefficients de corrlation partielle :
pour oblenir PXlx~.r1x4 il suffit de remplacer dans la formule prcdente les corrlations simples par les corrlations partielles:
On dfinit alors formellement le coefficient de corrlalion linaire partielle empirique en remplaant p par r.
. 6.1.4.2
Ayant dfini r.t!.\). x, par les formules prcdentes, il est facile de vrifier que ce coefficient mesure la corrlation entre le rsidu de rajustement linaire de XI sur X3 et celui de l'ajustement de X2 sur X3'
lR'I :
Nous supposerons
Xb X2- X3
centres.
sur le plan
X2'
x] (fig. 6.6).
o
FIGURE
6.6
rXt,r!._,'}
134
Xl
On peut vritier ainsi que r x, .,! d l est le coefficient de corrlation linaire entre la partie non explique linairement par X3 et la partie de X2 non explique linairement par x3 voit que si x] est trs voisin de Xl la corrlation partielle est voisine de 0 car XI presque pas d'information supplmentaire sur XI une fois X3 connu.
6.1.4.3
Dans le cas gaussien, on dmontre que la loi du coefficient de corrlation partielle est mme que celle d'un coefficient de corrlation simple mais avec un degr de libert rJl"",,-.,.. ;;:, de d, nombre de variables fixes. Donc. ~ ~11
'J 1 1'2
d - 2 sut un T,l _ il
2,
Vitesse 0.58176
1
Puissance
[O.5~176
0.79870
0.79870]
0.84438 1
0.84438
Au seuil 5 % toutes ces corrlations sont significatives (valeur critique 0.468). Cependant, le coefficient de corrlation entre le prix et la vitesse sachant la puissance vaut:
-;================ =
~(l
- (0.79870P)(1 - (0.84438)2)
3 .287 9
La liaison a chang de signe mais elle n'est plus significative (valeur critique 5 % : 0.482). _
6.2
6.2.1
Xl,
Dfinition
.
x 2,
xl'.
Le coefficient de corrlation multiple R est alors la valeur maximale prise par le coeff: , cient de corrlation linaire entre y et une combinaison linaire des x j ;
On a donc toujours 0
:$
:$
1.
135
Y = an
2: ajx i
j= 1
6.2.2
Interprtation gomtrique
Rappelons que le coefficient de corrlation est le cosinus de l'angle form dans ~1! par des variables centres. R est donc le cosinus du plus petit angle form par y (centre) el une combinason linaire des Xi centres. Considrons le sous-espace W de !R;II (de dimension au plus gale p les combinaisons linaires des xi et la constante 1.
1) engendr par
R est alors le cosinus de l'angle B form par la variable centre y - yet W, c'est--dire l'angle form par y - y et sa projection orthogonale y* y sur W (fig. 6,7).
w
FIGURE
6.7
6.2.3
Calcul de R
YY
ACy - y)
Ily
yll:!
= s;~ .'1;
= y' A Ay
1
136
v::!rl~I'\II,,~,,:""'"
Si X dsigne la matrce dont les colonnes sont les p variables y est centre:
Xl,
x 2 .. , x/J centres et
o (X'X)- est une inverse gnralise quelconque de (X/X). On peut dmontrer alors la formule reliant corrlation multiple et corrlations des divers ordres:
6.2.4
Si les 11 observations taient issues d'une population gaussienne o Yest indpendante des Xi alors on dmontre que (voir chapitre 17) :
On retrouve comme cas particulier la loi du coefficient de corrlation linaire simple en faisant p 1.
6.. 3
Il arrive souvent de ne disposer que d'un ordre sur un ensemble d'individus et non de valeurs numriques d'une variable mesurable: soit parce qu'on ne dispose que de donnes du type classement (ordre de prfrence, classement A, B, C, D, E), ou bien parce que les valeurs numriques d'une variable n'ont que peu de sens et n'importent que par leur ordre (notes d'une copie de franais: avoir 12 ne signifie pas valoir deux fois plus que celui qui a 6). A chaque individu de 1 Il on associe son rang selon une variable (un rang varie de 1 Il). tudier la liaison entre deux variables revient donc comparer les classements issus de ces deux variables: Objet: Rang n 1 : Rang n 2:
rI
SI
2
1'1
S2
JI
11
l'If Sil
premiers entiers.
r:;rIII.DI;SCI"lptlOn
137
le coefficient de Spearman
Le psychologue Charles Speannan a propos en 1904 de calculer le coefficient de corrla-
Le fait que les rangs soient des permutations de [1 ... 1/] simplifie les calculs el r on a en l'absence d'ex aequo:
r=s
Il
+
2
,.
Si l'on pose di = on a:
1 1'.1). _ Il ~I'l
(~):! 'J
_
.\
12
ri - Si diffrence des rangs d'un mme objet selon les deux classements,
'J _
1
12:(r- 1
s)l
'). 1
mais:
62:dl
i
11(11 1 -
1)
- 1
12
l'x
= 1-
La dfinition de r" comme coeftjCent de corrlation linaire sur des rangs nous indique que:
r, rs =:; rs =
1 => les deux classements sont inverses l'un de l'autre ; 0 => les deux classements sont indpendants.
138
Pour savoir si la valeur trouve de r~ est significative, on se reportera la table du coefficient de corrlation de Spearman fournie en annexe{l) La rgion critique sera IRsl > k : si R.I_ > k : il y a concordance des classements; si R~ < - k : il y a discordance des classements. Lorsque les observations proviennent d'un couple normal (X, Y) de corrlation p et que l'on calcule r.1 la place de r on montre que si 11 est trs grand on a les relations approches suivantes:
r
J
6 . = -Arc sm 1T 2
(p)
ou
= 2 sin
(if r,)
'T
6.3.2
6.3.2.1
de M. G. Kendall
Afin de savoir si deux variables alatoires X et Y varient dans le mme sens ou en sens contraire on peut considrer le signe du produit (X, - X2 )(YI Y2 ) o (Xl' YI) (X:,!! Y2 ) sont deux ralisations indpendantes du couple (X, Y). Si P(X, - X 2 )(Y1 Y2) > 0) > 1/2 il Y a plus de chances d'observer une variation dans le mme sens que dans le sens inverse. On dfinit alors le coefficient thorique,. par :
Ce coefficient est donc compris entre -1 et dantes (mais pas seulement dans ce cas ... ).
? = - Arc sin p
1T
1,
6.3.2.2
En s'inspirant des considrations prcdentes: On considre tous les couples d'individus. On note 1 si deux individus i et} sont dans le mme ordre pour les deux variables: Xi < xj et Yi < yj_
21ii1111Cette table est obtenue en utilisant le fait que dans le cas d'indpendance. les n! permutations d'un classement sont quiprobables.
139
On nole - 1 si les deux classements discordent Xi < On somme les valeurs obtenues pour les
Xj
on a:
Smax = -Smin
l1(n - 1) 2
'T
= - -2S- 1 1l(1l -
1)
On constate que :
-7=
T
Pour savoir si la valeur constate est significative on se rfre la situation thorique d'indpendance dans la population. On peut alors obtenir la distribution de 'T par des arguments combinatoires mais celle-ci peut tre approche par une loi de Laplace-Gauss :
'T -
LG ( 0;
~2(2n +
9u(1l -
5))
1)
L'approximation est trs bonne ds que Il 2:: 8, ce qui est un avantage pratique sur le coefficient de Spearman, si l'on ne dispose pas de tables de ce dernier. Mthode de calcul rapide: on ordonne les Xi de 1 Il ; on compte pour chaque Xi le nombre de Jj > Yi parmi ceux pour lesquels j > i. On somme; soit R cette somme:
S
j
2R 4R
lI(n -
l1(n - 1)
2
1)
_ Exemple : 10 chantillons de cidre ont t classs par ordre de prfrence par deux
gastronomes :
Xi
2.
3 4
4
10
7
\" .1
2 6
5 9 8
10
Le coefficient de Spearman :
rs
6'Ldr
n(u 2
-
1)
vaut
rs
0.84
140
7 + 8 + 6 + 6 + 4 + 4 + 1 + 1 = 37
45
S = 74 d'o
1" :::::
= 29
au seuil 5 % bilatral sont:
T
0.64.
T
et
= : 1.96
-'J 9OX9
_IsO
0.49
A part le cas o les variables sont ordinales, les coefficients de corrlation des rangs sont trs utiles pour tester l'indpendance de deux variables non normales lorsque r chantillon est petit: on sait en effet qu'on ne peut appliquer alors le test du coefficient de corrlation linaire. Les tests de corrlation des rangs sont alors les seuls applicables, car ils ne dpendent pas de la distribution sous-jacente. Ils sont robustes car insensibles des valeurs aberrantes. Les coefficients de corrlation de rangs sont en fait des coefficients de dpendance monotone car ils sont invariants pour toute transfonnation monotone croissante des variables. Les coeftcients de corrlation de rang permettent de tester l'existence d'une relation mono tone entre deux variables. Ainsi le nuage de points suivant o y = ln(x) donne un coefficient de corrlation linaire r = 0.85 mais des coefficients de Spearrnan et de Kendall gaux 1.
4
3
Y
2
20
40
X
60
80
100
FIGURE
6.8
Lorsque les coefficients de corrlation de rang sont nettement suprieurs au coefficient de corrlation linaire, des transformations monotones non linaires sur certaines variables peuvent se rvler utiles.
141
6.3.3
Les trois coefficients de corrlation (Pearson, Speannan, Kendall) peuvent tre prsents comme 3 cas particuliers d'une mme fonnule, dite formule de Daniels. On considre pour toute paire d'individus i,j deux indices ai} et bi} le premier associ la variable X. le deuxime associ la variable Y (par exemple ai} = Xi - X) et on dtnit le coefficient suivant:
Xi -
l', -
signe de
(Xi -
Xj)
bi}
de (Yi - )'i)
qui ne rentre pas dans la catgorie des coefficients de Daniels mais qui possde des proprits intressantes.
6.3.4
Soient
6.1
Tl
Critres
~
1
2
l
rll
1'12
2
r:?'1
1'22
1"21'
l'Ill
J'Ill
P Total
rl p
r J.
l'up
r 2.
r ll
l'.,
142
Chaque ligne du tableau est une permutation des entiers de 1 n. La somme des termes d une ligne etant
, . _ n(1l
1)
' on a r .. = p
1l(1l
1)
ri, 1'2' . ,
Si les p classements taient identiques (concordance parfaite) les totaux de colonnes fil. seraent gaux, une pelmutation prs, p. 2p, 3p, . , " np ; en effet, tous les termes d'une mme colonne seraient identiques. Pour tudier la concordance entre ces classements on utilise la statistique:
s=
,,{...I
11 ~ ( r,.
qui mesure la dispersion des totaux de colonnes par rapport leur moyenne. On vrifie sans peine que S est maximal s'il y a concordance parfaite et que:
(n 3 -
11)
12
12S
1.
Le cas limite W = 0 s'obtient si tous les totaux de colonnes sont identiques, une faible valeur de W indiquant l'indpendance entre les classements. On notera que la discordance parfaite entre p classements ne peut exister: il ne peut y avoir discordance parfaite entre plus de deux classements. Le coefficient West reli aux coefficients de corrlation des rangs de Spearman entre les classements pris deux deux par la formule suivante:
r.1
=---
- 1
15 et pour p
1)
< 7,
1-
(1' - 1)W
1- W
F(" -
~ ; (p -
(11 -
~)).
1) West distribu comme un x~ -1'
143
Si l'on rejette l'hypothse Ho d'indpendance des p classements, quel classement final attribuer aux 11 objets? On admet en gnral la procdure suivante qui est de classer les objets selon l'ordre dfini par la somme des colonnes ; cette procdure possde la proprit de maximiser la somme des coefficients de corrlation de Spearman entre le nouveau classement et les p classements initiaux(l). Cas des ex aequo: pour calculer S, on remplace le rang des ex aequo dans un mme classement par la moyenne arithmtique des rangs qu'ils auraient obtenus si il n'y avait pas eu d'ex aequo (ceci conserve la somme des lignes). La valeur de
Smax.
w= ------------------fi
p2(n 3 - 11) - p
12S
2: (t} -
tj)
J=l
6.4
6.4.1
La mesure, ici non symtrique, de la liaison est le rapport de corrlation TJrjzr dfini par :
v [E(Y/zr)] VeY)
'1
TJ'/.'r
En effet on peut app1iquer 1')2 lorsque la variable &r n' est pas quantitative mais qualitative k modalits (voir chapitre 3).
6.4.2
Si zr a k. catgories on notera n" Il:!, .. , 11" les effectifs observs et Yb Y:2' ... , YI; les moyennes de Y pour chaque catgorie (il est indispensable qu'au moins un des ni soit suprieurs 1) et y la moyenne totale.
J. F. Marcotorchino et Rl"lichaud.
3aO'autres procdures bases sur la rgle de la majorit de Condorcet sont possibles (voir l'ouvrage de 1979): recherche de l'ordre maximsant la somme des coefficients de Kendall.
144
e-=------
/1
e:'
= 0 si YI = Y2 = ... = Yk d'o absence de dpendance en moyenne. e2 = 1 si tous les individus d'une catgorie de fi(' ont mme valeur de Yet ceci pour chaque
s~ ,
-
catgorie car :
=-
.4.!1.d.
~ n(v- - 1')2
1l i= 1
o les
a)
b)
1l
2: Il (Yi i
On remarquera que si l'on attribue chaque catgorie i de te une valeur numrique gale Yi ce qui revient transformer f!(' en une variable numrique X k valeurs, e'l est infrieualors gal r'l(y; X) et que toute autre quantification conduit une valeur de re (voir plus loin).
,.2
YI
et Y2
e- = - - - - - -
Pour dterminer partir de quelle valeur e2 est significatif on compare la variance inter la variance intra : on montrera plus tard au chapitre 16 que si Tl 2 = 0 alors:
Ce rsultat suppose que les distributions conditionnelles de Y pour chaque catgorie de X sont gaussiennes avec mme esprance el mme cart-type. On remarque que le nombre de classes intervient dans les degrs de libert de ]a loi de Fsher-Snedecor : on ne peut donc comparer les rapports de corrlation entre Y et deux variables qualitatives ayant des nombres diffrents de catgories. Lorsqu'aucune confusion n'est craindre, l'usage est de noter Tl 2 le carr du rapport de corrlation empirique, c'est ce que nous ferons dsormais.
145
Reprenons l'exemple du 5.3.2.2 sur les variations du taux de taxe d'habitation Y selon la zone gographique X : le rapport de corrlation est tel que:
11 2(y/X)
6.4.3
Associons la variable qualitative g{' fi k modalits les k variables numriques suivantes indicatrices des modalits:
Soit alors X le tableau de donnes Il lignes et k colonnes correspondant aux indicatrices de ge:
o o
X=
0 0 0
Le total des lments de la colonne j de X vaut Tlj' Un simple calcul permet alors de vrifier que:
yIX(X'X)-IX'y y'y
Yt
si y
est centre.
"~'/:r est alors le cosinus carr de l'angle form par le vecteur y centr et le sous-espace W de dimension k de IH. engendr par les variables indicatrices.
II
Le rapport de corrlation de Y en 2t s'identifie donc au coefficient de corrlation multiple avec les indicatrices de gr:
146
Dfinir une combinaison linaire des indicatrices Saj j revient attribuer chaqu catgorie j une valeur numrique (/j. donc rendre gr numrique ce qui implique que:
6 .. 5
6.5.1
Soit f!f et ay deux- variables qualitatives r et s catgories respectivement dcrivant un ensemble de Il individus. On prsente usuellement les donnes sous la forme d'un tableau crois appel tableau de contingence r lignes et s colonnes renfermant les effectifs Ill) d'individus tels que Xi et OY = )'j (vor tableau 6.2) :
TABLEAU
6.2
ay
YI
)':!
..
...
'O
.........
Ys
ilL!
1l2~
f!f
XI
X2
/111
1112 1122
Ill.
11::!.!
1'2.
Xi
nij
Ili.
.\r Il r l
lin
ll.j
Url
11.2
llr.
n.1
Il ...
/li.
"Il" et
.t:.J
j
IJ
11 'J.
'Lnij'
i
Les ni. et les n.j s'appellent respectivement marges en lignes et marges en colonnes. La constitution d'un tel tableau est l'opration que les praticens des enqutes appellent un tri crois . Deux lectures diffrentes d'un mme tableau de contingence sont possibles selon que l'on privilgie l'une ou l'autre des deux variables: lecture en ligne ou lecture en colonnes. On appelle tableau des profils-lignes le tableau des frequences conditIOnnelles /l ..
J
IlU
11 i.
(la somme de chaque ligne est ramene 100 %) et tableau des profils-colonnes le tableau des frquences conditionnelles -2.. (le total de chaque colonne est alors ramen 100 %).
n.j
147
Exemple: Le tableau 6.3 provient de l'enqute sur les vacances des Franais en 1999, par ('INSEE en mai 2002.
On appelle vacances tout dplacement comportant au moins 4 nuites conscutives dehors du domicile, effectu pour des motifs autres que professionnels, tudes ou Un voyage peut comporter un ou plusieurs sjours (4 nuits conscutives au mme En 1999 prs d'un franais sur quatre n'tait pas parti en vacances, le tableau de continne concerne donc que ceux qui sont partis. L'unit statistique est ici le sjour, dcrit par deux variables qualitatives : la catgorie I:nc:O-DnJtessI IOflll1elle de la personne de rfrence du mnage en 8 modalits et le mode ':.l'l..;;h.,,,rlT,,,Tr\pnl en 9 modalits. La taille de l'chantillon est 18 352.
TABLEAU
6.3
Rscc
Tableau de contingence
Rppn Rspa Tente Caravane
Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres inactifs
Location
A.T
9
VilIageV
41
47
13
59
17
26
19
110
260
71
299
120
42
64
35
29
450
100 68
130
193
72
C92
67
147
49
7447
6
114
115
692 2
195
5
34
225
14
On dduit du tableau 6.3 les deux tableaux de profils suivants (6.4 et 6.5) qui permettent deux types de lecture: le tableau des profils-lignes permet de comparer les modes d' hbergement des diffrentes catgories socio-professionnelles (o vont les cadres 1 etc.) tandis que le tableau des profils-colonnes permet de savoir qui frquente tel mode (qui sont les clients des htels 1).
148
TABLEAU
6.4
Botel Location Rscc Agrcul leurs Artisans, commerants, chefs d'entreprise Cadres cl professions intellectuelles suprieures
0.174 0.200
AJ
0.038
Village V Total
0.081 1
"Ci
0.193
0.228
0.037
0.056
0.031
0.025
." ..
1":"
0.158
0.178
0.028
0.023
0.030
"1
0.050 0.047
1
1"'"
1
l
0.048 0.392 0.059 0.074 0.192 0.321 0.062 0.007 0.005 0.574 0.107 OJ)84
1
1
::.
TABLEAU
6.5
".":
"
...
Hotel Agriculteurs Artisans, commerants, chefs d'entreprise Cadres et professions intellectuelles suprieures
0.016
Location
0.015
Rsec
Tente
0.034
Caravane
0.004
A,J
0.023
VillageV
0.028
0.007 0.009
0.084
0.084
0.041
0.048
0.065
0.054
0.057
0.090
0.042
0.260
0.251
0.260 0.199
0.38'2
0.180
0.108
0.258
0.190
0.168 0.200 0.039 0.130 0.085 0.399 0.001 1 0.193 0.185 0.036 1
149
On remarquera que la moyenne des protils-lignes (avec des poids correspondant aux effectifs marginaux des lignes) n'est autre que le profil marginal des colonnes:
=-.:l
Jl
Il,
11
6.5.2
l'cart l'indpendance
Lorsque tous les profils-lignes sont identiques on peut parIer d'indpendance entre 21;" et UJJ puisque la connaissance de ft' ne change pas les distributions conditionnelles de UJJ. Il s'ensuit d'ailleurs que tous les profilswcolonnes sont galement identiques.
Il
n 1.
17
n '
6.5.2.1
X1 (voir
11 i. Il.}):!
Il Il
dl -
2: 2: - - - }
ni. Il.}
On voit que d 2 est nul dans le cas de l'indpendance. Quelle est sa borne suprieure et dans quel cas est-elle atteinte? Il faut pour cela utiliser le rsultat suivant obtenu par dveloppement du carr :
Comme : -.!.l.
n.}
11 ' ,
:::::;
1 on a :
D'o:
1li,Tl.}
' " Il 1) L.J .. s _ L.J Il.} :::::; ' " ' " - - ' " i L.J L.J ni} _ .L.J-- - " - _ i j Tl.) j n.} j=lll.j
150
D'o d 2 :s; n(s - 1). On pourrait montrer de mme que d 2 :s; n(r - 1). On a donc: "dl':! :s; inf (s - 1 ; r - 1)
1
dl
= n(s
Il,,
1) si -!l.
n ;.
l 'Vi, c'est--dire s'il n'existe qu'une case non nulle dans chaque ligne.
Ce cas est celui o JJ est fonctionnellement li fi:: ce qui n'implique pas que fJ: soit li fonctionnellement JJ comme on le voit sur la figure 6.9.
FIGURE
6.9
Le cas de la dpendance fonctionnelle rciproque ncessite r = s : aprs permutation des lignes ou des colonnes le tableau de contingence peut alors se mettre sous forme diagonale. Divers coefficients lis au d 2 ont t proposs pour obtenir une mesure comprise entre 0 (indpendance) et 1 (liaison fonctionnelle). Citons: le coefficient de contingence de K. Pearson ( - - - " 11 + dle coefticient de Tschuprow (
Il
d2
)1/:2
= C;
d'
(1' - 1)(s - 1)
ct- 1); (r
) 1/1.
=T;
le coefficient de Cramer
(Il inf. (s
1))1/2
cP / Il est usuellement not ",2. Pour l'exemple des vacances prsent plus haut on a :
d 2 = 1989
T = 0.12
c = 0.31
V
.
0.12
.
Il i Il .
_._.J
Il
Il i.
n):!
dl
ni. J1.j
Tl
151
Il" Il "
Il
i)" -
-,._.]
Il
qy.
Un tel calcul devrait tre systmatiquement associ chaque calcul de X::'.. On re marq ue que les marges des tableaux (Il ij) et (" i ;;,.
tian il suffit de calculer (r - 1)(s - 1) (le degr de libert) termes du tableau d'indpendance et de dduire les autres par diffrence. Le tableau 6.6 donne pour chaque case l'effectif thorique et le X"2 correspondant. Comme
il y a 72 cases, le X:! moyen par case est de 27.6 : on a mis en gris les cases o le X2 dpasse 60 : ce sont les cases o il existe une sur- ou une sous-reprsentation importante par rapport une rpartition au hasard .
TABLEAU
6.6
Rspa 23.46 1.78 Tente 9.8 26.77 Caravane 14.33 7.45 AJ 4.92 3.38 VillageV 8.7 12.2
161.79 20.95
190.14 25.66
10.67 11.93
384.47 19
113.8 0.34
47.55 0.65
69.51 0.44
23.87 5.19
42.2 4.13
617.2 7.45
725.8 3.39 631.64 0.09 326.75 1.95 511.72 Il.28 600.79 71.86 65.38 15.06
406.93 1466.72 434.15 181.4 34,43 170.22 4.56 9.91 354.34 1177.18 378.05 157.96 10.97 0.58 1.05 6.10 183.3 73.79 660.68 35.12 195.56 5.42 81.71 1.3
265.18 77.31 230.91 7.67 119.45 14.45 187.07 75.6 219.63 2.76 23.9 14.95
91.05 0.88 79.29 1.61 41.02 1.55 64.23 1,48 75.41 10.71 8.21 0.59
160.99 5.96 140.18 19.9 75.52 0.00 113.57 0.00 133.34 2.52 14.51 0.02
Professions 537.44 intermdiaires 5.12 278.01 27.86 435.4[02.64 511.18 U5.34 55.63 10.91
Employs
Ouvriers
287.07 1034.7 306.7 127.97 17.70 51.24 76.63 68.34 337.03 1214.79 359.68 150.25 373.86 2.65 51.88 104.41 36.68 32.79 132.2 65.14 39.13 0.21 16.35 16.95
Retraits
Autres inactifs
L'analyse des correspondances tudie plus loin permet une reprsentation graphique des carts l'indpendance: on y retrouvera ces phnomnes.
152
6.5.2.2
Si et 6JJ n'ont que deux modalits chacune le tableau de contingence (tableau 6.7) n'a alors que 4 cases d'effectifs abcd.
gr
TABLEAU
6.7
JJ
f!t
1
2
a
c
b d
d-
.,
l1(ad - bcf
Si l'on calcule le coefficient de corrlation linaire entre f!t: et CY en attribuant des valeurs arbitraires leurs catgories (par exemple 1 et 2 mais toutes les quantifications sont ici quivalentes) on montre que q.:>2 = r 2 Remarquons que dans le cas des variables dichotomiques la non corrlation entrane l'indpendance.
6.5.2.3
A partir de quelle valeur peut-on considrer que la Haison est significative? En anticipant sur la thorie des tests expose au chapitre l4 voici la dmarche: si les n observations raient prleves dans une population o .il' et q?J sont indpendantes (Pij = Pi. p) quelles seraient les valeurs probables de cJ2 ? En s'appuyant sur les rsultats du chapitre 4 paragraphe 4.4, on montre qu'alors dl est une ralisation d'une variable alatoire D2 suivant approximativement une loi Xfr-l)Lf~ 1) ; en effet les IlU - ~ sont lis par (1' - l)(s - 1) relations linaires puisque les marges sont
11
n n .
communes aux deux tableaux (ou encore en d'autres termes puisqu'on estime les Pi. par-.!:.. et les P.j par n. j ).
Il
Il
Il
Il suffit alors de se tixer un risque d'erreur a, c'est--dire une valeur qui, s'il y avait indpendance, n'aurait qu'une probabilit faible d'tre dpasse (on prend usuellement a=5%oul%).
On rejettera donc l'hypothse d'indpendance si d:! est suprieur 1a valeur critique qu'une variable xfr- 11(.\"-1) a une probabilit a de dpasser.
153
trs leve :
1)
La valeur critique 1 % d'un X6 est 83.5. On doit donc rejeter l'hypothse d'indpendance entre catgorie professionnelle et mode d' hbergement. pour les tableaux 2 X 2 o le degr de libert vaut 1 on recommande gnralement d'effectuer la correction de Yates :
d =
2
Il
[ lad -
bel -
'Il]:! 2
(a
L'esprance d'un X2 tant gale son degr de libert on voit que d"!. est d'autant plus grand que le nombre de catgories des deux variables est lev. On ne peut donc comparer ~,-",-des (P correspondant des tableaux de tailles diffrentes pour une mme valeur de Il : un d 2 de 4 pour un tableau 2 X 4 ne rvle pas une dpendance plus forte qu'un dl de 2.7 pour un tableau 2 X 2 bien au contraire: afin de comparer ce qui est comparable el de s'affranchir du problme des degrs de libert il vaut mieux utiliser comme indice de liaison la probabilit p(X2 < d 2). On trouve ainsi:
0.9
et
P(XJ
<
4) = 0.75
6.5.2.4
Les indices drivs du Xl sont loin d'tre les seules mesures de dpendance utilisables, elles ont d'ailleurs t souvent critiques. La littrature statistique abonde en la matire et le problme est d'ailleurs celui du trop grand nombre d'indices proposs. On se reportera utilement aux ouvrages de Goodman et Kruskal et de Marcotorchino (1979). Signalons toutefois pour son intrt thorique le G 2 ou khi-deux de vraisemblance:
X[r-Il(J-Il'
6.5.3
154
la probabilit (estime)
qu'une observation appartienne la catgorie j de cy est -.:.1 : en affectant alatoirement cette observation selon les probabilits -.:.1 on a alors une proportion estime de classements
Il
11
11
Si l'on connat la catgorie ide 2tTaffectation se fait alors selon les frquences conditionnelles ......!.l d'o une proportion estl me de classements corrects gale
ni.
11 nIl 2: 2: ......!.l-.!1.
11;. Il
Le 7' de Goodman el Kruskal mesure donc le taux de dcroissance du pourcentage de prdictions incorrectes. On a par dfinition 0 ::s lu liaison fonctionnelle.
Tll ::S
l avec
'TIJ
1 pour
En introduisant les tableauX de variables indieatrices XI et Xl associes aux deux variables ft et t1JJ on trouve:
7=
o A? est le projecteur sur l'espace des combinaisons linaires de moyenne nulle des indicatrices de XI' n'est autre que le coefficient de redondance R 2 (X1, : chapitre 8).
'T
Xd
6.5.4
Le kappa de Cohen
Ce coefficient est destin mesurer l'accord entre deux variables qualitatives ayant les mmes modalits dans le contexte suivant: Il units statistiques sont rparties selon p catgories par deux observateurs. Si les deux observateurs concordent parfaitement, le tableau de contingence doit tre diagonal: seuls les effectifs nii sont non-nuls. Lu proportion d'accords observs est Po
1 fi - 2:l1ii'
lli=1
Si les deux variables taient indpendantes la probabilit d'tre dans l'une quelconque des
p
fi
cases diagonales serait 2:Pi.P.i que l'on estime par Pc = --:; Llli.n.; appel pourcentage d'accords alatoires. i= 1 n- 1 Le coefficient kappa s'crit alors:
I{=
Po - Pc 1 - Pc
1
1-
Il
+ 1 (accord
maximal).
.'analyse en composantes
principales
Dans la plupart des applications on observe non pas une variable par individu, mais un .J1o.!l::Ipre p souvent lev. L'tude spare de chacune de ces variables et celles des couples selon les techniques exposes prcdemment est une phase indispensable dans le processus de dpouillement des donnes mais tout fait insuffisante. Il faut donc analyser les donnes en tenant compte de leur caractre multidimensionnel; l'analyse en composantes principales est alors une mthode particulirement puissante pour explorer la structure de telles donnes. C'est galemenlla ({ mre de la plupart des mthodes descriptives multidimensionnelles.
7.1
Les observations de p variables sur 11 individus sont rassembles en un tableau rectangulare X n lignes et p colonnes:
2 2
... P
xl 1
156
Dans une optique purement descriptive on identifiera une variable la colonne de X correspondante: une variable n'est rien d'autre que la liste des Il valeurs qu'elle prend Sur les 11 individus:
.~
,-1f
e; = (x} ... xD
7.1.1.2
Il
Si les donnes ont t recueillies la suite d'un tiragealeaioire probabilits gales, les individus ont tous mme importance, 1/11, dans le calcul des caractristiques de l'chantillon. Tl n'en est pas toujours ainsi et il est utile pour certaines applications de travailler avec des poids Pi ventuellement diffrents d'un individu l'autre (chantillons redresss; donnes regroupes ... ). Ces poids, qui sont des nombres positifs de somme 1 comparables des frquences, sont regroups dans une matrice diagonale D de taille JZ :
o
D=
o
Dans le cas le plus usuel de poids gaux, D =
Pli
~ I. 12
Le vecteur g des moyennes arithmtiques de chaque variable g' = (Xl; dfinit le point moyen, ou centre de gravit du nuage. Le tableau Y tel que
x2 ; ; xP)
On a g = X'DI o l dsigne le vecteur de IR!! dont toutes les composantes sont gales 1.
yi = xi -
7.1.1.3
Iv = X'DX -
gg' = Y'Dyl
157
On a galement:
X'DX =
LPje,e;
i=l
/1
Cette dernire formule est utile pour les calculs numriques car elle ne suppose pas la mise en mmoire du tableau X mais seulement la lecture successive des donnes. Si l'on note
D]h
l/sl
Dllx
Ils"
et DlIsl la matrice diagonale des inverses des variances. le tableau des donnes centres et rduites Z tel que :
est donc:
YD 1/s
La matrice regroupant tous les coefficients de corrlation linaire entre les p variables prises deux deux est note R :
R=
Rappelons que R
R est la matrice de variance-covariance des donnes centres et rduites et rsume la structure des dpendances linaires entre les p variables prise 2 2.
7.1.1.4
Le tableau X ne reprsente souvent qu'une partie de l'information disponible, et cela pour diverses raisons: on ne s'intresse qu'aux liaisons entre cerlaines variables, les variables qualitatives sont par nature exclues de l'analyse etc. Les variables disponibles se partagent donc en deux ensembles: les variables actives qui serviront au calcul des axes principaux et les variables supplmentaires, appeles galement variables illustratives qui seront relies a posteriori aux rsultats de l'Aep. On peut galement n'utiliser qu'une partie des individus, soit pour valider les rsultats, soit parce que certains n'auront leur donnes disponibles qu'ultrieurement, ou parce que
158
leurs donnes sont suspectes. Mettre des individus en supplmentaire revient leur attribuer un poids nul.
Variables actives
Variables supplmentaires
P1
P2
Individus actifs
s
Pn
0 0
Individus supplmentaires
'0
7.1.2
Chaque individu tant un point dfini par p coordonnes est considr comme un lment d'un espace vectoriel F appel l'espace des individus. L'ensemble des Il individus est alors un nuage de points dans F et g en est le centre de gravit.
e espace F est muni d'une structure euclidienne atin de pouvoir dfinir des distances entre individus.
7.1.2.1
Le rle de la mtrique
Comment mesurer la distance entre deux individus? Cette question primordiale doit tre rsolue avant toute tude statistique car les rsultats obtenus en dpendent dans une large mesure. En physique, la distance entre deux points de l'espace se calcule facilement par la formule de Pythagore : le carr de la distance est la somme des carrs des diffrences des coordonnes, car les dimensions sont de mme nature: ce sont des longueurs que l'on mesure avec la mme unit :
d 2 = (x1 - x~):!
(xi - x:!
+ ...
II n'en est pas de mme en statistique o chaque dimension correspond un caractre qui s'exprime avec son unit particulire : comment calculer la distance entre deux individus dcrits par les trois caractres: ge, salare, nombre d'enfants? La formule de Pythagore est alors aussi arbitraire qu'une autre. Si l'on veut donner des importances diffrentes chaque caractre, pourquoi ne pas prendre une formule du type:
d
2
lll(xl -
xlf + ll2(XY
- x~f
+ ... + ap(x'i -
x~f
a)
ce qui revent multiplier par ~ chaque caractre (on prendra bien sr des
positifs).
159
De plus, la l'onnule de Pythagore n'est valable que si les axes sont perpendiculaires, ce que l'on conoit aisment dans l'espace physique. Mais en statistique ce n'est que par pure convention que l'on reprsente les caractres par des axes perpendiculaires: on aurait pu tout aussi bien prendre des axes obliques. On utilisera donc la formulation gnrale suivante: la distance entre deux individus est dfinie par la fonne quadratique:
Ci
et Cj
o IVI est une matrice symtrique de taille [J dfinie positive. L'espace des individus est donc muni du produit scalaire: (Ci; Cj ) = e'; IVIcj En thorie, le choix de la matrice 1\11 dpend de l'utilisateur qui seul peut prciser la mtrique adquate. En pratique les mtriques usuelles en Analyse en Composantes ... Pril1 cipales (ACP) sont en nombre rduit: part la mtrique M = 1 qui revient utiliser le produit scalaire usuel~ la mtrique la plus utilise (et qui est souvent l'option par dfaut des logiciels) est la mtrique diagonale des inverses des variances:
1/ST
l/s~
1\11 = Dlh~
I/s~
ce qui revient diviser chaque caractre par son cart-type: entre autres avantages, la distance entre deux individus ne dpend plus des units de mesure puisque les nombres x{jSj sont sans dimension, ce qui est trs utile lorsque les variables ne s'expriment pas avec les mmes units. Surtout, cette mtrique donne chaque caractre la mme importance quelle que soit sa dispersion; l'utilisation de 1\11 = 1 conduirait privilgier les variables les plus disperses, pour lesquelles les diffrences entre individus sont les plus fortes, et ngliger les diffrences entre les autres variables. La mtrique D 1/s2 rtablit alors l'quilibre entre les variables en donnant toutes la variance 1. Nous avons vu qu'utliser une mtrique diagonale:
160
revient multiplier les caractres par ~ et utiliser ensuite la mtrique usuelle lVI Ce rsultat se gnralise une mtrique l\tl quelconque de la manire suivante: On sait que toute matrice symtrique positive M peut s'crire l\tI scalaire entre deux individus uvec la mtrique M peut donc s'crire:
= I.
= T'T.
Le produt
= (Tc:!)' Tc 1
c'est~-dire
Tout se passe donc comme si l'on utilisait la mtrique 1 sur des donnes transformes, sur le tableau XT ' .
7.1.2.2
On appelle inertie totale du nuage de points la moyenne pondre des carrs des distances des points au centre de gravit:
Il
19 = ~Pi(ei - g)'M(c i
i"'l
g)
= ~Pi Ile; i
gl/2
lu
On
li
= ~Pi(ei
i
- a)'l\tl(c i
a)
la relation de Huyghens:
Il
Si g = 0:
19 = ~Pie~IVIci
i=1
Il
/1
21g
= ~ ~PiPj(ej
""I J;; 1
- c)/IVI(e;
e)
= ~ ~PiPjllCi i=lj-- 1
Il
eJ2
soit la moyenne des carrs de toutes les distances entre les L'inertie totale est la trace de la matrice MV (ou VM) :
individus.
/lg
= Trace IVDCDX
= Trace MV
si IVI = 1 l'inertie est gale lu somme des variances des p variables; si l\tl = Dlh' : Trace MV Trace (D,!s~V) = Trace (D'I.\,VD'/J, ce qui est gal Trace R = p. L'inerte est donc gale au nombre de variables et ne dpend pas de leurs valeurs. .
161
7.1.3
Chaque variable xi est en fait une liste de 11 valeurs numriques: on la considre comme un vecteur xi d'un espace E 11 dimensions appel espace des variables.
7.1.3.1
Pour tudier la proximit des variables entre elles il faut munir cet espace d'une mtrique, c'est--dire trouver une matrice d'ordre Il dfinie positive symtrique. Ici il n'y a pas d'hsitation comme pour l'espace des individus et le choix se porte sur la matrice diagonale Il des poids D pour les raisons suivantes: Le produit scalare de deux variables xi et Xl;; qui vaul x'iDxk = LPiXfx{ n'est autre '" 1 que la covariance Sj/;; si les deux variables sont centres. La norme d'une variable Il xilln est alors IIxillfi = sJ ; en d'autres termes la longueur d'une variable est gale son cart-type. L'angle 6jl, entre deux variables centres est donn par:
(Xi; xl.:)
IIxill Il xl.: Il
Le cosnus de l'angle entre deux variables centres n'est autre que leur coefficient de corrlation linaire (chapitre 6). Si dans l'espace des indvidus on s'intresse aux dstances entre poinls, dans l'espace des variables on s'intressera plutt aux angles en raison de la proprit prcdente.
7.1.3.2
A une variable xi on peut associer un axe de l'espace des individus F et un vecteur de l'espace des variables E. On peut galement dduire de Xl, Xl, ... , xl' de nouvelles variables par combinaison linaire, ce qui revient projeter les individus sur de nouveaux axes de F. Considrons un axe il de l'espace des individus engendr par un vecteur unitaire a (c'est--dire de M-norme 1) et projetons les individus sur cet axe (projection lVI-orthogonale) (fig. 7.1).
:y: ei
1 1 1 1 1 1
FIGURE
7.1
162
711111111L'analyse en composantes
pru,cl~tale!~;@~i
La HSle des coordonnes Ci des individus sur il forme une nouvelle variable ou composante, c. Comme Ci a'Me j eilVIa (a; e;)1\1 on a:
fi
c=
XMa = Xu = 22xi uj
/=1
en posant u = Ma.
A la variable c sont donc associs trois tres mathmatiques: un axe il de F de vecteur unitaire a ; un vecteur c de E espace des variables; une forme linaire u appele facteur.
C ensemblds variablesCH'qTOripf rigridrrparcOfribsOri linaire des vecteurs-colonnes de X forme un sous-espace vectoriel de E de dimension gale (ou infrieure) p.
Remarquons que si a appartient l'espace des individus F, u appartient son dual F*, et que si a est M-norm l, u est M-I norm 1 :
= 1 ces
s~
u'Vu [ u'X'DXu
En effet:
c'De
(Xu)'D(Xu)
7.2 7.2.1
Le principe de la mthode est d'obtenr une reprsentation approche du nuage des JI individus dans un sous-espace de dimension faible. Ceci s'effectue par projection ainsi que l'lIustre la figure 7.2. Le chox de l'espace de projection s'effectue selon le critre suivant qui revient dformer le moins possible les distances en projection: le sous-espace de dimension k recherch est tel que la moyenne des carrs des distances entre projections soit la plus grande possible. (En effet, en projection les distances ne peuvent que diminuer). En d'autres termes il faut que l'inertie du nuage projet sur le sous-espace soit maximale.
163
FIGURE
7.2
Pet P'M
MP.
Le nuage projet est alors associ au tableau de donnes XP', car chaque individu el (ou ligne de X) se projette sur Fk selon un vecteur colonne Pei ou un vecteur ligne eiP' (fig. 7.3).
FIGURE
7.3
La matrice de variance du tableau XP' est pour des variables centres: (XP')'D(XP') = PVP' L'inertie du nuage projet vaut donc: Trace (PVP'lVI). Par des oprations lmentaires on en dduit: Trace (PVP'lVI)
= Trace (PVMP)
= Trace (VMp:!) = Trace (VlVIP)
car P'lVl
= MP
Le problme est donc de trouver P, projecteur M-orthogonal de rang k maximisant Trace (VMP) ce qui dterminera donc Fk'
164
Il suffit de remarquer que le projecteur associ la somme directe de deux sous-espaces lVI-orthogonaux est la somme des projecteurs associs chacun des espaces.
De ce rsultat on dduit le thorme fondamental suivant:
THORME
Soit F/.; lm ,'Wlls~espace portant l'inertie maxmale, alors le sous-espace de dimension k + 1 portallt l'inertie Inaximale est la somme directe de FI.; el du SOlls-espace de dimenson 1 lVI-orthogonal li Fk portant l'inertie maximale: Les solutions sOlIt emboUes .
_ Dmonstration : Soit El;: +1 un sous-espace de dimension k
Comme dlm E/.; + 1 = k
1:
1 et dim Ft
= 11
k, on a :
~ 1
12
n Ft)
+ dimFl = Il + 1 >
n Ft.
Posons EJ;;+1 = b EB G o G est le supplmentaire lVI-orthogonal de b dans EHI . G est FI; EB b. donc de dimension k et F
On a:
l/';+l
lF
+ IG = Ir'l + ft,
=
lb
Comme FI; tait le sous-espace de dimension k portant l'inertie maximale IG S ln, donc IH\ S lh + IFk' c'est--dire lHI S lF et ceci quel que soit Ek+]' Le maximum de l'inertie est donc ralis pour l'espace F lb soit maximal.
= b EB
Pour obtenir FI; on pourra donc procder de proche en proche en cherchant d'abord le sous- : espace de dimension 1 d'inertie maximale, puis le sous-espace de dimension l lVI-orthogonal. l1li au prcdent d'inertie maxima1e, etc.
7.2.2
7.2.2.1
lments principaux
Axes principaux
Nous devons chercher la droite de [Rp passant par g maximisant l'inertie du nuage projet sur cette droite,
165
Soit a un vecteur port par cette droite; le projecteur M-orthogonal sur la droite est alors: P
= a(a'Ma)-'a'IVI
L'inertie du nuage projet sur cette droite vaut, d'aprs ce qui prcde: Trace VIVIP
= Trace VMa(a'lVla)-la'M
= -a'Ma
Trace VMaa'M
= ------
a'MVMa a'IVIa
puisque a'MVMa est un scalaire. La matrice MVIVI est appele matrice d'inertie du nuage ~ elle dfinit la forme quadratique d'inertie qui, toul vecteur a de M-norme 1, associe l'inertie projete sur l'axe dfini par a. La matrice d'inertie ne se confond avec la matrice de variance-covariance que """"siM = 1. =: . . . , 1 er a envee de cette expresslOn Pour 0 b temr 1e maXImum d e a'LVIVLVIa' l su f'llIt d' annu 1 1 d'" a Ma par rapport a :
~ (a'lVIVMa )
da a'Ma
d'o:
MVlVla = (
soit :
VIVla
= al
car ]\il est rgulire ~ donc a est vecteur propre de VM. S'il en est ainsi, le critre a'MVMa vaut a'Ma . Il faut donc que soit la plus grande valeur propre de VIVI. La matrice VM tant M-symtrique possde des vecteurs propres M-orthogonaux deux deux. D'o le rsultat suivant:
THORME
Le sous-espace FI. de dimension k est engendr par les k l'ecteufS propres de VIVI associs aux k plus grandes valeurs propres.
On appelle axes principaux d'inertie les vecteurs propres de VIVI, l\1-norms 1. Ils sont au nombre de p. Un calcul lmentaire montre que les axes principaux sont aussi V- I orthogonaux: on montre rciproquement que les axes principaux sont le seul systme de vecteurs la fois J\l1 et V-I-orthogonaux.
166
7.2.2.2
Facteurs principaux
(fi: ~~~~ a est associe la forme linaire u coordonne lVI-orthogonale sur l'axe dfini par a:~
[:~;~
\1
FIGURE
7.4
u est un lment de (~I')* (dual de l'espace des individus) qui dfinit une combinaison"'linaire des variables descriptives XI' X2, .. , xI"
"'-a ~ 1\IIVlVIa
"'-Ma
1MVu
"'-ul
Les facteurs principaux sont les vecteurs propres M-1-norms de MV. En effet, on a vu que si [R;/' est muni de la mtrique M, son dual doit tre muni de la mtrique M-t, Donc U'M-lU = L Les facteurs principaux sont M- 1 et V-orthogonaux.
7.2.2.3
Composantes principales
Cj
Ci est le vecteur renfermant les coordonnes des projections M-orthogonales des individus sur l'axe dfini par ai avec ai unitaire.
. :
= u'X'DXu =
U'VU or :
donc:
167
Les composantes principales sont elles-mmes vecteurs propres d'une matrice de taille Il
= -u s'crit lVlX'DXu
1
Xu par C on a:
XMX'Dc = -c
1
wij
(ei ;e)
e~Mej'
D'o pour rsumer : Facteurs principaux u Axes principaux a Composantes principales c lVIVu = -u VlVIa = -a M-I-orthonorms lVI-orthonormes D-orthogonales
= Xu
XMX'Dc u = Ma
-c
En pratique on calcule les u par diagonaIisation de lVIV, puis on obtient les c axes principaux an' ayant pas d'intrt pratique.
= Xu, les
1.2.2.4
Formules de reconsttuton
Comme XUj = cj en post-multipliant les deux membres par uiM-' et en sommant sur j il vient:
XLUjujM- '
j
= 2:cj ajlVlj
Or
ujujM-1
donc:
X = LcjujM- 1
j=1
"
On peut ainsi reconstituer le tableau de donnes (centr) au moyen des composantes principales et facteurs principaux. On a galement: MV = VM
" 2: -jujujM-!
j=l
2: -jajajM
j=1
168
Lorsque IVI
= l, X =
2: cjuj
j=e
J
(J
2: 1i:;z v; o les
j
fl
Zj
j= 1
XXI el les vj les vecteurs propres de XIX de norme) (dcomposition en valeurs singulires),
Si l! on se contente de la somme des k premiers temles on obtient alors la meiHeure approximation de X pur une matrice de rang li. au sens des moindres carrs (thorme d'Eckart-Young).
7.2.3
Le choix de la mtrique IVI est toujours dlicat: seul l'utilisateur peut dfinr correctement la notion de distance entre individus. Prendre IVI 1 revient travailler sur la matrice V des variances-covariances, il n' y a pas alors de distinction. entre axes principaux eL facteurs principaux. Cependant, les resultats J obtenus ne sont pas invariants si l'on change linairement l'unit de mesure des variables. Les covariances sont multiplies par un facteur k, la variance par un facteur ,,-2 si l'on choisit une unit de mesure li. fois plus petite pour une variable. Le choix de lVl = DlIs~ est le plus communment fait, et a pour consquence de rendre les distances enrre individus invariantes par transformation linaire spare de chaque variable et de s'affranchir des units de mesure ce qui est particulirement intressant lorsque les variables sont htrognes. On sait que l'usage de cette mtrique est quivalent la rduction des variables (division par l'cart-type). En pratique on travaillera donc sur le tableau centr-rduit Z associ X et on utilisera la mtrique M I. Comme la matrice de variance-covariance des donnes centres et rduites est la matrice de corrlation R, les facteurs principaux seront donc les vecteurs propres successifs de R rangs selon l'ordre dcroissant des valeurs propres. Ru ku avec Il u 11 2 1. La premire composante principale c (et les autres sous la contrainte d'orthogonalit) est la combinaison linaire des variables centres et rduites ayant une variance maximale
Zu.
On a de plus la proprit suivante lorsqu'on travaille sur donnes centres et rduites :
PROPRIT
c est la variable la plus lie aux x j au sens de la somme des carrs des corrlations:
1)
f='
Cette proprit pennet de gnraliser l'ACP il d'autres mthodes et d'autres type de variables en remplaant le coefficient de corrlation par un indice adapt (principe d'associaton maximale, voir plus loin),
169
= r:l( c ; zi) o zi =
,
r-(c;zl)
[cov(c ; zi)f
V(c) V(Zl)
= --V(c)
[c'Dzif
fi
or:
Lzi(zi)1 = ZZI
j=l
donc:
e De
le maximum de ce quotient est donc atteint pour e vecteur propre de ZZ'D associ sa plus grande valeur propre : ZZ'Dc c
on en dduit que c est combinaison linaire des zi donc que c ZZIDZu = Zu Comme ZIDZ
= Zu ;
= R, il
vient ZRu
Zu et si Z est de rang p . Ru = U.
Pour rsumer: l'ACP revient remplacer les variables x l, x 2, .. , XI' qui sont corrles, par de nouvelles variables, les composantes principales Cl, c2 , . combinaisons linaires des xi non corrles entre elles, de variance maximale et les plus lies en un certain sens aux xi : l' ACP est une mthode factorielle linaire.
7.3
L'ACP construt de nouvelles variables, artificielles et fournit des reprsentations graphiques permettant de visualiser les relations entre variables ainsi que l'existence ventuelle de groupes d'individus el de groupes de variables. L'interprtation des rsultats est une phase dlicate qui dOt se faire en respectant une dmarche dont les lments sont les suivants.
7.3.1
Le but de r ACP tant d'obtenir une reprsentation des individus dans un espace de dimension plus faible que p, la question se pose d'apprcier la perte d'infomlation subie et de savoir combien de facteurs retenir.
170
7.3.1.1
Le pourcentage d'inerte
Le critre habituellement utilis est celui du pourcentage d'inertie totale explique. On mesure la qualit de FI.: par:
Si par exemple
+
Ig
'l
aplati sur un sous~espace deux dimensions et qu'une reprsentation du nuage dans le plan des deux premiers axes principaux sera trs satisfaisante. L'apprciation du pourcentage d'inertie doit faire intervenir le nombre de variables initiales: un % de 10 % n'a pas le mme intrt sur un tableau de 20 variables et sur un tableau de 100 variables.
7.3.1.2
Mesures locales
Le pourcentage d'inertie explique est un critre global qui doit tre complt par d'autres considrations. Supposons que le plan des deux premiers axes porte une inertie totale importante ( 1 + :!, lev) et que en projection sur ce plan deux individus soient trs proches: la figure 7.5 montre que cette proximit peut tre illusoire si les deux individus se trouvent loigns dans
el
g/::;:<1:I,
1 1 1
FIGURE
7.5
n faut en fait envisager pour chaque individu ei la qualit de sa reprsentation. Celle-ci est souvent dfinie par le cosinus de l'angle entre le plan principal et le vecteur ej Si ce cosinus est grand, e i est voisin du plan, on pourra alors examiner la position de sa projection sur le plan par rapport d'autres points; si ce cosinus est faible on se gardera de toute conclusion.
N.B. : Cette mesure du cosinus est d'autant meilleure que ei est loign de g ; si ei est proche de g, la valeur du cosinus peut ne pas tre significative.
171
Bien que moins utilise, une mesure lie la distance entre ei et Ft.. semble prfrable: en particulier la quantit:
d(e fi) -;================ (signe de ci
i ;
'+1
qui compare la distance entre e i et FI; la moyenne des carrs des distances de tous les individus Fk prsente un intrt statistique certain (on peut la comparer une variable de Laplace-Gauss centre-rduite).
7.3.1.3
Certains logiciels prvoient la possibilit de superposer la reprsentation des individus (plan principal) et celle des variables (cercle des corrlations) avec ventuellement des chelles diffrentes.
Il convient d'tre trs prudent: en effet individus et variables sont des lments d'espaces diffrents: si une variable dfinit une direction de l'espace des individus elle ne peut tre rsume un point et on ne peut interprter une proximit entre points-variables et points-individus.
Les deux reprsentations individus et variables se compltent mas ne peuvent tre superposes, sauf en utllisant la technique particu lire du "biploe' (voir Gower et Hand, 1996).
7.3.2
Choix de la dimension
Le principal intrt de l'ACP consistant rduire la dimension de l'espace des individus le choix du nombre d'axes retenir est un point essentiel qui n'a pas de solution rigoureuse. Remarquons tout d; abord que la rduction de dimension n'est possible que s'il Y a redondance entre les variables Xl, x 2, . , xP : si celles-ci sont indpendantes, ce qui est un rsultat fort intressant en soi, l'ACP sera ineftcace rduire la dimension.
7.3.2.1
Critres thoriques
Ceux-ci consistent dterminer si les valeurs propres sont significativement diffrentes entre elles partir d'un certain rang: si la rponse est ngative on conserve les premires valeurs propres. On fait pour cela l'hypothse que les Tl individus proviennent d'un tirage alatoire dans une population gaussienne o k+ 1 = k+::! .. = Jl' Si cela est vrai la moyenne arithmtique a des k - p dernires valeurs propres et leur moyenne gomtrique 9 doivent tre peu diffrentes; on admet que:
+ 11 ) (p 6
- k) ln
(a) 9
k - 1)
. ., 'd 1 ' SUIt alors une 1 . du x- de degre e rh erte (p - k + 2)(p 01 2 thse d'galit des k
; on rejettera J'hypo-
172
On peut galement construire des intervalles de contiance pour les diffrentes valeurs propres en utilisant les formules de T. W. Anderson si Il est grand: si i est la iimc valeur propre de l'ACP, l'intervalle de confiance 95 % est donn par:
(voir chapitre 13) Ces proprits ne sont malheureusement utilisables que pour des matrices de variance dans le cas gaussien p-dmensionnel. Elles ne s'appliquent pas pour les matrices de corrlation ce qui est le cas le plus frquent en pratique; et ne doivent tre utilises qu' titre indicatif.
7.3.2.2
Critres empiriques
Ce sont en ralit les seuls applicables, le. critre de Kaiser est le plus connu: Lorsqu'on travaille sur donnes centres rduites on retient les composantes principales correspondant il des valeurs propres suprieures 1 : en effet les composantes principales seules les compoc tant des combinaisons linaires des zi de variance maximale V(c) santes de variance suprieure il celle des variables initiales prsentent un intrt.
.,
Cependant le seuil de ] ne peut tre considr comme absolu: 1.1 est-il signiticativement suprieur 1 ? Dans un travail rcent (Karlis, Saporta, Spinakis, 2003) nous avons montr l'intrt du critre suivant, inspir par une approche de type carte de contrle}) o on considre comme intressantes les valeurs propres qui dpassent leur moyenne (qui vaut ici 1) de plus de deux cart-types. Comme: et que l'esprance du carr du coefficient de corrlation entre deux variables indpendantes vaut Il (Il - 1), on trouve que:
E(f.f) =
1"'(
p + pep _- 1) n l
Nous proposons donc de ne retenir que les valeurs propres telles que:
> 1+
2~P - l 11-1
173
On recommande galement de dtecter sur le diagramme de dcroissance des valeurs propres l'exstence d'un coude (voir figure 7.8) sparant les valeurs propres utiles de celles qui sont peu diffrentes entre elles et n'apportent pas d'information. Il faut noter ici que les critres fOlmels bass sur les diftrences successives entre valeurs propres sont en gnral moins performants que l'inspection visuelle: nous ne les donnerons donc pas. Entin il faut rappeler avec force que les critres du type extraire au moins x % }) de l'inertie souvent prns par des praticiens, sont dnus de fondement et doivent tre bannis. car on ne peut donner de seuil universel sans tenir compte de la taille du tableau. et de la force des corrlations entre variables. Aucun des critres prsents n'est absolu: l'interprtation des rsultats d'une analyse relve aussi du mtier du statisticien.
7.3.3
7.3.3.1
Interprtation {{ interne
Corrlations (( variables - facteurs
)J
La mthode la plus naturelle pour donner une signitication une composante principale c est de la relier aux variables initiales xi en calculant les coefficients de corrlation linaire r(c; xj) et en s'intressant aux plus forts coefficients en valeur absolue. Lorsque l'on choisit la mtrique DI/s~ ce qui revent travailler sur donnes centresrduites et donc chercher les valeurs propres et vecteurs propres de R, le calcul de r( c ~ xj) est particulirement simple: En effet:
r( c ; Xl)
= r( c ; Zl) = - Sc
c'Dzj
comme V(c) =
. :
r(c; Xl) =
c'Dzi
~
(zj)'DZu
~
= R,
Ces calculs s'effectuent pour chaque composante principale. Pour un couple de compo~ santes principales Cl et c1 par exemp1e on synthtise usuellement les corrlations sur une figure appele cercle des corrlations o chaque variable x j est repre par un point d'abscisse r(c l ~ x';) et d'ordonne r(c 1 ; xi).
174
Ainsi la figure 7.6 montre une premire composante principale trs corrle positivement avec les variables 1, 2 et 3, anticorrle avec les variables 4 et 5 et non corrle avec 6, 7 et 8.
Axe 2
FIGURE
7.6
Par contre la deuxime composante principale oppose la variable nO 8 aux variables 6 et 7. On se gardera d'interprter des proximits entre points variables, si ceux-ci ne sont pas proches de la circonfrence. Dans le cas de la mtrique DlI,\'~ c'est--dire, rappelons-Je, de l'ACP sur donnes centres rduites, le cercle des corrlations n'est pas seulement une reprsentation symbolique commode: c'est la projection de l'ensemble des variables centres-rduites sur le sous-espace engendr par Cl et c2 En effet les zj tant de variance un, sont situes sur la surface de la sphre unit de l'espace des variables (isomorphe ~") (fig. 7.7). Projetons les extrmits des vecteurs zj sur le sous-espace de dimension 2 engendr par Cl et c2 (qui sont orthogonales) les projections tombent l'intrieur du grand cercle intersection de la sphre avec le plan Cl ; c 2. La projection se faisant avec la mtrique D de l'espace des variables, z se projette sur l'axe engendr par Cl en un point d'abscisse cos (zj; Cl) qui n'est autre que le coefticient de corrlation linaire r(x} ; Cl).
""'-----+-...... c 1
FIGURE
7.7
175
Le cercle de corrlation est donc, dans l'espace des variables, le pendant exact de la projection des individus sur le premier plan principa1. Comme k rapport:
2: r2(c k ; xi)
j=1
f1
mais cette quantit ne prsente que peu d'intrt en ACP et n'apporte rien de plus que le coefficient de corrlation.
7.3.3.2
Dire que Cl est trs corrle avec une variable xi signifie que les individus ayant une forte .. coordonne positive sur l'axe 1 sont caractriss par une valeur de xi nettement suprieure la moyenne (rappelons que l'origine des axes principaux reprsente le centre de gravit du nuage). Inversement s les individus ne sont pas anonymes, ils aident l'interprtation des axes principaux et des composantes principales: on recherchera par exemple les individus opposs le long d'un axe. Il est trs utile aussi de calculer pour chaque axe la contribution apporte par les divers individus cet axe. Considrons la kiml: composante Ck ~ sot C,d la valeur de cette composante pour le iil1lc individu. On a :
Il
2:Pi di = k i=1
La contributon de J'individu i la composante Cl est dfinie par:
.,
PiC[i
La considration des contributions, quand elles ne sont pas excessives, aide l'interprtation des axes. Normalement, et ceci surtout pour les premires composantes, il n'est pas souhaitable qu'un individu ait une contribution excessive car cela serait un facteur d'instabilit, le fait de retirer cet individu modifiant profondment le rsultat de l'analyse. Si ce cas se produisait il y aurait intrt effectuer ranalyse en liminant cet individu puis en le mettant en lment supplmentaire, s'il ne s'agit pas d'une donne errone (erreur de saisie ... ) qui a t ainsi mise en vidence. Cette remarque est surtout valable lorsque les individus constituent un chantillon et ne prsentent donc pas d'intrt en eux-mmes. Lorsque les poids des individus sont tous gaux 1/11 les contributions n'apportent pas plus d'information que les coordonnes. Lorsque Il est grand, il est souvent possible de considrer que les coordonnes sur une composante principale (du moins pour les premires composantes) qui ont pour moyenne 0 et pour
176
variance la valeur propre, sont distribues selon une loi de Laplace-Gauss. Alors
,k
est distribu
3.84/11. On pourra donc considrer qu'un individu a une contribution significative si elle dpasse 4 fois son poids.
7.3.3.3
Effet (( taille })
Lorsque toutes les variables Xj sont corrles positivement enlre enes, la premire composante principale dfinit un facteur de taille . On sait qu'une matrice symtrique ayant tous ses temles positifs admet un premier vecteur propre dont toutes les composantes sont de mme signe (thorme de Frobenius) : si l'on les choisit positives la premire composante principale est alors corrle positivement avec toutes variablest lesiridividus sont rangs sur l' axe 1 par valeurs croissantes de l'ensemble des variables (en moyenne). Si de plus les corrlations entre variables sont toutes de mme ordre la premire composante principale est proportionnelle la moyenne des variables initiales:
1 l' - 2:xj
P J=I
La deuxime composante principale diftrencie alors des individus de talle }) semblable: on }' appelle facteur de forme )).
7.3.4
Les interprtations fondes sur les remarques prcdentes prsentent le dfaut d'tre tautologiques: on explique les rsultats l'aide des donnes qui ont servi les obtenir. On risque de prendre pour une proprit des donnes ce qui pourrait n'tre qu'un artefact d la mthode: il n'est pas tonnant par exemple de trouver de fortes corrlations entre la premire composante principale Cl et certaines variables puisque Cl maximise:
2>2(C ; xJ)
i;1
On n'est donc pas sr d'avoir dcouvert un phnomne significatif. Par contre si l'on trouve une forte corrlation entre une composante principale et une variable qui n'a pas servi l'analyse, le caractre probant de ce phnomne sera bien plus lev. D'o la pratique courante de partager en deux groupes l'ensemble des variables: d'une part les variables ( actives ) qui servent dterminer les axes principaux, d'autre part les variables passives ou supplmentaires que t'on relie a posteriori aux composantes principales. On distinguera le cas des variables numriques supplmentaires de celui des variables qualitatives supplmentaires. Les variables numriques supplmentaires peuvent tre places dans les cercles de corrlation : il sutlit de calculer le coefi.1cient de corrlation entre chaque variable supplmentaire
177
y et les composantes principales Cl, c2 ... On peut alors utiliser les rsultats du chapitre prcdent pour dtecter une corrlation significative.
Une variable qualitative supplmentaire correspond la donne d'une partition des n individus en k catgories: on peut faire apparatre par des symboles diffrents les individus de chaque catgorie sur les plans principaux. En gnral on se contente de reprsenter chaque catgorie par son centre de gravit: on peut alors mesurer au moyen du rapport de corrlation la liaison entre une variable qualitative supplmentaire et une composante principale et vrifier son caractre significatif au moyen du F de Fisher-Snedecor (voir chapitre 6). Cependant la pratique la plus efficace consiste calculer ce que l'on appelle la valeurtest associe chaque modalit ou catgorie supplmentaire qui mesure sur chaque axe la diffrence entre ]a moyenne des individus concerns et la moyenne gnrale (nulle par construction puisque les composantes principales sont centres). Plus prcisment il s'agit de la diffrence divse par l'cart-type correspondant au raisonnement suivant (voir chapitre 12 el 20) : si les ll individus de la catgorie i tudie avaient t tirs au hasard avec probabilits gales parmi les Il de l'ensemble tudi, la moyenne cie leurs coordonnes sur
. . . k Il Il l'axe nO' seraIt une vana bl e a l' k eatolre d' esprance nul l e et de vanance - - -- - car l ' e tIrage
ni Il -
ail
En se rfrant la loi de Laplace-Gauss, ce qui se justifie si Il est assez grand, on dcidera qu'une modalit occupe une position significativement diffrente de la moyenne raie s en valeur absolue, lu valeur-test dpasse 2 voire 3. On peut galement ne pas faire participer l'analyse une partie des individus (on calcule les corrlations sans eux) ce qui permettra de vrifier sur cet chantillon-test des hypothses formules aprs uneACP sur les individus actifs. Tl est d'ailleurs immdiat de positionner de nouveaux individus sur les axes principaux puisqu'il suffil de calculer des combinaisons linaires de leurs caractristiques.
7.4
EXEMPLE
Les donnes concernent les caractristiques de 18 vhicules (anciens ... ) et figurent dans le tableau 17.1 page 428. Pour l'anulyse en composantes principales, les variables finition (qualitative) et prix ont t mises en lments supplmentaires, il y a donc 6 variables actives.
7.4.1
Valeurs propres
Comme les variables sont exprimes avec des unts diffrentes, on effectue l'ACP sur donnes centres rduites, ce qui conduit il chercher les valeurs et vecteurs propres de la matrice de corrlation R prsente en 6.1.2.3.
178
POURCENTAGE
POURCalTj,GE CUNULE
PROPRE 4.4209
0.8561 73.68
0.3731
0.2139
0.0928
6
99.28
100.00
0.0433
L'application des critres de choix de dimension ( 7.3.2) ne conduirait retenir qu'une seule valeur propre, ce qui moritibiii lurs limites. Nous conserverons deux dimensions"'" reprsentant 88 % de l'inertie. Remarquons que les intervaIJes d'Anderson des valeurs propres suivantes sont tous en dessous de 1.
BOENE INFERIEURE
1.4488 0.2806 0.1223 0.0701 0.0304
BORNE SUPERIEURE
7.3929 1.4316 0.6239 0.3577 0.1552
2 3 4 5
CORRELATIONS VARIABLE-FACTEUR
2
-0.11 -0.38 0.38 0.41 0.22 -0.57 -0.09
3
1}
cylinre
Puis - puissance
Long - longueur Larg largeur Poi - pois Vite - vitesse Prix prix
179
Facteur 2
0.8
0.4
largeur longueur
\ 1
poids
ire,
jPUiSSance
-0.8
-{l.a
-(l.4
0.4
0.8
Facteur 1
La prise en compte des variables supplmentaires montre en outre que la premire composante principale est lie la qualit et au prix.
DISTO.
Eini:.ion
F=3 ?=H
Finition~~
7.00
~i
O.':
0.1
0.1
finiticn=l-!
DO
(). 3
O.':
0.02
0.0)
!l.!l7
O. (17
-0.06
-0.06
.LO::'
-Jo
00
INDIVIDUS
~
.......
_-~-
CClOP.DONNEES
,
COl-l'I'RIBU'I' lOHS
P.REL
ALFASUD-'l'l-j 350 AUDl-100I.. SHlCA-1307-GLS
Cl'rROEN-GS-CLUB
S~56
DIS'['O
8
-2,14
-1.7'.l
-0.57
-0.20
O.:: i
0.30 -0.15
0.3 fi
5.
3,1
20.7 15.
-1.9
1.1
0.56
0.39
0.04
0.26
0.00
{J.Ol
O.DI
Il. 00
5.56
':J6
6.67
2. .16
1. :'3
-1.
-O.IG
25.ll
l
1.2
0.7
0.0
1.J
0.37
o.
.21
,00
O. li
-1.12
-2,5'/
{} ~ fi]
(J.li7
0, i.7
1.6
8.
D.
3.0
0.3 0.6
.8
! .
8.4
3.1
o.
0.98
D.
00
0"
0.01
0.07 .06
0.17
.03
.O::!
0.01
5.
G.8
1.1 .13
-0.11
-0
.1~
o.
0.63 0.5r.
-0,23
-0.2.6
FIAT-132-1GOOGLS
LANCT.;-BE1'A-1300
PEUGEG'l'-501
S.Su .56
5.%
':). SU
-0.70
o.~o
0.19
3.
10.2
IL 1.1
:>. .
.,
00
?7
1G
0.31,
30
0,68
-0.68
0.4:;
-{J.
0.1
O.:::
.6
11.9
0,08
0.03
0.40
0.01
1-.51
0.93
U.26
.52 0.59
CI
-o. :.D
-0.5J
-0.a5
-0 0.76 30
0.77 -0.5B
::n
.1. 8
~ ~~
O.Jl
0.67
Il. Al)
.SB
O.
tl. 05
O.OJ
lW,UUl'-16-1'L RF.lll\UL'1'-30-TS
TOYOTA-CClHor.Lf",
.64
::1,79
-1.9:'
.41
-].99
O.'Hl
-1. 06
-0.2]
-0.29
5.7
.56
5.5G
0.]7
,1
7.3
.,
10,J
1!l.6
5.1
B ~ Il
I~
k
.07
O.G:;
O.
.29
.46
1. 95
11.11
-o.
20,
o.
23.7
of.6
.-1
1.8
7. ,~
.EHl
f},O\
0.00
j.LPE'I'TA-l. [i6
5. 5.56
5.
. 5G
o ..[il
.0:1
2.9,\ 1.
- 0 . Ci:1
PRINCESS-ISOO-HL
Di\'l'SUN-}()OL W.UIJIlB-JOOO-GL
1.91 0.84
0.56
.49
0 90
-0.02
-0.2.2. 1.24 -0.28
0 63
-o.
0.18
-(J.05 0.07
0 3ll
0.2
D.n 15.0
0.7
23.0 1.2 0.1 9.!1 1.5 [LE!
3 ]
1.7
.0
0.2 O.J
8 5
Il. OD
.02 0.03
.01
.0:;
0.05
0 . 0"
{1.0~
1.3 10.
J.2
0.6
0.53
1
;J Il.!
'J
.0 1.5
':) J.
O.7B
0 . 21
0.14
n.OO (LOD
0 . () '1
1'.1
r:
.45
1. 9G
0,'100.1.0
Rf\.J1CHO
1,!';\ZDi\-9::?~'5
a. 3 6
-o.
-D.J'I -0.10
0 . H O . :2 (]
--<
ln
n
(!) ;J
5.56 5.56
O.
0.39
2.29 -2.71
-0.36 -0.10
D.14
.un
-(J.80 0 57
-o.
-0.34
0.38
O.
G.r) 9.2
0.3 0.1
(J.
0.3
1.5
.G
6.'1
."1
0.27.
0.86 0.93
0 19
(J.ao U.OO
O.H 0.02
0.02
OrEL-REi.:RD-I.
[j.OB .n
O.Oi {LOO
L.;DA-nOO
3 -c
Q
Q.J
III
;J r-t
III
III
-c ..,
;u
n '.
:f
if
181
Le plan principal donne la projection des 18 individus ainsi que les barycentres des modalits de la variable ( Finition ).
Facteur 2 - 1..\.27~~
1.50 RENAULT-16-TL
RANCHO SIMCA-130i-GLS
PEUGEOT-504 PRINCESS1BOQHL
0.75
LADA-1300
AUDI-l00-L
LANCIA-BETA'1300
Finilion""lI.f
0 :
DATSUN200L
o ..................................... l1li. .. _._._ ........ .. ---- .. ;11 ...... .......... ./111 .... .. .......... .. .............. -.............. .
TOYOTACOROLLA
Finition", TB
CITROE~.GS.ClUB
!
!
-0.75
1 FlAT-132-16ooGLS
RENAULT-3D-Tf
: AlFEITA-l.6
-3.0
-1.5
1.5
3.0
Facteur 1 - 73.68%
7.5
Ces mthodes (multidimensional scaling) ont le mme objectif que l'ACP : trouver une configuration de n individus dans un espace de faible dimension, mais les donnes de dpart , , "1 1. erentes ; ICI on ne connmt que es sont dft'
11(11 -
vidus, et non les variables les dcrivant. Le cas o l'on dispose d'une vritable distance euclidienne entre individus n'est qu~une version de l'ACP, le cas de dissimilarits conduit des techniques originales.
7.5.1
7.5.1.1
Soit il le tableau
et Si d est euclidienne, chaque individu peut tre reprsent dans un espace de dimension p (pour r nstant inconnue) par un point e tel que:
(e j
e)'(e j
e)
On peut en effet toujours supposer M 1 sinon on s'y ramne par la transformation T telle que l\tI = T'T. Si l'on place l'origine au centre de gravit, les produits scalaires wij = (e i ; e) sont alors entirement dtermins par les
d&.
182
V el posons
Il
Il
En effet:
. SOIt w IJ
d'o: car car l'origine est au centre de gravit. On a donc dT. =
1 = -- ( - d":IJ-: + :2
2:Wij = (e
j
i ;
2:e) = 0
j
lIedl:: + 1 et de mme d} =
l!ej
1 Matriciellement W = --ALiA oll A est l'oprateur de centrage A 2 double centrage en ligne et en colonnes de Li.
(ici;; w)
Connaissant uniquement les distances di}, on peut donc calculer les composantes principales, et faire une reprsentation euclidienne de l'ensemble des points dans un espace de dimension fixe, car les composantes principales ne sont autres que des listes de coordonnes sur une base orthogonale. La dimension de l'espace est alors gale au rang de W : on vrifiera que d est euclidienne si "V a toutes ses valeurs propres positives ou nulles. Remarquons que rang W < 11 - 1 car Il points sont dans un espace de dimension 11 - 1 au plus.
7.5.1.2
Une transformation permettant de passer d'une distance non euclidienne une distance euclidienne
Si d n'est pas euclidienne, ce qui se produit quand "V a des valeurs propres ngatives la mthode de la constante additive permet d'en dduire une distance euclidienne. Il existe en effet une constante c 2 , telle que B& = d~ + Cl avec Bii = 0, soit euclidienne. La matrice "VI) associe 0 est alors telle que:
183
comme
=1-
- , Wc
Il
Il'
= - - ((Il
c 2A 2
1)1 - IlA)A
= -- ((Il
c2 2
- 1)A - nA)A
= -A
c2 :2
car A2 = A.
Les vecteurs propres associs des valeurs propres non nulles de Wei sont centrs. Comme A est l'oprateur de centrage, ils sont vecteurs propres de Wc avec pour valeur propre c2 /2. Aux vecteurs propres de W d correspondent les vecteurs propres de W fi avec pour valeurs propres . + c 2 /2. Il suffit donc de prendre c2 = 21 .IJ 1o . II est la plus petite valeur propre de W d (ici ngative) pour que 8 soit euclidienne. Remarquons que cette mthode pennet galement de transfonner une dissimilarit (pour laquelle l'ingalit triangulaire n'est pas vrifie) directemenl en une disLance euclidienne mais sans doute au prix d'une dformation importante des donnes. La mthode prcdente (la plus connue) ajoute donc une constante aux carrs des distances. F. Cailliez a rsolu en 1983 le problme consistant il ajouter la plus petite constante
7.5.2
7.5.2.1
le MDS
Analyse dJun tableau de dissimilarits
Lorsque les dij ne sont pas des distances mais seulement des mesures de proximit o l'infonnation est de nature ordinale, il est souvent prfrable d'utiliser des mthodes semimtriques de positionnement (mu/tidimensional scaling) qui consistent rechercher une configuration de Il points dans un espace euclidien de dimension fixe telle que les distances 8 entre ces points respectent au mieux l'ordre dtini par d : si dij < dkl on cherche avoir 8ij < 8kl pour le maximum de points. Dans l'algoriLhme MDSCAL de 1. B. Kruskal, on cherche minimiser la quantit suivante appele stress: L(8ij - M(dij))2 min
C,.AI
~i.J,,-_ _ _ __
~(8ijf
,j
o M est une application monotone croissante. La mthode est alors la suivante: on part d'une configuration euclidienne obtenue par exemple l'aide de la formule de Torgerson avec constante additive et on cherche alors
184
M(dij))"!.
(rgression monotone) et on en dduit une valeur du stress. On modite ensuite la contiguration au moyen de petits dplacements des points selon une mthode de gradient pour diminuer le stress. On repasse ensuite la phase de rgression monotone, etc., jusqu' convergence. Une diffrence fondamentale avec l'analyse d'un tableau de distance euclidienne par ACP est que la dimension de l'espace de reprsentation doit tre fixe r avance et que les solutions ne sont pas embotes : la meilleure reprsentation trois dimensions ne se dduit pas de la meilleure reprsentation deux dimensions en rajoutant un troisime axe. Par ailleurs les distances dans l'analyse de Torgerson sont toujours approximes "par en dessous" car la projection raccourcit les distances. La solution du MDS est dfinie une transformation orthogonale prs (rotation, symtrie, etc.).
7.5.2.2
Pour les mmes Il individus on dispose de q tableaux de distances ou de dissimilarits (par exemple q juges donnent leurs apprciations sur les mmes objets). Le modle INDSCAL dvelopp par J.D. Carroll permet de donner une configuration unique des Il points et d'tudier les diffrences entre juges. On se ramne tout d'abord q matrices de distances euclidiennes par la mthode de la constante additive ~I, ~2, . , /j/l on note d~l la distance entre les objets i et j pour le tableau k. Le modle INDSCAL postule que:
r
xJf
En d'autres termes il existe une configuration dans un espace r dimensions pour les objets (coordonnes xD, les juges utilisant des mtriques diagonales diffrentes:
MI"
[1Il~).. .11~~k)
c'est--dire pondrant diffremment les dimensions sous-jacentes. Il s'agit donc de trouver une dimension r, les mtriques M(k} et la configuration X approchant le mieux les donnes ~(k). On convertt tout d'abord les tableaux ~(k) en tableaux W(k} de produits scalaires par la formule de Torgerson et on pose:
w~ IJ
=~ >.
f; 1
111 I I } (k) a~ li
+E
111
Si les m et les a sont connus on estime les b par les moindres carrs. Ensuite on estime les en fixant (l et b, puis les a en fixant les 111 et les b, etc. Les proprits de symtrie des tableaux W(k) impliquent que les a et les b sont cohrents ({l~ = b~) et l'algorithme converge. Rien ne prouve cependant que les nd k) obtenus soient positifs mais l'exprience montre qu'il en est ainsi dans la plupart des cas avec r faible.
185
7.6
L'ACP est une mthode linaire au sens o les composantes principales sont des combinaisons linaires des variables initiales et aussi parce qu'elle est base sur les coefficients de corrlation linaire. Si les relations entre variables ne sont pas linaires, l' ACP choue en gnral reprsenter correctement les donnes et extraire de nouvelles variables intressantes. On sat en effet que le coefficient de corrlation linaire peut tre faible en prsence de liaisons fortement non linaires (cf chapitre 6). La solution est alors de transformer les variables pralablement l'ACP, afin d'obtenir des corrlations plus lves et se rapprocher de la linarit, ce qui revienl se rapprocher de la normalit (cf chapitre 3 page 84).
7.6.1
Il est bien sur possible et souvent recommand d'utlliser des transformations analytiques classiques (logarithme, etc.), mais elles ne sont pas forcment optimales. Cette notion d'optimum doit tre : on cherchera en gnral maximiser le pourcentage d'inertie explique par les q premiers axes. La plupart du temps q = 2, mais Cf 1 correspond des solutions intressantes. Pour une variable donne Xj l'ensemble des transformations (I)i.\.) (au sens de carr intgrable) est bien trop vaste: il est de dimension infinie et conduit des solutions indtermines si 11 est fini, mme en imposant que la variable transforme soit centre-rduite(l). On se restreindra des ensembles de transformations correspondant des espaces vectoriels de dimension tinie. Les transformations polynomiales de degr fix conviendraient mais ont l'inconvnient d'tre trop globales et rigides. On leur prfre des transformations polynomiales par morceaux appeles fonctions splines. Soit x une variable dfinie sur [a, b] et k points intrieurs rgulirement espacs ou non, on appelle spline de degr d k nuds une fonction S(x) qui sur chacun des k + 1 intervalles est un polynme de degr d et est d - 1 fois drivable si cl> l, ou seulement continue si d = 1 (linaire par morceaux). Les splines de degr 2 ou 3 sont souvenl utilises pour leur aspect lisse Les splines permettent d'approcher toute fonction rgulire. Il est facile de montrer que les splines de degr d k nuds forment un espace vectoriel de dimension d + k + 1. Tout d'abord les combinaisons linaires de splines de degr d k nuds sont encore des splines de degr d k nuds. Sur l'intervalle If, le polynme est libre
.
I_Dans le cadre de l'ACP entre variables alatoires (n infini) le prublme admella solution suivante (sans dmonstration) lie l'analyse canonique gnralise de J.o. CaITOII.l.:l premire composante principale c des variables transformes de faon optimale vrifie donc tel que c (c ; <I)J (Xl)). Pour c fix max pL (c ; <Il) (Xi)) est atteint pour (Il/XI)
<Il;
E(C/Xl). c est
avec maximal.
186
FIGURE
7.8
et dpend de d + 1 paramtres, mais sur chacun des k intervalles suivants, les conditions de raccordement (continuit et drivabilit d - 1 fois) ne laissent plus qu'un paramtre libre, d'o le rsultat. Puisque l'ensemble destransformatioIlsspljne est u,!espace vectoriel, on peut exprimer toute fonction S(x) comme une combinaison linaire de d + k + 1 lment~' d'une base, ce qui revient dans un tableau de donnes X remplacer chaque colonne-variable par d + k + 1 colonnes. On utilisera pour sa simplicit une base permettant des calculs rapides: les B-splines. En voici deux exemples en supposant que a = 0 et b = l avec des nuds rgulirement espacs. Les splines de degr 0 qui correspondent des transformations constantes par morceaux (fonctions en escalier) :
o ...........................I-------i-------------i
i - - - - - -............................... ---~--------~
t-~~____..I
1
..........................
12
FIGURE
13
14
7.9
Les splines de degr 1 correspondent des transfolmations continues. linaires par morceaux. la figure 7.10 donne les cinq fonctions de base associes trois nuds.
187
BI(.~): 1 ~ (k
l)xslx
I(
0 SlOon
o~ o
o
o
B"')(X) = (k
1)x si x
E II
XE
2 - (k
l)x si
11
/ '~ /
.~
0 sinon
Bj+I(X) = ~k Bj+J(x) {
l)x
(k
(j - 1) six
J + 1
I)x si
XE Jj + 1
Bj+l(x) = 0 sinon
/ '~
11
12
13
/1
14
FIGURE
7.10
Nous ne donnerons pas les formules pour les degrs suprieurs, car de nombreux logiciels les intgrent. tant donn un point x seules d + l fonctions de base sont non nulles et de somme gale 1 (codage ~< flou). La recherche de la transformation de chaque variable ou combinaison linaire des B-splines. maximisant l'inertie du premier axe de l'ACP s'obtient en effectuant simplement l' ACP du tableau augment 11 lignes et p(d + k + 1) colonnes. La maximisation de la somme des inerties sur q axes requiert un algorithme plus complexe que nous ne dtaillerons pas ici. Les tranformations splines ne sont pas monotones: on peut aisment y remdier si l'on veut des transformations bijectives. Les B-splines tant positives leurs primitives sont alors des fonctions splines croissantes de degr augment d'une unit (I-splines) ; on effectuera alors des combinaisons linaires coefficients positifs (cf la. Ramsay, 1988).
7.6.2
La l<ernel ..ACP
Cette mthode rcente (B. Sch61kopf et al., 1996) consiste chercher non plus des transformations spares de chaque variable mais transformer tout le vecteur x = (Xl, x 1, ... , x fl ). Chaque point de E est alors envoy dans un espace (lJ(E) muni d'un produit scalaire. La dimension de clJ(E) peut tre trs grande et la notion de variable se perd. On effectue alors une analyse factorielle sur tableau de distances entre points transforms selon la mthode de Torgerson qui revient l'ACP dans (P(E). TOUL repose sur le choix du produit scalaire dans <P(E) : si l'on prend un produit scalaire qui s'exprime aisment en fonction du produit scalaire de il n'est plus ncessaire de connatre la transformation cP qui est alors implicite. Tous les calculs s'effectuent en dimension n.
188
7 . l'analyse en composantes
pnr)CIClalp,~in:&.m
Soit k.(x,y) un produit scalaire dans (P(E) et <x,y> celui de E. Les choix suivants couramment utiliss:
k.(x. y)
x, y)
+cyl
1 k(x, y) = exp 1
k(x, y)
2ertanh(x, y) +c)
!Ix - ~vii:!)
n suffit alors de remplacer la matrice W usuelle par celle o chaque terme est k.(x, y), de la centrer en lignes et colonnes et d'en extraire les vecteurs propres pour obtenir les composantes principales dans (p(E).
Pour que k(x,y) soit bien un produit scalaire, on doit vrifier les conditions de Mercer qui signifient que toule matrice symtrique de terme k(x,y) doit avoir des valeurs propres positives ou nulles.
8.1
Lorsque Il individus sont dcrits par deux ensembles de variables (en nombre p et q respectivement) on cherche examiner les liens existant entre ces deux ensembles afin de _,,_ savoir s'ils mesurent ou non les mmes proprits.
_ Exemples: Les deux groupes de notes des disciplines littraires et scientifiques; des rsultats d'analyses mdicales faites par deux laboratoires diffrents.
2 ...
11
On considre alors les deux sous-espaces de IRS II engendrs par les colonnes de XI et X:!, respectivement: et
W) et W2 sont les deux ensembles de variables que l'on peut construire par combinaisons linaires des variables de deux groupes. Ces deux espaces peuvent tre appels potentiels de prvision (Camiez, Pags, 1976).
Si ces deux espaces sont confondus cela prouve que l'on peut se contenter d'un seul des deux ensembles de variables, car ils ont alors mme pouvoir de description; s'ils sont orthogonaux, c'est que les deux ensembles de variables apprhendent des phnomnes totalement diffrents. Ces deux cas extrmes tant exceptionnels~ on tudiera les positions gomtriques de WI et W::: en cherchant les lments les plus proches, ce qui permettra en particulier de connatre dme HI) n W:::).
190
Si les applications directes de l'analyse canonique sont peu nombreuses, elle n'en COflsurUe pas moins une mthode fondamentale car sa dmarche (rechercher des couples de variables en corrlation maximale) se retrouve dans d'autres mthodes comme l'analyse des correspondances, la rgression multiple, l'analyse discriminante: si la dimension q de l'un des groupes de variables est gale l, l'analyse canonique est quivalente la rgression linaire multiple tudie au chapitre 17. Si un des groupes est compos des Cf variables indicatrices d'une variable qualitative (donnes rparties en q catgories) et l'autre de p variables numriques, l'analyse canonique conduit l'analyse factorielle discriminante prsente au chapitre 18. Si les deux groupes des variables sont composs respectivement des indicatrices de deux variables qualitatives p et q catgories, on obtient l'analyse des correspondances prsente au chapitre 9.
8.1 .1
On supposera que ~'l est muni de la mtrique D. La technique est alors la suivante: chercher le couple (b TI!) d\lcteurs norms o~! eW1et'YIl eW2 forment l'angle le plus.,~: faible ~ l et Tl, sont des combinaisons linaires respectives des variables du premier et du second groupe appeles variables canoniques. On recherche ensuite un couple (2' 'YI2) avec :! D-orthogonal , et 112 D-orthogonal Tli tels que leur angle soit minimal et ainsi de suite. On obtient ainsi les p couples de variables canoniques (on posera p = dim Wl et q = dim W;2 avec p :5 Cf). Notons AI et A 2 les oprateurs de projection D-orthogonale sur HI) et Wl respectivement.
Il est facile de vrifier que les expressions matricielles explicites de Al et Al sont (si dim WI = pet dim W2 = q) : Al
= X\(X;DXI)-lX~D
1I
Al = X2(X2DX:J-IX~D
8.1.1.1
Il s'agit de rechercher deux vecteurs ~I et 'YJ, de WJy tels que cos ('J)\> t) soit maximal. . En supposant pour l'instant que 'YJ\ et ~! ne sont pas confondus, on voit gomtriquement
o ~------------------------FIGURE
VV1
8.1
191
que 1')1 doit tre tel que AITII sa projection sur W I soit colinaire ~I' En effet, l'lment le plus proche de TIl est la projection D-orthogonale de TIl sur W I Rciproquement, TIl doit tre l'lment de W:! le plus proche de I (ou de A 11')1), donc TIl doit tre colinaire tl
A:2AITlt
Notre problme revient donc trouver les valeurs propres et les vecteurs propres de A::!AJ puisque A!AITII ITlI' Inversement, il est immdiat que ~I est vecteur propre de AJA! associ la mme valeur propre. , reprsente le carr du cosinus de ('angle form par 1']\ et " ce qui entrane
1 :s; l.
Le cas I = 1 nous donne ~I TIl' donc TIl E W n W!. Les vecteurs propres de A2 A \ appartiennent W 2 : en effet, en prmultipliant A 2A\1']\ = ,TI par Alan trouve puisque A~ A::AITI = ,A::TI, donc A:>.Tll 1'],; on trouve de mme que les vecteurs propres de AJA::! appartiennent li W 1
J
A::!,
Montrons que A2A, est diagonalisable: puisque les vecteurs propres de A2AI appartiennent ncessairement W::! il suffit d'tudier la restricton de A::!AI W2 .
THORME
y> =
x'Dy
K,
y E W2 :
on a :
= (x; AtY)
=(A\x;y)
= (AIx; A 2y)
W2
(A 2A l x;y)
c.q.f.d.
Ceci entrane que la restricton de A:2AI W::!, et par suite A2At. est diagonalisable, ses vecteurs propres sont D-orthogonaux et ses valeurs propres j sont relles. De plus, les . j sont:;::::: 0 car A] et Al sont des matrices positives.
AlA, possde au plus min (p, q) valeurs propres non identiquement nulles. L'ordre de multiplicit de J = 1 est alors la dimension de W1n W2 ; les vecteurs propres associs des valeurs propres nulles de rang infrieur q engendrent la partie de W:! D-orthogonale W\.
192
Les vecteurs propres ~i et l1i D-norms de A,A::: et de AzA, sont associs aux mmes valeurs propres et vrifient les relations suivantes:
11~ D1'Jj
=0
et
pour i::foj
8.1. 1.2
Les variables canoniques ~i et l1i s'expriment comme combinaisons linaires des colonnes de XI et X::: respectivement: et Les ai et b i sont les facteurs canoniques qui s'obtiennent directement de la manire suivante:
AI A2~i
= i~i :>
A 1A 2X [a,
= iX,a;
Si le rang de XI est gal au nombre de ses colonnes, on peul simp1ifier de part et par XI (multiplication par (X~ XI )-'XD et on trouve:
(X;DX,)-IX~DX2(X2DX2rIX2DXlai
= iai
=0
les matrices X;DXj s'interprtent comme des matrices de covariance. On note usuellement:
V" V22
X;DX 1
= X~DX2
= (V,:!)'
= iai = jb
j
et les valeurs propres sont les carrs des coefficients de corrlation canonique entre les variables canoniques. Sur le plan pratique, on diagonalisera videmment la matrice de taille la plus faible.
193
Comme on a: ~ XIa; et 'lli = X::b i si l'on dsire que les variables canoniques soient de variance unit, on normera les facteurs principaux de la manire suivante: et
On en dduit:
_ 1 _1 b1 - -V" V'la1
.Ji:; -- -
et
_ 1 _1 a.--V11V\.,b. 1 _h - 1
-V i
Comme seuls comptent les sous-espaces WI et W::, il est quivalent de travaller avec des variables de variance 1. On utilisera donc en gnral les matrices de corrlation RII' RI:!, etc la place des matrices de variance.
8.1.2
Deux sortes de reprsentations sont possibles selon qu'on choisit les variables canoniques de WI ou de W:!> Si l'on fait choix de W] on reprsentera l'ensemble des variables de dpart D-normes (colonnes de XI et de X 2 ) en projection sur la base D~orthonorme forme par les ~j. En particulier, la projection sur le plan engendr par ~I et ~2 donne un cercle des corrlations (fig. 8.2) car, s les colonnes de XI sont D-normes ainsi que celles de Xl' les composantes sur la base des ~i sont les coefficients de corrlation entre les variables initiales et les variables canoniques.
- + - - - - - j - - - - ' - - - i - ~1
FIGURE
8.2
Xt
Si x" est la kii!me colonne de XIan a x~D~1 = X"DXI31 ; le coefficient de corrlation entre et ~I est la killlc composante de V lI al car Xk est gal Xlo" o l' est le vecteur de IR" dont toutes les composantes sont nulles sauf la kimt! qui vaut 1. Si YI est la
zime
colonne de X 2
la corrlation entre YI et ~i est alors la ziemc composante de V].[ai ou encore la li~H1C compo~ sante de ~IV 22b j
194
v,"-":ll"\'.,_
Si les colonnes de Xl et X:! ne sont pas D-normes il faut diviser les expressions dentes par les normes de Xk ou YI' Les reprsentations sur (Sb S2) et (111- ''-12) sont d'autant plus voisines que ] et 2 proches de 1. Pour les individus deux reprsentations des individus sont possibles selon les canoniques choisies.
var]at)lf'~
Si l'on choisit le plan dfini par (g[, gz) les coordonnes dufi:mc point sont lesjime posantes des variables canoniques SI et S2'
8.1.3
On peut arrter l'extraction des valeurs propres et des vecteurs propres au moyen du de Bartlett. L'hypothse que les deux ensembles de variables sont indpendants revient tester [ :: Si cette hypothse est rejete, on teste la nullit de ""1' etc. D'une faon gnrale, si [. 2, . , k sont jugs signiticativement diffrents de zro, on teste la nullit des valeurs propres suivantes en utilisant la quantit:
- [Tl -
1 - Ir. -
~ (p + Cf +
2
1)
+ ~] ln (lUil
i=Ii
k+1
rr
f/)(1 -
J)
de
k +2"')
1 (donc
est
Le test prcdent n'est valide que dans le cas de variables normales et ne s'applique en aucune faon aux cas particuliers que sonl l'analyse des correspondances et l'analyse discrimnante.
8.2
L'analyse canonique est une mthode faisant jouer des rles symtriques aux deux groupes de variables. Si l'un d'entre eux est privilgi diverses approches sont possibles.
8.2.1
On suppose ici que les deux groupes de variables ont mme dimension (cas auquel on peut toujours se ramener en rajoutant des coordonnes nulles) afin de confondre les espaces W1 et W2' On dispose donc de deux cartes p-dmensionnelles des mmes des procds diffrents et on cherche les comparer.
11
Le principe consiste alors tixer l'une des deux configurations (le tableau XI) et faire subir l'autre une transformation gomtrique simple eX 2 = X 1T) telle que les deux configurations deviennent les plus proches possibles, un critre naturel tant: mJn
1/
ill~
X 2T)']
195
Ce type de problme se rencontre en particulier pour comparer des solutions diffrentes de multidimensional scalillg o les axes ne sont pas les mmes. On suppose dans la suite que les poids des individus sont gaux d'tendre les rsultats au cas gnral.
1/11,
Si T est une transformation quelconque la soluton des moindres carrs est donne par:
En gnral, on impose T d'tre une transformation orthogonale: l'ide est de faire subir il l'une des deux configurations une srie de rotations, symtries, retournements de faon l'amener le plus possible sur l'autre. Le problme devient: avec
TT' = 1
soit p( p
+
2
1) contraintes.
TT'
Trace (XI - X 2T) (XI - X:!Tf Trace X1X'1 + Trace X 2TT'X; - 2 Trace X~X2T. Si Ion voit que T doit maximiser Trace V I2T sous la contrainte TT' = 1. Introduisons alors la matrice A/2 symtrique de taille p des multiplicateurs de Lagrange
aSSOCieS
.,
aux
pC p 2 +
1)
Trace [ V "T -
~ A(TT' -
1)]
en drivant cette expression par rapport la matrice T on obtient le systme d'quations: soit
d car - Trace V l 1T = dT -
V11
et
V 21 = VSU' o S est la matrice diagonale des valeurs propres de Y!IV I2 , V la matrice orthogonale des vecteurs propres norms de V21 V12' U la matrice orthogonale des vecteurs propres norms de V 12V 21
On en dduit:
A = VSU'T' = TUSV'
d'o A2
car
A est symtrique
VSV' et V 21
= AT donne VSU'
VSV'T
IT =vu'j
196
8.2.2
Mthodes factorielles
Leur principe consiste chercher des combinaisons linaires de variables d'un des groupes vrifiant certaines conditions ou contraintes lies ]' existence du deuxime crrnl1~~.""<' de variables. Selon que l'on cherche se rapprocher du deuxime groupe ou au contraire s'affranchir de son intluence on pourra utiliser:
8.2.2.1
On recherche des combinaisons linaires ~ des variables du premier groupe expliquant le mieux les variables du deuxime groupe. C. R. Rao a introduit le critre sUvant :
/112
En pOPcl1t~. :::::HX,a, ce critre revient rendre maximale la somme des variances ques soit un coefficient prs:
2:(x~)' ~(~'~)-I f(x~)
j=l
IJ!'
je;: ,
V a
a'V; la
a'Vlla
a est donc vecteur propre associ sa plus grande valeur propre, de la matrice:
1
Vl lV 12V 211
Les valeurs propres suivantes conduisent d'autres solutions non corrles entre elles. Lorsque X2 est un ensemble de variables de variance unit, ~ est la combinaison des variables de XI la plus corrle avec les variables de X2 au sens o :
IHI''-'(.UH,,,,;'
Oh
On reconnat ici une expression voisine du critre usuel de l' ACP rduite: ici on les corrlations avec des variables externes. Les variables ~ sont les composanLes principales de l'ACP de XI avec pour mtrique: M = V, IV I2V 2,V,1 = (Vl'V'2)(VIIV12)' ou, ce qui est quivalent, les composantes principales du tableau X,Vl'V 12 avec la mtrique identit: en d'autres termes on effectue: l'ACP des projections des variables de X 2 sur Xl' Le coefficient de redondance de Stewart et Love entre deux groupes de variables: R2(X 2 : Xi) (notons que R2(X, : X 2) =f= R2(X 2 : XI : . est: R-(
., X
2:.i ,)
197
1
Lorsque V:;:;
= R 11
L R1(X~; XI)
1112
1Il2j=J
moyenne des carrs des coefficients de corrlation multiple des rgressions des x~ sur XI' On voit alors que les composantes principales des variables instrumentales ~ sont les combinaisons linaires des colonnes de XI ayant une redondance maximale avec X:!. On vrifie aisment que ~ est vecteur propre de AI W:'. o : et
8.2.2.3
Une autre manire d'liminer l'intluence des variables extrieures X:! consiste utlliser la matrice des covariances (ou des corrlations) partielles de Xl X:; fix:
VIII:! = Vll V I2V 2 :!IV:'!1
On cherche alors les vecteurs propres de cette matrice_ Il s'agit ici d'une ACP du nuage des rsidus des rgressions des variables de Xl sur Xl : les composantes principales ne sont pas ici des combinaisons linaires des variables de XI_
8.3
la difficult suivante: il n'existe pas de mesure simple de la liaison entre plus de deux
variables. Il y aura donc autant de faons d'obtenir des variables canoniques que de manires de dtinir une corrlation ~) entre p variables: on peut prendre par exemple comme mesure la somme des corrlations deux deux, la somme des carrs des corrlations, le dterminant de la matrice des corrlations, etc. Toule gnralisation est donc plus ou moins arbitraire. Celle que nous prsentons ici a l'avantage d'tre sans doute la plus simple et la plus riche d'interprtations, car elle se relie aisment toutes les autres mthodes d'analyse des donnes.
8.3.1
tant donn deux ensembles de variables centres Xl et X;!, les variables canoniques ~ et 11, vecteurs propres de A lA] et A2Al respectivement, possdent la proprit suivante:
~
198
V::II"',,,k'I_..:.'cC'!,,,
En effet, posons z tel que (A, + A 2)z = I-lz ; en prmultipliant par AI ou quation, on trouve en utilisant r idempotence de At et A 2 :
et
(I-l - lfA,z
= (I-l
- l):!A:;z
donc au mme coefficient multiplicateur prs, A!z et A 2z ne sont autres que les VilllutllestJ*! canoniques ~ et 'YI ; comme A ,z + A:!z = I-lZ on trouve I-lz ~ + 'YI, ce qui dmontre proprit annonce (fig. 8.3).
FIGURE
8.3
La variable z possde la proprit d'tre la plus lie aux deux ensembles XI et X:!. en sens qu'eHe a une somme des carrs des coefficients de corrlation multiple maximale XI et X 2 . En effet, le coefficient de corrlation multiple de z avec Xi vaut:
car les variables tant centres, Ri est le cosinus de l'angle form par z et Wj
8.3.2
De la proprit prcdente dcoule la gnralisation suivante due 1. D. Carroll: plutt;' que de rechercher directement des variables canoniques dans chacun des sous-espaces W; t associs des tableaux de donnes Xi> on cherche une variable auxiHaire z appartenant la; somme des Wj telle que
l'
199
On obtient ensute, si ncessaire, des variables canoniques ~i en projetant z sur les Wi (X I IX2 1 ...
SOUS
11
la forme Xb et plutt que de rechercher z comme vecteur propre d'une matrice vaut mieux chercher b qui possde SnI i composantes. Comme Ai = Xi(X~DX)-!X;D, en posant Vu
Il,
n il
V -I 11 V -I 22
matrice bloc-diagonale des Vii l, on
v- I Pl'
p
l'
i=!
;=!
Donc z est vecteur propre de Xl\tIX'D, et puisque z = Xb, si X est de plein rang, b est vecteur propre de MX'DX :
XMX'Dz
= /.lZ
l\tlX'DXb = /.lb
On reconnat alors les quations donnant les composantes principales et les facteurs principaux, dans l' ACP du tableau total X avec la mtrique M. En particulier si chaque groupe est rduit une seule variable (mi retrouve l'ACP avec la mtrique Dl!s~ puisque z rend alors maximal
= l, i =
i=!
l, 2, ... , p) on
L'analyse canonique gnralise est donc une ACP sur des groupes de variables, ce qui nous ramne une optique de description des individus tenant compte des liaisons par blocs plutt qu' une optique de description des relations entre variables. On a toujours 2:J.Lk = 2:111 i Si /.l = p, il existe une intersection commune tous les lVi . Les variables canoniques ~~k) que l'on dduit des zU:.) par projection orthogonale sur les
Wi ont alors la proprit suivante, du moins pour l'ordre 1 : le p-uple (t)I), ~~I), ... , ~;,1) a une
matrice de corrlation dont la plus grande valeur propre Contrairement l'analyse canonique usuelle avec p
I
= 2, il n'y
200
On verra au chapitre lOque si chaque groupe est celui des variables indicatrices de p variables qualitatives, l'analyse canonique gnralise conduit l'analyse des correspon_ dances multiples. L'analyse canonique gnralise de Carroll n'est pas la seule mthode de traitement simultan de p groupes de variables; de trs nombreuses techniques ont t proposes: la mthode Statis, l'analyse factorielle multiple sont les plus connues. Le lecteur intress est invit consulter les ouvrages de B. Escofier, du Ger, ains que l'article de synthse de P. Cazes (2004) cits en bibliographie.
L'analyse des
correspondances
Cette mthode a t propose en France par J.-P. Benzcri dans le but d'tudier la liaison (dite encore correspondance) entre deux variables qualitatives; un exemple de correspondance nous est fourni, par exemple, par la ventilation des sjours de vacances selon le mode d'hbergement eL la catgorie socio-professionnelle (CSP) (voir chapitre 6, 6.5). Sur le plan mathmatique, on peut considrer l'analyse des correspondances soit comme une analyse en composantes principales avec une mtrique spciale, la mtrique du X2 , soit comme une variante de l'analyse canonique. Nous dvelopperons ces deux aspects en accordant toutefois la prfrence l'aspect analyse canonique qui a entre autres avantages de respecter la symtrie entre les deux variables el de gnraliser sans difficult l'ana1yse des correspondances plusieurs variables qualitatives.
9.1 9.1.1
TABLEAU DE CONTINGENCE ET NUAGES ASSOCIS Reprsentations gomtriques des profils associs un tableau de contingence
Le tableau des donnes est un tableau de contingence N ml lignes et 1112 colonnes rsultant du croisement de deux variables qualitatives 1/11 el 111 2 catgories respectivement (voir chapitre 6, paragr. 6.5). Si
r on note DI et D'2. les matrices diagonales des effectifs marginaux des deux variables:
Ill.
Il,!.
o
D}
n. 1
n.2
Dl =
0
Il ..
-.!l.. eSL
11 i.
202
affect d'un poids proportionnel sa frquence marginale (matrice de poids: Le centre de gravit de ce nuage de points est:
~' ).
Il.,
Il
P.I
c' est--dire le profil marginal. Rciproquement, les profils-colonnes fonnent un nuage de poids donns par la matrice D
Il 2 ;
111::..
Pour garder les conventions du chapitre 7, les profils des colonnes de N sont les lignes du tableau transpos D l N' (<< individus en lignes, variables en colonnes). Dans le cas de l'indpendance statistique: et
Il 11 .J
Il
les deux nuages sont alors rduits chacun un point, leurs centres de gravit respectifs. L'tude de la forme de ces nuages au moyen de l'analyse en composantes principales permettra donc de rendre compte de la structure des carts r indpendance mais il faut choisir alors une mtrique pour chacun de ces espaces.
FIGURE 9.1
203
Remarquons que les profils ayant pour somme l, les 11/1 profils-lignes sont en ralil situs
III>
1112
l (avec en plus x)
0) ainsi
que leur centre de gravit (fig. 9.1). De mme pour les rn2 protils des colonnes.
9.1.2
la mtrique du X2
pour calculer la distance entre deux profils-lignes i el i' on utilise la formule suivante:
11 s'agit donc de la mtrique diagonale nDil, La considration suivante justifie dans une certaine mesure l'emploi de la distance du X1 La pondration par
:
!!... de
11.)
comparables aux diverses variables ) : ainsi, dans l'exemple de la correspondance modes d'hbergement X CSP, (voir chapitre 6 et 9.3) si l'on calculait la dislance entre deux modes par la formule usuel1e : somme des carrs des diffrences des pourcentages des diverses CSP , il est clair que cette distance reflterait surtout la diffrence entre les CSP les plus importantes en nombre; pour pallier cet inconvnient la division par Il.} est un bon remde (quoiqu'un peu arbitraire). L'argument le plus frquemment utilis en faveur de la mtrique du X'2 est le principe d'quivalence distributionnelle: si deux colonnes de N,.i et j', ont mme protil il est logique de les regrouper en une seule d'effectifs (ni} + 11;/.), il faut alors que cette opration ne modifie pas les distances entre profils-lignes. On vrifie en effet par simple calcul que:
Ji
(11 ij Il.)'
Il i'j 11 1. .,
n.) ni.
)" + (
11
n ij'
Tl /. .
H /., .
Il, .J
)'
- _
11 11' J .11 ., . J
11 ij
+
11 1. .
11 li'
Il i'j
+ Il i'J'):!
Il i',
lorsque
Il ..
.-Ji.
Il,}
Cette proprit n'est pas vrifie pour la mtrique euclidienne usuelle. Lajustification la plus profonde, mais la plus difficile, est en fait la suivante: les profils-lignes sont des lois de probabilit sur des ensembles finis de ml lments (les modalits de la deuxi~ me variable). Au moyen de l'esprance mathmatique, ces lois de probabilit sont associes des formes linaires (qu'on leur identifie) sur les variables quantitatives compatibles avec la deuxime variable qualitative. Ces variables quantitatives (qui ralisent une quantification de la deuxime variable qualitative) formant un espace vectoriel, les individus sont donc des lmenL~ du dual de cet espace (pas tout le dual, mais un simplexe de ce dual). Les modalits de la deuxime variable ayant pour poids P.I' P.:!, ... , les variables 1 quantitatives associes sont munies de la mtrique - D:! qui est la mtrique de la covariance,
11
204
si l'on se restreint des codages centrs. Le dual doit donc tre muni de la mtrique inverse
nDi l .
On dfinit de mme la mtrique du X:! entre profils-colonnes (matrice nDl1) par la fonnule :
Le terme de mtrique du X:! vient de ce que les deux nuages ont alors pour inertie totale la quantit mesurant l'cart l'indpendance :
cp:! = 1 L
Il
(nu -
Il, Il ,)1 ~
Il
(voir chapitre 6)
11 i. 11 .j
11
Il,
;=1 Il
III 1
1111
Il,
Il
('1"
'.1
- -
11 ,)2
.}
IIi.
Il
ce qui donne cp:! aprs un calcul lmentaire. Il en est de mme pour l'inertie du nuage des profils-colonnes. Nous avons remarqu que le nuage des points profils-lignes tait dans un sous-espace \VI : le vecteur Og, est alors orthogonal au sens de la mtrique du X2 ce sous-espace (fig. 9.2) :
o
FIGURE
9.2
En effet, soit
x un lment de W1 :
(x - gl)'I1Di l g, = < Og[; g,x >x!
=0
car:
x'l
L
= 1 donc g; 1 =
l.
De plus "gdl~~
= gl =
205
9.2
Deux ACP sont alors possibles: 1) Celle du nuage des profils-lignes avec: - tableau de donnes X = DtlN ; - mtrique M = uDi l ; _
2)
poids
= Dl.
Tl
(Le tableau des profils colonnes est ND;-I mais, pour garder l'usage de mettre les "individus" en ligne, il faut le transposer; d'o X = DilN') ;
mtrique poids
LVi D
= IID I l = D 2
11
9.2.1
= X'DX
- gg'.
D'aprs la proprit tablie la fin du paragraphe 9.1.2 Og est orthogonal au support du nuage, il est donc axe principal, c'est--dire vecteur propre de VM, associ = O. Les vecteurs propres de VM sont alors les mmes que ceux de X'DXl\t1 avec les mmes valeurs propres sauf g qui a pour valeur propre L. En effet gg'M est de rang 1 et :
X'DXl\'1
d'o:
VM
+ gg'M
X'DXMg
Il est donc inutile de centrer les tableaux de profils et on effectuera des ACP non centres: la valeur propre l dont on verra plus tard qu'elle est maximale sera ensuite liminer. A cette valeur propre triviale est associ l'axe principal g et le facteur principal constant:
206
9.2.2
Il suffit d'appliquer ici les rsultats du chapitre 7 : les facteurs principaux sont les vecteurs propres de lVIX'DX, les composantes principales les vecteurs propres de XlV!X'D. 1 Pour les lignes on a X = D,'N d'o X'DX = - N'D,IN, MX'DX = D1 1 N'D l Net J XlVIX'D = Di' ND 1 N'. n Pour les protils-colonnes il suftit de transposer N et d'inverser les indices 1 et 2, comme le montre le tableau 9. t :
TABLEAU
9.1
---------4-----------------------Vecteurs propres de
D;-' N'D,' N
normaliss par
b / D:! b = X.
a' D I a n
= X.
On constate que les deux analyses conduisent aux mmes valeurs propres et que les facteurs principaux de l'une sont les composantes principales de l'autre ( un coefficient multiplicateur prs). En pratique on s'intresse ici exclusivemenL aux composantes principales pour obtenir directemenL les coordonnes factorielles des points reprsentatifs des profils-lignes ou colonnes. On remarque que les matrices ayant comme vecteurs propres les composantes principales sont les produits des deux matrices [D,' N] et [D1"' N'l dans un ordre ou dans l'autre: Les coordonnes des points-lignes et points-colonnes s'obtiennent en cherchant les vecteurs propres des produits des deux tableaux de profils. La parfaite symtrie entre ACP des profils-lignes et ACP des profils-colonnes conduit alors superposer les plans principaux des deux ACP atin d'obtenir une reprsentation simultane des catgories des deux variables croises dans le tableau de contingence N. Cette pratique sera justifie plus en dtail au paragraphe 9.4.4 Les cercles de corrlation n'ayant aucun intrt ici dans le contexte de variables qualitatives l'interprtation des composantes se fait essentiellement en utilisant les contributions des diverses catgories aux inerties des axes factoriels, c'est--dire aux valeurs propres.
207
CTR(i)
11
-.:L (b.f-
Il-
On a de mme:
CTR(j) =
--
Comme en ACP on considre ra les catgories ayanlles plus fortes contributions comme constitutives des axes: un critre simple consistant retenir les CTR(i) > .....!:. La contribution
11
JI-
doit tre complte par le signe de la coordonne car certaines catgories peuvent avoir des contributions de sens opposs. Remarquons qu'ici
n 2: -.!.:.lli = L _hj =
i
Il
11
Y avor d'effet de taille car les coordonnes des points ne peuvent tre toutes positives ou toutes ngatives.
9.2.3
Formules de transition
Les coordonnes des points-lignes et les coordonnes des points-colonnes sont relies par des fom1UJes simples dont le premier intrt est d'viter de raliser deux diagonalisations. On diagonalisera la matrice la plus petite, par exemple Dt ND l ' N' si 1111 < ln"].. Connaissant les solutions a de l'quation:
il suffit de prmultiplier les deux membres de cette quation par Dli N' pour obtenir un vecteur proportionnel b :
= kD2'1 Nia. Pour dterminer k il suffit ., Di k2 b ' -= b = soit k-a'ND;1 -=. D;I Nia = II -11 n
D-,
a il vient
k 2 a '
d'utiliser la condition de
a'ND;1 N'a 1l
=
.
Comme
Dl
DI a
Il
= soit P =
1 puisque a' Dl a =
208
On a donc les formules suivantes pour chaque axe: soit soit
l'Jj -
'l.
111\
Il"
1 }l.j
avec:
a=
b=
.Ces formuls dites de transition sont des formules pselldo~barycentriques au sens suivant
...J'X. prs la coordonne d'une catgorie i d'une variable est la moyenne des coordonnes des
catgories de l'autre variable pondres par les frquences conditionnelles du profil de i.
9.2.4
9.2.4.1
Nous avons dj vu que l'inertie totale des deux nuages tait gale au <.pl, En liminant la valeur propre triviale on a donc si 111,
1111-
<
m2 :
~ . k =
k=l
<.p2
car il Y a au plus min 111, - 1) ; (m2 - 1)) valeurs propres. Chaque direction principale explique une partie de l'cart l'indpendance mesure par le <.p2, Les pourcentages de variance (ou d'inertie) sont donc les
.d <.p'2 ,
P. Cibois (1983) a mis en vidence la proprit suivante qui montre que l'analyse des correspondances tudie la structure des carts l'indpendance plus que les carts eux-mmes; Le tableau N* dfini par:
~+a, ",.-~
1l
1)
n,
11 '
11 ,)
JI
a mmes marges que N donc mme tableau d'indpendance mais des carts il l'indpendance. rduits de ct (si 0 < ct < 1). L'analyse des correspondances de N* est alors presque identique celle de N : mmes' graphiques, mmes pourcentages d'inertie, mmes contributions. Seul <.p2 et les valeurs pro pres ont chang :
(<.p2r~
a'2 .
Un utilisateur ne regardant que les pourcentages et non les valeurs absolues ne verrait aucune diffrence. Le problme est alors de savoir si l'on analyse des cart." significatifs ou non.
des correspondances
209
Formule de reconstitution
La formule X
= L cl;,uJ,lVl- 1 tablie
k
profils-lignes, CI;, vecteur des coordonnes des lignes sur r axe na k, Uk facteur principal (identique au vecteur des coordonnes des colonnes sur r axe k divis par ~) et IVI = llD~ 1. On a alors:
...21
Tl i .
n..
= 2: _1_-'_
k
a!k)//k)
-{
Il
mais il faut utiliser tous les facteurs y compris le facteur trivial correspondant h = l, d'o :
Il s'agit donc bien d'une reconstitution des carts l'indpendance l'aide des coordon"'isfactorielles des points associs aux profils-lignes et aux profils-colonnes.
9.2.5
L'AFC est une ACP particulre mais on ne peut appliquer exactement les mmes rgles car la mtrique du khi~deux n'est pas la mtrique usuelle. On peut ne retenir que les valeurs propres suprieures leur moyenne comme le fail la rgle de Kaiser, mais cette pratique est peu usite. La rgle du coude reste cependant valide, mais est toujours quelque peu subjective. Lorsque la taille de l'chantillon le permet, le critre suivant propos par E. Malinvaud peut se rveler trs efficace. Il est bas sur la comparaison entre effectifs observs lIu et effectifs calculs raide de la formule de reconstitution dans le contexte suivant: on fait l'hypothse que [es donnes forment un chantillon tir alatoirement et avec quiprobabilit dans une population teHe que Pij = Pi.P.j(l
sous-jacente est un tableau de rang K. Dans ces conditions, si ,ij};) case ij, raide des K premiers
= (n i .ll d )
11
(1
axes~
Il
ii)
K :!
I.j
Il i.ll~i
Il
suit asymptotiquement une loi du X (1' - K - 1) (q - K 1) degrs de libert. Il s'agt donc d~une gnralisation du test d'cart l'indpendance qui correspond au cas K = O. On trouve sans difficult que QK se calcule l'aide des valeurs propres et est gal rI fois l'inertie au del de la dimension K :
QK
n(l - hl - h 2 -
o r ::::: lIlin(p - l ; q - 1)
210
9. L'analyse des
I..c,-,o.ll,rr,e5J)Orldance~..
-.
-.,
On peut donc tester successivement les valeurs de K depuis K = 0 (hypothse " l' 1" dance),jusqu au moment ou on ne peut p us rejeter ajustement.
;
'l1e1'::.
r
.i.
i
Les conditions d'application sont celles du test du khi-deux: effectifs thoriques au 1I1ins gaux 5. Cependant si :' est tr.s lev le test ~on?~it ~onserver un .tr~p grand nombre de) valeurs propres: on ne l' emplOIera que pour Il mfeneur a quelques millIers. "'.
9.3
UN EXEMPLE
Nous avons soumis l'analyse des correspondances (logiciel SPAD Version .'. le tableau de contingence sur les vacances des franais en 1999 dj tudi dans le: chapitre 6. Le tableau des valeurs propres montre clairement que deux axes suffisent dcrire la liaison entre la catgorie socio-professionnelle et le mode d'hbergement:
.. c
;'
..'~
'.
....
NUHERO
POURCENT.
POUHCENT.
C-1ULE
1 2
61.24
23.70
3 4 5 6 7
*
...
Ici le test de Malinvaud est inoprant car 11 = 18352 est trop lev.
Les tableaux suivants permettent de reprer les modalits ayant des contributions significatives : Sur l'axe 1 Hotet, Rsidence seconda re lis avec retraits et opposs tente et ollvriel: L'axe 2 est caractris par Rsidence secondaire de parents et amis et
i
cadres.
On retrouve des associations dtectes par la dcomposition (figure 9.3) du khi-deux, mais le graphique pennet de les illustrer de manire vocatrice. Rappelons que l'interprtation des proximits sur le graphique doit respecter certains principes: si deux modalits d'une mme variable sont proches et bien reprsentes, cela signifie que leurs profils sont semblables (c'est le cas d' ouvrers et employs par exemple qui frquentent les mmes lieux dans des proportions proches). Par contre la proximit entre une modaHt d'une variable et une modalit de l'autre, comme prt~fession illfermdiaire et village de l'acances, est plus dlicate interprter: ce que l'on peut seulement dire c'est que: le barycentre des 3787 sjours des professions n/enndiaires est proche du barycentre des . 686 sjours en village de vacances (voir plus loin).
COORDONNEES
CONTRIBU'l'IONS
COSInUS CI\ERES
mEN
LIBELLE
14.19 .68 .36 33.73 9.98 4.17 6.10 2.09 3.70
DIS'I'O
0.11 0.0,: 0.33 0.03 0.15 0.31 0.18 0.07 0.07 -0.32 13 -0.55 0.11 -0.06 0.52 0.25 0.15 0.10
2
-0.03 -0.11 0.15 0.09 -0.37 -0.02 0.27 O. 0.12 0 00 -0.10 -0 0.01 0.16 0.10 0.02
4
-0.03 0.03 -0.01 0.02 0.0/1 -0.19 0.09 0.00 -O.lB
5
-0.08 -0.01 0.07
5
,\'329. 3.3.3 0.6 15.2 3.9 LB 3.9 17.0 40.2 0.3 U.2 13.2 0.0 7.3 31.7 11 7
!-lOTE ![ote1 LOCA-Locat.lon RSE:C-Rsid. I1PPA-Rsid. Par RSPA -Hsid. 'l'EN'l'-'l'ent.e CAR.~ Caravane .".J Auberge VILL Village
-o.
-0.13
0.03
0.09
.6 0.:1 3.9 4.1 .628.2 113.2 8.'1 6.3 10.7 38.4 0.5 53.9 .8 17.1 0.1 0.0 6017.3.6 D.7 1..1 .'/ 0.5 O.:': 0.2
O.
0.30 0.04 0.00 O.LS 0.01 01 .11
Ci'.1'EGORIES
SOCIa-PROFESSIONNELLES
COORDONNEES
i
5 -0.11 -0.1'1 O. 0.06 -0.0'1 .02 -0.01 -0.13
CONTRIBUTIONS
j
.2
P.HEL
!>.griculteurs 1.27 6.15 23.4'7 20 13 10.57 0.27 0.08
0.15
-0.01 -0.13
Artisans,
Cadres Prof. interm. Employs Ouvriers P.et.raits
J
o.
O. Dl
O.OB
. 26 0.33 -O.,B 0.36
0.13
O.lB
-0.03 0.02 -0.04 0.05
O.OB
.1'1
0.40
0.06
.13 0.01
0.9
5.6 49.9
.6
67.3 1.2
5.5
1 ~l
OB
0.07
o.
1 11. 30 3
3.0 0.9
1.7 :1.7.
16.56
19 . 41 2.12
3.6
0.22 O. '1 ()
.1
13 .
.B2 0.83
0.80
0.06 0.42 O. O.
O. Cll
o
0.01 0.23 0.02
.
o.
0.02 .00 .60
.07
0.00 0.00 0.02
.13
-o.
-0.'19
0.00
O.
62.8
o.
0.00
0.00
0.0'1
Aut.res inactifs
-o.
0.33
212
Dans la figure 9.3, les points ont des tailles proportionnelles leurs frqences marginales.
Facleur2,---_ _ _ _ _ _ _ _ _ _ _ _ _,--_ _ _ _ _ varavanE! _ _ _ _ _-.
Ouvriers
0.15
Amis
villag1 de vacances
o ---
---1It-----------------------Professions intermdiaires
.... Location Tente
-0.15
-0.30 -0.50
-0.25
Amis 0.25
0.50
Facteur 1
FIGURE
9.3
9.4
9.4.1
Le tableau de contingence N ne constitue pas en ralit le tableau de donnes brutes: il est le rsultat d'un traitement lmentaire (tri crois) de donnes releves sur 11 individus du type : (x}; xl) pour i l , 2, ... , Il o xl et xf sont les numros des catgories des variables qualitatives 2f1 et 3:2 La numrotation des catgories est arbitraire et on introduit , alors la reprsentation suivante comme au paragraphe 6.4.3 : A une variable qualitative gr 111 catgories on associe les 111 variables indicatrices de ses catgories: li 1; li 2, ]m. :[X(i) vaut 1 si x est dans la catgorie i, 0 sinon. Pour un individu i une seule des nI indicatrices vaut l les III - 1 autres valent o. Pour Il individus la variable binaires X suivant:
zr peut
nt
1
2
0 0 ...
0 0
17
...
213
On dit que f!l'a t mise sous forme disjonctive. On remarque que vecteur 1.
Il
2: ll.x
111
III
A deux variables qualitatives stl et g[,'J;. correspondent donc deux matrices XI et X:. lignes et respectivement ml et 111:. colonnes. On vrifie alors les formules suivantes liant Xl et X:. au tableau de contingence N
N = Xi X 2 D,=X,X 1
D2
= xzX"!.
En effet, faire le produit scalaire de deux vecteurs d'indicatrices revient compter le nombre de co-occurrences.
9.4.2
Si chaque catgorie d'une variable qualitative ~r on associe une valeur numrique, on transforme gr! en une variable discrte III valeurs: on ralise ainsi une quantification de !Ze en une variable numrique x (cerlains auteurs parlent de codage }). Il existe une infinit de quantifications possibles dont la structure est celle d'un sous-espace vectoriel de l'espace des variables. Si
Clj
2: aj]/
j=1
III
Une quantification n'est donc qu'une combinaison linaire des variables indicatrices.
Pour l'ensemble des n individus on a :
soit si a
=
a III
= Xa
L'ensemble des x est donc le sous-espace Wengendr par les combinaisons linaires des colonnes de X.
214
9.4.3
L'tude de la dpendance entre fIl'! et f!{~ est donc cene des relations entre les deux groupes de variables indicatrices associes. On peut donc appliquer l'analyse canonique tudie au chapitre prcdent. Les deux tableaux de donnes analyser sont les tableaux disjonctifs XI et X 2 . On constate immdiatement que les deux espaces WI et W2 engendrs par les colonnes de ces tableaux ont en commun le vecteur 1 qui est le vecteur somme des colonnes de Xl ou de X 2 (donc dim (W 1 n W2) 2:!: 1). Les variables canoniques autres que 1 formant des systmes D-orthonorms de WI et W:b sont donc centres, car elles sont orthogonales au vecteur 1. En supposant ici que les on a:
11
v.,., --
1 t 1 =-X.,X., =-D"l
Il Il -
Vil;::::
-Xl X 2 =-N
11 11
V21
= -- N
Il
Les facteurs canoniques du groupe l sont les vecteurs propres de VIIIV 12V;-21V21 c'est-dire de DlNDlN' : ce sont donc les composantes principales de l'ACP des profils-lignes un facteur multiplicatif prs. De mme les facteurs canoniques du groupe 2 sont les vecteurs propres de D;-IN'D1N et fournissent les coordonnes des profils-colonnes sur les axes principaux. Les valeurs propres de \' analyse des correspondances sont donc les carrs des coefticents de corrlation canonique (ce qui prouve que :::;: 1) et la valeur propre triviale = 1 correspond au fait que W1 et W2 ont 1 dans leur intersection. Les facteurs canoniques donnent des combinaisons linaires des variables indicatrices, donc des quantifications de 2r( et 2C2 : on peut interprter l'analyse des correspondances comme la recherche d'une transformation simultane de 2f, et 2l':. en variables numriques telles que leur coefficient de corrlation linaire soit maximal. Cette prsentation plus connue des statisticiens anglophones est attribue Fisher, elle remonte en fait des travaux de Hirschfeld, alias H.O. Hartley, de 1936. Les valeurs numriques optimales attribuer aux catgories sont donc leurs coordonnes sur le premier axe de l'analyse des correspondances. Si l'on rordonne I1gnes et colonnes du tableau de contingence N selon l'ordre des points sur le premier axe principal on obtient un tableau tel que les termes diagonaux aent des effectifs maximaux. Les formules de transition sont identiques ceBes permettant de passer des facteurs canoniques d'un groupe ceux de l'autre groupe.
215
Il n'est donc pas ncessaire dans ce contexte d'introduire la mtrique du X2 et on voit que les catgories des deux variables et sont traites de la mme faon en tant qu'lments de [R'! grce aux variables indicatrices ce qui justitie le fait de les reprsenter simultanment sur les mmes graphiques. Les reprsentations graphiques de l'analyse canonique (cercle des corrlations) sont cependant ici inadquates car la notion de corrlation avec une variable indicatrice n \a gure de sens: on se contentera de reprsenter chaque catgorie par ses codages ) successifs sur les axes.
9.4.4
Les catgories des variables qualitatives !!CJ et dfinissent des sous-groupes d'individus 2 d'effectifs Ili. (i = l, 2, ... ,1111) et 1l.j (j = l, 2, ... , 111:1). Si l'on dispose d'une variable numrique z de moyenne nulle reprsentant les coordonnes des Il individus sur un axe on reprsentera la catgorie i de !!Cl par un point dont la coordonne Cli est la moyenne des coordonnes des l1j. individus de la catgorie en question;
Xii
est la
[me
colonne de
XI'
n11
catgories de XI est:
1112
catgories de X 2
La variable z est d'autant plus intressante pour Xl qu'elle permet de bien sparer les ai.
c'est-~dire
que la variance - a/DJa est plus grande. Le maximum de cette variance est
Il
Cherchons alors la variable z et les coordonnes a et b telles que en moyenne a'Dla et b ' D 2b soient maximales: on aura alors en un certain sens une reprsentation simultane optimale des catgories des deux variables sur un axe. Comme a'Dla b ' D 2b =
1 (A ,
Zl A 2 z,
= z'X1(X;
le maximum de
maximal. En supposant V(z) fix ce maxmum est atteint pour z vecteur propre de
+ A:):
216
Comme Al
= X! D Il X '1 Z = X 1 a
et
a + DI! Nb
2Jl.a
ou il vient alors:
Remarquons que l'on aurait pu appliquer directement les rsultats du paragraphe 8.3.1 du chapitre prcdent: z est alors le compromis un facteur prs des deux variables canoniques ~ et Y). Les coordonnes des points catgories donnes par Je premier axe de l'analyse des correspondances sont donc optimales; les axes suivants correspondent au choix d'autres variables z orthogonales aux prcdentes. La signification relle de la reprsentation simultane est donc celle-ci: les points reprsentatifs des catgories des deux variables sont les barycentres des groupes d'indiv;dus qu'elles dfinissent. Les proximits entre points reprsentatifs doivent tre inlerprtes comme des proximits entre moyennes: pour deux catgories i et i' d'une mme variable cela entrane une proximit de leurs profils. Pour deux catgories i et j l'une de 2l'l l'autre de gr:. l'interprtation est plus dlicate. On peut galement reprsenter sur le graphique les cases du tableau de contingence: tout et j de a pour coordonne z sur un axe: individu de la catgorie i de
""
'7
= -
(lli
+ bj )
d'aprs la formule XI a
+ Xl b
des correspondances
217
o
Pour reprsenter une catgorie j de l'autre variable 2r::.., ici le mode d'hbergement, il semble logique de la reprsenter comme le barycentre des catgories professionnelles avec pour coefficients les importances relatives des diverses CSP dans le mode d'hbergement en ques-
soit b =
Di l N'a
L'idal serai t que la rciproque soit vraie, c'est--dire que l'on puisse reprsenter les catgories de gel comme barycentres des catgories de
a=DilNb
La simultanit de ces deux relations est impossible: on cherchera alors une reprsentation barycentrique simultane approche avec:
<
L'algorithme consistant partir d'un vecteur a O arbitraire, en dduire b(l) = D;-I N'ao puis a(l) = D 1 Nb(ll, etc., avec normalisation chaque tape jusqu' convergence fournit en gnral la premire solution de l'analyse des correspondances relative il ,I'
9.4.6
Conclusion
L'analyse des correspondances est la mthode privilgie d'tude des relations entre deux variables qualitatives et l'une de ses principales proprits est la facult de reprsenter simultanment lignes et colonnes d'un tableau de contingence. Si en thorie elle ne s'applique qu' des tableaux de contingence, elle peut tre tendue moyennant certaines prcautions d'autres types de tableaux comme le prouvera le chapitre suivant.
des correspondances multiples (ACM) est une technique de description de donnes qualitatives: on considre ici Il individus dcrits par p variables 2/;"1' . , !!l~} ml' m'l' ... , ml' catgories. Cette mthode est partculirement bien adapte l'exploration d'enqutes o les questions sont rponses multiples. Sur le plan formel il s'agit d'une simple application de l'analyse des correspondances au tableau disjonctif des 1111 + 1112 + ... + ln!, indicatrices des catgories. Cette mthode possde cependant des proprits qui la relient d'autres mthodes statistiques et lui donnent son statut particulier et en font l'quivalent de l'analyse en composantes principales pour des variables qualitatives.
10.1 10.1.1
Chaque individu est dcrit par les numros des catgories des p variables auxquelles il appartient. Ces donnes brutes se prsentent donc sous forme d'un tableau Il lignes et p colonnes. Les lments de ce tableau sont des codes arbitraires sur lesquels aucune opration arithmtique n'est licite. La forme mathmatique utile pour les calculs est alors le tableau disjonctif des indicatrices des p variables obtenu en juxtaposant les p tableaux d'indicatrices de chaque variable Ainsi le tableau brut suivant:
1
2 2
2 2
2
2 2
3 3
220
ITIUI[IDIF>~,~f!@
correspondant 5 observations de trois variables Ff2, 3, 2, 3 catgories ment engendre le tableau disjonctif X 5 lignes et 8 colonnes:
1 0
rpcnp,,..l-i ~
(X,IX:;IX 3 )
0 0 0 0
0:0
1:0
l
o: 1 o:
0 0
La somme des lments de chaque ligne de X est gale p, nombre de variables. La somme des lments d'une colonne de X donne 1'effectif marginal de la catgorie correspondan te. La somme des colonnes de chaque tableau d'indicatrices est gale au vecteur 1 ; le de X est donc
2: 111
i=1
fl
i -
1.
10.1 .2
=2
J
Pour deux variables qualitatives fit, et fIt; m, et ml modalits l'analyse facto .. rielle des correspondances du tableau disjonctif X = (X, 1Xl) est quivalente l'onalyse factorielle des correspondances (AFC) du tableau de contingence N X , X 1
10.1.2.1
L'AFC d'un tableau X revient chercher les valeurs propres et les vecteurs propres du produit des deux tableaux de profils associs X. Le tableau des profils-lignes vaut ici X/2. Le tableau des profils des colonnes XD- ' est tel que:
221
Les coordonnes des profils des colonnes sont les vecteurs propres de :
(XD- 1)'
1
-
= - D-IX'X
2
ml
L'quation donnant les 1111 + 111::. coordonnes des profils des colonnes est, en notant a les premires composantes et b les 111::. suivantes:
ou
DlNb { D 1N'a 2
= (2j.1 = (2j.1 -
1)a l)b
On reconnat les quations de l'analyse des correspondances de N (formules de transition) et par substitution: D 2 I N'D I Nb { DIND;-IN'a avec ~
= (2j.1 = (2j.1
- lfb - Ifa
= (2j.1
- 1)2.
Les coordonnes des nll + 111::. points colonnes de X sont donc identiques ( un coefficient de proportionnalit prs) aux coordonnes des lignes et des colonnes de N dans la reprsentation simultane.
10.1.2.2
Si
11
>
+ 1112' l'AFC du
D'o viennent les solutions supplmentaires? Notons tout d'abord l'existence d'une solution triviale supplmentaire correspondant une valeur propre nulle puisque les colonnes de X sont lies par une relation linaire (la somme des colonnes de XI est gale la somme des colonnes de X::.). Il y a donc 1111 + 1112 - :2 valeurs propres non trivialement nulles ou gales l. Comme ~
= (2j.1
- 1f, chaque
et
j.1=---
222
/Il,
<
1/1,. 2(1/1, -
1) valeurs 11rn'........... _
."""
/Il,
JJ1 l'
Seules les (m 1 - 1) valeurs propres suprieures l/2 ont une signification. Comme:
ml + m,
2
- - ].
Bien que fournissant des axes identiques l'analyse des correspondances de N, inerties assoies et les parts d' inertie sont trs diffrentes et ne peuvent tre sans prcaution. Ainsi l'analyse des correspondances sur le tableau disjonctif associ au tableau tudi au chapitre prcdent conduit aux rsultats suivants: (m, = 9 et ml = 8) :
~I =
~I ~2 ~3
7
= 0.0657
= 0.0254
/-L2 = 0.580
~3 =
15
= 0.0081
2: /-Li =
i=1
ml
+ Ill;! 2
2: ~i = 0.1073
""I
Les valeurs propres qui taient trs spares dans l'AFC de N, ne le sont plus dans l'AFC de X.
10.1.3
Le cas gnral
p> 2
La proprit prcdente conduit l'extension p variables qui consiste effectuer une analyse des correspondances sur le tableau disjonctif X = (X, 1X:!I .. X,,) pour obtenir: ainsi une reprsentation simultane des ml + Ill;! + ... + 1111' catgories comme points' d'un espace de faible dimension.
10.1.3.1
On notera a
=
ap
le vecteur
2: 11l
1=1
l'
223
D l
01
soit:
1
X;X I
X~XI
al a:.>
p
()
n- I
"
aIl
On note B le tableau dont les blocs sont les X;-X j . Ce tableau, dt tableau de Burt, est un super-tableau de contingence puisque chaque bloc X;Xj est le tableau de contingence croisant i?ti avec &'l1. L'quation des coordonnes des catgories est donc:
[~D~IBa = ~a
On prendra comme convention de normalisation:
=JJ.
car la somme des lments de X vaut np.
10.1.3.2
Les lignes de X reprsentant les individus, les coordonnes des points-lignes s'obtiennent en diagonalisant le produit, effectu dans l'ordre inverse, des deux tableaux des protils. Soit z le vecteur Il composantes des coordonnes des 11 individus sur un axe factoriel. On a :
[~XD~IX'Z = ~Z[
En dveloppant par blocs XO-IX ' il vient:
(X', X 1)-'
(X~X1)-1
j.LZ
224
Jl
ZO
tant la solution triviale associe ~ = ] les autres solutions lui sont orthogonales.
Les coordonnes des individus sur un axe sont donc de moyenne nulle. La condition habituelle de normalisation est: 1
-
/1
"" ~~/
7'~
= - z'z =
Il
11. r-
Il i= 1
10.1.3.3
1 -Xa
et
A 1/ {ji prs la coordonne d'un individu est gale la moyenne arithmtique simple des coordonnes des catgories auxquelles il appartient.
fi
En effet Xa
2:Xj3j. Pour un individu i les seuls termes non nuls sont ceux
j=1
correspondant aux catgories possdes (une par variable). La deuxime formule montre que :
A 1/{ji prs la coordonne d'une catgorie j est gale la moyenne arithmtique des coordonnes des nJ individus de cette catgorie.
Les points reprsentatifs des catgories dans les graphiques factoriels doivent donc tre considrs comme des barycentres : les proximits devront tre interprtes en terme de proximits entre points moyens de groupes d'individus.
225
On a l/~ prs, la proprit des moyennes rciproques ) qui est l'origine de certaines prsentations de r analyse des correspondances multiples (dual scaling). z tant une variable de moyenne nulle il s'ensuit que pour chaque variable coordonnes de ses catgores (pondres par les effectifs) sont de moyenne nulle. est possible de reprsenter simultanment individus et catgories des variables les points reprsentatifs des catgories sont barycentres de groupes d'individus. les
Et~
car
Nous conseillons toutefois d'utiliser le systme suivant de coordonnes afin de conserver la proprit barycentrique :
J;.a
l, si
11
2:mi - P =
;=1 li
q.
2:f.1i = ;=1
Pi
~
1
J.l
1/1;-
L'inertie est donc gale au nombre moyen de catgories diminu d'une unit: c'est une quantit qui ne dpend pas des liaisons entre les variables et n'a donc aucune signification statistique. La moyenne des q valeurs propres vaut Ilp. Cette quantit peut jouer dans une certaine mesure le rle d'un seuil d'limination pour les valeurs propres infrieures comme nous allons le voir. La somme des carrs des valeurs propres est lie, eHe, des indices statistiques.
f.1::! tant valeur propre du carr de la matrice diagonaliser on a :
1+
2: (f.1rf
<=I
Il
o <P~ est Je
c.p='-
de K. Pearson du croisement de
avec Et).
226
,,"
P-
2l~,
1)
1 -:; q.
On a donc:
La moyenne des carrs ne peut tre gale au carr de la moyenne que si toutes les "'r" ....,"""
V
1
l'
Vi.
On retrouve galement cette situation si les donnes sont recueillies selon un quilibr o les ml 111'). /Ill' combinaisons possibles des modalits des sont '""h"'-'L-,,',,;,!, ves avec le mme effectif car tous les tableaux croiss X j ont alors les protils. Pour un tel plan d'exprience l'analyse des correspondances multiples est inutile.
X;
10.1.3.5
Si l'on soumet le tableau B il une analyse des correspondances on retrouve, une constante multiplicative prs, les mmes coordonnes factorielles des catgories. Le tableau de Burt tant symtrique les totaux de lignes et de colonnes sont gaux (on retrouve P fois les totaux marginaux). Le tableau des pronIs-lignes associes il B est donc (pD)-1 B. Le tableau des profilscolonnes associ B est B(pD)- 1. L'AFC de B revient donc diagonaliser:
qui conduit aux mmes vecteurs propres que - D~IB avec des valeurs propres gales f.L2,
10.2
AUTRES PRSENTATIONS
L'extension formelle du cas p = 2 au cas gnral ne suffit pas pour confrer un statut de mthode statistique l'analyse des correspondances multiples. Les prsentations qui suivent, la relianl d'autres mthodes, y contribuent en apportanL des clairages diffrents. Chacune de ces prsentations correspond une "dcouverte" indpendante de rACM.
227
3:;1'
Celle-ci revient chercher les vecteurs propres de la somme des oprateurs de projection
2: R2(z : X;).
1
fI
Or X j tant un tableau d'indicatrices, le coefficient de corrlation multiple n'est autre que le rapport de corrlation ll(z/X i ) (chapitre 6, paragr. 6.4). Les variables z sont donc les variables de variance J.L, non corrles deux deux vritiant : max
z
2: TJ2( z/ !ft,)
i= 1
f'
Si l'on se rappelle qu'en ACP norme, les composantes principales rendaient maximale
r= 1
L rl( c ; xj) on a ici l'quivalent d'une ACP sur variables qualitatives, la mesure de liaison
,.2.
l'
tant Tl 2 au lieu de
L'analyse des correspondances multiples revient donc rsumer p variables qualitatives par des variables numriques de variance maximale les plus corrles possible, au sens dfini prcdemment, avec les f!e;. Lorsque les variables
a:':!. ... ,
= 2) le
tableau X possde
2p colonnes.
01
tO 01
228
Le coefficient de corrlation multiple au carr entre z et Xi est alors au carr coefficient de corrlation linaire simpJe entre z et l'une des deux indicatrices de puisque la somme des deux indicatrices vaut L
On a donc:
2: TJ2(Z ; g()
=I
l'
i=l
i=1
Dans ce cas r analyse des correspondances multiples de X revient effectuer une norme, c'est--dire sur la matrice de corrlation, sur un tableau JI lignes et p COllonne.~:U; obtenu en ne conservant qu'une indicatrice par variable qualitative.
10.2.3
On retrouve la solution de l'analyse des correspondances multiples. tout au l'quation du premier facteur, en cherchant rsoudre le problme suivant : tr~n",I'l"\"'''''''l,,~:.';i de faon optimale (selon un critre dfinir) chaque variable qualitative mi modalits une variable discrte il mi valeurs. On sait qu'une telle quantitication s'crit ~i = Xiai ~i est la variable numrique obtenue, ai le vecteur des valeurs numriques attribuer modalits. 10.2.3.1
On cherche ici obtenir une ACP des ~i qui soit la meilleure possible au sens o premire valeur propre I de la matrice de corrlation des ~j est maximale. Ceci il chercher:
or:
mrx r (z ; ~)
2
-1
R 2(z ; X)
fI
2: R
j=1
(z;
X). Les
codages
optimaux des
catgories ne sont donc autres que les coordonnes de ces catgories sur le premier axe de l'analyse des correspondances multiples de X.
10.2.3.2
En 1941 L. L. Guttman avait abouti aux quations de l'analyse des correspondances multiples en rsolvant le problme suivant: tant donn un questionnaire choix multiple il p questions ayant chacune mj modalits de rponse (une seule rponse possible chaque question), on veut attribuer des notes chaque modalit de telle sone que les variables numriques ainsi cres ~j sOent les plus cohrentes au sens suivant : les rponses aux p questions doivent conduire des notes proches, tout en donnant une note globale moyenne la plus disperse possible.
229
Considrons le tableau
Il,
p des variables
~I
~j:
., .....
~/'
ll .. 11'
Il
Supposons, ce qui ne nuit pas la gnralit que chaque ~j est une variable de moyenne nulle. On cherche alors avoir des mesures les plus homognes possible en minimisant en moyenne la dispersion intra-individuelle.
l~t: . Pour caque 0 bservatlOn cel l ' vaut- L.J (Sij h e-Cl
P J=I
(~ij)
- 2:(Y
ni;;:;1
/1
II
- 2: 2: (ijf!
np
i=1 j= 1
l'
Or:
l
P
Xa
donc:
230
/1
ajDjaj
-.,a'X1Xa
I1P-
1 a'X'Xa
p aiDa
-a'Da
IIp
Son maximum est atteint pour a vecteur propre associ la plus grande valeur nromp'"'j'0 l l 4e - D-1X'?C On retrouve bien le premier facteur de l'ACM de X.
p
10.2.4
Revenons sur le chapitre 7, 7.6 : pour P variables numriques che une combinaison linaire de variance maximale :
rorlCUOnIlel-
v(.
1;;1
!.pj(x ))
soit maximal.
Choisissons pour les i.pj des fonctions en escalier (conSlantes par morceaux) ou splines de degr O. On sait que ces fonctions permettent d'approximer n'importe quelle fonction numrique. Concrtement on dcoupera l'intervalle de variation de x j en mj classes (fig. 10.1).
.
j
2
FIGURE
j
xl
10.1
231
<pj(x j ) est une fonction prenant les valeurs al' a~, ... , amj sur les intervalles de dcoupage;
s'explicite comme la combinaison linaire des variables indicatrices des classes du ,iirMcloUr)uge, coefficients al. a2' ... , (lm/
v(7
cpJ(XJ
donne par la premire composante de l'analyse des correspondances multiples du X obtenu en dcoupant en classes chacune des variables numriques. La pratique qui consiste dcouper en classes des variables numriques, donc les rendre pour ensuite effectuer une analyse des correspondances multiples se justifie par fait qu'il s'agit d'une analyse non linaire des donnes. Sous rserve d'avoir suftsamment d'observations par classe on peut ainsi visualiser des liaisons non linaires entre variables qui ne seraient pas apparues en ACP ordinaire o )'on travaille avec la matrice R des corrlations linaires.
10.3
L'interprtation des rsultats d'une ACM se fait grosso-modo comme en analyse des correspondances sur tableau de contingence et comme en ACP. On prendra garde ici au fat que les pourcentages d'inertie n'ont qu'un intrt restreint. La slection et r interprtation des axes factoriels se fera essentiellement raide des contributions des variables actives et des valeur-tests associes aux variables supplmentaires. Rappelons une fois encore la signtication des proximits entre points-colonnes sur un plan factoriel : il s'agit d'une proximit, en projection, de points moyens de catgories reprsentant plusieurs individus.
Une catgorie d'effectif Jlj qui a une coordonne contribution (CTR) gale :
-L(ai
j.L
Il
. np J CTR(j) = - -
On
les modalits intressantes qui ont une contribution suprieure leur poids n j.
np
En correspondances multiples, les modalits d'une mme variable tians qui peuvent tre cumules.
232
comme:
CTR(Er;) = ~CTR(j)
j=1 a) tant {J, prs la moyenne des coordonnes des individus de la catgorie j de Z~'i' contributions cumules sont relies au rapport de corrlation entre la composante z de variance J.1 et la variable par:
Remarquons que
1']2
P i=1
2.: T)2(z/~) =
l'
J-L.
1 On utilise comme en ACP les contflbutims des individus - (zJ! / J-L, et comme en ACP
AFC les cosinus carrs avec les axes pour juger de la qualit d'une projection. On pourra utiliser ici le rsultat donn au chapitre 7 : un individu aura une contribution signiticative si celle-ci dpasse 3.84 fois son poids.
10.3.1.2
de gravit le vecteur de ~Jl dont toutes les composantes valent 1/11 : en effet la somme des colonnes du tableau disjonctif est le vecteur constant dont toutes les composantes valent p. La mtrique du X2 pour le nuage des profils-colonnes est donc la mtrique diagonale nln (diagonale des inverses des frquences marginales). Le carr de dislance d'un point catgorie j au centre de gravit g vaut donc: d 2 ; g) = (j o
11
Il})X i)/1l)
i=1
l/Ilf!
0 ou 1 on a
Xij
X~ = xijd'o:
comme ~ x ij
1
11)
il vient ;
11
Une catgorie est donc d'autant plus loigne du centre que son effectif est faible.
233
(11,) -: l - -1 1
n
ll j )
La contribution d'une modalit l'inertie est fonction dcroissante de son effectif. Il convient donc d'viter de travailler avec des catgories d'effectif trop faible, qui risquent de perturber les rsultats de l'analyse (absence de robustesse). L'inertie totale d'une variable! I(n;), vaut:
ni) ~ = ___
Il
1_)
P
p
P
1)
1 - Lm p
L(mi - 1)
i
Elle est d'autant plus importante que son nombre de catgories est lev. On recommande gnralement pour cette raison d'viter des disparits trop grandes entre les nombres de catgories des variables f1~, lorsque l'on a le choix du dcoupage.
10.3.2
Dj voqu lors de l'tude de r ACP, l'usage de variables supplmentaires est trs courant en analyse des correspondances multiples. Rappelons que les variables actives sont celles qui dterminent les axes. Les variables supplmentaires ne participent pas au calcul des valeurs propres et vecteurs propres mais peuvent tre reprsentes sur les plans factoriels selon le principe barycentrique pour les variables qualitatives: chaque catgorie est le point-moyen d'un groupe d'individus. Pour les catgories des variables suplmentaires qualitatives on calcule comme en ACP des valeurs-test mesurant en nombre d'cart-type l'loignement de r origine. Entn il est possible de mettre en variables supplmentaires les variables numriques qui ne peuvent pas tre aClves ( moins de les rendre qualitatives par dcoupage en classes) : Elles peuvent tre positionnes dans un cercle de corrlation avec pour coordonnes les corrlations avec les composantes de l'analyse. Soit aj la coordonne d'une catgorie d'une variable supplmentaire, d'effectif l1i , sur un certain axe d'inertie gale J.L :
234
On sait que si les I1j individus de cette catgorie taient pris au hasard parmi les Il individus de r chantillon (sans remise) la moyenne des coordonnes des I1j individus concerns serait une variable alatoire centre (puisque par construction les composantes z sont de moyenne nulle) et de variance gale 1:: 11
nj Il -
Avec les conventions habituelles de la reprsentation simultane llj est gale 1/~ fois l-I la moyenne des coordonnes, la quantit est donc la valeur-test
aj-r;;; --Il -
nj
Le calcul des valeurs-test n'est lgitime que pour des variables supplmentaires n'ayant pas servi il la dtennination des axes. Leur utilisation pour des variables actives ne doit tre considre qu' titre indicatif: les valeurs-test pour les variables actives sout en gnral trs leves, ce qui est normal car les variables actives dterminent les axes.
10.4
Les donnes communiques par M. Tenenhaus (tableau 10.1) dcrivent les caractristiques de 27 races de chiens au moyen de variables qualitatives, les 6 premires ont t considres comme actives, la septime, ~< fonction , comme supplmentaire: ses trois modalits sont compagnie chasse utilit . On remarquera que les paires d'individus (5, 26) (8, 22) (11, 19) ont des valeurs identiques pour les 7 variables, il y aura donc des observations confondues. Le nombre de modalits actives est 16, ce qui conduit 10 facteurs et une inertie totale de 16
des valeurs propres montre cependant une chute aprs /Jw2- On interprtera donc uniquement les deux premiers axes (tableau 10.2)1. L'axe 1 oppose ( droite) les chiens de petite taille, affectueux, qui concident avec les chiens de compagnie (valeur-test 4.06), aux chiens de grande taille, trs rapides et agressifs (fonction utilit). L'axe 2 oppose (en bas) les chiens de chasse, de taille moyenne, trs intelligents fI des chiens lents et peu intelligents. Le tableau 10.3 eSlle tableau de Burt qui rsume les liaisons deux deux entre les 6 variables actives. Le tableau 1004 permet de reprer les modalits contribuant fortement l'inertie des axes et sa lecture doit tre complte par celle du tableau 10.5 qui fournit les valeurs tests. Le tableau 10.6 permet d'apprcier la qualit de la reprsentation graphique (tig. 10.2).
TABLEAU
10.1
TABLEAU DISJONCTIF
2 Taille Poids
3 Vlocit
4 Intelligence
5 Affection
6 Agressivit
1 3 4
5
+
0 0 1 0
++
1
+
0 0 1 0 0 1 0 0
++
)
+
0 0 1
1
++
1
+
1 1 1 1
Cl..
(1)
6 7 8
9
la
II 12 13 14 J5 16 J7 18 19
2a
21
21
23 24 25 26 27
Beauceron Basset Berger Allemand Boxer Bull-Dog Bull-Mastiff Caniche Chihuahua Cocker Colley Dalmatien Dobermann Dogue Allemand pagneul Breton pagneul Franais Fox-Hound Fox-Terrier Grand Bleu de Gascogne Labrador Lvrier MuSliff Pkinois Pointer Saint-Bernard Setter Teckel Terre-Neuve
a a
1
a
l
a
1
a
1 1 0 0 0 0 0
1 1
a a
0 0
a a
0 0
1
J
a a
0
)
0 0
1
0
1
a
0 0
1
a
1 0 0 0 l
0 0 1
a
0 0 0
1 0 0 0
a
1 0 0 1 1 0 0 0 0
1
a
1 0
a
1 1 1
a
1
1 0 0
a a a 0 a a a
0 1 0
0
0 1
a
1 1 0 1
1
a
0 0 0 0 0 0 1 0
0 0 0 0 0
0 1
1
0 0 0 0 0 0
1
a a
1
0 0
()
0 0
0 0 0
[
j
l 0 1 1 1 0 1 t
1
a
0 0 0
1
a
0
0
a
1 0 0
a
1 0
1
()
a
1
a a a 1
0 0 0
1 1
J
0 1 1 0
l
1 1 0
1
1 1
0
1
a
1 1 0
1 1
J
a
0
a
1 l
a a a
0
1
a
0 1
a a 0 a a a
0 0
1 1
0 1 0
t
a
1 1 1 0 0 1 0 1
a
0
0
0 0
a
1 1 1 0
a
1 0 0
0
0 0 1
1 0
a
1
0
1
0 1 0 0 0
0
0 1 1
1 1 0 0 1 0
1 0
a
1 1 0
()
a
1 0 1
a a a
0 1 0
a a
1 0
0
0 0 1 1
a
1 1 1 0 1
0 1 0
a
1
a
0
a a
a
0
a
1
a a J a a 0
1
a a
J
0 1
()
0 1 1 1 0 0 0
a
0 0
l
1 0 1
0 0 1 1 0 0 1 1
1
1 1
0 0 0 0 0 0
1 0 1 0 0 1
VI
o ..., ...,
(1)
VI
"'0 :J
o
n
lU :J
VI
Cl..
0 0
()
l'Il
-5'
c ;:;-
a
0
a a
0 1
1 1
if
a
1 1 0
a a a
1
a
1
J J
0
1 1
0 0 0
a
0 1
a
1
1 1 1
a
0 0
1 0 l
0
1
0 0 1
a a
0 1
1 1
0 0
a a
a
0
a
1
a a a
1 0
1 0
1
a a
l 0
a
0
l
0 0 0 0 0 0
1
a
0
a
0
1
a
1
1 1
0 1 0
0 0 1
N
l.U
V1
Q)
N W
TABLEAU 10.2
lT.:"C.RAMt.!F. DES l r'lUl'lERO VALEUR PROPRE
10
POURn~NTAGE
0.4816
28.90
2 4 5
8
10
1.41
0.46
*****.**~*****.*
Cl
....
** *~.*.* *
1
::J
11'
p.1
~ fi)
0fi)
VI
{;
::J
pJ
0-
::J
fi) VI
-5' iD VI
;;:"
3 c:
..... c::,:, 1
~
r:
::l
~
..:c
VI
rD
10.3
VEJ : IN1 IN2 H13 APl AF2 :
.L\.G1
0.
rD
VI
T1\2
0 5 0
TA3
0 0 15
POl
P02
P03
VEI
VE2
AG2
o o
VEl VE2 VE3 5 2 0
l 4 0
1 4 0
0 10
0 14
0 0
5
4 2 9
0
6 2 0
0
0 6 8
5
4 0 1
10 0 0
0 8 0
0 0 9
nn
11'12 IN3
l1 ?F2
3 3 l
1 6
5 2 Tl
0 4 1
0 5
3 2 1'1\2
5 6 4
12 J
6 9 TA3
3
Il 1
3 2 7:2 '1 l.
7 7
8 6 PO}
4 5 1
5
l 5 2
3 3 3
6 J
1]
8 0 0
6 2
0 13 0
4 9
8 5 IN2
0 0 6
3 3
3 3 IN3
1
"1
5 0
l /1 P03
13 0
1]
14
14 0 AGl
0
AGI
5 3 POL
5 5
8
AFl
5
AF2
13
AG2
VEl
VE2
VE3
"'-J
l'V W
l'V W
co
TABLEAU
BODALITES COOHDONNEES
10.4
CON'l'IUBOTIOHS COSINUS ChRRES
IDEN-Lf3ELLE
P.REL
DrS'I'O
1:2
<1
Tai1 'l'Al PE'ITT'E T;'.ILLE 'l'A2 - 'l'AILLE J:<10YENNE '1'/,3 - GE.Il.NDE 'l'AILLE
1.32
0.84
0.93 -0.62 0.12 -0.02 12.6 .6 7.8 -1.23 1.U2 0.34 -0.31 4.612. 15.1 -0.02 -0.05 -0.17 011 13 0.0 0.1 CUl-lULEE = 30. :n.823.0
-o. -0.23
0.4 1
01.'1
0.49 0.30 0.13 0.01 0.00 0.16 34 O. 0.030.02 0.88 O.GO 0.00 0.()1j 0.02
Pois
pal
1'02 1'03 -
4.94 64 ] 09
0.16
O. 0.29 0.05 0.01 0.00 0.10 0.7:. 0.06 0.0::1 0.04 0.230.22 0.3' 0.00 0.09
CUMULEE
3 . Vlocit
VEl - LENT VE2 ASSEZ Ri"PIDE VE3 TRES RAPIDE
Intelligenc~
22.3
.3 3.7 9.2
31.4
.0
0.3 1.3 2.0 .6 3.8 .5 0.0 8.4 0 06 O. 6 <1 O. 09 O. 00 O. 0 (, O. 0.33 () OS O. 0.06 O.lQ 0.07 0.29 0.D3 0.00
G 17
O. 3 l -0.37 .01
14.2
PEU INTELLIGENT IN~ - INTELLIGENCE ImYEHNE IN] THI':S INTELLIGENT INl 4.94 8.02 3.70 0.81 -0.29 -0.35 0 119 02
-1.
1. .3 0.9
~.4
8.4 9 0.0 35.2 .'f 9. 1.5 .1 2.0 O. 38.2 12.1 18.5 56.8 1.7 1.6 .3
0.05
a.oo
1
O. 0.02 0.32
Il.)
...... c
~f
ro
c.. ro
~
ln
AEtection
IL 8.6'1
.OB 0.93
0.07 -O.OB -D 04 08 0.04 Cur1ULEE -0.31 -0.51 0.35 0.33 0.55 .37 CUHULEE
O.::: 0.2 0 3
O. 0.3 0.7
o '"1
'"1
VI
ro
8.61 8.02
0.93 1.
-G.llQ
-o.
0.21
0.,13
.9 .1
O. 1. a
0.17
" c..
:::J :::J
~
-6'
3 c
ff
~
TABLEAU
1'!ODALI'l'ES IDEN -
10.5
COORDONNEES
1 r
w::l
pJ
V_~LEURS-TEST
--<
VI
!tl
LIBELLE
EFF,
P .l\BS
;)
DT S'l'O.
Taille
TAI TA 2 TA3 - PE"TITE 'ri,ILLE - TI,ILLE NOYEt]NE 'rAILLE 7 5 15 7 .00 -3.6 -2.1 il.B 2.f:l -3.0 -0.1 -1.9 2.5 -0.3
.,1
-1.
-1.18
-o.
0.84
-0, 1. -o.
m .., o
::l
m n o .., ..,
a.
w
VI
a.
Poids
l'Dl PETIT POIDS POIDS --10YEN POIDS ELEVE
::l
14
-1.2 .0
() -G.G 0.2
-O.::: -1.0 1.
-1.17 0.31 ,2
0 -0 0.97
-0.36
-o.:n
1.22
2 38
!tl
3
VI
vlodt6
VEi. ifE? VE3 - j,EN'!' - ASSEZ HAPID2 - 'l'HES Rf1PIDE 10 B 9 10.00 B.OO 9.00 -1.3 -2.0 3.2 1.6
-6'
rt
c::
1.:::
-1.
-:L8
-0.3 1. -0.9
ml IN2 IN3
a 13 fi
1.2 .B
.37 0.34
0.02 -0 1.
::.38 1.08 3.
Affection
AFl liF:! PEU Ai~FECTUEUX AFPEC'l'UEUX 13 1\ 13.00 4.1
14.00
-,.1.1
1.,1 -1.'1
0.3 -0.3
-0.4 0.4
O.
0.84 -0.78
0.29 -0.27
0.07
-O.
-O. 0.08
-0.04 0.01
l.08 0.93
".gress i vit:
AG1
!IG2
..;GRESSIF i\GRESSTF
14 13
1'1.00
DO
-2.1 2.1
-1.0 l.0
-1.6 1.6
.7
LB -1.8
.40
(J.1;3
-0.19 O.
-0.31
0.33
-0.51 0.55
0.35 .37
0.93 1.
7 ml
F02 -
Fonction
COf.!PAGNIE CHi\SSE
- UT l L TT 1\ lE E
10.00 9.00 8 . 00
-4..1
1.:::
J .1
O.'i -1.6
-0.3 -G.'! 1. 1
0.0 -1.
L -,
O.
-0.,13
0 . 37
-0.09 -0 18 0 . 3::'
-0.01 -0.-1:1 0 . 51
N W \.D
I\J
o
TABLEAU 10.6
INDIVIDUS
IDS1'l'l'Ifo" ICA'rEUR BEAUC!'.:HON P. REIJ
COOP.DONNEES
CANICHE
CH l HU1\1!IJA
J.
:1.'/0 3.70 3,'10 3.70
] .70
-0.,12 1.10 -0.,16 -0.88 -LOLO. 0.75 -0.91 -0.84 0.8:1 -0.73 0.08 0.12 -O. 6 5 - 0 . 99 0.87 -0.32 1. 0.51 -o. -1.04 0.14 -0.52 0.03
-0.21 0.29 0.58 0.26 -0.35 0.66 O. -0.09 0.19 -0.66 - O. 1 9 0.51 O,OG
-0 -O.':):! 028 -0.46 0.33 0.72 0.43 -0.i8 -0.10 0.19 - 0 . 14 0.J4 -0.32 0.::'5
0.13 0.5
1.7 11.7
5.'1
a.oo
-0.66
LB O. 5,
J.l 2.D J.1 7.0 7.5 1.6 .9 O.~i J.9 .9 4.:\.1 0.0 s.n 9.3 3.~! O. 0.8 .fI 10.2 3. 0 . il 1.0 G.! 7..5 0.1 10.,1 Il.S 2.6 5.:: O.O.
0.63 n.02 O.H 0,16 0.22 il.43 0 0.04 0.18 O. 0.07 0.1<10.120.210.25 D,DO U.l~ 0.180.09 0.12 0.00 0.02 0.23 O. 0.01 10 0.39 0.0] (l. 0:; 0.0l 13 0.17 0.04 0.01 [l.OO 0.'190.00 D,l? 0.22 0.01 0.00 0.00 O. 0.3:.! 0.01 .01
0
1 r::J CJ
VI
CJ-
0.14 -0.11
- il. 9:1
-0.27 -0.il2
0.00
0 . 1:; a
0.04 0.46
0
-<
lb Cl.. lb
VI
LEVRiER
H;'SI'IFF
. 7U 3.7U 3.7U
PEKINOiS
0,
81 0.67
- il . 0 9
- 0 . 60 O.
-o.
- 0 . ,1 fi
09 O.OG
3.
0.l 7.6
6.9 1.7
S. 0
0 . 2 ij 0.113
POHn'E:n.
SJ\HiT-[!EPJ/AJW SETTER TECl,EL TERRE-NEUVE
cL4
5.4
G.l
o.,j
U.2
,Il 8,j
1,1.0
0.12 0.31
n
0.U2
D.JO
(l.OG 0.0:::
.,
ro VI
-0
::J
o "'t
1.69 .H
0.513 O.
0.89.13
0.33 0.16
0.33
3.-'
1.4 1.1
0.2!
a.,n
0.07
1.5
1.6-! 1.66
-1.01 0.3[1
0.64
VI
Cl..
lb
241
Facteurr2~
____________________
Lent
______________________________________--,
Poids lev
A. 08ASSET
MASTIFF .\
PelJ/fJ taille
1.0
CHIHUAHUA PEKINOIS
A
SAINTBERNARD .\ BULLMASTIFF DOGUE ALLEMAND TERRENEUVE A Ulllil
Peu affectuewc
0.5
ompagnie
Jo
CANICHE : FOXHOUND
o ...... ..... .......................... ......... ...... ... ...... t ..... ......................................................1:':.5" ......... .
GRAND BLEU DE GASCOGNE A
Affec/Ue}U!( Grande taille
o
-0.5
lnlellfgence moyenne
Jo
Chasse
~
': . :.
EPAGNEUL FRANCAIS
,\
Jo
A".'R" ''"Rnl,~n
BOXER
COLLEY
Poids moyen
-1.0
"
Taille moyenm!
n
-1.0
-0.5
FIGURE
o
10.2
0.5
1.0
Facteur 1
1 11
Mthodes de
classification
Le but des mthodes de classification est de construire une partition, ou une suite de partitions embotes, d'un ensemble d'objets dont on connat les distances deux deux. Les classes formes dOvent tre le plus homogne possible. *
Il.1
GNRALITS
Il.1.1
Distances et dissmilarits
En classification, que les donnes se prsentent initialement sous forme d'un tableau individus-variables ou non, toule l'information utile est contenue dans un tableau Il X Il donnant les dissemblances entre les Il individus classer.
Il.1.1.1
Dfinitions
Il
= dU, i)
~
( d(i, j) = 0 ~ i = j dU,j) :::; dU, k) + d(k,j) Rappelons que toute distance n'est pas euclidienne engendre par un produit scalaire (voir chapitre 7). Lorsque r on a seulement:
sU, j) = sU, i) {
l
s(i,j)
244
Lorsque l'on a seulement une infonnation du type sUvant : i etj sont plus semblables que k et I, on parle de prordonnance ; il s'agt d'un prordre total sur les paires d'lments de E. Shepard, puis Benzcri, ont montr que la connaissance d'une pr ordonnance suffit reconstituer une tigure gomtrique de 11 points dans un espace euclidien de dimension rduite. Benzcri a donn la fonnule approche suivante pour reconstituer une distance dij connaissant seulement le rang de cette distance parmi les n(n - l )/2 possibles:
2) =
1 ( nn- 1)
Lorsque les donnes se prsentent sous forme d'un tableau X de p caractres numriques. on utilise souvent la mtrique euclidienne classique 1\11 = 1, ou
= D Il.r1,
= 2:1 x}
k
xJ 1,
10
(X7 - xJ)" )
Il.1.1.2
Ce cas trs frquent concerne des donnes du type suivant: 11 individus sont dcrits par la prsence ou l'absence de p caractristiques. De nombreux indices de similarit ont t proposs qui combinent de diverses manires les quatre nombres suivants associs un couple d'individus:
a = nombre de caractristiques communes; b = nombre de caractristiques possdes par i et pas par j ; c = nombre de caractristiques possdes par j et pas par i ; d = nombre de caractristiques que ne possdent ni i, ni j.
Bien que possder une caractristique ou ne pas possder la caractristique contraire soient logiquement quivalent, a et d ne jouent pas le mme rle pour des donnes relles: le fait que deux vgtaux ne poussent pas dans la mme rgion ne les rend pas ncessairement semblables. Les indices suivants compris entre a et 1 sont aisment transfonnables en dissmilarit par complmentation il l :
a Jaccard : - - - -
a+b+c
2a + b + c
Ochia : -======
(a
li
+ 11)(a +
c)
Russel et Rao:
+d+
2(
11_Methodes de classification
245
11.1.1.3
Deux distances ou dssimilarits s'accordent d'autant mieux qu'elles respectent les ordres entre proximits. A toute distance d correspond un ordre sur les parties d'lments de E dfinies par des relations du type d(a, b) ::5 d(c, d). Pour comparer deux distances dl et dl, on formera tous les quadruplets possibles de points de E et on comptera le nombre d'ingalits modities (ceci constitue une distance entre classes de fonctions de E X E dans !Ri-+- dfinies un automorphisme croissant prs). L'ordre sur les paires dfini par une distance s'appelle une ordonnance. Si .1 dsigne l'ensemble des paires de E, cette ordonnance peut tre reprsente par un graphe sur i, c'est--dire une partie Ede i X i. Le nombre des ingalits modifies n'est autre que le cardinal de la diffrence symtrique des graphes G I et G"]. associs d, et d"]. d(d, ; d"].) = card (GILlG"].).
1 1.1.2
Une partition dtnit une variable qualitative dont les catgories sont les classes de la partition. On pourrait donc comparer deux partitions PI et Pl en tudiant le croisement des deux variables qualitatives associes. Cependant, la numrotaLion des classes tant arbitraire, il est prfrable de considrer les paires d'individus afin de savoir si quand deux individus font partie de la mme classe de P" ils sont dans une mme classe de P"]..
11.1.2.1
On notera C le tableau de taille Il, telle que cij = 1 si les individus i et j font partie de la mme classe, cij = 0 sinon. Il est facile de voir que C = XX' o X est le tableau disjonctif associ une partition P Les cij vrifient des relations particulires puisqu'une partition est une relation d'quivalence : Rflexi vit : Cfi { Symtrie: cij Transitivit: cij
=1
Cik ::;
= cp + Cjk -
La dernire relation peut ne pas sembler naturelle, mais elle traduit linairement le fait que, si i et j sont dans une mme classe, j et k dans une mme classe, alors les 3 lments sont dans la mme classe. On a de plus les formules suivantes: Le nombre m de classes de la partition est tel que:
111
" 1 = )'-.;;...J/I
1=1"" L.Jcij
j=1
Si
11 110
Il :
/Il
2:. :Lcij =
i=1 j=1
Il
Tl
Trace(CC')
:Ln r~.
11=1
246
11_Mthodes de classification
Il.1.2.2
Considrons les n 2 paires d'individus, on notera: a : le nombre de paires dans une mme classe de Pl et dans une mme classe de Pz (accords positifs) b : le nombre de paires dans une mme classe de PI et spares dans P2 c: le nombre de paires spares dans PI et dans une mme classe de P2 d: le nombre de paires spares dans PI et spares dans P2 (accords ngatifs) Le pourcentage de paires concordantes a/1l 2 est un coefficient semblable celui de Kendall pour les ordres, mais il est plus courant d'utiliser (a + d)//12 si l'on donne la mme importance l'appartenance au complmentaire d'une classe. On a ainsi dfini le coefficient de Rand R dans la version donne par Marcotorchino et Michaud (1l 2 paires au lieu de /1(n - 1)/2 paires dans la version orginale de Rand). En notant CI et C2}es deux matrices de comparaisons par paire, on trouve facilement:
a
=~
Il
...:..J
"I
11
11/1
Ill!
i""l )=\
Il III'
est le terme gnral du tableau de contingence X'IX:, croisant les deux partitions.
ana:
d =
/1
Il
cij)(l - c~)
Il prend ses valeurs entre 0 et 1 ; il est gal 1 lorsque les deux partitions sont identiques. La version suivante (correction de Hubert et Arabie) est galement utilise:
Son avantage est que son esprance est nulle si les deux partitions sont indpendantes, mais l'inconvnient est que l'on peut avoir des valeurs ngatives.
Cl
(j
l 1
o o
1)
c' =
(~
o
l
1)
11_Mthodes de classification
247
bcd 2
On notera que ] - R
card(GI~G1)
. ..
ad da
ExE
FIGURE
Il.1
1 1.1 .3
On pourrait penser que. muni d'un critre, la recherche de la me11eure partition soit chose facile: E tant fini, il suftirait de considrer toutes les partitions possibles ( nombre tix de classes ou non) et de choisir ce]]e qui optimise le critre de qualit choisi. Les rsultats suivants montrent que cette tche est insurmontable car le nombre de partitions devent vite astronomique: un calculateur pouvant traiter un million de partitions par seconde mettrait plus de 126 000 annes pour tudier toutes les partitions d'un ensemble de 25 lments ! Il faudra donc, dans la plupart des cas, se contenter de solutions approches.
11.1.3.1
Notons Pli, k' ce nombre appel nombre de Stirling de deuxime espce. On a les rsultats triviaux suivants : P/l. 1
Pn.1I = l
~ Pll,tI-1
11(11 -
])
.
Le nombre de dIchotomies
248
=2
11
')11
couples de parties complmentaires, mais parmi eUes il y a la partition {E, 0} liminer. Les nombres Pn, k satisfont l'quation de rcurrence suivante qui permet de les calculer de proche en proche : (tableau Il. 1)
_ Dmonstration: Soit une partition de E en k classes et soit un lment e de E : de deux choses l'une, ou bien e est seul dans sa classe, ou il ne r est pas: si e est seul dans sa classe il y a PII _I, k-) partitions de cette sorte; si en' est pas seul dans sa classe c'est que E - {e 1 est partitionn aussi en k classes et 11 y a PII -1. J.. manires de le faire et e peut se trouver alors _ dans l'une quelconque de ces k classes soit kP II _ u possibilits.
On peut montrer que :
Il,~
=k'
~ C i .(-l )k-i i ll
~
k
, 1"'1
et donc
SI Tl
--'J> 00
Pn. k
-,
kn
k!
Il.1.3.2
On a:
k=1I
Pli
2:PIl ,k
1;;1
On peut aussi obtenir une fonnule de rcurrence sur les Pli" Considrons, comme prcdemment, un lment e : pour une partition donne de E, e se trouve dans une classe ; si cette classe a un lment, il y a PII _ 1 partitions de E laissant e seul dans une classe; si cette classe a deux lments, il y a C 1~-1 manires de choisir le compagnon de e dans sa classe et P/I-1 manires de constituer les autres classes; si cette classe a k lments, il y a C~: \ manires de choisir les compagnons de e et Pn - k manires de constituer les autres classes d'o:
= l, on a la fonnule :
249
kil
1
On dmontre que P'I = e
2: k=1
k!
TABLEAU
r 1.1
TABLE DES
PI!, k
7
k
Il
1 1 1 1
'1
.\.
.5
l)
10
LJ
1 66
P"
1 2
3
../
;
7 15 31
.5
1 10
1
1 1 1
5
6 7 8
15
90
30\
15 52 1
21
65
350 1701 7770 3..J. 105 145750 6\\ SOI
63
127
15 140
1050 6951 42525 146730 \ 379400
203 877
1 36 750 11880 159 on
1 45 1 155 22275
9 10
1\ Il
1 1
1
255
511
1
1
1 o:!3
2047
28 462
5880
63987 627396
1 55 1705
1 1.1.4
La dfinition de classes ~< naturelles )} pose cl' pineux problmes. Si dans certaines situations simples comme celle de la figure 11.2 on voit clairement de quoi il s'agit, il est loin d'en tre ainsi la plupart du temps et il faut bien admettre que l'on ne peut donner de dfinition clare des classes II priori. D'o la difficult de valider des mthodes de classification en essayant de reconnatre des classes prexistantes.
){ )(
JI(
)(
)(
JI( JI(
JI( JI(
)(
x
JI(
le )(
le le
FIGURE
Il.2
Bien souvent, les classes ne seront que ce qu'a produit un algorithme de classification. Sur le plan pratique, la dtermimuion du nombre rel solution satisfaisante.
Notons enfin qu'il ne suftt pas de produire des classes: il faut encore les interprter et utiliser alors l'ensemble des infonnations disponibles et pas seulement les distances deux deux.
250
11_Mthodes de cla5iSfication
Il.2
1 1.2.1
Ces mthodes permettent de traiter rapidement des ensembles d'effectif assez lev en optimisant localement un critre de type inertie. On supposera que les individus sont des points de IRI' muni d'une distance euclidienne.
Il.2.1.1
tant donn une partition en k groupes d'un nuage de Il points, on dfinira les quantits suivantes: g" g:! .... , gk centres de gravit des k groupes et II. l:!, ... , lk inerties des k groupes. On rappelle que l'inertie est la moyenne des carrs des distances au centre de gravit. L'inertie totale 1 des II points autour du centre de gravit global g est alors gal li la somme de deux termes (thorme de Knig-Huyghens) :
o III' est l'inertie intraclasse Ill' = 'LPij' Pi tant le poids de la classe i et l/J l'inertie interclasse ou inertie du nuage des k centres de gravit: lB = LPid2(gi. g). Un critre usuel de classitication consiste chercher la partition telle que IH' soit minimal pour avoir en moyenne des classes bien homognes, ce qui revient chercher le maximum de lB' Remarquons que ce critre ne s'applique qu' nombre de classes fix: si k n'tait pas fix la solution serait la partition triviale en 11 classes (un individu = une classe) qui annule III"
Il.2.1.2
Due Forgy, elle consiste partir de k poinlli pris parmi E (en gnral tirs au hasard) ; ces k points dfinissent une partition de l'espace, donc une partition de E en k classes Ec E C1 ' , EI.'.(' La partition de IR JI associe k centres CI> c:!' ... , Ck est un ensemble de domaines polydraux convexes dtermin par les hyperplans mdiateurs des centres. ECI est la classe constitue par rensemble des points de E plus proches de Cj que de Lout autre centre (fig. 11.3).
j ,
x
)(
FIGURE
Il.3
11_Mthodes de dassificar.ion
251
On remplace alors les k pOnts pris au hasard par les Il. centres de gravit de ces classes et on recommence: l'algorithme converge rapidement vers un optimum local car le passage d'un centre arbitraire Ci un centre de gravit diminue ncessairement la variance interne des classes. Soit ErJ,1 la classe obtenue en remplaant Ci par gj centre de gravit de Er.::,. TI suffit de montrez que:
car, d'aprs le thorme de Konig-Huyghens, gi n'tant pas le centre de gravit de E"'I' le membre de droite sera suprieur la variance intrac1asse de la partition EgJ' Or, si r on considre un point quelconque, il figurera dans le membre de droite avec son carr de distance au gi qui sera le plus proche de lui par construction des E/!", tandis que dans le membre de gauche il tigurera avec sa distance un gi qui ne sera pas forcment le plus proche de lui. mais qui sera seulement son centre de gravit dans la partition Er!" Ceci dmontre donc le rsultat annonc: le nuage tant fini (l'ensemble de toutes les partitions possibles aussi), 1'algorithme converge car la variance intraclasse ne peut que diminuer; elle atteindra donc son minimum accessible partir du systme initial de centres Ci en un nombre tini d'itrations, le thorme de Huyghens indiquant que cette dcrossance est stricte si gj n'est pas confondu avec Ci' L'exprience montre que le nombre d'itrations ncessaires est trs faible. Si au cours d'une itration une classe se vide, il est possible de tirer au hasard un nouveau centre. La tigure lIA montre le droulement de l'algorithme sur un cas d'cole: on voit qu'en deux itrations on a reconnu ) la structure existante.
x x
x )(
x
FIGURE
liA
Cette mthode peut s'appliquer des donnes qualitatives condition de travailler sur des coordonnes factorielles. On a ainsi effectu une partition en quatre classes de l'ensemble des 27 chiens tudis au chapitre prcdent en utilisant les coordonnes issues de l' ACM du tableau disjonctif (on utilise ici les la facteurs). Quatre centres ont t tirs au hasard (les individus Il, 7, 18, 25) et on a abouti en moins de 10 itrations la partition suivante: Classe Classe Classe Classe l : individus 2 : individus 3 : individus 4: individus n" n n n 2, 5, 7, 8, 17, 22, 26. 4,9, Il, 14, 19. 6, 21, 24. 27.
1,3,10,12,13,15,16,18,20,23,25.
252
11_Mthodes de Classitic:aticln
l.
Dans la mthode prcedente, on attend que tous les individus aient t affects une classe pour recalculer les centres de gravit. La variante de Mac Queen procde diffremment: les centres sont recalculs aprs l'affectation de chaque point. La mthode des nues dynamiques, propose par E. Diday, est une extension de la prcdenle. Elle en diftre notamment par les traits suivants: au lieu de reprsenter une classe uniquement par son centre de gravit, on la caractrise par un noyau )}. Ce noyau peut tre un ensemble de q points (les plus centraux), un axe principal ou un plan principal, etc.
Il faut donc disposer formellement d'une fonction de reprsentation qui, un ensemble de points, associe son noyau.
Il faut ensuite disposer d'un algorithme de raffectation des points aux noyaux. On procde alors par alternance des deux phases: affectation, reprsentation jusqu' convergence d critre choisi. La mthode des nues dynamiques ne se limite pas au cas de """"UII'-\...:I euclidiennes.
Comme la partition finale peut dpendre du tirage des noyaux de dpart (problme d'optimum local), on recommence alors toute l'opration avec s autres tirages. On appelle formes fortes ou groupements stables les ensembles d'lments ayant toujours t regroups lors de la partition finale pour les s passages de l'algorithme.
1 1.2.2
La mthode de Condorcet
,1111'
Considrons un ensemble de Il individus dcrits par p variables qualitatives 11lb 1n2' modalits respectivement: on a p partitions diffrentes du mme ensemble.
p partitions initiales.
La recherche d'une nouvelle partition revient donc rechercher un compromis entre ces Soit Cl, et C
Cij
e\ ... , CP
... , f~"
= :LC/.:.
k
est le nombre de fois parmi p o les objets i etj ont t mis dans une mme classe.
Soit C' = 2C - p. On a alors cij > 0 si i etj sont dans une mme classe pour une majorit de variables g{'k' cij < 0 si il y a une majorit de variables o i et j sont dans des classes di ffrentes ; cij = 0 s'il y a autant de variables pour lesquelles i et j sont spars que de variables pour lesquelles i etj sont runis. Un critre naturel pour former une partition centrale , compromis entre les p partitions, consiste alors mettre i et j dans une mme classe chaque fois que cij est positif et il les sparer il chaque fois que cij est ngatif. Malheureusement, ce critre ne fournit pas ncessairement une partition: il peut y avoir non transitivit de la rgle majoritaire. C'est le paradoxe de Poincar: ce n'est pas parce qu'il y a une majorit pour runir et j, jet k qu'il y a une majorit pour runir i et k.. Il faut donc imposer les contraintes des relations d'quivalence ce qui revient chercher la partition satisfaisant au mieux la majorit des partitions initiales.
It_Mthodes de classification
253
Si Y est le tableau des comparaisons par pares de la partition cherche, on a donc rsoudre le problme suivant:
i
.IJ
avec:
"" + -\'., JI
:5
C'est un problme de programmation linaire bivalente dont on peut trouver une solution exacte (pas forcment unique) si Il est faible, ou une solution approche si 11 n'est pas trop lev en utilisant des heuristiques (voir l'ouvrage de Marcotorchino et Michaud cit en rfrence). . Il Y a. en eftet, d e l'ord re de w1 tnconnues contraintes. On aura remarqu que le nombre de classes n'a pas tre impos, il fat partie de la solution. La distance de la diffrence symtrique entre les deux partitions associes aux tableaux Cl: et Y vaut: 2:2:1 Yu
i j
(11(11 2 -
c~,1 1)
..::.-..::.-
"''''(v" 1]
k C 1).)1
La partition cherche est donc celle qui est distance moyenne minimale des partitions initiales puisque:
D'aprs le paragraphe 11.1.2, la partition optimale est donc celle qui maximise la somme des indices de Rand avec chacune des partitions associes aux p varables qualitatives. On retrouve ici une proprit d'association maximale: max2: c (qy, gek) I)
k
o <I> est un critre d'association entre variables qualitatives. Lorsque <I> n'est pas l'indice de Rand, il faut en gnral fixer te nombre de classes de OY, En l'exprimant en termes de comparaison par paires, c'est--dire en explicitant la mesure d'association (1) en fonction des tableaux Y et Cl:., on peut se ramener un problme de programmation linaire dans certains cas. Ainsi l'indice d'association de Belson entre deux variables qualitatives dfini par:
lIu.
2:2:(1111\'
Il l'
Il.I'):!
Il
254
11_Mthodes de classification
O 11/H'
1 1.3
MTHODES HIRARCHIQUES
Elles consistent en un ensemble de partitions de E en classes de moins en moins fines obtenues par regroupements successifs de parties. Une classification hirarchique se reprsente par un delldrograw1Ile ou arbre de classification (fig. 11.5) :
d
Il.5
FIGURE
Cet arbre est obtenu de manire ascendante dans la plupart des mthodes: on regroupe d'abord les deux individus les plus proches qui fonnent un noeud , il ne reste plus que 11 - l objets et on itre le processus jusqu' regroupement complet. Un des problmes consiste dfinir une mesure de dissimilarit entre parties. Les mthodes descendantes, ou algorithmes divisifs, sont plus rarement utilises.
11.3.1
Il.3.1.1
Aspect formel
Hirarchie de parties d'un ensemble E
b) \tA, B E HAn BE lA, B, 0}. En d'autres termes, deux classes sont soit disjointes, soit contenues l'une dans l'autre. ( c) Toute classe est la runion des classes qui sont incluses en elle.
(fig. 11.6)
Une partition de E compatible avec H est une partition dont les classes sont des lments de H. D'une manire image, c'est une partition obtenue en coupant l'arbre selon une horizontale et en recueillant les morceaux.
11_Mthodes de classificaton
255
FIGURE
Il.6
Lorsque l'on peut dire qu'un lment ou L1ne partie A est relie B avant que C ne soit relie D, autrement dit s'il existe une relation de prordre totale compatible avec la relation d'ordre naturelle par inclusion, on dit qu'on a une hirarchie stratifie. Une hirarchie est indice s'il existe une application ide H dans lR!+ croissante, c'est-dire telle que si A C B : i(A) ~ i(B). A toute hirarchie indice correspond une hirarchie stratifie. Les indices sont appels niveaux d'agrgaton : i(A) est le niveau auquel on trouve agrgs pour la premire fOs tous les constituants de A. Ainsi, dans la figure Il.7 on a i(c, d) = 1 et i(a, b, c) = 0.5.
0.5
0.4
1 1 1 1 1 1 1 -J,.---1
t---------1 1
0.2
+---.....-----.. . .
1 1
o!
a
b
FIGURE
Il.7
Les niveaux d'agrgation sont pris gaux, en gnral, lndice de dissimilarit des deux parties constituant la runion i(a, b, c) = 8(([/, b), c). Le problme se pose alors de savoir si )a hirarchie peut prsenter ou non des inversions : si li, b sont runis avant c, d dans l'algorithme, on doit avoir i(ll, b) < i(e, d) sinon il y a inversion.
Il.3.1.2
Distances ultramtriques
A toute hirarchie indice H correspond un indice de dis Lance entre lments de H : d(A, B) est le niveau d'agrgation de A et de B, c'est--dire nndice de la plus petite partie de H contenant la fois A et B.
256
a a t runi
ou bien c n'est pas encore runi a (ni b par consquent), il sera donc runi tard, donc d(a, c) qui est gal d(b, c), puisque a et b sont maintenant runis, suprieur d(a, b) ; ou bien c est dj runi 11 ou b, supposons CI pour fixer les ides, avant que a ne soit runi b. Donc d(a, c) < d(a, b). Mais alors d(b, c) = d(a, b), car c est runi b en mme temps que b l'est a. Ce qui dmontre la relation ultramtrique. Rciproquement, toute ultramtrique correspond une hirarchie indice; la recherche d'une classification hirarchique est donc quivalente celle d'une ultramtrique; le problme cl de la classtication est donc le suivant : connaissant une mtrique sur E, en dduire une ultramtrique aussi proche que possible de la mtrique de dpart. Les proprits suivantes de gomtrie ultramtrique prcisent le lien avec les hirarchies indices: En gomtrie ultramtrique, tout triangle est soit isocle pointu (la base est infrieure la longueur commune des deux autres cts), soit quilatral. En effet:
d(a, c) $ sup {d(u, c) ; d(b, c)} d(a, c) ::=; sup {d(a, b); d(b, c)}
Supposons par exemple d(a, b) > d(a, c) > d(b, c). Cette hypothse est absurde car une des trois relations ultramtriques n'est plus vritie. Il faut donc que deux cts soient gaux et on vot aisment que ce sont forcment les deux plus grands qui le sont. En gomtre ultramtrique, tout point d'une boule est centre de cette boule. En effet, soit B la boule ensemble des points dont la distance un centre a est infrieur
r:B(u,r) {xld(a,x)::=;r}.
E
On en dduit que, si deux boules ont une intersection non vide, l'une est ncessairement incluse dans l'autre puisqu'elles sont concentriques. On retrouve bien ici la proprit d'inclusion des parties d'une hirarchie.
1 1.3.2
On suppose ici que l'on connat un indice de dissimilarit d. Diffrentes solutions existent qui correspondent des choix diffrents de la dissimlart entre parties de E, appels stratgies. Le problme est en effet de dfinir la dissimilarit entre la runion de deux lments et un troisime: du, b) ; c). A chaque solution correspond une ultramtrique diffrente.
11_Mthodes de c1assificaton
257
Il.3.2.1
Le saut minimum
dll, b) ; c)
Cette mthode (connue sous le nom de single linkage en anglais) consiste crire que: inf(d(ll, c) ; d(b, e)). La distance entre parties est donc la plus petite distance (fig. 11.8) entre lments des deux parties.
FIGURE
Il.8
qui est
parmi les ultramtriques infrieures d (8(i,j) s; d(i,j)) la plus leve (S(i,j) maximum).
En effet, la construction de l'arbre aboutit une suite de partitions Pli embotes, conduisant chacune une dissimilarit cl" entre parties. Nous allons montrer que dIt, qui est forcment infrieure 8, est suprieure toute ultramtrique infrieure fi : comme, la limite, dl: devient ultramtrique, c'est que l'on a obtenu l'ultramtrique infrieure maximale. Montrons ceci par rcurrence; si c'est vrai pour dll-l~ montrons que c'est encore vrai pour th. Il suffit d'examiner les couples pour lesquels d,,(u, i) =J:. d"_1 (u, i). Ceci n'est possible que si Il (ou i) vient d'tre agrg. Nous sommes donc dans la situation suivante o, au pas h, on vient d'agrger i l' (fig. 11.9).
n
a alors:
d,,(i, i')
dh-l(i, i')
i'
FIGURE
Il.9
Sil' on a agrg i i' , c'est qu'ils taient les plus proches avec la dissimilarit
d,,_, et l'on
s inf (dll-I(U,
S, donc d lt -
(rcurrence)
Comme d est ultramtrque, d(ll, i) s; sup [d(i, i') ; lI(u, i')} donc:
d(u, i)
s sup
Comme dh-1U, i') s; inf (d"_l(ll, i), dIJ-1(u, t)]. On a d(u, i) s; dh-l(lI, i'). On a donc la fois d(u, i) s; d"_1 (li, i'), d(u, i) s; d h - I (li, i) et:
dil (lI, i)
C'est donc que d(u, i) S dl!(u, i).
258
11_Mthodes de classification
Une autre mthode pour aboutir l'ultramtrique infrieure maximale, due M. Roux, consiste passer en revue tous les triangles possibles faits avec les points de E el les rendre isocles pointus (on remplace la longueur du plus grand ct par celle du ct mdian), de manire obtenir directement l'ultramtrique infrieure maximale. On passe en revue tous les tr,mglesjusqu'~l ce qu'on ne puisse plus rien modifier; le reste ensuite tracer l'arbre.
Il.3.2.2
On aboutit alors une des ultramtriques suprieures minimales, contrairement au cas prcdent o la sous-dominante est unique. Il n'existe pas en effet une seule ultramtrique minimale parmi les ultramtriques suprieures d; on montre mme qu'il en existe (Il - 1)1 dans le cas o toutes les valeurs de la dissimilart sont diffrentes. De nombreuses autres mthodes de calcul de distances entre parties ont t proposes (moyenne des distances, etc.) toutes sont des cas particuliers de la formule de Lance et Williams gnralise par Jambu :
da, b) ; c)
+ ll71 d(a, b)
1
0
- d(b, (')/
Pour qu'il n'y ail pas d'inversion, il faut que les coefficients vrifient:
+ a2 + [/3
;::
= as
= 116 =
0,a7
= 1/2
11.3.3
Si l'on peut considrer E comme un nuage d'un espace IRJ!, on agrge les individus qui font le moins varier l'inertie intrac1asse. En d'autres termes, on cherche obtenir chaque pas un minimum local de l'inertie intraclasse ou un maximum de l'inertie interclasse. L'indice de dissimilarit entre deux classes (ou niveau d'agrgation de ces deux classes) est alors gal la perte d'inertie interclasse rsultant de leur regroupement. Calculons cette perte d'inertie. Soit gA et gl! les centres de gravit de deux classes et gMI le centre de gravit de leur runion. Ona:
259
9AB
FIGURE
9a
11.10
L'inertie interclasse tant la moyenne des carrs des distances des centres de classe au centre de gravit total, la variation d'inertie est gale :
PAd"!(gA' g)
+ PBd"!(g/J' g)
- (PA
+ pl1)d 1(gAl1'
PA
g)
. . . cu ~] , qUI Un ca1 1 e ementmre montre que cette vanatlOn vaut PA PB d'l( gr\, g[J) ( ' est done
+ Pl1
positive). Si l'on pose : Cette mthode rentre dans le cadre de la formule de Lance et Williams gnralise car:
((A, B) ~ C) = (PA
- Pc(A, B)
on peut donc utiliser l'algorithme gnraL On notera que la somme des niveaux d'agrgation des diffrents nuds de l'arbre est gale l'inertie totale du nuage puisque la somme des pertes d'inertie est gale l'inertie totale. Cette mthode est donc complmentaire de l'analyse en composantes princpales et repose sur un critre d'optmisation assez naturel. Elle constitue notre avis la mthode de classification hirarchique de rfrence sur donnes euclidiennes. Tl ne faut pas oublier cependant que le choix de la mtrique dans l'espace des individus conditionne galement les rsultats.
Il.3.4
Lorsque les 11 individus classer sont dcrits par des variables qualitatives, divers cas se prsentent. Pour les donnes de prsence-absence, on utilisera un des indices de dissimlarit prsents au paragraphe 11. 1.1.2. Pour des donnes du type P variables qualitatives 111!, m"! ... , mp modalits, on utilisera la reprsentation disjonctive complte :
001 . [ 0 lOOI'...'1 001 ] lOOO X
260
11_Mthodes de c:lassification
La distance du X:! entre lignes du tableau possde alors des proprits intressantes: d (i, i') =
2: !!..(Xii - XO)2
) Il.)
P
Il 2:- (xij xr)) xi) tant
) Il.)
gal 0 ou 1. On voit que la similarit dpend non seulement du nombre de modalits possdes en commun par i et i' mais de leur frquence, ce qui revient dire que deux individus qui onl en commun une modalit rare sont plus proches que deux individus ayant en commun une modalit frquente: cette proprit semble assez naturelle. On utilisera alors la mthode de Ward (puisque la distance Xl est euclidienne) sur le tableau des distances. Une autre solution consiste effectuer une classification hirarchique sur le tableau des coordonnes des 11 individus aprs analyse des correspondances multiples de X. Il faut prendre garde ici que ces deux approches ne seront quivalentes qu' la condition d'utiliser tous les facteurs de l'ACM (soit
2: mi
i=1
Jl
nombre de facteurs peut tre fallacieuse car elle peut laisser de ct certaines particularits du nuage de points, Par ailleurs, il ne faut pas oublier de conserver la normalisation -{X. de chaque axe car ceux-ci ont des importances diffrentes. Ces remarques sont valables galement pour des classifications effectues sur des composantes principales. La classification hirarchique des lignes ou des colonnes d'un tableau de contingence s'effectuera avec la mthode de Ward et la distance du X2 entre 1ignes (ou entre colonnes). Cette mthode revient regrouper les catgories d'une variable qualitative de la faon suivante: chaque tape, on runit les deux catgories (en sommant les effectifs) qui font diminuer le moins possible le <.pl puisque l'inertie totale est ici X2/n = q/-.
1 1.3.5
Considrations algorithmiques
.. . 'b ' 1 etape un tabl eau d e ll(n - 1) d' gont lstances L , a1 . llme genera1 conSIste a al ayer a claque' 2 ou dissimilarits afin d'en rechercher l'lment de valeur minimale, runir les deux individus correspondant, mettre jour les distances aprs cette runion et li recommencer avec Il - 1 objets au lieu de Il.
La complexit d'lm tel algorithme est en 11 3 (ordre du nombre d'oprations effectuer) et on atteint rapidement les limites d'un ordinateur mme puissant pour quelques centaines d'observations. Diverses techniques ont l proposes pour acclrer les oprations et pouvoir traiter des ensembles plus vastes d'individus. La mthode des voisinages rductibles (M. Bruynhooghe) consiste n'effectuer les comparaisons de distances que pour celles qui sont infrieures un seuil fix. Il faut ensuite ractualiser ce seu 1 au fur et il mesure que la classHcation s'effectue. La mthode des voisins rciproques (Mac Quitty et 1. P. Benzecri) consiste runir simultanment plusieurs paires d'individus (les voisins rciproques) chaque lecture du tableau
11_Mchodes de dassificacion
261
des distances. la complexit de l'algorithme devient alors en Il'1. La recherche des voisns rciproques s'effectue alors en chane: on part d'un objet quelconque et on cherche son plus proche voisin, puis le plus proche voisin de celui-ci, etc., jusqu' aboutir un lment dont le plus pro~ che voisin est son prdcesseur dans la liste. On runit ces deux lments et on recommence partir du nud cr ou de ravant-dernier lment de la liste jusqu' cration de tous les nuds.
Il.4
La dtermination du nombre de classes est relativement aise en classification hirarchique en tudiant le dendrogramme et en s'aidant de l'histogramme des indices de niveau. La coupure de l'arbre en k classes ne fournit cependant pas la partition optimale en k classes de l'ensemble en mison de la contrainte d'embotement des partitions issues d'une hirarchie. Mais cette coupure fournit une excellente initialisation pour un algorithme de partitionnement de type nues dynamiques. De cette faon on peut rsoudre pratiquement le problme pineux du choix du nombre de classes d'une partition. Cependant les mthodes de classification hirarchique ne sont pas utilisables lorsque le nombre d'individus dac;;ser est trop lev (suprieur plusieurs milliers), alors que les mthodes de partitionnement ne connaissent pas ce genre de limites et sont trs rapides. Le principe des mthodes mixtes, galement apeles hybrides, tire parti des avantages des deux techniques. Concrtement, on procde de la faon suivante en trois tapes: l. 2. 3. Recherche d'une partition en un grand nombre K de classes (par exemple 100) avec une mthode de type nues dynamiques Regroupement hirarchique des K classes partir de leurs centres de gravit et dtermination d'une coupure en k classes Consolidation: amlioration de la partition en II. classes par une mthode de type nues dynamiques
Il.5
CLASSIFICATION DE VARIABLES
La plupart des mthodes exposes prcdemment ont t conues pour classer des individus. Lorsque )' on veut faire des regroupements de variables, il convient de prendre certaines prcautions car la notion de distance entre deux variables pose souvent de dlicats problmes dus la nature des variables.
Il.5.1
Variables numriques
Pour des variables numriques, le coeHicient de corrlation linaire constitue l'indice naturel et 1 - r est alors un indice de dissimilarit qui est en plus une distance euclidienne. On peut alors utiliser la mthode hirarchique de Ward et celle des nues dynamiques puisque l'on dispose d'une distance euclidienne. Une variante consiste utiliser les coordonnes des variables sur des axes factoriels. Mentionnons galement lu mthode divisive (ou descendante) disponible dans le logiciel SAS (procdure varclus) qui revient 11 dterminer les groupes de variables les plus unidimensionnels possible au sens o l'ACP de chaque groupe ne fournit qu'une seule
262
11_Mthodes de classification
dimension : une seule valeur propre suprieure 1. L'algorithme est sommairement le suivant: on part de l'ensemble des p variables et on effectue une Aep. Si il n'y a qu'une seule valeur propre suprieure l> on s'arrte. Sinon on classe les variables en deux groupes selon leurs proximits avec la premere ou la deuxime composante principale. On recommence alors la procdure dans chaque groupe.
1 1.5.2
Pour des variables qualitatives, un problme vient du fait que les mesures de liaison ne sont comparables que pour des nombres gaux de catgories, ou du degr de libert du couple. I. C. Lerman a propos de remplacer la valeur de l'indice de similarit entre variables de mme nature (corrlation, X~, etc.) par la probabilit de trouver une valeur infrieure dans le cadre de l'hypothse d'indpendance (appele <,( absence de lien}). Ainsi, au lieu de prendre r, on prendra P(R < r). L'avantage est incontestable pour les mesures de similarit entre variables qualitatives qui deviennent ds lors comparables indpendamment des nombres de catgories: un X-r gal 4 correspond une similarit de 0.6 alors qu'un Xfo gal 5 correspond une similarit de 0.12. L'algorithme de la vraisemblance du lien (AVL) consiste alors utiliser comme mesure de proximit entre deux groupes A et B de /Il et 1 variables respectivement, la probabilit associe la plus grande valeur observe de l'indice probabiliste de smilarit. Soit:
10 = sup s(x, y)
xEA .l'EH
o s(x, y)
= P(R <
<
t)
= tm
s(x, y)
<
t) = (1111)' =
!/Il1
xE ,t
On prendra donc comme indice de dissimilarit entre A et B : Ifjl/. On peut alors obtenir une classification hirarchique des variables.
1 1.6
EXEMPLES
Reprenons c-dessous les diffrents exemples dj tudis dans les chapitres prcdents, pour montrer la complmentarit entre les rntll0des factorielles et les mthodes de classification.
Il.6.1
Donnes voitures
Les donnes tant euclidiennes, on utilisera tout d'abord la mthode de Ward sur donnes rduites.
1l_Mthodes de classification
263
Le tableau suivant donne l'historique des regroupements. On vrifie que la somme des indices de niveau (ou somme des pertes d'inertie) est gale l'inertie totale. L'appellation an benjamin est sans signification el ne fait que dsigner les deux lments runis. On constate des sauts importants aprs le nud 34 quand on passe de 3 classes deux classes. Une coupure de l'arbre en 3 classes est alors naturelle.
DESCRIPTIOl:J DES NOEUDS J:..INE BEru EFF. NDl-!. POIDS INDICE HLSTOGH.tlNHS DES INiJLCES DE NIVEAU
19
1"\ 16
1)
20
21 2:3
23
7 5
-.
.00
O.Ol'i
J.DO
4 14 15
:!J II 19
le.
17
21
:1
.00
'2
.00 3.00
3.00 3.00 3.00
25 J6 27
8
'2
28 23
30
:::5
2J
'}
10
,~
4.00 5.00
2
31
28 26 29
13 1
'2.00 .00
.00 11.00 13.00 18.00
**"'****
0.23849
0.36099
0.5~~497
24
32
J3
35
sOtn'IE DES
6 11 13
.06604
.79117 .00000
34
31
18
INDICES DE NIVEAU
RENAULT-30- TS DATSUN-200L OPEL-REKORD-L TAUNUS-2000-GL AUDI-100-L PRINCESS-1800-HL PEUGEOT-504 MAZDA-929S FIAT-132-1600GLS ALFETIA-1.66 LANCIA-BETA- i 300 SIMCA-1307 -GLS RANC HO RENAULT-16-TL LADA-1300 CITROEN-GS-CLUB TOYOT A-COROLLA ALFASUD-TI-1350
FIGURE 11.1 1
264
11_Mthodes de classification
La coupure en 3 classes semble optimale car aucune amlioration passage d'une mthode de centres mobiles:
n~est
obtenue aprs
CONSOLID.i\TION DE LA PI\RTITION i\UTOUR DES CENTHES DE CLASSES J REALISEE PAR 10 l'l'EB.liTIONS A CENTRES HOBILES ; PHOGRESSIOH DE L'INERTIE INTER-CLI".SSES ITERA'1'ION 1. TO'l'ALE . INTER QUorl'IEN?
o
1
3.85720
3.35720
3.85720
ARRET APRES L'ITERATION 2 L' ACCF.OISSm-!ENT DE L'INERTIE IN'rER-CLf..SSES PAR RJ\PPORT AL' ITEH..A.TION PRECEDENTE N' EST QUE DE 0.000 %.
FIGURE
11. Il
1 1.6.2
Vacances
Reprenons maintenant le tableau de contingence tudi en 9.3 avec une AFC. La distance du khi-deux entre profils-lignes ou protils-colonnes tant une disatnce euclidienne, il est ici possible d'effectuer deux classifications, l'une sur les lignes, l'autre sur les colonnes du tableau de contingence.
, 1.6.2.1
HUt,!.
AINE
EFF.
:;
poros
50:::7 .00 1375.00 5162.00 5'\19.00 9511. 00 1<1930. 1.8532.00
INDICE
10
..,
fi
0.00239 0.00274
12 13
1,1 15
'}
12
10 8 11 13
0.00473
0.00587 0.01107
O.031~5
k,**,
**,~.k'~**
tr*"1I'**>Jrk*".f'r~**""**'ft'*
,,,.*~**+~**~*k,,.****w*kk*~**k****~*****~,,.~**** ~*".~k****k~k*~f'r**wk*"'***f'r***k*p**~*~~k~.*w**
0.04930
rE HIVSAU
265
Retraits Ouvriers Employs Autres inactifs Cadres el professions intellecluelles suprieures Professions intermdiaires Artisans, commerants, chers d'entreprise Agriculteurs
FIGURE
11.13
Il.6.2.2
NUIl.
AINE
J -1
POIDS
3479.00
INDICE
10
11
693G.OO
1j364 00 1903.00
12
14
7fit'w,l,'I't"*1t.lr..lr'f't
15
16 17
7 11 10
5
5
14 16
15 12
2 .:1
***ir**f/;)y***
0.OOB64
0.00%9
*** .. *~*ltl'!*-.;***
*"*k*.,.,.***,******~
** r
****.* ** *.
**~*It**~*****.*'f't*1t**~*~*'I't"N***~*~***~*k**~~***
On vrifie dans les deux cas que la somme des indices de niveau est bien gale au phideux de Pearson. On constate que 3 modalits.
r on
11.14
266
11_Mthodes de classification
11.6.3
Races canines
Les donnes du chapitre 10 concernant 27 races canines ont t soumises une classification ascendante hirarchique selon la mthode de Ward sur les 10 composantes de l'analyse des correspondances multiples. On trouve ci-aprs la liste de fonnation des nuds et le dendrogramme (fig. 1 L 15) et tableau 11.2. Il est clair qu'une coupure est effectuer au-dessus du nud n 50 (coude dans le diagramme des indices de niveau) et que l'on distingue nettement quatre classes homognes, ces classes sont ici voisines de celles obtenues par la mthode des centres mobiles.
,----------------.53
eeaucer.m
Collay
10
Seller
Pointer
25
23
CLASSE 1
Beloer al.
Dobmmann Levrlor Fox.hound Epngnoul F Bleu Gnsc. DOrlun
Mas!i/!
12
20 16
15 III 13 21
24
51
52
TOHo-Neuve 27
14 4 H) 11
17
Canlcho Tockol 26 47
50
r------;~9
Bulldarl
44
43
Bassel
Chil\unhua Plikinais II
22 1102523312201615161321 fi 24 27!l
29
1<1"
19 1117 7265 2 8 22
FIGURE
11.15
267
TABLEAU
1 1.2
DESCP.!:P'1'10l1
liOElJDS
!\INE
1.9
BElI,T
Il
Er':,.
TiOlDS
:::.00
~,()(l
J2
30
26
.00
J::
33
12
16
2i
.,
:::0
2
~.OO
(JO
(l.Ol:::;!,
~.OO
~.O[)
O.Ol::::i!;
O.Ol~36
35
::8
21 32 18
JG
38 39
40
~~
13
7.5
34 35
:::9
III
12
113
4:j
I~ :J 46 47
17
37
,13
n.
0.03297 0.04074 0.04698
{}. lJll9J9
O
30
:10
':1
j.}
,j :;
4fJ
49 50
51 5:::
38
46
~9
10
50
o .::::n80
0.:::757
li. '13314
47
51
INDTCES
12
5.2
SQl-U1E
n::s
llTVE;!.U
'" .l.6ii6G7
268
11_Mthodes de classification
Reprsentation des individus et des centres de gravit des classes dans le premier plan factoriel Facteur 2
0.8
~~\~~U/dsET
CLASSE-1/-l BULLDOG
TECKEL FOXTERRIER
MASTIFF
OA
CANiHE COCKER
l
j
FOXiHOUND
LEVRIER
14
DOBEAMANN
l
\
BEAUCERON
:..k"
;
!EPAGNEUL FRANCAIS
CO~EV
syrrER
BERGER ALLEMAND
-0.8
CLAS~314
BOXER
DAL~ATIEN
LABRADOR
EPAGNEUL BRETON
0.4
o.a
Facteur 1
FIGURE 11.16
TROISIME PARTIE
1 Statistique infrentielle
Le problme central de l'infrence statistique est rappelons-le, le suivant : disposant d'observations sur un chantillon de taille n on dsire en dduire les proprits de la population dont il est issu. Ainsi on cherchera estimer, par exemple, la moyenne III de ]a population partir de la moyenne x d'un chantillon. Ceci n'est possible que si l'chantillon a t tir selon des rgles rigoureuses destines en a.ssurer la reprsentativit }) (voir chapitre 20). Le mode de tirage le plus simple et aussi le plus important est l'chantillonnage alatoire simple correspondant des tirages quiprobables et indpendants les uns des autres. Dans ces conditions les observations deviennent des variables alatoires ainsi que les rsums numriques usuels: il convient donc d'en chercher les lois de probabilit avant de tenter d'extrapoler la population .
.. Exemple : On prlve au hasard 11 ampoules lectriques dans une production et on mesure leurs dures de fonctionnement. Si les caractristiques de fabrication n' ont pas vari une ampoule l'autre, les diffrences entre les Xi peuvent tre considres comme des tluctuations de nature alatoire. _
Cette dernire remarque justifie l'hypothse fondan1entale de la thorie de r chantillonnage: les valeurs observes Xi sont des ralisations d'une mme variable alatoire X, appele variable parente. Dans notre exemple, ceci revient postuler l'existence d'une variable abstraite, la dure de vie d'une ampoule de type donn, fabrique dans des conditions donnes. On peut cependant introduire aussi le modle suivant: chaque individu; tir, on associe une variable alatoire Xi dont on observe une seule ralisation Xi (exemple: Xi est la dure de vie de l'ampoule nO i qui, une fois l'exprience faite, a pris la valeur Xi)' L'hypothse fonnule plus haut revient alors dire que les Xi sont des variables alatoires ayant toutes la mme distribution, celle de X. Pour des raisons de commodit, on supposera gnralement les Xi mutuellement indpendantes (dans certains cas, l'indpendance deux deux sera suffisante). On a donc la double conception suivante, qui est la buse de la statistique mathmatique: les valeurs observes (Xl, X2' , xH ) constituent 11 ralisations indpendantes d'une variable alatoire X ou encore, une ralisation unique du n-uple (Xl' X 2, .. , XII) o les Xi sont 11 varables alatoires indpendantes et de mme loi.
272
Par extension, nous appellerons dsormais chantillon Je il-upIe de variables alatoires (X), X 2, , X,I)' La thorie de l'chantillonnage se propose d'tudier les proprits du n-uple (X" Xl, .. " X;l) et des caractristiques le rsumant, encore appeles statistiques, pru1ir de la distribution suppose connue de la variable parente X, et d'tudier en particulier ce qui se passe lorsque la tal1e de l'chantillon est leve. Il est d'usage de rsumer les Il valeurs d'un chantillon XI' X2' .. , X'I par quelques caractristiques simples telles que moyenne, plus grande valeur, etc. Ces caractristiques sont elles-mmes des ralisations de variables alatoires issues de XI' X,2, ... , X'I'
DFINITION
L
12.1
Une statistique T est une variable alatoire fOllction mesurable de X" X::., .. " XII' T f(X}l X::" ... , X,J,
Une statistique peut tre valeurs dans [f,g ou ~f1 ; dans le cas de !FR", on parlera de statis- . tique vectorielle. Les premiers paragraphes de ce chapitre sont consacrs au cas des chantllons d'une variable alatoire relle. On donnera ensuite quelques rsultats concernant les chantillons de vecteurs alatoires.
12.1.1
x.
Dsignons par
la proportion des
11
XII
F,~I;(X) est donc une variable alatoire pour tout X qui dtnit ainsi une fonction alatoire appele foncton de rpartition empirique de l'chantillon, dont les ralisations sont des fonctions en escalier de sauts gaux J /n (fig. 12.1).
FIGURE
12.1
273
Si les
Xi
0
=- -
six
<
XI
si
Xi-I
::s; x
<
Xj
F~!:(x)
= l
12.1.2
Ces trois thormes sont fondamentaux et justifient l'usage des chantillons en statistique.
THORME
1
ps
_ Dmonstration : A x fix, soit Y le nombre alatoire de valeurs infrieures x, qui est une somme de variables de Bernoulli de paramtre F(.r). D'aprs ce qui prcde F,~}:(x) qui n'est autre que Y/Il converge presque srement vers la probabilit F(x). _
THORME
(GLIVENKO-CANTELLI)
La
DII
sup IF,~I'(X)
x
F(x) 1 ~
(KOLMOGOROV)
+:x::
lim P({,;Dn
Il ........
<
y)
K(y) =
.:c
~ (- 1)kexp ( - 2f!y2)
k;-cc
Ce thorme signifie que la distribution asymptotique de la variable alatoire Dn est connue et ne dpend pas de la variable de dpart X, et permet de calculer des lmites pour les valeurs de DII" La loi exacte de la variable Dn a t tabule (table A 1.14 du recueil).
12.1.3
x]>
, x" un Il-chantillon d'une variable alatoire X. Les ralisations peuvent tre rordonnes en YI' )'2' . . . , )'n o YI < Y2 < ... < )'n' les Yi constituent une permutation particulire des Xi- Les Yi sont des ralisations du n-uple de variables alatoires (YI' Y2' ... , l'Il) qui constitue l'chantillon ordonn de X. Soit F(x) la fonction de rpartition de X de densit f(x) et Hl. et h" les fonctions de rpartition et densi l de Yk -
Soit X], X 2,
X2' , XII
274
12.1.3.1
On a PO"I
Loi de Y,
= inf XI
1/
<
y)
[1 - F(y)f' - F(y)]/!-l.f(y)
Il le)')
= n[I
12.1.3.2
Lo; de Yn
= sup XI
11
P(Y'I
<
y) = rI P(Xi
i=1
<
y)
H/I(Y) = [F(y)J'
hile,,)
nfF(y)]!I-lf(y)
Ces deux lois servent en particulier pour la dtection des valeurs aberrantes chantillon: valeurs ( troP petites ou trop ) grandes.
lllIIllII l1l
dans un
Exemple: On sait que pour une loi LG(m ; cr) il y a une probabilit 1.35%0 de dpasser
+ 3cr. Sur un chantillon de 100 observations la probabilit qu'il yen ait au moins une qui dpasse 111 + 3cr monte l - (0.99865)JIlo = 0.126. Si inversement on cherche quelle est la
valeur que YI! a une probabilit L35%0 de dpasser on trouve: F(y/!) 100 environ III + 4.3cr.
(0.99865)1//1 soit pour
Il
12.1.3.3
Loi de l'tendue W
W
Yll - YI
<
YI)
n (Y
II
<
)'11)) = P(YII
<
.l'II) - PY/!
<
YIl)
n (YI> YI))
G(u = (Il[F(X
Jp.
w) - F(x)]/I-lf(x)dx
et sa densit:
g(w)
1l(1l -
1) ( [F(x
J~
III) -
F(X)]/I-lf(x)f(x
w)dx
On trouve alors:
E(W)
-
Jf1
r(l -
(F(x))1/ - (l
F(x))/!)dx
E(Y 1 ).
275
'2.' .3.4
Loi de Yh
Appelons Rn(x) le nombre de rptitions de l'vnement X < x en n expriences indpendantes, qui suit donc une loi binomiale:
L'vnement Yk < x peut tre obtenu de plusieurs manires, soit que les k premires valeurs de X soient infrieures x et elles seules, soit qu'il y en ail k + 1, etc.
Il
Donc:
P(Yk < x)
2:C:/[F(x)J[l - F(X)]II-i
j=k
L'vnement x < Yk < X + dx se ralise si un des Xj est compris entre x et x + dx, si (k - 1)xi sont infrieurs x et si les 11 - k restant sont suprieurs x. Les probabilits respectives de ces diffrents vnements sont f(x)dx, [F(x)Y- 1 , [1 - F(x)]/I-k. Il y a
Il
manires de raliser le premier vnement el C~=\ manires de raliser les deux autres (C~= ~ faons de choisir les Xi infrieurs x, les autres tant alors suprieurs) :
11 -
1.
12.1.3.5
L'tude du comportement de YI et l'Il lorsque 12 ~ 00 est r objet de la thorie des valeurs extrmes dont nous donnons ci-dessous quelques rsultats. Nous nous bornerons tudier l'II puisque YI = -sup( -XI! -X:!, ... , - X1J Remarquons que si n
~
00 :
(F(y)yr ~
0
1
si F(y)
< 1
(F(y))'1
si F(y) = 1
ce qui est sans intrt. Il convient plutt de rechercher s'il existe des coefticients an et hl! tels que G/I.1';/ + h'l tende vers une limite non dgnre, par une opration semblable au centrage~rduction dans le thorme central-limite.
La mthode est la suivante: soit G(y) la loi limite de all J'1I + hl!' Puisque la plus grande des , XNII est aussi la plus grande des N maxima suivants: sup(X1, X2, , XII) ; sup(XIl + 1, , X2J1 ) ; ; sUP(X<N-l}lI ; ... XNII ) on doit avoir:
On dmontre alors que les seules solutions de cette quation fonctionnelle sont les suivantes pour X non born : type l : G(y) = exp( -exp( -y)) loi de Gumbel obtenue si 1 - F(x) tend vers 0 comme exp( -x) quand x ~ 00 ; type II : G(y) = exp( -il) ; y > 0 loi de Weibull (ou de Frchet) si 1 - F(x) tend quand x ~ co (voir chapitre 2, paragr. 2.3.8 et 2.3.9). vers 0 comme
276
Il
exp( -ex p (
-(y a 1;))
ou
X exp ( - ( - b
a)a)
12.1.3.6
F(x) =
Si F est continue, rappelons que le quantile d'ordre p not qp est la valeur de x telle que p_ Le quantle empirique d'un n-chantillon Q" est gal YI1l1'1+ 1 o [np] est la partie entire de np suppos non entier. On dmontre (voir Fourgeaud-Fuchs, 1972) que si
Il ~
':X; :
{,;(Q,12
qll2) -->
LO(ql/, ; 2f(~Ii')
12.2
12.2.1
tude de la statistique X
DFINITION
X = - LXi
11 i= 1
12.2.1.1
Proprits lmentaires
_ Dmonstration :
1
E(X) = ni:::; 1
2: E(X
l
Il
i)
1 = -ml!
11
111
2
V(X)
=2
Il
(/1 Xi) 2:
i= 1
-:;
0-
11
277
On en dduit:
asymtrie et d'aplatissement de X.
Ce dernier rsultat est une forme des lois des grands nombres que nous allons noncer sous un aspect plus gnral. On voit!ie plus que si 11 -3> x, 'Y,(X) -3> totique de X .
12.2.1.2
Elles sont de deux types: lois faibles mettant en jeu la convergence en probabilit et lois fortes relatives la convergence presque sre, Nous considrons ici des suites de variables alatoires XI> Xl, .. " Xli non ncessairement de mme loi.
2:
lli;1
/li=1
i=1
2: -+ est convergente ;
'"
cr~
alors:
-
X-3>m
[15
(Pour la dmonstraton,
278
1 l-
1 2: 7 converge. r
Distribution
Le thorme central-limite tabli au chapitre 2 peut s'crre :
X
m ::.f
-)0
- -
cr/..hz
ULG(O, 1)
+ Xz + ... + XII
= IlX.
12.2.1.3
On prlve ndpen~ammenL et avec remise 11 individus d'une population spare en deux sous-populations A et A de proportions p et 1 - fJ (pices dfectueuses ou correctes dans une production industrielle par exemple). Soit K le nombre d'individus de la sous-population A obtenus dans J'chantillon. On sait que K suit une loi binomiale @(n ; p). Notons F
On a donc:
E(F) V(F)
=p = pO 11
p)
. . et S1 Il est gran d F = LO( p : -~~ en raIson d u th' eoreme centra1-l'ImIte. La convergence de F vers p, connue sous le nom de thorme de De Moivre-Laplace, est une des premires applications de la loi des grands nombres. Ce rsultat a inspir la thorie frquentiste des probablts (voir chapitre]).
~ fP(1=-p))
Application numrique: Comme pour la loi binomiale l'approximation gaussienne de F est valable si np et n( 1 - p) sont tous deux suprieurs 5.
Ainsi pour un chantillon de 400 pices issues d'une fabrication o 10 % sont dfectueuses, on peut s'attendre trouver dans 95 % des cas un pourcentage de dfectueux dans l'chantillon
'i
SOIt
279
12.2.2
tude de la statistique 52
DFINITION
2:
/1
l1i=1
12.2.2.1
Proprits
1 = - 2: x r -
(II ) (Xf _
i;;;;J
IIIIIIII
et :
x<! ~ [E(X)F
~
donc:
ps
E(X-) - [E(X)]-
"
0--
Dcomposition de S2
Partons de X j
On a alors:
Il
Il
III
= Xi
1I1Y~'
+ X-m.
2: (Xi i=J
2: (Xi
Il
xf + 2: (X - 111)'2 + 2(X
II
m)
2: (X;
i= 1
11
)()
;=1
Comme
2: (Xi - X) = 0; on trouve:
;=J
1
n
Il
2:(Xi
i=1
xf + (X mf
Biais de S1
THORME
E(S-) =
"
--0-Il
2
n - 1 ,
280
_ Dmonstration :
E(S2)
==-
1
1
Il
2. E(X i
Il
11 i=1
2:V(X i )
1
V(X)
=-
Il
2.(T2
Il
11i=1
Le biais vaut
Varance de S2
11-]
1)f.1.; - (n - 3)cr"]
el
si
Il
--,)0.
oc :
La variance S'!. tant biaise et ayant donc tendance il sous-estimer (T-, on utilise frquemment la variance corrige dont l'esprance vaut exactement (T2 :
S*1 =
Il
11 -
1 E(S*'!.) = cr:!.
II -
--2:U( - xi1
1/
E(~)
mais est asymptotiquement sans biais.
=1=
~ E(S*:!.)
Il n'existe pas d'expression gnrale donnant E(S*) pour toute distribution. On verra plus loin une formule exacte dans le cas o les Xi suivent des lois normales.
12.2.2.2
n - 1
U E LO(Q, t)
ce qui peut
5' crire
cr
12.2.2.3
Corrlation entre X et 52
281
Nous pouvons supposer sans nuire la gnralit que 111 = 0, car on sait que la covariance est insensible un changement par translation sur un des tennes : cov(X, 52)
E(XS2)
E(X5!.) =
E[(! X (~ XJ Xl)] n
i)
llj=1
= 1E[(2:X)(D/~)]
11,
E(X 3 )
Il
\E[2:22 X XJ] j
i
E(X 3 )
3
11
~ E(2:X~)
i
Il
n-
rr~
/-L.I
11 -
3 rr..t n- 1
el n'est donc nul que si f.LJ est nul, ce qui est le cas des distributions symtriques. Il faut se garder de passer de la non corrlation l'indpendance et nous verrons dans un paragraphe suivant que X et S"l ne sont indpendants que si X suit une loi de Laplace-Gauss.
12.2.3
12.2.3.1
Loi de X
XE LG("'. ::n)
Il s'agt ici d'une loi exacte.
12.2.3.2
L(Xj
;=1
m)2 =
2: (X; i= 1
Il
X)!.
+ n(X
m?
282
(Xi - Ill):!
cr
-== 1
= IlS,,2 + cr-
(X - 1Il)2
cr;-..Jn
Nous sommes dans les conditions d'application du thorme de Cochran. Le premier membre est une somme de 11 carrs de variables centres rduites et suit donc un X~. Le deuxime membre est constitu de la somme de deux formes quadratiques sur ces 2 " . 111)2 lIS varIables de rang 1 pour - y de rang 11 1 pour en effet X est h aux Xi et ('on cr;~11 cr
(X
---r :
a la relation
2: (Xi =l
Il
X)
= O.
l
THORME
I1S 2
L
, X
On peut de plus dmontrer la rciproque du thorme 2 : si Xet S2 sont indpendants alors X est LG (Ill, cr), il s'agit donc d'une proprit caractristique.
/11 _
E X~-l
"l
on aura:
X 111_1 ---"VII
cr
x - m_,--;
---"Vil - l
Il
1 degrs de libert.
Ce rsultat est extrmement utile car il ne dpend pas de cr et servira donc chaque fois que cr est inconnu.
_ Exemple: On prlve 25 pices dans une production industrielle. Une tude pralable a montr que Je diamtre de ces pices suivait une loi gaussienne LG (10; 2). Entre quelles valeurs a-t-on 90 chances sur 100 de trouver le diamtre moyen de ces 25 pices et leur cart-type?
XLG(IO;~)
avec une probabilit 0.90 on trouvera
10
+ 1.64r;:;-;:
9.34 < X < 10.66 car pour la variable centre-rduite U: P( - 1.64 < U <
283
Comme
115"2
"1 X~ - 1 on
255 2
FIGURE
12.2
'J
12.2.3.3
'""12 = - - - - - -
12.1
Statistique
Esprance
11/
Variance
x
Il -
l , --cr
Il
11
5*
R
'YI
(1
=0
=3
6
n
=11
'Ti
24
..,
{T-
Mdiane
111
11
284
que l'on exprime souvent sous la forme E(S*) = C.icr, o c..\ tend vers 1 quand n augmente (table AiS). S* est donc asymptotiquement sans biais pour cr. On en dduit aisment la variance V(S*)
= E(S*2)
- (E(s*)f = cr 2 - (C.)cr)2
= cr 2( 1
d)
Pour r tendue R, les calculs ne sont pas aiss: les coefficients usuellement nots dl et d 3 qui permettent de calculer E(R) = d 2cr et VeR) (d3(Jf figurent dans la table AI8. On notera que quand Il augmente, d;. tend vers l'infini, car la loi nonnale a pour support l'ensemble des nombres rels.
12.2.4
Il s'agit d'une des plus importantes applications industrielles directes de la thorie de l'chantillonnage.
Introduites par W.A. Shewhart ds 1931, les cartes de contrle permettent de suivre au cours du temps la moyenne el la dispersion d'un procd de fabriacation afin de dtecter des carts significatifs (drglages ou drives) par rapport aux valeurs nominales ou consignes respecter. En effet, tout procd est soumis des variations, que r on modlise souvent par une loi normale: par exemple le diamtre de pices mcaniques suit une loi N(m, cr). Soit mu et (Jo les valeurs nominales. On prl~ve intervalles rguliers des chantillons de n pices. La carte de Shewhart (X ; S) est un double graphique o l'on reporte les valeurs successives de la moyenne et de l'cart-type corrig de chaque chantillon. La ligEe centrale correspond l'esprance de la statistique si le procd est bien rgl: E(X) = 1110 E(S*) C.I(JO' Les limites de contrle sonl conventionnellement 3 cart-types de la valeur centrale soit:
Pour Il :::5 5 la limile infrieure de contrle pour S est mise zro, pour viter une valeur ngative. La probabilit de sortir des limites de contrle tant trs faible lorsque le procd est bien rgl, on interviendra ds que l'une des deux statistiques sort des limites. La figure suivante illustre une carte de contrle pour un procd o nI/) = 24 et (J'o = 2 avec des chantillons de taille 5. Des interventions auraient du avoir lieu aux instants 7, 9 et 20, car la moyenne tait sortie des limites.
285
33 31
c
QJ
29
c ~
27
:2: 25
23
21~~~~~~~~~~~~~~
15 10 chantillon
20
25
4[ ___- -_____________________
LCS=3.93 CTR=1.88 LCI=O.OO
10
15
FIGURE
20
25
12.3
12.3
SoiL un chantillon de taille 11 de la loi NI'(p. ;~) (c'est--dire un tableau de donnes 11 lignes et p colonnes), il suffit alors d'appliquer les rsultats du chapitre 4 pour obtenir que:
{,;g
SOil
g - N"
(IL ;;;};)
1) degrs de libert:
IlV --
~)(n -
1 ;~)
286
f.L)'
2:- I (g
- f.L)
et on a :
f.L) - X~
Le rsultat suivant est cependant plus utile car il ne fat intervenir que la matrice V observe et non la matrice 2: thorique:
(n
l)(g
soit:
12.4
Il
--> oc
T --> LG ( e ;
, . . , ( 91(f))C(J)) g(T) est egalement une statistIque asymptotIquement normale et T ~ LG g(6); -{;; .
En effet d'aprs la formule des accroissements finis: g(T) - g(6) = (T - 6)g'(8) + E Oll E est iC une variable alatoire qui tend vers 0 lorsque T tend vers 6, donc quand
Il
~
cc,
La distribution asymptotique de g(T) - g(8) est donc celle de g'(O)(T - 0) et on a V(g(T # (g'(8))2 V(T) d'o le rsultat annonc. Ce rsultat est particulirement utile lorsque l'on veut obtenir une variance asymptotique indpendante de fl: il suHitde rsoudre l'quation diftrentielle g'(6)<r(6) c. En voici trois applications:
12.4.1
On a vu que F ~ LG ( p;
~p(l 11-
Pl) d" : ou
'
g(F)
~ LO(9(P); ~p(1
_;hz
- P)g/(P)
287
Si g'(p)
il vient g( p)
2c Arc sin
-{p +
K. En prenant c = I/2 et
K = 0 on en dduil que:
2~)
12.4.2
12.4.3
Soit un Il*chantillon d'une 101 normale p-dimensionnelle NI,(V-. 1':) et V* = matrice de variance corrige de J'chantillon. Si
;
--v
Il
Il
la
et
i-{2).
i ;
On en dduit que In li a pour distribution approche une LO(ln permet d'crire: 0.95
~11-1 ), ce qui 2
p(ln
i -
'i
< ln
1.96~ n-l ) 2
d'o:
12.4.4
~) et si y
<p( X) avec <p appli cation de n;l" dans n;l" di ffren tiabl e alors :
o il. est la matrice des drives partielles de <fi au point f.l. Ce rsultat est souvent utilis pour calculer des intervalles de confiance asymptotiques pour des paramtres multidimensionnels, le nom de mthode delta provient de l'usage des drives.
L'estimation
13.1
GNRALITS
L'estimation consiste donner des valeurs approches aux paramtres d'une population (m ; rr, etc.) l'aide d'un chantillon de 11 observations issues de cette population. On supposera vrifie l'hypothse d'chantillonnage alatoire simple.
13.1.1
Exemples lmentaires
2
Les lois des grands nombres justifient l'usage de respectivement: on sail que X 111 et S1 ~ rr vnement est une estimation de sa probabilit p.
Cependant le mme paramtre peut tre estim l'aide d'estimateurs diiTrents : pour une distribution symtrique la mdiane de l'chantillon est galement une estimaton de m. Afin de choisir entre plusieurs estimateurs possibles d'un mme paramtre il faut dfinir les qualils exiges d'un estimateur.
13. 1.2
Soit e le paramtre estimer et Tun estimateur, c'est--dire une fonction des Xi valeurs dans un domaine acceptable pour e.
Il ~
La premire qualit d'un estimateur est d'tre convergent. Il est souhaitable que si JJ T ~ e. C'est le cas des estimateurs prsents au paragraphe prcdent. Deux estimateurs convergents ne convergent cependant pas ncessairement la mme vitesse, cec est li, pour une taille d'chantillon donne, la notion de prcision d'un estimateur. Un estimateur est une variable alatoire. Supposons connue sa loi de probabilit pour une valeur donne de e. La tgure 13.1 illustre alors les deux composantes de l'erreur d'estimation. L'erreur d'estimation T - e qui est une variable alatoire se dcompose de faon lmentaire en T E(T) + E(T) - e ou E(T) est l'esprance de l'estimateur.
T - E(T) reprsente les fluctuations alatoires de T autour de sa valeur moyenne tandis que E(T) - e est assimilable une erreur systmatique due au fait que T varie autour de sa valeur centrale E(T) et non autour de e.
290
13111i1111L'estimation
Biais
FIGURE
13.1
La quantit E(T) (} s'appelle le biais. Il est donc souhaitable d'utiliser des estimateurs sans biais, tels que E(T) = 8. Ainsi est sans biais pour m, mais S1 est biais pour cr:'.
= -- I S2 pour estimer cr 2 Il
11
moyenne:
ET - 8f)
On peut crire :
E[(T
8)21
0)2]
- 8)1
= E[(T -
E(T)f]
+ E[(E(T)
Of]
= 0 il vient:
Op
1
lE(T) -
De deux estimateurs sans biais, le plus prcis est donc celui de variance minimale. 1 Il Montrons ainsi que si 111 est connu l'estimateur T = (Xi - 111)2 est meilleur que S*:. :
2:
lli==1
En effet:
V(T)
V(T)
j -
mf- ) =
[E(X -
1
11
V[(X - mf!]
"l ,
1 = - [E(X n
m)
-1
1 111)-1-1 = - [t-L-t
Il
rr 4]
et :
V(S*2) = V(S*2) =
- - ) "l V(S1) =
Il
-Il -
Il-Il
)"l
! [J.L-t 11
Il - 3 - - c r -1] Il 1
donc V(T)
<
V(S*1).
13_L'estimaton
291
13.1.3
On ne peut rsoudre d'une faon gnrale le problme de la recherche du meilleur estimateur d'un paramtre sans faire d'hypothses sur le phnomne chantillonn. En effet la variance d'un estimateur ne peut en gnra] se calculer que si l'on connat la loi de T qui dpend de celle des Xi. Le modle utilis en thorie classique de l'estimation est alors le suivant: on observe un chantillon d'une variable X dont on connat la loi de probabilit l'exception de la valeur numrique d'un ou de plusieurs paramtres (par exemple: X suit une loi de Poisson 0'l(fJ) de paramtre e inconnu). En d'autres termes la variable X est dfinie par une famille paramtre de lois f(x ; 8) o / a une expression analytique connue. Cependant la thorie de l'estimation ne permet pas de rsoudre le problme de la recherche d'estimateurs d'erreur quadratique minimale. On se contentera de rechercher pour une famille de loi donne/(x; 8) l'estimateur sans biais de e de variance minimale. II reste toutefois possible dans certains cas particuliers de trouver des estimateurs biaiss plus prcis que le meilleur estimateur sans biais. La recherche d'estimateurs sans biais de variance minimale est intimement lie l'existence de slatistiques exhaustives.
13.2
l'EXHAUSTIVIT
Dans un problme statistique o tigure un paramtre e inconnu, un chantillon apporte une certaine information sur ce paramtre (information qui serait diffrente pour un autre paramtre avec le mme chantillon). Lorsque l'on rsume cet chantillon par une statistique, il s'agit de ne pas perdre cette information; une statistique qui conserve l'information sera qualifie d'exhaustive.
II convient de donner un sens prcis la notion d'information: une premire approche consiSle remarquer qu'une variable alatoire T ne peut nous renseigner sur la valeur d'un paramtre que dans la mesure o sa loi de probabilit dpend de ce paramtre; si la variable T est une statistique relative l'chantillon (X" Xl' ... , XJl) et que la loi conditionnelle de (XI> X"2~ ... , XII) T fix ne dpend plus du paramtre e, on peut dire alors, qu'une fois Tconnu, nous n'obtenons plus d'autre information de l'chantillon concernant fi et donc que T porte taule l'information disponible sur f1. Une deuxime approche consiste dfinir mathmatiquement une quantit d'information et chercher dans quelles circonstances cette quantit se conserve lorsque les donnes sont rsumes par une statistique.
13.2.1
Soit un n-chantiHon d'une variable alatoire X. On notera L(x" X1' . , x" ; 8) soit la densit de (X!, Xl ... , XII) si X est absolument continue. soit la probabilit conjointe P(X) = XI n ... n XIl XII) si X est discrte.
L(x; 6) considr comme fonction de 8 seul est appel ( vraisemblance de 8 (voir plus loin).
Soit T une statistique fonction de XI' X,!, ... , XII de loi g(r ; 8) (densit dans le cas continu,
292
13. L'estimation
DFINITION
Tsera dite exhaustive si l'Oll a L(x, e) = g(l, e)lz(x) (principe defactorisatioll) e11 d'autres tenues si la densit conditionnelle de l'chamilloll est indpendante du"paramtre.
Ceci veut dire qu'une fois T connu, aucune valeur de l'chantillon ni aucune autre statistique ne nous apportera de renseignements supplmentaires sur O.
_ Exemples:
Loi normale, m connu (J'inconnu :
Posons T =
2: (Xi 1
/1
mf-. On sait que T/cr'2 suit une loi de X~. La densit de Test
alors:
g(t, cr)
d'o:
r(1l/2)
[(X, a) = g(1, cr)
[
n
Il
llll
2: (Xi - mf
i""l
Il
]11/:'-1
g(1, a)h(x)
T = 2:(Xi
=I
Xi
"5'x~
r
i==1
/1
Xi-
i=1
s=
X[
[
9
s!
lI,ITIX!
Le principe de factorisation nous donne donc un moyen de reconnatre si une statistique est exhaustive, mais ne permet pas de la construire ou mme de savoir s'il en existe une.
13-L'esCmation
293
13.2.2
Soit une variable alatoire X dont le domaine de dfinition Ile dpend pas de 8. Vne cOlldition ncessaire et st~flsante pour que l'chantillon (Xl' X]., ... , XI!) admette une statistique exltazlstl'e est que la forme de la dellsit soit: f(x. 8)
exp[a(x)Cl(a)
+ b(x) +
~(8):I
(famille expone1ltielle)
Si la densit est de cette forme et ,i de plus l'application x 1 ~ contmlnent dUfrentiable pour tout i. alors T particulire.
If
2: a(X
;;1
Il
j)
_ Dmonstration :
Condition ncessaire: T
= <.p(X 1, X::!, ... , X1J est telle que: = g(l, 8) "(x) = II f(xj, a)
1
1/
L(x, 8)
Ona:
Posons:
\j~,
k(~, a) =
a ln ,'(t, a)
. ':,.
aa
eE lR il existe un point x de
avec
Xi
~x}
Tl. En ce point on a :
ak(~, a)ja~
ak(Tl,8)jaTl
+ w(O), et en
,t,b(X,) +
11
13
(0)].
Posons 1
294
13_L'estimation
Xl
" 2:a(xJ :
i=\
car Je jacobien de la transformation se rduit aIl ih l - Pour obtenir la densit g(t, B) de t, iJ ' . fl1l1l~ f aut " Inlegrer L' par rapport il x::' X3' . . . , Xli SOIt dans U\i. 1 :
il Y a donc
bi~n
Ce thorme est un outil trs puissant dans la recherche des statistiques exhaustives et l'on remarque que la plupart des lois usuelles, lois de POsson, de Gauss, lois 'Y sont de la forme exponentielle.
_ Exemple: X suit une loi 'Y de paramtre inconnu:
f{x, B)
IJ
Inf(x, El) = -x
(e - 1) Inx - ln f(e)
Il
(11
~ il] Xij-
On peut remarquer que toute fonction injective d'une statistique exhaustive est encore exhaustive, ce qui indique que dans )' exemple prcdent la moyenne gomtrique des observations est exhaustive pour e. Une statistique exhaustive T, qui est foncton de toute statistique exhaustive, est dite exhaustive minimale. Remarquons cependant que si le domaine de dfinition de X dpend de e, le thorme de Darmois ne s'applique pas, ce qui n'empche pas de trouver dans certains cas des stalistiques exhaustives. Ainsi si X suit une loi uniforme sur [0 ; H], T sup Xi est exhaustive pour
e.
En effet:
et
g(t ~ H)
car peT
<
t) =
13_L'est:imat:ion
295
p inconnu: T
2: (Xi
Il
si
/II
el cr sonl tous
13.2.3
l'information de Fisher
sllr
DFINITION
011 appelle quantit d'iI~fonnatioll de Fisher 11/(0) apporte par lUI ll-cllCl1ltilloll paramtre e la quantit suival1te positive Olt nlllle (si elle existe) :
le
Note: L(X, 0) peut tre considre comme une variable alatoire, car fonction de variable
alatoire:
II
L(X" X 2, , X n ; 0)
THORME
IIf(X i ; 0)
i=1
e a/ors:
Pln
L)
1.
ae
e) =
L x.
e a ln L(x, 0) ( .) ae
296
13aL'estimation
il vient:
i
( rJ2 ln L(x, 8)
aln L(x, 0)
~.. .'
ao
L(x, O)dx = 0
ae
ao
J~"
en utilisant
~l
ao
O)dx
cl ln L(x, e) aL(x. 0)
ao
ao
dx = 0
ilL(x,O) . . , il Vient:
ao
0)
L(x,
[~'J
G~n
Remarque: L'utilisation de l'hypothse du domaine indpendant de 0 intervient lors de la drivation sous le signe
J.
Un exemple de variable alatoire domaine non indpendant de 0 est fourni par X de densit exp( -(x - e)) si x ~ e ~ 0 sinon.
PROPRIT DE ' n(6}
e on a :
En effet les oprnteurs esprance et drive seconde sont linaires. Ceci veut dire que chaque observation a la mme importance, ce qui n'est pas le cas pour la loi uniforme sur rO, 8] o la plus grande observation est la plus intressante. .. Prcison. SOt X une variable alatoire de Laplace-Gauss N(O, rr) o rr est connu. On a 11(0) 1frr:!; l'information apporte par une observation sur la moyenne est d'autant plus grande que la dispersion est petite . Dgradation de l'information. Montrons que l'information porte par une statistique est infrieure ou gale celle apporte par l'chantillon. Soit T de densit g(1, 0) la statistique que l'on substitue l'chantillon, on a :
L(x,O)
131i11!11L'estimation
297
o h(x, Olt) est la densit conditionnelle de l'chantillon. On a donc, en prenant l'esprance des drives secondes:
le dernier terme est la quantit d'information conditionnelle 111 /1'(0) (ou information supplmentaire) ; elle est postive ou nulle, donc:
11'((3) ::; 1/1(0)
= liO)
IlO)
a ln h)2] [( - - + 2E ao
[a dO 9adB h]
ln ln - .---.-
et on n'aurait pas pu conclure une diminution de l'information cause du signe inconnu du dernier terme.
11'(0)
Ce dernier tenne peut laisser supposer, s'il est ngatif et grand en valeur absolue, que > l,/U)) ; jusqu' prsent aucun exemple d'augmentation de j'information n'a t dcouvert mais le problme reste entier.
13.2.4
On consultera Fourgeaud, p. 216, pour un traitement complet. En rsum, on a, si le domaine ne dpend pas de 6 : La matrice de l'information ill a pour terme gnral :
(f,_ .
rfl.j
ao.'
1
lO.
J
Sail Tl' T 2, , T un systme de s statistiques fonctionnellement indpendantes; la notion de dgradation de l'information se gnralise comme suit:
6)
g(tl!
t'2'"''
t~;
6)11 (x},
.1:'2, ... ,
xu)
et l'on a J'/I(O) -
298
13_L'estimation
THORME DE DARMOIS
Ulle condition ncessaire et suffisallte pour qu'ull ll-clwntil/oll admette 1111 systme rsl/m exhaustif est que:
s
lnf(x. 0)
/1
Lalx)ai(O)
j;1
h(x)
+ 13(0)
llIl
en particulier:
T; = La;(Xj )
j=!
l, 2, ... , s est
systme ex/wl/stri'
13.3
13~3.1
On dispose pour rsoudre ce problme d'une suite de quatre thormes qui montrent en dfinitive que l'estimateur de variance minimale est li l'existence d'une statistique exhaustive.
THORME
1 UNICIT
Wl
l
lIIIIIIiI
estimateur de
e sans biais, de
Dmonstration: Raisonnons par l'absurde et supposons qu'il existe deux estimateurs sans biais TI et T'2. de e de variance minimale V.
Soit:
E(T I )
E(T) =
+
2
E(T2 )
=--
+
2
V il vent
~ (l + p). Si p <
1 on a V(T3 )
<
Tl - E(Td = (T2 - E(T2 ) avec > O. Comme V(T,) E(Td = E(T]J = 0 on a Tl (ps).
THORME
= 1 et
pUsque _
2 : RAO-BLACKWELL
Soit T Wl estimateur qllelconljue sans biais de 0 et U lI1le statistiqlle exhaustive pour O. Alors T* = E(T 1 U) est Ull estimateur salis biais de e au moins aussi bail qlle T.
13_L'estmation
299
_ Dmonstration : T* est un estimateur de e. Cette proposition est non triviale car il faut montrer que T* dpend seulement des Xi et non de B.
Puisque U est exhaustive, la densit conditionnelle de l'chantlIon sachant U ne dpend pas de 6 et E(T 1 U) = L.,IL(X,6 1 u)dx ne dpend donc pas de 6 mais des -' seuls. e T* est sans biais. D' aprs le thorme de l'esprance totale:
E(T*)
= E[E(T 1 Un
V(E(T 1 U)} V(T*)
E(T)
E(V(T 1 U)
+ E(V(T 1 U)
2;:
V(T*).
De plus si E(V(TI U)) = 0 c'est que presque srement T=f(U), il y a relation fonctionnelle entre Tet U. Ce thorme fournit une mthode pour amliorer un estmateur sans biais donn.
THORME
lIlIII
S'il existe /Ille statistique exlwllstl'e U, alors l'estimateur T sans biais de 6 de l'lIrallce mhlimale (unique d'aprs le thorme 1) ne dpend que de U.
C'est un corollaire du thorme 2. On ne peut amliorer T par la mthode de Rao-Blackwell puisque T est de variance minimale. Donc V(T*) = V(T) et T = f( U). Cependant, comme il peut exister plusieurs estimateurs sans biais de e fonction de U, on n'est pas sr que j'estimateur T* obtenu par la mthode de Rao-81ackwell soit le meilleur, il faut alors introduire la notion de statistique complte.
DFINITION
si E[h(U)]
On dit qll'ulle statistique U est complte pour zme.tmille de lois de probabilitsf(x, 8) = O\l6=::;.1z = Ops.
On montre en particulier que la statistique exhaustive des familles exponentielles est complte. /1 Ainsi par exemple pour une loi de Poisson 0J() o est inconnu S = ~Xj' est complte.
i=1
En effet:
E[h(S).I =
s=o
(Il )"
= exp( -n)
s!
300
13111!1l1L'estimation
La srie
lI(s) = 0
THORME
L - - : ' ne
.s=O
;: : Iz(s )I1 J
s!
peut tre nulle 'd. que si elle est nulle terme terme donc si
'ds
N.
4 : LEHMANN-SCHEFF
Si T* estllll estimatellr SllllS billis de e dpendant d'Lille statistique exhai/stive c01nplte U alors T* est l'unique estimateur sans biais de variallce minimale de e. EH particulier si 1'011 dispose dj de T estmateur sans biais de e, T* = E(T 1 U).
En effet l'estimateur de variance minimale est unique et dpend de U, d'autre part U tant complte il n'existe qu'un seul estimateur sans biais dpendant de U (soit TI = f(V) et T2 = g( V) E(T,) - E(T2 ) 0 'de=!>f 9 ps) l'estimateur obtenu est donc ncessuirement le meilleur. En conclusion si "on dispose d'un estimateur sans biais fonction dune statistique exhaustive complte, c'est le meilleur estimateur possible.
13.3.2
Exemple
Le nombre de demandes hebdomadaires d'un certain produit est une variable X qui suit une loi de Poisson f1>(.) o . est inconnu. On cherche valuer la probabilit que X soit nul. On note XI> Xl' ... , XII les observations de X pendant Il semaines. Le paramtre estimer est exp (- .) P(X = 0). Une premire mthode consiste . compter le nombre de fois et estimer P(X = 0) par la frquence K/lI. On a bien sr: exp( - .)(1 exp( - )
f(
o r on a observ X
_1)
K/Il est sans biais, convergent, mais ne tient pas compte du fat que X suit une loi de Poisson. 11 ne peut donc tre optimal, ce qui se vrifie en remarquant que K/11 n'est pas une fonction
de S
Il
X est l'estimateur de variance minimale de ., mais exp( L'estimateur sans biais de variance minimale T de exp K/ll par l'application du thorme de Rao-Blackwell : Introduisons les variables de Bernoulli: YJ , Y2' ... , Y siX j 0 si Xi> 1
ll :
13- L'estimation
301
On a: Or:
T= E[Y1/S
=
E[~I sJ = ~ E[K/S] n
Il
EIT,/S]
s)
sJ = P(Y I
= l/S = s)
= P(X 1 = OIS =
P(X I
= OIS
s) = -------~P(S s)
P(S
= s/X 1 = O)P(X, = 0)
= 0)
X'}.
+ X3 + ... + Xw
n s!
1))S
' exp( - )
P(X,
OIS = s)
[exp( -n)] - sI
(IlY
_(Il
-Il
l).\' -_ ( 1
~)
l\nX
~)Il.r
11
Donc:
Un calcul laiss au ;oin du lecteur montre que VtT) = exp( -2) (ex p(;) donc bien V(n
1) ; on a
< V (-;;)
car :
V(T)
= exp( -2) [~
Il
v(li) = "
13.3.3
exp( -2)
[~
n
2n
k!n
Le rsultat suivant nous indique que la variance d'un estimateur ne peut tre infrieure une certane borne, qui dpend de la quantit d'information de Fisher apporte par l'chantillon sur le paramtre e.
InCe)
302
1311i111111L'estimation
/zee) :
_ Dmonstration : Considrons:
ln cov T - T ln L) ( , aao L) =E(a - ae
a ln ae
ae " Jt--Ldx =
-
a ln L
Jt aL dx
ao
h'(e)
de
v (a
InL) ae
c.q.f.d.
La question se pose de savoir si l'on peut atteindre la borne minimale de la variance; un tel estimateur sera qualiti d'efficace. L'efficacit n'est donc dfinie que dans les conditions de rgularit suivantes qui sont celles de FDCR:
a)
e.
b)
aL
ae
Cl
u.
c)
d)
aL
aL
ae
Dire que T est efficace c'est dire que sous ces conditions:
13_L'estimation
303
.. La borne de Cramer-Rao ne peut tre atteinte que si la loi de X est de j'orme exponel1tielle :
Inf(x,S) = a(x)a(8)
car Test 1lcessairemellt
exhaust~f pOlil'
+ b(x) + f3(O)
O .
Si la loi de X est bien de lafonlle pl'cdeme, il n'existe ( ulle transfo17l1ationlinaire prs) qu'ulle seule fonction lr(9) du paramtre qui puisse tre estime eiJcaceme11l : c'est MEl) = - - - , L'estmateur de I1(S) est alors:
W(B) al(S)
\CT)
(W(S)
a/(O)
::=
-lla'(9) dO
/i'(f}) na'(f})
_ Dmonstration:
ct
[I1'(S)]1 11'(0)
Si T est efficace on a :
f3(9)
+ b(x)
304
1 /1 Si T est efficace pour /z(0) et si - ~ l1(X;) est exhaustif alors:
ll i =1
13_L'estimation
h(6)
W(8)
a'(8)
et
=-
2: a(X
1/
i)
lI i =[
L'ingalit de FDCR tant une ingalit de Schwarz, l'galit n'est ralise que s'il y a colinarit pour presque tout e, c'est--dire:
-- =
a8
Il
a ln L
{S)[T - h(8)1
Or. si L
IIexp(a(xi)a(8)
i=J
13(8)
Il
ln L = a(8)
2: [/(Xi)
i=l
Il
+ "13(0) +
~b(Xi)
;=1
et:
JlnL --
ae
Il
a'(8)2:a(x;)
i= 1
1113'(8)
= lIa'(O)
[1
=
- 2:a(xJ
j=
Il
W + -,Il
(O)]
1
Il
a (0)
=-
1 '1
2: a (X;)
et
/z(0)
_weB)
a/(e)
Il i= 1
h(O) et T sont donc uniques par construction une transformation affine prs.
La rciproque est alors immdiate: Si la loi est de la famille exponentielle, la statistique exhaustive T
=-
ri
13'(8)
pour - - - . a'(S) Calcul de la variance V(T) :
11
D e 1nC 8)
VT ) (
InC 8 )
Le thorme qui vient d'tre dmontr montre qu'on ne peut estimer efficacement qu'une seule fonction h{ 8) qui peul ne pas tre intressante.
13_L'estimation
305
Inl(.\, 8) = (0
Si l'on prend T =
J
Il
i~1 ln Xi
Il
= ln
(II
D )1/11
Xi III
cacement 1i(0)
= dO ln Cf( e)).
cl
.
~~., .
Il
il
2
st sans biais pour cr, de variance minimale car T est exhaustive, mais n'est pas efficace au
s, .
1/11
est mconnu
1"
estlmaleur
~ '\12
r(y )
r(~)
b' .
~~
11 -
Remarque: Si X ne suit pas une loi N(m, cr) on ne peut donner d'expression universelle d'un estimateur sans biais de cr.
La recherche de statistiques exhaustives peut ne pas aboutir. on possde cependant une mthode d'obtention de bons estimateurs.
13.4
Cette mthode consiste, tant donn un chantillon de valeurs XI' '\2, . . . , comme estimaton de f) la valeur de 0 qui rend maximale la vraisemblance:
prendre
En pratique on prend comme estimation de f) une solution de l'quation dite "quation de la vraisemblance".
ao
ln L(X; 0) = 0,
Intuitivement, puisque L reprsente une densit de probabilit, cela revient supposer que l'vnement qui s'est produit tait le plus probable ).
306
13_L'estimation
S'il existe une statistique exhaustive U, alors l'estimateur du MV en dpend. () ln L , 0 revIent rsoudre
aB =
aln 9 aB =
0 donc
o = f(u),
Si est sans biais, ce qui n'est pas toujours ralis, sera la meilleure estimation possible de 0 si les conditions des thormes prcdents sont ralises.
PROPRIT
2.
INVARIANCE FONCTIONNELLE
Si
Ldmonstralion est lmentaire si f est bijective, plus dlicate dans le cas gnral. S'il n'existe pas de statistique exhaustive U on a les proprits asymptotiques suivantes.
PROPRIT
3 (ADMise)
l
A
Il existe une suite de valeurs 6 racines de l'quation de la vraisemblance qui converge 11 presque srement vers 0 si ~ 00, De plus 3N tel que 11 > N entrane que n ralise effectivement un maximum pour L.
4 (ADMise)
PROPRIT
1)
Remarques: L'quation de la vraisemblance n'a pas ncessairement une racine unique. De plus cette mthode n'est valable utilement que pour de grands chantillons, cause de ses proprits asymptotiques, s'il n'existe pas de statistique exhaustive U.
liliiii
fCx
~ e)
= Bxll-1exp( -x")
Le domaine de dfinition ne dpend pas de B, mais la loi n'est pas de la forme de Darmois, cause du terme en x H Appliquons la mthode du maximum de vraisemblance:
L(x;
Il
Il
13_L'estimation
307
ln L(x ; 8)
ri ln L
11
ln
Il
e + (a /1
l)
L ln Xi - :Lxl'
i'=l i=l
/1
Il
Il
-- - - +
aS El
:Llnxi - :L xplnxi
i=l 1
2: (x~\ i=t
1/
1)ln Xi
Cette quation non linaire ne peut se rsoudre que numriquement par approximations suc_ cessives et on ne peut donc pas obtenir de forme explicite pour l'estimateur de e.
aInL =
as)
j = 1,2, .... p
Les proprits de convergence et d'invariance fonctionnelle s'tendent sans difficult et on a galement la proprit de normalit asymptotique suivante ( l , 2, . a, quand Il tend vers l'intini, une distribution qui tend vers une loi gaussienne il p dimensions de vecteur esprance Sb S}, ... , el' et dont la matrice de variance est l'inverse de la matrice d'infomlation de Fisher.
,e,,)
13.5
Il est souvent plus raliste et plus intressant de fournir un renseignement du type a < plutt que d'crire schement = c. Fournir un tel intervalle [a, estimation ensembliste.
e< b
a ou
bl
13.5.1
Principe
La mthode des intervalles de confiance est la suivante: Soit Tun estimateur de B~ (on prendra videmment le meilleur estimateur possible), dont on connait la loi de probabilit pour chaque valeur de a. tant donn une valeur en de S, on dtermine un intervalle de probabilit de niveau 1 pour T, c'est--dire deux bornes t 1 et t2 telles que :
P(t 1
CL
<
<
t 21
e = eo) = 1 -
308
13_l'estimation
Ces bornes dpendent videmment de 00 , On choisit dans la plupart des cas un intervalle de probabilit risques symtriques /2 et Ci/2. On adopte alors la rgle de dcision suivante: soit t la valeur observe de T: si t E (1" f;.] on conserve 6(J comme valeur possible de 6 ; si f ~ ft" 12] on limine 80 , On rpte cette opration pour toutes les valeurs de
e.
On peut traduire graphiquement celte mthode dans un plan (6; (fig. 13.2).
e
FIGURE
13.2
On lit donc selon une verticale les intervalles de probabilit et, selon l'horizontale issue de f, l'intervalle de confiance [a, bl de niveau 1 - Ci (coefficient de confiance).
Si l'on augmente l - . on augmente la longueur de l'intervalle de probabilit, donc les courbes s'cartent. Si Il augmente, comme T est suppos convergent, V(T) diminue, donc [lb t;.] diminue et les courbes se rapprochent de la premire bissectrice.
13_L'estimation
309
13.5.2
13.5.2.1
est:
si 1 -
ct =
0.95 on a 110./1
1.96.
13.5.2.2
(J'est inconnu
--s- 'Ill
X -
1/1 _ r----;
-t a/ 2 <
d'o l'intervalle de confiance:
t{l/:!
X-
s
[(1./2-===
<
III
<.x + tnn._~
< .x +
t u/ :' _ r
Vil - 1
ou bien:
<
s*
111
'Ill
Le thorme central-limite a pour consquence que les intervalles prcdents sont valables pour estimer III d'une loi quelconque que 11 est assez grand.
13.5.3
13.5.3.1
T
Il
= -1 ~ L.J
Il i=1
310
13_L'estimation
Soit /.:1 et k:. les bornes de l'intervalle de probabilit d'un X~ (fig. 13.3) :
Ci
13.5.3.2
m est inconnu
'"1 1 On utli1se S - = -
JI i=
2: (Xi Il
X)- et on
..,
Sal t
/2
les bornes de
l'intervalle de probabilit:
On a alors:
_ Exemple:
Il
<
(T2
(T
< 4.51._
Note importante: Ces formules ne sont valables que si x suit une loi nonnale.
13.5.4
tant donn une population infinie (ou finie si le tirage s'effectue avec remise) o une proportion p des individus possde un certain caractre, il s'agit de trouver un intervalle de confiance pour p partir de J, proportion trouve dans un chantillon de taille 11. On sait que I~f suit une loi binomiale @ (n, p) ; si loi binomiale ou l'abaque (voir Table A3. bis).
Il
13_L'estimation
311
Uu/"l
t1(l/2
~(l-P)
Il
Posons
llu/"l
y=p/i. ~p(l - pl
Il
"J k~p(1 - p) (y - p)- = - - - - : . -
soit:
JZ
ou:
y-
"1
+ p-
,(
1+
k -
k'2p 2py - - = 0
n
J1
quation d'une ellipse passant par l'origine et le point O. 1), points pour lesquels elle a une langenle verticale (fig. 13.4).
y
FIGURE
13.4
Les parties de l'ellipse extrieure au carr unit sont sans sign fication ; elles correspondent aux zones o 1'approximation normale n'est pas valable. tant donn une valeur f observe, l'intervalle de confiance s'obtient en rsolvant en
p l'quation :
2pf
-p=O
Tl
k:'
312
13_L.'estimation
ou :
p2 1 + -;; - p -;;
k2)
Rsolvons-la compltement:
(2/+ -k2)
d'o:
p
11
formule encombrante mais dont on peut trouver une approximation en considrant que 11 est grand et en faisant un dveloppement limit au premier ordre en 0/11) ; le premier terme
k:! 2f+
_ _ __ Il _ /
I(~
+ 4fnk'2 - 4(-nk2
4(11
+ e-)2
ce radical est quivalent au suivant (en crivant que chaque terme est quivalent celui du plus haut degr en 11) :
_ _ _ = I(,/f(l
-~
- f)
Il
_ Exemple:
Il
= 400
;f= 36 % ; 1 -
ilp soit:
"l.t/2
-V{O - J)
Il
Il
- f)
(ilp)2
1311!1i1111L'estimation
313
11
en posantf
Dans le cas
d~un
intervalle 95 %,
lI{Y12
11 lI1ax
1 {ilpf
11 :
~
!J.p
0.01 0.02 0.05
0.90 6760
1 700
270
Remarque: Les formules prcdentes sont souvent abusivement utilises (en particulier dans les mdias) pour expliquer les marges d'erreur des sondages d'opinion. On ne peut en ralit pas les appliquer aux sondages d'opinion, sauf la rigueur pour donner une borne suprieure de l'erreur d'chantillonnage: en effet, les sondages d'opinion ne sont pas effectus selon la mthode du tirage alaLoire simple quiprobable dans la totalit de la population, mais selon des techniques bien plus complexes (stratification, quotas etc. cl chapitre 20) qui conduisent diminuer la marge d'erreur du sondage simple en utilisant des informations auxiliaires. Signalons enfin que ces calculs de variance ne servent qu' calculer l'erreur de au tirage alatoire des observations; l'chantillonnage n'est qu'une des sources d'erreur, pas toujours la plus importante, laquelle s'ajoute bien d'autres types d'erreurs : non-rponse ou refus. dissimulation, incomprhension des questions etc.
13.5.5
Soil x la moyenne d'un l1-chantillon d'une variable ::P(h). Comme on sait que P(X ::.s k) = P(X~a.+ 1) pour h risques symtriques de niveau 1 -
314
13_L'estimation
Il
IIIIIIExemple:11
l5;nx= ~x
i=\
20; = O.L
- - :5 x.:5--
26.5 3D
58.1 30
Pour les grandes valeurs de 11, lorsque 2nx dpasse les possibilits des tables de X2, on utilisera une des approximations normales de la loi du X2. Si l'on utilise l'approximation de Wilson et Hilferty, qui est de loin la plus prcise, on a :
__ 1
9nx
)3
9(nx
))3
13.5.6
On a vu au chapitre 12 paragr. 12.3 que le centre de gravit d'un Il-chantillon suivant une loi N/,(fJ. ; ~) tait tel que si ~ est connu:
ou si ~ est inconnu :
(II - p) (g _ fJ.)'V-1 (g
fJ.)
= F(p ; II
p)
On peut donc en dduire des zones de confiance ellipsodales de ..... uutour de g dtines par :
1 (g
- I1YV- (g - Il)
:0;
~ F1-a(p ; Il -
p)
Pour p = 2 on a des zones eUiptiques duns le plan. Lorsque Il est trs grand; toujours pour 2, l'ellipse 95 % a pour quation approximative:
Les rsultats prcdents s'appliquent en particulier pour les estimateurs du maximum de vraisemblance car ils sont asymptoliquement normaux. La tigure suivante donne l'ellipse de confiance 95 % pour la position simultane des moyennes de deux variables dans un chanti110n de 24 observations (prix et superficie d'apparlements parisiens*). La forme elliptique est ici trs accentue car le coefficient de corrlation entre les deux variables est lev r = 0.9733
Les donnes sont prsentes au chapit 16, 16.4,1.
13.L'estimation
315
800 ~--------~----------~--------~--------~~~~----~
600
)(
400
~_
-~---t
200
: :
-----------~:
1
------_-------.
'.
20
: :
1
1
: :
1 1
1
o ~--------~.----------~------------------~'--------~
60
100
140
180
220
Superficie
FIGURE
13.5
Ellipse de confiance 95 90
13.6 13.6.1
Lorsque m et er sont connus, J'intervalle de probabilit 0.95 il risques symtriques pour une valeur isole est 111 1.96er. Supposons maintenant que III soit inconnu et estim par la moyenne d'un n-chantil1~n x. Soit X une nouvelle observation, indpendante des 11 prcdentes. L'cart entre X et X suit alors une IO nonnale :
er2
..J... -
. .
Il
1.96cr'" 1 -~
W;, +
S~S*~ @ f+,l
X-X X-X
Il
Lorsque cr est aussi inconnu, en appliquant la mthode de Student, on trouve aisment que
= T,I-I d'ou 1'IIltervalle
'-'
ts
--. 11-1
11+1
n-l
L'intervalle prcdent est une estmation de l'intervalle TH 1.96cr. On voit aisment qu'il est plus large et converge vers lui lorsque 11 augmente indfiniment. On l'appelle intervalle de tolrance sans niveau de contiance, car il existe aussi des intervalles de tolrance avec niveau de confiance 1 - Ct, tels que l'intervalle 111 1.96rr soit contenu avec une probabilit 1 - Cl dans l'intervalle de tolrance. Les intervalles de tolrance avec
316
1311111111 L'estimatiol'l
niveau de confiance sont plus larges que les intervalles de tolrance sans niveau de confiance. Les formules sont plus complexes et nous renvoyons le lecteur intress l'ouvrage de Hahn & Meeker (1991).
13.6.2
De manire similaire, l'ellipsode d'quation (x - J.L)' ~-I (x J.L) k, o k est le frac tile de niveau 1 Ci d'un X7" est un domaine de probabilit 1 Ci pour x.
Il
ralisations indpendantes de X.
alors x
g)=
( Il Il
I)J)
- - F(n~, Il
Il
Il
+1
.- ,0)
ce qui donne l'quation de l'ellipsode de tolrance en remplaant la variable de Fisher par son tractile. En reprenant les donnes des 24 appartements parisiens, on trouve l'ellipse de tolrance suivante avec p 2. On distingue clairement l'existence de deux points atypiques.
950~--~----------------------------------------------~
750
..
550
350
..
150
.. .
: :G1
. ".
o
20 40 60
80 100 Superiicie
120
140
160
180
200
FIGURE
13.6
Ellipse de tolrance il 95 %
13l1i1111L'estmation
317
13.7
ESTIMATION BAYSIENNE
Le point de vue baysien ne fat pas de distinction de nature entre paramtres et observations : ce sont des variables alatoires. Le problme de )' estimation est alors rsolu (en thorie du moins) de faon simple et lgante: il suffit de calculer la distribution CI posteriori des paramtres sachant les observations.
13.7.1
Prsentation
Soit un n-chantlIon d varables indpendantes et identiquement distribues telles que leurs densits conditionneIJes xJe soientf(xi : 8). Si ron note comme d'habitude L(x ; 0)
= il f(x
i= 1
Il
j ;
la loi conjointe des observations et du paramtre (Xl' X::., ... , XII' 8) est L(x ; O)g(O) o g(8) est la densit a priori de O. La 1 01
Cl
L(x;8)g(S)
f(x)
au produit de la vraisemblance par la densit a priori. On peut donc en dduire des rgions probables pour e, analogues baysiens des rgons de confiance classiques, mais aussi des estimations ponctuelles : il suftt de calculer un paramtre de tendance centrale de la loi CI posteriori, le plus souvent l'esprance, mais aussi le mode ou la mdiane.
13.7.2
On suppose ici que la loi de XI fL est une N(fL ; cr) et que la loi a priori de fL est une N(fLo ; ,.). Un calcul simple montre que la loi Cl pOSTeriori de I-L/X)! X=,-, ... , XII est une loi nonnale
d, "esprance E(fL1x) =
cr='-J.Lo
11
+ 'j2X
et de vanance V(I-L 1 x)
Il
- +,.='Il
L'esprance a posteriori de I-L est donc une moyenne pondre de l'esprance a priori et de la moyenne empirique des observations. Si l'on introduit le concept de prcision qui est l'inverse de la variance, la prcision rique est Tb =
ri
(l
111/-Ln 111
V(I-L x)
111
, . .
teur baysien est donc la somme de la prcision de l'estimation Cl priori et de celle de la moyenne empirique, r estimateur baysien est alors la moyenne des deux estimations (a pror; et empirique) pondres par les prcisions. Si 1'informaLion il priori sur le
318
13_L'escimation
paramtre est trs prcise, les observations ne la modifient gure. Si la prcis~n ri tend vers zro, ou si 11 tend vers l'intini, on retrouve l'estimateur classique X.
Cl
prio.
13.7.3
Illustrons ce cas par un exemple issu du contrle de qualit: on est amen fI estimer la probabilit p qu'une marchandise soit dfectueuse partir de l'observation du nombre de marchandises dfectueuses X dans un lot de Il marchandises. Pour une va]eur donne de p, X suit une loi binomiale @(n ; p). L'ensemble des valeurs possibles de p peut tre probabilis si des expriences antrieures ont permis d'tudier les variations de p. Tout se passe donc comme si p tait une ralisation d'une variable TI valeurs dans [0 ; 1] que l'on supposera de densit g(p) (loi Cl priori). On a donc le modle suivant: la loi conditionnelle de X/TI = p est une g}J(n ; p) et la loi marginale de 7r de densit g(p). On cherche en gnral dduire p de la valeur de X. Il faut donc pour cela trouver la loi de probabilit a posteriori de '1T.ou loi de TI/X x. La formule de Bayes donne:
l(p /
x _ . _ P(X = x/7i
.1 -
J:) -
p)g(p) P(X = x)
soit :
f(p/X = x)
(1 P'~(1 Jo
p)"-.f g(p)dp
on pourra alors estimer p en choisissant la valeur la plus probable a posteriori ou la valeur moyenne a posteriori.
Si
'TT
r(a+b)
11-1
r(a)r(b) p
( - p)/J-l
d'o:
+ x et Il + b - x.
L'esprance
Cl
a+x b . a+ +11
(l
Le choix des paramtres a et b de la loi bta se fat en gnral partir de considrations sur la valeur la plus probable a priori et son incertitude. Si l'on choisit II = b 1 ce qui correspond une distribution uniforme de TI sur [0 ; l] (toutes les valeurs de p sont li priori quiprobables) on trouve comme estimation de p
13_L'estimation
319
, soit x + 1 (esperance
11+
Cl
- C,\
/1
1)
P(X = x)
Il
+1
13.7.4
Gnralisation
Les deux cas prcdents se rsolvaient simplement car les lois Cl priori et conditionnelles permettaient de trouver la loi Cl posferori dans la mme famille que la loi a priori: les lois a priori et conditionnelles sont dtes ( conjugues )1, Cette facilit mathmatique disparat si l'on travallle avec des lois quelconques et les calculs des distributions a poslen'ori deviennent impossibles mener analytiquement. Il faul alors recourir des techniques spcifiques de simulation pour obtenir de bonnes approximations des lois il posteriori (C. Robert, 2001). On peut considrer la statistique baysienne comme un raffinement de la statistique paramtrique et lui appliquer les mmes critiques sur le caractre plus ou moins raliste des modles. De plus le choix de la distribution Cl priori peut donner lieu des divergences entre spcialistes et reste fatalement subjectif (voir la discussion sur la nature des probabilits au chapitre 1). Il n'en reste pas moins que cette approche est la seule qui permette d'incorporer de l'information pralable et se rvle trs utile dans des cas limites comme des essais de fiabilit o on ne constate que trs peu de dfaillances (voire mme aucune) sur 11 essais: les estimations classiques du taux de dfaillance sont alors impossibles ou trs imprcises,
13.8
La thorie classique de l'estimation permet de dterminer les estimateurs optimaux pour une famille de lois de probabilit dfine l'avance. Ces estimateurs dpendent en gnral fortement de la loi hypothtique: s celle-ci n'est pas correcte, les estimateurs ne le seront pas. On peut donc chercher des classes d'estimateurs relativement insensibles des modifications des lois'a priori: c'est un premier type de robustesse, Un deuxime type de robustesse concerne l'insensibilit des valeurs aberrantes }) : la moyenne arithmtique est sans doute le meilleur estimateur de l'esprance pour une vaste classe de lois mais elle est trs sensible aux grandes valeurs. L'attention des thoriciens et des praticiens a donc t attire sur la recherche d'estimateurs robustes en particulier pour la valeur centraIe d'une distribution.
320
On se proccupera ici d'estimer la valeur centrale l1l d'une distribution symtrique. 1 Il La moyenne arithmtique x = est trs sensible aux valeurs extrmes: on {"\hl~,,>.,..1_.. "'' ,''
2:Xi
Hi='
un estimateur robuste de nI en liminant les valeurs extrmes. On appelle ainsi mCIVf'lnnl> tronque d'ordre Ct la moyenne arithmtique obtenue en liminant les Cln plus grandes et petites valeurs (une valeur gnralement recommande est Cl = 15 %). La mdiane est le cas extrme d'une moyenne tronque
(Cl
Au lieu d'liminer les Clll plus grandes et plus petites valeurs, on peut les rendre toutes gales aux dernires valeurs prises en compte: c'est la "winsorization". Une autre approche est cene des M-estimateurs introduits par P. Huber : on cherche ici IL qui minimise une fonction du type:
i=l
p(~) S
*=p'.
\I/(X
i=l
f.L) o
On retrouve la moyenne arithmtique avec p(x) = x2 , la mdiane avec p(x) = Ixl. Les estimateurs du maximum de vraisemblance sont des cas partculiers de NI-estimateurs avec: p(x) -lnf(x) et lIJ(x) =
j'ex)
Remarquons que le NI-estimateur f.L peut s'crire comme une moyenne pondre des observations :
Il
2:HJ;Xi
f.L=-'l--
i=l
2:w;
i= 1
Wi
ll'i
x t!J(x)
= x.
1 si x> 0 et t!J(x) =
l si x
< O.
(1 - X:)2 c-k {
x
pour
lx 1::5 C
k k
(Tukey)
si x <-k
lV(X) =
si Ixl <
si x >
(Huber)
+k
13_ L'estimation
321
L' estmation robuste de dispersion s est prise gnralement gale la mdiane des carts absolus la mdiane.
1.5
-1.5
FoncHon de Huber
FIGURE
Fonction de Tukey
13.7
Dans l'exemple du chapitre 5, la variable (~ taux de taxe d'habitation a une moyenne arithmtique de 17.7707, mais prsentait quelques valeurs extrmes. Les estimations robustes sont: Moyenne tronque 5 % : Estimateur de Huber avec k = 1.339 : Estimateur de Tukey avec c = 4.685 : 17.6182 17.8149 17.6872
13.9
ESTIMATION DE DENSIT
La densit f(x) d'une variable continue donne une information visuelle importante sur la rpmttion des valeurs. Nous prsentons ci-dessous les lments de la thorie de l'estimation de la densit en l'absence de tout mod1e paramtrique: on parle d'estimation fonctionnelle ou non-paramtrique. On supposera que f(x) est une fonction continue. La plupart des dmonstrations seront omises au profit d'une prsentation pratique. Le lecteur intress se reportera aux ouvrages de M. Delecrox et B. Slvemlan cits en bibliographie.
13.9.1
Gnralits
Pour tout point x on cherche une fonction des observations (XI> Xl' ) iJx) possdant les proprits d'une estimation de la densit inconnue f(x). Il semble lgitime de souhaiter que:
322
Pour la convergence, on se proccupera non seulement de la convergence en tout point mais aussi de la convergence uniforme atin de borner l'erreur d'estimation maximale suplj~l(x) - f(x) 1.
x
L'erreur quadratique moyenne intgre (MISE en anglais) est souvent utilise pour mesurer l'cart quand Il est fini entre l'estimateur et la densit inconnue:
13.9.2
Considrons des histogrammes classes d'gales amplitudes h. L'histogramme est l' estimateur de la densit le plus lmentaire. Pour qu'il soit convergent, il faut faire tendre la largeur de classe vers a quand 11 tend vers l'infini, mais il ne faut pas que Il tende vers zro trop vite pour que l'effectif par classe puisse quand mme tendre vers l'infini et assurer la convergence au point x. 11 faut que 1111 ~ 00 ce qui peut tre assur par Il = _ ~.
'1/1
Mais en pratique 11 est fini et l'histogramme souffre de dfauts vidents: il est discontinu, et constitue donc une approximation rustique d'une fonction continue. De plus par construction, tous les ponts d'un intervalle ont la mme densit estime, ce qui n'est pas raliste. Une premire amlioration due Rosenblatt est la mthode de la fentre mobile ); : on construit autour de chaque x une classe de longueur h centre sur x: I.x - 11/2 ~ x + h/2] et on fait ensuite varer x. L'estimation en x esl i,(x) tombant dans la classe. --:.. o Il, est le nombre d'observations I1h Tl r
Cet estimateur reste cependant discontinu, car n,t' varie de plus ou moins une unit chaque fois gue x correspond une des valeurs Xi de l'chantillon. L'exemple suivant montre le rsultat pour les donnes dj tudies au chapitre 5 :
0.12 0.1
~
eii
Cl
ID
c:
13.8
13_L'estimation
323
13.9.3
~ K(X - Xi)
nh
1
o le
K(u)
0 sinon
Xi
ilt) est donc une moyenne arithmtique de fonctions donnant chaque observation poids l/h si elle appartient l'intervalle centr sur x.
un
C'est parce que K est discontinue que ir(x) l'est. Pour obtenir une estimation continue, on prendra une fonction noyau K(lI) continue ; on la choisira de plus paire par raison de symtrie, dcroissante quand li s'loigne de zro. ir(x) est alors une moyenne de fonctions donnant chaque observation Xi un poids d'autant plus petit que 1 Xi X 1 est grand. Si K est une densit alors h(x) le sera galement. Les noyaux les plus couramment utiliss sont: le noyau triangulaire K(u)
1-
lui
si
-lSusl
-(l-Ir)
"1
si
S
lsu
si
1 S li
Il
=:
cos (
i Il)
--lr
si
-1 oS
oS
-1 exp -
ili
(1 ,)
2
Les noyaux support born ncessitent moins de calculs que le noyau gaussien. La constante de lissage h dtermine la rgularit de /'I(X), Comme pour la largeur des classes d'un histogramme un Il trop grand lisse trop et un lz trop petit conduit une estimation trs chaotique alors que le choix du noyau n'est pas crucia1. Ainsi pour les mmes donnes que prcdemment on trouve les estimations suivantes pour le noyau sinusodal avec trois largeurs de fentre 10 %, 20 % et 30 % de }' tendue de X) :
0.12 0.1
'(ij
(]J
0.1 0.08
~ [il 0.06
c:
c:
"in
c:
(]J
(]J
0.04 0.02 20 30 40
10
20
30
40
13.9
324
13111111L'estimation
Le choix de la valeur optimale de Il a fuit l'objel d'une abondante littrature. Outre le choix subjectif par inspection visuelle (les logiciels permettent souvent de faire varier lz en continu avec un curseur). mentionnons: la rgle gaussienne Iz = cr 1'4/ (31l)] 1/5 . D.9min 1.34] la rgle de Sllverman Il = -------'-::-------Il
la validation croise gnralise o on cherche en quelque sorte une estmation du maximum de vraisemblance mais en enlevant Xi pour l'estimation en Xi maxlli ;~I(X;).
" i=1
/1
4 11
14.1
INTRODUCTION
14.1.1
Des relevs effectus pendant de nombreuses annes ont permis d'tablir que le niveau naturel des pluies dans la Beauce en miHimtres par an suit Llne loi de Laplace-Gauss LG(600, 100). Des entrepreneurs, surnomms faiseurs de pluie, prtendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par insmination des nuages au moyen d'iodure cl' argent. Leur procd fut mis l'essai entre 1951 et 1959 et on releva les hauteurs de pluies suivantes: Anne mm 1951 510 1952 614 1953 780
1954
512
ts955
501
1956 534
1957 603
1958 788
1959 650
Que pouvait-on en conclure? Deux hypothses s'affrontaient: ou bien l'insmination tait sans effet, ou bien elle augmentait rellement le niveau moyen de pluie de 50 mm. Ces hypothses pouvaient se fOImaliser comme suit, si de X variable alatoire gale au nveau annuel de pluie:
III
= 600 mm
650mm
Les agriculteurs hsisant opter pour le procd forcment onreux des faiseurs de pluie tenaient pour l'hypothse Ho et il fallait donc que l'exprience pUsse les convaincre ~ c'est--dire que les faits observs contredisent nettement la validit de l'hypothse Ho dite hypothse nulle (Hl s'appelle l'hypothse alternative). Les agriculteurs n'taient donc dcids abandonner Ho qu'en prsence de faits exprimentaux traduisant une ventualit improbable compte tenu de HoIls choisirent ( 0.05 comme niveau de probabilit, c'est--dire qu'ils taient prts accepter HI si le rsultat obtenu faisait partie d'une ventualit improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que
326
des vnements rares ne sauraent se produire sans remettre en cause le bien-fond de l'hypothse de dpart Hn ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas o prcisment les vnements rares arrivent quand mme. _Comment dcider? Puisqu'il s'agit de tester la valeur m il est naturel de s'intresser X moyenne des observations qui nous apporte le plus de renseignements sur m. X est la variable de dcision . Si Ho est vraie, comme l'exprience a port sur Laplace-Gauss LG( 600, : ) . En principe, de grandes valeurs de X sont improbables et on prendra comme rgle de dci~ sion la suivante: Si X est trop grand, c'est--dire si X est suprieur un seuil k qui n'a que 5 chances sur 100 d'tre dpass, on optera pour HI avec une probabilit 0.05 de se tromper. Si X < k on conservera Ho faute de preuves suffisantes. Il est facile de calculer k grce aux tables et on trouve : 100 k = 600 + -3- 1.64
11
655
(fig. 14.1)
600
FIGURE
14.1
La rgle de dcision est donc la suivante: si !S. > 655 mm, repousser Ho et accepter HI ; si X < 655 mm, conserver Ho. L'ensemble d'vnements {X> 655} s'appelle la rgion critique ou rgion de rejet de Ho. L'ensemble complmentaire {X < 655} s'appelle la rgion d'acceptation de Ho. Or, les donnes releves indiquent que = 610.2 mm. La conclusion tait donc de conserver Ho ; c'est--dire que l'insmination tait sans effet notable sur le niveau des pluies: les valeurs observes pouvaient donc tre dues au hasard en l'absence de toute influence de l'iodure d'argent. Cependant, rien ne dit que conserver Ho mette l'abri de se tromper: en effet, les faiseurs de pluie ont peut-tre raison, mais on ne s'en est pas aperu. Il y avait deux manires de se tromper: croire les faiseurs de pluie, alors qu'ils n'taient pour rien dans le rsultat obtenu (probabilit cr 0.05); ne pas croire les faiseurs de pluie, alors que leur mthode est bonne et que seul le hasard (malencontreux pour eux), d au faible nombre d'observations, a donn des rsultats insuffisants pour convaincre les agricul teurs.
327
, . 100) Supposons que les fmseurs de plUie ont raison, alors - LG ( 650, 3 ' 0 n commet XE
une erreur chaque fois que X prend une valeur infrieure probabilit:
s'appelle le risque de premire espce; fJ s'appelle le risque de deuxime espce. On aura au cours de cet exemple Je rle particulier jou par Ho : si la forme de la rgion critique > k est indique par la nature de HI (650 plus grand que 600) la valeur de k ne dpend que de Ho. Les deux hypothses ne jouent pas des rles symtriques, k est dtermin par Ho et a. ;
14. 1.2
On peut classer les tests selon leur objet (ajustement, indpendance, de moyenne, de variance, etc.), ainsi qu'il est fait dans la suite du livre ou selon leurs proprits mathmatiques: on parIe ainsi de tests paramtriques ou non, de tests robustes, de tests libres. Un lest est dit paramtrique si son objet est de tester certaine hypothse relative un ou plusieurs paramtres d'une variable alatoire de loi spcifie ou non: le paragraphe 14.2 en donne des exemples. Dans la plupart des cas, ces tests sont bnss sur la loi normale et supposent donc explicitement l'existence d'une variable alatoire de rfrence X suivant une loi LO. La question se pose alors de savoir si les rsultats restent encore valables lorsque X n'est pas normale: si les rsultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport un certain modle est donc la qunlit de rester relativement insensible certaines modifications du modle : on constatera que les tests de moyenne ou de non corrlation sont robustes. Une catgorie particulirement intressante de tests robusles est la classe des tests libres (en anglais distribution free) : il s'agit de Lests valables quelle que soit la loi de la variable ala~ toire tudie, donc valables en particulier lorsque l'on ignore tout de cette loi (cas trs frquent en pratique) ; on peut dire qu'il s'agit de tests robustes par rapport la loi de probabilit. Exemple: les tests d'ajustement du X2 Ces tests sont bien souvent des tests non paramtriques mais pas ncessairement (tests de moyenne). Pour les tests paramtriques on distingue gnralement hypothses simples et hypothses composites:
une hypothse simple est du type H : 9 = eC) o eo esL une valeur isole du paramtre ; une hypothse composite est du type H : 9 E A o A est une partie de ~ non rduite un lment.
La plupart ds hypothses composites se ramnent aux cas: 9
En fait, on construira les rgions critiques en utilisant la valeur eo seule. Lorsque l'hypothse alternative est composite, la puissance du test est variable et on parle de fonction puissance 1 13(9).
328
14.2
Un test est un mcanisme qui permet de trancher entre deux hypothses au vu des rsultats d'un chantillon. Soient Ho et HI ces deux hypothses, dont une et une seule est vraie. La dcision aboutira choisir Ho ou Hf. Il y a donc 4 cas possibles schmatiss dans le tableau 14.1 avec les probabilits correspondantes:
TABLEAU
14.1
Dcision
~
Ho
Hl
Ho
1 -a.
a.
Hl
~
l-~
14.2.1
a. et
~
a. probabilit de choisir Hl alors que Ho est vraie: ~ probabilit de conserver Ho alors que Hl est vraie.
Ces erreurs correspondent des risques diffrents en pratique; ainsi dans l'exemple des faiseurs de pluie le risque de premire espce consiste acheter un procd d'insmination inefficace; le risque de deuxime espce laisser perdre une occasion d'augmenter le niveau de pluie et peut-tre de rcoltes plus abondantes. Dans la pratique des tests slatistiques, il est de rgle de se fixer a. comme donn (les valeurs courantes sont par exemple 0.05, 0.01 ou 0.1) de prfrence en fonction du risque de premire espce couru, ce qui fait jouer Ho un rle prminent. Le choix de Ho est dict par des motifs assez variables: pUsqu'on ne veut pas abandonner trop souvent Ho, Ho doit tre une hypothse solidement tablie et qui n'a pas t contredite jusqu' prsent par l'exprience; Ho est une hypothse laquelle on tient particulirement pour des raisons qui peuvent tre subjectives; Ho correspond une hypothse de prudence; exemple: test de l'innocuit d'un vaccin; il est prudent de partir d'une hypothse dfavorable au nouveau produit; Hu est la seule hypothse facile fOlmuJer ; exemple: tesler m = m() contre 111 1110; il est vident que seule Ho : 111 = m() permettra d'effectuer des calculs.
'*
a. tant fix, ~ sera dtermin comme rsultat d'un calcul (ceci n'est possible que si l'on connat les lois de probabilits sous Hl)'
Cependant iJ faut savoir que ~ varie en sens contraire de a.. Si l'on veut diminuer a. risque d'erreur de premire espce, on augmente 1 a. probabilit d'accepter Ho. si Ho est vraie ~ mais surtout on est conduit une rgle de dcision plus stricte qui aboutit n'abandonner Ho que dans des cas rarissimes donc conserver Ho bien souvent tort.
329
A force de ne pas vouloir abandonner Ho on finiL par la garder presque tout le temps, donc on augmente [3.
J3 s'appelle (( puissance du
a tant fix, il importe de choisir une variable de dcision: variable qui doit apporter le maximum d'informations sur le problme pos et dont la loi sera diffrente selon que Ho ou Hl est vraie (sinon elle ne servirait rien). Il faut que sa loi soit entirement connue au moins si Ho est vraie.
La rgion critique West l'ensemble des valeurs de la variable de dcision qui conduisent carter Ho au profit de H" La forme de la critique est dtermine
par la nature de HI, sa dtermination exacte se fait en crivant que:
p(WIHo)
La rgion d'acceptation est son complmemaire W et l'on a donc: et La construction d'un test n'est rien d'autre que la dtermination de la rgion critique, cette dtermination se faisant sans connatre le rsultat de l'exprience, donc a priori. La dmarche d'un test est la suivante (pour rsumer) : 1) 2) 3) 4) 5) 6) 7) Choix de Ho el HI_ Dtermination de la variable de dcision. Allure de la rgion critique en fonction de HI' Calcul de la rgion critique en fonction de ct. Calcul ventuel de la puissance 1 - [3. Calcul de la valeur exprimentale de la variable de dcision. Conclusion: rejet ou acceptation de Ho-
14.2.2
La faon de choisir la variable de dcision n'a pas encore t lucide dans les paragraphes prcdents o nous nous sommes contents de formaliser l'intuition. Le choix de la meilleure variable de dcision il t rsolu thoriquement par les statisticiens J.Neyman et E.S.Pemson dans une srie d'articles clbres pams de 1933 1938. Mais que veut dire meilleure variable rgion critique optimale?
,
NOLIS cherchons la rgion critique optimale c'est-~l-dire un domaine de [R'I parmi l'ensemble de toutes les ralisations possibles de l'chantillon (X" Xl' ... , XII) dont la forme dfinira ensuite une variable statistique.
Il s'agit de maximiser la puissance 1 - J3 ceci pour une valeur donne de de premire espce.
fi'
risque
Nous allons tout d'abord envisager le test entre deux hypothses paramtriques simples puis nous gnraliserons d'autres types d'hypothses.
330
Soit X une variable alatoire de densitf(x, 8) o 8 est un paramtre rel inconnu; L(x, 8) dsignera en abrg la densit de l'chantillon.
Il s'agit de tester:
Ho: 8 { HI: 8
= 80 = 81
1.
Il s'agit de maximiser: Nous pouvons crire :
L(x, O())dx
= P(WIHo} =
p(WI Hl)
Il'
l - [3
1
Il'
L(x, 8 1)dx
l
lIIIlI
La rgion critique optimale est d4finie par l'e11semble des points de ~Il tels que:
Dmonstration
.. S'il existe une constante k e" telle que l'ensemble HI des points de ~,r o :
1 ---=- > (I
= a,
En effet soit HI' une autre rgion de ~Il telle que p(HI'IHo}
= a; W'
1
IV
FIGURE
14.2
331
diffre de l'intgrale: pour les parties non communes W et W' . Wet W' ayant sous Ho mme mesure a, l'ensemble (W - '\V') des points de W n'appartenant pas W' a mme mesure sous Ho que l'ensemble (W I - W) des points de lV' n'appartenant pas W. L'intgrale:
f f
W-W'
comme intgrale, prise par rapport la mesure L(x ; 8o)dx sur un ensemble de mme mesure, d'une fonction strictement suprieure; le thorme de la moyenne indique en effet:
L(x;
avec
fE W'
- W
JII'-W' L(x ; 8
L(~ ; 8n)
avec ~E W - W'
14.2.3
tude de 1 -
Il : puissance du
.
test
P(WIH,)
> p(WIHo}
puisque: d'o:
f.
:
IV
f.
L(x,Oo)dx
li'
Si ka est> 1 la proposition est triviale ; si kt! est < i nous allons montrer, ce qui est
quivalent, que 13 < 1 et
332
L(x, fll) West tel que - - L(x, 00)
Il ~ cr.;"
13 ~
1.
Remarque: Comme P(A(K)) est une fonction monotone de K, on voit que si a. diminue, ku augmente; donc diminuer le risque de premire espce Ci fait augmenter le risque de
deuxime espce
ka
14.2.4
La considration d'une statistique exhaustive simplifie considrablement la pratique du test car alors la rgion critique en dpend exclusivement.
(i), on a :
14.2.5
Exemple
contre
HI : LG(m" cr)
(f'"
.'V-;;
Le rapport des denSits
. g("i,1I1
g(x, mo)
donne:
Il
g(x,m
g("i,11lo)
" g("i, ml) ,.". Ecnre que _ > kil est eqmvalent a ecnre que (x g(x, 1110)
. .,
(x -
111 1
f >
k~ soit:
333
k~~. k~'.
<
n10
Ce rsultat vident l'intuition ~e si 1111 > m, on rejettera Ho si X est trop grand. On trouve la constante k en crivant P(X > k 1 Ho) = . En reprsentant sur un mme graphique les densits de X dans Ho et dans HI on a la figure 14.3.
FIGURE
14.3
14.2.6
14.2.6.1
&III
Exemples:
{e
III
La fonction puissance
L'hypothse HI tant compose d'un ensemble de valeurs de e, pour chaque valeur particulire de e on peut calculer 1 (3(6), d'o une fonction, dite fonction puissance, dcrivant les variations de 1 - j3 selon les valeurs de e dans Hl' La figure 14.4 montre la fonction puissance du test Ho : correspondant l'exemple introductif.
= 600 contre HI
111
> 600
0.9 0.9
o
:t al 0.6
'p[ 0.5
0.7
DA
a. 0.3
0.2
0.1
Or---~=-~--.---~---r---r--~---.-
550
575
600
625
650
675
700
725
750
Moyenne
FIGURE
14.4
= 600.
334
ID
Tests UPP
Un test est dit unifoffilment le plus puissant (UPP) si, quelle que soit la valeur de 8 appartenant l'hypothse allernative, sa puissance 1 - f3(8) est suprieure la puissance de tout autre test.
II1II Exemple: Dans le test Ho : /Il = 1110 contre HI: 111 = 111 1 > 1110, on a pu remarquer que la rgion critique ne dpend pas explicitement de 1111 et donc que celte rgion critique est la mme pour n'importe quel 1111 > nlo. Le test prcdent est donc UPP pour Ho : 111 = 1110 contre H 1 : III > 1110'
n est vident cependant qu'il n'existe pas de test VPP pour Ho: 111 = 1110 contre H 1 : l1l 1= 1110 car, s'il en existait un il devrait tre VPP pour les deux sous-hypothses H; : 111 > 11lo et H;': 11/ < 11l(). Or les tests de Ho contre HI et Ho contre H'1' sont prcisment VPP et diffrents l'un de l'autre. _
14.2.6.2
Ho: 8 < 80 { H] : 8 2: 8 0
JHo : e
et
lHI: 8
:5 el
1
< 8
82
, .. ee theoreme suppose 1" eXIstence d' une statIstique G te Ile que 1e rapport L(x;; 8 ) est une L(x 8
1)
fonction monotone croissante de G si SI > 82 (thorme dit du rapport de vraisemblance monotone )). De telles statistiques sont fournies par les statistiques exhaustives des lois de forme exponentielle. D'autre part il n'existe pas de tests VPP pour les cas Ho : 8] :5 8 :5 82 contre H 1 : 8 > 82 ou 8 < 8] et a fortiori: Ho : 8 = Bo contre HI : 8 =1= 80 , Dans les cas o il n'existe pas de tests UPP, on cherchera s'il existe de bons tests parm une classe plus restreinte, celle des tests sans biais par exemple. Ainsi pour le test prcdent il existe un test UPP sans bias s'il existe une statistique G(x) rpondant la condition de Lehmann et la rgion critique est: ou G(x) > Cl G(x) < CI
14.2.6.3
Test de Ho
8
= 8n contre H 1 : 8 =1=
Posons: on a donc 0 :5 :5 1.
L(x, 80)
sup L(x, 8) o
335
est intuitivement une statistique convenable pour un test car plus . est grand, plus l'hypotbse Ho est vraisemblable (principe du maximum de vraisemblance). Cela revient remplacer 0 par son estimation par la mthode du maximum de vraisemblance.
<K
THORME
1
.
La distribution de -21n
ln L(x, 00 )
ao
+
ou 8*
E
l 2(0 0
[8 o ].
-2 ln
= -(So
a ae-
Dans l'hypothse Ho: 8 = 80 , on sait que l'estimation du MV converge presque srement vers 80 ; donc 0* ~ On et lorsque Il ~ 'J.) :
-----11 ~ cc,
a2 1n L(x ; 0*)
Lorsque
;; 2:
Donc: On a alors:
1 a2 1nf(x;; e)
ae i
~E
[a:!.ln f ]
a8 2
= 11(0)
- - - - - ~ 11/ 1(8)
a2 ln L(x ; 0*) ao
:::: l'ICO)
2
la suite des tests est cOll\'ergente, c'est-cl-dire que la pUlssallce l
Si Il
~ ,
f3 ~
1) E
sup L(x, 8) !fn bt' , 'd L( _ 0) e t on OIen t l mernes proprIetes que prece emrnent. es A . . , sup x,
Belli
336
14.2.7
Dans la thorie classique que nous venons d'exposer, issue des travaux de J. Neyman et E.S. Pearson, un test se prsente sous forme d'une rgle de dcision binaire fonnule a prori, c'est--dire avant d'avoir failles observations, et intangible ds que le rsque a a t fix. Les donnes recueillies ne peuvent modifier cette et ne sont utilises qu'a posteriori: on est, ou on n'est pas, dans la rgion critique. Cette manire de procder interdit toute manipulation des rsultats et garantit l'objectivit de la dcision: elle convient bien dans des problmes de rglementation ou de normalisation. Il y a cependant quelques inconvnients: Seule une partie de l'information est utilise. On aboutit parfois des conclusions paradoxales: Ainsi si on rejette Ho avec Cl 5 %, avec les mmes observations on la rejettera a fortiori si }' on avait choisi a 20 %. Quel est alors le risque de la rejeter tort: 5 ou 20 % ? Ce genre de questions perturbe bon droit le praticien. Une pratique courante, utilise notamment dans les logiciels, consiste alors calculer le niveau de signification, appel ~< p-value }) en anglais: c'est la probabilit de dpassement de la valeur observe de la variable de dcision sous Hn. Ainsi dans l'exemple des faiseurs 0.38. de pluie, le niveau de signification est p(X > 610.2/ Ho) Cela veut dire que pour tout a<O.38 on conserve Ho. Cette valeur leve est donc en faveur de l'hypothse nulle: les donnes la confortent. Inversement plus le niveau de significaton est faible, plus les donnes sont en faveur de l'hypothse alternative et du rejet de Ho. La dmarche classique de Neyman-Pearson revient simplement comparer le niveau de signification avec le risque Cl, mais on a ici une information plus prcise. On aimerait pouvoir dire que Ho est plus probable que HI' Il faut se garder de telles expressions, dnues de sens dans un contexte non-baysien. Par contre on peut parler de la vraisemblance de chacune des deux hypothses (du moins quand elles sont simples) Lo et LI' Il faut noter ici que le test de Neyman-Pearson ne consiste pas se prononcer en faveur de l'hypothse la plus vraisemblable puisque la constante k(l du rapport des vraisemblances n'est pas gale 1 : il faut que HI soit k(l fois plus vraisemblable que Ho, et kt! est gnrale ment plus grand que 1, ce qui traduit le rait que Ho est privilgie. Dans r exemple des faiseurs de pluie, il est facile de calculer ku qui vaut (f. 14.2.5) :
w
eXP(-~[(655 2.10
650f
(655 - 600f!J)
exp(1.35) = 3.857
Pour rejeter Hn, il aurait fallu que HI soit prs de 4 fois plus vraisemblable que Ho. Dans un contexte baysien on peut parler de probabilits a posteriori (c'est dire une fois connues les observations) si on s'est donn des probabilits Cl priori sur les tats de la nature.
=1
TI!),
probabilits
Cl
337
P(Ho/x)
= -----7oLo(x) + 7 I L,(x)
On peut remplacer les vraisemblances par les densits de la varable de dcision T, si Test une statistique exhaustive. La rgle baysienne consiste choisir l'hypothse la plus probable li posteriori, donc celle qui a une probabilit suprieure 0.5, On vrifie alors que le test de Neyman-Pearson est en fait un test baysien avec une probabilit Cl priori implicite que l'on peuL calculer aisment (1 - 7o)LI(x) L 1(x) en combinant P(H1/x) = . > 0.5 et - - > k 7oL()(x) + (l - 7o)L1(x) Lo(x) Ce qui donne:
7o = 1
+k
'iio
Pour l'exemple des faiseurs de pluie, on trouve que une fois que Ho est favorise.
Lorsque les probabilits Cl priori sont connues, on dfinit le facleur de Bayes qui est le rapport des odds ratos ) des deux hypothses:
B = P(Ho/x)/ P(HI/x)
7O/'ii1
14.3
14.3.1
14.3.1. 1
connu
= nlo contre Hl : m =
111 1
avec
1111
>
l11(),
X>
(k -
rr/'JJl
338
14.3.1.2
0'
inconnu
s
Ainsi pour Ho : nt = mn contre HI:
11l =1=
TII _ I
_ Exemple: Ho : m
=X
nln~
JI -
30 contre HI : m > 30
37.2 et s = 6.2.
4.35. _
= 0.05
Remarque sur les tests de moyenne: Si la variable parente ne suit pas une loi de Gauss, les tests prcdents s'appliquent encore ds que Il est assez grand (n > 30 environ) en raison du thorme central-limite.
14.3.2
14.3.2.1
- 2: (Xi - mf
Jl=1
Il
ao contre HI : a
= al avec al >
:2 (X,
Il
m)1
12D
suit un X~ :
Jli=1
14.3.2.2
m inconnu
-
2 SUit
un
., X~-
,.
,>
k) = P X~-l
Ci
339
II1II
Exemple: Ho : CT
3 contre Hl : cr > 3
soit
S2
12.25.
30.144 X 9
20
13.56
La valeur constate s"2 tant infrieure, on ne peut donc rejeter Ho au seuil choisi de 0.05. _
Remarque sur les tests de varance : Les tests prcdents utilisant la loi du X"2 ne sont valables que dans le cas o X sUt une loi de Gauss.
14.3.3
- Po 1 >
lI a /2
(l - Po) Po--Il
_ Exemple: Sur un chantillon de 200 individus d'une commune, 45 % sont favorables l'implantation d'un centre commercial. Ceci contredit-il l'hypothse qu'un habitant sur deux y est t~1Vorable ?
Ho: P = 0.5 {
avec
Ct
HI: P
'* 0.5
W=
0.05
li
IF - 0.51 >
Comme
~(O.5)'
200 '
SOIt
If -
Si 11 est trop petit pour que l'on puisse appliquer la loi de Laplace-Gauss, on utilisera l'abaque elliptique (table A.3 bis). lIlIilIII
14.4
14.4.1
tant donn deux chantillons de taille III et n:!~ peut-on admettre qu'ils ont t prlevs dans une mme population relativement la variable tudie, ces deux chantillons ayant t prlevs indpendamment l'un de J'autre?
340
_ Exemples:
Les rsultats scolaires des tilles et des garons sont-ils comparables? Les demandes de deux produits A et B chantillonnes sur un an sont-elles comparables? _ Mathmatiquement le problme se formalise de la manire suivante: on observe sur le premier chantillon les ralisations d'une variable alatoire XI de fonction de rpartition FICx) et sur le deuxime chantillon les ralisations d'une variable alatoire X2 de fonction de rpartition Flx) on veut tester:
'* F
2(x)
Dans la pratique on se contentera de vrifier l'galit des esprances et des variances de XI et X~; en disposant de x1 et et ST et si moyennes et variances empiriques des deux chantillons si les lois de XI et Xl sont gaussiennes.
14.4.1.1
LG(rnh
(TI)
Le test va consister tester d'abord les variances et si elles ne sont pas significativement diffrentes tester ensuite les esprances en admettant 0'1 = cr:.:.
l1li
Il,ST
01
0"1
.,
et l'on a :
111 S T
111 -
Fil
1 ;lIl-1
n2S~
Si
On peut interprter F comme le rapport des deux estimateurs de crI et cr~ respectivement. = :.:, ce rapport ne doit pas diffrer significativement de 1. F sera la variable de dcision. En pratique on met toujours au numrateur la plus grande des deux quantits:
0'1
et
111 11 2 -
> 1.
341
111
Il}
(TI
(T:!,
sr = 0.05,
x
0.07 25
12
0.07,
(Y
= 0.05
> ---24
0.09
(T:!.
On a : et
(T2
(T.
d'o:
el:
cr tant inconnu on utilise la loi de Student. Par dfinition de la variable de Student :
Il
]Si + 112S~
(T2(11[
+ "2 -
2)
1111
1H2
ITI > k.
342
On aura vu au passage que seule l'hypothse Ho d'galit des moyennes et des variances permet d'obtenir des rgions critiques, car on limine prcisment les valeurs communes de ces moyennes et variances. De plus l'ordre: test de variances, puis test de moyennes, semble indispensable, car le test de Studenl suppose explicitement rrl rr2'
14.4.1.2
Lorsque les effectifs des deux chantillons sont levs (suprieurs chacun 20), la formule prcdente reste encore approximativement valable. Pour de petits chantllons, l'approximation d'Aspin-Welch est souvent utilise dans les logiciels: elle consiste remplacer le degr de libert III + Il! - 2, par une valeur infrieure 111 obtenue par les formules suivantes:
nI = ----::--------::III Il::! -
avec c =
--~----
111 -
Il::! -
14.4.1.3
Le test de variance F n'est plus valable car nS.. :. ne suit pas une loi de X2, mais on a le rsultat suivant qui permel de tester 1111 =
111::!.
Pour Ill' 11']. assez grand (quelques dizaines d'observations) on peut quand mme tester les moyennes 1111 et 1112 en appliquant la formule de SLudent que (TI soit diffrent ou non de (TlOn dit que le test de Student est robuste ) car il rsiste bien un changement de la loi de XI el Xl'
14.4.2
14.4.2.1
SOt F;;~(x) et F:i;(x) les fonctions de rpartition empiriques de deux chantillons de taille et 112 issues d'une mme loi, de fonction de rpartition F(x) ; alors:
343
D'o le test: soit tester l'hypothse HoF(x) = G(x), contre HIF(x) ::f::. G(x), en disposant de deux chantillons de [aille 111 et 11:. de fonctions de rpartition empiriques F~:Jx) et G;:~(x), on forme la diffrence des deux et on en prend le sup et on rejette Ho si sup 1 F;\Jt) G'i:/x)1 est trop grand.
14.4.2.2
Test de Wilcoxon-Mann-Whitney
Soit (x), x:., ... , XII) et (Yb y:!, ... , JI/I) les deux chantillons. Ce test repose sur l'ide que s l'on mlange les deux sries de valeurs et qu'on ordonne le tout par valeurs croissantes on doit obtenir un mlange homogne. Pour cela les deux suites tant rordonnes, on compte le nombre total de couples (Xi, Yi) o Xi a un rang grand que Yi (ou bien tels que Xi> Yi si X et Y sont quantitatives).
71111 ;
Soit U ce nombre (statistique de Mann~ Whitney). Il est facile de voir que U vare de 0 si U = 0 on a la situation suivante (mlange en deux phases) :
de mme si U
mu:
11111
et
V(U) =
---1-2-Il
llm(ll
111
1)
et asymptotiquement U est gaussien, l'approximation tant excellente ds que suprieurs ou gaux 8. Dans tous les cas on peut calculer la loi exacte de U.
. ' . Le test consIstera d one a rejeter Ho : F(x)
et m sont
G(x) si 1 U - mil
>
k.
Un autre mode de calcul plus rapide dans certain cas consiste fI calculer la somme des rangs des individus de l'un des deux groupes (le premer par exemple). Soit
W, .,
~\'
= mu +
+ 1)
2
E(Wx ) = - - - 2 - mn(n
1)
V(Wx) =
+ 111 +
12
1)
Il
et
1
111
> 8 par:
nm(n
ll(n
+ 111 +
12
1)
>
+m +
12
1)
ll/2
344
_ Exemple: On veut comparer les performances de deux groupes d'lves des tests d' habi let manuelle.
On choisit alatoirement 8 indvidus du premier groupe et 10 du deuxime. Les performances en minutes sont les suivantes: Groupel: Groupe 2: 22 25 31 13 14 20 1924282728 Il 23 16 21 18
17
26
On rordonne les 18 observations par ordre croissant. Les rsultats du premier groupe sont souligns: Observations: Il 13 14 16 17 18 Rangs : 1
12.
7
20 21 22 23 24 25 26 27 28 28 8
J!
9 10 11 12 13 14 15 16 17 18
w,\, =
Si Ho tait vraie:
10
12
15
16
17
18 = 98
E(Wx ) =
Comme
8(8 + 10 + 1) 2 = 76 98
8 X 10(8
+
12
10
1)
126.7 = (l
Cl
Remarque:
XI
= 24.13
27.36
et et
Xl = 19
ST
s~
= 22
f=---=
22 X 10 9
1.28
ce qui montre que cr) n'est pas significativement diffrent de cr} (FO.05 (7 ~ 9) Le test de Student de diffrence des moyennes donne:
3.29).
--;===============================" 16
24.13 - 19
J:-;
~ Ua + ~)(la x 22 + 8 x 27.36)
2.06
ce qui est suprieur au seuil 0.10 qui vaut 1.745. Le test de Student conduit donc la mme conclusion que le tesl de Wi1coxon. Cependant ici, rien ne justifiant l'hypothse de distributions gaussiennes et vu la petite taille des chantillons, seul le test de Wi1coxon est d'usage lgitime.
345
14.4.3
Test non paramtrique de comparaison de plusieurs chantillons dcrits par une variable qualitative: le test du X2
TABLEAU 14.2
Modalit
1
chanllllon 1 chantillon 2
Illl Tl2l
rvlodalit 2
1112
Modalit
Total
r
IIlr
112r
11J.
1122
1/2.
chantillon k Total
lJtJ
1//..2
IlAr 11.r
H/.::.
Il
11.1
Il.:.
ni}
2: n ij
)=1
/.::
effectif de l'chantillon i ;
Il
2:Ll1ij "n...:;;:.;
l,
"Il "
"':;;:';.)
Dans l'hypothse Ho on peut parler de probabilits PI' P:., ... , Pr de possder les modalits l, 2, ... , 1: Il s'agit alors de comparer les effectifs constats lIij aux effectifs esprs 11 i , Pl' qui ne doivent pas en diffrer beaucoup; on forme alors:
Dans l'hypothse H(h dij est une ralisation d'une variable Dij suivant un X2 dont nous allons chercher le nombre de degrs de libert.
mais ces kr termes sont lis par II. relations qui indiquent que les
2:11 ij = Lll i. Pl
j
j
11 .
346
2: Pj =
j=l
1).
alors
D
Il
Il i.
".j
(,t _
l
Il
est un : X~r-k-(r-I)
Xlk-lJ(r-1)
si Ho est vraie.
fj
Le test consistera donc rejeter Hn si d constat est trop grand, comme pour un test habituel du X2
14.4.4
Dans deux chantillons de grandes tailles III et 1l2' on relve les pourcentages fi et 12 d'individus prsentant un certain caractre. Soit PI et P2 les probabilits correspondantes: il s'agit de savoir sil, etj2 sont significativement diffrents ou non, donc de tester:
-)
donc: On rejettera Ho, si, avec
Cl
et
LO(O ; p(l _ p l
0.05 par exemple:
~1+
III
1)
112
I./i
121 >
1.96~p(1
pl ~
1
112
1
112
fi
Tl If)
+ Il l f1
111+ 1l 2
Exemple:
sur 96 pices venant d'un fournisseur A, 12 sont dfectueuses; sur 55 pices venant d'un fournisseur B, ]5 sont dfectueuses.
347
.fi = 0.13
96 + 55
-2.28
12
+ 15
= 0.18
Pl et conclure que P2
>
PI'
Le mme test aurait pu tre ralis de manire quivalente en utilisant le test du Xl de comparaison d'chantillons. Le calcul est d'ailleurs particulirement simple dans le cas du tableau quatre cases (voir chapitre 6 6.5.2.2) : Dfectueux Fournisseur A Fournisseur B 27 Non dfectueux
96
55
124
= 5.20
151
d- =
15
15 X 27 X 124 X 96 X 55
2 x 40
Avec un degr de Libert la valeur critique du Xl pour ex = 0.05 est 3.84; on rejette donc Ho. On aura remarqu que 5.20 = (2.28f car (la dmonstration est laisse au soin du lecteur) on a exactement:
t
,- =
fi - 1'-1
)1
1IIIIIIII
14.4.5
Comparaison des movennes de deux chantillons gaussiens indpendants p dimensions de mme matrice de variance
Considrons deux chantillons de III et III observatons issus respectivement de deux lois N/JLI ; :2:) et Np(fL2 ; };). On cherche alors tester:
On nolera g)o g:!, V b V 2, les centres de gravit et matrices de variance des deux chantillons, et on posera W
(
= 11 1VI + n.,V..,111+ 11 2
---.....;-~
11\+112-
11 1
}1.,
bIaIS
de 2: .
348
14.4.5.1
Il)V)
Test de Hotelling
112V2
112 -
k) et
gl
g2
une loi
On vrifiera que pour p = 1 on retrouve le carr de la variable de Student du test dcrit au paragraphe 14.5.1 de ce chapitre.
14.4.5.2
Distance de Mahalanobis
+
Il)
Il, 1 -
Cg,
112
obtenue en remplaant ~ par son estimation sans bias. Remarquons que ceci ne revient pas estimer sans biais k- I ct que:
E(D~)
Lorsque 6.~
0,
Il
1/ 1
+.
n "2
1I1+1l2-P-1
.~ u""2 + P
1/']. -
Il)
HIll:.
+. 11 2) >
!...l"
:2
/'l, +
2) d'o le rsultat:
= F(p;
ni
lb
-
P - 1)
Cette expression est couramment applique en analyse discriminante (voir chapitre 18).
349
14.4.6
Un mme chantillon d'individus est soumis deux mesures successives d'une mme variab1e.
14.4.6./
Le cas gaussien
cr)
(ce qui sous-entend que XI et X2 sont sparment gaussiens). Le test de Ho : ml = 1112 contre HI : nt J =f=. 1112 consiste former les diffrences Xii et faire un test de Student sur la moyenne des di car cr est en gnral inconnu:
1'1-1
Xi::!
= di
..
XI
N.B. : La diffrence avec le test de Student d'galit de deux moyennes tudi au paragraphe 14.1.1 provient du fait que les variables Xl et X2 ne peuvent ici tre supposes indpendantes: la variance de leur diffrence ne peut tre estime par la somme des variances.
.. Exemple : Considrons deux sries de mesures effectues sur les mmes individus deux instants diffrents
Individu
Xz
D =X, -X2
1
2
86
92
66 76
63
20
16
12 22
3 4 5 6
7
8 9 10
Les moyennes ont-elles vari? On trouve d
75 84 66 75 97 67
99
62 74 70 86 69 81
92
-8
5 11 -2
68
18 -24
=7
s*
14.56
7 ------c= = 1 5')
14.56/{O
.-
350
On ne peut donc rejeter l'hypothse que les deux moyennes sont gales car la valeur critique d'un test bilatral 5 % vaut 2.269 pour un Tg. _ Le test prcdent suppose la normalit des deux variables. S1 ce n'est pas le cas, ou si cette hypothse ne peut tre prouve, il peut tre plus prudent, mais avec une puissance moindre, d'effectuer un test non paramtrique.
14.4.6.2
On compte le nombre K de diffrences positives. Sous l'hypothse nulle d'absence de diffrence entre moyennes, il y a une chance sur deux qu'une diffrence soit positive ou ngative; donc K suit une loi binomiale @(10 ; 0.5). Dans l'exemple il y a 7 diffrences positives. Or P(K < 8) = 0.9453. Avec un test bilatral 5 %, la conclusion reste alors la mme.
14.4.6.3
IJ~Bt bien plus puissant que le le.~de~sign(!s et doit lui tre prfr. Il teste en ralit hypothse alternative de distribution dcale.
On procde comme suit: on classe par ordre de valeurs absolues croissantes les diffrences:
Rang 1 2 3
4
-24 22 20
18
16
5
6
12
11
7 8 9 10
-8
5 -2
On calcule ensuite la somme des rangs des diffrences positives soit ici :
w.!
= 2
+3+4 +5 +6 +7+9 =
36
Zi -
o5100n
eXMaequo. Les Rj sont les rangs de toutes les diffrences et sont donc une permutation des entiers de 1 Il. Les Zi sont des variables de Bernoulli indpendantes:
E(Z,) = 1
1 1 V(Z.) = 2 1 4
11
W+ =
2: RiZ
j=[
351
~ ~i
J
-
!-' I=J
= ~ 12(12 +
') ') 1 n(n
4
1)
11(11
+
4
1)
2:rr V(Z;)
i=J
Il
1)(211 6
1)
11(11
1 )(2n
1)
24
Les rangs ayant disparus, l'esprance et la variance conditionnelle sont l'esprance et la variance totale. On peut montrer que W + peut tre approxim par une loi normale partir de
11
= 10.
On comparera donc la valeur trouve 36 une loi normale d'esprance 27.5 et de variance 96.25, ce qui donne une valeur centre rduite de 0.87. On ne rejette pas l'hypothse nulle.
14.4.7
Tester l'galit des variances revient donc tester si le coefficient de corrlation linaire entre la somme et la diffrence des deux variables est nul. Dans l'exemple prcdent on trouve r = 0.224 ce qui ne permet pas de rejeter l'hypothse d'galit des variances car le seuil 5 % bilatral pour 10 observations est 0.63 (cf. table A.9). Les cart-types corrigs taient respectivement 12.45 et 9.95
14.4.8
On a vu en J 4.4.4 comment comparer des pourcentages sur deux chantillons indpendants. Qu'en est-il lorsqu'il s'agit des mmes individus? Par exemple, on interroge deux reprises, aprs une action, 600 clients d'une socit pour connatre leur taux de satisfaction. On commettrait une grave erreur en appliquant les fonnules des chantillons indpendants: il faut ici connatre pour chaque individu son tat aux deux enqutes, que l'on peut rsumer par le tableau de contingence 2 X 2 croisant les effectifs des deux variables. Prenons l'exemple suivant:
~
Satisfaits Non satisfaits
Satisfaits
200
Non satisfaits
50 270
80
La proportion de satisfaits est passe de 41.7 % 46.7 %. S'il s'agissait de deux chantlllons indpendants de 600 individus, cette diffrence ne serait pas juge significative.
352
Mais pour tester la significativit de cette diffrence, il faut en ralit compare les effectifs des individus ayant chang d'avis.
En effet, avec des notations classiques, l'hypothse Ho est Pl. = PI.- Comme PI. = Pli etp.1 = Pli + P::'I Ho revient tester Pr2 = P'21
~
Satisfaits Non satisfaits
Satisfaits
Pli
Non satisfaits
Pl2
Pl.
P 2
P:!l P.I
P22
P.2
On effectue alors un classique test du khi-deux: sous l'hypothse nulle PI'! par (1112 + 1121)/2. La statistique de test est donc:
( 111") 1112
= Pli est
+ 1121)2 +
2
2
11
thl
11 12+ 1l 2J
+ 1121
Xy,
80 ~
tive de la satisfaction.
80
14.5
L'ANALYSE DE VARIANCE
L'analyse de variance recouvre un ensemble de technique de tests et d'estimation destins apprcier l'effet de variables qualitatives sur une variable numrique et revient dans le cas simple comparer plusieurs moyennes d'chantillons gaussiens. On utilisera ici un vocabulaire particulier: les variables qmtatives susceptibles d'influer sur la distribution de la variable numrique observe sont appeles facteurs de variabilit et leurs modalits niveaux . Lorsqu'il y a plusieurs facteurs, une combinaison de niveaux est un traitement }) (voir chapitre 21). Le domaine tant trs vaste on se contentera ici d'une brve prsentation du modle effets fixes un et deux facteurs (des complments seront donns au chapitre 17 sur le modle linaire
353
14.5.1
14.5. 1. 1
donnes et le modle
111' Il:!~ , Ilk
correspondant chacun
On suppose que le facteur A influe uniquement sur les moyennes des distributions et non sur leur variance. II s'agit donc d'un test de confusion des k moyennes X"X2"'"
TABLEAU
14.3
Facteur
Al
ri 1
A2
ri :1
Ai
......................... .......................
Ak
........ ~ 4 ................ "
X
XIII
.,
.\2
x~~
Xi
' ,,
~
x! 1 .,
JI "
JI
Xk
X"i k
;k
..................
... ...................
Xi
. ...................
Moyennes
x[
Xl
LG(nzj; cr),
Si on considre chaque chant110n comme issu d'une variable alatoire Xi suivant une loi Je problme est donc de tester:
{Z:
On peut galement poser:
ml =
m2
= ... = ml
mj
o
nti::j::.
xl
ou encore facteur.
+ E{
E{ LG(Q ; cr)
xl =
f.L
Ci;
Si Ho est rejete le problme se posera donc d'estimer lIli (ou f.L et les Ci).
14.5.1.2
Le test
2: 2: X{ et en remarquant que:
kil,
11 i=1 j=1
il vient facilement:
formule qui n'est autre que celle de la variance totale dcompose en moyenne des variances et variance des moyennes.
354
1
14_Les tests
!:ilalC1StlQUf:I
Si on pose:
S-
"l
11 i
S~ = n
2: J1,(X i
1
et:
on a donc
= S~
>~"
l Si on crit S~ = -
2: Hi Sr avec ST
~
'1
2:(X{
11 ;"" 1
Il i j=1
~. I1S~. '1 chaque echnntillon, on trouve que - " est une vanable de x- a Il
' "
tl
Sf
11 S R
,,~
S1
;;;1
L.J
cr:"
Dans l 'hypothse Ho et dans celle-ci seulement, les Xi sont des variables de mme loi, nS'! . ' "1 llS~ " dans ce cas SUIt un X~-1 et - 1 un xr-J car est alors la variance d'un Il-chantillon d'une LG(m, cr) et s1 est analogue la variance du k-chantillon des moyennes par les Il;,
a-
Xi pondres
L'quation d'analyse de variance n'est autre que la formule du thorme de Cochran, ce qui entrane que S~ et S~ sont des variables alatoires indpendantes, si Ho est vraie; on a en effet:
X~-I
Donc si Ho est vraie:
Xf-I
+ X~-k
s11k
S~/11
A
= F(k -
l'Il - k) '
S~/ li. - 1"S' '1 est supeneur a I l cntlque d' une van' . ~ a va eur ' . . '11 1 SR 11 k able de Fisher-Snedecor on conclut une infuence significative du facteur A.
, e d, ou 1 test: on f"orme 1 rapport e
355
Effecr.if
13 10 26 9 14 18 10
100
Odl
6
Pr.oba. 0.0000
20.03
93 99
On rejette donc l'hypothse d'galit des 7 moyennes car la valeur de la statistique de test _ F est trs leve et la probabilit qu'un F 6 : 9:1 dpasse 20 est pratiquement nulle.
14.5.1.3
Il est clair que les 111i sont estimables par les moyennes .x i mais que les (Yi ne le sont pas: il y a indtermination puisque mi = f.L + ai peut s'obtenir d'une infinit de manires. On pose gnralement la contrainte suivante d'effet moyen nul:
2: n
j=1
i(Y;
= 0 d'o:
,l=x
/4.5.1.4
Le rejet de Ho ne signifie pas que tous les mi sont diffrent..; entre eux, et on cherche souvent tester l'galit 0 des diffrences /Hi - 1Ilj (appeles contrastes). Diverses mthodes existent. Un rsultat d Scheff montre que pour tout contraste J'vnement:
m; -
1/1 j -
Sir
~ 1 +.!c::o; x; /li
(Y
Jij
::0; 1/1; -
III J
S:
Jlj
~J +
IIi
J
Ilj
donne par :
S2 )
P( F/;_I " I I - k :k :- - : ; , l
t - cr
356
14 _ Les tests
!>Lal:rStll:]Up,
O &2
est le carr moyen rsiduel. On rejette Ho s'il existe au moins un contraste Sin-T'\1h~ . ~. vement diffrent de O.
On peul donc tester simullanment tous les contrastes de la faon suivante : on . . . tout cl' abord : S = ~(k - 1) Fl~Ck - 1 ~
'"fi . et on ven le ensUite
SI
Il -
k)
'1Xi
.t j
...J-
nlj _
On prendra garde toutefois que les comparaisons par paires ne sont pas transitives. On pourrait ainsi accepter
ml
1112' 1112 m4'
mais pas
/Ill
= 1114!
fi est souvent plus simple de reprsenter graphiquement les intervalles de dduits de la mthode de Scheff.
Moyennes et intervalles 95% de Scheffe
30
c
~ 25
:0
=ti
Q.l Q.l "C
X
ct!
!
"
20
x 19 15
:::J
! !
~
l)
t
ir.i
0
<li :l
!
ir.i
:::J
1-
ct!
10 5
ru
f
<li
(.)
ir.i
"C
Lt
C rtl
"C
ID
- :::1 en
ir.i
!Il
CIl
:::1
FIGURE
14.5
14.5.1.5
L'hypothse d'galit des variances pour chaque nveau joue un rle important en analyse de variance mais n'est que rarement teste: en effet les tests disponibles sont peu fiables et il vaut mieux se contenter de procdures empiriques. Citons cependant le test de Bartlett : Soient Sr. alors la quantit:
<Tl
k) ln ( ;=1
Il
2
_.
2:Clli - 1) In(S}:2)
i=1
tests statistiques
357
i,.i de niveaux
>
>
l,
quilibr si nij = 1:
On limitera cette tude au cas quilibr. Les donnes recueillies sont donc, pour un traitement (i,j), .lijl; avec k = 1,2, .. . ,/: On supposera que .lij/; soit une loi LG(mij ; cr) donc que Xij/; On crit alors:
f3j
X...
xij.
= -.2:
1
r
fi
2:
If
2:.lijl;
= -: 2:Xijl;
1 k=1
Xi .. = ----:
ql
j=l /;;;1
l' r
22
fi
2: .l jj/;
X.j.
On a alors:
.lijk -
= ----: 2:
2: .l ij/;
pl i=1 /;=1
X...
= (Xi .. - x.J + (x.j. - x.. J + (xij. - x.j,) - (Xi .. + x.. J + (.lij/; - xu.)
les diftrents termes de cette somme correspondant respectivement aux effets principaux, l'interaction et une fluctuation alatoire.
14.5.2.2
x.. J 2 = s1 + 51 + 5XB + S~
358
avec:
qr2:0:i.. -
s~ S~IJ
= pr2:Cx.j.
j i
x.. Y
x\ .. + x.. ,)!
r2:2:Crij. - x.j
i
donc que les sommes des carrs s'ajoutent: il y a orthogonalit pour le modle quilibr.
= .....!.:..-i.
n
11 . Il .
Comme en analyse de variance un facteur, si l'hypothse Ho mu = 0 't:/ Uest vraie, les diffrentes sommes de carrs suivent cr.! prs des lois du X2 indpendantes. On peut donc tester l'existence des effets principaux, et de l'interaction en comparant S~; S~, SII S~. On prsente usuel1ement les rsultats sous la forme du tableau 14.4 :
TABLEAU
14.4
Source de variation
Somme de carrs
S~
Carr moyen
S~/(P
S~/(q -
A
B
1)
1)
1
1)
S~
q-I
S~/pq(r
S~lJ/(p -
1 1)
1)
S~n
S~
S2
(p
1)(q - 1) pq(r
[)
'AIl
(p -
1)(q - 1)
1)(q - 1)
1)
SYi/pq(r -
Slrlpq(r
pqr- 1
14.5.2.3
2: a = 2:!3j = 2."Yij
i
2.'Yij = 0
j
!3
j,
ai =
Xi..
!3j
x.j. - X...
- Xi ..
'Yij =
+ X...
359
14.5.2.4
Le modle complet avec interaction ne peut tre test et estim que si et seulement si il y a rptitions car le degr de libert de S'k est pq(r - 1) donc r doit tre strictement suprieur 1.
= i + r3j
L'quatlon
d~analyse
Il
avec:
S~
:=-.:
C/2:Cti.
i<=l
il
x.Y
x.,)2
S~ = P:2) x.}
)=1
s~ =
2:22(xij - XL
i
+:X.Y
On compare donc S~ et S~ au terme d'interaction pris pour terme rsiduel ce qui empche de tester l'interaction.
14.6
Ces tests ont pour but de vrifier qu'un chantillon provient ou non d'une variable alatoire de distribution connue Fo(.r:). SOiL F(x) la fonction de rpartition de la variable chantillonne, il s'agit donc de tester Ho : F(x) = FoCt) contre HI : F(x) =1= FoCx). Avant de prsenter les tests sLatistiques les plus courants (test du X2 , de Kolmogorov, de Cramer-Von Mises) il convient de prsenter brivement les procdures empiriques usuelles qui sont une tape indispensable et permettent de s'orienter vers une distribution adapte aux donnes.
14.6.1
14.6. 1. 1
Celle-ci peut conduire liminer certains modles, en particulier si les proprits de symtrie ne sont pas vrifies. Une fOffi1e symtrique conduit souvent poser l'hypothse de normalit mais il faut se souvenir que la loi de Laplace-Gauss n'est pas la seule avoir une courbe de densit en cloche: c'est galement le cas des lois de Cauchy el de Student entre autres. Une forme fortement dissymtrique peut suggrer l'usage de lois log-normales, gamma, Weibull ou bta de type deux qui ont des courbes de densit assez ressemblantes au moins pour certaines valeurs des paramtres.
360
Le choix entre diffrentes distributions de forme semblable doit s'effectuer alors en Lenan compte du phnomne tudi: ainsi en nabilit on se limitera aux lois exponentielles ou Weibull qui ont une justification physique alors que la loi log~nonnale n'en possde pas ce cas.
14.6.1.2
On vrifiera sur l'chantillon si certaines relations concernant les paramtres d'un modle sont vraies. Ainsi pour une loi de Poisson on sail que E(X) = V(X) ; on s'assurera que sur un chantillon . Une telle constatation est seulement un indice du caractre poissonnien d'une distribution mais n'en est nullement une preuve. On ne peut d'ailleurs prouver la vracit d'un modle par des moyens statistiques. Un modle est choisi pour sa commodit et sa facult de reprsenter un phnomne.
x diffre peu de
P.QUL uTle variable de Gausson sait que le coefficient d'aplatissement de cette loi est gal 3 et que son coefficient d'asymtrie est nul. On vrifiera sur l'chantillon que les coefficients empiriques correspondants s'cartent peu des valeurs thoriques: on dispose pour cela de tables donnant les valeurs critiques de ces coefficients pour diffrentes luilles d'chantillon (tables A.15 et A.16), voir galement plus loin J'abaque pour le test de normalit.
14.6.1.3
Ajustements graphiques
Pour la plupart des lois de probabilit une transfonnation fonctionnelle simple permet de reprsenter la courbe de rpartition par une droite. La fonction de rpartition empirique d'un chantillon de taille Il diffre peu, si Il st grand, de la fonction thorique F(x). On vritera alors simplement r adquation des donnes au modle en comparant la fonction de rpartition empirique une drote sur un papier chelles fonctionnelles.
>
x)
exp(-x)
on a alors
:Pour un chantillon de taille 11 on reportera donc pour chaque valeur du temps de fonctionnement x le pourcentage de survivants la date x sur une chelle logarithmique. En pratique on reporte, si les Xi sont ordonnes par va1eurs croissantes, les pOnts de coordonnes :
Xi;
ln ( 1 -
-'-1-
i -
1)
pour
l:::S;i:::S;1l
Les points dOvent alors tre aligns approximativement le long d'une droite dont la pente fournit une estimation graphique de .
361
Loi de Weibull
xr~), d'o:
ln
+ ~ lnx
i3
Loi de Laplace-Gauss
Ici la fonction de rpartition n'ayant pas d'expression mathmatique simple on utilise la ., , propnete U
cr constituent un chantillon d'une variable normale centre-rduite U. Si le nombre des observations est grand, la foncton de rpartition empirique (de l'chantillon) doit peu diffrer de la fonction de rpartition thorique telle qu' ene est issue des tables. Appelons Fi les valeurs de la fonction de rpartition empirique ( Fi
b' . , . b 1 S Iles 0 servallons Xi provIennent dune vana le normale LG(m: cr) alors es
(Xi = - - 111) -
effectif <
Xi) .
A ces valeurs empiriques Fi associons les valeurs correspondantes li')' de la variable normale centre rduite obtenues par la table: alors si la distribution est rellement gaussienne et si
11
est grand,
ut
linaire entre et Xi (le graphe ut, Xi doit tre peu prs une droite coupant l'axe des abscisses en 111 et de pente l/(J'). Cette droite est appele la drote de Henry. ou "QQ plot" pour quantile-quantile, en anglais. Les donnes ayant t ordonnes par valeurs croissantes, on reportera comme ordonne i 3}8 de chaque valeur Xi et non i/n pour des rasons trop compliques pour tre dve-
11+
loppes ici.
Exemple
Reprenons les donnes tudies au chapitre 5 : les variations du taux de la taxe d'habitation de 100 villes franaises. L'histogramme et le la bote moustaches indiquent une rpartition plutt symtrique; est-elle gaussienne pour autant?
362
14_Les tests
SratlstiCTIII
La droiLe de Henry montre des carts importants concernant les queues de nH::h'lli'\"t;~_ on peut mettre en doute la nonnalit de la distribution, mais il ne s'agit pas d'un vritab test o on matrise les risques d'erreur:
99.9 99
(/J C)
95
. ..
"
<ll
rn
80 50 20
5
<ll
0..
:::J 0
1
0
t!I"'''
0.1
10
FIGURE
20
30
40
14.6
14.6.2
Nous prsenterons ici les deux tests les plus classiques, celui du X"! et celui de Kolmogorov-Smirnov, ainsi que celui de Cramer-von Mises.
14.6.2.1
Le test du X2
Soit une variable alatoire X discrte ou discrtise, c'est--dire divise en k classes de probabilits PI. P"!, ... , Pk' Soit un chantillon de cette variable fournissant les effectifs alatoires Nb N'l' ... , N" dans chacune de ces classes.
On a E(Ni ) = npi'
Il est clair que cette statistique est une mesure (on pourrait dire une distance) de l'cart alatoire entre les effectifs raliss et les effectifs et intuitivement on sent que D 2 ne peut tre trop grand. D 1 dpend du nombre de termes de la somme k mais on remarque
Il
11 ;
fait k - 1.
363
Donc en fait
Si 11 ......;!> 00, D 2 est asymptotiqllemell1 distribu comme une "ariable de que sait la loi de X.
et ceci quelle
D'ou le test du
llpJ2
est trop
c'est--dire
i""l
npi
IX
Proprits du test
On peut dmontrer que le test du X2 prsent ici est asymptotiquement quivalent au test du rapport des vraisemblances maximales appliqu aux hypothses:
rHo :Pi
= PlO Vi
364
14 _ Les tests
staltlstqUles
14.6.2.2
Il s'agit d'un test non paramtrique d'ajustement il une distribution entirement spcifie de fonction de rpartition F(x). Ce texte repose sur les rsultats de Glivenko, Kolmogorov cits en thorie de l' chantillonnage (chapitre 12). Si F;:: reprsente la fonction de rpartition empirique d'un lt-chantil1on d'une variable alatoire de distribution F(x) , on sait que DT! = sup 1 F~'(x) - F(x) 1 est asymptotiquement distribu comme suit: P({;zD,J < y) ~:L
1;=-'"
l)kexp(-2k2y1) = K(y).
= *
F()(x) Fo(x)
La rgion critique tant dfinie par DI! > den). Au seuil Cl. = 0.05 et si 1.6276
D'l>
11
DII
>
~
'Hl
1.3581
pour
Q'.
= 0.01
Si
Il
14.6.2.3
La statistique:
est une variable alatoire dont la distribution indpendante de F(x) sert tester Ho : F(x) = Fo(x) contre HI : F(x) Fo(x) car /1W~ est une mesure de l'cart existant entre une rpartition thorique et une rpartition empirique. Sa distribution a t tabule (voir recueil de tables, table A.13).
On dmontre que:
nw;,
-1 +
1212
F(x;)
]2
< X/I)'
si les
Xi
(Xl
< X1'
. "
. 1 - FO(Xi) I_ll i=l 21l alatoire I1W~ a une probabilit ct de dpasser. Au seuil a 0.05 on rejette Ho si llW~
365
Bien que les lois des statistiques Dn et I1W~ ne soient pas connues, lorsque certains paramtres sont estims on utilisera avec profit les rsultats empiriques (tableau 14.5) obtenus par simulation (Biometrika Tables, volume 2) :
TABLEAU
Test de normalit
Ho: LG(m,
CT)
Ho : l(x)
1 = Oex p
(-x) ff-
~_l_ 22 (x 11-1
i -
X)2
On rejette Ho : - au seuil
CY.
On rejette Ho :
si (,f;;
ou (1
>
0.895
+
>
>
l.094
+ 0.5/n)llw; >
ct
0.16/ Il )nw;
0.224
- au seuil
= 0.01
si (-{;;
ou (1
1.035
+ 0.26
-/- 0.5/...[;;) > 1.308
0.337
0.5/Il)nw~
>
0.178
+ 0.16/n)nw~ >
14.6.3
14.6.3.1
G
Exprience classique
On dispose d'un chantillon de
11
Exemple numrique:
X;:>
fi
=
X..j
=
par
169
x]
122
Xs
= 58
Le paramtre
F(x)
x est estim
x = - 2:x i
5 ;=1
( x)
Xi
133
0.743
169 0.821
F(xi)
366
La statistique de Kolmogorov vaut:
D" =
~ II}
car le maximum est ncessairement atteint en un des points de sauts de la fonction de rpartition empirique. On trouve Dil
a = 0.05).
0.84.
L'hypothse Ho d'une distribution exponentielle peut donc tre retenue (avec La statistique de Cramer-von Mises vaut:
F(X;))'
= 0,09133
et la quantit 1 + - n
( 0.16),
IlW~
_ Exemples : 100 appareils sont constamment en service et sur une priode de 200 heures; 5 pannes ont t releves aux instants: t l 51, t 2 = 78, 13 = 110, t.+ 135, t5 = 180. I11III
367
Test de Kolmogorov
On cherche le plus grand cart en valeur absolue entre la fonction F(x) = x et les valeurs de la fonction de rpartition empirique (fig. 14.7).
14.7
= ~ = 0.255.
200
En se reportant il la table de la distribution du test de Kolmogorov on voit qu'on peut accepter l' hypothse Hu que la dure de vie obit une loi exponentielle pour tout seuil ct infrieur il 0.20, puisque ct = 0.20, la valeur critique est 0.447.
.,
121l
i= 1
fiJ2 2: [2i 2n 1 - -- T
JI
F(x)
=x :
+ 10 ( 5
1] 0)2 ( 7 200 + 10
IlOl~
'1
1 60
135)2 200
(~ _
19
nOl~ = 0.05192
= 0.95;
P(I1Ol~
D'aprs la table A.13, on peut accepter Ho pour tout seuil a infrieur 0.85 :
P(nOl;'
< 0.447)
< 0.056)
= 0.15
14.6.3.2
Pendant 100 intervalles de 10 min on a compt le nombre X d'ouvriers se prsentant un magasin pour emprunter des outils, ce qui donne le tableau 14.6 (Kaufmann et Faure, Initiation cl la recherche oprationnelle, Dunod).
368
On veut vrifier le caractre poissonnien de la loi de X : On utilisera ici un test du X2, car la distribution est discrte (rappelons que les tests de Kolmogorov et de Cramer-Von Mises ne s'appliquent que pour des distributions continues).
TABLEAU
14.6
(11 j
-
Xi
llj
100pi
100Pi)!
100pj
5 6 7 8 9 ID
Il
0 018) 0.33
i)5
3 5 6 9 10 1J 12 8 9 7 5
4
12
13
14 15 16 17 18 19 20 21 22 23 24 25
~25
0.74 5.22 1.45 2.52 3.93 5.58 7.26 8.72 9.73 10.12 9.87 9.07 7.86 6.46 5.04 3.75
0.009
0.220 0.060 0.219 0.009 0.007 0.077 0.460 0.126 0.165 0.045 0.000 0.017
2066) 1.80
[]6
0.255
d 2 = 1.59
On estime le paramtre ~ de la loi de Poisson suppose, par la moyenne empirique qui vaut 15.61. Pour calculer la valeur de D 2 on opre des regroupements aux extrmits pour les classes d'effectifs trop faibles, ce qui laisse 14 classes. Le paramtre ~ ayant t estim non pas sur les classes rsultantes mais sur les valeurs initiales de l'chantillon, la valeur critique pour D 1 est comprise entre celle d'un Xf! et celle d'un XI3' La valeur du d 2 calcul est bien en de de tout seuil de probabilit habituel pour un test: on peut accepter l'hypothse d'une distribution poissonnienne.
Remarque: un esprit souponneux trouverait peut tre cette valeur de dl trop faible, puisque d'aprs les tables il y a 995 chances sur 1 000 pour que XI:! soit suprieur 3. L'ajustement est-il trop beau pour tre vrai? Nous lasserons le lecteur juge ....
369
14.6.4
Tests de normalit
L'ajustement d'une distribution normale des donnes relles justifie un traitement particulier en raison de l'importance de la loi normale. Il est tout faiL dconseill d'utiliser le lest du khi-deux en raison de son manque de puissance et du caractre subjectif du dcoupage en classes. On peut utiliser les variantes des tests de Kolmogorov et Cramer-Von Mises indiques prcdemment, mais ces tests omnibus n'utilisent pas de proprites spcifiques de la loi de Gauss et sont moins puissants que les suivants qui sont d'ailleurs recommands par la norme AFNOR NF X-06-050. Le plus simple utiliser est le test conjoint d'asymtrie et d'aplatissement qui se prsente sous forme d'abaque (c}: annexe). Il suffit de vrifier si le point dont r abscisse est la valeur absolue du coefficient d'asymtrie (skewness) et l'ordonne le coefficient d'aplatissement (kurtosis) se situe l'intrieur, donc vers la gauche de la courbe correspondant la taille d'chantillon.
6.0
b2
5.5
5.0
4.5
4.0
3.5
3-D
2.5
2.0
FIGURE 14.8
370
!>laLlSIIQUI~C;
Pour l'exemple des 100 valeurs de la taxe d'habilation on trouve un coefficient d'asymtrie 0.34 et un coefticient d'aplatissement de 4.47 ce qui conduit rejeter l'hypothse de normalit. Le test le plus recommand est celui de Shapiro-Wilk bas sur la comparaison de
~\'1
X'I
Les coefficients de la combinaison dpendent de Il et sont donnes dans des tables, que la rgion critique. Les calculs sont programms dans la plupart des logiciels statistiques. Dans l'exemple prcdent les statistiques de Kolmogorov et de Cramer-Von Mises valent respectivement 0.105 et 0.195 et conduisent au rejet de l'hypothse de normalit. Rappelons pour conclure que d'une part ne pas rejeLer une hypothse ne prouve pas sa vracit et que plusieurs distributions peuvent s'ajuster aux mmes donnes, et d'autre part que lorsque que la taille de l'chantillon augmente il devient de plus en plus difficile d'accepter un modle standard de distribution: en effet les lois de probabilit d'usage courant sont des modles simplificateurs peu de paramtres et ne peuvent pas toujours rendre compte de la complexit d'un grand ensemble de donnes.
14.7
Au terme de ce long chapitre il convient de faire les remarques suivantes. Les tests sont un outil essentiel du processus de dcision en faveur ou en dfaveur d'une hypothse scientifique. Cela a pu conduire des excs : un rsultat ne pouvait tre publi dans certaines revues que si un test l'avait dclar statistiquement significatif au risque 5 %. Un point essentiel concerne la taille des chantillons: l'infrence statistique classique a t dveloppe pour traiter des petits}) chantillons de l'ordre de quelques dizaines ou centaines d'observations au plus. En prsence de trs grandes bases de donnes le paradoxe est que tout devient significatif: par exemple, pour un million d'individus, l'hypothse d'indpendance entre deux variables sera rejete au risque 5 % si le coefficient de corrlation linaire est suprieur en valeur absolue 0.002, ce qui est sans intrt pratique. On peut considrer que l'hypothse nulle a t mal choisie, mais le problme persiste: l'hypothse nulle devant tre fixe avant la collecte, ou en tous cas avant l'analyse des donnes, on aboutira son rejet ds qu'elle est trop prcise car tout cart mme minime devient significatif. Le problme se pose dans les mmes termes pour les tests d'ajustement des modles: si les donnes sont des donnes relles et non simules, on aura tendance rejeter le modle. Il ne faut pas s'en tonner puisqu'un modle est une simp1ii1cation de la ralit: comment imaginer que l'on puisse reprsenter des m11ions d'observations avec seulement 2 ou 3 paramtres ? Ce n'est pas d'ailleurs pour cela qu'il faut ncessairement abandonner le modle, qui peut avoir d'autres vertus ... L'analyse des grandes bases de donnes amne ainsi repenser la notion de test et conduit des recherches nouvelles sur la validation (voir chapitre 19). Un autre problme se pose quand on effectue un trs grand nombre de tests sur les mmes donnes, par exemple en gntique pour savoir si certains caractres sont prsents. Il d'un cas semblable aux comparaisons multiples (voir paragraphe 14.5.1.4) mais de ampleur. Le risque de rejeter tort une des hypothses nulles crot rapidement avec le nombre de tests. Il faut alors recourir la thorie du contrle du taux de fausses dcouvertes (Benjamini et Hochberg, 1995).
bootstrap)
Dans de nombreux cas, il n'est pas possible d'obtenir des expressions exactes pour les distributions de statistiques de test ou cl' estimateurs, car les calculs sont trop complexes. Les mthodes de simulation el de rchantillonnage qui ont pu se dvelopper avec les progrs de l'informatique pelTI1ettent de substiruer une tude thorique impossible, une dmarche exprimentale o les lois exactes sont approches par des rpartitions empiriques. La simulation alatoire (dite de Monte-Carlo par rfrence aux jeux de hasard) consiste reproduire avec un ordinateur de nombreux chantillons issus de lois connues et effectuer pour chacun de ces chantllons les calculs ncessaires, qui sont ensute synthtiss.
15.1
la base des mthodes de Monte-Carlo se trouve la ncessit de simuler des chantillons artificiels de variables alatoires. Toutes les mthodes reposent sur la gnration de variables uniformes.
15.1.1
Bien qu'il existe des procds physiques de ralisation de variables unifolTI1es (roue de loterie par exemple) ils ne sont gure compatibles avec l'informatique et la ncessit de disposer trs rapidement de grands chantillons. On recourt donc des algorithmes de gnration de valeurs comprises entre 0 et 1 : un algorithme tant par nature dterministe, on parle alors de nombres pseudo-alatoires. Un bon algorithme doit pouvoir raliser des suites trs grandes de nombres qui ont en apparence toutes les proprits d'un Il-chantillon de variables indpendantes et identiquement distribues. Il est donc important de tester la qualit d'un gnrateur: on utilise pour cela des tests classiques d'ajustement et d'indpendance. Les mthodes les plus employes sont bases sur des suites rcurrentes (qui fournissent donc ncessairement des suites priodiques). La mthode multiplicative congru entieHe de Lehmer est la plus connue: ri + 1 ari modulo m, c'est--dire que ri 1 est le reste de ari divis par m. En pratique on prend possible.
111
372
DOclr"h.....s
On peut montrer que si Cl est de forme 8t 3 et si ro est un nombre entier positif' quelconque la priode de la suite engendre est 111/4. compris entre et 1 sont alors considrs comme pS(~ud.oallalloes. 1 c'est--dire comme un chantillon de la loi uniforme sur [0, 1]. Les nombres
_l_'-
111
Sur ordinateur on choisira gnralement III = 2f1 - 1 o p est le nombre de bits d'un machine (le premier bit est inutilisable car rserv au signe). De plus la division par 2p aise faire sur ordinateur car elle correspond une troncature. Un choix classique est
Cl
= 7 5 = 16807, ou
li
= 2 16
+3
= 65539 avec
III
= 231
15.1.2
/5.1.2.1
Mthodes gnrales de tirage d'un chantillon artificiel de n valeurs d'une variable alatoire X continue
Inversion de la fonctiolJ de rpartition
La mthode suivante s'applique lorsque F- 1 a une forme analytique simple. Soit F(x) la fonction de rpartition de X. La variable Y = P(X) est uniformment distribue sur [0, 1]. En effet: Donc si l'on tire 11 nombres au hasard uniformment rpartis entre 0 et l : rI_ r~, ... , rI! l'chantllon cherch (x" X2," ., x ll ) sera dtermin par Xi = p-l(ri) ; cette mthode est dite de l'anamorphose}) (fig. 15.1).
F(x)
x
FIGURE
15.1
15.1.2.2
CetLe mthode est applicable lorsque la densit de X est support born et reste finie. On supposera que 0 ::; X::5 1. Soit m un majorant de f(x). On tire un nombre U uniformment rparti entre 0 et 1 et ensuite un nombre V uniformment rparti entre 0 et m (fig. 15.2).
373
-------------------r---------------:
v
f(u}
FIGURE
15.2
Il
= x sinon on rejette
U et on recommence.
En effet la probabilit conditionnelle qu'une valeur U soit sachant que U = .\: vaut PCV <j(x)) = j(x)/m, la probabilit inconditionnelle est l/m (rapport de la surface sous la courbe de densit la surface du rectangle), donc d'aprs la formule de Bayes: f(x) dx
P(x
<
<
111
j(x) dx
Cette mthode est recommande pour simuler les lois bta de type re la loi bta de type II par la transformation Y = X/ 1 - X.
La mthode du rejet peut conduire dans certains cas rejeter un trop grand nombre de valeurs. U ne amlioration notable de la mthode du rejet consiste utiliser une autre fonction de densit g facilement simuJable, telle gue cg(x) 2: f(x). On alors un couple (y ; tt) de
Il
'1': unliorme, S)
li
cg Cv)
y est accepte
FIGURE
15.3
374
(Jack~knife,
bootstrap)
Si s est la surface comprise entre les deux courbes, on montre que le taux de valeurs acceptes l vaut-. s+l Lorsque la distribution simuler est trop complexe, ou que sa densit n'est connue qu' un facteur multiplicatif prs comme dans le cas de distributions (1 posteriori en statistique baysienne, on utilise actuellement des mthodes dtes MCMC (Monte-Carlo Markov Chalns) qui consistent simuler une chane de Markov qui converge vers la distribution simuler. Les MCMC dpassent le cadre de cet ouvrage et nous renvoyons le lecteur intress l'ouvrage de C. Roberl (2001).
15.1.3
15.1.3.1
Mthodes spcifiques
Variable de Bernoulli X de paramtre p
Si r < p, X I ; si r > p, X = o.
partir de la variable de Bernoulli on peut simuler une variable binomiale @(n ; p) en utilisant le fait qu'une binomiale est une somme de Il variables de Bernoulli indpendantes.
15.1.3.2
La fonction de rpartition d'une variable X suivant une loi "YI est F(x) = 1 - exp( -x). La mthode de l'anamorphose nous donne, si r est un nombre alatoire uniformment distribu 1 - exp( -x) soit x -ln(1 r). Comme 1 - r est aussi unifonnment entre 0 et 1 : r distribu sur ID, 1] il suftit pour simuler X de faire:
x
= -ln r
Une variable X suivant une loi "YI' est une somme de p variables "YI indpendantes, d'o la ln ri ln r2 ... - ln r" si p est entier soit: formule de simulation: x =
= -ln(nr;)
1=1
15.1.3.3
La mthode consiste simuler un processus de Poisson de cadence 1 sur une priode gale - puisque le nombre d'vnements survenant sur cette priode suit une loi de Poisson !?}l(-) (fig. 15.3).
"il
E2
FIGURE 15.4
Les intervalles successifs OEI ; EIE2' ... EIIEII+1 suivent indpendamment des lois "Y,. On engendre comme en 15.1.3.2 des variables 'YI et on ajoute leurs valeurs jusqu'
1S_Mthodes de Monte~Carlo
375
la ralisation ln ri
Il
Il
;=11
2:: -
<
II ri > exp( - .)
i=1
11
15.1.3.4
o
Variable de Laplace-Gauss
X~, ~ LG{Q; 1) . Ce thorme lant valable en particulier pour des variables uniforaI'J/l mes, la somme de Il variables unifom1es est donc approximativement une loi de Laplace-Gauss d'esprance n/2 et de variance 11/12 car la loi continue uniforme sur [O~ 1] a pour esprance l/2 et pour variance 1/12.
En pratique ce rsultat est acquis ds que
Il
= 12 d'o la mthode:
Pour obtenir une ralisation d'une variable LG{6 : 1) ajouter 12 nombres au hasard tirs entre 0 et 1. Soit
rI< 1'2' . , 1'12
x =
III
+ cr(.~ri
1=1
- 6)
Si U et V sont deux variables uniformes sur [0, 1] indpendantes, alors X et Y dfinies par:
X
y
X:!.
y 2 et 0
1.0, 2'iT]. L'algorithme de Box-Muller revient simuler l'angle e par 2'ITV et le rayon p par (-2 ln U)1/2 puisque xy2 suit une loi exponentielle (voir chapitre 4,
paragr. 4.3.1). D'o pour deux nombres alatoires ri et r::!, deux ralisations de la loi LGW ~ 1) indpendantes.
o
C'est une variante de la prcdente utilisant une technique de rejet qui vite le calcul des sinus et cosinus.
376
On engendre deux nombres alatoires r, et r2 puis LIt = 21'[ - 1 et Il'1 21"2 - 1 (UI et Il., sont unifonnment rpartis sur l'intervalle [-1 ; + 1]). On rejette lit et Il} si + ll~ > l de garder un couple uniformment rparti dans le cercle de rayon unit (fig. 15.5).
ur
FIGURE
1S.S
1] indpendante du
Ut ,VI . couple ( - , -= ou - et - sont 1 COSinUS et l SinUS de l' ang 1 a1" e e' e eat01re ppp p rparti entre 0 et 2'li ; d'o la formule:
V,)
U
2
e umiormement
'f,' '"
et La simulation d'un vecteur alatoire gaussien dont les composantes ne sont pas indpendantes peut s'effectuer en recourant une ACP : si l'on connat la matrice de variance covariance !, on en cherche les vecteurs propres qui vont fournir des combinaisons linaires gaussiennes et indpendantes que l'on simule aisment. On peut galement utiliser la transformation de Mahalanobis. 11 suffit ensuite de faire faire la transformation inverse (voir chapitre 4).
15.2 15.2.1
Soit Y une variable s'exprimant comme une fonction f(X I , Xl, ... Xp ) de variables de lois connues. Il sera en gnral difticile de trouver la loi (densit ou fonction de rpartition) de Y mme dans des cas simples. Si les Xi sont indpendantes, il est facile d'obtenir un chantillon artificiel de Y: il suffit de gnrer indpendamment une valeur de chaque variable, de calculer f et de recommencer. On peut ainsi rsoudre le problme du calcul d'incertitudes en physique ou chimie o J'on connat l'incertitude sur chaque variable sous la forme Llx qui
377
n'est en fait que deux fois l'cart-type de X si l'on se rfre la loi normale. L'incertitude
y sera estime par la moiti de l'cart-type de Y.
Exemple: y =
X~X2 o XI suit une loi normale N(3 ; 1), X'2 une loi triangulaire et X3 une
3
0,5
0,4 0.3 0,2
0,3
0,25
0,2 0,15 0,1
0,2
0,1 0
0,1 -2 0
2
Xj
0.05
2 x.2 3 4
6
X3
8 10 12
40
Moyenne:: 2,4915 Mdiane l,66n1 Variance 8,71593 cart-type = 2,95227 Minimum = -0,0406886 Maximum = 48,2368 tendue =48,2n5 Asymtrie = 5,79394 Aplatissement = 65,2381
30
20
10
7 Y
17
Avec 1000 ralisations, les rsultats sont suffisamment prcis: Intervalle de confiance 95, 0 % pour la moyenne: [2,30852 lntervalle de confiance 95, 0 % pour l'cart-type: [2,82831
2,67448] 3,08768]_
15.2.2
o et
Toute intgrale peut se ramener par un changement de variable une intgrale entre l. Or 1 =
(1 g(1) dt est l'esprance de g( U) o U est une variable uniforme sur [0, Il. Jo
378
15/111111Mthodes de
Monte~Carlo
2: g(Ui) moyenne
1
Il
11
E()
1 et
V() =
~ V(g(U 11
1 ==
= d-IJ[g(U) - g(v)J:! du dv
L.11
li
o p(t) est la densit d'une variable T dfinie sur [0, 1] : un choix judicieux de p(t) appele fonction d'importance permet de diminuer considrablement la variance de l'estimation. En effell = E - - d'ou:
[9CT)].
peT)
o les points li ne sont plus choisis uniformment entre 0 et 1 mais selon la loi de densit p. On a alors:
V() =
~ II[(g(1)) - (g(1I)]2 dt du
2n
p(t) peu)
La variance est alors nulle si p est proportionnel 9 (ce qui suppose 1 connu ... ). En pratique on prendra une fonction d'importance dont l'allure est voisine de celle de g. Ce type de calcul est surtout utile pour l'valuation numrique d'intgrales multiples.
1S.2.3
La simulation permet galement de trouver la distribution approche de statistiques complexes, et mme de statistiques simples quand la population a une distribution peu maniable.
Il suffit de rpter N fois la simulation d'un Il-chantillon de X pour obtenir N valeurs de la statistique d'intrt T: si N est assez grand, on aura une bonne prcision.
_ Exemple: Si U est une variable alatoire uniforme sur [0: 9] le milieu de l'tendue d'un Il-chantillon est un estimateur de fJ /2 que l'on notera T. Quelle est la distribution et la variance de T pour 12 = 5 ?
En prenant 11 = 1, on simule N = 1000 chantillons de 5 valeurs d'une loi uniforme, on calcule chaque fois T, d'o sa distribution empirique. Une simulation donne 1 = 0,5003752
s = 0, 1106459
1S_Mthodes de
Monte~Carlo
379
0,10
0,25
0,40 Tl
0,55
0,70
0,85
Remarque: ce n'est pas l'estimateur sans biais de variance minimale qui est
Il + ] - - sup(X1;"'; XIl) et dont 1 d'lstn'b' est lSUlvante : a utlOn a ' 21l
15.2.4
Il est frquent d'avoir des valeurs manquantes dans des tableaux de donnes (donnes omises, refus de rponse, erreurs etc.), Avant de savoir comment traiter le problme, il faut s'interroger sur le mcanisme qui a produit une valeur manquante pour une variable Y Pour simplifier, nous nous placerons dans le cas o une seule variable numrique prsente une valeur manquante, Le mcanisme est dit non-ignorable ) si la probabilit que Y soit manquant dpend de la vraie valeur de Y (exemple: la probabi1it de ne pus donner son revenu est d'autant plus grande que le revenu est lev), Des modles spcifiques sont alors ncessaires pour prendre en compte ce mcanisme,
380
Dans le cas contraire on dira que la donne est manquante alatoirement (<< missing at
15.3
MTHODES DE RCHANTllLONNAGE
Les mthodes de simulation exposes prcdemment permettent d'obtenir des distributions d'chantillonnage d'estimateurs dans le cas classique o l'on dispose d'un modle paramtrique J(x ; 6). En l'absence de modle raliste, ce qui est souvent le cas en pratique. comment simuler? En d'autres termes comment tirer des ralisations d'une distribmion inconnue? Ce problme paradoxal se rsout en Lrant dans une distribution proche de la distribution inconnue et la meilleure en l'absence d'information, n'est autre que la distribution empirique. C'est Je principe des mthodes de rchantillonnage o on va tirer au hasard des observations dans l'chantillon dont on dispose. Dans le bootstrap on effectue des tirages avec remise, alors que le jack-knife procde par tirages sans remise.
15.3.1
Le bootstrap
Soit une variable X de loi F inconnue; on dispose d'un chantillon (Xh X2 .. , x,J et on veut tudier par exemple la distribution d'un estimateur T d'un certain paramtre e, calculer su variance, en donner un intervalle de confiance.
381
L'ide de cette mthode due B. Efron repose sur le principe lmentaire suivant: Si Il est grand F,~' est proche de F, on aura donc une bonne approximation de la loi de T en utilisant F,~t: la place de F. On est donc amen tirer des chantillons de n valeurs dans la loi F,t ce qui revient rchantillonner dans l'chantillon x" X:h . XII ; autrement dit effectuer des tirages avec remise de 11 valeurs parmi les n valeurs observes: les valeurs observes Xl' X2' . , XII sont donc rptes selon les ralisations d'un vecteur multinomia1 KI' K 2 , KI! d'effectif Il et de probabilits Pi gales l/n.
'!
Lorsque 11 n'est pas trs lev on peut numrer tous les chantillons possibles quiprobables (il yen a 11/1) sinon on se contente d'en tirer un nombre B suffisament grand l'aide d'une technique de tirage dans une population finie. Si le nombre de rplications B tend vers l'intini, la moyenne de toutes les estimations bootstrap converge vers l'estimateur du maximum de vraisemblance empirique (c'est-a-dire utilisant la loi Fin et permet ainsi d'estimer sa variance. En pratique on se contentera de quelques celHaines de tirages au plus. Le calcul d'intervalles de contiance peut se faire par : - La mthode des percentiles qui consiste simplement reprer les quantiles souhaits dans la distribution des B valeurs. C'est la mthode la plus simple. L'approximation normale: on calcule la moyenne et l'cart-type des B ralisations et on utilise un intervalle 1,96 cart-types. 11 faut bien sur vrifier la normalit approximative de la distribution des B valeurs. - D'autres mthodes plus complexes ncessitant une estimation de la variance pour chaque chantillon rpliqu (voir Davison & Hinkley, 1997).
_ Exemple : bien que ce ne soit pas un chantlIon alatoire, reprenons les donnes du chapitre 5 sur les valeurs du taux de taxe d'habitation de tOO communes franaises. On souImite obtenir un intervalle de confiance pour la mdiane qui vaut 17,625 et on effectue pour cela 1000 retirages.
On trouve la distribution suivante:
40
~
30
Moyenne 17,7872 Mdiane 17.625 cart-type:: 0.630658 Minimum 15.87 Maximum = 19.39
~ 20
co
u
Cl
& 10
17 18 19 20
:;
mdianes
382
151111111Mthodes de
Monte~Carlo
Le bootstrap est donc une mthode trs gnrale qui permet de rpondre des problmes jusque l quasi impossibles rsoudre comme l'tude de la variabilit de rsultats d'analyses factorielles (valeurs propres, vecteurs propres etc.) ou l'estimation de variance dans des sondages complexes. Il faut cependant tre conscient que si la taille 11 de r chantillon de dpart est faible, il y aura en gnral sous-estimation de la variabilit: les intervalles de confiance auront tendance tre trop petits (couverture insuffisante). En effet le rchantillonnage ne permet pas par dfinition d'engendrer des valeurs autres que celles dj observes, ce qui peut tre gnant pour des variables numriques, mais l'est moins pour des variables quaHtatives o en gnral, toutes les modalits sont observes, au mOns marginalement. Cela tant, le bootstrap est une mthode d'tude de la variabilit intrinsque un chantillon.
15.3.2
Le Jack-knife
Cette technique a t propose par Quenouille pour diminuer le biais d'un estimateur et reprise par Tukey ~ elle est moins performante que le bootstrap.
15.3.2.1
Dfinition
11.
On nOle T-i l'estimateur calcul sur le (11 - 1) chantillon obtenu en enlevant l'observation i et on appelle pseudo-valeur Tt :
TJ
2:: Tt 11 i= 1
II
1
ce qui donne 7j = T - (n - 1)
2:: (7j -
1/
T).
11 i= 1
15.3.2.2
Rduction du biais
+ -, alors E(TJ)
n
E(T) - (n
6.
-
E(TJ )
= 6
+~
11
1)(E(T_ i )
E(T
(n -
1)[6
11 -
+ -('-'8
n-l
6-
~]
11
1 =6+--a+--a
a
11 11
383
titre d'exercice on peut vrifier que la mthode du Jackkll~re applique la variance S2 donne l'estimateur S*1, et que app1que x on retrouve X. Le calcul du Jackkn(fe est surtout utile pour des statistiques biaises dont le biais est trs difficile calculer (coefficient de corrlation par exemple).
15.3.2.3
Intervalle de confiance
SJ
qui permettrait d'obtenir des intervalles de confiance indpendamment de toute hypothse sur la loi de X et en se servant uniquement de l' infonnation apporte par les donnes. Cependant cette conjecture est manifestement fausse dans certains cas: la mdiane en pnrticulier car les T_ i ne peuvent prendre que deux valeurs diffrentes (si Il est pair). Il vaut mieux prendre comme degr de libert ie nombre de pseudo-valeurs rellement distinctes diminu d'une unit, ce qui condut des rsultats souvent acceptables.
La rgression simple
Considrons un couple de variables alatoires numriques (X, Y). Si X et Y ne sont pas indpendantes, la connaissance de la valeur prise par X change notre incertitude concernant la ralisation de l' : elle la diminue en gnral, car la distribution conditionnelle de Y, sachant que X = x, a une variance qui est en moyenne infrieure la variance de Y: EIV(YIX)] :::; Vey) d'aprs le thorme de la variance totale (il est toutefois possible que VeylX = x) > Vey) pour certaines valeurs de X). Lorsque l'on peut admettre que le phnomne alatoire reprsent par X peut servir prdire celui reprsent par l' (causalit, concomitance, etc.), on est conduit rechercher une formule de prvision de Y par X du type Y= f(X), sans biais E[Y Y] = 0, ainsi qu' valuer l'ordre de grandeur de l'erreur de prvision que r on mesure par la variance de E y Y. On cherchera bien sr minimiser cette variance. Nous tudierons le cas thorique en recherchant la formule de prvision idale (au sens des moindres carrs), plus spcialement si cette formule est linaire avec un cart-type conditionnel constant cr(EIX = x) = cr (homoscdastict), puis le cas usuel o les variables ne sont connues qu' travers les valeurs d'un chantillon.
X sera dit variable explicative ou prdicteur; y sera dit variable explique ou critre.
Certaines proprits seront seulement nonces, le lecteur tant renvoy aux dmonstrations faites dans le chapitre sur la rgression multiple.
16.1 16.1.1
tant donn deux variables alatoires Y et X, la recherche d'une fonction f telle que !(X) soit aussi proche que possible de Yen moyenne quadratique a dj t aborde au chapitre 3, paragraphe 3.3.2. On sait quef(X) = E(YIX) ralise le minimum de E[(Y - !(X)fl car E(YIX) est ta projection orthogonale de Y sur l'espace L~ des variables du typef(X) (fig. 16.1). espace contenant L\ droite des constantes.
388
16.La rgression
FIGURE
16.1
V(E(yjX))
Vey)
= cos-a
.,
La fonction qui, une valeur x de X, associe E(YjX = x) s'appelle fonction de rgresSIon de Yen X, son graphe est la courbe de rgression de Yen X. On peut alors poser Y = E(YjX)
E
= E(E(YjX).
De plus, E est non corrl linairement avec X et avec E(Y j X), car E est orthogonal L~. La variance de
E
(1 - Tlr'/x) Vey) .
16.1.2
Ce cas, le plus important dans la pratique, est celui o E(YIX) CY + 13X. (Ceci se produit en particu1ier si X et Y suivent une loi normale deux dimensions). On a donc:
1
y =
QI.
f3X
+ El
QI.
f3X, il vient:
I3E(X)
y - E(Y)
I3(X - E(X)
+E
+
E[E(X E(X))]
I3E[(X - E(X))2]
389
= cov(X,
(Ty
V(X)
Y) (X
E(X)
d'o:
y = E(Y)
Comme E est non corrl avec X, on peut crire, en prenant la varance des deux membres:
Vey)
(Ty = p- -:; V(X) +
V(E)
cri
VeY) = p2V(y)
V(E)
Comme on a vu que V(E) = (1 - TlI'/x)V(Y), on retrouve le fait que si la rgression est , ",.linaire :
p- = 1ljx
.,
.,
Rappelons que dans ce cas, il est inutile de chercher une transformation de X, autre que linaire puisque E(YjX) est la mei11eure approximation possible de Y parf(X).
16.2
On dispose de 11 couples (Xi' Yi) ; i = 1, ... , Il constituant un n-chantillon d'observations indpendantes de (X, Y). On suppose vraie l'hypothse:
E(l'jX)
= Ct +
~X
E.
Le problme est donc d'estimer Ct, J3 ainsi que la variance cr:! du rsidu
La mthode qui va tre dveloppe s'applique encore si la variable X n'est pas alatoire, mais contrle par l'exprimentateur (c'est le cas par exemple quand on mesure Y diffrence de potentiel aux bornes d'une rsistance pour diffrentes valeurs de l'intensit du courant: l'intensit n'est pas alatoire, mais Y l'est, par suite des erreurs de mesure entre au Ires ). ou impose par 1a nature des choses (l'est une grandeur mesure diffrentes dates, x" ... , XI! ; X est donc le temps). Il suffit alors de supposer que pour chaque observation, on a Yi = Ct + ~Xi + Ei o les Ei sont des ralisations indpendantes d'une variable E d'esprance nulle et de variance constante cr:!, quel que soit Xi' On parle alors de modle linaire plutt que de rgression linaire. C'est parce que les proprits de la mthode des moindres carrs ne dpendent que des lois conditionnelles X fix que l'on peut traiter indiffremment la rgression linaire et le modle linaire par les mmes techniques. On prendra garde cependant de ne parler de corrlation entre Y et X que lorsque X est alatoire. De nombreux modles non linaires se ramnent facilement au modle linaire par des transformations simples.
390
16 _ La rgression simple
Ainsi le modle y = ax':', trs utilis en conomtrie (lasticit constante de )' par rapport il x ; 13 coefficient d'lasticit), devient un modle linaire en passant aux logarithmes: y' = ln y, x' = ln x et alors l = ln 0'. + I3x'. Il en va de mme pour le cas du modle croissance exponentielle: y = suffit de poser y' = ln y pour avoir y' = ln Cl + 13x.
Cl
exp({jx) ; il
Le modle logistique souvent pos pour rendre compte des variations d'un taux de rponse y exp(O'. + I3x) . , . (compris entre 0 et 1) en fonction d'une excitation x : y = 1 + exp(O'. + f3x) se Imeanse en posant y'
= ln 1 _
Y On a alors y'
= 0'. + f3x.
Cependant le modle y = 0'. + exp(l3x) n'est pas linarisable, tandis que le modle y = Cl + f3x + '"Yx"2 est linaire, mais est deux variables explicatives si on pose x 2 = Z et y = a + 13x + 'YZ (voir rgression multiple).
16~2. 1
La mthode des moindres carrs due il Gauss reprend sur l'chantillon la proprit que E(Y/X) = 0'. + !3X est la meilleure approximation de Y par X en moyenne quadratique. On cherche donc il ajuster au nuage des points (Xi' Yi) une droite d'quation y* = li + bx de telle sorte que
fi
x
FIGURE 16.2
On tudie ensuite les proprits de li et b en tant qu'estimations de l'estimation cr:! de cr:! que l'on en dduit. La mthode lmentaire de dtermination de a et b est la suivante:
0'.
et f3 ainsi que
2:(Yi - y?'f =
fi
2:(y; -
il -
bXif-
= F(CI,b)
391
oF
aa
iJF ab
~ (Yi
Il
= 0 :::}
=0
y = a
+ b"i
LXi(Yi i=l
11
il -
!JXi)
= ;"..;=...::1_ _ _ _ _ _
~ (Yi - Y)(Xi - x)
r'5:
Sx
d'oll:
y* =
y + r -'- (x
SI'
x)
Sx
La droite des moindres carrs passe donc par le centre de gravit du nuage et sa pente est cr l'analogue empirique de la pente de la droite de rgression p....2:. cr., Puisque les Yi et, dans le cas de la rgression, les Xi, sont des ralisations de variables alatoires, il ne faut pas perdre de vue que x, )i, T, sx' Sy' a, b, sont des ralisations de variables alatoires.
THORME 1
(,
f3 et de E(YjX = x)
+ I3x.
L (Xi
B
i=l
Il
Il
X)(ij - Y)
2: (X,. ;=1
X)2
Pour montrer que E(B) = 13, nous a1lons montrer en fait que E(x')(B) :::::; 13 o Elr,}(B) dsigne l'esprance conditionnelle de B connaissant les valeurs Xi = Xi des variables Xi' Comme l'esprance de l'esprance conditionnelle est l'esprance de B on aura E(B) = 13 afortiori :
~(Xj
1=1
11
x)E(x')(Yi
Y)
Or E("')(Yi )
392
Il
L(x; - X)2
Donc:
Elx')(B)
= A _i=_1_ __ IJ
Il
2:(Xi - x)2
i=1
on a donc: Comme a
d'ou
y-
bi,
Cl
Ct
+ I3x - xl3
donc
1E(A) = Ctl
puisque E(YIX
= x)
Ct
+ I3x,
= a
On peut montrer de plus que B n'est pas corrl avec Y: on a tout d'abord la simplification suivante:
2:(Xj - X)Yi
b=_i_ _ _ _ __
2: (x;
car: La covariance conditionnelle de B et Y Xi fixs est donc:
=0
_
cav(B; Y)
= cov
(:?(Xi -
x)Y; _)
") ;
2: Cri i
j
=
;
") 2:(x;
i
cov(Y; : Y)
x)-
2:(x; - x)-
~ L1)) = 11
- , car Yi et
Il
1) sont indpendants si
"* j
; il vient:
Xi'
Cependant, le fait d'tre sans biais n'est qu'une qualit mineure pour des estimateurs. Le thorme suivant (pour une dmonstration, voir le chapitre sur la rgression mulliple) prouve la qualit des estimations obtenues, ceci sans rfrence aucune loi de probabilit.
393
THORME
(GAuss-MARKOV)
C
L(XI - x)2rr 2
En effet:
fjXj
+ E. Donc
V(Y;/X j
Y - BX on a V(A)
= \fOl
= .\) = + x2 V(B) Xi
V(E)
a-2.
fixs, d'o:
ej = Yi
Pour exprimer = V(E), il est naturel de penser utiliser la variance des rsidus Y c'est--dire la quantit que l'on a minimise : ~(Yi y;I'f.
t,
LeVi 82=
Yif~
est LIlle estimation sans biais de rr 2.
_i_ _ _ _
n-2
16.2.2
Soit
e,
)' .
y/ r cart rsiduel.
THORME
_ Dmonstration
Comme y;':
2;. ej
1
= Ji + b(x, -
x), on a 2;.ej =
1
~(Yi
r
y;I')
2;:(Yi 1
y) -
b2;(x j
1
x) donc
_
= 0, ce qui prouve que les ej ne sont pas des ralisations indpendantes d'une variable
alatoire.
394
1 La variance empirique des ei est donc gale Il
En effet:
16.2.3
Tous les rsultats tablis prcdemment supposaient uniquement E(YlX) Si on admet maintenant que
CI)
= Ct + f3X.
LG(Ct + fjx ; <T). b) B, A, Y* suivent, les Xi tixs, des lois de Laplace-Gauss car ils sont des combinaisons linaires de lois de Laplace-Gauss:
Y/X =
X E
c) A, B,
'1
Ct,
fj, <T2
2:CYi
l'
y;"f
(T-
.,
v/r 'al" . ') . ependante -".,-' est une re IsatlOn d''une vanabl e X~-2 10d' <T-
., ns-
de Y, de B et de A.
395
(8
Puisque - - - - - ' - - - - cr
(8 E
ce qui permet de donner des intervalles de confiance pour La relation prcdente s'exprime usuellement par:
(B -
13.
On trouve de mme:
(A - ex)
Quand p
0, on a
s.,.~ 1 -
~ ~1I
1 - R-
2 suit un T"-2
16.3
16.3.1
= O.
2:(Yi - y)2
= 2:(Yi
i
y;':f + 2:(yt
y)2
Donc:
396
On sait que:
Si l'hypothse Ho : seulement:
Puisque
13 = 0,
2: '., i
(y* - }if
(J
----~,- - - suit un
a-
Y;"f et ~(Y;" -
2:(Y/ - Yi
_i_ _ _ _
(n
2) suit un F( l ; Il
2)
si j3 = 0
~(yt - Yif
i
Le test du caractre significatif de la rgression est alors immdiat. Ce test est d'ailleurs identique celui du coefficient de corrlation linaire : Ho: P = 0 { Hl: P::f= 0 qui, lui, n'a de sens que si X et Y sont alatoires. En effet, le rapport prcdent n'est autre que l
Rl
(Il - 2) car:
16.3.2
Il s'agit de lester simultanment les deux coefilcients de rgression. Comme A et B ne sont pas indpendants, il serait incorrect de tester successivement cr puis 13.
397
Nous donnerons ici uniquement le rsultat qui est un cas particulier de celui obtenu en rgression multiple. Un tel test est souvent utile pour savoir si une droite des moindres cafrs diffre significativement de la premire bissectrice.
16.3.3
Ce test, qui semble fondamental, a pour but de savoir si l'hypothse E(YjX) = ct + (3X est fonde. Il devrait donc prcder toute tude de rgression linaire. En fait, ce test ncessite d'avoir des observations rptes de l' pour chaque valeur de X, ce qui est souvent difficlle sauf dans le cas d'une exprimentation o X est un facteur contrl. En effet, on cherche savor si la courbe des moyennes conditionnelles est une droite, en d'autres termes si les J'j, moyennes des llj observations de l' lorsque X = Xi' sont peu prs lies linairement aux Xj' Pour cela, on compare le coefficient de corrlation linaire ,2 au rapport de corrlation l
empirique:
el
p:!.
plOU
E(Y/X)
-
cv.
(1 - e 2)/11
F(k
2; Il
k)
o le est le nombre de valeurs distinctes de X. On rejettera Ho si le rapport est trop grand. Dans ces conditions, on pourra aussi tester les hypothses Ho: 1lf'lx = 0 contre HI : 1lT'/x 0 atin de savoir si une formule de rgression autre que linaire peut tre essaye.
En effet, si l1I'IX
e 2/k ')
1
k
e~)/Il -
= F(k -
1~
Il -
k).
16.3.4
Les proprits de la mthode des moindres carrs dpendent essentiellement du fait que le rsidu E a une variance constante quel que soi t x, et qu'il n' y a pas d' autocorrlation entre les diverses ralisations de E. Il convient donc toujours de s'assurer de la validit de ces deux hypothses, ce que l'on fait usuellement en tudiant de manire empirique (des tests rigoureux sont dlicats tablir) les valeurs des carts rsiduels el' e2' ... , e'l qui ne doivent pas laisser apparatre de tendan" ce quand on les confronte graphiquement aux Xi par exemple, ou de dpendance en tudiant la liaison ei' ei+l' Dans le cas contraire, les estimateurs b, Cl, ne sont plus de variance minimale (ils restent toutefois sans biais). On se reportera au chapitre suivant pour l'tude dtaille des rsidus.
398
Le test de Durbin-Watson
Ce test est couramment utilis en conomtrie pour s'assurer de la non corrlation des rsidus. On suppose ici que les observations sont ordonnes par le temps et on teste l'hypothse Ho: non corrlation des Ei contre HI : El processus auto-rgressif d'ordre 1 c'est--dire Ej = PEj-l + Lli avec p > 0 (le cas p < 0 est en gnral sans intrt). On prend pour statistique de test:
Il
d =
2: (ei /1
ei-If
;...1=...;2'--_ _ __
l:er
I=}
qui doit tre voisin de 2 si H() est vraie. On vrifie sans peine que 0 :s; ri $ 4. p peut tre estim par 1 de d ont t tabules (voir annexe table A.17).
= cr 2.t2
/III" Xl
11
Les estimateurs du maxmum de vraisemb1ance sont alors les estimateurs de variance minimale et on volt sans peine que le problme est quivalent une rgression usuelle sur des donnes transformes. En posant
yI =
Xi
x: =
- et E;
Xi
E ' = - on a i elfet : y! = en
Xi
13
Ei axi + - =
Xi
13
+ cv:; + E~
(~ ~ .\; ~). Xi
La constante du modle transfonn est la pente de la droite de rgression du modle originel et vice-venw, On obtiendra alors, bien sr, une analyse de variance de la rgression moins flatteuse mais des estimations plus prcises des coefficients de rgression.
16.4 16.4.1
Les donnes suivantes, communiques par M. Tenenhaus, professeur HEC, concernent un chantillon de 24 offres de vente d~appartements situs dans le 5c et le 6C arrondissements de Paris, en 1975.
399
TABLEAU
16.1
130 28
~
280 50 250 35 78 30
1
500
110
320 60 200 40 85
1
Prix
Surface
378 90 85 , 28
245 52 295 60
Prix
Surface
:
1
1
1
20
La forme du nuage de points autorise un ajustement linaire (fig. 16.3). On pose donc le modle Y ex + I3X + E et on supposera E E LG(O : cr).
FIGURE
16.3
Des calculs lmentaires conduisent aux 5 rsultats suivants, qui contiennent toute l'information utile:
x=
70,0833 m2
Sy
y=
309,333 103 F
r
.lx
= 44,6915 m2
= 182,9505 103 F
li
0,9733
et b de ex et
et b
= 3,9844.
Notons ici que les estimateurs des moindres carrs sont invariants par changement d'chelle des variables au sens suivant: Si y est multipli par une constante k (passage du franc l'euro par exemple), la pente b et l'ordonne l'origine a sont multiplies par la mme constante k.
400
Si X est multipli par une constante k (par exemple surface exprime en pieds carrs au lieu de m2)~ la pente est divise par k, l'ordonne l'origine ne change pas.
Dans tous les cas, le coefficient de corrlation ne change pas, pas plus que les statistiques de test. La variance rsidueJle s;lx s'obtient directement par la formule si/.r = (l soit:
S~/x = 1762,1816
,.2)S;,
d'o
srlx
d'o
= 41,98
On en dduit:
A')
(T-
= - - S'VI.I' 11 - 2 -
11
..,
1922,38
rr
= 43,84.
cr
L'hypothse de normalit de
' X~-2; 1 ta bl e a cr2 de la distribution de X 22 degrs de libert fournit les bornes 1) et 36,8 pour un intervalle de probabilit risques symtriques de niveau 0.95 (fig. 16.4).
.. " ') Ils"lx '1"' . d Iverses estlmatlons ; mnSI, pour cr-, ~ est une rea IsatlOn d' une vaflabl e
11
FIGURE
36.8
16.4
36.8 Il 1149,25 < cr:! < 3844,76 33,90 < cr < 62,01
soit avec 1 -
ct
= 0,95.
401
Le test de signification de la rgression peul tre effectu par l'analyse de variance prsente dans le tableau 16.2 :
TABLEAU
16.2
Degr de libert
1
23
22
803 301
761 009 La valeur f constate 1 922,4 = 396 est videmment trs signiticative. On pourrait aussi, ce qui est strictement quivalent, tester Ho : fl = 0 contre HI : 13 de libert : comparant b / h une variable de Student 22 = Il - 2
t=-=
0 en
b l!
199 '
ce qui excde tout seuil usuel. On peut donc accepter Ho. On aura remarqu que 19,9 = (396)1/:1,
Les deux tests prcdents sont aussi quivalents au test du coefficient de corrlation linaire Ho : p = 0 contre Hl: p =f:. O.
16.4.2
Supposons maintenant que l'on dsire prvoir l'aide du modle la valeur de Y pour une valeur non observe Xo de X. La prvision naturelle est y(~!' = li + bxo. Afin d'encadrer cette valeur, cherchons ce que l'on appelle un intervalle de prvision. On a vu que V(;!: est distribu selon une loi: LG (
- ' <)' )
2:(x/ -
If
On sait d'autre part que la loi de Y/X =.t() (en abrg Yo) est une 10 LG(a + I3xo; cr) par hypothse du modle de rgression linaire. Y() et y(;l: sont deux variables indpendantes, car Yo ne dpend que de la valeur future Xo tandis que Y(t ne dpend que des valeurs dj observes (xj, X1' ' , " XJI) si l'on suppose les ralisations de E indpendantes.
i + - + (xCl .
Il
2: (Xi - xf
- "r)1 ) et donc:
(xo - xf
2: (x; - If
402
En remplaant Xo par sa valeur et YI;!: par a + bx(), on peut donc obtenir un intervalle probable pour Y{). Cet intervalle sera d'autant plus grand que Xo sera loign de x. Ainsi, pour notre exemple, on trouve dans la table que P(I Til-li En prenant Xo
laD, on a y~:
= 428,53. = 43,84~1 +
0,06
+~+
11
(xo - x)2
2:(x, - if
+ 0,03 = 45,15
d'o:
1
l'intervalle de prvision 95 % est donc 334,89 malgr un coefficient de corrlation trs lev.
La variance de l'erreur de prvision dpend de deux termes: la variabilit intrinsque de la variable Yo qui est gale u l et la variabilit de l'imprcision des estimations de CL et !3 dans la formule de rgression qui dpend pour l'essentiel de la taille de l'chantillon et peut donc tre rduite contrairement la premire source de variabilit. La figure 16.5 montre la droite des moindres carrs encadre par les deux types de contour
800
600
x
d:
400
200
40
16.5
80
Surface
120
160
200
FIGURE
Les limites les plus troites correspondent l'intervalle de confiance de la valeur moyenne E(Y/X = x):
V'" -
..,. +
fu
~1
Il
+ -(x -- x)2- -
2: (x; - if
i
403
Les limites les plus loignes correspondent l'intervalle de prdiction pour une valeur unique:
y*
1 trr ~ 1 + _ +
Il
(. .\:
.t
_)2
2:(Xj - X)2
16.5
La mthode des moindres carrs est sensible la prsence de donnes aberrantes situes loin de la droite de rg:resslOn. Ainsi sur l'exemple suivant, on a y*
14,55
+ 0,59X avec r
0,978
i 1
2
3 4 5 6
20
40
60
BD
100
Si l'on modifie le dernier point en le remplaant par y = 97,191 L'quation devient y* = 38,41
100
80 60
40 20 0
14,482
0,29.
0
20 40
60
80
100
On peut remdier ce problme de deux faons : - en liminant les points aberrant~ ; - en utilisant un autre critre que les moindres carrs. La premire solution peut tre risque et n'a de valeur que s'il s'agit effectivement de donnes errones ou appartenant une autre population, ce qui n'est pas toujours simple dterminer.
404
La deuxime approche a l'avantage d'tre automatique et de fournir un modle robuste convenant la majorit des donnes, en perdant toutefois les proprits d'optimalit des estimateurs des moindres carrs, mais ces proprits ne sont valables que sous certaines conditions. De nombreuses techniques robustes ont t proposes; l'une des plus anciennes (elle a t propos en 1757, soit 50 ans avant la mthode des moindres carrs) est la rgression dite LI o on minimise la somme des valeurs absolues:
22IY;': ;=1
Il
li -
bXil
mais son utilisation a longtemps t nglige car contrairement aux moindres carrs, il n'existe pas de formule donnant les coefficients et leurs erreurs standard. Des algorithmes spcitiques sont ncessaires. Dans l'exemple prcdent cette mthode fournit l'quation y* = 19,66 + 0,51x et le graphique suivant montre que la solution LI (en pointill), avec la donne perturbe reste plus proche de la solution initiale (en gras) que celle des moindres carrs (en tiret large). Une particularit de la rgression LI est que la droite optimale passe toujours par deux des points de l'chantillon (ici les points 4 et 5) mais on ne peut savoir l'avance lesquels. On pourra consulter B irkes et Dodge (1993) pour de plus amples dveloppements.
100 80
...
60
40 20
rtII
0 0 20 40 60 80 100
16.6
Lorsque la forme de la courbe de rgression est compltement inconnue, on peut utiliser une estimation non paramtrique de la courbe f(x) = E(Ylx = x) d'une manire semblable l'estimation non-paramtrique de la densit ((f 13.9). En se donnant un intervalle [x - 1112 ; x + lz/2] centr sur x et de longueur h, le rgressogramme consiste compter le nombre de points appartenant l'intervalle et calculer la moyenne des y correspondants. De manire analogue l'estimateur de la fentre mobile, on peut crire cette estimation:
E (Ylx
= x) = ,--'
K[_Xlz - , -_Xi]V'
=....:....1---===------.::::::-
K[x - Xi]
lz
avec
K(u)
SI
- - ::; Il ::;-
i= 1
405
On obtient l'estimateur de Nadaraya-Watson en utilisant un noyau K continu, d'o une estimation continue de la fonclion de rgression. Son caractre plus ou moins lisse dpend de h que l'on peut optimiser au moyen d'une mthode de validation croise: on cherche la valeur h qui minimise la somme des carrs des carts en omettant chaque fois dans la formule de Nadaraya-Watson la valeur Xi quand on fait l'estimation en ce point. L'estmation non paramtrique de la rgression fournit seulement des valeurs point par point. Cela peut paratre gnant si l'on cherche un modle explicite, mais si l'on ne cherche pas extrapoler en dehors du domaine observ de la variable explicative. on a toujours une prvision. Sur des donnes de B. W. Silverman reliant l'acclration Y subie par le crne d'un motocycliste en fonction du temps X aprs l'impact, on voit clairement l'intrt de la mthode, car il n'y a pas de modle simple pour la courbe de rgression (calculs effectus avec XploRe
Estimateur de Nadaraya.Watson h
=2.8
50-
>-50 ~.
.....
.....
50
.>-
o
-50
"
-100 -
1 .' .. "."
-100
10
20
30
40
50
10
20
30
40
50
X
FIGURE
16.6
Ce chapitre gnralise le prcdent. L'accent y est mis sur les interprtations gomtriques. La complexit du sujet ne provient cependant pas tant de la difficult des calculs, mais plutt de la diversit des approches possbles que nous rsumerons ici par la distinction entre modle linaire et rgression multiple. L'apparente simplicit d'utilisation des programmes de calcul, qui servent aussi bien pour la rgression que pour le modle linaire, car les formules de rsolution sont en pratique les mmes, masque en ralit de profondes diffrences quant au modle utilis. La pratique de la rgression multiple est assez dlicate comme l'illustreront les paragraphes
17.3 et 17.4.
17.1 17.1.1
17. 1. 1.1
On a mesur sur Il individus p + 1 variables reprsentes par des vecteurs de Xl' X:!, .. " x p : y est la variable expliquer ou critre, les Xj les variables explicatives ou prdicteurs.
1Ft y,
Les varables explicatives seront gnralement supposes tre linairement indpendantes. ce qui ne veut pas dire qu'elles sont statistiquement indpendantes (en particulier, elles peuvent tre corrles). Il faut donc proscrire absolument la terminologie utilise dans certains ouvrages o y est dite variable dpendante et les Xi variables indpendantes. On cherche alors reconstruire y au moyen des X,i par une formule linaire. On pose y* = bol possible de y.
Si l'espace des variables lR"est muni comme d'habitude de la mtrique D, on que lIy - Y*IF~ soit minimal: c'est le critre des moindres carrs.
y* est alors la projection D-orthogonale de y sur le sous~espace W (de dimension (p en gnral) engendr par les variables 1, Xl' x 2' ... , XI' (fig. 17.1),
1)
408
FIGURE 17.1
Soit X la matrice
11
X=
(on exigera Il
>
p)
X'II'
D~orlhogonal
En posant b =
En particulier, si D
1
~ 1:
Il
= (X'X)-lX'y
et
17.1.1.2
Si l'on veut justifier autrement que par sa simplicit l'ajustement linaire de y par les on peut utiliser le modle probabiliste suivant:
On suppose que y, XI' x::!, ... , x p constituent un 11 chantillon d'observations indpendantes de p + 1 variables alatoires ~J, <PI' <Pl , <Pp'
409
On sait que la recherche de la meilleure approximation de donne par l'esprance conditionnelle E[ ~I / 'P l' 'P:!, ... , 'Pp]'
'Pj est
2: f3 'Pj
j j= 1
l'
f3()
nulle non corrle avec les 'Pj' On note estimer le mieux possible.
cr:! la variance de E. En rgle gnrale, les coefficients f3o, f3b ... , f3p et cr:! sont inconnus; il s'agit donc de les
E
Entre les ralisations Yi' Xii' . . . , x ip ' ei de lV, 'PI, ... , 'Pp' dduite de l'hypothse de rgression linaire multiple:
Yi
f3()
1'=1
2: f3j x ij + e
JI
Xp + el avec:
el
p = ~I
f3"
[~Ol
e2
e=
e"
Sous des hypothses assez gnrales, on montrera au paragraphe 17.2 que le vecteur b obtenu par la mthode des moindres carrs est la meilleure estimation du vecteur p et que l'on peut dduire simplement de Ily - y*ll:! la meilleure estimation sans biais de cr 2 qui sera:
rr-
~")
= Ily-Y*112
n-p-l
17.1.2
17.1.2.1
Supposons que pour chaque ligne de X on ait Il. reptitions indpendantes de }'. On a donc un nuage de k vecteurs YI' Yl, ... , Yk dans [RI! (fig. 17.2). On obtient ce genre de situations lorsque l'on fixe par exemple certaines valeurs des conditions exprimentales (temprature, pression, etc.) et qu'on mesure plusieurs
410
fois de suite un phnomne pour les mmes combinaisons de valeurs des conditions exprimentales. Le modle linaire consiste alors postuler que le centre de gravit du nuage des
XI3.
Le problme est alors le suivant: comment, l'aide d'une seule observation y, approximer le mieux possible g ? En effet, en ralit on ne connat la plupart du temps qu'un seul point du nuage. L'approximation g* de g obtenue grce y peut s'exprimer comme la projection orthogonale de y sur W, selon une certaine mtrique 1\11. 11 faut alors choisr cette mtrique M de telle sorte que g* soit le plus proche possible de g. Autrement dit, si l'on rptait l'opration de projection avec YI' Y2' ... ; Yk' les k approximations g'l', g~, ... ; g'};. devraient tre le plus concentres possible autour de g avec g')' = X(X'l\tIX)-1 X'MYi (fig. 17.3).
FIGURE
17.2
FIGURE
17.3
" faut trouver la mtrique M telle que l'inertie du nuage des la mtrique M rendant rinertie des
g;"
soit minimale.
Si V est la matrice de variance-covariance du nuage des Yi' on dmontre alors que minimale est la mtrique V-l .
gt
Ce rsultat constitue le thorme de Gauss-Markov gnralis{l). Comme gt est de la forme Xb i , ceci entrane alors que le nuage des hi est le moins dispers possible dans 1R1'+ 1, car la matrice de variance des b i est gale (X'X) fois cel1e des g1!. Avec une seule observation y, on dduit:
I_Pour une dmonstration complte on consultera l'ouvr-age de Cailliez et Pags, Introduction l'analyse des don-
411
17.1.2.2
Modle probabiliste
Ce modle n'est que la gnralisation du cas prcdent pour une infinit de rptitions. On suppose que y est une ralisation d'un vecteur alatoire d'esprance X~ et de matrice variance ~. Ceci revient poser le modle y X(3 + e o e est une ralisation d'un vecteur alatoire centr de matrice de variance ~. Le problme est alors d'estimer au mieux (3. Suivant la notation de C. R. Rao, nous noterons en abrg un tel modle par le triplet
(y ; X~ ; "k).
On montre alors que le vecteur b = (X'"k-1X)-IX'"k-1y est, sous des hypothses assez larges, l'estimation de variance minimale de (3 . b est appel estimation des moindres carrs gnraliss, par opposition (X'X)-IX'y estimation des moindres carrs ordinares (mco).
i 7. 1.3
Synthse
Dans les deux cas, rgression linaire et modle linaire, on a t amen poser le mme modle: y = X~ + e. Cependant, les hypothses sont diffrentes: dans le modle linaire X est un tableau de donnes certai nes, alors qu'en rgression X est alatoire. Le vecteur des rsidus e a une matrice variance quelconque "k dans le modle linaire, alors qu'en rgression le vecteur e a pour matrice variance cr::!I car l'hypothse d'chanti1lonnage suppose les observations indpendantes. Les objectifs sont galement diffrenls ; en rgression, on veut ajuster au mieux y ; dans le modle linaire, on cherche estimer l'effet moyen des variables explicatives. Si l'on considre dans le modle de rgression linaire multiple les variables explicatives comme des constantes, ce qui revient travailler conditionnellement aux <.pi' il est clair que ceci revent au mme que de poser le modle linaire (y ; X~ ; a 2I,J si tous les individus ont le mme poids. En fait, [a plupart des proprits de la rgression multiple s'obtiennent conditionnellement aux variables explicatives comme en rgression simple, ce qui nous autorisera ne plus parler que du modle (y ; X(3 ; cr:2I). Par ailleurs, l'utilisation complte du modle linaire suppose connue la matrice"k. Or, en pratique, on ignore ~ et, faute de mieux, on fait couramment l'hypothse simplificatrice que 2! est diagonale (non corrlation des erreurs) et que tous les termes sont gaux (homoscdasticit), c'est--dire que "k = cr::!I", quitte vrifier a posteriori sur les rsultats la validit de ces deux hypothses. Ceci explique la confusion entre modle linaire et rgression multiple; dans ce qui suit, nous ne ferons plus la distinction, car nous nous rfrerons dsonnais l'unique modle simpJificateur (y; X~ : a 2 ]), en supposant que les poids des observations Pi = 1/11 sont gaux entre eux. Remarquons pour finir que le terme de linaire s'applique en fait au vecteur ~ et non aux variables explicatives; ainsi, la rgression polynomiale li' = 130 + J3I'P + !3::!<.p2 + ... f3 p 'P P est un cas particulier du modle gnral o l'on prend p variables explicatives 'P, 4'2, ... , r.pp.
412
17.2
17.2.1
17.2.1.1
Estimation de
f3 et de
(12
Proprits gnrales
= (X'X)-IX'y.
L
E(y)
Il.
= Xil par hypothse du modle linaire gnral (E, donc e est d'esprance nulle). Donc: E(b) = (X'X)-l X'XIl = Il
THORME
L
-
1 (DE GAuss-MARKOV) b est de tous les estimateurs salls biais de Il de la Jonne Dy, celui de variance minimale dans le sens qui sera prcis plus loin
_ Dmonstration:
La matrice variance de b est en effet 1 V(b)
V(b)
= rr 2 (X'X)-1/ car:
et
Vey) = V(e) = rr21/1'
= VX'X)-IX'y) = (X'X)-IX'V(y)X(X'X)-l
Il sans biais.
Soit (X'X)-IX'y - By la diffrence de ces deux estimateurs. Comme ils sont sans biais on a (X'X)-tx'Xj3 = DXp. On a donc DX Comme BX
= 11'+/ car cette relation doit tre vrifie pour tout Il.
+ C.
IJ1+I'
Posons D = (X'X)-IX'
on en dduit: CX = O.
BV(y)B'
= [(X'X)-l X' + C] cr 2I/1[(X'X)-1 X' + Cl' = rr2 [(X'X)-1 XIX (X'X)-I + CX(X'X)-I + (X'X)-l X'C' + CC']
soit, puisque:
CX = 0
V(By)
On en dduit que pour chaque composante de b, b i est un estimateur meilleur que (BY)i et que d'autre part V(By) - V(b) est semi-dtinie positive. (En effet, les termes diagonaux de CC' sont;:::: 0). _
413
a - = -"------'''--
~,
Ily -y*W
lIy -
Xbll 2
n-p-
n-p-l
est
Ul/
_ Dmonstration: Considrons (voir fig. 17.4) le triangle rectangle dont les sommets sont les extrmits des vecteurs y, Xb et X(3.
FIGURE
17.4
Puisque y - Xb est orthogonal W, on voit aisment que y - Xb est gal (1 - A)e car e se dcompose sur Wet W..L en Xb - X~ et y - Xb respectivement. Donc y - Xb e/(1 - A)'(I A)e et comme 1 - A est un projecteur:
(1 - A)'
et on obtient alors :
1- A el (1
i,)
(1
A)2 A)e
j
Ily A).
XbU:~ =
L Cl.ijeie
o
Clij
Comme les ei sont non corrls E(eie) = cija:? o Donc E[lly - Xb112] = a
2: (Yii
i=l
Il
a trace (1 -
A).
On sait que la trace d'un projecteur est gale son rang (car ses valeurs propres sont 0 ou 1), c'est--dire la dimension de l'espace d'arrive qui est ici W.1, Comme dim W p + 1, on a dim W..L = Il P - l :
E[lly XbWJ = a 2 (n - p - 1)
414
17.2.1.2
LG(Q ; a) vi.
L(y, (3, a)
car
THORME
cr sont .'
=b
(X'X)-I X/y
et
- Il Y 11
La dmonstration est laisse au soin du lecteur. Conformment il ce qui a t dvelopp dans la partie consacre l'estimation nous allons rechercher des statstiques exhaustives pour les paramtres inconnus et atin d'tudier l'optimalit des estimateurs associs, carla proprit du maximum de vraisemblance ne nous renseigne pas sur l'efficacit des estimateurs.
L(y, (3, a) =
Soit a(3, (
2 )
(1
le vecteur ligne p
+ 2 composantes:
[G]
(a(ll, a-)T(y) + C(Il. cr-))
.., .,
On a:
L(y,
Il, cr) = _ ~
(cr-,,211'Yl
exp
Il ni de crl , et le rang de X
tant p + L
= [y/y]
X'y
h et cF qui sont fonction de T sont donc les estimateurs sans biais de variance minimale de ~ et cr:!.
415
17.2.1.3
XI3
(fig. 17.5)
FIGURE
17.5
Or y - Xb = (1 A)e et Xb - X~ = Ae. On il donc IIeU 2 = e'Ae + e'(I - A)e. e est un vecteur gaussien o les ej suivent indpendamment des lois LG(Q ~ cr). Donc:
.t..J eT
~
"l/"1
(J-
X~
")
Il
et ces deux variables sont indpendantes comme formes quadratiques de rang p P - 1 (rangs de projecteurs) de Il variables normales centres-rduites. On peut ainsi obtenir des intervalles de confiance pour cr,
+ 1 et
17.2.1.4
1) 2)
Le modle (y ; Xf3
; ~)
Par les mmes procds on peut montrer que: b = (X'~-IX)-lX'~-ly est l'estimateur de variance minimale de p parmi les estimateurs fonctions linaires de y (thorme de Gauss-Markov gnralis). Si l'hypothse de normalit est vrife, b est l'estimateur du maximum de vrasemblance et est de variance minimale.
416
17.2.2
17.2.2.1
R est le coeff1cient de corrlation entre la srie y" Yl, ... , )'1/ et la srie YI':, yi=, ... , y; En d'autres termes, c'est la valeur maximale du coefficient de corrlation linaire simple entre les coordonnes de y et les coordonnes de tout vecteur de la forme Xb (voir chapitre 6).'
Comme tout coefficient de corrlation linaire, son carr s'interprte en termes de variance explique: Variance explique par la rgression Variance des y Si R 2 L Yi
Gomtriquement R est le cosinus de 1'angle form par y - y et y* - y dans !R o y est le vecteur dont toutes les composantes sont gales y. Yest la projection de y sur la droite des constantes qui appartient W (fig. 17.6). Voir chapitre 6 ( 6.2).
FIGURE
17.6
Le coefticient R2 est uti1is pour tester la qualit de i' ajustement de y par y* (analyse de variance de la rgression). Il est facile d'crire la dcomposition classique:
- /,(v, 1l'1- 1
1"
-"l
)')-
::= -
Variance
totale
417
I.(y; - ytf
On sat que un suit
=
2:( v0-/
:1:
(130
Vp
131 = 132
... = 131' =
0, alors -= 2:(Yi
(J"-
131
f3:!
... =
131'
= () (mais
130
On retrouve comme cas particulier la loi du coefficient de corrlation usuel si p = 1. Le test du R2 est le mme que celui de la nullit de q coefticients de rgression lorsque q p (voir paragr. 17.2.2.3). L'hypothse de non-rgression 131 = 132 ... = 131' = 0 correspond la nullit de coefficient de corrlaLion multiple thorique rJi dans le cadre de la rgression entre variables alatoires. Sous cette hypothse nulle la 10 de rJi est celle cl' une variable bta de type l de paramtre p Il P- 1 p ')(n p - l}p - el on en dduit que E(R2) = - - et VeR:!) = -, . 2 2 Il - 1 (w - l)(Tl - 1) Si l'hypothse de non-rgression n'est pas satisfaite ({IR:! 0), la 10 de R"l ne prend pas une forme aussi simple et R2 est alors un estimateur biais de r!lt"l. On montre en effet que E(R2) =
{ft2
~(l Tl - 1
(n
Il
"-
ajust j?2 :
R-=-----:...
~,
1) R2 - P
P- 1
o le biais en lin est limin mais qui peut conduire des valeurs ngatives si PJ{! est voisin de O. cu '1" U n ca1 1 e ementalre montre que
(J"A .,
= -Il- ( 1
Il -
17.2.2.2
Il s'agit de tester
f3j = 0 contre
13.1
* O.
= 0'2 [(X'X)j~II
o
418
Comme
suit un t de Student Il
(3]
P - 1
.JJ
Le dnominateur de l'expression prcdente est appel erreur standard ou cart-type du coefficient de rgression et dsign par la lettre s}" (Il s'agit en fat de la racine carre de l'estimation sans biais de la variance de bj)' On prendra garde au fait que les statistiques de test des coefticients de rgression ne sont pas indpendantes car les hj ne sont pas indpendants. On peut par exemp1e trouver un R2 significatif sans qu'aucun coefficient de rgression pris isolment soit significativement diffrent de zro (c'est souvent le cas lorsque les prdicteurs sonL fortement corrls entre eux, voir exemple plus 10n).
17.2.2.3
Les deux tests prcdents ne sont en fait que des cas particuliers du test plus gnral sUvant qui permet, entre autres choses, de tester la nullit de q coefficients de rgression, crire 131 = f3H)' 132 = une matrice de rang q.
Le test de Ho : H(3 = 0 contre Hl : H(3 0 s'effectue alors de la manire suivante: on pose y* la solution des moindres carrs y* = X(X'X)-IX'y et y~j1a solution des moindres carrs sous la contrainte H(3 = 9 (on projette sur le sous-espace de HI vrifiant cette contrainte). On montre alors que si Ho est vraie:
"*
ce qui permet de tester Ho. Ce test a pour cas particulier le test simultan de tous les coefficients de rgression
Ho : (3 = 130 contre HI : (3
*-
130'
419
Comme
l,Il
P - 1)
En remplaant 13 par Po on peut donc tester l'hypothse nulle. On rejettera Ho si la quantit IIXllo - y*1I 2 11 1 .!!---=--::..---~---=--- est trop grande. lIy - Y*U:~ P + 1 Remarque: Ce dernier test suppose galement une valeur a priori pour 130- Ce n'est pas le test le plus couramment utilis (qui suppose 130 inconnu).
17.2.3
Cherchons encadrer la valeur prvue y:r pour un individu supplmentaire pour lequel les variables explicatives prennent les valeurs Xllh .t':!(), - .. , .t'l'O'
Posons:
xo =
alors y,i' = x;) b est une variable alatoire suivant une loi LG(x[)llo; cr~xMX'X)-'xo) d'aprs les rsultats usuels sur les combinaisons linaires de variables gaussiennes. Comme au chapitre prcdent, par studentisation, puisque cr doit tre estim, il vient:
17.3
Les principaux problmes abords ici concernent la stabilit des rsultats d'une rgression. On distinguera les questions relatives l'influence d'observations particulires et celles relatives l'intluence des variables sur les estimations (multico1narit). L'analyse des rsidus est galement un moyen de vrifier les hypothses de base du modle.
17.3.1
L'tude des rsidus Yi Yi" est fondamentale plus d'un titre: elle permet tout d'abord de reprer des observatons ventuellement aberrantes ou des observations qui jouent un rle
420
important dans la dtermination de la rgression. Ensuite l'tude des rsidus est bien la seule faon de vrifier empiriquement le bien-fond des hypothses du modle: lin homoscdasticit, etc. : les graphes des rsidus en fonction des variables explicatives doivent laisser apparatre aucune tendance. Il est facile d'obtenir la matrice de variance des rsidus puisque y = y - Xb y - Xb est orthogonal Xb d'o Vey) = Vey - Xb) + V(Xb) soit:
+ Xb
u 2II/ = Vey
d'o:
Xb)
+ u 2X(X'X)-IX'
ce qui rappelle que les rsidus sont en gnral corrls entre eux. En dsignant par hi le tmt! terme diagonal du projecteur X(X'X)-IX' on a : avec d'o l'estimation de la variance du rsidu:
2: It
/1
= P
j;
Yi -
y;"
rr~
Lorsque
12
Un fort rsidu peut indiquer une valeur aberrante. Cependant une valeur peut tre aberrante sans que son rsidu sot important (voir fig. 17.7).
FIGURE
17.7
Il faut alors tudier l'influence de chaque observation sur les rsultats. On peut tout d'abord tudier l'influence d'une observation sur sa propre prdiction. On appelle rsidu prdit l'cart Yi Y?:"'i) o )'1"-1) est la prvision obtenue avec l'chantillon de (11 - 1) observatjons excluant la i!rru.:.
421
On peut vrifier que Je rsidu prdit vaut )'i - Yi* ; il convient donc d'tre prudent avec 1 - hi des observations dont le hi serait grand. La quantit suivante note Press est une mesure du pouvoir prdictif du modle:
On peut enfin tudier l'influence d'une observation sur les estimatons hj des coefficients de rgression et calculer par exemple une distance entre b et b(_i) o b(-i) est l'estimation de ~ obtenue sans la il!lIle observation. La distance de Cook est r une des plus utilises :
(b - b<_i))'(X'X)(b - b(-i))
(p
+
1
1)a- 2
On montre que:
D=--r"--1 p + J 1 l - hi
hi
Ily* - y(l'-illl:!
(p
1)6 2
ou y~:'1)
= Xb(_i)'
Une distance Di suprieure l indique en gnral une intluence anormale (c}: CookWeisberg, 1982).
17.3.2
L'cart-type s) du coefficient hj est dj un indicateur du caractre plus ou moins stable de l'estimation d'un coefficient. Il est clair que si !Jj est du mme ordre de grandeur que !Jj , ce derner est mal dtermin. La source principale d'instabilit dans l'estimation de f3 est la muIticolinarit : on dsigne par cette expression la situation o les variables explicatives sont trs corrles entre elles. Comme V(b) (X'X)-I rr::!, si les prdicteurs sont trs corrls entre eux X'X est mal conditionne (dterminant proche de 0) et son inverse aura des temles levs. Dans ce cas les paramtres du modle seront estims avec imprcision et les prdictions pourront tre entachs d'erreurs considrables mme si R 2 a une valeur leve. Il esl donc important de mesurer l'effet de la colinarit entre les prdicteurs, cela s'effectue au moyen des facteurs d'intlation de la variance et des valeurs propres de la matrice de corrlation. Il sera commode pour la suite de supposer que toutes les variables sont centres et rduites sans (ce qui ne change pas le R2 ni les valeurs prvues) et que l'on effectue donc une constante: (X'X) est donc une matrice de taille p et b un vecteur p composantes. On a donc (X'X) = nR o R est la matrice de corrlation entre les prdicteurs.
422
17.3.2.1
On a donc:
de corrlation multiple de xl avec les p - 1 autres variables explicatives. Si les p varables explicatives taient orthogonales la rgression multiple reVlenOrallt:
fT:'
Le terme 1
tandis que 1
appel tolrance ). La moyenne des p facteurs d'inflation est utilise parfois indice global de multicoHnarit.
17.3.2.2
Posons R UAU' o A eslla matrce diagonale des valeurs propres et U la matrice des vecteurs propres de R. On a donc R- 1 On en dduit: On voit donc que V(bj ) dpend des inverses de valeurs propres de R : lorsqu'il y a forte colinarit entre les prdicteurs les dernires valeurs propres sont proches de zro d'o l'instabilit des bj"
UA-lU'.
17.4
SLECTION DE VARIABLES
Plutt que de chercher expliquer y par toutes les p variables exp1catives, on peut chercher seulement un ensemble de q variables parmi les p qui donne une reconstitution presque aussi satisfaisante de y. Les objectfs d'une telle dmarche sont multiples: conomiser le nombre de prdicteurs, obtenir des formules stables et d'un bon pouvoir prdictif en liminant des variables redondantes qui augmentent le facteur d'inflation de la variance, obtenir un modle plus facile interprter.
17.4.1
Ils dpendent bien sr des usages que l'on fait de lu : reconstitution des Yi' prvision de valeurs futures, ou estimation prcise des paramtres d'un modle. Le critre du est bien adapt au premier objectif et est celui qui est le plus utilis dans les programmes de rgression pas pas. Il n'est cependant pas l'abri des critiques: il varie de faon monotone avec le nombre des variables: il ne peut qu'augmemer si l'on rajoute un
423
prdicteur mme peu corrl avec y puisque la dimension de Waugmente. On ne peut donc l'utiliser pour choisir la taille d'un sous-ensemble de prdicteurs. Si l'objectif est de minimiser l'erreur de prvision le R 1 n'est pas adapt et on prferera des critres tels que le ou le Press.
a::>' ne varie pas de faon monotone avec le nombre de variables car'
- , rr- = Il
Jl-k-l
( 1 - R" -)s~
Par contre If2 varie de faon monotone avec le R2 ajust R'1. Il est donc plus intressant de prendre ifl que R1 comme critre de qualit, ce qui permet de comparer des formules de rQ:ression comprenant des nombres diffrents de variables et de choisir celle qui minimise &.2(ou maximise ?l). On peut galement utiliser les crHres, informationnels AIC et BIC, voir chapitre 19.
17.4.2
17.4.2.1
Lorsque p n'est pas trop grand on peut tudier toutes les formules possibles: il y a Cr~ formules k variables et donc 21' - 1 rgressions. A p fix on choisira celle qui fournit le R1 maximum, et si p n'est pas fix celle qui fournit le frl minimum, ou le minimum d'autres critres (voir chapitre 19, 19.4).
17.4.2.2
EUes sont utilises lorsque p est lev et qu'il n'est pas possible de procder une recherche exhaustive. Elles procdent par limination successive ou ajout successif de variables. La mthode descendante consiste liminer la variable la moins significative parmi les p : en gnral celle qui provoque la diminution la plus faible des R2 (elest celle qui a le t de Student le moins signiticatif). On recalcule alors la rgression et on recommence jusqu' limination de p - l variables ou en fonction d'un test d'arrt. La mthode ascendante procde en sens inverse: on part de la meilleure rgression une variable et on ajoute celle qui fait progresser le plus le Rl. La mthode dite stepwise est un perfectionnement de l'algorithme prcdent qui consiste effectuer en plus chaque pas des tests de signification du type Student ou F pour ne pas introduire une variable non significative et pour liminer ventuellement des variables dj introduites qui ne seraient plus informatives compte tenu de la dernire variable slectionne. L'algorithme s'arrte quand on ne peut plus ajouter ni retrancher de variables. Ces mthodes ne donnent pas forcment les meilleures rgressions k variables ni les mmes rsultats St l'on les emploie en concurrence, mais elles sont trs pratiques d'emploi, la mthode stepwise semblant la meilleure. Elles ne mettent cependant pas l'abri de r limination intempestive de variables rellement significatives, ce qui risque de biaiser les rsultats. Il faut ce propos rappeler que si l'on sait (par un modle
424
physique par exemple) qu"une variable doit figurer dans un modle, ce n'est pas qu'un test statistique la dclare non signiticative qu'il faut la rejeter (erreur de nplltv.,cio~."; espce).
17.5
TRAITEMENT DE LA MULTICOLINARIT
Lorsque les variables explicatives sont fortement corrles entre elles, les variances des coefficients de rgression deviennent trs leves: les estimations sont donc imprcises. En effet le dterminant de la matrice XIX est alors proche de 0, d'o des valeurs instables pour V(b) = (j2(X'X)-I. Ceci se produit entre autres si le nombre d'observations est faible devant le nombre de variables. Un cas extrme autrefois banni des manuels, est celui o le nombre de variables est suprieur au nombre d'observations: X'X n'est alors pas inversible. Les mthodes de slection de variables sont une des rponses possibles au problme de la 1l1ulticolinarit, mais elles peuvent conduire l'limination de variables significativement lies y. Il est alors difiicile de proposer l'utilisateur un modle qui ne tient pas compte de variables pourtant influentes et ne pennet pas de quantifier l'effet de leurs variatons sur la rponse y. Les trois mthodes que nous prsentons maintenant permettent de rsoudre ce problme et mme de traiter le cas o p > 11. Ceci se fait au prix de la perte de certaines proprits comme l'absence de biais des estmateurs et l'invariance par changement d'chelle: sur un plan technique on procdera une standardisation pralable des variables par centrage-rduction. D'aprs le thorme de Gauss-Markov, la mthode des moindres carrs fournit les estimateurs de variance minimale des f3j parmi les estimateurs sans biais. On ne pourra donc diminuer la variance des estimateurs qu'en utilisant des estimateurs biaiss. Comme l'erreur quadratique est gale la variance plus le carr du biais, il est possible dans certaines conditions d'obtenir des estmations plus prcises des coefficients avec un lger biais.
17.5.1
.
D'aprs la formule tablie au paragraphe 17.3.2.2 on diminuera V(bj ) en ne retenant que certmns termes de la somme des -}-. Ceci revient la pratique suivante: on remplace les p variables explicatives par leurs p composantes principales qui engendrent le mme espace W, et on effectue la rgression sur les composantes principales ce qui revient p rgressions simples:
Quand il y avec y*
fi /,-1
exacte colinarit p
2:
(Xje).
j=1
425
Si l'on ne retient que k composantes principales en liminant celles de faibles variances on aura une solution approche en projetant y sur un sous-espace de W.
Il suftit alors d'exprimer les cJ en fonction des variables initiales pour obtenir une fonnule de rgression.
On notera que les composantes principales de forte variance ne sont pas ncessairement
les plus explicatives et qu'il vaut mieux les ordonner en fonction de leurs corrlations avec y. Par ailleurs les composantes principales de variance proche de zro fournissent les relations
linaires approches existant entre les prdicteurs.
17.5.2
la rgression ridge
2: n l.k
k=
l'
En effet l'erreur quadratique est gale la variance augmente du carr du biais: dans certaines circonstances un lger bias peut tre plus que compens par une faible variance d' o une erreur quadratique infrieure la variance de l'estimateur sans biais de variance minimale. La dmonstration se fait aisment pour la rgression simple (Ll Birkes et Dodge 1993) : Considrons le modle Y
0:'.
r3x
et
r3 = "'5'
2:X i.V i
.::>. ..;...IX;
En annulant la drive par rapport c, on trouve que le mnimum est atteint pour d'o ----:- ce qui revient une ..':'nr""""c""r.n ridge avec une con-
(J2
426
videmment [3, cr et donc la valeur optimale de k. sont inconnus, mais le rsultat est Prouv il existe bien un estimateur rtrci d'erreur quadratique infrieure la variance de l'estllmatetii des moindres carrs . ., Rgression coefficients borns. Dans le cas de la rgression multiple, on l'estimateur ridge comme solution du problme suivant consistant trouver des cents de rgression borns : minlly
VUllCIII""',"',
-~'~UI- .. "".
XbW
sous
II b ll:!.$
il s'agit donc de rgulariser la solution pour viter des coefficents instables. Xb 11 2 + kil b 11 2) Le problme de minimisation sous contrainte est quivalent : min ( lIy avec un multiplicateur de Lagrange k. En annulant la drive par rapport h, on a : 2X'Xb - 2X'y + 2kb = 0 soit (X'X + kI)b = X'y d'o le rsultat. Rgression baysienne. Le point de vue baysien donne galement une justification clairante de la rgression ridge : On se donne une distribution a priori gaussienne sur ~ N(O ; '1,21) et on suppose que la loi des Y III est une gaussienne N(XIl ; cr::!I). Un calcul simple montre que la loi a posteriori de illY est une gaussienne dont la densit est telle que ( une constante prs) :
ln(f(ll/y =
La valeur la plus probable
~r
1 (y 2
x~)'(y
- XP)
cr::!
Cl
Cl
17.5.3
La rgression PLS
Propose par H. et S. Wold, tudie par M. Tenenhaus, la rgression PLS est proche de la rgression sur composantes principales en ce qu'elle effectue une projection sur des combinaisons linaires des prdicteurs non corrles entre elles, mais avec la diffrence essentielle que les composantes PLS sont optimises pour tre prdictives de Y, alors que les composantes principales ne font qu'extraire le maximum de variance des prdicteurs sans tenir compte de Y.
427
Le critre de dtermination des composantes PLS est le critre de Tucker, bas sur la covariance :
posons t i
WII Xl
avec
2: 'd
j""l
JI
Maxmiser la covariance aboutit un compromis entre maximiser la corrlation entre t l et y (rgression des moindres carrs ordinaires) et maximiser la variance de t I (ACP des prdicteurs) puisque:
et que V( y) est fix. La solution est lmentaire: les ll'Ij sont proportionnels aux covariances cov( y ; Xj) : les coefficients sont donc du mme signe que les corrlations simples entre y et les Xj ; il ne peul donc y avor de signes surprenants. La rgression PLS avec une composante s'crit alors sous la forme y = clt) + YI On obtent ensuite la deuxime composante PLS t 2 en itrant le procd : on effectue la rgression de YI sur les rsidus des rgressions des Xj avec t l puis on crit y = CI t l + C2 t ,:l + Y2 elc. Le nombre de composantes PLS est en gnral choisi par validation croise. On montre aisment que la premire composante PLS est toujours plus corrle avec Y que la premire composante principale: En effet soit
CI
cov(y ~ tl) = r(y; t 1)rr(t 1)rr(y) 2::: cov(y; CI) donc r{y ; tl)rr(t 1) 2::: r(y ; c1)a{cl) comme
CI
La proprit reste vraie pour plus d'une composante, c'est dire que la rgression PLS avec k composantes est toujours meilleure que la rgression sur les k premires composantes principales mais la dmonstration est difficile (De Jong, 1993). Un des grands avantages de la rgression PLS rside dans la simplicit de son algorithme qui ne ncessite ni inversion, n. diagonalisation de matrices, mais seulement une succession de rgressions simples, autrement dit des calculs de produits scalaires. On peut donc traiter de trs grands ensembles de donnes. L'exprience montre que la rgression PLS donne en pratique d'excellentes prvisions, mme dans le cas d'un petit nombre d'observations et d'un grand nombre de variables.
428
La rgression dite PLS2 est une alternative l'analyse canonique lorsque l'on cherche expliquer simultanment plusieurs rponses Y. Le critre de Tucker s'crit alors:
Il eSl facile de montrer que la premire composante PLS des X est vecteur propre de (voir chapitre 8)
17.6
UN EXEMPLE
On se propose d'tudier la relalion existant entre le prix et les variables suivantes : cylindre, puissance, longueur, largeur, poids et vitesse de pointe de 18 voilllfes figurant dans le tableau 17.1 :
TABLEAU
17.1
LAR 161 177 168 161 164 169 169 163 1.73 157 162 172 169 170 166 165 173 161 1105 1080 1160 1010 1320 815 1060 1]60 1370 1080 1129 1095 1120 955 165 160 154
0
OES 1 :2 3
4.
NOH .i\LFASUD-TI -13 5 0 AUDI-IOO-L SIJvlCA-13 07 -GLS CI'I'ROEN-GS-CLUB FIAT-132-1600GLS LANCIA-BETA-1300 PEUGEOT-504 RENAULT-16-TL RENAULT-30-TS TOYOTA-COROLLA ALFETTA-1.66 PRINCESS-1800-HL DATSUN-200L rrAUNUS-2 0 00 -GL
R.J.~'JCHO
CYL 1350 1588 1294 1585 1796 565 664 1166 1570 1798
PUIS 79 85
LON 393
VI'l'ESSE
FINITION
B
65
468
L12 4
TB
N 1-1
68
59 98 82 79 55 128 55 109 82 115
28250
34900 35480 32300 32000 47700 26540 L12 3 95 33990 43980 35010 39450 27900 32700 22100
5
6
TB B
B
7 8
9
424
452 399 428 445 469 438 431 440 IJ59 404
10
Il
12
13 14
15
16 17 18
TB
B TB
rv1
98 80 83 100 68
144
165 173
140
1'1
17.6.1
429
17.6.1.1
smn-lE DE CARRES
520591932.37 213563857.91 .28
CARRE MOYEN
86765322.06 19114896.17
F
il. 1169
PROB> F
0.0156
11
17
132 = ...
136
o.
0.7091 4406.2
et
0.5504
17.6.1.2
17.3
COEFFICIENT
T SI ECART-'I'YPE
HO
0
PROB>
1 TI
V.l\JUABLE
CONS'l'Jl.l'J'l'E CYIJINDREE
ESTIHE
COEFF.
D 'INFLJl..TION
VITESSE
42718.423 5.55
17t1.882
o
3.
11. .
On constate qu'au seuil 10 % aucun des coefficients n'est significativement diffrent de 0 et que certains sont ngatifs alors que les corrlations entre le prix et les prdicteurs pris isolment sont signitcatvement positifs. Ce phnomne est d la forte dpendance entre les prdicteurs (voir galement les valeurs du facteur d'inflation de la variance). Ci-aprs tableau 17.4 la matrice de corrlation entre les 7 variables:
TABLEAU
17.4
LAR
POIDS
0.78895 0.76529 0.86809 0.71687 1.00000 0.47760 0.75329
LON
O. 1. 00000
Vrl'ESSE
O.
PRIX
O. 858 0.79870 0.64376 0.54665 0.75329 0.58176 1.00000
0.70146
0.6L1136
1. 00000
0.8443
O.t1
430
17.6.' .3
17.5
E-TYPE PREDICT 2914.0 3572.5
2~186.0
PRIX PRIX
1
3
11
Es'rU:1E 9616.1 36259.7 31411. 26445. 37043.0 34972.8 33749.1 26580.0 44445.6 24650.2
LIlvIITE INP 95 % 17989.0 237 .4. 20276.0 15547.2 26241.5 23590.6 23147.9 15135.4. 31805.1 12868.0 26529.5 24163.4 32698.2 25382.3 24538.2 20828.8 25914.1 18952.0 DISTJi.l'llCE DE COOK 0.009 0.573 0.017 0.012 0.014 0.002 0.005 0.230 0.600 0.0116 0.204 O. 0.019 0.Q07 0.070 0.139 0.106 0.533
5 6 7 8 9 10 11 12 13 14 15 16 17 18
ALFASUD.l\UDI 100 SH1CA-13 CITROENFIAT-132 L.l'...NCIA-B PEUGEO'rRENfI.ULTRENAULTTOYOT.;-C fI.LFE'I'TAPRINCESS DATSUN-2 TAUNUS-2 HAl'JCHO 11Jl..ZDA-92 OPEL-REK LfI.DA-130
30570.0 9990.0 29600.0 28250.0 34900.0 35480.0 32300.0 32000.0 47700.0 26540.0
42395.0
33990.0 43980.0 35010.0 39450.0 27900.0 32700.0 22100.0
38270.5
34830. '14872.4. 36343.5 35638.1 32233.tl 37103.5 30389.8
3259.2 2160.8 2707.1 1945.4 2760.8 3683.5 3039.9 3006.8 2018.2 3343.6 2320.9 53.22726.5 2535.7 2755.1 RESIDU STUDENT. 0.2886 .4463 -0.49785 O. L1769 -.558071 0.1459 -.366544 1. 5783 1.3459 0.5925 1.2806 -.214564 -.310978 -.356029 1.0415 -1.2519 -1.222 -2.4108
4 t1350.4 38024.5 57086.0 36432.5 50011.5 45497.4 57046.6 47304.7 46737.9 43638.0 48292.9 41827.6
RESIDU 1
2
E-'I'YPE DU RESID 3305.1 2579.2 3637.9 3783.0 3840.0 3476.6 3953.5 3434.1 2418.0 3189.6 3220.8 3916.9 2869.7 3745.4 3660.1 3L.l.61. <1 3603.5 3438.7
3 4 5
6
7 8 9 11 12
13 14 15 16 '7 18
ALFASUDAUDI-I00 SI!-1CA-13 CITROENFlfI.T-132 LANCIA-B PEUGEOTREN.i\UL'rREN.i\ULTTOYOTA-C ALFETTAPRINCESS DATSUN-2 TAUNUS-2 RANCHO 1-1J.-.ZDA-92 OPEL-REK L"'_DA-130
953.8913 3730.3 -1811.1 1804.2 -2143 507.1657 -1449.1 5420.0 3254.4 1889.8 /1124.5 -840.42 -892.42 -1333.5 3811.9 -4333.4 -,1403.5 -8289.8
Pre,\'s :::::
0.4374 0.6574 0.3183 0.2629 0.2405 0.3775 0.1949 0.3926 0.6988 0.4760 0.4657 0.2098 0.5758 0.2774 0.3100 0.3829 0.3312 0.3910
et
~pre.\'s
Il
6380.21
431
Seul le vhicule nO 18 (le moins cher) prsente un rsidu studentis anormalement grand,
.. p + mais semble aVOir une mfluence normale ( le /zi moyen vaut 0.39 = -/-1-
1)
Pur contre, le vhicule na 9 (le plus puissant et le plus cher) semble contribuer fortement il la dtermination des paramtres.
17.6.2
Avec 6 prdicteurs, il y avait 63 modles possibles. Nous donnons ici les meilleurs modles il l, 2, 3, 4, 5, 6 variables (tableau J7 .6) :
TABLEAU
17.6
R:!
"
k
l
2
t10dle Puis Puis. Poids Cyl. Puis. Poids Cyl. Puis. Larg. Poids Cyl. Puis. Larg. Poids Vitesse
Complet
3 4 5
6
On constate que le meilleur modle au sens de est celui deux variables (Puissance et Poids) qui fournira les prvisions les plus prcises. Les meilleurs modles tant embots les diverses techniques de slection pas pas donnent ici les mmes rsultats et conduisent au mme choix. Nous reproduisons ci-dessous des sorties de la procdure SteplI'ise du logicel SAS.
SLENTRY et SLSTAY sont les seuils de signification des tests F d'admission et d'limination des variables.
La quantit Type II SS reprsente la perte de somme des carrs explique encourue en liminant la variable correspondante (tableau 17.7). Le tableau 17.8 montre une amlioration trs nette des prvisions en n'utilisant que deux variables au lieu de 6.
TABLEAU
17.7
STBP\>JISE REGRESSION PROCEDURE FOR DEPENDENT Vil.RIABLE PRIX NO'1'E: STEP 1 SLENTH.Y AND SLS'I'A y H.lWE EBEN SET VARIABLE PUIS ENTERED
E SQUARE OF
-0.30837792
NEll.N SQUARE
F
SUN OF SQUARES
tJROB
468334369.05604458 16613838.82635832
.19
.0001
16 17 B VALUE
TYPE I I SS
PROB
>F
INTERCEP'l'
12363.65292
PUIS
BOUNDS ON CONDI'I'ION N'UMBER STEP 2 VARIABLE POIDS ENTERED
257.58978819
1.
R SQUARE
OF
0.68662695
C(
-0 .15009700
SUM OF SQUARES
MEAN SQUARE
252045576.89550306 15337642. 514<1
PROB
>F
2 15 17
B V.ll,.LUE
16. <13
0.0002
TYPE II SS
PROB
INrrERCEPT
1775.60120140 172.96722456 16.45116100 2.413555, 9.654219 72.4199984G 10.77448763 8749217 874222 .70 2.33 0.0305 35756784.'7349615d
PUIS
POIDS BOUNDS ON CONDITION NUNBER
o .l 176
i
NO OTHER VARI.ll,.BLES MET THE 0.1500 SIGNIFICj\NCE LEVEr., FOR EN'l'RY IN'ro THE NOOEL.
TABLEAU 17.8
OBS
1
2
ACTUAL
30570.0 39990.0 29600.0 :28250.0 3<1900.0 35480.0 32300.0 32000.0 47700.0 26540.0
t12395.0
PREDICT VALUE
29752.5 34738.6 30811.1 27280.2 369 .9 33726.2 34523.4 27904. 45630.9 24696. 38067.3
350t12.3
~H204.
LONER 95 PEEDICT
20216.1 26136.2 21981. 3 18325.9 28171.0 25139.5 25565.3 18637.2 36023.3 15275.0 8559.2 26191.4 3'1599.8 27676.7 25431.9 25549.9 28742.6 20470.3
UPPER 95 %
PREDICT
39289.0
<133 L11. 396l10.9 3623 l1.6
RESIDUAL
817.4780 5251.4 -1211..1 969.752
-200Ll.9
S'rUDEN'r RESIDU.i\L
O. 50,1 .3845 .329448 0.2687 .538066 O.461l1 .6163 1.1937
O.6 L 129
COOK' D
0.009 .042 0.005 0.004 0.010 0.0011 0.023 0.1411
O.
5
6
45638.9 42312.
43 1Bl.4
L
7 9 10 11 12
13
37171.7 55238.5 34118. 47575. 43893.1 53810.0 4 10.5 <129'10. 4274 .9 46252.6 38026.
66
0.5524 .3183 -.287114 -.069854 -.4028 t15 1.4166 .6453 -1.2913 -].9302
92
14
15 16 7 18
-'1797.6 -7148.
0.062 0.1117
434
La statistique Press vaut maintenant 308496438 (elle est donc rduite dans un rapport de 2.4) et
Si l'on souhaite une formule contenant les 6 prdicteurs, on a le choix entre la rgression ridge, la rgression sur composantes principales et la rgression PLS.
.. Rgression ridge
Le tableau 17.9 et la figure 17.8 donnent l'volution des coefticients de rgression en fonction du paramtre k La valeur k = 0.25 semble convenir et donne un RMSE de 4706.
TABLEAU
17.9
Coefficients de Rgression
.. -_ ...... ""--- ...... '" ......... _--_ ............ _- ................... _-_ .. _.........
cylindre
longueur largeur poids puissance vitesse _---- .. -.... _- _............ -- .... -- .......................--.. _.......... _- .......... ----- .................. _--_ ... _--_ ...... -"' .... _-_ .... ............... -............. ""'_ .. _----",
~
-15.0377 208.694 12.5747 -3.50518 282.169 -111.114 108.987 -2.18019 2.76652 15.2924 197.405 -26.2437 12.64111 78.4137 -1.30002 14.811 163.095 3.09658 67.2553 14.0478 18.2783 -0.693863 142.962 18.3139 -0.255881} 21.7857 63.497 13.3264 129.251 27.6233 24.1123 62.9383 0.0724271 12.6918 119.112 33.8481 25.727 63.8295 0.325527 12.1402 111.21 38.2416 65.3631 26.8833 11.6592 0.524946 104.817 41.4531 27.7286 67.1422 11.2366 43.8555 0.681805 99.501 28.3541 68.9656 10.8621 0.814737 45.6797 94.9847 28.819 70.7303 10.5273 0.921532 91.0816 -- .......... _---_ .......... _- ............ _.. --_ .. _- ... .. -....... _-_ .. .... -.... -............. ----- ...... _-_ ........ _--_ .... _-_ .........-................. .... _----_ ... -.. --...... _.. -.. ..... _......... -..... _--- .... .;47.0767 .. .... ------ ..... --_
", ".
0.0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
",--._
300
200
'E
ID
~ 0
0
Ti
100
0.5
FIGURE
17.8
435
Int21:'cept
-43286.46 -34893.0 11 .74369
~.
PUIS
49.978
62 . .
LON
POIDS
VITESSE
71.383 102.
46.0278 34.5556
7.5893
9 J1823
6.1\980
n.5931 18.6615 26.3105 1J 5747
-5360.0::;
-5829.58 -9856.87 -8239.
4.31052
75. 131.959
.148'1
70.7514 -42.913 -15.0377
.222
61.667 Il.:; 1.6 -111.1ltl
181.544
28:::.169
208.
La solution en dimension 6 est celle des moindres carrs ordinaires. La meilleure fonnule est sans conteste celle obtenue avec une seule composante principale qui donne un RMSE de 4301.68, infrieur il celui de la rgression ridge. Le spectre des valeurs propres de la matrice de corrlation est:
V.t..LEUR NUHERO PHOPEE POURCENT. POURCENT.
CUI!ULE
Lj.4209
O.
73.68
14.27
73.68
87.
0.3731
0.2139 0.0928 0.0433
6.22 3.57
1. 55
94 17
97.73
.28
100.00
0.7:l
Les coefficients de corrlation entre la variable prix et les 6 composantes principales sont:
CORREL.;'!' .IONS VI"Rli\BL8- f ACT EUR
PHIX
-0.77
0.09
-0.3
-0.23
-0.16
-0.10
On remarque que l'ordre des corrlations n'est pas celui des valeurs propres
Rgression PLS
La rgression PLS avec une seule composante (c'est ce qu'indique la validation croise) extrait 73.6 % de la variance de y et 60.8 % de la variance des X. On obtient la formule sUvante :
PRIX = -39940.366
.562CYL
58.807PUIS
43.687LON
154.34LAR
+ B.252pOIDS + 71.892VITESSE
Le RMSE est cette fois de 4239, infrieur celui de la rgression sur composantes principales comme le prvoyait la thorie. La rgression PLS fournit donc la meilleure formule conservant les 6 variables.
436
17.7
17.7.1
Supposons que parmi les prdicteurs on ait Cf variables qualitatives mb Ill::., ... , ml] ries respectivement. On cherchera alors les transformer en q variubles numriques 111,. /Il::., .. , ml] valeurs au plus de sorte que la rgression fournisse le R2 le plus lev. On sait que la variable numrique obtenue par quantification d'une variable qualitative une combinaison linaire des variables indicatrices des catgories. Il suffit donc de cer chaque variable qualitative par l'ensemble des variables indicatrices de ses catgories ceci revient utiliser comme matrice X de variables explicatives la matrice suivante:
o X(J est le tableau des variables quantitatives et les Xi i associs aux q variables qualitatives.
Les coefficients de rgression associs aux variables indicatrices seront donc les cations recherches.
Cependant une difficult surgit au momenl de rsoudre l'quation norn1ale X'Xb X/y si q 2:: 1. En effet, il est facile de s'apercevoir que dans ce cas les colonnes de X ne sont pas linairement indpendantes: pour tout tableau disjonctifX b la somme des colonnes est gale au vecteur 1. II existe donc q relations linaires entre les colonnes de X. Dans ce cas, l'quation normale a une infinit de solutions qui correspondent des pseudo-inverses diffrentes de X'X; toutes ces solutions fournissent d'ai11eurs le mme vecteur y* car la projection de y sur HI est unique, mais les coeftlcients hj ne sont pas uniques. Pour obtenir une estimation unique b il faut donc imposer q contraintes linaires sur les codages des variables qualitatives. Les plus simples sont en particulier:
a)
b)
Pour chaque variable qualitative une des modalits aura un coefficient bj nul. Ceci revient en fait il supprimer une colonne dans chaque mbleau Xi' ce qui rend la matrice X de plein rang. Pour chaque variable qualitative la somme des coefficients de b relatifs cette variable est nulle. On peut vrifier que ceci revient supprimer une des colonnes de chaque tableau disjonctif et remplacer les colonnes restantes par leur diffrence avec la colonne supprime.
17.7.2
Lorsque toutes les variables explicatives sont qualitatives la rgression multiple correspond l'analyse de la variance dcIite au chapitre 14 en ce sens que l'estimation des effets des niveaux n'est autre que l'estimation des coefficienls de rgression et que les tests des effets des facteurs sont les tests F de nullit des sous-groupes de coefficients de rgression correspondant aux indicatrices d'une variable qualitative.
437
On vritiera sans peine que le modle d'analyse de variance il un facleur correspond la rgression suivante:
_ 1 \'
)'2
0 0
=
0 0
J.1
Cil
el e:.
+
0 0
Cip
YI!
Cl!
L'analyse de variance il deux facteurs avec interaction correspond il effectuer la rgression de y sur un tableau X de variables explicatives compos de :
p q pq
~~~
Xl et X 2 sont les tableaux. des indicatrices des niveaux des deux facteurs A et B et X l2 le tableau des indicatrices d'interaction correspondant aux pq combinaisons des niveaux de A et de B.
O
On peut donc utiliser, moyennant les prcautions dues au rang de X, un programme de rgression multiple pour effectuer de l'analyse de variance mme avec des modles complexes (plusieurs facteurs avec inleractions, plans non quilibrs).
17.7.3
On a ajout aux deux prdicteurs puissance et poids la finition (variable qualitative il trois modalits TB, B, M). Afin d'obtenir une solution on a choisi la contrainte consistant il donner le coefficient 0 la catgorie TB. On trouve alors la relation:
Prix*
= 23383.6 +
+[ -
1~~~~: ~l
o
:
TB
Seuls les diffrences entre valeurs associes aux catgories ont ici un sens.
438
Le R2 est alors de 0.90 et vaut 2320.0. Le tableau 17.10 montre les rsultats de ce modle 4 variables explicatives :
TABLEAU
17.10
Yi
Yi'
30976.30 39663.33 27648.39 25904.76 34510.48 39162.20 33298.60 30010.28 45084.43 24635.99 41350.06 33559.50 44354.30 34310.28 39380.66 29313.20 34804.52 26887.63
1 2 3 4 5 7 8
9
10
Il
30570.00 39990.00 29600.00 8250.00 34900.00 35480.00 32300.00 32000.00 47700.00 26540.00
L12395.00
12 13 14 15 16 17 18
nalyse iscriminante
et rgression logistique
Le but des mthodes de discrimination consiste prdire une variable qualitative k catgories l'aide de p prdicteurs, gnralement numriques. On peut considrer l'analyse discriminante comme une extension du problme de la rgression au cas o la variable expliquer est qualitative; on verra d'ailleurs que dans le cas de deux catgories, on peut se ramener exactement une rgression linaire multiple. Les donnes consstent en explicatives.
a)
11
On distingue deux aspects en analyse discriminante: descriptif: chercher quelles sont les combinaisons linaires de variables qui permettent de sparer le mieux possible les le catgories et donner une reprsentation graphique (ainsi qu'en analyse factorielle), qui rende compte au mieux de cette sparation; b) dcisionnel: un nouvel individu se prsente pour lequel on connat les valeurs des prdicteurs. Il s'agt alors de dcider dans quelle catgorie il faut l'affecter. C'est un problme de dassement (et non de classification, voir chapitre Il)*.
Ces deux aspects correspondent grosso modo la distinction entre mthodes gomtriques et mthodes probabilistes faite dans ce chapitre. Parmi les innombrables applications de l'analyse discriminante citons quelques domanes : aide li la dcision en mdecine: partir de mesures de laboraloire, on cherche une fonction permettant de prdire au meux le type d'affection d'un malade, ou son volution probable afin d'orienter le traitement: jirulIlce : prvision du comportement de demandeurs de crdit. Le terme discrimination est utilis dans ce chapitre en un sens assez large: nous y incluons la rgression logistique afin de mieux la comparer Panalyse discriminante linaire. Le lecteur dsireux d'en savoir plus sur l'utilisation de logiciels se reportera avec profit II Nakache et Confais (2003) .
440
18.1
MTHODES GOMTRIQUES
Ces mthodes, essentiellement descriptives, ne reposent que sur des notions de dis et ne font pas intervenir d'hypothses probabilistes. On supposera vu que les donnes consistent en n observations de p variables numriq appartenant k classes.
18.1.1
Les 11 individus ei de l'chantillon constituent un nuage E, de IRP partag en k ~UllS-lnll:-IOP'I1": El, E1 , .. " Ek de centres de gravt g" g1 ... , gb de matrices de variances VI> V 2 ... , (fig. 18.1).
FIGURE 18.1
Soit g le centre de gravit et V la matrice de variance de E tout entier. Si les Il individus ei sont affects des poids PI. P2' ... , P,I' les poids q" q2' .. "' Cfk de chaque sous-nuage sont alors:
qj
ci EE,
2:
Pi
Ona:
g=
2:
j=!
qjgj
et
Appelons matrice de varance interclasse, la matrice de variance B des k centres de gravit affects des poids Cf} :
B =
2: q/gj
i;;;1
g)(gj
g)'
;,>;,'::Hlllrtlll/",!,lld'l"''''
441
W = ~ qjVj
j=1
En rgle gnrale, West inversible tandis que B ne l'est pas, car les k centres de gravit sont 1 de IR;" (si p k - 1 ce qui est gnralement le cas), un sous-espace de dimension Il. alors que la matrice B est de taille p. On
il
qui se dmontre aisment et constitue une gnralisation de la relation classique: variance .totale moyenne des variances + variance des moyennes. Nous supposerons dsormas que g = 0, c'est--dire que les variables explicatives sont centres. Si l'on considre que le tableau de donnes tudier se met sous la forme: 2
o
:2
k 0
:2
A
11
...
o X est la matrice des p variables explicatives et A le tableau disjonctif associ la variable qualitative, les Il. centres de gravit g" g2, . . ., gk sont les lignes de la matrice (A'DA)-l (A'DX). A'DA est la matrce diagonale des poids qj des sous-nuages:
ql
AIDA
= DI} =
[
0]
Cf?""
CJk
A'DA)-IA'DXrA'DAA'DA)-IA'DX)
= X'DA(A'DA)-IA'DX = (X'DA)D,;1 (A'DX)
442
Dans le cas o Pi = lin les expressions prcdentes se simplitient et en mtroclui:saI1lt effectifs }lI, 11:. .. , Ilk des k sous-nuages, on a :
1 B = - 2: n.g.g'; g.
11.
J
'.l
= Il.;' i ; W 2:e
J ~
1 -2:nV.
Jl. J
.1
18.1.2
18. 1.2.1
L'AFD consiste rechercher de nouvelles variables (les variables discriminantes) respondant des directions de [RI' qui sparent Je mieux possible en projection les k nrr\ll .. ~..;"" d'observations. L'axe 1 de la tigure 18.2 possde un bon pouvoir discriminant tandis que l'axe 2 (qui l'axe principal usuel) ne permet pas de sparer en projection les deux groupes.
/X\ ~xe1
Axe 1
~~e2
FIGURE
18.2
Supposons IRi" muni d'une mtrique M. On notera comme au chapitre 7, a l'axe discriminant, u le facteur associ u = Ma, la variable discriminante sera Xu. En projection sur J'axe a, les k centres de gravit doivent tre aussi spars que possible, tandis que chaque sous-nuage doit se projeter de manire groupe autour de la projection de son centre de gravit. En d'autres termes, l'inerte du nuage des gj projets sur a doit tre maximale. La matrice d'inertie du nuage des g est lVIBlVl, l'inertie du nuage projet sur a est a'IVIBMa si a est M-norm 1.
n faut aussi qu'en projection sur a, chaque sous-nuage reste bien group, donc que a'lVIVj Ma soit faible pour j = 1, 2 ... , k.
On cherchera donc minimiser la moyenne
On prendra alors comme critre, la maximisation du rapport de "inertie interclasse "inertie totale.
443
Soit:
a'MBlVla max---ua' J\!I V!VI a
On sait, que ce maximum est atteint si a est vecteur propre de (lVIVlVI)-1 MBM associ sa plus grande valeur propre k, :
lVI-1V-1BlVla = .[a
A l'axe discriminant a est alors associ le facteur discriminant u, tel que u On a alors:
Ma.
Les facteurs discriminants, donc les variables discriminantes Xu, sont indpendants de la mtrique !VI. On choisira par commodit lVl V- I qui donne BV-Ia .a et V-IBu = kU.
On a toujours 0 :::; k! :::; 1 car k, est la quantit maximiser. . 1 = l correspond au cas suivant:
En projection sur a les dispersions intraclasses sont nulles. Les k nuages sont donc chacun dans un hyperplan orthogonal a (fig. 18.3). Il Y a videmment discrimination parfaite si les centres de gravit se projettent en des points diffrents. I = 0 correspond au cus o le meilleur axe ne permet pas de sparer les centres de gravit gj. c'est le cas o ils sont confondus. Les nuages sont donc concentriques et aucune sparation linaire n'est possible (fig. 18.4). Il se peut cependant qu'il existe une possibilit de discrimination non linaire: la distance au centre permet ici de sparer les groupes, mais il s'agt d'une fonction quadratique des variables. La valeur propre est une mesure pessimiste du pouvoir discriminant d'un axe. La figure 18.5 montre qu'on peut discriminer parfaitement car les groupes sont bien spars malgr k < 1. Le nombre des valeurs propres non nulles, donc d'axes discriminants, est gal k 1 dans le cas habituel o Il > P > le el o les variables ne sont pas lies par des relations linaires.
x x
GrO Upe1 x
BY
Xx
g1 =g2
x
x
FIGURE
18.3
FIGURE
18.4
Groupe 2
J)
FIGURE
18.5
444
18.1.2.2
D'aprs les quations prcdentes l'analyse factorielle discriminante l'ACP du nuage des k centres de gravi t avec la mtrique V -1 . On en dduit que les variables discriminantes sont non corrles 2 2. S'il existe un second axe discriminant, il est possible de reprsenter le nuage des observations en projection sur le plan dfini par ces deux axes: ce plan est alors celui permet le mieux de visualiser la sparation des observations en classes. Ainsi qu'en ACP, on pourra interprter les variables discriminantes au moyen d'ur des corrlations. Nous verrons plus loin que l'analyse factorielle discriminante quivaut aussi l'ACP gi avec pour mtrique W-I.
18.1.2.3
ce qui est identique V-IBu = u d'aprs le paragraphe 1. C'est une nouvelle preuve que les variables discriminantes sont non corrles deux deux. Si "on dsigne par Aa la premire variable canonique associe A solution de l'autre quation de l'analyse canonique:
norme de telle sorte que sa projection sur le sous-espace de ~n engendr par les p variables. explicatives soit identique Xu, on peut prsenter l'analyse discdminante comme la recherche du codage de la variable qualitative qui la rend le plus proche de l'espace engendr par les colonnes de X. Si les p variables explicatives sont cenlTes, alors la variable code l'est aussi et u est le vecteur des coefficients de rgression de Aa sur X. La premire valeur propre
. 1
L'analyse discriminante est donc bien une gnralisation de la rgression multiple au cas o la variable expliquer est qualitative. La fi.gure 18.6 dans ~'l montre l'identit entre les deux conceptions de l'analyse discriminante : analyse canonique d'une part et maximisation de la variance interclasse par rapport la variance totale d'autre part.
Wx est l'espace engendr par les colonnes de X ; WA est l'espace engendr par les indicatrices de la variable expliquer.
445
de pythagore s'crit:
FIGURE
18.6
+ variance intrac1asse.
variance interclasse .., La maximisation du rapport. n'est autre que la maximisation de cosvariance totale o est l'angle fonn par Aa et , ce qui est bien le critre de l'analyse canonique.
On appelle d'ailleurs cette mthode analyse discriminante canonique chez les auteurs anglophones.
18.1.2.4
Si il n'y avait qu'une seule variable explicative on mesurerait l'efficacit de son pouvoir sparateur sur la vllriable de groupe au moyen d'une analyse de variance ordinaire un facteur. variance interlk 1 La statistique F valant alors . variance intra/n - k Comme il y a p variables on peut rechercher la combinaison linaire dfinie par des coefficients u donnant la valeur maximale pour la statistique de test ce qui revient maximiser:
u'Bu u'Wu
La solution est donne par l'quation:
W-1Bu = J..LU
avec
J..L
maximal
.
Les vecteurs propres de W-1B sont les mmes que ceux de V-lB avec J..L En effeL, Bu = Vu est quivalent :
l -
.'
Bu
= .(W + B)u
soit
(1 - )Bu = .Wu
446
d'o: Si 0 :::;
:::;
00
et =
1+1.1
L'utilisation de V- ou de W- comme mtrique est donc indiffrent. La mtrique est appele mtrique de Mahalanobis . La convention usuelle dans la plupart des logiciels est d'avoir des variables discrimimmtes dont la variance intrac1asse vaut 1. On doit donc avoir u'Wu = 1. Ce qui revient u'Bu
- - = 1.1 et u'Vu 1-
18.1.2.5
Ce fameux exemple sert de jeu d'essai. Les donnes concernent tros espces d'iris versicolor, virginica) reprsentes chacune par 50 individus dcrits par 4 variables (longueur largeur des ptales et spales). Il y a donc uniquement deux axes discriminants ce qui permet une reprsentation plane. On trouve:
J =
2
0.969872 0.222027
l-ll
32.1919 0.2854
3.49.-----~~~----------------~----------------------------~
1.87
C\l
0.24
~+_--------~_4----~~~~~~~----------------+_--~~--~
-1.38
-3.00L---------------------~--~~--------------------------~
-9,17
-4.42
0.34
5.09
9.85
axe 1
FiGURE 18.7 :
447
La figure 18.7 montre, avec les ellipses de tolrance 0.95 (voir 13.6.2), une bonne sparation. L'axe n02 n'est gure discriminant, mais il est bien utile pour faire un graphique et l'carler au vu d'un test statistique serait maladroit.
18.1.3
Ayant trouv la meilleure reprsentation de la sparation en k clusses des peut alors chercher affecter une observation e l'un des groupes.
individus. on
La rgle naturelle consiste calculer les distances de l'observation classer chacun des k centres de gravit et affecter selon la distance la plus faible. Encore faut-il dfinir la mtrique utiliser.
18.1.3.1
Rgle de Mahalanobis-Fisher
Comme e'W-1e ne dpend pas du groupe i, la rgle consiste donc chercher le minimum de g'jW-lg i - 2e'W- l g i ou le maximum de e'W-1g j - (g'jW-l gj )/2. On voit que cette rgle est linaire par rapport aux coordonnes de e. Il faut donc calculer pour chaque individu k fonctions linaires de ses coordonnes et en chercher la valeur maximale. Illustrons ceLLe rgle avec les iris de Fisher: les trois fonctions de classement sont donnes par le tableau suivant.
Set osa
-85.20986 2.35tJ42 2.35879 -1.64306 1. 73984
Versicolor
-71.75400 1.56982 0.70725 0.52115 0.64342
Virginica
-103.26971 1.24458 0.36853 1.27665 2.10791
Si l'on applique ces rgles aux l50 observations dont on dispose, le tableau suivant (appel matrice de confusion) donne les rsultats de classement: on lrouve que les 50 setosa sont
448
partllitement classs et que seuls deux versicolor sont attribus ft r espce viroinica, o qu'un seul virginica est mal class. Ces rsultats semblent mais sont biaiss sens qu'ils surestiment les performances (voir le paragraphe 18.7.2)
Setosa
50
0
0
Versicolor
0
Virginica
0 2
48 1
49
Remarquons que )' application de la rgle gomtrique peut se faire indiffremment l' espace ~/l ou dans l'espace factoriel ~A - J. En particulier si k 3, les frontires d'affectation aux groupes sont des hyperplans 0 gonaux au plan des trois centres de gravit. On peut lire directement les OiSlanCeSi Mahalanobis gl, g2, g3 en utilisant le graphique des deux variables canoniques n'c,-..., ...... nantes normalises 1 (au sens de la variance intraclasse).
18.1.3.2
L'utilisation de la rgle prcdente conduit des affectations incorrectes lorsque les dispersions des groupes sont trs diffrentes entre elles: rien ne justifie alors l'usage de la mme mtrique pour les diffrents groupes. En effet, si l'on considre la tigure ] 8.8, bien que e soit plus proche de g, que de g2 au sens habituel il est plus naturel d'affecter e la deuxime classe qu' la premire dont le pouvoir d'attraction est moindre.
FIGURE
18.8
449
La question de l'optimalit d'une rgle de dcision gomtrique ne peut cependant tre sans rfrence un modle probabiliste. En effet le problme est de savoir comment rgle se comportera pour de nouvelles observations ce qui impose de faire des hypodistributionnelles sur la rpartition dans l'espace de ces nouvelles observations. On atteint donc ici les limites des mthodes descriptives. Nous verrons plus loin dans quelles conditions elles conduisent des rgles optimales.
a = (gl
g2)
La variable discriminante d n'obtient en projetant sur a selon la mtrique V-I ou W-I qui tient compte de ]' orientation des nuages par rapport la droite des centres (fig. 18.9).
FIGURE 18.9
u = V-1(gt
g2)
ou
+n 2 -2 _1 W Il 1 + III
450
On peuL retrouver la dmarche de Fisher par le raisonnement suivant: Cherchons la combinaison linaire des variables explicatives telles que le carr de la tistque du test T cl' galit des moyennes des deux groupes prenne une valeur maximale:
o y = Xu
en posant..!.
.:..
Il, Il,
Il:!,
Il., -
:2
.,
(u'(g,
A
g:2)2
utIu
u est e ml un
d~f~ .
t- I Cg 1 -
g:2)'
18.2.2
On peut trouver l'unique valeur propre de V-lB en remarquant que pour deux groupes'
B
On a donc B
g~)
et symtriquement:
donc en moyennant:
g2)
avec:
451
et :
f.L est donc proportionnel au Di, de Mahalanobis estim entre les deux groupes (voir chapitre 14 paragr. 14.4.5.2).
On a exactement:
f.L
On trouve alors:
W-I (g, -
g~)
(1 +
Il
IZ(11 -
2)
D~ )V-I (gl 1
- g.,)
-
Les coordonnes des deux centres de gravit sur l'axe discriminant ont une diffrence gale la distance de Mahalanobis Dl" En effet gj u et gl u sont ces coordonnes o u est le facteur canonique normalis. Celui-ci est proportionnel W-l(gl - g2), la constante de proportionnalit CY tant telle que u'Wu = l soit:
11
n-2
On a donc:
g2)'ul
= Icyl (gl
D2
= DI'
18.2.3
L'analyse canonique se rduit ici une rgression multiple puisque aprs avoir centr, l'espace engendr par les deux indicatrices de la variable des groupes est de dimension 1. Il suffit donc de dtinir une variable centre y ne prenant que les deux valeurs a et b sur les groupes 1 et 2 respectivement (ll,a + ll;!b = 0). On obtiendra alors un vecteur des coeftcients de rgression proportionnel la fonction de Fisher pour un choix quelconque de a. Le choix a = - , b = - - condUIt alors b
III
11
11
= (X'X)-lX'y = V-reg,
g2).
Il '2.
452
On a:
R2 = - - - - ' - - - ----+Dp
llllll
lI(n - 2)
.,
On prendra garde au fait que les hypothses habituelles de la rgression ne sont vrities bien au contraire: ici y est non alatoire et X J'est. Il ne faudra donc pas utiliser statistiques usuelles fournies par un programme de rgression, en particulier les erreurs dard des coefficients et les niveaux de signification. Le fait que la fonction de Fisher puisse tre obtenue par une rgression multiple peu doxe a suscit des controverses et incomprhensions non fondes au profit de la rgre~sslon.i~0i logistique (voir 18.6.3 pour une discussion approfondie).
18.2.4
solt:
Comme W~I(gl g2) est la fonction de Fisher, la rgle consiste donc affecter au groupe 1 s la valeur de la foncton discriminante est suprieure au seuil:
Lorsque les deux groupes sont de mme effectif gl fonction C'W-I(gl - g2) est positive.
g2
0 ; on affecte au groupe 1 s la
18.2.5
Exemple infarctus
Les donnes du tableau 18.1 (communiques par I-P, Nakache) concernent 101 victimes d'infarctus du myocarde (51 dcderont, 50 survivront) sur lesquels ont t mesures leur admission dans un servce de cardiologie 7 variables (frquence cardiaque, index cardiaque, index systolique, pression diastolique, pression artrielle pulmonaire, pression ventriculaire, rsistance pulmonaire), Le tableau 18.2 donne les statistiques lmentaires par groupe.
453
TABLEAU
FRCAR INCAR INSYS
18.1
PAPUL 19.5
PVEN'l'
PRDI.'-'.
90 90 120 82
1.71 1. 68
1.LlO
9.0 18.7
. ";
31.0
1. 79
.58 1.13
2l.
14
:21
80
80
19.7 14.1
21.7 14.9 27.7 22.8
94 80 78 100 90
.011
1. 2.16 2.28 2.79 2.70 2.61 2.84
3.1.:1
18 23
16
15
16 15 8
31.0
]1. '1
SURVIE
DECES DECES
1059
1412
SURVIE
SURVIE SUHVIE
759
807
7i
SURVIE
SURVIE SURVIE SURVIE
8.0
9.5 .0 ] .0 11.0 11. 0 3.0
86
80 61
q')
681
4.60 '179
96
86
125 80
82 110 80
118 95 80
11
SURVIE
SURVIE SURVIE SUnifIE SURVIE SURVIE
lS
12 12 18 15 13 23 13 19
5
513
615 809 659 665 796 508
14911
10.5
6.0 6.0 6.0 6.5 12.0 10.0 20.0 15.0 10.0 10.0 10.0 11. 0 10.0 20.0 13.0 10.0 10.0 16.0 6.0 10.0 6.0 12 .0 8.0 15.5 10.0
1Ll.0
28.0
.0
SUEVIE
SURVIE DECES DECES DECES DECES DECES DECES DECES SURVIE
20.0 31.0
l .0
18.7
8.7 19.9 8.
907
2097 1143
19
13 18 25 18
85
105 122 81 118 87
1. 30
1. 84 2.79 .77 2.31 1. 20 1. 2.15 0.91 2.54 2.08 1. 93 0.95 2.38
65
8tl
SURVIE
SUHVIE DECES DECES SURVIE DECES SURVIE
22
34
15
27 30
24
25.6
8.8 33.9 23.1
103
75
90
90
90
21. 4 10.6
36.6 10.4 8.9 23.8
65
95 95 86
0.99
0.85 :;; . 2.02 1. 44 3.06 1. 31 1.:2 9
1. 47 1. 21
20 11 20 16 20 1.9
SURVIE
SURVIE DECES SURVIE DECES DECES SUHVIE SURVIE DECES SURVIE DECES DECES
24.0
22.0 27.5 22.0 28.0 22.0 .5 15.0 40.0 31.0
82 70
92 94
24.6 20.6
33.3 13 .9 .3
16 19
o
26
24 15 19
79
67
75
21. 9
16.1
18.0
2'1.0
SUHVIE
DECES
454
TABLEAU
18.1
(suite et fin)
PAPUL
24.0 16.0 27. 42.0 22.0 27.0 19.0 PVENT 7.0 7.0 11.0 13.0 5.0 3.0 .0 3.0 6.0 9.0 16.0 REPUL 797 390 1774 1816 880 1096 1583
Ll06
INSYS 30.9 54.0 11.3 15.9 26. .4 8.8 26.9 30.9 33.1 15.7 19.4 13. '7 17.6 '11.0 27. 14.8 13.8 35.6 28.8 23.1 9.9 15.9 25.2 23.5 16.1 19. 16.7 11.8 16.1 12.7 27 . 22.2 15.9 13.9 27.4 13 .9
PRDIA
19 22 3 16 18.0 15.0
85
2.00 1. 97 0.96 :2 56 2.32 2.65 1. 60 1. 67 O. 1.76 .. 28 :2.96 1. 37 1. 38 .85 2.51 2.31 1.18 1. 83 2.55 2.17 1. 42 1. 59 1.47 1.23 .45 0.85 2.37 2.40 .91 1. 2.36 1. 56 1. 34 1. 65 2. .03 1.21 1. 34 1.17 l. 74 .31 0.95 1. 92 0.83 0.60 1.
B.O
8.0 13 .0 2 11.0 18.0 .0 23.0 12.0 24.0 25.0 20.0 25.0 16.0 8.0
13 .0
10.0 19.0 31. 0 .0 32.0 33. 7.0 35.0 46.0 31.0 32.0 .0 12.0 36.0 30.0 30.5 24.0
SURVIE SURVIE
SURVIE
8.5
13.0 2.0 .0 6.5 11. 0 11. 0
60
100 80 108
SUHVIE
DECES
SURVIE
DECES
SURVIE
STJHVIE
946 2686
1797 898 765 416 2441 1311 957 885 1465 1031 1769 2146 132'1 3106 743 1033 1131 1813 1153 1487 H93 1600 1608 620 1Ll55 1015 2393 1333 1710 1684 1000 2602 5067 1610
7.0
20.0 1.0 8.0 8.0 9.0 3.0 10.0 4.0 10.0 11. 0 8.5 11. 0 10.0 4.0 .0 16.0 8.0 '1.0 16.0 7.0 10.0 7.0 3.0 6.0 10.5 6.0 12.0 7.0 3.0
SURVIE!
DECES
SURVIE
DECES DECES
25.0
25.0 .2 19.0
SURVIE
SURVIE DECES
92
87 80 88 104 90 67
20.0
13.0 23.0
26.0
20.5 32.5 33.0 24.0 33.0 22.0 31.0 27.0 43.0 34.0 29.0 25.0 33.0 41. 0 23.5 22.0 17.0 35.0 29.0 28.0 .0 24.0 27.0 38.0 31. 0
SUHVIE
DECES DECES
27 .0
17.0 26.0 15.0 26.0
SUHVIS
DECES
87
108 120 08 86 112 80 95
SURVIE SURVIE
DECES DECES SURVIE DECES DECES DECES
18.0 28.0
]:1.0
2 L1.0 16.0 20.0 .0 17.0 17.0 11. 0 29.0 24.0
17 .0
17.4 22 .7 33.6 12. 26.3 10.6 18.1 9.9 7.0 .3 .4 5.2
13. B
90
90 94 51 110
9G
DECES
SURVIE DECES DECES DECES DECES DECES DECES DECES
23.0
15.0 18.0 23.0 33.0 .0
B.O
10.0
8.0
DECES
DECES DECES
455
TABLEAU
18.2
HEAN
95.90196078 1.39470588 14.99607843 21.9607843 29.09803922 10.64705882 1797.27450980
51 51 51 51 51 51
.34429985 739.87296419
PRONO = SURVIE
FECAR INCAR INSYS
PHDIA
50 50 50 50 50 50 50
= 4.942
d'o
D7
= 2.223
Sous les hypothses de multinonnalit du chapitre 14 paragraphe 14.4.5.2, cette valeur correspond un F = 16.476 :
----.,;.--D2 p(n 2) p
-1
=F
Il
La valeur critique 1 % pour un F(7; 93) tant de 2.84, le D2 est signtcatif d'une diffrence nette entre les deux groupes. On trouve R2
= = 0.5576 et j.L
1.2604.
La variable discrimnante s'obtient alors par la combinaison linaire des 7 variables centres sur la moyenne des deux groupes (tableau 18.3).
TABLEAU
18.3
-0.026'145290 :2.768181397 -0.075037835 0.009115031 -0.074211897 -0.021086258 0.00008.:1078
FRCAR
456
ou si l'on ne centre pas en ajoutant la constante 1.22816 la combinaison linaire des donnes brutes.
nr.;'I"'''''''~._'"
Les coefficients de corrlation linaires de la variable discriminante avec les 7 va ri (les deux groupes confondus) sont indiqus sur le tableau 18.4.
TABLEAU
18.4
FRCPtR INChH
-0.3097
O.
0.8976
-0.6321 -0.5751 -0.3592
INSYS PRDIA
PAPUL
PVEN'I'
REPUL
-0.8676
Les moyennes des deux groupes sur la variable discriminante sont: Dcs Survie On retrouve D7 = + 1. l 005 + 1. 1225 -1.1005 1.1225
= 2.2230.
En appliquant les gomtriques de classement le tableau 18.5 donne pour l'exemple des infarctus les deux fonctions suivantes
TABLEAU J 8.5
DECES
CONS'I'.l\NT FRC",R
SURVIE
-89.9703,1555
-91.57481116 1.53609883
-52.09,144392 5.44165359 -0.64815662
1.47730875
- iJ 5 . 9 '1 0 5 4 613
INCAR
INSYS
PRDIA
PAPUL
PVENT
0.70738671
0.85037707
O.
0.00657667
REPUL
0.00638975
La fonction de Fisher s'obtient par diffrence entre les deux fonctions de classement (survie - dcs). En divisant ensuite les coefticients par la distance de Mahalanobis, on retrouve les coefficients du tableau 18.3.
18.3
Lorqul n'y a que deux groupes, rtablissement d'une linaire est quivalente la dtermination d'un hyperplan sparateur, ou frontire plane~ et rciproquement. A la fonction de Fisher 18.10a) est associ l' hyperplan mdiateur (figure 18. Wb ) de gl et g2 (au sens de la mtrique V-I ou "V- 1).
457
00.0...------------------,
50.0
GO.Q~-------------,
50.0 40.0
....J
3D (]
Cl..
20.0
10.0
OO~----------------------~
0.0
1.0
2.0
30
4.0
I~JCAA
FIGURE J 8.1 Oa
Axe discriminant
FIGURE
18. lOb
Frontire
Si l'on note que la fonction de Fisher ne fait que dfinir une combinaison lnaire sans le seuil de classement revient dplacer l'hyperplan paralllement terme constant lui-mme. On peut chercher directement une frontire, linaire ou non, condition de dfinir un critre convenable.
18.3.1
l'hyperplan optimal
La recherche directe d'un hyperplan optimal a fait l'objet de nombreux travaux depuis le perceptron de Rosenblatt (1958). On doit V. Vapnik (1986) d'avoir dfini un critre timalit bas sur la marge , ou largeur d'une zone de part et d'autre de la frontire, et de ravoir des frontires non-linaires grce un changement d'espace. L'objectif tant de classer. on peut chercher minimiser le nombre d'observations mal classes, ou points du mauvais ct de la frontire. Ce critre ne suffit cependant pas dterminer de manire unique un hyperplan sparateur: pour des donnes linairement sparables, il y a une infinit de solutions comme le montre la figure 18.11.
FIGURE
18.1 1
18.3.1.1
Le cas sparable
Soit C la plus petite distance d'un point la frontire. Vapnik a propos que l'hyperplan optimal soit celui qui maximise cette distance, ce qui revient il avoir le plus grand no man's land de part et d'autre de la frontire. La marge qui est la largeur du couloir vaut donc 2C. En dimension 2, on voit sur la figure 18.12 qu'il suftit de trouver les 3 points Xl' X2' x) (appels points support) pour dtinr la frontire: on trace la parallle tl X2, X3 passant par XI' puis la droite au milieu.
458
IU)illiT;IIJUE!
'.
.
.......... x2.
"'~....
c lll.....
.....
~.
...~.~
....
Il
."
p
.........
Il XI......
..~~,
FIGURE 18.12
1 Il + rlol X;
111311
Notons Yi = l ou Yi = -} les appartenances aux deux groupes. Pour que les points soient tous du bon ct et une distance suprieure C, il faut pour tout i :
111111 Yi (x;13
et on doit maximiser C sous ces
Les
Il
+ rlo)
2=
contraintes.
111111
Yi(X;1l
+ rlo)
2=
Ce problme admet une solution unique, dont les proprits sont les suivantes. Soient ai les multiplicateurs de Lagrange associes aux contraintes. En drivant le lagrangien
Il
Il Il Il:! 11
2 2:lY/[Yi (x~1l
/=1
Il
+ rlo) -
trouve (3
2: aYixi et 2: n,Yi
1=1 j;1
459
Si
(Xi
~o)
('if
Si yj(x:~
~o)
>
1 alors
= 0
= ~o +
~
sUppOI1
{XiYiX;X
L'hyperplan optimal ne dpend que des points support o ai est non nul, stus sur la marge. donc les plus difticiles classer, ce qui le diffrencie de l'hyperplan de Fisher: il peut tre plus robuste, car il ne dpend pas des points situs loin de la frontire. On verra au chapitre suivant une proprit supplmentaire concernant la gnralisation fl de futures donnes.
/8.3.1.2
Le cas non-sparable
Dans ce cas certains points seront du mauvais ct de la frontre (figure 18.13), et on va chercher minimiser l'importance de l'erreur de classement. On introduit alors les variables d'cart * et . Pour un point mal class ~* est la distance la marge de sa classe, et on pose * C.
........................
.~....
l1li ....
......~.
'
.... ,l1li
II II
..........
/f...
FIGURE ) 8.
13
On modifie alors les contraintes par Yi(X;~ + f3()'> ;::: 1 - ~i et on introduit une nouvelle contrainte pour borner l'erreur de classement 2:j < este. Le problme d'optimisation se transfomle en :
support
Le paramtre 'Y peut tre rgl par l'utilisateur, mais cela est dlicat. On prconise une optimisation par validation croise, ou avec un autre chantillon.
460
18.3.2
Changement d'espace
Des donnes non sparables linairement dans leur espace d'origine E. peuvent le devenir aprs un changement d'espace (I>(E), en gnral de dimension plus leve. A une frontire linaire dans (NE), correspond une frontire non-linaire dans E.
U exemple (figure 18.14) suivant est classique avec deux groupes spares par une parabole: en passant de l'espace [R:\ dfini par (1, Xl> X2) l'espace ~6 dfini par (1, XI> X:h XI:'.' X2::'!' XIX:)), on obtient une sparation linaire dans le sous-espace Xl' Xl:!
f~ +~~
1 ..
............... .
FIGURE
18.14
= 130 +
support
Son quation ne fait intervenir que les produits scalaires entre points transforms. Comme dans le chapitre 7 avec la kemel-ACP, un choix astucieux du produit scalaire P(Xj) ; (lJ(xj ) > = K(x i ; x) vite de calculer explicitemem (I) et permet d'effectuer tous les calculs dans E. Le classiteur crit alors f(x) que sur les points SUppOltS. La capacit prdictive des SVM est leve. Nous verrons plus loin que le risque de biais de surapprentssage qui parat lev, est matris par la maximisation de la marge, condition de ne pas chercher ncessairement une sparation parfaite dans (NE).
/1
K(x, y) = x, y> +
Les exemples suivanls (figure 18.15) sonl obtenus avec le noyau polynomial de degr 3 C)3 et montrent sa flexibilit (logiciel LIB-SVM):
Il
-. li:
..
."
. ., ,.' :....
,,:
-..
....
:
III,,~
a.S
...
Il
.,'
..
FIGURE
18.1 5
461
18.4
Les mthodes prcdentes ne s'appliquent pas drectementlorsque les prdicteurs ne sont pas numriques, ce qui est pourtant un cas assez courant.
18.4.1
Une solution consiste transformer (quantifier) les prdicteurs en variables numriques discrtes en attribuant des valeurs (notes ou scores partiels) leurs modalits. On cherchera des valeurs optimales ) en un certain sens li aux performances attendues de la discrimination. On a vu au chapitre 9 paragraphe 9.4.1 et au chapitre 17 paragraphe 17.7.1 que cette transformation revient remplacer les variables qualitatives par les indicatrices des catgories. Ains un problme de discrimination sur p variables qualitatives 1111' , In" catgories revient une analyse discriminante de y sur le tableau disjonctif des IHI + ... + ntl) indicatrices des prdicteurs (X1Ix:J .. IXJI)' . Cette matrice n'tant pas de plein rang, V et W ne sont pas inversibles et il y a donc une intnit de solutions quivalentes. On peut alors faire comme pour le modle linaire gnral et liminer une indicatrice pour chaque prdicteur, ce qui quivaut lui donner un coefficient nul. Dans le cas d'une discrimination entre deux classes, la fonction de Fisher calcule sur ces + ... + J/lp -p) indicatrices fournit par ses coefi1cients la quantitication recherche. Cette quantitication rend maximale la distance de Mahalanobis entre les centres de gravit des deux groupes.
(ml
18.4.2
On sait que l'ensemble des composantes de l'ACM de X = (X,lx:J .. IXp ) engendre le mme espace que X. S'inspirant de lu rgression sur composantes principales (17.5. J) la mthode Disqual (Saporta, 1975) consiste effectuer l'analyse discriminante sur une slection d'axes. En rduisant la dimension de l'espace des prdicteurs et en liminant des dimensions inutiles, on assure une plus grande robustesse des rsultats. Dtaillons les formules dans le cas de deux groupes, qui on le sait est quivalent une rgression aprs recodage de y. Notons 'Il les composantes de l'ACM el -j les valeurs propres. A l'aide de tests et aussi de l'expertise du statsticien, on liminera les composantes de faible inertie ainsi que celles ne spanmt pas suftisamment les deux groupes: il suftit d'effectuer un test de comparaison de moyennes sur chaque axe. Soit q le nombre de composantes conserves. Comme les composantes sont orthogonales, i1 est plus simple d'inverser V, qui est diagonale, que W. La fonction de Fisher tant dtinie un coefl1cient multiplicatif prs, c'est sans importance. La variable ({ score }) s qui donne la valeur de la fonction de Fisher pour chaque observation s'crit alors s =
2: u
l''''I
fi
zi avec u
g2)
=
(
462
Grce aux formules de transition de r ACM (paragraphe 10.1.3.3), il n'est pas ncessaire d'avoir calculer pour chaque observation ses coordonnes sur les axes factoriels: il suffit d'effectuer la combinaison linaire avec les mmes coefticients llj des coordonnes de ses catgories. En effet un facteur multiplicatif prs, on a zj = Xaj o a j est le vecteur des coordonnes des ml + ... + I1lp modalils sur l'axe n j, d'o:
Q
s =
2: lIJ Xa
J= 1
x.2: IlJ
a)
\~J;...''''_!-.-_-'
grille de !'com
Le score s'exprime alors directement comme combinaison linaire des indicatrices des modalits: pour chaque individu, il suftit d'additionner les scores partiels des modalits qu'il prend. La fonnule ne comporte pas de tenne constant: en pratique ce terme qui correspond au seuil de dcision pOUf classer dans un groupe sera dtennin au vu des erreUfS de classement
18 .. 4.3
(1)
Les donnes analyses, provenant du logiciel SPAD, sont relatives 468 clients d'une banque. On veut prdire la qualit du client (<< bon ou mauvais ) partr de 6 caractristiques qualitatives (voir les rsultats pour le dtail) totalisant 21 modalits. Il y a donc 15 axes. L'ACM avec la qualit client en variable supplmentaire montre un bon pouvoir prdictif: valeurs-test leves pour la variable supplmentaire sur les deux premiers axes.
TABLEAU
18.6
VALEURS PROPRES NUNERO VALEUR POURCENTAGE PEOPRE 0.3401 0.2466 0.2108 0.1948 0.1843 0.1758 0.1700 0.1597 0.1495 0.1375 0.1182 0.1137 0.1092 0.1022 0.0775 13.60 9.87 8.43 7.79 7.37 7.03 6.80 6.39 5.98 5.50 POURCENTAGE
cm1ULE
1 2 3 4 5 7
8
9 10 11 12 13
5.13
4.55
/1.37 4.09 3.10
14
13.60 23.47 31.90 39.69 47.06 54.10 60.90 67.28 73.26 78.76 83.89 88.4'1 92.81 96.90 100.00
********************************** ****************-**-******* ************************ *****,,********** ***** ********************* * ***************** ******************* ****************** ******+********** ***********,,**** **"*****,,**** ************ ****"*** ** ********** *****
Dans la figure 18.16 les tailles des points sont proportionnelles aux effectifs des modalits: on identifie facilement les modalits proches des catgories de client, mais d'autres axes vont se rvler ncessaires.
1II1II Le lecteur intress par les applications au domaine financier se reportera utilemenl Bardos (200 1) etTuftry (2005),
463
Facteur 2
o veuf
2.25
1.50
0.75
00
moins de 23 ans
0
mauvais Flient
anc. plus 12 ans 0
~
o ............... ......\Oi7U;;;~ri
clibatare anc. de 4 6 a~s
anc. de 1 4 ans
de
40 50 an. . : dlvocre
de
hKy'OU'S
5
.......................
bon cllenl
salaire
Ci
o
employ
o
-0.75
plus de 5 KF encours
anc. de 6 12 ans
-1.0
-0.5
0.5
1.0
Facteur 1
FIGURE
18.16
TABLEAU l,jODALITES
18.7
COORDONNEES
.f;::.
0'1 VALEURS-TEST
~
Im:N
:::!
LIBELLE
EFP.
P .ABS"1
-1
DISrro.
88 88. -12.!:l 150 150.00 -3.L1 1:22 122.00 2.9 lOB 108.00 .G
0.27
-o.
0.07 0.68
0.46 0.92 0.10 0.25 -0.66 .10 -],21- -0.09 .01 0.65 0.27 -0.07
6.7 -1.1 -0.El2 .23 -0.2 8.6 .50 -0.05 -9./1-12.1 0 30 0.10 0.3 1.7 0.65 2.79
.d,l 0.41 -0.07 -0.44 -0.01 0.42 -O. -1.12-l. 2.1<1 0.07 O.
1.7
.25
il
ANCI
,\Ne2
ANC3 ANC4 MIe 5
Anciennet ane. l an
anc.
moins
de l
ans
anc.
II 6 ans de G ans
:199 47 69 66 87
.00
.00 69.00 66.00
.3 .7 .l -lD.O 3.
-08
-8. O. 1.0 6.3
-7.0 -0.49 7.9 -0.32 5.5 -0.:21 -8.3 0.19 5.2 1.30
-..
Il > ::::l
0.48 .08
CO
5 . Domiciliation du salaire Soui ~ domicile salaire 316 316.00 Snon - non domicile sala.e 152 152. 7
CADH
9.4 -9.11
~9.7
9.
-0.8 O.El
6.4 -6.4
.5
-< '"
(1)
s:..I
0..
EHPL
3'
5'
.J
n ...,
ili"
.2 J 8 7.0
5.08 0.97 :2 0 il
::::l
@
(1) 1"'1' ..., (1).
oq
62
98.00 3 0 8 . 00 62.00
@
:::J
OQ
M
'" o'
VI
v.
BON
!,jAUV
7.9 -7.9
.2 6.2
-0.1 0.1
6.0 -6.0
0.0 0.0
0.00 0.00
.il c
l'tl
465
TABLEAU
18,8
Coefficients
Con:latlons
Facteurs
1
F
;:]
de la F.L.D.
1.886240 -1.. 736910 -0.03'1836 1.873010 0.001670 -0.079781 .437118 -0.702389 0.4111749 0.579235 0.383689 -0.853755 -0.084949 -0.720454 0.584582 15.19020 23.91037
Probabilit
F
F F F
3
4 5 6 7 8 9 10
F
F
I? 12
F 13
F ] 4
F 15
0.0000 0.0000 0.8893 0.0000 0.9950 0.7711 0.1174 0.0149 0.1378 0.0622 0.2323 0.0126 0.8070 0.0 1 156 0.1.573
PROBF. 0.000 PROBJ'.. = 0.000
R2 = 02
0.33515 2.00811.
'P2
TABLEAU
18.9
Ecart-type bootstrap
0.904747
O.9~!O693
O. O.9i.0071
mari
di.vorc
veut
.697!128
. :<25616 1.057110 2.230390
Anciennet
';;'le.
ou moins
.490477
1. 83 0950
plus
l~
Domiciliation du salaire domi.d.t,= salaire non domicile salaire Profession Cadre Employ profession autre Moyenne en cours moins de encoucs 'J EF encaE r s plus de
3.66J650 -7.616560
3.846700
Q.
().
8523
.119550
1.095720
0.5854.43
Q.660032
.39~'i870
.929690 . 684670
466
Le tableau 18.8 indique que les 15 dimensions ne sont pas toutes utiles. On limine les facteurs n03, 5, 6, 7, 9, 1l, 13, 15, ce qui ramne une discrimination dans un espace 7 dimensions. Les composantes tant orthogonales, les coefficients ne changent pas aprs limination ( un facteur prs). Le tableau 18.9 donne la grille de score brute avec une estimation par un bootstrap avec lOOO tirages des cart-types des coefficients; rappelons qu'il n'y a en etTet pas de formule permettant d'obtenir ces erreurs standard. Le score d'un clibataire de 30 ans ayant un compte depuis 5 ans etc. s'obtient alors en effectuant la somme -0.461863 + 1.141380 + 1.9315 + ... De te]]es valeurs ne sont pas commodes utiliser et une pratique courante consiste transformer linairement les notes de score pour qu'e]]es soient comprises entre 0 et lOOO. On ajoute aux coefficients de chaque variable une constante telle que la plus mauvaise note soit 0 : ici on ajoute + 1.31166 aux modalits de age du client}) , + 8.25115 aux modalits de situation fafiliale ) etc. On effectue ensuite une multiplication par une constante pour que le maximum soit de 1000. Le tableau 18.10 fournit ces scores aprs avoir rordonn variables et modalits selon l'amplitude de variation des scores pour mettre en vidence les variables et les modalits influentes.
TABLEAU 18.1 0 COEFFICIEN'l'S REORDONNES DE LA FONC'l'ION SCORE
rDEI\!
8
LIBELLES
!
!,joyenne en cours ENC3 - plus de 5 KF encours KF encours ENC2 de 2 ENC1 moins de 2KF encours
5
; DES
*****************~**
*****************
*
******************* *
Soui Snon
4 ANC5 ANC4 )11'1C3 ANC2 ANCI
3
Domiciliation du salaire domicile salaire non domicile salaire Anciennet anc. plus 12 ans ane. de 6 12 ans ane. de 4 6 ans anc. de l 4 ans anc. 1 an ou moins
221. 24 0.00
"*
**************** ************** **********
Situation familiale CELE - clibataire Ivln..RI - mari divorc DIVO VEUF - veuf
7 Profession CADR cadre EH PL - employ AUTE - pr-ofession autre
181}.21
168.53 117 . 60 0.00 115.05
*
********** ***
40.83
(LOO
Age du client -''IGE4 - plus de 50 ans AGE3 - de 40 50 ans AGE2 - de 23 40 ans moins de 23 ans AGEl
:2
44.35
****
***
38.93
16.67 0.00
*
*
467
En reprsentant simultanment les fonctions de rpartition du score des deux groupes, il est alors possible de choisir des seuils de dcison en fonction des risques de mauvaise classification, avec ventuellement une zone d'incertitude. La figure 18.17 illustre cette pratique: si l'on dcide qu'un client ayant un score infreur 550 est mauvais on dtecte environ 60 % de cette catgorie, tout en ne dclarant mauvais )} que 10% des bons . Inversement si le seuil pour tre class bon est 750, on reconnat environ la moiti de cette catgorie, et seuls 9.5 % des mauvais sont considrs tort comme des bons .
G2 mauvais client
G1 bon client
~r=~n
__
9.5%
30.7%
50.2%
59.7 ClIo
39.7%
550
IIIIIIIIIII
liIBIIlII
Class G2 : ' mauvais client 1 Non class: zone d'indcision Class G 1 : 'bon client'
FIGURE 18.17
c::::J ~ c::::J
750 Bien class par le modle Non class par le modle 'mauvais client' mal class dans G1 'bon client' mal class dans G2
18.5
18.5.1
Le modle suivant fournit le cadre infrentiel ncessaire l'analyse discriminante. On suppose que les k groupes sont en proportion PI P1, ... , Pk dans la population totale et que la distribution de probabllit du vecteur observation x (xh ... , xp ) est donne pour chaque groupej par une densit (ou une loi discrte)Jj(x). Observant un point de coordonnes (x" x:!, ... , xI') la probabilit qu'il provienne du groupe j est donne par la formule de Bayes:
468
1B_Analyse
discriminante et
rgression
IOglstitClUe.
P(G;lx)
p;.fj(x)
.i=1 '
2: Pi.t(X)
La rgle baysienne consiste alors affecter l'observation x au groupe qui a la probabilit a posteriori maximale.
18.5.1.1
Si 2:. = 2 2 = ... = I. k I., la rgle devient linaire. En effet ln (det Sj) est une constante et (x - f!.} I-I (x - ~i) est alors gale fi:!(x. fJ.j), distance de Mahalanobs thorique de x f.Lj' En dveloppant et en liminant x'I.-1x qui ne dpend pas du groupe on a:
Si! est estim par - - W, la rgle baysienne correspond la rgle gomtrique lorsIl - k qu'il y il galit des probabilits II priori. La rgle gomtrique est alors optimale. La probabilit a posteriori d'appartenance au groupe j est proportionnelle :
Il
Les dnominateurs tant les mmes pour les k groupes on doit donc chercher le maximum de:
fJjfj(x)
Il est donc ncessaire de connatre ou d'estimer./j(x). Diverses possibilits existent; la plus classique tant de supposer que x suit une loi NfJ(f.L, !) pour chaque groupe:
Lorsque les I.i sont diffrents cette rgle est donc quadratique et il faut comparer k fonctions quadratiques de x.
"1> ' ., ....) est en genera1 estlme par -11- Vj et IL) par gj'
Il
469
18.5.1.2
On affectera x au groupe 1 si :
f.12)
+ ln-='
Pl
_1_1- 2
J.h
:s par 11
W.
Soit:
S(x)
= X'I-I
(f.11
P-:. n1 Pl
La fonction S(x) appele score ou statistique d'Anderson est lie simplement la probabilit a posteriori d'appartenance au groupe 1. On a en effet:
P(G/x)
P=-~:......:...;.....:.-_--
(x)
PI fi (x)
+ p"!.f-:. (x)
d'o:
p
P2J;(X) Pl -exp -1+ - - .(x) -_ 1+ PI [1 (x PIfl '2
d'o ln
(~-
1 ) = -S(x).
Soit :
. P(G/x)
p=
-------,-------------------~
1 + exp (
on remarque que modifier les probabilts li priori se traduit simplement par un changement du terme constant. Dans de nombre Lises aplications, ce qui compte essentiellement est la combinaison linaire des variables, le terme constant tant laiss au choix du praticien (voir plus haut). Dans
470
ces conditions, le fait que les proportions des groupes soient conformes ou non la ralit sans importance, ce qui compte pour la qualit des estimations tant la taille des chantillons. Voici il titre d'exemple le tableau 18.11 donnuntles affectations des 45 premires des donnes d'infarctus selon la rgle prcdente. L'astrisque indique une erreur de
TABLEAU
Gl~Ol1pe
18.11
(G1!x)
p (G 2 !x)
rel
Groupe attribu SURVIE DECES DECES SURVIE ,DECES DECES SURVIE DECES SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES SURVIE SURVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES
1
2 3 4 5
6
-;
8
0.4515
0.81110 0.9597 0.2250 0.8112 0.8928 0.3202 0.8711 0.0984 0.0797 0.0138 0.0160 0.0052 0.0105 0.0019 O. 58 0.2011 0.2260 0.0022 0.1222 0.001<1 0.8629 0.4804 0.9900 0.5845 0.7447 0.7067 0.4303 .1118 0.5734 0.2124 0.9928 0.7301 0.5354 0.9943 0.1218 0.2757 0.1759 0.9555 0.0695 0.9762 0.9785 0.3340 0.2121 0.7880
10
11
12
13
14 15
16 17 18 19 20 21 22 23 24
25
26 27 28 29 3D 31 32 33 3 35 36 37 38 39
I!O
41 42 '13
44
45
SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE SURVIE DECES DECES DECES DECES DECES DECES DECES SURVIE SURVIE SURVIE DECES DECES SURVIE DECES SURVIE SUEVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES
0.5485 0.1860 0.0403 0.7750 0.1888 0.1072 0.6798 0.1289 0.3016 0.9203 0.9862 0.9840 0.9948 0.9895 0.9981 0.9742 0.7989 0.7740 0.9978 0.8778 0.9986 0.13 71 0.5196 0.0100
0.4155
0.2553 0.2933 0.5697 0.8882 0.4266 0.7876 0.0072 0.2699 0.4646 0.0057 0.8782 0.7243 0.8241 0.0445 0.9305 0.0238 0.0215 0.6760 0.7879 0.2120
471
Dans l'exemple infarctus, le logiciel a suppos par dfaut l'galit des probabilits hypothse.
{l
priori, ce qui est contestable. Les probabilits li posteriori sont donc dpendantes de cette
Sous rserve du caractre raliste de l'hypothse de multinormalit, ces rsultats sont donc plus prcis qu'une simple dcision selon la distance la plus courte. Le calcul de probabilit a posteriori montre ici que 4 classements errons sur 5 se sont produits dans une zone d'incertitude (probabilits voisines de 0.5).
18.5.1.3
Quand Pl
= 2. 2
>
La loi de S(x) est une loi de Gauss 1 dimension comme combinaison linaire des composantes de x.
E(S(x)) = IJ.'
1
1 =-(J.l1
(ILl - 1J."l) -
-2: LlTl
=
A~
"2.
V(S(x))
= (ILl
d'o:
. S(x) Slllt une LG ( 1 ., -2" Ll;;; 8.p )
Elle est gale P(2/1). Cette relation donne une interprtation concrte la distance de Mahalanobis. Si Pl
=1=
P"l on trouve:
P( ll2)
P(U
>
~"
1 fJ.,) + -ln-=
P(2/l) =
p( U >;
8."
PI
-111-= 8.Jl PI
] p..,)
Lorsque J.lh IL!. I. sont estims, S(x) ne suit plus une loi normale et utiliser DI' comme estimation de 8.1' conduit li une estimation biaise des probabilits d'erreur de classement: il
472
y a en moyenne sous-estimation de la probabilit globale d'erreur PI P(2/I) + p2 P(1I2), due entre autres raisons au fait que surestime 6.~ (voir chapitre 15, paragraphe 15.5.6C).
Di,
Pour l'exemple des infarctus comme Dp d'erreur gale P( U > 1.11) = 0.13.
= 2.223
= 4.37
conduit
une estimation du taux d'erreur voisine de 15 %. La rgle baysienne peut cependant conduire des dcisions absurdes lorsque les probabilits Cl priori sont trs dsquilibres. Supposant par exemple que Pl = 0.01 et Pz = 0.99, ce qui correspond la dtection d'un groupe rare. Il est alors facile de voir que pratiquement toutes les observations seront classes en G2 et aucune en Gl. Notons qu'une tene rgle donne un pourcentage global de bons classement de 99 % ! (moyenne de 0 % sur le groupe 1 et 100 % sur le groupe 2). En effet, si l'on '"'crit )a formule de Bayes sous la forme PCG J/x)
= PI
fi (x)
, il
. f au drmt que
pd! (x)
+ p7.f2(x)
(x)
18.5.1.4
L'hypothse d'galit des matrices 2" peut tre teste au moyen du test de Box qui gnralise celui de Bartlett pour le cas unidimensionneL Si l'hypothse
I,
= ...
Ik est vraie,
la quantit:
(n
k)ln
1)
1_ wl Inl_ Vil]
11
Il -
Tli
IIi -
SUit
1) d
Si l'on rejette l'hypothse d'galit, doit-on pour autant utiliser les rgles quadratiques? Cela n'est pas sr dans tous les cas. Tout d'abord le lest de Box n'est pas parfaitement fiable, ensuite l'usage de rgles quadratiques implique l'estimation de bien plus de paramtres que la rgle linaire, puisqu'il faut estimer chaque Ij' Lorsque les chantillons sont de petite taille, les fonctions obtenues sont trs peu robustes et il vaut mieux utiliser une rgle linaire malgr tout. Pour deux groupes le rsultat suivant est l'origine des mthodes classiques de slection . de variables: Soit un sous-ensemble de 1 variables parmi les p composantes de x,
473
Supposons que Ll~ = /11; en d'autres termes les p - 1 variables restantes n' apportnt aucune information pour sparer les deux populations; alors:
p - 1)
On peut ainsi tester l'accroissement de la distance de fvlahalanobis apport par une nouvelle variable un groupe dj constitu en prenant 1 = p - 1. Lorsque l'on fait de la discrimination entre plus de deux groupes, les tests sont ceux utilisant le A de Wilks. Le test d'galit des k esprances 1-11
1-12 = ... = J.LI. est le suivant:
A=
Iwl
Iv)
Iwl IW+BI
k, k - 1 sous Ho : f.L1
-
l,
Il -
le, le - 1 degrs de
Si le = 2, le test de Wilks el le test de la distance de Mahalanobis (Ho : Ll~ = 0) sont identiques car B tant de rang l, on a :
A=-----------') 11
1
Dp-----~----
I.L
+1
}-
(ni
Il 2)(11
1+
III -
2)
Le test de Ho : f.li f.l Vi peut s'effectuer galement en utilisant comme statistique de test la trace de W- I B appele statistique de Lawley-Hotelling qui suilla loi du T5 gnralis de Hote11ing approximable par un X~(k-I). La trace de V- I B esl appele trace de Pillai. Pour l'introduction pas pas de variables en discriminante k groupes on utilise souvent le test de variation de A mesur par:
n - k
k
que l'on compare un
Fk-I;If-k-f/'
P (- - - 1 ) Al'
1
AjJ+1
Comme en rgression multiple, il existe divers algorithmes de slection: ascendant, descendant etc. D'ailleurs pour deux groupes, les mthodes sont identiques (voir paragraphe 18.2.3).
474
L'application d'une mthode ascendante aux donnes infarctus conduit aux rsultats suivants:
The STEPDISC Procedure Fo["ward Selection: Step 1 Statistics for Entry 1 Variable FEChR INCAR INSYS PRDIA P..\PUL PVENT REPUL Value DF =
99
Fr
>
Tolerance
o .184t1
0.0719 0.'1198
OF
1,
98
Par-tial
Variable FRCAR INSYS PROIA PAPUL PVENT REPUL R-Square
F Value
Pro
>
Tolerance
C'est ensuite la variable PAPUL et la slection s'arrte car plus aucune variable n'est significative au pas n03 conditionnellement aux choix prcdents.
Forward Selection: Step 3 Statistics for Entry, Partial R-Square OF = l, 97
F Value
Pr
>
'l'olerance
0.0107
O. 0013
18.5.2
On ne fuit pas d'hypothse spcifique sur la famille de loi de probabilit. Des variantes multidimensionnelles de la mthode du noyau permettent d'estimer ij(x).
h(X) = - .
'\
12/1 i=1
Xi) L K (x -Il
H,
475
o K est une densit multidimensionnelle. La discrimination par boules}) en est un cas particulier: on trace autour de x une boule de rayon p donn dans ~,J et on compte le nombre d'observation kj du groupe j dans cette boule. On estimera alors directement P(G/x) par:
18.6
Au paragraphe 18.5.1.2 on a tabli sous les hypothses de normalit et galit des matrces de variance covariance que la probabilit Cl posteriori d'appartenance au groupe 1 se mettait sous la forme d'une fonction logistique du score, lui-mme combinaison linaire des variables. Lu rgression logistique, uppele galement modle "logit", consiste poser cette relation comme hypothse de dpart, ce qui est donc un modle plus large que celui de l'analyse discriminante probabiliste. La rgression logistique a t introduite en 1944 par Berkson en biostatistique, puis en 1973 par McFadden en conomtrie. e J3o + !l'x
1+
er'lo+!l'x
Ce modle est souvent qualiti de semi-paramtrique, dans la mesure o on modlise le rapport des densits (x) au lieu de chacune. On notera P(Gl/x) f2(X)
= P(Y =
1).
18.6.1
Interprtation
Le choix de la fonction logistique conduit une expression comprise entre 0 et 1, ce qui convent une probabilit, et correspond souvent une bonne reprsentation de certains phnomnes. Les coefficients du modle sont 1is aux odds-ratios ou rappolt de cotes de la manire suivante.
476
Considrons tout d'abord le cas d'une seule variable explicalive binaire. Par exemple x = 1 si l'on fume, x 0 sinon et Y = 1 dsigne la survenance d'une maladie. La probabilit d'tre malade si l'on fume est pey = lIx - - - - que l'on cnm-
P(Y= O/x
1) = 1 - P(Y= 1/x
L'odds est le rapport de ces deux probabilits pey = IIx = l)/P(Y = Oh = 1) analogue la cote )/ des parieurs. On effectue ensuite les mmes calculs pour les non fumeurs: la probabilit d'tre malade e 1311 l estf(Y = lIX 0) = celle de ne pas tre malade P(Y = l/X = 0)
1+
PC Y = lIx = 1)1P = Olx = = \ c'est le facteur par P( y = lIx = 0) / P (Y = O/x = 0) lequel la cote est multiplie lorsque x passe de 0 1. l'OR est suprieur 1 s'il Ya aggravation.
L'odds ratIo est alors: OR =
OR =
1)/(1 - TI(x
l}) = e 131
1T(X)/(l - 'IT(x)
x dsigne la quantit quotidienne de tabac, le rapport ne sera pas le mme selon que x s'exprime
en nombre de cigarettes, ou en nombre de paquets. Comme en rgression linaire, le produit f3x reste fixe. On peut sans difticult utiliser des prdicteurs qualitatifs de la mme manire que dans le modle linaire gnral. Chaque variable qualitative III modalits est remplace par III - 1 indicatrices aprs limination d'une des modalits, dite modalit de rfrence, qui aura un coefficient nul. Les comparaisons de coefficients se font alors par rapport cette modalit: une valeur proche de zro ne signifie pas qu'une modalit est sans effet, mais qu'elle est pro~ che de la modalit de rfrence.
18.6.2
Estimation
Elle s'effectue par la mthode du maximum de vraisemblance partir d'un chantillon Ud de 11 observations lVlxj) prleves dans la population totale. La vraisemblance correspond d'habitude la probabilit d'observer les (Yi' Xj) mais il s'ugit ici d'une vraisemblance conditionnelle puisque l'on ne modlise que 1T(X) :
_
L(/3o. (3) -
II1
II
e f3l1 +Jl'x
)y, ( _
x
+e
[P-P'
Il'
e f3i)+/l'x
+e
[3
~11'
)1--'"
x
il'
i=
II1 1T(Xi y, (l
Il
477
Notons
'1j
1T(Xj)'
C(r:.n, (3)
2:
i=1
[Yi log
'11
(1
2: (Yi i=1
'1;)
j = 1, ... ,p
qui n'a pas de solution analytique et se rsout par des procdmcs de calcul numrique. On obtient la matrice de variance-covariance asymptotique des estimateurs, d'o les erreurs standard des coefticients, en appliquant les rsultats du chapitre 13, paragraphe 13.4 par inversion de la matrice d'infonnalion de Fisher:
Il
Il
-1
V(~)
L'iT;(1
i""l
1TJ
Lxfrfr,(l
i=1
rfr;)
-a2c~~r
ar:.-
l'l=~
Il
LXffii(l - 'n";)
i=1
2: (.rn::!fii (l
1=1
Il
- fiJ
Le tableau 18.11 donne les rsultats de la procdure Logistic de SAS pour les donnes infarctus (on modlise la probabilt de dcs). Le khi-2 de Wald est gal au carr du rapport du coefficient estim son erreur standard estime: il est analogue au carr du T de Student de la rgression linaire multiple. Aucun coefficient n'apparat signiticatif, ce qui s'explique par un phnomne de multicolinarit marqu. Les estimations prcdentes supposent un chantillonnage alatoire simple dans une population avec pour consquences que les effectifs observs de Cl el C2 sont alatoires d'esprances respectives npl et HP::!. Dans de nombreuses applications pratiques on utilise un chantillonnage stratifi (cf chapitre 20) o Tl 1 et Il} sont fixs et o les proportions
478
TABLEAU
18.11
Pl-
DF
Estimation
Khi 2 de \'-Jald
Odds
ratio
Khi
I..jmites confiance
1 1 1 1 1 1 1.
.251
103.790 2.414 1.524 1. 837 1. 232 1. 008
PI et P2 ne sont pas respectes: en particulier il est courant de sur-reprsenter le groupe le plus rare. On montre alors, comme pour l'analyse discriminante, que seule change
l'estImation du terme constant !3n laquelle il suffit d'ajouter ln (;:) On prendra garde que si les probabilits a priori sont inconnues le terme constant ne pourra tre estim et que donc les probabilits a posteriori seront incorrectes (dtinies une transfonnation monotone prs). S'il agit seulement de calculer un score de risque, c'est sans gravit.
18.6.3
Trois mthodes sont disponibles pour tester rapport d'une variable au modle: Le test de Wald, dj prsent, Le test du rapport des vraisemblances qui consiste calculer pour chaque variable Vraisemblance sans la variable) -21n ( V' ralsem bl ance avec l ' bl e Il vana Le test du score U{(3)'PIJJ(~HJI-1 U{(3)~/I, o .1 est la matrice d'information de Fisher et U le vecteur des drives partielles de la log-vraisemblance estims SOlIS la contrainte ~i O. En rgression logistique simple, le score est gal nr:!., o r est le coefficient de corrlation linaire (abusif!) entre Y et x Ces trois tests suivent asymptotiquement un khi-deux un degr de libert sous l'hypothse de nullit du coefficient thorique. La figure 18.18 illustre le comportement de la logvraisemblance et permet de comparer ces trois tests qui donnent en gnral des rsultats quivalents: le test de Wald compare l'cart entre le coefficient thorique et sa valeur estime en abscisse, le test du rapport des vraisemblances compare, la diffrence en ordonne et le Lest du score compare zro la pente de la tangente au pOnt thorique. Ces tests peuvent tre utiliss pour des algorithmes de slection (ascendante, descendante ou complte). La liste des meilleurs modles (selon la valeur du khi-deux associ au score) de une 7 variables est donne dans le tableau 18.12.
479
('
Log-vraisemblance
/
.11
FIGURE
18.18
TABLEAU
18.12
Nombre de variables
1 2 3 4 5 6 7
On retiendra le modle deux variables INCAR PAPUL, les deux mmes qui avaient t slectionnes en analyse discriminante d'o le modle:
DF
1 1.
Khi 2 de Ha1d
Pr > Khi :2
0.1.004
Odds ratio
< 0001
0.0012
0.011 1.223
0.002 1. 083
0.067 1.382
Ces tests peuvent servir valider globalement un modle c'est dire tester la nullit simul~ tane de tous les coefficients ~ (sauf de la constante). Ains la vraisemblance en l'absence
480
(~,")""
HO
s'estime. dans le cas d'chantillonnage global iid par la proportion d'observations de Gl. On comparera -21nL
Il + 2ln (( -;)111
18.6.4
La rgression logistique est souvent oppos tort l'analyse linaire discriminante de Fisher, certains praticiens croyant que la rgression logistique serait plus scientifique ; l'incomprhension de la proprit indique en 18.2.3 qui montre que la fonction de Fisher pellt s'obtenir l'aide d'une rgression ordinaire a galement beaucoup jou. En ralit si les deux modles diftrent par leurs hypothses, ils sont en ralit assez proches et les scores obtenus sont dans la pratique trs voisins. Atitre d'exemple le coefficient de corrlation entre les scores de Fisher et logistique dans le cas infarctus vaut 0.99881 ... Les deux mthodes reposent sur des modles probabilistes spcifiant des lois conditionnelles : les lois de Y/x pour la logistique, les lois de x/Y pour l'analyse discriminante. Les deux modles aboutissent une fonction de score linaire du mme type S(x) = 130 + f3'x. La diffrence rside dans le mode d'estimation: maximum de vraisemblance pour la logistique, moindres carrs pour Fisher. Prcisons d'ailleurs que si fi et Ii sont des lois normales de mme matrice de variance, alors l'estimation des moindres carrs donne par la fonction de Fisher concide avec l'estimateur du maximum de vraisemblance complet et esL donc plus prcise que l'estimation fournie par la rgression logistique qui n'est qu'un maximum de vraisemblance conditionnel qui ignore l'information sur les distributions des x. En thorie la rgression logistique est mieux adapte au cas non-gaussien. Cependant la fonction de Fisher ayant aussi une justification gomtrique peut tre applique en dehors de tout contexte probabiliste. Les coefficients sont dtermins de faon unique et ont une interprtation en termes d' odds ratio pour la logistique, alors que pour la fonction de Fisher, ils sont dfinis un facteur multiplicatif prs. Il existe cependant un cas o la rgression logistique ne fonctionne pas, celui de la sparation linaire complte: les estimateurs n'existent pas (non-convergence), dfaut que ne possde la fonction de Fisher que dans le cas fort rare o les deux centres de gravit sont confondus. Le fait que les erreurs-standard ne sont pas calculables en analyse discriminante alors qu'elles le sont en logistique est un argument en faveur de cette dernire, encore faut-il prciser qu'elles sont asymptotiques et que le bootstrap peut fournir des erreurs standard en discriminante. La rgression logistique a t conue plus comme un modle permettant de mettre en vidence des facteurs intluents que comme une technique dcisionnelle de prvision individuelle. Dans certaines applications (credit scoring en particulier), le score !ln + l3'x est utilis des fins de prvision: si l'objectif est purement oprationnel, il convient alors de choisir entre les mthodes en termes de pouvoir prdictif ou taux d'erreur, et non selon la valeur de statistiques de test, (voir plus loin), ni selon des prsupposs idologiques.
481
18.7
VALIDATION
La qualit d'un score ou d'une rgle de classement n'est pas seulement un problme de test statistique, ou d'estimation d'une distance de Mahalanobs. En effet les statistiques de lests, pour utiles qu'elles soient, ne sont pas directement lies aux performances en termes de classement et reposent sur des hypothses pas toujours vrifies. Il faut non seulement dtinir des indicateurs pertinents, mais aussi pouvoir comparer diffrentes mthodes l'aide de ces indicateurs. La comparaison de performances ne va pas toujours de soi, quand des modles n'ont pas le mme nombre de paramtres: Je modle le plus complexe sera plus performant sur les donnes qui ont servi l'estimer, mais cela sera souvent trompeur. Il faut donc comparer les capacits prdictives sur de nouvelles donnes (ou observations supplmentaires), ce qui conduit il partager les donnes dont on dispose en plusieurs sous-chantillons. Le chapitre suivant reprendra ce problme sous un point de vue plus gnral.
18.7.1
Procdure de classement
Quelle que soit la mthode (discrimination linaire ou quadratique, logistique, SVM etc.) s l'objectif est de prdire]' appartenance des classes, les rsultats tinaux se prsenteront sous forme d'un tableau de classement ou matrice de confusion obtenue en appliquant la mthode des observations dont l'appartenance est connue et compare l'appartenance prdite (voir 18.1.3). Ainsi pour les donnes infarctus, en utilisant la fonction de Fisher avec les 7 variables, et en utilisant la rgle baysienne avec galit des probabilits Cl priori, on obtient 87 % d'observations bien classes:
De PHONO
DECES 46 .20
8
SURVIE
Total
5 9.80
51
100.00
50 100.00 101 100.00
42
84.00 47 '16.53
16.00
54
53.
Or si l'on se contente de classer les observations qui ont permis d'estimer le modle ({ resubstitution })) on commet une erreur mthodologique qui peut-tre grave si la taille des chantillons est peu leve (jusqu' quelques centaines) et le modle complexe. En effet on aura tendance trouver des rsultats flatteurs puisque r on utilise deux fois les mmes donnes, une fois pour estimer les paramtres du modle et leur donner donc les meilleures valeurs possibles, et encore une fois pour classer les donnes. Un modle 50 paramtres donnera toujours un excellent ajustement, mais se rvelera inefficace l'avenir. La capacit prdictive ne peut se juger que sur des donnes indpendantes.
482
On recommande donc de sparer alatoirement les donnes en deux ensembles dits d'apprentissage et de test. L'ensemble d'apprentissage sert estimer un modle qui va tre uti tis sur l'ensemble lest. Ceci n'est toutefois pas suffisant et pour obtenir non pas une seule estimation du taux de bien classs, mais galement un intervalle de confiance, il faut rpter le tirage alalOire plusieurs fois. On recommande d'effectuer un tirage stratifi dans chaque groupe pour viter des fluctuations parasites des effectifs des groupes. Lorsque le nombre d'observations disponibles est faible, comme dans le cas des infarctus, il n'est pas possible de sparer les donnes en deux sous~ensembles. On utilise alors la validation croise qui consiste effectuer 1l analyses discriminantes: on te tour tour chaque observation que l'on prdit l'aide d'un modle estim sur les 11-1 observations restantes. Cette mthode s'apparente donc aujack-knife et au calcul du press en rgression. On obtient des estimations de biais faible, vOre nul, mais avec une variance pas toujours ngligeable. Voici le rsultat pour les donnes infarctus: l'estimation du taux de bons classements diminue 84 %
De PRONO
DECES
4t!
SUHVIE
'7
Total
DECES SURVIE.
'Total
51
100.00
86.27
9 18.00
1.3.73
41 82.00
t18
50
100.00 101 100.00
53 52.48
47.52
Il faut bien comprendre que ces faons de faire ne servent qu' estimer la capacit prdictive du modle en l'absence de nouvelles donnes, mais que les paramtres doivent toujours tre estims l'aide de la totalit des observations.
18.7.2
Ce qui suit ne concerne que le cas de deux groupes. On appellera ici score une mesure permettant de noter Je risque d'appartenir au groupe 1. Un score n'est pas forcment obtenu par une mthode linaire, toute mthode pemlettant de calculer une probabilit d'appartenance convient: une probabilit est un score compris entre 0 et 1. On commencera par tudier la sparation entre les distributions du score selon les deux groupes comme dans la figure 18.17. Cependant l'outil le plus pertinent est la courbe ROC. Abrviation de Receiver Operating Curve , cette courbe rsume Jes performances de toutes les rgles de classement que l'on peut obtenir en faisant varier le seuil de
483
dcision. Supposons que le groupe dtecter prioritairement soit celui des scores levs. La rgle de dcision se compare un test d'hypothse entre Hl (population l) et HO (population 2). Le vocabulaire (positifs, ngatifs) est issu de problmatiques de dtection (sgnal, dpistage mdical) et peut se ramener aux concepts d'erreurs de premire et seconde espces du chapitre 14. On appelle faux positif une observation classe en Gl alors qu'elle appartient II Gl etc. Si l'on dsigne par s le seuil au del duquel on classe en G 1, on dfinit la : sensibilit comme le % de vrais positifs: 1 spcificit comme le % de vrais ngatifs: 1 -
= P{S
< slGl) :
3 2
r\
0.2
Score
0~~~~~1~~~~~~
0.8
(X 1000)
FIGURE
0.2
004
0.6
0.8
Score
1 (X 1000)
18.19
Si s = -00 toute observation est classe en Gl donc 1 - f3 = 1 mais 0' = 1. En augmentant s on diminue la sensibilit mais on augmente la spciticit. La courbe ROC (figure i8.20) donne alors l'volution de la proportion de vrais positifs l faux positifs 0'.
f3 en foncton de la proportion de
Courbe ROC
XxxxxXx
~~
'XXXXXXX)<X
xxx;:
xxxx
XXi<
0,6
gj 0,4
0,2 0,0
:0 'iii c
0,0
0,2
0,4
0,6
0,8
1,0
1 - Spcificit
FIGURE
18.20
484
La courbe ROC est invariante pour toute transformation monotone croissante du score, en raison des proprits des probabilits: on peut donc sans sans changer la courbe ajouter (ou multiplier par) une constante positive, prendre la probabilit la place du score etc. La courbe ROC ne dpend que du classement des valeurs. Plus les deux distributions sont spares, plus la courbe ROC se rapproche du carr. Si les deux distributions sont identiques, la courbe se confond avec la diagonale. La surface situe sous la courbe ROC note AUe (~( area under curve)) est une mesure de la performance d'un score :
Aue = L~= -~ (1
- [3(,,))<I,,(s)
Elle varie entre 0 et I! en pratique 0.5 et 1, car si AUe < 0.5, cela signite que les scores ont t inverss. Si AUC > 0.5 on utilise galement un coefficient dit de Gini qui est le double d la surface comprise entr la coUrbe ROC et la diagonale et qui vaut donc 2AUC-1.
H
Soit XI la variable dont la loi est celle du score conditionnellement Gl, idem pour X!. Un calcul de convolution (loi de XI X~) montre que la surface sous la courbe ROC thorique est gale P(X] > Xl) si l'on tire au hasard et indpendemment une observation de Gl et une observation de G2. Cette proprit permet de trouver simplement une estimaton de l'AUe. En effet la probabilit que XI > Xl s'estime par le pourcentage de paires d'observations (une de Gl, l'autre de G2) concordantes, c'est dire telles que le score de l'observation de Gl est plus grand que le score de l'observation provenant de G2. Il Y a en tout 111111 paires. La proportion de paires concordantes n'est autre que la slatistique U de Mann-Whitney tudie au paragraphe 14.4.4.2, elle mme fonction de la statistique de Wilcoxon.
485
La figure 18.21 permet de comparer les scores issus de la fonction de Fisher et de la rgression logistique pour l'exemple infarctus en ne gardant comme prdicteurs que les variables Tncar et Papul : la diffrence entre les courbes ROC est pratiquement inexistante. Les Aue valent respectivement 0.945 et 0.943.
L'AUe ne donne toutefois pas un ordre total pour classer des modles car les courbes ROC peuvent se croiser. De plus quand les modles ont des complexits diffrentes, la comparaison doit tre effectue sur les observations d'un chantillon test.
9 11
Mthodes
L'augmentation de la puissance de calcul a permis le dveloppement de nouvelles mthodes de prdiction utilisant une approche algorithmique et issues plus souvent de travaux d'informaticiens que de statisticiens. Arbres de dcision, rseaux de neurones, plus proches voisins sont ainsi couramment utiliss en data minng et sont en concurrence avec les modles plus statistiques tudis aux chapitres prcdents. D'un autre ct des techniques statistiques labores de rgression non paramtriques. ou de modlisation non-linaire via des transformations fonctionnelles (cf. les SVM) sont devenues disponibles. On peut galement combiner diffrents modles pour en amliorer les perforn1ances : on parle alors de mthodes d'ensemble, de mta-modles ou mta-heuristiques (<< bagging , boosting en sont des exemples). Ces approches empiriques peuvent donner lieu une thorisation expliquant leurs performances ; le lecteur intress se reportera r excellent livre de T. Hastie, R. Tibshirani, 1. Friedman (2001). La gamme de modles offerts au praticien est donc de plus en plus vaste. La question du choix d'un bon modle, sinon du vrai modle tern1es que celui du meilleur ajustement aux donnes :
GI
choix d'un modle ayant de bonnes capacits prdictives sur de nouvelles observations Ce chapitre prsentera quelques uns de ces aspects ainsi que l'apport de la thorie de l'apprentissage.
19.1
Dveloppes autour de 1960 et trs utilises en marketing, ces mthodes dlaisses par les statisticiens ont connu un regain d'intrt avec les travaux de Breiman & al. (1984) qui en ont renouvel la problmatique: elles sont devenues un des outils les plus populaires du data min;ng ou fouille de donnes en raison de la lisibilit des rsultats. On peut les utiliser pour prdire une variable Y quantitative (arbres de rgression) ou qualitative (arbres de dcision, de classification, de segmentation) l'aide de prdicteurs quantitatifs ou qualitatifs. Le terme de partitionnement rcursif est parfois util1s.
488
19. L 1
Le procd consiste fI la premire tape diviser l'chantillon d'apprentissage en deux sous ensembles l'aide d'un des prdicteurs Xl, x 2, ,xl'.. Ensuite on recommence sparment dans chaque sous-ensemble etc. Pour chaque variable explicative. il faut donc trouver la mei1Jeure partition de ses valeurs ou modalits en deux sous-ensembles selon un critre d'explication de y. Il s'agit donc d'une classification descendante but prdictif oprant par slection de variables: chaque classe doit tre la plus hornogne possible vis vis de y.
III
Partant de l'ensemble on cherchera le diviser en deux sous-ensembles d'effectifs tels qu'en moyenne on amliore le plus possible l'homognit des deux classes.
III
et
Le nombre de divisions en deux sous-ensembles que l'on peut raliser aide d'un prdicteur (et que l'on doit donc examiner pour choisir lu meilleure) dpend de la nature de ce prdicteur : si x est qualitatif nominal m modalits, il y a 2111 - 1 -1 dichotomies possibles si x est qualitatif ordinal 1IJ modalits et que les coupures doivent respecter l'ordre, il n'y a plus que 111-1 dichotomies si x est numrique li: valeurs distinctes, il y a J.;:- 1 dichotomies ou coupures possibles entre deux valeurs. En prsence d'un prdicteur qualitatif. on pourrait utiliser des arbres non binaires en dcoupant en 111 sous ensembles: cette ide n'est en gnral pas bonne car elle conduit des subdivisions avec trop peu d'observations et souvent non pertinentes. L'intrt des arbres binaires est de pouvoir regrouper les modalits qui ne se distinguent pas vis vis de y.
19.1.1.1
Arbres de rgression
Si Y est numrique, on utilisera de faon naturelle la variance de la classe comme mesure d'homognit. En divisant en deux sous-groupes on cherche alors il minimiser la variance intra-groupe ou ce qui est quivalent maximiser la variance inter-groupe. Pour deux groupes
y)2) est lie de manire simple la n,Il ') _ _ ~ - - Cv 1 - 1")diffrence entre les moyennes (calcul laiss au soin du lecteur) : \linter 11'1 -
la variance inter-groupe
Vin1t!r
= ! (fll(Y'
Il
)if + 111(Y'1 -
La coupure optimale pour une variable qualitative nominale ln modalits doit respecter l'ordre induit par la moyenne de y. On rordonne donc les catgories de x selon Yi et il n'y a plus que m-! dichotomies examiner au lieu de 2111 - ' -1.
19.1.1.2
Discrimination en k classes
Si Y est quaHtative III modalits on dfinit tout d'abord une mesure d'impuret d'un ensemble vis vis de y. Cette mesure doit tre nulle si tous les individus appartiennent ?l la mme modalit de y. maximale si les m catgories sont en proportions gales. Les deux mesures les plus usuelles sont l'entropie
2: Pi ln (Pi)
i=/
l;
2: pjCl
j=1
Pi)'
maximale de l'impuret.
489
19.1.1.3
Si Y n"a que deux modalits en proportions p et I-p l'indice de Oni vaut 2p(l-p) et a un comportement trs proche de l'entropie comme le montre la figure 19.1 o l'entropie a t divise par 11n(0.5) pour avoir 0.5 pour maximum.
0.5
0.4
\----+-;l-:f----~---------1f__--~_t_---
0.3
\_---+-I-I--------I------li----mmmm-1 \ - - ' , - - -
0.2
\--f-f---+----~----\_----~--_'r_'r-
0.1r+~---+------~------~----~----~
0.2
0.4
0.6
0.8
P
FIGURE
19.1
Sur le plan pratique l'indice de Oin prsente les avantages suivants: Un calcul simple montre que la diminution d'impuret au sens de Oini vaut
sous-ensembles obtenus aprs division. Au facteur 1 prs. l'indice de Oini se confond avec la variance de la variable indicatrice de la modalit 1. L'indice de Oini prsente alors la mme proprit que la variance ntraclasse qui permet de rduire de 2111 - 1 1 m- 1 le nombre de dichotomies tudier si ]' on ordonne les catgories de x selon les proportions d'une des modalits de x.
19.1.2
Pour prdire y, il suffit de parcourir l'arbre depuis le sommet pour dterminer quel nud terminal ou segment. appartient une observation x. Si y est numrique, la prvision sera la moyenne des observations du segment de x. Si les prdicteurs sont numriques, il s;agit d'un modle de rgression constante par morceaux. selon des pavs de ~I' obtenus par dichotomies successives paralllement aux a'\.es de coordonnes. La qualit de la rgression peut tre value l'aide d'indicateurs classiques (elTeur quadratique, R2 etc.) Si y est qualitative. x sera class dans le groupe le plus frquent (rgle majoritaire). On tablit alors comme en discrimination un tableau de classemenl. On peut aussi attribuer x
490
une probabilit conditionnelle d'appartenance, partir des proportions des groupes dans le segment, d'o la possibilit de tracer ventueUement une courbe ROC, mais le nombre de valeurs distinctes de cette probabilit conditionnelle est souvent faible puisque gal au nombre de segments tenninaux. Voici titre d'exemple (figure 19.2) un arbre obtenu sur les donnes du paragraphe 1S.4.3 avec un souschanti11on de 374 individus:
52(57%)_
40 (43%) And = {ANC3. ANC4. ANC5 ... ' - - _ - ' - - ' - = = - _ - J
III
111(80%)_
Domi ={Snon}
27(20%)
22 (18%) 97(82"/o}_
FIGURE
19.2
Cet arbre se lit sous fonne de rgles logiques: un client qui domicilie son salaire ET qui a une anciennet de moins de 4 ans ET un encours moyen de plus de 2kF est class bon alors que celui qui ne domicilie pas son salaire est cla.. s mauvais . Le taux d'erreur de l'arbre s'obtient en faisant la somme des effectifs des minoritaires de chacun des 4 segments terminaux.
Matrice de confusion PREDIT
OBSERVE BON
NAv
BON 163
67
t-1AUV
25
119
Le taux d'erreur est de 24,6 % du mme ordre que celui de la mthode de score mais sur l'chantillon d'apprentissage.
19.1.3
Le nombre de nuds terminaux croit exponentiellement avec le niveau de l'arbre et il est ncessaire de fixer des limites, sinon l'arbre est trop grand et inutilisable car s'ajustant trop bien aux donnes d'apprentissage: en laissant crotre indfiniment l'arbre il peut se faire que l'on ne s'arrtera qu'avec des nuds terminaux rduits une seule observation. Le taux d'erreur de classement sera alors nul, puisque chaque individu sera affect sa dasse ! Jusqu'aux travaux de Breiman & al (1984), l'usuge tait de faire des tests d'galit de moyennes ou de proportions en se tixant des seuils pour dterminer si un nud devait tre
491
dcoup ou non. Ces tesls en cascade conditionns par les dcisions prcdentes ont t juste titre critiqus. La mthodologie CART ) consiste ne pas fixer de seuil, laisser crotre l'arbre avec pour seul cri tre d'arrt un effectif minimal par nud et ensuite de procder un lagage astucieux en utilisant un chantillon test ou une procdure de validation croise. Voici succinctement(l) les principes de la mthode clans le cas de la discrimination (prvision d' une variable qualitative). Soit T o ]' arbre maximal obtenu comme nous venons de l'indiquer. L'objectif est de trouver un T de T o obtenu en coupant certaines branches et qui ralise un bon compromis entre sa perfonnance mesure par le taux ou cot d'erreur en apprentissage C(T) et sa complexit mesure par le nombre de segments terminaux ITI. On utilise une mesure pnalise de la performance gale C(T) + ex ITI o ex est un paramtre de rglage que nous prciserons plus tard.
sous~arbre
En tern1es d'erreur de classement le meilleur arbre est forcment le plus grand. Considrons pour simplitier que ITol = 211 avec q niveaux. Il existe ITol12 sous-arbres avec ITol - 1 segments tern1inaux obtenus en supprimant une des dernires divisions au niveau q - 1. On choisit alors le sous-arbre le meilleur en terme de cots d'erreur C(T). On poursuit alors l'lagage pour obtenir un sous-arbre ITol - 2 segments terminaux etc. jusqu' arriver la racine. On dispose alors d'une suite de sous-arbres embots (les branches coupes ne repoussent pas .. ) de qualit de moins en moins bonne. La tigure 19.3 illustre cette dmarche en partant d'un arbre 8 terminaux (tigure 19.3a), il y a 4 sous arbres 7 terminaux. Le meilleur est celui de la figure 19.3b. Il Y a ensuite 3 sous-arbres 6 terminaux dont le meilleur est en 19.3.c. Il reste ensuite deux choix pour un sOlls-arbre 5 terminaux 19.3.d, puis une fois ce choix fait, deux possibilits pour un sous-arbre 4 tenninaux et ensuite il n'y a plus de choix pour passer 3 (19.3.f) puis 2. puis 1 segment. Une solution simple pour choisir un de ces sous-arbres consiste utiliser un chantillontest et dterminer lequel de ces sous-arbres a la meilleure capacit prdictive, mais on risque de trouver un arbre complexe. La solution de Breiman & al. est plus labore: c'est ici qu'intervient le paramtre ex (ce qui prcde revient prendre a = 0). Pour ex fix, il existe un sous-arbre minimisant C(T) + alTI puisque quand 111 diminue C(T) augmente. Pour trouver la valeur adquale de a on procde par validation croise: on divise les donnes disponibles en 10 parties (par exemple), que l'on te tour de rle et que l'on prdi t l'aide des 9 autres. On fai t varier a et on choisit la valeur qui minimise la moyenne des cots d'erreur. La mthode s'tend aux arbres de rgression en prenant pour C(T) la moyenne des carrs des elTeurs.
19.1.4
Avantages et inconvnients
Le principal avantage est l'extrme lisibilit qui fait que tout utilisateur peut comprendre et utiliser un arbre. Parmi les autres avantages figure le fait de pouvoir utiliser des prdicteurs de toute nature, de ne faire aucune hypothse sur leurs distributions, de hirarchiser et slectionner les prdicteurs.
I_Voir I\lakache, Confais (2003) pour un traitement dtaill.
Moyo ~(ENCI)
FIGURE
19.3a
l!iR
'
fi2 (5300)'
Dom; = (SOUI)
16~ (fiS.,,)
lIl!!!!iI!I
Anr.i= rANe], Atle4, ArleS '"
wu ("o~_") il
10~
111{nO'0)~ 27 (20",;')
(:,IE;) ,
Pmi
""(lU"") Iii 97 (2~\,) :
~(CADF1,HIPL)
~(O'~")~ 1 (20',;) ,
Pr~l=
(AUTR)
0(0%)
2 {IOO'd " ,
FIGURE
19.3b
Moyo = (ENC1)
J (12<;;')
Il
22 (nO",)
Demi = (SOUI)
165 (5';') ~
n~(Js,,,)
:-,'
An"
4{ilD",\~
1 (20%) ~_
FIGURE
19.3c
493
FIGURE
19.3d
FIGURE
19.3e
FIGURE
19.3f
Malgr les progrs mthodologiques les inconvnients sont non ngligeables: les arbres sont instables; de lgres variations dans les donnes peuvent conduire tl d'autres choix de nuds qui deviennent irrversibles puisque chaque coupure dtermine les autres. Les arbres ne peuvent tre utiliss qu'avec de grands chantillons de plusieurs centaines ou milliers d'observations. C'est pour cela que nous n'avons pas prsent d'arbres pour les donnes intlU'ctus ou voitures.
19.2
RSEAUX DE NEURONES
Les rseaux de neurones sont des outils puissants pour prdire des phnomnes nOI1 linaires. Dvelopps dans les annes 80, ils ont connu un vif succs auprs d'utilisateurs non statisticiens cherchant avant tout des performances. grce en partie 1eur vocabulaire
494
voquant des analogies biologiques. Ils apparaissaient magiques et mystrieux (Hastie & al. p. 350). La technique peut pourtant se dcrire simplement. Nous nous limiterons au cas du rseau le plus connu : le perceptron multicouche, issu des premiers travaux de Rosenblatt (1958). Pour des complments sur les relations entre rseaux de neurones et statistique )), on se reportera au livre ayant ce titre dit par S. Thiria & al. (l997).
19.2.1
Le perceptron multicouche
Il s'agit d'un modle utilisable aussi bien en rgression qu'en discrimination. Les prdicteurs Xl, X2, . . . , x" sont numriques. Dcrivons un rseau monocouche k neurones cachs : On commence par dfinir plusieurs combinaisons linaires WU"
l'
Les coefficents \\jk sont parfois appels poids synaptiques. Pour le statisticien ce sont des paramtres estimer Ces combinaisons linaires sont ensuite trans'onnes par une fonction non-linaire, dite fonction d'activation qui est en gnral une fonction logistique nppele parfois sigmode:
Il'1)(
:'k =
)-1
2:
T'
IIjk X )
Le neurone est le calculateur qui effectue ces oprations et est reprsent par un nud ou une petite bote sur le schma. Les:." sont ensuite combins de faon similaires pour aboutir des valeurs de sortie qui sont prises pour prvision .v de y. La sortie est unique pour une rgression simple, multiple sinon, comme pour une discrimination. Le ou les )' sont alors des fonctions non linaires complexes des .\:.1, X2, .....r". On retrouve des modles classiques dans certaines contigurations particulires: la rgression logistique pour un rseau sans couche cache avec y binaire. La figure 19.4 (logiciel Weka) illustre un tel rseau pour une discrimination entre les trois espces d'iris: les 4 variables alimentent :2 neurones d'une couche cache dont les sorties sont combines pour obtenir 3 fonctions. une pour chaque espce. Une observation est alors classe dans l'espce qui correspond la valeur maximale des 3 sorties. Ce rseau comporte :2 X 5 + 3 X 3 = 19 paramtres estimer. En effet avec p variables, C neurones sur la couche cache, et s sorties, il y a p + 1 coefficients pour chacune des c fonctions :b puis c + 1 coefficient'\ pour chaque sortie SOil en tout c(p + 1) + s(c + 1) paramtres. Dans un rseau multicouche les sorties d'une couche deviennent les entres d'une autre couche etc. On introduit parfois une entre supplmentaire correspondant une variable constante gale 1 pour grer les termes constants dans les formules. Le perceptron multicouche (une couche sufi1t) possde une proprit d'approximation universelle au sens o toute fonctionf de p variables Xl, x2 , . , X'I peut tre approxime d'aussi prs que l'on veut en augmentant le nombre de neurones de la couche cache (Hornik & al. 1989), condition d'utiliser une fonction d'activation non linaire comme la logistique.
495
::::::>IIi~--l
Irls-:versicolor
. --~1;----l 1ris~vrrgirirta
FIGURE
19.4
Les rseaux de neurones avec perte quadratique et fonction d'activation linaire aboutissent aux mmes modles que la rgression linaire ou la discrimination linaire de Fisher et ne prsentent donc pas d'intrt pratique.
19.2.2
L'estimation
Les paramtres sont estims pour minimiser une fonction de cot (somme des carrs des carts si la rponse est numrique, cot d'erreur de classement en discrimination). Compte tenu du caractre non-linaire, on recourt des algorithmes d'optimisation numrique que nous ne dtaillerons pas ici. Certains algorithmes, de type gradient stochastique, consistent au cours de la phase d'apprentissage lire plusieurs fois squentieHement les donnes en modifiant au fur et mesure les coefficients pour amliorer la prdiction des valeurs suivantes. Cette phase d'apprentissage peut tre extrmement longue. Outre le fait que ces algorithmes peuvent aboutir des optimums locaux, le problme essentiel est le surapprentssage d au grand nombre de paramtres ds que le rseau est un peu complexe: pour profiter de la proprit d'approximateur universel on prend souvent un nombre lev de neurones sur la couche cache. Le choix de r architecture du rseau: nombre de couches et de neurones par couche est galement dlicat et se rsout par des procds empiriques comme J'emploi d'ensembles de Lest ou la validation croise. Le surapprentissa~ ge conduit des coefficients instables et on emploie alors des mthodes de rgularisation du type rgression ridge, dj tudie au chapitre 17 paragraphe) 7.5.2 appele ici weiglzt
Il
paramtre de rglage positif. Plus est grand plus les coefticients sont rduits, le choix de se faisant typiquement par validation croise. Les variables d'entre Xl, Xl, . . . , J/ doivent au pralable tre standardises afin que la rgularisation les traite de la mme manire. Les rseaux de neurones sont conus pour des Xj numriques. Lorsque les prdicteurs sont qualitatifs, on peut uti1iser les variables indicatrices des modalits. mais il est prfrable de procder comme dans la mthode Disqual avec les coordonnes sur des axes factoriels.
496
Bien que la prdiction puisse s'crire comme une formule mathmatique puisque l'on enchane des combinaisons linaires et des fonctions logistiques, cette formule est d'une complexit telle qu'en gnral elle n'est pas explicite et le rseau est ensuite utilis en bote noire )}. Si l'avantage des rseaux est leur tlexibilit. un inconvnient majeur dans certaines applications est l'absence de lisibilit. Faut-il utiliser les rseaux de neurones? Ils ont prouv leur efficacit et font maintenanrt partie de la panoplie des outils disponibles, mais la difficult bien les paramtrer est un handicap. D'autres mthodes comme les SVM permettent d'obtenir plus facilement des rsultats de qualit comparable avec souvent une formulation plus simple.
19.3
COMBINAISON DE MODLES
Parfos appeles mthodes d'ensemble, mta-heuristiques, les mthodes prsentes dans ce paragraphe cherchent amliorer les prdictions obtenues raide de diffrents modles par combinaison ou pondration. Il peut s'agir de modles issus de la mme famille (modles paramtriques ou non) comme des arbres de dcision obtenus il l'aide d'chantllons diffrents, ou de modles distincts (rgression logistique et rseaux de neurones). La pondration probabiliste de modles sera tudie au paragraphe 19.4 lors de l'tude du critre BIC.
19.3.1
L'tude par bootstrap d'une mthode consiste tirer avec remise B chantillons de taille Il dans l'ensemble des 11 donnes disponibles. On peut ainsi tudier les distributions d'chantillonnage approches des paramtres et performances de ces mthodes (vor le paragraphe 18.4.3). Dans le cadre d'une modlisation prdictive, on obtient B modles diffrents: appliqus une observation x, ils fournissent B prdictions diffrentes de )~ Si Y est une variable numrique le bagging ou bootstrap averaglzg consiste prendre la moyenne des B prdictions, qui a donc une variance infrieure il celle de la prdiction initiale et ralise un lissage. Un cas intressant est celui o y est qualitative et o on utilise une mthode d'arbres de dcision. On se retrouve alors avec B arbres (une fort !). On procde alors un vote majoritaire pour classer une observation x : on compte le nombre d'arbres parmi B qui classent x dans chaque groupe et on choisit le groupe majoritaire. Le bagging remdie l'instabilit bien connue des arbres, mais la rgle finale n'est pas un arbre et on perd la lisibilit de la mthode. De plus on montre que dans le cas des arbres, si le bagging peut amliorer une bonne rgle, il n'amliore pas une mauvaise rgle mais au contraire l'aggrave (Hastie & al. p. 249) en raison du caractre discontinu de la fonction de perte. Le boosting n'a pas cel inconvnient.
19.3.2
Le boosting
Le boosting invent en 1997 par Freund et Schapire, amliore une rgle de discrimination, surtout si elle est mdiocre, en l'appliquant de manire rpte sur les observations mal classes en les surpondrant chaque fois. Le principe conss[e donc il se focaliser sur les
497
observations mal classes, souvent proches de la frontire, plutt que sur celles faciles classer. Aprs chaque itration, on repondre les individus. La rgle finale est un vote pondr fi partir des M rgles obtenues: li chaque rgle est affect un coefficient aJlj' La procdure AdaBoost se droule schmatiquement de la manire suivante:
(1 -
--J-
em
(;;/11
On met il jour les poids des individus de la faon suivante: si i est bien class, son poids ne change pas, sinon il est multipli par exp(a 111), Quand on normalise pour avoir une somme des poids gale il 1, les poids des observations mal classes augmentent et ceux des biens classs diminuent donc. Le boostng donne des amliorutions spectaculaires pour le8 arbres, De nombreux travaux ont t men pour l'expliquer (cf. Hastie et al. chapitre 10). Le dfaut est cependant le mme que pour le bagging puisque l'on perd l'avantage de la lisibilit de J'arbre, Pour une application donne il faut alors comparer son efficacit il celles d'autres mthodes de type bote noire comme les rseaux de neurones, la discrimination par estimation de densit, les plus proches voisins etc.
19.4
CHOIX DE MODLES
Nous entendrons ici par modle aussi bien des modles paramtriques classiques (rgression linaire, logistique) que des mthodes algorithmiques. Devant un ensemble de donnes, le praticien se trouve alors face au choix d'un modle parmi un grand nombre de possibilits. Cette question a dj~l t voque partiellement au chapitre 17 paragraphe 17.4 dans le contexte du choix de variables en rgression linaire multiple. Depuis les annes 1970 olt les critres d'Akak et de Schwartz ont t proposs, une abondante littrature a t consacre au choix de modles et les recherches en ce domaine sont toujours actives. Avant de prsenter les principaux critres et mthodes, 11 faut s'interroger sur l'objectif poursuivi: cherche t-on dcouvrir le vrai modle parmi une famille, ou le modle le plus performant? La distinclion ne va pas de soi et renvoie des questions pistmologiques. En tout cas le choix de modle ne sera pas le mme,
19.4.1
On considre ici des modles paramtrs pouvant se dcrire par une denst g(x ; H). Pour un problme prdictif, il pourra s'agir de la densit conditionnelle de y sachant x ou de la densit conjointe de y et x. Les paramtres seront estims par la mthode du maximum de vraisemblance. La vrpsemblance calcule en fi, L(), est une manire de mesurer l'adquation c1'un modle aux donnes puisqu'elle reprsente la probabilit d'avoir observ l'chantillon sous le modle (cf. chapitre 13). On utilisera en fait la log-vraisemblance ln L(). Si l'on dispose d'une famille de modles gi(X ;
OJ
498
LC i) mais ce critre
ne permet pas de
choix car il est croissant avec i : le meilleur modle est celui qui a le plus de paramtres. Les critres AIC et BIC vont pnaliser la log-vraisemblance pour tenir compte du nombre de paramtres. D'apparence semblable, ils visent en ralit des objectifs diffrents.
19.4.1.1
Il vaut
o k est le nombre de paramtres du modle. Le meilleur modle est donc celui qui minimise Ale. Ce critre tire son origine de la divergence de Kullback-Leibler issue de la thorie de l'information. SOent f et g deux densits de probabilits, et supposons que f est la vraie loi inconnue, g une approximation, alors la divergence, ou perte d'infonnation pour utiliser g la place de.f, est dfinie par : lU; g)
forme de la diffrence entre deux esprances prises par rapport la vraie loi:
l(.f ; g)
L'lment le plus proche de f dans une famille paramtre g(t ; 8) correspond au f) qui maximise E/(ln(g(t ; B)). On ne peut rsoudre ce problme sif est inconnu. On utilise alors l'estimateur du maximum de vraisemblance , obtenu dans le cadre de la famille g que l'on porte d~ns la formule cl' o Ej(ln(g(t ; )). Cette dernire expression est une variable alatoire car B dpend des donnes; on en prend alors l'esprance par rapport aux donnes (qui suivent la vraie loi f) que l'on note EEj(ln(g(t ; . Cette quantit n'est pas calculable puisque f est inconnu, mais sous certaines hypothses et l'aide d'un dveloppement de Taylor, Akak a montr qU'asymptotiquement(l), donc pour de grands chantillons, EE.r(1n(g(t; )) - InLC - k.. L'AIC s'en dduit par multiplication par -2
19.4.1.2
Il vaut
la pnalisation est donc plus forte qu'avec l'AIC car dpendant du nombre d'observations. Pour de grands chantillons. le BIC aura donc tendance favoriser des modles moins de paramtres que le critre d'Akak. Le critre BIC provient d'un contexte totalement diffrent, celui du choix baysien de modles. Considrons une famille finie de 1Il modles nots !vIi dpendant d'un paramtre (vectoriel) Bi' On se donne des probablits a priori P(M i) sur chaque modle, ainsi qu'une
499
distribution CI priori de li pour chaque modle pee/Mi) ; alors la probabilit modle Mi sachant les donnes x est proportionnelle P(lvIJ P(x/M;)
Cl
posteriori du
Si les probabilits a priori P(NI;) sont unifom1es ce qui correspond ne favoriser aucun modle, la probablt Cl posteriori du modle Mi est proportionnelle P(xIM,)
de rgularit, et en effectuant un dveloppement limit au voisinage de l'estimateur du maximum xiA k , . . de vraisemblance, on montre (demonstratlon omise) que In(P(xIM j ) ....... In(PV Si. lvl i ) - '21n(11). In(P(x/;, IvIJ est la log-vraisemblance du modle Mi' Le choix du modle le plus probable Mi a posteriori revient choisir celui qui a le BIC minimal. Ayant calcul tous les BIC pour chaque modle, la probabilit a posteriori vaut :
e-O.5
mc,
P(lvlJx)
2: e -0.5 mc)
j=1
III
On peut alors pondrer ]es modles avec ces probabilits, pour en dduire une prdiction moyenne pondre (model averaging).
19.4.1.3
En rgression linaire
In(L)
= -2:
ln -
Il
In(2'if)
A nombre fix de variables, le modle qui a le meilleur R"2 est aussi celui qui maximise rAIC ou le Ble. l'AIC oule BIC servent alors comparer des modles ayant des nombres de prdicteurs diffrents. Sur les donnes voitures , r AIC relient un modle 2 variables, tandis que le BIC ne retient qu'un modle une variable.
Tl
Si le vrai modle fait partie des 111 modles de la famille tudie, sera t-il choisi? Si tend vers l'infini on a pu montrer que la probabilit que le BIC choisisse le vrai modle tend vers 1, ce qui est faux pour l'Ale. Par contre l'AIC va choisir le modle qui maximisera la vraisemblance de futures donnes et ralisera le meilleur compromis biais-variance (voir plus loin). L'AIC est donc un critre prdictif tandis que le BIC est un critre explicatif. Il faudrait donc choisir le critre selon l'objectif et non les utiliser de faon simultane.
TABLEAU Nombre dans H ce.t:r
19.1
BIC Variables du modle
PUIS PUIS POIDS
le modle
l 2
3
R-carr
0.6379 0.6866 0.6988
0.7018
ajust
0.6153 0.6448 0.6342 0.6101 0.5874 0.5504
AIC
301.1433 300.5430 301.8305
303.6495
304.2040
305.1183
0.7087 6 0.7091
305.2253
307.2033
500
Pour 11 fini des simulations ont montr des rsultats contradictoires et le BIC ne choisit pas toujours le modle dont les donnes sont issues car il Li tendance choisi des modles trop simples en raison de sa plus forte pnalisation. Il nous semble cependant, que malgr leur intrt intellectuel, ces critres ne sont pas adapts de nombreux problmes concrets. Ils ne s'appliquent bien que dans des contex~ tes correspondant une maximisation de vraisemblance et pour certains types de modles (erreurs gaussiennes par exemple) et de mthodes. On ne peut pas aisment les utiliser pour des rseaux de neurones, des modles non-linaires ou il variables qualitatives. Le nombre de paramtres ne traduit pas ncessairement la complexit d'un modle, nous y reviendrons plus loin. Une rgression linaire multiple p variables correspond k = p + 1, mais si l'on procde une rgularisation de type ridge la complexit est infrieure. Il faudrait alors remplacer k par un nombre quivalent de paramtres ce qui n'est pas simple. Enfin, la notion de vra }) modle qui est implicite ou explicite dans ces critres at-elle Un sens ? Un modle n'est qu'une simplification de la ralit destine la faire comprendre et obtenir des prvisions convenables. George Box, un des plus grands statisticiens contemporains aimait rappeler que tous les modles sont faux: certains sont utiles ). Lorsque le nombre d'observations est grand, les modles usuels sont en gnral trop simples pour la complexit du monde rel et donc rejets par les tests d'adquation. Que penser alors de l'intrt des proprits asymptotiques?
19.4.2
19.4.2.1
Approche empirique
Le dilemme biais-variance
On peut gnraliser aisment les rsultats du paragraphe 17.2.3 un modle de prdiction du type)' =.t(x) + e. On estime.f par l'aide d'un chantillon et on cherche prdire une valeur future en xo. L'erreur de prdiction est)'o - 5"0 = f(xo) + e - /(xo). Elle esL alatoire deux titres d'une part parce que le phnomne n'est pas dterministe cause de B el d'autre part parce que la prdiction Yo = /(x o) est alatoire : / est une estimalion plus ou moins prcise. L'erreur quadratique moyenne de prdiction est:
le premier terme est irrductible, le deuxime reprsente le carr du biais du modle (diff~ rence entre l'esprance de la prvision et la valeur moyenne de )'0)' le troisime la variance de la prdiction. Plus un modle sera complexe plus le biais sera faible, mais en gnral au dtriment de la variance qui va augmenter. Le terme de biais correspond l'ajustement du modle sur les donnes dites d'apprentissage, ajustement qui s'amliore avec la complexit du modle. La variance correspond la variabilit de ]a prdiction pour de nouvelles donnes.
501
erreur quadratique
(bias)2
complexit
FIGURE
19.5
19.4.2.2
La figure 19.5 montre qu'il existe un compromis entre biais et variance correspondant il un optimum. Comment 1'obtenir empiriquement? Il faut pour cela estimer r erreur du modle sur des donnes qui n'ont pas servi t'apprentissage. Lorsque r on dispose d'un nombre important d'observations, on partagera les donnes en plusieurs sousensembles: r ensemble d'apprentissage sert il estimer chaque modle en comptition l'ensemble de validation sert choisir le meilleur modle, celui qui ralise les meilleures prdictions. L'ensemble de test sert uniquement il estimer la performance du modle retenu On peut ainsi choisir 1e bon ,j modle quelque soil sa nature, par exemple en faisant varier un paramtre de sensibilit, le nombre de neurones, le nombre de prdicteurs etc. Par rapport au chapitre prcdent paragraphe 18.7.1, on voit qu'un troisime ensemble a t introduit: en effet s l'on doit choisir un modle en utilisant l'chantillon-test celui ci sert apprendre le choix de modle et devient en quelque sorte un chantillon d'apprentissage. On ne peut utiliser alors la mesure d'erreur car elle est biaise; il est donc ncessaire de garder des donnes qui ne servent rien d'autre qu' valuer l'erreur. Si les donnes sont en nombre insuffisant, on utilisera la technique de validaton croise qui consiste partager les donnes en K sous-ensembles disjoints de mme lai1le et calculer l' eneur de prdiction moyenne sur chacun de ces sous-ensembles, les K-I autres formant l'chantillon l'apprentissage. Pour K = n on retrouve la mthode utilise en analyse discriminante. Le choix de K est encore un compromis biais-variance: K trop grand va donner une grande variance avec un faible biais, tandis que K faible sous-estimera le biais. En pratique K = IO est souvent prconis.
502
19.5
La thorie dveloppe par V. Vapnik (1998) apporte des vues clairantes sur ce que l'on appelle la gnralisatioll qui n'est autre que la facult d'un modle prdire correctement de nouvelles valeurs et pas seulement rendre compte du pass. Un grand nombre de rsultats font appel une mesure spcifique de la complexit d'un modle, la dimension de Vapnik-Cervonenkis, ou VC-dmension note Iz. Nous donnons ici un aperu sans dmonstration de cette thorie.
19.5.1
Soit un modle de prvision 51 = f(x ; 6), o f appartient une classe paramtre. On dfinit alors une fonction de perte Uy ; S,), en gnral quadratique, mesurant l'eITeur de prvision: Si y est numrique, L(y; y) = (y - S~):! Si y est qualitative deux modalits, L vaut 0 ou 1 selon que l'observation est bien ou mal classe. En prenant y et.r valeurs dans {-l ; + 1 } L peut s'crire
L( - , V.
1 v) = - 1'\' - -v1 2
A)" -1( -v - .V 2
L dpend du paramtre
e.
= E(L) =
est la loi de probabilit conjointe de y et de x. Le choix optimal de e serait celui qui minimise R mas c'est une opration impossible quand on ne connat pas la loi de probabilil PC:,). La mthode courante (moindres carrs par exemple) consiste alors estimer valeur
e par
la
en
(apprentissage) tir de la 10 P(z). Avec d'autres formes de L, on retrouve restimateur du maximum de vraisemblance, les estimateurs de Huber etc. R"1II1' est alors une variable alatoire et on doit se poser la question de sa convergence vers R lorsque Il tend vers l'infini pour savoir si la mthode est consistante Pour un modle donn, le risque empirque est nul si la laille de l'chantillon est trop petite (modle surparamtr) et crot ensuite jusqu' attendre une limite (quand les 10s des grands nombres s'appliquent). De son ct, R diminue jusqu' une valeur limite. Ces deux limites concident-elles? Si elles ne concident pas (figure 19.6 droite), on a un modle ou processus d'apprentissage non consistant ce qui peut tre gnant : en augmentant Il on aura une erreur systmatique (biais) dans l' estimation de R. A quelle condition il l-on la consistance? Paradoxalement cette question s'tait peu pose avant les travaux de Vapnik.
503
R
Remp
n
FIGURE
n
19.6
En moyenne le risque R est toujours suprieur au risque empirique. Avec des modles surparamtrs, le risque empirique est faible et R grand. Un modle sera dit robuste si les deux risques sont peu diftrents. Il est facile de trouver des modles trs robustes: ]e modle constant y = f(x ; fi) = Cl est trs robuste mais sans intrt. Il faut donc raliser un compromis entre robustesse et ajustement.
19.5.2
Nous nous limiterons maintenant au cas de la discrimination entre deux classes. La dimension de Vapnik-Cervonenkis d'une famille de fonctions de c1assement (ou class(fiellrs), est une mesure du pouvoir sparateur de cette classe. Ainsi les droites du plan peuvent sparer parfaitement 3 points non aligns (deux d'un groupe, un de l'autre) mais il existe des configurations de 4 points non sparables comme le montre la figure 19.7. La VC-dimension des droites du plan est donc Il 3.
;/
FIGURE
Cl
19.7
DFINITION:
La VC-dimensioll d'une famille de c1ass(fiellrs est le nombre maxhnal Il de pOilUs qui pel/l'ent tre tOl~iolirs spars par la famille de fonctons dans les 2 11 configurations o . ces points son/libells 1
504
Cela ne veut pas dire que toute configuration de h points est sparable\ ainsi dans Je plan, on ne peut pas toujours sparer 3 points aligns, mais que pour Il + 1 points quelconques il existera toujours une configuration non sparable. Plus gnralement les hyperplans de [R;P ont une VC-dimension gale p VC-dimension des paraboles du plan est 4.
+ 1.
La
La VC-dimenson d'une famille de classifieurs n 'esL cependant pas toujours gale au nombre de paramtres, comme le montre l'exemple suivant classique. Dans lIt lu VC-dimension des fonctionsjdfinies par f(x) = 1 si sin(8x) > 0 etjtx) = -1 si sinC8x) < 0 est infinie car en augmentant e on peut sparer un nombre arbitraire de point.s (figure 19.8).
FIGURE 19.8
Revenons maintenant sur les SVM, plus prcisment l'hyperplan vaste marge prsent au 18.3.1.1. Considrons les hyperplans de ~p dont l'quation est contrainte par
1113" sC'
ce qui correspond une demi-marge suprieure C (tigure 18.12). Soit p le rayon de la plus petite sphre contenant toutes les observations alors la VC-dimension Il est borne et est infrieure p + 1 :
ent dsignant la partie entire d'un nombre. (cf Burges 1998 pour une dmonstration rigou-
reuse). La VC-dimenslon est troitement lie aux performances d'un processus d'apprentissage, ici une famille de classifieurs. Vapnik a montr les deux rsultats suivants: la condition ncessaire et suffisante pour avoir la consistance est que ft soit fini. Avec une probabilit d'erreur : R
< R emp +
h(ln(2n/h)
+
Il
1) - In(/4)
L'ingalit de Vapnik donne une borne pour le risque partir du risque empirique dpendant de Il et de Il, mais pas de la distribution des observations. Elle est donc universelle.
505
Plus h est petit, plus le radical se rduit, ce qui explique les bonnes performances des SVM, et de la rgression ridge, mme avec un grand nombre de variables, lorsque l'on met des contraintes sur les coerficients.
19.5.3
La borne de r ingalit est la somme du risque empirique (l'erreur d' apprentissage) et d'un terme qui ne dpend que du rappon !tin (et de la probabilit d'erreur). On peut donc choisir des modles plus complexes lorsque le nombre d'observations crot, sans faire augmenter la borne (el1e dcrot d'ailleurs puisque le risque empirique va dcroitre en moyenne en fonction de Il). A Il fix la minimisation de la borne fournit un critre de choix de modles qui ne fait appel ni des hypothses de distributions comme les vraisemblances pnalises, ni un chantillon-test: c'est le principe du SRM (Structllral Risk Nlilllnization). On considre une famille embote de modlcs de YC-dmensons croissantes II) < h"2, < .. , (par des modles linaires (ou non) nombre croissant de prdicteurs, des perceptrons multicouches o on augmente le nombre de neurones de la couche cache, ou le nombre de couches ayant le mme nombre de neurones etc.). Pour chaque valeur hi. on estime le modle sur les donnes et on calcule le risque empirique. Le risque empirique dcroit (en moyenne) avec" tandis que
h(1n(211/h) + 1)-ln(/4)
11
respond au mimum de la somme de ces deux termes: c'est un compromis entre ajustement et robustesse; la figure 19.9 illustre le SRM (rappelons que Il est un entier), L'approche du SRM fournit une solution au problme du choix de modle en mettant bien en vidence ce qui caractrise vritablement la complexit d'un modle. Cette approche s'est rvle fconde dans de nombreux cas. Quelques remarques: L'ingalit de Vapnik est une ingalit universelle du type des ingalits de BienaymTchebyshev ou Markov. Elle est intressante car elle ne dpend pas d'hypothses sur la distribution des donnes, en revanche la majoration qu'elle donne peut tre trs large surtout si h/n est grand: c'est une fonction croissante non borne de h/n qui peut dpasser l, ce qui est sans intrt pour un risque, qui est une probabilit. De nombreux travaux ont t consacrs la recherche de bornes plus strictes sous certaines hypothses. ' Lorsque la VC-dmension est infinie, l'ingalit ne s'applque pas. On sait qu'il n'y a pas convergence du risque empirique vers R, mais cela n'empche pas certaines mthodes comme celle du plus proche voisin ou les SVM noyaux gaussiens, de donner de bons rsultats : il y a un biais mais R peut-tre faible. L'ingalit donne une borne avec une probabilit d'erreur, elle n'est donc pas certaine et on peut donc trouver des rsultats meilleurs ou pires. Le calcul de la VC-dimension n'est pas simple et dans bien des cas, on ne connat pas la valeur de h mais seulement des approximations ou des bornes, ce qui limite du SRM. Dans le cus olt l'ingalit de Vapnik est inutilisable, il vaut mieux choisir le modle avec une technique de validation croise.
506
0.5
0.4
0.3
0.2
0.1
o~~~~~~~~~~~==~~~~~
20
FIGURE
60
80
100 h
19.9
19.6
PRDIRE OU COMPRENDRE?
La complexit de certains algorithmes de prdiction en font souvent des botes noires que l'on ne peut en gnral pus interprter. La notion de modle diffre alors du sens communment tabli: il ne s'agit plus d'une reprsentation de la ralit issue d'une thorie scientitique (physique, conomique, biologique, psychologie, ... ) mais seulement d'une technique de prvision. Si le problme est uniquement de prdire, une mthode doit tre juge du point de vue de son efficacit et de sa robustesse: les techniques de choix de modles de type SRM ou validation croise apportent une solution. Peut-on prdire sans comprendre? Cette question peut choquer, mais au del du dbut philosophique, les progrs de outils de calcul semblent bien montrer que oui. De nombreuses applications ne ncessitent pas de disposer d'une thorie, qui serait d'ailleurs bien difficile laborer: par exemple la prvision du comportement des emprunteurs, lu dtection de segments de consommateurs potentiels d'un produit. La statistique est dans ce cas un outil d'aide la dcision et non un lment de la recherche scientifique. La meilleure mthode est certes celle qui donne les meilleures prvisions. encore faut-il qu'elle soit acceptable lorsqu'elle aboutit prendre des dcisions concernant des perou qui pense l'tre, est en droit de demander des explications lui sonnes. La personne
507
permettant de comprendre la dcision(3). Un arbre de dcision, la rigueur un score linaire, seront compris, car on pOUlTa expliquer que telle variable a eu telle intluence ; il n'en sera pas de mme pour une lechnique d~estimation de densit, un SVM non-linaire ou un rseau de neurones. L'acceptabilit des mthodes varie dans le temps, et telle technique qui pouvait paratre complexe une poque peut devenir usuelle 20 ans plus tard, par suite de la diffusion et de la formation aux outils.
3_En France, la Commission Nationale Inronnatique et Liberts s'assure que les traitements statistiques ne peuvent nuire aux dm[s de l'homme et aux liberts individuelles. Voir S. Tuffer'y (2005).
ondages
20.1 20.1.1
Les mthodes de sondage ont pour objectif de tirer dans une population concrte des chantillons destins estimer avec la meilleure prcision possible des paramlres d'intrt. Le tirage quiprobable avec remise qui conduit des chantillons de variables alatoires indpendantes et identiquement distribues est la base des dveloppements des chapitres prcdents et est le modle de la statistique mathmatique; ce mode de tirage ne correspond en fait pas la pratique et n'est au mieux qu'une approximation commode. Les sondages rels portent sur des populations finies el sont effectus par tirage sans remise. pour ne risquer d'interroger deux fois le mme individu. Les chantillons ne sont plus constitus de variables indpendantes, et le tirage ne se fait pas toujours avec les mmes probabilits. Ce chapitre il pour objectif de donner une initiation la thorie des sondages alatoires, et ne prtend nullement couvrir Je sujet. En particulier. il faut savoir que les erreurs dues 11 l'chantillonnage ne sont qu'une partie (pas toujours la plus importante) de l'erreur globale qui comprend les erreurs de couverture, de mesure, de non rponse etc. Bien des sondages sont effectus avec des mthodes non-alatoires comme la mthodes des quotas qui ne sera pas traite ici. Le lecteur qui voudrait compller son information se reportera au livre de P. Ard1ly (2006),
20. 1.2
Notations
connu~
Chaque individu de la population (la population est aussi appelee base de sondage) sera dsign par un identifiant i. On notera Y la variable d'intrL dont les valeurs sont (Yb y::! ...... y N)' Y n'est pas une variable alatoire. On suppose que Yi sera obtenu sans erreur si l'individu (ou unt) i est slectionn. Dans ce qui suit Y sera une variable unidimensionnelle numrique. ventuellement binaire quand il s'agira d'estimer des proportio~. On s'intressera l'estimation de quantits dpendant de Y comme la moyenne y de Y sur la population, ou le total des valeurs TCl') not T quand il n'y aura pas d'ambigut.
1
N
-:LVi
Ni=l
512
20.Sondages
On notera : (T~
=-
N i= 1
2: (Yi -
y)2 la variance et S2
= - - 2: (Yi
N - 1 i= 1
Yf
N = - - c r2 la
variance corrige de Y. Il peut paratre curieux d'utiliser la variunce corrige quand il ne s'agit pas d'un chantillon, mais cela conduit des formules plus simples. Un chantillon est un sous-ensemble de
11
units de la population.
'i
Dans un sondage alatoire chaque unit i de la population a une probabilit de tirage, ou 'i bien dfinie qui ne doit pas tre nulle sous peine de ne pouvoir fare des estimations sans biais. On notera que la somme des probabilits d'incluson vaut
2:
';
Il
et que
'i
2:
une
.\(iE.\)
distribution de probabilits sur l'ensemble des chantillons. On utilisera galement les probabilits d'nclusion d'ordre 2 : 'ij qui donnent la probabilit que les units i et j appartiennent l'chantillon. On appelle variables de Cornfield les indicatrices Qi correspondant la slection des units. si i E S Ce sont des variables de Bernoulli telles que: Oi o si i r/; s
lrI
On a:
On dsignera par une lettre minuscule Yi la valeur trouve dans un chantillon. Cette valeur est donc alatoire si le tirage de l'unit i est pro bablli ste. l La moyenne de l'chantillon sera y - 2:Yi' Avec les variables de Cornfield, cette
Il ie.f
J/i=1
20.2
Il constitue la base des autres mthodes. C'est un tirage quiprobable sans remise: on a donc
'f
20.2.1
Estimation de la moyenne
ECy} = -
IN
IN
IN
12-
20.Sondages
513
Le calcul de la variance est plus complexe car avec un tirage sans remise, les variables de Corntield ne sont pas indpendantes, mais par raison de symtrie tous les couptes auront la mme covariance
TI'ij -
7i(iTj
TIij -
11
'l
- 1)
N{N - 1)
=T--
11 -
N - 1
T(1 - T)
On en dduit V(v) = (1 - T)- qui est donc infrieure la variance du tirage avec remise. n Comme S2 est inconnue, on 1'estime par Sl
S2
= _1_
Il -
'2;(Yi le,\
caractre sans bia~1:i E(s2) = S2. On en dduit donc l'estimation de la variance de la moyenne
---
s~
y-2s
P-T Il
--<Y<y+2s-Il
P-T
L'estimation d'un pourcentage p s'en dduit en considrant que Y est une variable de Bernoulli de paramtre p. Si f est 1e pourcentage estim sur l'chantillon, on a :
V(f) =
Cl
=
T)P(1 - p)
11
N N-
(I{f)
Cl -
T)P(l - p)
Il -
p)
20.2.2
Algorithmes de tirage
Une ide lmentaire consiste tirer des entiers au hasard uniformment rpartis entre 0 et N, ce qui peut se faire avec un gnrateur de nombres alatoires: on multiplie li par N et
514
20aSondages
on arrondit il l'entier suprieur. Celte mthode n est cependant pas utilise en pratique car elle prsente divers dfauts: ncessit d'un grand nombre de dcimales si N est grand, existence de doublons. On prfre en gnral des algorithmes squentiels permettant d'extraire des enregistrements d'un fichier numrot de 0 N 1. comme le suivant:
1
-le premier enregistrement est slectionn el on recommence N pour le deuxime enregistrement en remplaant 11 par n l et N par N - l. Si le premier enregistrement n'est pas slectionn, on tire un autre nombre [( et le deuxime enregistrement
li ::;
On tire un nombre li : si
Il
Il ::; _1_1- .
N - l
ne diminue que si une unit est tire. On continue ainsi jusqu' l'obtention
20.3
Le sondage probabilit gales est utilisable en l'absence de toute information. Supposons par exemple que l'on veuille estimer une production agricole en tirant au sort un certain nombre d'exploitations. Si l'on dispose d'un annuaire donnant les superficies, il est alors prfrable d'effectuer ce tirage avec des probabilits proportionnelles la superficie.
20.3.1
supposons ici que l'on cherche estimer le total de la variable d'intrt T = alors que le seul estimateur linaire sans biais de la forme
2: ij. On montre
=1
i=
2: OiYiE(8;)
i= 1
2: O(li)"j = 2: Y
i= 1
je;
T, il faut que
0
TI;
Comme les Tl i sont infrieurs 1, on rappelle aussi estimateur des valeurs dilates. L'estimateur de la moyenne s'en dduit aisment:
.!!.
1 y=-), Ni";;:
Tlj
2~2: TI:
(Y
20_Sondages
515
La formule de Yates-Grundy montre que l'on a intrt tirer proportionnellement aux valeurs d'une variable auxiliaire X corrle (positivement!) Y ce qui est intressant en cas d'effet taille (chiffre d'affaires, nombre d'employs, bniice ... ). Il peut arriver que certaines units soient tires d'office. Ainsi supposons que l'on veuille tirer 3 individus parmi 6 proportionnellement :
Xl
= 300
.\'1
= 90
.\') = 70
x..\
= 50
Xs
= 20
.\6
= 20
TIi
= ~~Xi
/=01
LXi
TI,
Ce qui donne TI 1
TI.,
= 3-_- ~
TI)
300 5.)0
1 et donc que
90 = 2- = 250
0.72
'j-
= 04 .
TI3
= TI"a
= 2-
20 250
= 0. 16
20.3.2
le tirage
Le problme est assez compliqu car il y a une intinit de plans de sondages ayant des probabilits d'inclusion d'ordre 1 fixes. Les probabilits d'inclusion d'ordre 2 jouent ici un rle important: elles devraient tre strictement positives et telles que TIij ::5 TIiTI} pour pouvoir estimer sans difficult la variance. Nous renvoyons au livre de Till (2001) pour plus de dtails. Une des mthodes les plus utilises, mais qui peut conduire des probabilits d'inclusion d'ordre 2 nulles, est le tirage systmatique dans les cumuls. Illustrons cette mthode sur l'exemple prcdent. Il reste tirer 2 units parmi les units numrotes de 2 6. On cumule les probabilits d'inclusion, ce qui donne:
TI::! TI:!
= 0.72
TIl
TI]
= 1.28
TIl
TI3
TI.,
+ 'ITs =
1.84
On tire ensuite un nombre au hasard II compris entre 0 et l et on slectionne les deux individus dont les probabilits cumules correspondent II et II + 1. Supposons que li = 0.48 l'unit 2 est tire puisque li < 0.72 ainsi que l'unit 4 puisque 1.28 < li + 1 < l.68. On vritera entre autres qu'il est impossible de tirer simultanment les units 3 et 4.
20.4
STRATIFICATION
La stratification consiste en des tirages spars effectus dans des sous-populations. Lorsque ces sous-populations sont plus homognes que la population elle-mme, ce qui est gnra1ement le cas, la stratification permet d'obtenir des estimations plus prcises qu'un
516
20aSondages
sondage alatoire simple de mme taille dans toute la population. C'est donc une mthode extrmement efficace que l'on peut el doit utiliser aussi souvent que possible. Dans ce qui suit, on supposera que les tirages dans chaque strate sont effectues selon le sondage alatoire simple (quiprobable et sans remise).
20.4.1
If
Formules de base
On notera NI' N 2 Nh
N = l:N".
It-J
La moyenne des moyennes de strates Yl , y:! ... YIf ... Y pondre par les effectifs redonne H la moyenne gnrale de la population:
La variance de la population se retrouve avec la formule de la variance totale (voir chapitre 2) o les variances (non-corriges) de chaque strate sont crf, cr~ ... cr~ ... crlj :
'1 ' " Nil., cr- = L -crh N
-Y- ~ , t = crfv
") + IJ'jj
Il,,
~
1/"
Y =" ~vIl str .LJ N qui est l'estimateur de Horvitz-Thompson. Sa variance se calcule aisment;
V(~lr) =
l: (N )2V(h) ~
N
Il (j2 Il l: (N )2~ N ~
li "" 1
Il
Il,,
Il
Nil
20.4.2
Rpartition proportionnelle
Ce cas particulier est celui o le taux de sondage est identique d'une strate l'autre (on parle abusivement d'chantillon reprsentatif) :
20aSondages
517
Y/m'JI
sOt:
N - Il --NIl
f!:,
L..; 11=1
Nit., N aii
= -N -
N -
1l
a~.
Il
N -
Il
S2
:::=
Il
l'estimateur du sondage alatoire simple. Avec les mmes probabilits d'inclusion d'ordre l, l'chantiHon stra9.fi reprsentatif est donc plus efficace qu'un chantillon simple de mme taille ds que les Yh sont diffrents.
20.4.3
Rpartition optimale
Lorsque les variances de strates sont connues, on peut encore amliorer l'estimateur stratifi et rechercher r estimateur optimal Il fix.
-!!. tifS::! 1 H S2 1 Il Dveloppons V( Ylfr) = -:; N,,(Nlt - Il ,J -.!!.. = -:; ~ N l -.!!.. - -; ~ N"Sl N-It=l Il" N-lt=1 Ill! N-'F=I Le deuxime terme ne dpend pas de l'chantillon. On a alors rsoudre le problme
2.:
SUIvant: mm
,,=1
S~ . L N 7- sous la contramte ~
H
'1
Ill!
Il
11"
Ir=
1
If
effectifs inconnus (oubliant que ce sont des nombres entiers) on trouve la rpartition de Neymnn qui montre qu'il fnut sur-reprsenter les strates les plus disperses par rapport la rpartition proportionnelle:
L N~ ~ 11= 1 n"
S'
- .
fi
518
20aSondages
Les effectifs doivent tre arrondis. Le calcul peut se gnraliser en considrant de!-i cots d'enqute diffrents par strate et en optimisant budget fix. On recommande souvent de faire beaucoup de strates pour amliorer la variance interclasse, mais le risque est alors d'avoir des lailles d'chantillon trop faibles dans certaines strates.
20.5
On appelle grappes M sous-populations d'effectifs NI' N']. . .. NIlI N,\!. La mthode consiste alors tirer 111 grappes et slectionner tous les individus de chaque grappe. On connatra donc sans erreur le totul et la moyenne de chaque grappe. L'intrt essentiel de ce mode de tirage est son caractre conomique, en particulier si les grappes sont des zones~ographiques, car on diminue alors fortement les cots de dplacement en face face. Cette mthode est trs utile lorsque la tuiilede lu population est inconnue, car on n'aura besoin de connatre que la taille des grappes choisies. On ne pourra cependant pas estimer tous les paramtres. La taille de r chantillon est alatoire si les grappes ont des effectifs diffrents.
20.5.1
:2,--.!.
l1l
T:
i=c; l'Tii
o les 7ri sont les probabilits de tirage des grappes. La variance de cet estimateur est donne par les fonnules du paragraphe 20.3.1 o on remplace Yi par Ti puisque tout revent un tirage de ln totaux parmi M. ...:. 1 III 7j 1 III Nif; . . L'estimateur de la moyenne est Y = - :2, - = - :2,- et necesslte la connaIssance N l'Til Ni'" 1 7ri
deN.
Un cas intressant est celui o les grappes sont tires avec des probabilits proportionN nelles leur effectif 'Ti; = m-.-!.. La taille de l'chantiHon est alatoire d'esprance N
E(lls} = E('ZNa
lES
:2,N,E(i) =
;=1
~
:2, Ni i""l
N.m
1 -
=-
11l M
:2,Nl. Ni=l
/Il
111 le: 1
(y)
m(m -
1 (l - mM)(Yi - -V)::!
1)
;=1
Une bonne rpartition en grappes est caractrise par des moyennes de grappes peu diffrentes de la moyenne gnrale ~ c'est donc l'inverse de la stratification: ici les grappes doivent tre les plus htrognes possibles (chacune doit pouvoir reprsenter la population).
20aSondages
519
20.5.2
Cette fois
111
Ivl
() i~ f
Ivl .
Nm
Ver) = - - - AI
.!vI - m Ivl
1 1Il
AI r\ 2: ( 7; - -) '!.
=
Ni;]
20.5.3
Le tirage systmatique
Ce mode de tirage est trs utilis quand on ne sait pas, ou que l'on ne veut pas, faire un tirage alatoire quiprobable. Supposons que N est un multiple de Il. Par exemple on veut tirer 10 individus parmi 1000 : on commence par tirer au hasard un nombre entier entre 1 et 100, si ce nombre est 27, le premier individu sera le n027, le deuxime le nO)27, etc. jusqu'au n0927. Il s'agit donc en fait d'un tirage d'une seule grappe parmi Af = Nin grappes.
h, il
De faon gnrale si r on a tir un entier h, les individus slectionns ont les numros: + M, Il + 2M, ... , h + (Il - 1)M.
M Lorsque le fichier se trouve tre tri selon un ordre proche de Y, la variance peut tre notablement plus faible que pour le tirage alatoire simple. On pourra s'en convaincre en prenant tl titre d'exercice le cas Yi = i. Il est incorrect d'utiliser la variance de l'estimateur du tirage alatore simple sauf si la base de sondage a t pralablement trie au hasard.
variance est
VeY)
Mf]("BNi N
Y)2.
20.6
REDRESSEMENT
Lorsque l'on dispose a posteriori d'une information supplmentaire corrle avec la variable d'intrt Y, on peut amliorer la prcision des estimations. Cette information peut tre qualitative ou quantitative. Nous exposerons brivement les principaux cas dans le cadre d'un sondage alatoire simple, pour une variable d'intrt quantitative.
_
Yli
_ X
= y-=x
YI}
5.8 106
520
20_Sondages
Cet estimateur est biais. mais le biais est faible si n est grand. Comme il est biais. il vaut mieux calculer son erreur quadratique plutt que la variance. On montre qu'elle est approx.i: mativement
ECYq
avec:
Yf
N - n(
Nn
S; - :1 -=- 5~n'
'
X'
Y + (--=- ) 2 S~ )
X
2:
r=
r :1 La mthode du quotient suppose une stricte proportionnalit. Si la relation est du type y = CI + bX, il vaut mieux effectuer une rgression linaire et utiliser J'estimateur :
Il Y a amlioration si
>
Yr = y + b(X
- i)
mgis pour calculer b, il faut alors disposer des valeurs de X pour chaque unit slectionne et pas seulement de la valeur moyenne.
20.6.2
Post-stratification
Lorsque le caractre aux iIiaire est qualitatif, l'ide consiste effectuer un caIeu 1 comme pour l'estimmeur stratifi vu plus haut:
en rpartissant li posteriori les observations selon les modalits du caractre auxiliaire. La diffrence essentielle ici est que les effectifs nI! pur strates ne sont plus fixs a priori mais sont alatoires de loi hypergomtrique. L'estimateur reste sans biais (si les post-strates ne sont pas vides), mais sa variance va prendre en compte les tluctuations des 11,,Le calcul de la variance est assez complexe. On commence par crire la formule de la variance totale en conditionnant par les Ill! et les supposant non-nuls.
Le premier terme est nul car l'esprance conditionnelle vaut toujours Y. La variance conditionnelle vaut:
20.Sondages
521
Ill!
formule simple pour r esprance de l'inverse d'une hypergomtrique, Aprs des dveloppements limits pour 11 grand, que l'on omettra ici, on trouve finalement:
Le premier terme n'est autre que la variance de la stratification (l priori avec rpartition proportionnelle, ce qui prouve que stratifier a priori est toujours meilleur qu' Cl posteriori, Pour que la stratification a posteriori soil plus efficace que le sondage alatoire simple, il faut que le deuxime terme ne soit pas trop grand: cela se produit si le rapport de corrlation Tj:!(YjX) est grand. Lorsque ce rapport est nul. la stratification a posteriori est au contraire moins efficace que le sondage alatoire simple.
20.6.3
Poids de redressement
Considrons une post-stratification selon H post-strates, L'estimateur de la moyenne de la variable d'intrt est:
Nil La
NI1l!
sur les 11 units de l'chantillon vaut alors 1. Ceci permet d'obtenir l'estimation de Y comme une moyenne pondre des valeurs observes. Il ne faut pas confondre les poids de redressement avec les poids d'chantillonnage (probabilits d'inclusion). . . 11er Le re d ressement consiste a mo d'f- 1es proportIOns d es post-strates Il Il pour les ren d re
JI
Lorsque l'on veut redresser sur plusieurs variables qualitatives la fois (par exemple: sexe, CSP, etc.) Le caJeul des poids de redressement est plus complexe et s'effectue raide d'ulgorithmes itratifs dont le plus connu est celui de Deming et Stephan qui consste en une sUte de rgles de 3 sur chaque critre.
_ Exemple: 1 000 individus ont t interrogs. La rpartition par sexe et profession est la suivante
Pl
P2
100
P3
Total
H F
Total
300 100
4-GO
200
150
150
150
250
600 400
JOOO
522
20aSondages
Supposons que les vraies marges soient 500 el 500 pour le sexe et 350,300, 350 pour la profession. Une premire rgle de 3 permet d'obtenir les marges souhaites pour le sexe: on plie la premire ligne par 500/600 et la deuxime ligne par 500/400
multi~
Pl
H
P2
83 187.5
P3
167 187.5
Total
F
Total
250 125
375
270.5
354.5
On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profession, ce qui change les marges en ligne:
Pl H F
P2
P3
165
233 117
Total
Puis en ligne:
350
92 208 300
185 350
Pl H
P2
P3
168 181 349
F Total
94
204
298
En l'absence de cases vides, l'algorithme converge rapidement et donne les poids de redressement appliquer chaque case. Ainsi la quatrime itration (trs proche du rsultat souhait), les 300 individus H et Plant chacun un poids de 0.236. La somme des poids de redressement des 1000 individus vaut 1000.
Pl
H
P2
P3
168 182 350
Total
F
Total
236 114
95
350
205 300
L' util isation de redressement sur pl usieurs critres doit tre effectue avec prcaution pour viter des poids trop disperss; il ne faut redresser que sr des critres corrls avec la variable d'intrt, sinon on n'amliore pas les estimations. ..
Plans d'expriences
Avec les techniques de sondage, les plans d'expriences constituent la deuxime grande mthodologie statistique pour recueillir des donnes. TI ne s'agit plus ici observer des individus existants en allant les chercher dans leur population, mais de provoquer des rsultats, ou rponse , en faisant varier intentionnellement certains <;< facteurs}) dans le but d'tudier le modle liant la rponse aux facteurs. Les objectifs sont divers: par exemple dtenniner quels sont les facteurs influents, estimer au mieux le modle, trouver pour quelles valeurs on peut obtenir une valeur optimale de la rponse ... Un des grands intrts des plans d'expriences est de pouvoir rduire le nombre des expriences effectuer en les choisissant judicieusement d'o des conomies parfois considrables. Ainsi avec 10 facteurs 2 niveaux chacun, au lieu de faire les 2 10 = 1024 expriences possibles, un plan de Plackett et Burman en proposera seulement 12 et un factoriel fractionnaire 16. Mais les rsultats ne seront valables que si aucune imraction n'existe entre les facteurs. La dtermination d'un plan d'expriences, et plus gnralement d'un dispositif exprimental, ne peut donc se concevoir en dehors du modle de rgression cens reprsenter la relation entre rponse et facteurs. Tel plan sera adapt un modle sans interaction avec effets du premier degr, tel autre pour un modle du second degr, tel encore pour un modle facteurs qualitatifs, etc. Dans un modle linaire y = X!3
La pJanification des expriences ne date que du XXme sicle: dveloppe tout d'abord en agronomie avec les travaux de Fisher, puis dans diverses branches de la recherche industrie11e en particulier en chimie puis en mcanique. Ce bref chapitre n'est qu'une introduction fi ce vaste domaine, dans le cas de modles linaires. Nous renvoyons l'ouvrage collectif dit par 11. Droesbeke & al. (1997) pour un traitement plus complet.
21.1
21" 1.1
INTRODUCTION
Vocabulaire
La terminoJogie varie fortement d'un domane d'applications l'autre el mrite donc d'tre prcise.
524
21aPlans d'expriences
Tout d'abord la variable y s'appellera la rponse, les variables explicatives Xj des facteurs. Ces facteurs peuvent tre qualitatifs (type d'engrais. marque) avec des modalits ou bien quantitatifs (temprature, hygromtrie) avec des niveaux. Une exprience ou essai ou traitement sera une combinaison de modalits ou niveaux des facteurs. Toutes les combinaisons ne sont pas ralisables. ce qui conduit dfinir le domaine exprimental, souvent un hypercube pour des facleurs quantitatifs.
" En gnral le nombre d'expriences ralisables sera tni I1JJ1j' mais souvent trs lev,
j=l
mme si chaque facteur ne peut prendre que quelques niveaux mj' On distinguera lu matrice d'expriences qui est la liste des essais effectuer, du dispositif exprimental qui prcise l'ordre des essais. Le plus souvent ce essais seront effectus dans un ordre alatoire obtenu par permutation des lignes de la matrice d'expriences: c' est la randomisation. On recourt galement la mise en blocs, consistant rpartir les essais en sous-ensembles aussi homognes que possibles. Ces dispositifs ont pour but d'liminer l:intluence de certains facteurs non contrlables comme la temprature extrieure, \' ensoleillement. etc. La matrice du modle X se ddut de la matrice d'expriences: on ajoute des colonnes en tenant compte du degr et des interactions entre facleurs. Ainsi pour un modle linaire du second degr 2 facleurs quantitatifs, y = r30 + r31X! + l3::.x 2 + r3J(X 1)2 + r3,j{x 1 ):! + 135-\IX::' +e, X possdera 6 colonnes obtenues en ,~outant une colonne de l pour le Lenne constant, 2 colonnes correspondant aux cans des variables et une tl leur produit. On parlera d'effets du premier degr, du second degr, d'effets d'interaction. L'interaction entre A et B se traduit par la non additivit des effets au sens suivant: si l'on tudie les variations moyennes de la rponse selon A. r effet de A ne doit pas dpendre du niveau du facteur B. Illustrons ce concept par l'exprience suivante (adaple de Sado "Plans d'expriences". AFNOR 1991): on mesure le rendement Y d'une raction chimique selon deux facteurs temprature T et concentration C : T varie de 50 100 oC et C varie de 20 30 g/l. On recode les niveaux en .... 1 et + l el on effectue 4 essais aux extrmits du domaine de variation (voir plus loin) :
Essai
2 3 4
-1
+1 +1
-1 -1 +1 +1
38
25 31
24-
38
31~=+1
25
24
-1
+1
21_Plans d'expriences
525
Le graphique prcdent montre que 1'effet de la temprature n'est pas le mme selon le niveau de la concentration: il y a augmentation de Y quand la temprature augmente, mais celle augmentation dpend de C : elle est de 6 pour C = - 1 el de 14 pour C = + 1. L'absence d'intraction se serait tr'-lduite par des segments parallles. On verra plus loin que certains plans ne pennettent pas d'estimer tous les effets des facleurs, c'est le phnomne de confusion ou d'alias.
21.1.2
Optimalit et orthogonalit
Supposons le nombre n d'essais fix. S'il s'agit d'estimer au mieux les paramtres du modle linaire y = X~ + c, on cherchera des proprits d'optimalit pour la matrice de variance-covariance des (J. On sai t ct' aprs le paragraphe 17 .2.1. J que cette matrice vaut V(f3) = (X'X)-l. L'optimum ne dpend que de X et non de la rponse. Obteni.r des estmateurs de variance minimale revient dtinir un critre de maximalt pour X'X. Le critre le plus utilis est celui du dterminant maximal ou D-optimalit max 1X'X 1. Il revient minimiser le volume de l'ellipsode de confiance des 13, pour un niveau de contiance donn. Il existe bien d'autres critres, mais moins utiliss comme la A-optimalit : min (Trace (X'X)-I) qui revient minimiser la somme des variances des estimateurs des 13. La matrice X doit tre de plein rang: pour des facteurs qualitatifs, on liminera une indicatrice par facteur comme dans le modle linaire gnral. Pour des facteurs quantitatifs, on a vu au chapitre 17 paragraphe 17.3.2.1 que la variance de chaque coefficient de rgression estim tait minimale si les variables explicatives taient non corrles deux deux: les colonnes de X sont orthogonales. Les plans orthogonaux sont donc optimaux, ce qui a conduil il privilgier leur recherche, d'autant plus que l'interprtation des rsultats par l'analyse de variance en est trs simple et que les calculs peuvent se faire manuellement, avantage essentiel avant l'apparition des ordinateurs. Cependant de tels plans n'existent pas toujours: ainsi il est facile de voir qu'il est impossible d'obtenir des colonnes orthogonales pour un modle linaire du second degr cause des termes carrs. On pourra s'intresser d'autres proprits comme l'isovariance par rotation: c'est le cas si la variance de la prdiction de la rponse en un point x, qui vaut tTX'(X'Xr 1x, ne dpend que de la distance au centre du domaine (x'x)~ et est donc indpendante de l'orientation des axes.
21.2
Le modle pour p facteurs eSl donc celui de la rgression linaire multiple classique : 130 + I3l xl + ... + f3 px l! +8
526
21_Plans d'exprienc.es
21.2.1
Soit un seul facteur prenant ses valeurs dans un intervalle [Xlllin ; x max l. On sait (chapitre 16, 16.2.1) que la variance de l'estimateur du coeftcient de rgression
cr2
- - - - - - Si
1
If
11
est pair,
22Ct
'=I
xf
valent Xmill et n/2 valent Xmar Le plan optimal consste effectuer les essais par moiti(l) aux: extrmits du domaine, ce qui contredit l'intuition de beaucoup de praticiens qui ont tendance les valeurs de x dans l'intervalle de variation. L'optimalit de ce plan est ndissociable du modle linaire du Si le modle ne l'est pas et est par exemple du second degr y f:jo + f:j,x + + e, on ne pourra pas estimer f:j2 : il est alors ncessaire d'introduire des essais au centre du domaine.
21.2.2
Comme la rgression linaire multiple est invariante par changement d'chelle des variables, on notera - 1 et 1 les valeurs minimales et maximales de chaque facteur (niveau bas et 2 haut) ce qui revient la transformation - - - - - - Xl11a~ -
x-
(Xmin
+ xm<lx)
Xmin
2 Sans contraintes sur le domaine, les expriences raliser se situeront aux sommets de l'hypercube. en raison de la proprit du paragraphe prcdent et seuls les niveaux -1 et 1 seront utiliss. La transformation en -1, l facilite grandement la vrification de l'orthogonalit de la matrice X : X'X = 1lI. X doit tre une matrice d'Hadamard qui n'existe que pour 11 multiple de 4. Il faut tout d'abord que Il soit pair: pour chaque facleur le nombre d'essais au niveau -1 doit tre au nombre d'essais au niveau 1 pour avoir l'orthogonalit entre la colonne de 1 (associe au terme constant ~(l) et la colonne associe un facteur. Chaque colonne associe un facteur est alors de moyenne nulle. Pour que deux colonnes associes deux facteurs soient orthogonales, il faut que les 4 combinaisons de niveaux 1; 1) (-1 ; 1) (1 ; - 1) (1 ; 1) soient prsentes le mme nombre de fois: le plan est dit quilibr.
21.2.2.1
Il consiste effectuer les 2P expriences possibles. II est orthogonal et donc D- et A- optimal. La matrice d'expriences pour le plan complet avec p 3 est la suivante.
1.Si n est impair, on fait (n-I)/2 essais chaque extrmit, el on mel au hasard le nime une bome ou l'autre.
527
essai
A -1
B
{
1
:2 3 4 5 6
7 8
-1
-1
+1
-1
-1
+1
-}
+1 +1
-{
-1
1
+1
-1
+1
-1 +1 +1
+1 +1 +1 +1
B
-[ -1
x=
-1 +1 1 +1 -1 +1 -1 +1
-1
l
+1 +1 -1 -1 +1 +1
-1 -1 +1 +1 +1 +1
Remarquons que le modle y = f3n + f3lxl + 13:.: x 2 + 133 x 3 + B ne dpend que de 4 paramtres et que l'on a huit essais. Cela va permettre d'estimer sans essais supplmentares des effets d'interaction A*B, A*C, B*C qui correspondent aux produits des variables:
La matrice associe ce modle s'obtient en rajoutant les colonnes obtenues en effectuant les produits terme terme de deux colonnes parmi A, B, C. On vrte que cette nouvelle matrice est encore orthogonale.
A -1
A*B
+1 -1
-1
A*C
+1
-{
B*C
+1 +1
-1 -[
-1
-1
1
-1
+1
-}
x=
+1
1
+1 +1
-}
-1
1
+1
-1
-1
+1
+1
+1 +1 +1
+1
+1 +1 -1
-1
+1
+1
+1 -1 -1 +1 -1 +1
-1 -J
+1
+1
528
On pourrait rajouter une Si:IIlC colonne A*B:)'C mais le modle est alors satllr car il y a autant d'essais que de paramtres ft estimer el on ne pourra pas estimer la variance rsiduelle. Notons ce propos une confusion frquente entretenue par les logiciels: ce qu'ils appellent variance rsiduelle n'est autre que la somme des variances des effets considrs comme non significatifs. Pour vritablement estimer la variance rsiduelle, il faut procder des essais supplmentaires (rptitions, points au centre).
21.2.2.2
2P-k
Pour 4 facteurs, le plan complet demande 16 essas. Mais puisque la colonne A*B du plan prcdent est orthogonale toutes les autres, on peut l'attribuer un quatrime facteur D. On aura alors un plan orthogonal, donc optimal, 8 essais au 1 de ] 6 (demi-fraction). eu
A -1
B
]
+1 1 +1
1
-1 +1 +1
1 -)
C -( 1 1 -1
+1 -1 +1
+1
+1
+1 +1 +1 +1
+1 -1 -1 +1 +1
1
-1
+1
On a perdu la possibilit d'estimer l'interaction A*B puisque cel1e ci est confondue avec le facteur D ; le plan est dit de rsolution Ill. D'autres solutions sont possibles en attribuant D aux colonnes A*C ou B*C, la meilleure consiste attribuer D la colonne A*B*C car alors aucun effet principal n'est confondu avec une interaction entre deux facteurs mais seulement avec les interactions entre trois facteurs. On ne peut cependant estimer sparment les interactons d'ordre deux qui sont partiellement confondues entre elles ; le plan est de rsolution IV. Le voici:
TABLEAU
21.1
essai
1
B D A C -_.. _....... -.... _----_ .. ,.,. .... -_ ... _----- -_ ........................... -,. .......... _-
1
1 -1
-1
-1 -1 1
1
1
-1 1
-1
3
4
-1
1
1
5
6 7
1
-1
1
1 1
1
1
1
1
21_Plans d'expriences
529
1
2
3 4 5 6
7
A B C
_~B
= = ..C ::::: AD =
Une autre faon de r~lre consiste partir du plan en 32 essais et prendre la moiti des essais, celle correspondant A*B*C*D = 1. Le plan complmentaire ou mimir est obtenu en choisissant les autres essais A*B*C*D -1: il donne les expriences supplmentaires faire si l'on veut estimer toutes les interactions (dsaliasage) si l'analyse n montr que l'on ne pouvait pas ngliger les interactions d'ordre 2. Ces procds de construction sont simples et bien connus: ils aboutissent des plans dont le nombre d'essais est une puissance de 2. Le plan prcdent en 8 essais peut convenir jusqu' 7 facteurs (Tableau 21.2) en utilisant toutes les interactions, c'est un plan orthogonal nombre d'essais minimal:
TABLEAU
21.2
--~
Essa
1
3 4
5
6 7 8
A B D E C ..... - -_ .... ---._ ................ -- -- ....... _- ... _.. _ .............. _------- _.............. - ----_ .. -_ ......... ......... - 1 -1 1 1. - 1 -1 1 1 -1 1 1 1 1 -1 1 1 1 1 -1 -1 1 1 1 -1 1 1. 1 1 -1 1 1 1 1 1 1 1 1 1
......... -....
...
1 1 -1 -1 -1 1
-1 1 1 -1 1 1 -1 1
Au del de 8 facteurs on passe donc 16 essais minImum. Les matrces d' Hadamard permettent de construire des plans orthogonaux, dits de Plackett et Burman dont le nombre d'essais est un mulLiple de 4 et est donc intermdiaire entre les puissances de 2. Pour 8 Il facteurs on pourra utiliser un plan en 12 essas tel celui donn par le tableau 21.3. La structure de confusion des effets est trs complexe (Montgomery, 2005) : chaque effet principal du plan prcdent est partiellement confondu avec les 45 interactions d'ordre 2 ne le comprenant pas. Plus encore que les plans 2/J - k , ces plans doivent tre utiliss avec prcaution.
530
21.3
21_Plans d'expriences
TABLEAU
F E G H J D ... '" .... _-_ ..................... _-- ............ -_ . --- ------- _............ -- -- ...... ---- ........ -"' .... ---_ ...... _- - .... ...... _..
_~---
-1
-1
1 -1
3
4
5
6 7 8 9
-1 -1
1
-1 -1 1 1 -1
-1 1
-1 l
-1
-1
-1
-1 l
1 1
-1
-1
1
-1 1
1 1 -1
1 1 1
-1
-1
l
-1
1
-1
-1 1
la Il
12
1 1 1 1 1
-1
1
1 1
-1
1 1
1
1 1 1
-1 -1 -1 1
1
1 1 -1 1
1
-1
1 1
-1
-1 1
1 1 -1
-1 1
1
1 -1
1
1 -1
-1
1 1
1
-1
1
1
-1
-1
1 1 -1 1 -1 1
1 -1
-1
1 1
-1 1 1 -1 1
1 1 -1 1 1
1
Plan de Plackett et Burman en l2 essais pour Il facteurs. Les plans '2,I.k (dits de Box et Hunter) et de Plackett et Burman constituent des plans de criblage (<< screening ) essentiellement destins liminer rapidement des facteurs dans une tude prliminaire o de nombreux facteurs potentiels ont t souponns.
21.2.3
Exemple
Un plan d'expriences a t ralis selon la matrice du tableau 21.1 (donnes tires de Montgomery 2001 )
D y C B A ..... __ .......... -_ ............... _----_ .... _.. -- ...................... _- ....................... _----- --_ ............ ,. ....
1.0
-1.
a a
-1. a
-1.
1.0 1.0
-1.
45
100
45 65 75
a a
1.0 -1.0
-1.
1.0
60 80 96
On calcule tout d'abord les effets des facteurs qui sont gaux aux diffrences des moyennes de la rponse entre le niveau + l et le niveau -1 de chaque facteur ou interaction (tableau 2104 et figure 2 LI). Ruppelons que AB est confondue avec CD, AC avec BD et AD avec BC. On ne peut ici effectuer de test d'analyse de la variance car il n'y a pas assez de degrs de libert pour estimer la variance rsiduelle. Il est clair que le facteur B est sans effet ansi que les interactions AB et CD qui peuvent tre limins. On ngligera galement BD et BC qui ne peuvent tre spares de AC et AD en faisant l'hypothse que si le facteur B n'a pas d'effet principal, on peut ne pas tenir compte des interactions entre B et les autres facteurs.
21_Plans d'expriences
531
TABLEAU 21.4
Effets estims pour rponse moyenne A : Facteur__i\ B : Facteur- B C : Facteur- C D : Facteur- D AB + CD AC + BD AD + BC 70.75 19.0 1.5 14.0 16.5 -1.0 -18.5 19.0
Graphique de Pareto
AC+BD
AB+CD
~~~~~~~~
12
16
20
Effel
FIGURE
21.1
TABLEAU 21.5
Analyse e la variance pour y Source A : Facteur_A B : Facteur_B C : Facteur _C D : Facteur_D AB + CD AC + BD I_D + BC Erreur totale Total (corr . ) Sorrune des carrs 722.0 4.5 392.0 54/4.5 2.0 684.5 722.0 0.0 3071.5 DDL 1 1 1 1 1 1 1 0
7
proba.
On restime alors le modle simplifi, crit symboliquement Y = T + A + C + D + AC + AD. Tous les effeLs sont significatifs. L'orthogonalit I<sse invariantes les sommes de carrs. L' erreur totale est en fait la somme des carrs ngligs.
532
TABLEAU 21.6
21_Plans d'expriences
de la variance pour y
SOITl.t'Tle
des DDL
l
1 1 1 2
70.75
9.5
7.0C
8.25D-9.25AC
9.5A.D
21.3
11 s'agit de trouver des matrices d'essais pour des modles linaires avec des termes de degr 2 comme celui-ci: y f30 + [3,x' + f32X:! + f33(X I):! + f3iXl)l + f3sx tx:! + e. faut donner chaque facteur au moins trois niveaux pour pouvoir estimer les effets du second degr. Lorsque le domaine exprimental est cubique, ces trois niveaux seront dfinis par les extrmes et le milieu de l'intervalle de variation de chaque facteur et recods en l, 0, l
x-
(x min
X lTlax)
2 Il ne peul exister de plans orthogonaux pour de tels modles et la recherche s'est focalise sur des plans possdant d'autres proprits comme l'isovariance par rotation. La possibilit d'exprimentation squentielle est galement trs utile; elle consiste augmenter un plan factoriel fractionnaire de criblage permettant d'estimer des effets principaux en lui ajoutant des points au centre et d'autres points pour estimer les autres effets. Il existe bien d'autres plans que ceux prsents maintenant parmi les plus classiques, et nous renvoyons aux ouvrages dj cits, L'analyse des rsultats d'exprience se fait avec la rgression linaire multiple.
21.3.1
Ce nom s'explique de la manire suivante, Pour 3 facteurs le domaine exprimental est un cube. On effectue tout d'abord les 8 essais aux sommets du cube, que r on complte par 6 essais aux centres des faces. et Ile essais au centre du cube.
21_Plans d'expriences
533
21.7
B
essai
1 2 3 4 5 6
7 8
9
-1.0 1.0 -1.0 1.0 -1. a 1.0 1.0 1.0 -1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0
-1. -1.
a a
.0
.a
1.0 1.0 1.0 1.0 0.0 0.0 -1.0 1.0 0.0 0.0 0.0 0.0
la Il
12 13 14 15 16
FIGURE
21.2
Ce plan n'est pas orthogona1 (il ne peut pas l'tre) : voici la matrice de corrlation entre les colonnes de X :
A
A
A'2
AB
~--
AC
B::
~-----_
BC
c2
0.0000 0.0000 0.0000 0.46 0.0000 0.0000 0.4667 0.0000 .0000
..................... _ .. _ .............. - - - - - - -
B C
AB AC
B';
BC C::
_
1. 0000 0.0000
0.0000 0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.4667 0.0000 0.0000 0.0000 0.0000 0.0000 o.
..
~
. . _ _ ................ _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . _
. . . . . . _ _ _ _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . "" _ _ _ _ _ _ ...... _ _ . . . . . . . . . . . . . . . . . . . .
................. _
.... _ _ _ . . . . . . . . . . . . . . . . . . . . . . . . . . _ _ _ ., _ _ . . _
534
211i1l11i1Plans d'expriences
II n'est pas non plus isovariant par rotation. Ces plans se gnralisent un nombre quelconque de facteurs. L'hypercube a 21' sommets et 2p faces. La parte factorielle peut-tre une fraction orthogonale et non le plan complet. Le plan minimal pour 5 facteurs comprendra en tout 28 essais avec 2 points au centre. en partant d'un plan 2 5- 1 et laissera 7 degrs de libert.
21.3.2
Au lieu de mettre les points en toile ) au centre des faces, ils sont une distance du cenlre. Ce qui donne le plan suivant pour 3 facteurs et 2 points au centre. Il y a donc 5 niveaux par facteur.
TABLEAU
21.8
essai
1 2
3 4
_..
"'~~--
.a
.a 1.0 1.0 1.0 1.0 1.0 1.0
-
5 6
7 8
-1.0 -1.0 1.0 1.0 -1. a -1. a 1.0 1.0 0.0 0.0
-
Ci
1.0 .a 1.0
.a
1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0
-Ci Ci
9 la Il 12 13 14
15 16
0.0 0.0
FIGURE
21.3
2I_Plans d'expriences
535
On montre que pour obtenir r isovanance, il faut prendre Cl = (Hr) 1/-1 o nI est le nombre d'essais de la partie factorielle. Pour 3 facteurs ct gO.25 = 1.6818 et pour 2 facteurs a = 425 = 2(1.5 = 1.414. Les points sont alors respectivement sur une sphre ou un cercle. Ces plans conviennent donc bien quand le domaine exprimental est sphrique.
21.3.3
Ce sont des plans o les facteurs ne prennent que les niveaux - l, 0, 1. Pour p 3 les essais hors du centre sont disposs au milieu des artes du cube (figure 21 A), pour p > 3 au milieu des hyperfaces de dimension p-1 . Ces plans demandent souvent moins d'essais que les composites. Tous les points (hors ceux au centre) sont situs sur une sphre de carr de rayon gal 2 si p 3, 4 ou 5, de carr de rayon gal 3 pour p = 6 ou 7. Ils ne contiennent aucun sommet ce qui peut-tre un intrt si les sommets correspondent des expriences difficiles raliser. Le plus utilis est celui pour 3 faCleurs donn par le tableau 21.9 . 11 n'est pas sovariant par rotation. La matrice de corrlation entre effets (tableau 21.10) montre une nette supriorit sur le plan composite faces centres tudi plus haut.
21.9 C --_ ........ _.. ------ .... _.....
TABLEAU
essai
1
2
3 4 5 6
7
8
9
la
11
12 13 14
15
-1. a 1.0 1.0 -1. a -1. a 1.0 1.0 0.0 0.0 0.0
FIGURE
21.4
536
21_Plans d'expriences
TABLEAU
B
............... M
~
21.10
AC
AB
Be
.. _ .................. __ ......... _ ....... _
............... _
.... _
....... _ .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . _ _ .. "' .. '" .. _ _ _ _ _ _ _ _ _ _ _ _ . . . . . . . . _
_A.
13
C
.i\B
AC
6::
BC
c1
0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 1.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -0.0714 0.0000 0.0000 0.0000 -O. 0714
Le tableau 11.11 est un plan de Box -Behnken pour 4 facteurs en 27 essais dont 3 au centre. Ce plan est sovariant par rotation.
TABLEAU
21.11
_._-----_ ........ -
essai
1 2 3
4
B C ."A. D ............... _.............. _......................... --_ .......... _-----_ .................. --_ ................... _... _- ........ __ .. _.................
5 6 7 8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
24
1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 1.0 1.0 -1. a 1.0 0.0 0.0 0.0 0.0 -1.0 1.0 -1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
-1. a -1. a 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 -1. a 1.0 -1.0 1.0 0.0 0.0 0.0 0.0 -1.0 1.0 -1. a 1.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 -1. a 1.0 1.0 1.0 0.0 0.0 0.0 0.0 1.0 1.0 1.0 1.0 -1.0 1.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 -1. a -1. a 1.0 1.0 -1. a -1. a 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
-1.
25 26 27
21_Plans d'expriences
537
21.3.4
Les donnes sont reprises de Montgomery (2001 page 503) avec le plan de Box-Behnken du tableau 21.9.
yi
= (535
580 596 563 645 458 350 600 595 648 532 656 653 599 620)
DDL 1 1 1 1 1 1 1 1 1 5 14
carr moyen. 703.125 6105.13 5408.0 20769.2 1521.0 47742.3 1404.0 1260.25 4719.0 1043.75
Proba. 0.4491 0.0602 0.0719 0.0066 0.2814 0.0011 0.2985 0.3219 0.0868
L'analyse de la variance et le graphe des effets indiquent que l'on peut liminer le terme du premier degr en A, celui du deuxime degr en B ainsi que les produits AB et
Be.
C: Facteur_C L~,:r::;;;;,''''I--+---+--
CC
ABI~2jr-T---I--------i---
FIGURE
21.5
636.0+27.625B -
37.25C::
538
Somme des carrs 6105.13 5408.0 21736.9 47742.3 5153.8 10107.1 94871.3
DDL 1 1 1 1 1 9
5153.8 1123.01
=1.0
660
610
560
Y 510
FIGURE
21.6
La figure 21.6 reprsente pour B fix au niveau 1 la surface de rponse de y selon A et C. Si l'on cherche maximiser la rponse, compte tenu des contraintes du domaine l'optimum 1 et vaut environ 691. est atteint pour A = -0.71, B = 1 et C =
21.4
Notons mj le nombre de modalits du facteur nOj. Bien que non ordonnes ces modalits seront encore appeles <:< niveaux . Leur numrotation est donc arbitraire et les niveaux seront nots tantt par les entiers 1, 2, ' . " mi' tantt par des symboles AI, A2, . , , Am}'
21.4.1
Orthogonalits
Comme prcdemment, l'orthogonalit est une proprit souvent recherche. L'orthogonalit d'un plan pour un modle donn se traduit par une analyse de variance orthogonale : les sommes de carrs des diffrents effels sont additives.
21_Plans d'expriences
539
Une condition suffisante d'orthogonalit pour le modle effets principaux sans intraction est que le plan soit quilibr au sens suivant: pour toute paire de facteurs i etj les 1I1 j H1j traitements sont prsents le mme nombre de fois. On parle galement d'orthogonalit au sens strict; elle entrane la D-optimalit. Cela implique que le nombre d'essais soit un multiple de mimj- Toutes les cases du tableau crois 111; lignes et mi colonnes de dnombrement des essais ont le mme effectif.
n y a orthogonalit au sens large si les effectifs ne sont pas identiques (plan non quilibr) mais si le khi-deux calcul sur ce tableau est nu1. L'analyse de la variance a les mmes proprits que pour l'orthogonalit stricte mais le plan n'est pas ncessairement D-optimal.
21 .4.2 Facteurs m niveaux
Si tous les facteurs ont le mme nombre de niveaux m, le plan complet ncessite ml' expriences. Nous nous intresserons ici aux plans ncessitant moins d'observations. Si 111 = 2, on peut utiliser les mmes plans que dans le cas quantitatif: factoriels fractionnares, Plackett et Burman. La seule diffrence est que les niveaux bas ) et ~( haut ) n'ont pas de sens el que la modlisation ne s'exprimera pas l'aide d'une rgression linaire classique mais plutt symboliquement comme suit:
I:-'{}
r.t
. . .
+ ( -[3/, ) + e Il
1:-'1'
On ajoute [3j si le facteur j esl au niveau l et - [3) s'il est au niveau 2. Pour 3 et 4 facteurs on utilisera les carrs latins et grco-latins, au del on se reportera des recueils de table (par exemple celles de Benoist & al. 1994), ou on les construira par des procds algorithmiques
21.4.2.1
Carrs latins
Pour p = 3 et III quelconque, les plans en calTs latins sont des plans orthogonaux au sens strict en /112 essais au lieu de mJ On peut les obtenir de la manire suivante, d'o leur nom: On consttue un carr en croisant 2 des 3 facteurs, et on affecte chaque case les niveaux du 3rnc facteur par permutations circulaires de la premire ligne. Chaque niveau de chaque facteur est associ une fois et une seule chaque niveau d'un des deux autres. Voici le carr 3 latin pour 3 facteurs 4 niveaux qui comprend 16 essais not parfois L llA . Le premier essai estAI BI Cl etc.
BI
B2 C2 C3 C4 Cl
B3
C3 C4 Cl C2
B4
C4 Cl C2 C3
Al
A2
A3 A4
Cl C2 C3 C4
540
21.Plans d'expriences
--1
2
essai
3
4
5 6
7
9 10 11 12 13 1 LI 15 16
Les carrs lutins ne peuvent estimer que les effets principaux. Dans l'analyse de variance le nombre de degrs de libert pour l'erreur vaut 111:' - l - 3(m 1) = (m 1) (m - 2). Il y a en effet (nt 1) paramtres estimer pour chaque facteur plus le terme constant.
21.4.2.2
Carrs grco-latins
Ce sont des plans pour 4 facteurs ni niveaux. On peut les construire en super posant deux carrs latins. Ils existent pour tout 1Il > 2 sauf pour 111 6. Les plans en carrs grco-latins sont des plans orthogonaux au sens strict en 1/12 essais au lieu de m4 Voici le carr grco-latin Ll644 sous sa forme originelle et sous forme de matrice d'exprience:
BI
Al A2 Clet C2 'Y C30 C4 !3
B2 C2 r3 Cl 8 C4 'Y C3 et
B3
C3 'Y
B4
C48 C3 r3
C4et
Cl 13 C2
A3 A4
C2et
Cl-y
Comme pour les carrs latins, on ne peut estimer que les effets principaux; dans 1'analyse de variance le nombre de degrs de libert pour l'erreur vaut (Ill l) (m 3).
2I_Plans d'expriences
541
essai
1 2 3 4 5 6 7 8 9
F.
3 3 4 1 2 4 3
2
3
4
1 2
2
.::,
'"1
1 2
3
2
3
41
2 3 4
3 41 2
4
10
11 12
13
14
15
16
3 3 3 4: 4 ,1 4
1
2
3 2 1
2 1 4 3
1
2 3
1 4
21.4.3
Plans asymtriques
On ainsi les plans avec des facteurs n'ayant pas tous le mme nombre de niveaux. La construction de plans fractionnaires est difficile et il n! existe pas de mthode getler.lle. Voici tout d'abord quelques indications concernant le nombre d'essais: Il doit tre au minimum gal au nombre de paramtres estimer 11 >
2:
j=1
Il
(Ill j
1)
1 et
pour avoir un plan orthogonal au sens strict (sans interaction) tre un multiple commun de tous les produits mimi' Cela donne quelques possibilits, mais il n'est pas certain qu'un tel plan existe en dehors du plan complet. On peul alors consulter des recueils de tables, mais ils ne sont pas exhaustifs. ou utiliser une des mthodes suivantes: fusion ou compression en partant d'autres plans. En voici deux exemples simples:
21.4.3.1
Un exemple de fusion
On cherche un plan pour 3 facteurs, l'un 4 niveaux, les deux autres 2 niveaux. Le plan complet comporte 16 essais. Le ppcm des produits IHjmj vaut 8. On trouve le plan de la manire suivante: on part de 4 facteurs deux niveaux et du plan fractionnaire 2-1-1 du tableau 21.1 :
essai
1 2
3
_~-"'
1 1 1 1 1
1
5 6
7
-1 -1 1 1 -1 -1 1 1
-1 l
-1
-1 1 1
1 1
1 1 1 1 1 1 1
542
21_Plans d'expriences
En combinant deux facteurs 2 niveaux on en obtient un 4 niveaux. On remplace par exemple les colonnes C et D de la faon suvante (-1; 1) devient le niveau 1 d'un facleur E, (- 1, 1) le niveau 2, (1 ; -1) le niveau 3 et (1 ; () le niveau 4. Le plan rsultant est slrictement orthogonal et permet d'estimer les effets principaux.
essai
~" ~-
1 2
3
4
-1 1 -1
l.
5 6
7
-1 1 -1 1
-1 -1 1 1 -1 -1 1
1
1
2 2
1
4 3 3 4
21.4.3.2
Un exemple de compressio"
( collapsing ) en anglais).
Cherchons un plan pour 3 facteurs: A et B 3 niveaux el C deux niveaux. Le plan complet demande 12 essais, mais seuls les effets principaux sont estimer. Le ppcm de 6 et 4 est galement 12, donc le plan complet est le selll plan orthogonal au sens strict. Si le facteur C avait eu 3 niveaux, on aurait pu utiliser un carr latin 3 3 comme celui-ci :
BI
Al
B2
C2 C3 Cl
B3
C3 Cl C2
A2 A3
Cl C2 C3
Il suffit alors de regrouper deux des 3 niveaux de C ; par exemple C3 et C2. On obtient un plan orthogonal, mais cette fois-ci au sens large puisque non quilibr.
BI
Al A2
Cl C2 C2
A
B2
C2 C2 Cl
B3
C2 Cl C2
.. -- '" -....
B
.... "'
A3
essai
1
2 3
---~~
1 1 1
2 2 2 3 3 3
1
2 3
1 2
2 2 2
4
5 6
7
1
2
3
1
2
1
2
8 9
1
2
543
21.5
Il n'est pas toujours possible de construire la main un plan d'expriences, soit parce que le domane exprimental est irrgulier, ou qu'il est impossible de trouver un plan orthogonal par les mthodes exposes prcdemment (il n'yen a pas ou on ne sait pas le trouver), ou encore parce que le nombre d'essais est limit. On utlisera alors des logiciels, maintenant assez rpandus, pour trouver un plan optimal, en gnral D-optimal. On se donne un ensemble de N points candidats ou essais potenliels parcourant le domaine exprimental, parmi lesquels on va chercher un sous-ensemble de Il essais (avec rptitions ou non). En l'absence de contraintes sur le domaine. N correspond au nombre d'essais du plan complet. Comme il est irralisable d'explorer tous les choix de Ir pamli N, on utilise des algorithmes d'optimisation bass pour les plus connus sur des changes: on part d'un plan, souvent choisi alatoirement, que l'on amliore en changeant un essai du plan contre un autre non choisi. Ces algorithmes ne convergent pas ncessairement vers l'optimum du critre et il est conseiIJ de les relancer plusieurs fois en faisant varier les initialisations. S'il existe un plan orthogonal pour la valeur fixe de II et si l'algorithme converge, alors il dcouvrira ce plan. Sinon on trouvera un plan de bonne qualit. Exemple : On a 4 facteurs A, B, C, D 3, 4, 2, 2 niveaux respectivement. On ne s'intresse qu'aux effets principaux. Le plan complet possde 48 essais. Il existe un plan orthogonal au sens strict en 24 essais mais il est trop onreux el on veut se contenter de 12 essais ce qui laissera encore 4 degrs de libert pour l'erreur rsiduelle. En 10 itrations on aboutit au plan suivant:
Essai
1
2
3 4 5 6 7 8 9 10 11 12
3 3 3 3
L1
";)
-'
2 2
1
4
";)
-'
2 1
4 3
2 1
1 1 2 1 1 2 1 2
2
1 2 1 1 1 2 2 2
1 1
Il Y a orthogonalit entre A et
B et D.
544
21_Plans d'expriences
" . ' ' l ' . L , e f'r: YICactte d' un p1an D -optIma l est souvent mesuree par a quantlte X ' X
1
1
1
/1'
JI
que l' on
interprte comme le rapport entre le nombre hypothtique d'essais d'un plan orthogonal qui aurat mme dterminant et le nombre d'essais du plan. En effet on sait que pour un plan orthogonal X'X est diagonale de termes tOtlS gaux l'effectif du plan. La D-efficacil vaut ici 97.0984 %. On peut galement forcer >1 certains essais (que l'on veut faire, ou qui ont dj t raliN ss) et optimiser sur les essais restant faire. Les algOlithmes de plans D-optimaux constituent une solution pratique, mais ne sont pas une panace: la solution optimale peUl tre instable, certains essais trop complexes, r optimum du dterminant ne correspond pas forcment au critre recherch ...
1Annexes
Tables uSIJelles
Table A.l Table A.2 Table A.3 Table A.4 Table A.5 Table A.6 Table A.7 Table A.8 Table A.9 Table A.l 0 Table A.II Table A.l2 Table A.13 Table A.14 Table A.15 Table A.16 Table A.17 Table A.18
: Nombres au hasard. : Loi binomiale: fonction de rpartition. : Loi binomiale: probabilits individuelles. : Loi de Poisson. : Loi nommle centre-rduite: fonction de rpartition. : Loi du khi-deux. : Loi de Fisher-Snedecor. : Loi de Student. : Valeurs critiques du coefficient de corrlation.
: Corrlation transforme de Fisher.
Table A.3 bis: Abaque pour les intervalles de contiance d'une proportion p.
Table A.9 bis: Abaque pour les intervalles de contiance d'un coefficient de corrlation. : Valeurs critiques du coefficient de corrlation des rangs de Spearman. : Test de concordance de p c1assemenls (W de Kendall). : Loi de la statistique de Cramer-von Mises. : Valeurs critiques pour le test de Kolmogorov. : Valeurs critiques du coefficient d'asymtrie. : Valeurs critiques du coefficient d'aplatissement. : Test de Durbin et Watson. : Coefficients pour calculer l'esprance et la variance de l'cart-type corrig et de l'tendue d'un chantillon gaussien.
Les LabIes A.I et A.2 sont extraites de J. Mothes, Prl'isiollS et dcisions statistiques dans
l'entreprise, Dunod, 1968.
Les tables A.3 et A.9 bis sont extraites de Massey et Dxon, lll/mdllclion 10 statistical al1a1.l'sis, Mc Graw-HilL 1951.
548
AIIIIIIIIIITables usuelles
L'abaque A.3 bis est extrait de E. Mariee et F. Chartier, .Mthode statistique, deuxime partie, INSEE. 1954. Les tables A.6 et A.7 sont extrates de Hald, Stmstcal tables andlormillas, Wiley, 1952. La table A.9 est extraite des tables scientifiques dites par Ciba-Geigy, 1973. La table A.ll esl extraite d'un article de J. H. Zar paru dans le JOllrnal Stafis/ical Association, n 339 de septembre 1972.
(d the American.
La table A.I::! est adapte de celle de M. G. Kendall, Rank correlation methods, Ch. Griffin and Co., 1962. La table A.13 est extraite d'un article de Knotl paru dans Joumal of the Royal Statistical Society, B36, n 3, p. 436, 1974. La table A.14 est extraite d'un article de L. H. Miller paru dans Journal Statistical Association. 5 l, pp. 113-11 S, 1956.
(~f tlze
American
Les tables A.4, A.5, A.5 bis, A.8, A.10 sont extraites du numro spcial de la Re\'lle de Sfatistque Applique, dite par l'Institut de Statistique des Universits de Paris, 1973. Les tables A.l5 et A.16 sont extraites de E. S. Pearson et H. O. Hartley Biometrika tables for statisticicms, 2 tomes, Cambridge University Press, 1969-1972, qui contient de nombreuses autres tables spcialises. La table A.17 est extraite de New York, 1977.
Chatterjee~Price
L'index bibliographique de Greenwood et Hartley, Guide aftables in matlIematical statistles, 10 l4 pages, Princeton University Press, 1962, est une prcieuse liste de rfrences.
A_Tables usuelles
549
TABLE
5 13407 50130 84980 22116 68645 26518 36493 77402 83679 71802 57494 73364 14499 40747 42137 32934 05764 32706 21190 81616 26099 71874 08774 37194 33912 63610 01570 14159 92834 16178 81808 28628 62249 84541 89052
10
15 78937 94083 09703 17545 56898 96561 27871 59892 40341 02981 22676 93128 75403 07734 91855 58707 73069 93188 95668 94921 69870 80001 42245 56850 78967 26980 30182 38973 88301 59284 80660 04854 12273 01585 99811
10 90525 93634 78397 31311 87021 56004 71329 85581 84741 89107 4431 ] 10297 18002 88940 62097 44858 80830 66049 5326] 95970 84446 11430 51903 83380 57201 23804 54647 82178 22127 16279 98391 52809 9]261 96711 69831
15 25033 71651 66179 65772 40115 50260 69212 70813 08967 797R8 15356 11419 45068 88722 81176 36081 1713] 25988 11676 63506 58148 02305 69179 05912 66916 54972 06077 46802 23459 48003 62243 86608 96983 29712 47234
30
35 78902 57532 67619 09811 41221 85596 65281 34405 94952 37129 03582 84389 18085 73810 81607 01191 48472 35365 43618 29966 56938 34261 91819 37612 54289 19403 95704 01805 74678 08623 39551 11120 83851 70955 47386
40 47008 60307 39154 81848 88293 83979 57233 67080 59008 31898 66183 88273 92625 79866 00565 68707 18782 ]3800 42110 38144 54729 15157 60812 15593 07147 53756 75918 23906 21859 32752 18398 28638 77682 59693 17462
45 72488 91619 90763 92211 67592 09041 07732 16568 95774 34011 68391 96010 60911 84853 56616 45427 51646 83745 93402 62556 67757 27545 47631 73198 84313 04281 21811 96559 98645 40742 36918 72850 81728 26838 18874
50 57949 48916 74056 51178 06430 62350 58439 00854 44927 43304 86844 09843 39137 68647 77422 82145 37564 40141 93997 07864 68411 14522 50609 99287 51938 98012 88274 06785 72388 05470 43543 03650 52157 96011 74210
61899 63237 61458 33646 15068 39]22 41666 12994 97154 39356 72484 38416 83965 03084 59122 60217 14284 94879 17559 15641 65801 61692 29689 92018 37996 61475 41701 77787 52941 60063 32980 82072 65757 99891 39061
56358 01656 46982 86506 27524 68648 57932 53338 73187 51330 05348 81937 54257 85717 06318 79981 41936 46656 98943 22007 21281 59741 96682 29830 73998 72068 19354 90245 40229 44634 19678 68017 15082 02877 93263
10
15
20
25
30
35
TABLE
A.2 Lor
BINOMIALE
Fonction de rpartition
Taille de
]' chuntillon
/.:
f1
1%
=20/.-, p
3 t;f,
p=4%
0,8153 0,9851 0.9994 1
p=5%
0,7738 0.9774 0,9988 1
6 r;{,
7 rr p=Rl;()
U,659 1 0,9466 0,9955 0,9998 1 0,4344
{7
9%
p= 10%
0,5905 O,9lH5 0.9914 n,9995 i 0.3--187 0.7361 0,9298 0,9872 0,9984 0,9999 1
{)
20%
fi
30 rk
fi = 40 %
{' = 50 %
0
N::::5 1 2 3 4 5
()
0,9510 0,9980 1
0.9039 0,9962
0,6240 0,1)326 0,9937 0,9997 1 0,3894 U.77<-16 0,9460 0,9912 0,9990 0,9999 1
0.3277 D,7373
O,9l21
0,9933 0,9997 1 0.1074 0.3758 0,6778 0.8791 0,9671 O,lJ936 0,9991 0,9999 1
...
0,90+4 0,9957 0,9999 0,8171 0,9838 0,9991 0.7374 0,9655 0,9972 0,9999 D,6M3 0,9418 0,9938 0,9996 0,5987 n,9139 0,9885 0,9990 0,9999 1 0,5386 0,8824 0.9812 0,9980 0,9998 1
1
0,0282 0.1493 0,3828 0,64% 0,H4Y7 0.9527 0.9894 0.991)4 0.9999 1 0,OD47 0.0353 0,1268 0,2969 0,5155 0.7110 0.8689 0,9500 O,984R 0,9963 0,9993 0,9999 1
0,0313 0,1875 0.5000 0.8125 0,9687 1 0.0010 n.OID7 0.0547 0,1719 0.3770 0,0230 0.8281 0.9453 0,9893 0,9990 1
1 2.
3 4
O,IH21
0,9599 0,9942 0,9994 1
N= 10
5
6 7 8 1) 10
[)
0.OD6n 0,0464 0,1673 0,3823 0,6331 O.833l-i 0,9452 0.91377 0.99133 0,9999 1 ... n,0005 0.0052 0.0271 0.0905 0,2173 0,4032 0.6098 0.7869 0.9050 0,9661 0,9907 O,99HI 0,9997
1
1 :2
3
1
5 6 7 8 9 10 Il 12 13 14 15
0,9825
0,9972 0,9997 !
0,2059 0,5490
O,S159
0.9445 0.9873 O,997ti 0,9997
N= 15
0.0352 0.1071 0,3980 0,6482 0,8358 0,9389 0,9819 0.9958 0.9992 0.9999 1
n,sooo
0.6964 O,fWJI 0,9408 0.982-l 0,9963
~.9995
--
TABLE
A.2 (suite)
LOI BINOMIALE
Fonction de rpartilion Pk
Il
1 - P )"'-k
{J
4 (li,
= 5 (;..
fJ = 6
{J
J1
8 (Ji-
9(J'r;
P = IO(;},
0,1216 0,3917 0,6769 0,8670 0,9568 0,9887 0,9976 0.9996 0,9999
~()
50
:2
3
4
5 6
7
0,1342 0,5869
0,8390
0,9529 0,9893 0,9981 0,9997
8
N
20
9 1 [0
I[
12 13
[-l
0,0115 0,0692 0,2061 O,-l114 0,6296 0,8042 0,9133 0.%79 0,9900 0,9974 0,9994 0,9999 1
15 [6 [7 18 [9 20
0,0002 0.0013 0.0059 0,0207 0,0577 0,1316 O,25l7 0,4119 O,58RI 0,7483 0,8684 0,9423 0,9793 0,9941 0,9987 0,9998 1
TABLE
A.2 (suite)
LOI BINOMIALE
k
Fonction de rparLiLion p~
2:C,~-pi.(1 - py-I. n
TailJ~ d~
l'chantillon
k
0 1
p ='2 17('
0,5455 0.1;79-10,9783 0,9971 0,9996 1
l' = 4- fi';'
0,2939 0,6612 0,8831 0,9694 0,9937 0,9989 0,9999 1
p =5 r:'r,
0.21-1-6 0,5535 0.!H22 0,9392 0,984-10,9967 0,9994 0,9999 1
fi =61,''''
p=7%
0,113-10,369-10,6-1-88 0.8450 0,944-7 0,9838 0,9960 0,9992 O,9!)99 1
p=:WI,:;,
0,0012
p =301J'f->
P =40 171,
~50%
2.
3 -1-
5
6 7 8 9 10
o,ooon
0.0003 0,0021 0,0093 0,0302 0,0766 0,1595 0,2814 0,4315 n,5888 0,730-10,8-107 0.9155 0.9599 0,9831 0,9936 0,9979 0,999-10,9998 1
D,OIOS
0,0-1--1-2 n.1 :2:1.7 0,2552 0.4275 0,6070 0,7608 O,S713 0,9389 0,97440,9905 0,9969 0.9991 n.9998 1
0,0000 0,0003 0,0015 0,0057 0,0172 0,0435 0,0940 0,1763 0,2915 0,4311 0.5785 0,7145 0,8246 0,LJ029 0,9519 0,9798 0,9917 0.9971 0,9991 0.9998 1
0.0000 0,0002 0,0007 0,0026 0.0081 n,02I-10,0-1-94O,IOD2 0,1808 0,2923 0,4278 0,5722 0.7077 0,8192 0,8998 0,9506 0,9786 0,9919 0,99740,9993 0,9998 1
Il t2 13
N= 30
1'1 15
16
17 18 19 20 2l 22 23
~4
25
~6
27
~!:!
29 30
::: C ;:::: C C C
r"'j -
c--t
~j r i ~ ~
r-j 0
=--- - ::c
~ ~
("1 0' t" X r-- :f.) ::;-.. t'- =' l n tr, ~I ::7' C ...0 cc =' C' \0 :tO .::0 \0 ('" 1 ~~ C' ::;-, c::;;'\ 0' \0 ':0 0' 0\ C' :i' c::i' 0. 0'
:;:
Il
o "-=
o ::
dcicicicicicicicidcicidddcicidcicicid
- r- 00 tr. - lJj r- (""'j - =--- ri \C := ri r- ~ .~ :i'\ C =: c ("'1 r- 1..0 ct; r-"'j ~ ~j ("'f"'j lli oc =' ::::J'\ ~ ~ ~ C. ~ '~ q -" ("-! -1'.. l'1 r-~ ~ ~ =; ~ =;. ~ :7;. ~ ::::C::::;:'OO==CCCC::CCCCOO=c
l.n
=('"
l rl
\0
.=
r-
==
...c
C (""1 00 'ri
r('f"".
\C -
r-
c:;;-.
~l
~ -
..c -
:;::;. r-
c;.
=--
::...
r- lr, -
l
1:
0
=:
~
ri -
f"t'1 -:t
::::;".
=_ -:
C=CO=::OOOOOO~-
~ ("'1 rr'. t.I co =::; >..0 C" C' C f"1j ...c; Ir" ri rOC C tri rc-" r- ~ =:i\ ("'~ \'1 r-...~ ~
:;-.,
:;j',
-r
=: =: =:
=: =:i\ ~
:i\
::f
W ...J
-<
::::;".
i5
.....J ,..-...
~
"G~
""'v-l:::
C!...
-<
!!:l '5
'-'
1...
<i
...J tt'I
r-- -r rI C
'2
c..
CCCOO:~O=~-
("'!
..cX-I..O~:::'\:::'\::l'\
0'\ :::;
C\
r-
r- .:::;-.,
tri ':;--.
.::::7\
0;. ~ ~ ~ ~
ct 1-
.g ~2
i.t
~
Ir'/. -- """ 0'\ .~ ~ rt"'. '.X: ::;j'\ I.!: r1 '..c; ~ ~ r-I ~ """ ...c' tr.:;.G:.:"\:::"
='
=='
C=CO-=::::::~C::;-
- .. r-r-!~~~~~~=-.
-r ::: tri
.r$ :;-., ('"'"1
--: Ir!
0~ =~OC=CC'~-
r-I
=~
l': =;,
C'. c;.
='
:;j'\
oc
rr-.
lf')
C"'>~:>:\CO"o.O"
r-I
("'l
cc :c rr, -:C.:::;-.
t:~
~
....::;!""""'j~::::"'>
:.:"\:i" t""1
=:
="
===::0:::::-
~~~~
ri
("t"i
.:t:J .~
("'1 l'"'J
-r
If")
\oC t-
--
l''''''~ <""", ~ ~ ~~ ~
-r
jJ )II-l
Tuille de l'chantillon k
0 1 2
p=1
0,6050 0,9106 0,9862 0,9984 0.9999
J
p::1% p = 3
0,3642 0,7358 0,9216 0,9822 0,9968 0,9995 0,9999 1 0,2181 0,5553
P =4(;(;
5%
p=6% 0.0453 0,1900 0,4162 0,6473 0,8206 0,9224 0,9711 0,9906 0,9973 0,9993 O.999H 1
{J
7 (V ,n
8%
9 CI. ln
P = 10% IJ = 10 IJr, P
0,0052 0,0338 0,11[7 0,2503 0,.:.1312 0,6161 0,7702 0,8779 0,9421 n.9755 0,9906 0,9968 0,9990 0.9997 0,9999 1 0,0001 0,0013 0.0057 0,0185 0,0480 0,1034 0,1904 0.3073 0,4437 0,5836 0,7107 0,8139 0,8894 0,9393 0,9692 0,9856 0,9937 0,9975 0.9991 0,9997 0.9999 1
30%
fI -
40
(i:;)
5001,
(l,BIOB
0,9372 0,9832 0,9963 0,9993 0.9999 1
3
4
5
6 7 8
1)
10 Il 12 13 14 15 16 17 18
0,0266
0,1165 O,310H 0,5327 0,7290 0,8650 0,9417 0,9780 0,9927 O,997!-\ 0,9994 0.9999 1
0.0155 0,0827 0,2260 0,4253 0,6290 0,7919 0,8981 0,9562 0,9834 0.99440,9983 0,9995 0,9999 1
0,0090 0,0532 0,J605 0,3303 0,5277 0,7072 0,8404 0,9232 0.9672 0,9875 0,9957 0,9987 0,991)6 0,9999 1
50
19 20 21 22
23
24
25
16 27 28 29 30 31
D,DODO 0,0002 0,0007 0,0015 0,0073 0,0183 0,0402 O,OSOI) 0,1390 0.2229 0,3279 0,4468 0.5692 0,6839 0,7822 0,8594 0,9152 0,9522 0,9749 0,9877 0.9944 0,9976 0.9991 0,9997 0,9999
0,0000 0.0001 0,0002 0.0008 O,(J022 0,0057 0,0133 0,0280 0,0540 0,0955 0,1561 0,1369 0.3356 0,4465 0.5610 0.6701 0,7660 0,8438 0,9022 0,9427 0,9686 0,9840 0,9924 0.9966 0,9986 0,9995 0,9998 0.9999
J
0,0033
0,0077 0,()164 0,0325 0,0595 0.1013 0,1611 0,2399 0.3359 0,4439 0.5561 0,664\ 0.7601 0,8389 0,8987 0,9-105 0,9675 0,9B36 0,9923 0,9967 0.9987 0,9995 O,999H 1
32
33 34
35
36
37 38
III
.05
.9025
.10
.15
.7125 .2550
.25
.JO
..l900
A100
3
..!44-1
.35
,4125
A550 .1225
AO
.3600 A 800
.1600
..15
.3025
.50
.2500
o
1 1
3
.9801
.slon
.IBOO .0100
.7290
.Ol9R
.noOl
.9703
.029-1 .0003 .OOO!)
.9606
.0950 .0025
.S57~
.6-1()() .3200
.5625 .3750
.0625
.44-1..4
.1111
.0225
.6141 .3251
.(WOO
.5120
Jl900
.313(1
AlJ50 .2025
.50no
. 25()()
o
!
:::
3
.135.J. .0071
.0001
.2..430
.0270
.3840
.0960
.0574
.003~
.(lOIO
.6561 .2916 .0186 .0036 .0001 .5905 .3180
.G080
A09fi .'1096 .1536
.2963 .4.+.J.-1
.2222
.27-16
A~36
.2160 A320
.0370
.1975
.3951
.2389 .0.J.29 .1785 .3l:1..45 .3105 .1115 .0150 .1160 .311.+ .3364 .1811
.2880
.06..40
.1296
.1250
.3750 .3750 .1250
o
1 2
3
.0388 .0006
.(j0(){) .m)(){)
.J.
5
.0625
.25()() .3750 .2500 JJ62S .0312
A219
.1109
.3.+56
.3456 .1536
.1995
.3675
.0005
7
.0-169 .0039
.2373 .4096
.(lOSI
.1681 .3602 .3087 .1323 ,02R4 .0024
.1176 .3025
.32~
.0256
o
:::
3
-1 5
.7738
.2036
.021'~
.0011
.O(){)O
.0719 .OOSI
.0004
5 :2
.()O:12 .0001
.3955 .2637
.0879
.3292
.3192 .16-16 .(M12 .00'+1 .OH78 .263'+ ..:l2Q2
.0778 .2592
.3~56
.1562
.3369
.2757
.J125
.3115 .1562 .0312 .0156 .0938 .23-14 .3125
.23(W
.01-16
.0010 .1780 .3560
.0000
.7351
.2321 .0305 .0021
.omm
.5314 .35U .0984
mS8
'(lO53
.0768
.0102
.0467 .1866 .3110 .:!65
.1382
.1128 .01R5
()
()
.9-115
.0571
.3771
.3993
.1762
1
2
.3932
.2-158
,2966
.1318
.3
.+ 5 6
7
.0000
.0000 .9321
.0819 .015..4
.0015 .0001
.2195
.OH13 .01(,5 .nOI-i
.2344
.0938
Jl369 .1)041
JlOS3 ,(1152
.Oti72 .1140
JJl56
.0078 .05-17
.1641
n
1
.2097
.3670 .2753 .1147
2 3 -1 5 6 7
.0659 .0010
.0000
.2573 .0-106
.0036 .0002 .0000
.081-1
.2-171 .3177 .2269
.0585
.20'+8 .3073 .2561 .12RD .038-1
.(W90
.18~8
.0000 .0000
.0000
.0187
.0043
.0577
.0972
.0250
.GOOD
.9127 J17-16
.0026 .0001
.0000 .0000
.6634 .2793 .0515 .005-1 ,4305 .3826
.0()()..4
.00(){)
.oon
.0001
.1001 .2670 .3115 .2076 .lJ865 .U13 1 .ml3!l
.0115
.077-1
.0172
.nom
.0576 .1977 .2%5 .2541 .1:161 .IMo7 J}JOO
.0036
.006..4
.0005 .0390
J
.(
.0016
.0168 .0896
o
1
.::'715 .38-17
.2376
2 3 -1 5 6
7 ti 9
.1-188
JI331 .O()46 .000-1 .0000 .0000 .3874 .3874 .1722
.0319
.1561 .2731
.2731 .1707 .0683 .0171
.1373
.0548
.1569
.2587
.2786
.2090
.1787 .1322
.ooon
.0000
.OOO.J.
.ooon
.14@
.0459
.2561-\
.1627 .1719 .0703
.2183
.1875
.0808
. 273.J.
.(Jon::.
.(l092 .0011
.0001
.1239
,(W13 .007!)
.2188
.109.J. .0311
JI039
.()OOO
.0000 .6302
.0000
.9135 .0830 .003-l
.0000 .0000
.2316 .3679
.0004
.0000 .0751 .2253
.(lOI2
.0001
JJ02.+
.0002
.mm
.0217
.00{)2 .0207 .I()(M
.0164
.0017 .OU-l6
.0000
.13-11 .3020 .3020
.1762 .0661 .0165
.0007
o
1
.2985
.061!)
3
-1
.oom
.0000
.0000
.2597
.1069
JJ283
.0077
.0006
.0-146
J)074 ,0008 .0001 .0000
.3003 .2336
.116ti
.0339
.1110 .2508 .1672 .0743
.0020 .0176
.0703
.1162
.1716 .:219-1 .1181
.2119 .:!600
.2128
.1160
.16-11
.2~61
5 6
7 8 9 10
.{)()OO
.0050
.0006 .0000
J)389
.00B7
.101-1
.0341
.0000
.0000
.<
.!
.0028
.ooon
.0000 .90+:1.
.091-1 .0012
J
.0000
.5987
.ODOO
.0000
.0000
.0000
.ooon
.OUOO
.0003
.(lOI2
.0001
.0-124
.1-161 . 16.J. 1
.0703 .0176 .0020
.0010 .(109B
J)~39
.mm
JI009
.0000
.0563
.0001
J1I73 .0867 .1951 .2601
.nool
.OOlJ8 .0013
.oms
.0003
.0212
.ooos
.0025 .0207 .0763
.0-107 ,CIOS3
o
1
.3487
.3874 .1937 .0574 .0112 .0015
.3151
.0716
.0105 .00 JO .0001
.199 .3,17..4
.2759
.107-1
.2684
.1877
.2816 .2503 .1-160 .058-1 .0162
.1211
.2335 .2668 .2001 .1019 .036R
.0135 .0725
.1757
.3010
3 -1
5
(,
.(J[)OI
.ooon
.0000 .0000 .0000
.1298
.0-101
.(lOS5
.0012 .0001 .0000 .0000
.O()OO
7
8
.ooon
.0000
.ooo!
.1276 .1366
.0569
.:!512 .2377
.1536
.1665
.238'+ .23-10
.1172
.1051
9
10
.ooon
.0000
.0000
.0000
.oom;
.(JOOI
.0055
.0689
.0112
.orBI
.001j0
.(0).1 .0001
.o()(m
.0000
.0000
.ooon
.0000
.ooon
.00(J-1 .0000
.omo
.0003 .0000
.0163
.OQ.U
.0005
JlOI6
.0001
.0000
.OllOO
.fIn 10
556
TABLE
A.3 bis
0.95
(PO.OI5
Po.m)
f: frquence observe (en %) sur un chanlillon d'effectif Il p: proportion (en %) dans la populalion chantiUonnc
p
90
BD
70
60 _
50
40
30g&
10
10
20
30
40
50
60
70
80
90
100
AIIlIIIITables usuelles
557
TABLE
A.4
LOI DE POISSON
===
k) = e-II/ ~
k!
0.1
11/
0,2
1/1
= 0,3
11/ .:::
0,4
III
= 0.5
111
= 0,6
l1l
0.7
III
= 0.8
m = 0,9
2: e- m III
k=1l
k!
III
0.1
III =
0,2
III
=0,3
III
= 0,4
111
0,5
111
0.6
= 0,7
= 0,8
m = 0,9
0.4066 D,7725 0,9372 0,9866 0,9977 0,9997 1
a
1
2. .,
.)
4-
5
6
Remarques:
1) SiX suit une loi de Poisson de paramtre
P(X:5:; c)
lU
on a la relation exacte:
P(X~(C+I)
>
2111)
2)
Si
111
+ 0.5 - m
.r,-;;
~ c) =
558
AaTables usuelles
TABLE
A.4 (suite)
LOI DE POISSON
k
111=
= c- m -k!
/JI
ml,
1.0
lU
1.5
III
2.0
111
2.5
/JJ
3.0
111
= 3,5
= 4,0
m =
4.5
111
5.0
a
1 2 3 4 5
6
7 8 9
LO
0,1353 0,2707 0,2707 0,1804 0,0902 0,0361 0.0120 0.0034 0.0009 0.0002
n.OH21 0,2052 0.2565 0,2138 0,1336 0,0668 0,0278 0,0099 0,0031 0,0009 0.0002
11 12 13 14 15 16
......................
0,0498 0.l494 0.2240 0,2240 0,1680 O,L008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0002 0,0001
0.0302 0,1057 0,1850 0,2158 0,1888 0.1322 0,0771 0,0385 0.0169 0,0066 0,0023 0.0007 0,0002 0,0001
n.0183 0.0733 0,1465 0,1954 0,1954 0,1563 0,1042 0,0595 0.0298 0,0132 0.0053 0,0019 0,0006 0,0002 0,0001
0,0111 0.0500 0.1125 0,1687 0,1898 0,1708 0,1281 0,0824 0,0463 0,0232 0,0104 0,0043 0.0016 0,0006 0,0002 0,0001
0.0067 0,0337 0,0842 0,1404 0.1755 0,1755 0,1462 0.1044 0,0653 0.0363 0,0181 0,0082 0,0034 n.OOI3 0,0005 OJ)002 0.0001
k=c
c
III =
k~~O
2:e-lII,
k.
III
mk
1.0
/II
1,5
11/
2,0
IJJ
2.5
m = 3.0
III
= 3.5
=4,0
111
= 4.5
III
= 5,0
a
1
:2 3 4 5 6 7
8 9
LO
11 12 13 14 15 16
0,0821 0,2873 0,5438 0,7576 0.8912 0,9579 0,9858 0,9958 0,9989 0.9997 0,9999 1
0,0498 0,1991 0,4232 0.6472 0.8153 0.9161 0,9665 0,9881 0,9962 0.9989 0,9997 0.9999 1
0,0302 0.1359 0,3208 0,5366 0,7154 0,8576 0,9347 0,9733 0,9901 0,9967 0.9990 0.9997 0,9999 1
0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786 0,9919 0,9972 0.9991 0,9997 0,9999 1
0.0111 0,0611 0,1736 0,3423 0,5321 0.7029 0,8311 0,9134 0.9597 0,9829 0.9933 0.9976 0.9992 0.9997 0,9999 1
0,0067 0,0404 0,1247 0,2650 0,4405 0.6160 0,7622 0,8666 0,9319 0,9682 0,9863 0,9945 0,9980 0,9993 0,9998 0.9999 1
559
TABLE
A.4 (sui(e)
LOI DE POISSON
1..
k
III
= 5.5
6,0
111
6.5
TIl
7.0
1Il
= 7,5
m = 8,0 0,0003
111
= 8,5
III
= 9,0
/II
= 9,5
0
1 1 3 45 6 7
8
9 10 11 12 13 14 15 16 17 18 19 20
21
0.0041 0,0115 0.0618 0.1133 0.1558 0,1714 0.1571 0,1134 0.0849 0.0519 0,0185 0.0143 0,0065 OJ)018 0.001\ CLOO04 0,0001
0.0015 0,0149 0,0446 0,0891 0,1339 0,1606 0.1606 0.1377 0,1033 0,0688 0,0413 0,0225 0,0113 0,0052 0,()O21 0,0009 0,0003 0,0001
0,0015 0,0098 0,(BI8 0.0688 0.1118 0.14540.1575 0,1461 0,] 188 0,0858 0,0558 0,0330 0,0179 0,0089 0,0041 0.0018 0.0007 0,0003 0.0001
0,0009 0,00640,0123 0,0521 0,0911 0,1277 0,1490 0,1490 0,1304 0,1014 0,0710 0.0452 0,0264 0.0142 0,0071 0,0033 0,00\4 0,0006 0.0001 0.0001
0,0006 0.0041 0,0156 0,0389 0.0719 0,1094 0,1367 0,1465 0.1373 0,1144 0,0858 0,0585 0,0366 0.0211 0,0113 OJJ057 0,0026 0.0012 0.0005 0,0001 0,0001
o.oon
0.0107 0,0286 0,0573 0,0916 0,1121 0.1396 0,1396 0.1241 0,0993 0,0712 0,0481 0,0296 n,0169 0,0090 0,0045 0,0011 0,0009 0,0004 0,0001 0.0001
0,0208
0.0443 0,0751 0.1066 0.1294 0,U75 0,1299 0,11040.0853 0,0604 0.0395 0,0240 0.0136 O,O07:? 0,0036 0,0017 0,0008 0,0003 0,0001 0,0001
22
:?3 24
0,0001 0,0011 0.0050 0,0150 0,0337 0,0607 0.0911 0,1171 0,1318 0,1318 0,1186 0,0970 0,0718 0,0504 0,0324 0,0194 0,0109 0,0058 0,0029 0.0014 0.0006 D,DOm 0,0001
0,0001 0.0007 0,0034 0.0107 0.01540,0483 0,0764 0.1037 0,1132 0,1300 0.1135 0.1067 0.0844 0,0617 0,0419 0,0265 0.0157 0,0088 0,0046 0.0023 0,0011 0,0005 O,OOO:? 0,0001
560
A_Tables usuelles
TABLE
A.4 (suite)
LOI DE POISSON
ml;
e-"'k!
III
= 5,5
m = 6.0
1/1 =
6,5
J1l
7.Ol
7,5
111
= 8.0
8.5
III
9,0
III
9,5
0 1 2 3 4 5 6 7 8 9 10 Il 12 13 14 15 16 17 18 19 20 21 22 23 24
0.0041 0.0266 0,0884 0,1017 0,3575 0,5289 0,6860 0,8095 0.9044 0,9462 0.9747 0,9890 0,9955 0,9983 0.9994 0,9998 0.9999 1
0,0025 0.0174 0.0620 0,1512 0,2851 0,4457 0.6063 0,7440 0,8472 0,9161 0.9574 0,9799 0,9912 0,9964 0,9986 0,9995 0.9998 1
0,0015 0,0113 0,0430 0.1118 0.2237 0,3690 0.5265 0,6728 0,7916 0,8774 0.9332 0,9661 0.9840 0,9929 0,9970 0,9988 0,9996 0,9998
1
0,0009 0.0073 0.0196 0,0818 0,1730 0,3007 0.4497 0.5987 0,7191 0,8305 0,9015 0,9466 0,9730 0.9871 0.9943 0.9976 0.9990 0,9996 0,9999 1
0,0006 0,0047 0.0103 0,0591 0.1311 0,2414 0,3782 0,5246 0.6620 0,7764 0,8622 0,9208 0,9573 0,9784 0,9897 0,99540,9980 0,9992 0,9997 0,9999
1
0,0003 0.0030 0,0138 0.0424 0.0996 0,1912 0,3134 0.4530 0,5925 0,7166 0,8159 0,8881 0,9362 0.9658 0,9827 0,9918 0,9963 0,9984 0,9993 0.9997 0,9999
1
0,0002 0,0019 0,0093 0,0301 0,0746 0,1496 0,2562 0,3856 0,5231 0,6530 0,7634 0.8487 0,909\ 0.9486 0,9726 0,9862 0,9934 0,9970 9,9987 0.9995 0,9998 0.9999 1
0.0001 0,0012 0,0062 0,0211 0.0550 0.1157 0,2068 0.3239 0,4557 0,5874 0,7060 0,8030 0.8758 0,9261 0,9585 0,9780 0,9889 0,9947 0,9976 0,9989 0,9996 0.9998 0,9999
1
0.0001 0,0008 0.0042 0,0149 0,0403 0,0885 0,1649 0.2687 0.3918 0,5218 0,6453 0,7520 0,8364 0.8981 0,9400 0.9665 0,9823 0,9911 0.9957 0,9980 0,9991 0,9996 0,9998 0.9999
\
AIIIIIIIIiITables usuelles
561
TABLE
A.4 (suite)
LOI DE POISSON
k)
e- m
15
III
ml;
k! 16
111
12
m= 13
111
14
11/
17
m=IS
0 1
.2
3 4 5 6 7 8 9
10 Il 12 13 14 15 16 17 18 19 20 21
T")
0,0005 0.0023 0.0076 0,0189 0,(l378 0.0631 0.0901 0.1126 0,1251 0,1251 0.1137 0.0948 0.0729
0.05~1
23 14 25 16 27 28 29 30 31 32 33 34 35 36
n.nom o,noo 1
0.0002 0.0010 0.0037 0.0102 0,0124 0,0411 0.0646 0,0888 0.1085 0,1194 0.1194 0,1094 0.0926 0,0728 0,0534 0,0367 0.0237 0,0145 0.0084 0,0046 0.0024 0,0012 0,0006 OJ)003 0,0001
0.0001 0.0004 0.0018 O,()O53 0,0127 n.0255 0,0437 0.0655 0,0874 0.1048 0,1144 0,1144 0.1056 0,0905 0.0724 0.0543 0.0383 0.0255 0,0161 0.0097 0,0055
OJ)030
0.0016 0.0008 0.0004 n.0001 D.DOO 1
0.0002 O.OOOS 0.0027 0,0070 0,0152 0.0281 0,0457 0.0661 0,0859 0.1015 0.1099 D, 1099 0,1021 0.0885 0,0719 0.0550 0.0397 0,0272 0.0177 0.0109 OJ)065 0.0037 0.0020 0.0010 0.0005
o.onC}1
0.0001
D,nOO 1 0,0004 O,ClOI3 0,0037 0.OOS7 0,0174 0.0304 0.0473 0.0663 0.0844 0,0984 0,1060 0.1060 0,0989 0,0866 0.0713 0.0554 0.0409 0,()286 0.0191 0.0121 (LOO74 (LOO43 0.0024 n.oo 13 0.0007
o.nom
0.0002 0.0001
0.0002 0.0007 0.0019 0.0048 0.0104 0.0194 0.0324 0,0486 0,0663 0.0829 0.0956 0,1024 0,1024 0,0960 0,0847 0.0706 0.055R 0.0418 0.0299 0.0204 0.0133 0.0083 0,0050 0,0029 0.()OI6 0,0009 (l.()OO4 0.0002 0,0001 0.0001
n,nonn
0,0120 0,0213 0.0341 0.0496 0.0661 0,0814 0.0930 OJJ992 0.0992 0.0934 0,0830 0.0699 0.0559 0.0426 0.0310 0.0216 0.0144 0,(>091 0.0057 0.0034 0,0019 0.0010 0.0006 0.0003 0.0001 0.0001
n.nOO2 0.0005 0.0014 0,00340.0072 0.0135 0,0230 0,0356 0.0504 0,0658 0.0700 0.0906 0,0963 0,0963 0.0909 0,0814 0.0692 0.0560 0.0433 0,0320 0.0227 0.0154 0.0101 0,0063 0.0039 0.0023 0.0013 0.0007 OJJOD4 0.00D2 o.nOO]
(l.OOOI 0.0002 0.0007 0.0019 0.0042 0.0083 n.0150 0.0245 0.0368 0.0509 0.0655 0.0786 0.0884 0,0936 0.0936 0,0887 0,0798 0,0684 0,0560 OJ)438 0.0329 OJ)137 0.0164 n.OI09 0.0070 OJ)044 0.0026 n.oo 15 O.OOOg
o.noos
0.0002 0.0001 0.0001
562
A_Tables usuelles
TABLE
LOI DE POISSON
III;;
c- III
/JI
k!
111
== 10
111=
Il
III
12
111
= 13
14-
111=15
16
11/=
17
III
== 18
0 1 2
3
4 5 6 7 8 9 10 II 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
0,0005 0,0028 0,0104 0,0293 0,0671 0.1302 0,2203 0,3329 0,4580 0,5831 0.6968 0,7916 0.8645 0,9166 0,9513 0,9730 0,9857 0,9928 0,9965 0,9984 0.9993 0,9997 0,9999 1
0.000:2 0,0012 0.0049 0,0151 0.0375 0,0786 0,1432 0,2320 0,3405 0,4599 0,5793 0,6887 0,7813 0,8541 0,9075 0,9442 0.9679 0,9824 0,9908 0,9954 0,9978 0,9990 0.9996 0,9999 1
0,000] 0,0005 0.0023 0,0076 0,0203 0,0458 0,0895 0,1550 0.2424 0,3472 0,4616 0,5760 0.6816 0,7721 0,8445 0,8988 0,9371 0,9626 0,9787 0,9884 0,9939 0,9969 0,9985 0,9993 0.9997 0,9999 1
0,0001 0.0010 0,0037 0,0107 0,0259 0.0540 0,0997 0,1658 0,2517 0,3532 0.4631 0,5730 0,6751 0,7636 0,8355 0,8905 0,9302 0,9574 0,9751 0,9860 0,9925 0,9962 0,9982 0,9992 0,9997 0,9999 1
0,0001 0,0005 0,0018 0,0055 0.0142 0,0316 0,0620 0,1093 0,1756 0,2600 0,35840.4644 0,5704 0,6693 0,7559 0,8272 0,8826 0,9235 0,9521 0.9712 0,9833 0.9907 0,9950 0,9974 0,9987 0,9994 0,9997 0.9999 1
0,0002 0,0009 0,0028 0,0076 0,0180 0,0374 0,0698 0,1184 0,[847 0.2676 0,3622 0,4656 0,5680 0,6640 0,7487 0,8193 0,8751 0,9169 0.9468 0.9672 0,9805 0,9888 0,9938 0,9967 0,9983 0,9992 0,9996 0,9998 0,9999 1
0,0001 0,0004 0,0014 0,0040 0,0100 0,0220 0,0433 0,0774 0,1270 0,1931 0,2745 0,3675 0.4667 0,5659 0,6593 0.7423 0,8122 0,8681 0,9107 0,9617 0.9633 0,9777 0,9869 0.9926 0,9960 0,9979 0,9989 0,9995 0,9998 0,9999 1
0,0002 0,0007 OJ)021 0,0054 0,0126 0,0261 0,0491 0,0847 0,1350 0,2009 0.2808 0,3714 0,4677 0,5440 0,6550 0,7363 0,8055 0,8615 0,9048 0,9367 0.9593 0,9748 0,9848 0,9912 0,9950 0,9973 0,9986 0,9993 0,9996 0,9998 0,9999 1
0.0001 0,0003 0.0010 0,0029 0.0071 0,0154 0,0304 0,0549 0,0917 0,1426 0,208i 0.2867 0,3750 0,4686 0,5622 0,6509 0,7307 0,7991 0,8551 0.8989 0,93l3 0,9554 0.9718 0.9827 0.9897 0,9941 0,9967 0,9982 0,9990 0,9995 0.9998 0,9999 1
563
TABLE
A.S FONCTION DE REPARTITION DE LA LOI NORMALE (Probabilit de trouver une valeur infrieure Il)
RDUITE
li
0,00 0.5000 0,5398 0,5793 0,6179 0.6554 0,6915 0.7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0.9554 0,9641 0,9713 0,9772 0.9821 0.9861 0.9893 0.9918 0,9938 0,9953 0,9965 0,9974 0,9981
0.01 0,5040 0,5438 0,5832 0,6217 0,6591 0.6950 0,7290 0,7611 0.7910 0,8186 0,8438 0,8665 0.8869 0,9049 0,9207 0.9345 0,9463 0,9564 0,9649 0,9719 0.9779 0,9826 0,9864 0,9896 0,9920 0,9940 0.9955 0,9966 0.9975 0,9982
0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,82\2
0,8461 0,8686
0.03 0,5120 0,5517 0.5910 0,6293 0,6664 0,70l9 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0.9370 0,9484 0.9582 0,9664 0,9732 0,9788 0.9834 0,9871 0.9901 0,9925 0,9943 0,9957 0.9968 0,9977 0,9983
0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838
0,9875
0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0.7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0.9978 0,9984
0,06 0,5239 0,5636 0.6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0.8554 0,8770 0,8962 0,9131 0.9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0.9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985
Il
0,07 0.5279 0,5675 0,6064 0,6443 0,6808 0,7157 0.7486 0,7794 0,8078
0,8340
0.08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106
0,8365
0,09 0.5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0.9916 0,9936 0.9952 0,9964 0.9974 0,9981 0,9986
OA
0.5 0,6
0.7
0,8 0,9
1,0
0.8577
0,8790
LI
1.2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2.5 2,6 2.7 2,8 2,9
0.8888 0,9066 0.9222 0,9357 0,9474 0,9573 0.9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982
0,8980 0,9147 0.9292 0,9418 0,9525 0.9616 0,9693 0,9756 0,9808 0.9850 0,9884 0.9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985
0,8599 0,8810 0,8997 0,9162 0.9306 0,9429 0,9535 0.9625 0,9699 0,9761 0,9812 0,9854 0,9887 0.9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986
3,0
3, J
3.1
0.999
3,4
3,5
0,99976
3,6
0.999841
3.8 0.999918
4,0
4.5
F(u)
0.99865 0.91)904
0.99966
0.999968 0,999997
TABLE
A.5 bis
p
(J.OO D,DI 0,01
0.000 2,3263 2,0537 l,fiflOll 1.7j07 L6-1-19 155-18 1,-1758 1,-1051 1,3-108 1,'2816 1,2265 1.1750 L l,
0,001 3,01:102 2.290-\ 2m35 I,Sn63 1.7392 1,6352 15-1n-1 1.-IfiR-I 1.398-1 1.33-16 1.2759 1,2212 1.1700 l.I217 ].0758 1,(1312 O.
(J,002 2,8782 2.2571 2,01-11 1,85:::2 1.7279 1.6258 1.53lt! IA6I1 1,3917 1,3185 1,2702 1,2160 1,1650 1,1170 1,07 !.~ 1,0279 0.9863 n.9463 0.9078 1.1.8705 0.83-l5 0.7995 0,7655 0.7313 0,6<)99 O,6fJ82 0.6372 0,6068 0,5769 0.5-176 0.5187 OA902 0,1621 OA3-1-1
0,-1070
().OO}
0,005
O,OOU
O.D07 2.4573 2,1201 1,9268 1,7BM Ui7-17 1.5805 1,-19B5 1.-1255 1,3595 1.298H 1,2C.n
0,008 2.4089 2'()9fJ9 1.9110 1.77-1-1 1.66-16 1.571R I.-II){)<) 1,-1187 U532 1.11J30 1.23n 1.1850 1.1359 I,OH!)3 1Jl.j.5n 1,0017 0.%21 0.9230 0.885.1 0.8-188
OJ)09
OJ13
(1.0-1
(J,ID
0.11 0,11 0.13 0, I~ 0,15 0.16 1)J7 0.18 0.19 0,20 0,21 0,22 0.23 0,2-1 0.::25 0.2/J 0,17
2.7-178 2.2262 1,( 1 )5-1 1,838-1 1.7169 1.616-1 15301 1,..1.538 US52 1,3225 1,26-16 1.1107 1,1601 1.1123 1.06fiQ
t.
1 1,-1-166 1.37H7 J.J 165 1.259) 1.2055 1.1552 1.1077 l,
2,5758 2,1701 1.9600 1,8119 1,695-1 1.5982 1.51-11 1.-1395 1.3722 UI06 1.2536 1,200-1 1.IS03 1.1031 1.(15f{1 1.0152 0,9711 0,93-16 0.8%5 0,8596 0.8239 0.7892 0.755-1 n.7225 0.0903 n.65SB 0.62RO 0.5978 ().5()~ 1 0531:18 05101 0,1817 0.4538 0.-1261 n,39RIJ 0,3719 0.3-151 O.31Rri 0,292-1 0.2663 0.1-10-1 (J.11-17 0,1891 0.1637 0,1383 0,1130 O,()S78
OJ)627
2.5121 2,1-1-1-1 1,9-131 1.7991 1Ji8-19 1.5893 Ij063 1.-1325 1.3658 1.3047 1.2-181 1.1952 1,1-155 IJ)9S5 l,nS}7
1.1 90 1
1,1-107 I,093!) UWJ4 l,
2,3(i56 2,07-\lJ I,K957 1.762..11.65-1 ri 1.5632 IA833 1,4IIS 1,3469 1.2873 1,2319 1.1800 1.l311 I.OR-IR 1,0-107 0,9986
O,95RI
2,326~
2.053i l.fl80B 1.7507 1.6-1-19 1.55-1H 1...1751\ 1,..1051 1.3-108 1.1816 1.2265 1.1750 1.126\ I.OS03
I.rnfl-l
om
0,96 0.95 0,9-1 0.93 D.Y2 0.91 0,90 0,89 (UlS 0.87
0,99 0.91:\
n.sc,
o.
n.
l.
L
0, O. 0,
o.
omOi
1,01 !O
o.
O. O.
O. O.
O. O. 0.7688 0,7356 0,7031
D.
O.
0, 0, 0.7621 0,7290 0,6%7
O.
O. O. 0.7588 0.7257 O.6!)35
0,7722 0.7388 0.7[)6] 0.67-15 0,6-133 0.6128 0.5828 0.553-1 n.52-l-1 0,4959 OA677 0,-1399 0.-1125 0,3853 0,3585 0,3319
n.28
0.29 n.30 0.31 0.32 0.33 (),J-1 0,35 0.36 0,37
O,3R
0,6713 O.fJ-I03 O.60t)R n.5799 0.5505 Il,5215 O.-l1)30 0.-16-19 0.-1372 O,-I()97 0,3826 0,3558 0.3292 0..1029 0.1767 0,1508 O. O.
0.6651 n.63-11 O.fi()jR 0.5740 0.5-1-16 n.SI5R 0,-11)74 0..1593 0.-13 Hi 0,-10-13 0.3772 0,3505 (l,3239 0.2976 0.2715 6 H 2 7 -1
0.3055
tJ.::!793 :1
0.39 OAO OAI OA1 0.-13 0.-1-1 OA5 0,-16 O,-l7 0,-18 0.19
0.6620 0.6311 0.6008 0,5710 0,5-117 O,:i129 O...JR-l5 0.-1565 0.4289 O,.JOI6 O,J7-l5 0,3478 0,3213 0.1950 0,2689
0.9307 0,8927 0,8560 O,R20-1 0,7858 0.7521 0.7192 0.6871 0,6557 0.6250 O.59-1R n.5n;1 0,5359 0.5072 O,-l7S()
O.
0.9191 O. O.
0.9915 O. O. O. O.
o.
0,
n.sni
0,7790 O.7..J51 0.7128
n.
O.
O. O. O.lh..J. 0.6158 n.5R5!! 0.5563 0.5273 OA987 0.-\705 0.-1-127 0.-1152 0,3880 0,3(,11 0.33-15 n.30S 1 n.2f\llJ
o.
O. 0, O. O. O. 6..D3 O,bl28 0.5B28 (lj53-l 0,52-1-1
O.
o.
o,mo
0..1134 0.3961 0.3692 0,3125 0,3160 O.2H0R 0.2637 0.2378 0,2121 0,1866 0,1611
0.6S-10 0.6526 0,6219 n.591R n.5622 0.5330 0.50-l-l O.-17hl 0.-1-182 0..1207 0.393-1
n.MOR 0.6195 0,6189 O.5f!KR O.55<J2 0.530::: 0.5015 0.-1733 0,-1-154 0..1179 0,3907
0.3638 0.3372 0,3107 O.2fl-l5 0.2585
0,85 0,840,83 0.82 0.81 O.SO 0.79 0.78 0.77 0,76 0.75 n.71 0.73 0,12 0,71 0.70 0.69 n,6S n.7 0,66 0,65
(},6-1
n. n.
O. O. 0, O,()-I76 0,0226
O.
O.
9
7 6 0.0175 0.008 0.007 0.0150
0,006
O. O.
O.
(J,
(JJlO9
Grandes valeurs de
1/
O,LJ999999
0.99999999 5.6120
0.999999999
5,LJLJ78
5.1993
Il
est ngatif.
TABLE
A.6
FRACTILES DE LA LOI DU
X2.
o
O.oow
O,t){MlntMI.W3
1
(I.~O
O,IIU511
O,t~M)o39J
0.010
O,():!5f1
O,(HJO'lH2 O.U50h tI,:!!!) U,.IR.'
n.IOI 1,237 l,mil 2,1/l0 2,7(HI
O.lltI~
0.H1
Il.UI5t1 n,:! 1 1
(),5H~
jUil
(1.50
O,hI) 1 n,70
H,IOII 1,m.1
1).'11)
tI,IH1HHl (I,OlS3
tI,lllOUI57 Il,O(J:!(Jtl
tI,U~.1J
tI,or"N
0,15/1 0,1'1'1 O,.\H5
O,tl'JOK
0,210 O,3ill
n,molS7 O,OltH
n.115 O,!'J7
0.103 0.:152
n.IlC,!:! 0,.1.111
n.i4H n.1I)
1,.1::'.1
0,275 1.022
l,nos
I,(H')
2,J~J
1.1169
=',75]
1.113.1
2,9~()
,1,(~15
2AtlK
J.665
3.!I"
.j,(..!~
2.70h .1.1,115
h,'251
Il,71!
1.1~5
I,Ofl4
JJ57 .1.J51
S.J,HI
fI,3lf,
-I,!l71l
b,llI..! 7.Z31 !l,3HJ 'J,;;::'.I 10,(,56
S,lJl!'J
7,779 9.231;
lU.MS
10,11111
13,HII,
l(i.~b6
12,11(1 15,2t12
17,7JO
l').'J9g
IH,Hi?
l.oJ5
2.1(,7
2.73]
3,325
n,710
O,H57 1,I5J
1,,17') UI3,I 2,211 2,617 3.11.11
3,~H3
!,fJ-I(,
J,071l
J.H:!~
J,IlO(J 3,H!1I
~,671
3,655
.I,571l
5,.11J3
b .j:!3
5.IJ1
7.2ti'J
S,55/!
~,H()J
1;,211
1,2!U 9..11-1 IUA7)
Il,5](1
1~.5R1
1.735
~,I~(.
l,OIl!!
5.527
,3'H
7.~h7
7,3-1.1
tI,JB
I).J~:!
II.!lJO
J2,:!,I:!
12,017 lJ.Jb2
1.1,f,H.1 15.')H7
7.357
Ii,ll); '),237 IO,! H2 11.1:9 12,117'J \3.UJO IJ,'l!LI 1.I.'J37 15.IlIB 1(j,B5!) 17,HO() IK,7(,l! ILJ,721) 10,(0'10 ::!.I,65:
16,KI::!
Hi,475
ln,IN()
~I,r,tJh
:0515
22,.\5K
1.I,]:!:'
2h,L!:'i
:!2.lU5
2.j.HlJ 21"Dlil ::!7,!l(,il 2'),(,116
JI.-I19
1,(,03 ),074
J.2.j7
J,HI(.
3.'J41l
,1.fI(';
11.7t1l
1~,!ll)'J
.1,575
5.:!~('
5.5711
(i,3{~1
H,HI!
IIl,J.11
11,3~U
13,4.12 l-l,(>] 1
IS,HI! Il,,'1H5
,1,,101
5.1~)<l
7,!l07
3,5115 .I,m5
.J,6tH
5,629
('1:!(':! (,,,)UH
S.HiE Il.571
12,l1()
13,~3'!
13,/136 11,f,H;i
14,011 15.119
1(,,2:.'~
17.!75 IIl,5")
l 'J,t! 12
16,15121.06-1
1'J,3ll 211.,1('5 21,(115 22,760 23,'1{)1) 25.031\ 26.171 l7JOI 211,.12" !'J.55J
~2.Jtl7
:!O,.l!!J
:.'.1.:09
21.')21)
n ..l.16
2.1, ?Jf,
:!-l.115 2h,:! 17
~7,fJIIH
2(,.757 l!UIlO
29,1111) JI,JI'I
33.13[, JI.I!:!I
Jri,171l
3H,I(~)
2(0.11'1 27,lIlIl
2It,B.IS JtJ.I'/1
21).1~1
5,229
7,2111
7,%'2 Il,f,72 'I.J'IU 111,117
1'1
3,').12 1.111,
,I,1)()5
.5.1';2 S.ft1J7
(,1 1(15
7.SfI1
Il,231
7,63J
1I.2bO
1~.3J'1
15,733 1(j.7HI1
17,.122 IH,I!!i
2J,512
!7.fi21
1lI,IIClfi 1'J,91O
~U.1}51
1'I,5! 1
:?JI,(,1l1 ::'.IJ.II" 22.775 23.655
2~.'131j
2.\,7(1)
:!5.'lli1j
~1.2n.1
5,.107
6.H';-l
31.52(.
J~,li52
J7,(m .\11.251
,IO'?'JI) .12,]1:! U.!!:!U
J'J,711)
-lIJU~
-l2.S7"
.I.I.HI
.15,'17J 47,4')11
50,511
211 11
5.'121
6;1-17
7.\3-1
II,OH
!1,1l-\)
(l.,I05 1J
~,I
h,If:!.1 7,.153
1i.'I1D 7.5:!,}
9,260 !J,tlHG
12.401
1-l,H.J!l
15,(15'1
IIl.U(,::!
2'"IlIR 27.11%
31,671
.Llm1 J5.17:! Jh,.\15
J7.56" )!i,1J32
10,211'1 1I.(>3H
~2,~HO
.\5..115
.j(i.71)7
.j,UIH .15,551;
.IH.2fJH 1'),1211
51.17'/
52,mu 53,.11'1
TABLE
l'
Il,mUSII
A.6 (suite)
FRACTILES DE LA LOI DU
Xl.
V NOMBRE
DE DEGRES DE LIBERT
O,HO
Il.'m
n.mw
Il,fl19
~,:!:!1
Il.Utl5tl
U.OIO
Il ,::~-l
Il,0250
lun
IH.'!H) 1'.I,tI:!.O
~I),7()3
oJn 1 OAO
::!(UII,7 22.tlH,
n,
:!-I.
1 Il,'/51) Il),'175U
1 0,'1'10 1 O,'I'!~f)
1 0.')11<10
1 O,'J'I'J511
5.\,9..\7 .'i(,,11)7
57,~5H
2S
2(,
7.'1'11
11,5:;1l
'J,(~J3
1.I.11il 13.11-1-1
1.1.57J 15 ..ltlil lb,O.\7
Ih,7'JI
JO,Ii7 51 ,i.1.Jtl1
.11,7')5 35,5f1J
21.792
n,71IJ 23,(,.17
23.579
21,5.1.1 25.511'1
25,
:!C,.
ln'hS:! JI\,!lil5
IO,IU
.1I),I . lh
-l1.'12J
,11.'1.'
.\5,(>12 .\h.'JhJ
.1!l.!7!1 ..\'I,5/iH
I(,.'!!K
52,h20
5I,05! :iS,m,
56.:W~
.111.2(11)
.11),t~15
27
:lII,HI
:'I7,9Ih
Jt..25n
37,359
2li 1')
J(I
'I.t.5h lO,:!27
W,HO.I
lUI!')
W..l91
W.')Il(,
1J,5r,s
1-1.156
21.5B!!
22 175
27,
li!,
11.337
.12.557 -13,773 .1-I.'mS .1r.,I'J.;
2-1.577 25.508
~C,,.I,IO
50.'1''-1
52,,\)C,
51,(,72
55,tHIJ 5n.3l!!
5Il,:IU!
31
3!
3~
J.I
35
)fl
l7,53" 111,1')1
1'1,0.\7
1",2!!1
11..13-1
2~.271
:23,36..\ 21,255
1j,I.I~
m,2S(,
41,.\22
.1!,5H5
-th,'H')
.IH,D~
50.!!'!!
52.I'JI
5'1,111'\
Ill,lJ'lil fI!,1!!7
(,~,I,I
6},S!!:!
10,lm
:!O,Hfl7 21,()(;.\
27,373
:lII,IIIe.
.1'1,.1110
5J,..lUf,
r,.I.'}')5
(,(",102
13,110
~fl,I~I!
~b.').1H
1l\,Jm
:'.9,~12
l'),HIIC,
:m,5(") 1I,:W,
23,952
1~,7'l7
1 l2J3tJ
JJ,JJ(,
,1.1,.131> 35,336 36.3:,6 .17.3.15 3t!,335
J'),572
,10,67(,
,13.1,15
+1,90)
1
,17,4(X)
.\H,O:'.
jO.7!5
51,%h
H77h 56,Ofol
,';7.312
,'i1i,(,I')
57.6-111 5H.%.1
101),275
ftJ,H711 (,5,217
M',illl)
f,7,li03
W,l'!!\
70,~H~
17.lll2 17,IIH7
11I.51lf,
11 ..lfl5
1'J,23J
1'l,IJf>O 211,691
J7 JU
~I)
:!2.10l,
17.2(,1 mJll
1'J.289 19.9%
::0.707
~1.-I21
11.871\
1),{.51
15,tHJ
~(".I'n
27,1\3/, 2H,735
!1).{,]5
.10,171\ J 1,115
n,OS]
41,771!
5J,1f1.1
51,.1.11
tol,5KI
1,!,BiU
.IS,)(,3
51,1'n
53,3H.1
5~,572
55/,(,11
5(1.11')5 :H.120
.27,31)
JU.5J7
21...\21'
2!1,1%
31.-1"
32.9<.12 JJ.'IJ:!
35,192 J(,,1I,J
S'J,K'12 (oI,l(,!
(,2A!H
67,')H5 II'I,.W,
71.'m
73)51 7.1,725 71i,m5
rH,li!!
1,~A7()
70,703
n.055
7,1,7.15
7(,,011.'
17,51.\ .12
22,Ihl 12,'IDC,
13,(.jll
21.,13J
15,215 25,t}fJl) 26,71i5
37.1.1 ..
1 .W,335
-10,3)5
55,7511
51,,9-11
P).:!J!!
HI,liJ2
l'J,I)n5
22.1311
22,1!5'1 23.5K.1
5B,114
l,fI,ll1ft
flH,053 h'J,3Jh
77,15'1
7U,IEU
u
-1-1
IIJ,Hl2
:!O,lJ6 211,7f},\ 21.,15(, 11,121 21.711'J
21l.57('
21.2.51 li,'}:") 11,(,10
17.575
2!l.Jb6 29.lbO
JS,Oh5 35,IJ7.1
Hn,17f>
1l1.5Z8
2J,21J5 1J,<JU]
21),'JSr,
30,755 31,555
31.IJ9 3:!.2f>1\
JJ,II'J!!
31.215
JS.II
J(',IiS1 37,7')5
]tI,71l/i
,1-1,335
15,335
-13'9'12 1-1II.3J5 -12,110 -1.\,915 .17,33.5 -13,J1o(, 1-I5.1lll'l .HI.JJ5
35,')-1 1)
J().~ltI
:Hmo
39,621 -10,5J.\
TABLE
A.6 (suite)
0.10
0."0
)Z
"
tl,OU()50
n,unI(}
~.1.(,7~
f),(lll50
fl.flHI
0,0150
.12,357 B,I6::! JJ,%H J.I,77f1
fW~1)
fI,50
Il.611
O,O
O,HO
5a,I/,~
0.90 63.1(,7
(,~,1i)5
O.'l51l
(1.'1750
7I,I!1I n,61(, 7J.1i1ll
H.IMI;!
n,'l'lO
7(',151 77,:1116 7!1,(II/, 7'I.H.n Il l ,UIII)
1I1.!'!l
(),I)'150
50 51
51 5.1 5.l
:23 ..1(,1
~.I.I3{,
17,'1'11
~Il,735
::!9,~H!
25,Jf,1I
2/t,!}(,S
.10.230
.10.'lKI JI,7JS :12,.1'111 n,:!'!!! '.l,OOl!
~.f.771
35,511(,
.1 (,,J 'Hi
37.112 3ft,II:!7 JII,K.14
]1),0(,2
.H,6B'I
4I.-1l'J
311.5W
nln
JOJOS Jl,llI)
.l~,()(,(l
-12,3(15 -D.:!!II
-IJ.191)
.!-I.JI3 .15,!(,1
M"Hfl.;
,Ih,ln')
-17,157 ..\H,lIli,
~9,1J5(,
-405,117
Jh.036
55,992
57.1I1/! 5H.Il1O
5'I,Il("(
<i7,505
6H,bh'I
S'),;!lll
hO,JJ:'
5,.1~2
/il"I1.1
(,I,.II)(,
11'1,:1.11 70,IJ'IJ 71,15) 73.311 71 .1(,11 75.(,21 76.7?H 77,9JI 7'I,Oli:?' ftO,:!.I1 HIJHI !l2,5llJ !0.(,75
7("I')!
')-1.11-1'1
%,I(d
55
Sh 57 Sil 5')
D,57() ).I.J5D
-15.131
.Il,'})7
IJ,UUI
.I{,.9;5
.17,1(7(, ,!Il,7 1 17 1'),7IU
SO,fI';l
21l,')1J 2'),(,-HI
35,'11)
36,(1'.lB
J7,~1\5
31.021
I-!,fll)(,
15,577
.j().J5 1 ' -I7,J-l:!
foJ,.:77 6-1,6511
(,s.n7
h/"HIII h7,H').1
nO-Hl
72,lilO
5:;,1"0
57..1.15 51!,3):59J35
flO,JJ5
(,(J,wm
hl,II1
fo.I,171!
(.5~::'2(,
'17..175 'IH,7H.1
'17,0::1'1
')iU~~
lOomo
IOI,W.I
1O~,W5
roll
hl il!
(,.1
6.1 f.5
6/,
.1 !.7J'1
J1,-IW
.15.535 Jo.JIIl
37,!)(JfI
37,H~H
.1Il.-IH:!
U,llit!
.M.n)!! 11 ,lUi\) ,15,7.\1
4h.5~5
5(.,WIl
57.51)7 SM,57.1 5'1.55! 60.5211
fi l,SUI>
6:!,~H1
61.135
6.1,15H 1>4.11.11 (,5.2[n
tI6.!:!rJ
foU,'n:,
711.1).11)
71,1~5
JIi.~7J
D,llIl
D,'}lIh
,~,(l33
39,0(1)
~'I.Hj5
-l1l,2:?fJ
.19,111
~~,I)'J(,
] I!,ft! 0 J'l,JIU
.IO.!5i\
.Hl,!,.I'!
-11,~,I1
n.771>
.!.I.llm ..\5,J.1I Je,,;!61 .I7.11'J2 "\7.')1,1 411,75!! .1().5n
50,.1~1I
5,1.7rll
5S.71~
51>,61lb
57,fil'l 5K,573
7:!,!OI 73.171,
7~_351
%,878 'Ja,1U5
11)3,'1'13
WS,!!!'! W6,5!l1 107_il7'
1Ol).I(,~
JJ.I177 _H.5'JI
117 (,II
fol)
J5J1J7
)h.II~5
.l2,:!~O
.\7.561
3'),n.lh 39,777 -10,520 ,11.2/01 J:?.IIlU
.IU,'J3S .lUI3
..t 2 ,..t 9":
3[1.7.15
.'17,-1(,7
(j.I,:1J5
(05.335 (,b,].15 (i7.33-1
(,JI,DI
5rdHH
57.115
5t\.U..\2
:i'J,517
(,II . UII (,I,.lJ(,
it:!.J'IJ
h3.J~h
5H.1J70
59,H911
7'J."'7J
III,Ollfl
1\~,l'n
lW,I77
1\7.103 111\.250 Il'I,J'J1 1)(1.531 ')1.670
')2,IIIl~
73.6IH)
7~.~5
IC\.:lOil
711,[,13
7'1,715 fill,7Hr, fll,!!57 HZ,9!7 113,9'17
g.".1II1
115.527 lIh.ldS H7,7.1J 1111,11511
'111,3!9 'lI,Sl'i 'J:?JJI!8 1)),11511 ')5.02.1 W',III'I '17 ..15.1 911,51(, 'J'J,f,7H
1)l),:nu
IO().55~
%,1!2/l
'JH,IJ~!!
'N,:::!7
IIIO,J25 101,(,21
1O~.III(O
101,7711 IU!,')')(I
1O~.215
1()5,~J:'
711 71 T!
.n.::m
-I.I,USK
~,HU
~H,~')
.15A-l1
.I/,.~-16
W,_UI
72,3511
7J.31!O
7~,-I()1
.111.191
311,9111 J'I,h-lf, 10,376
7J
71
1(,.-117
53,1(,:'
j.I,J~5
60,H!7 bl.75b
(,),(,1(,
6-1,3 Il!
115.:!5K
51.165
52. Hl)
55.!!l'!
(,(~I~ 67.1711
70.311
75.hll'l 76,131
77,7711
7H.H12 'UII,5
1Il(,,(,.1!l
7S"I~~
'U.'J15
'15Ji!l1
104.0111
HI:'i,~n1
7f1.-11J
107,11(,2 10'1,01..\
120,i,7J
""""1
1l'JAn:!
TABLE
A.6 (suite et
O,Hl
5'J,7'15
FRACTILES DE LA LOI DU
030
X2
IUI2..'iO 1 Il.050
11.:>0
(...1,5-17 fi5.-I7H (,(, .. I(~). (,7.3-1\ tiR,n1
r.9,1!l7
70.1~()
0.-10
71,1'10
Il.511
(I,(~I
(l.'HSU
lOo.a}'! 1I11.'!')'J
Il. INO
O.I)~5()
n,'}')'150
52.'14:!
IIH,I17
1 74,3.11
7(, 77
7~
7~
13.50(,
.1:2,57(, .13,JI:I -lI.U51
4-1.7 f)l
.'.1,157
15.010
-I5.7(~1
72,170 73,2.1')
7,I,2~H
'JI,Ofli
')~,!h(j
'!fo.:!17
97,351
W6.J'1}
1ll7,51ti
11n,2H6
111,~t)5
111.'},I:!
75.!OH
7C"IHfI 77.IM 11l.14!! 71),1:!/l fill,InH
!il,ml~)
88.171 1I'J.33R
"II.. ms
)I.H~
93,:;70 91.37.'
1)5,17(,
~(,,5711
Hl3,1511 9'M17 100.749 IOI.H7') 103,(ff)<1 101.1:19 IOS,:!m !IIr,,)'J:; W7,522 1O!l,f>41! 109.773 1 HI.I\'JH
112,021 1 !J.I.I:;
H~I.JI6
1115.17]
106.629
121,W(}
111,J-IH 123.5'/.'
12I.U3'1 116,OH3
1:!7.UU!
1~1l,2b;
1111 HI
Il:!
.15,533
.16.27(, .n.o:!1
~7.7(,7
113
li-l
MS
flr.
.54J6!!
55,170
7J.!l7.1
7.I.H33
71,1)7,
n,lHIH 72.'1,1)
!11,]]1
75.7')2 76,751
n,7IU
1!2,3J.1 1i},3J4
H~.JJ.\
HII.:m
H!}.2-l3 'lIl,:!!!-1
1):.'.5311 93.fIl).1
!!7.hHU ')/l,7HO
~'I,IlIl(l
'2~.510
117,32.1
1211,56S
94.669
95,7].\ [)(,,7'}9
IOfl,9llfl
IJO,177 IJ2.033
IJJ.:?H7
12tJ,HO1
131.1~1
.111,515 .").26-1
50,320 51,IlHS
51,/l511
61.31l9
h:!,2J I) (,J,llIi')
63,~-l1
')1,325
t}2.36~
117 Sil
'1(1
'JI 'J2
55m3 56,777
57.5H2 5!UIi'J
!'I,i% W.005
(,(l,HIS
5B,-I5b
511,~79
65.(':"] M,-l98
71!,mU
82.0119
HJ.05U H4.IlJ 1 115,Ul2 1!5,t)I}3 H{I,ll74 A7,9S5
H5,J}.1
52.617
53JHb
0,1.7'13
M.M7 6b,501 m,35f,
f,H,::!.11 (,1),061!
fl<),1)~5
67,373 /tll,:!>!'}
705HI 71,.\H1
n,3117
73,2~1
1J7,!!6J 'J!!,'l27
112,J').1 113,51-1
Il.l,h!)]
IIS.N4l Iltt,989
1),15-10
13:.'.277 IJJ,512
1.35,792
137,(1-I~
13.1,745 135.'177
Ll7,10K
13l! .\3H 139.h(,11 loIO,lI'lJ I.I:!.!I')
IJfl.2'}(I 139.537
5-1.155
5-1.()~r.
r.9,12(,
7U,IlU) 70.HIl!
71,1(~'
71.1%
75.\1)1 76.00(,
7('.'11~
%,524 97.563
9i1.602
IIS.Ut.
Il''.~H2
12.\.lIh
125,2!!9
12H,1')'}
IIC611
115.J\10
IW,7H) 1.12,017
1.)J.~7U
'u
'l~
54 ..,1"
55J!~)
55 ,fi'}!! 5f,,.!71
S7.1.1f>
'J1.331
'J:!.J3.\
120,.1:'7
1::!(l,lh2
127.633
61.h15 61,.137
6J,:!5()
1>.I,l1l13
/lI,]?1
72,MO
7J.5~O
li2.3119
HJ.14H
!I~.IH7
1!6JSr.
H7,J17 HIl,271J !l'1,211
'11J,~O.1
HR.!lJ(, H').!) 17
')U,U'}'}
'J3,3J-l
'}4,H~ /)5.n~
'IS,KIl! 96,BJb
97.855 '11!.87J 'J'J,H'):! 1!H),'J!f)
WJ,'I~H
121,571 L!2,715
1~t511
12!Uili3
1:13,115"
1]-1.2.17
,,:;
'n
'JIi
1)')
n,fil Il
IIJ,03B
114.131
70,71U
(.7,562
t1H,3%
7UH1 n.501
7J,.1r.!
74.41l!l 75,2112
76,16-1
77,(1.16
'JI ,Jill!
H5.126
1l9.BO
86,1l!15 87,l5
'JI, 16ft
/)(,,33-1 1}7.JJ.J
98.D1
t 15.223
Ilf,,315
117 .IOt.
W4.liJl 1Il.'i,H(,H
llU,607
119.973
l31.1~t
n~.3(1'}
m.1JJ
Ur..I'J
1J7,II03 IJH,'187
I~O,I69
DJ.,17fo
131.(,-12
151,')3.1
1 12<>,5[,1 1 US,HO,; 1
Pour
Il
> tOo on utilisera l'une des deux approx.imations suivantes, la seconde tant de loin la meilleure:
(l)~
-
= U
TABLE
A.7
~.
1'1
l':2
./
53.59 9.[6 5.39 4.19 3.62 3.29
7 58.91
H 59,,/.'
9
59.86
10
12
15
l()
24
30
40 62.53
9,-17 5.16 3.HO
60
2 3
39.1:16 8.53
49.50
9.00
55.83 9.2./
5.34 ./.11 3.52 3.18 2.96 2.81 2.69 2.61 2.5..J 2.48 2,43 2.39 2.36 2.33 2.31 2.29 2.27 2.25 2.23 2.22 2.21 2.19 2.lll 2.17 2.17 2.16 2.15 2.1./ 2.09 1.0-.1 I.Y9 1.94
57.:U 9.29
5.31 ./.05 3..15 3.1 2.HB 2.73 2.61 2.52
5B.20 9.33
5.21:! .... 01 3.40
5.54
1.5./ 4.06
5....16
4.32
9.35 5,27
3.98 3.37
9.37
5.25 3.95
9.311 5.2./
3.9~
60.19 9.39
60.71
9.'11 5.22
61.21 9..12
5.20
61.74
4 5 6 7
8
3.78
3.46
3.3..\
3.32
9
10 Il 12 13 14 15
16 17
3.05
2.83
3.01
2.78 2.62
2.98
2.75 2.59
J.26 :UI
3.01
2.Y2 2.B6 2.s[
2.96 2.72
2.56 2,44 2.35
9..1.1 5.18
3.84
3.90
3.27 2.90 2.67 1,50 2.38 2.21:!
3.H7
3.2-1
2.87
2.63
3.21 2.8'
2.67
2.55
2.-16
2.34
2.59 lA2
2.30
2.20
2.51
2,4 1
2A7
:UB
2..16
2.39 2.33
2A5
2.39
2.3..\ 2.28
2.23 2.19
2.76
2.73 2.70
2.56
2.52
3.10 3.07
3.05 3.03
3.UI
2.35 2.31
2.27 2.24 2.22 2.20 2.18
J.28
2.24
2.27
2.2.
2.17 1. lU 2.05 2,01
1.97 1.9 ...
61.00 9.-15 5.18 J.ti3 3.19 2X!. 2.5l:! L..JO 2.21:1 2.18
62.79
Y,47 5.15
63.33 9.-19
5.13
2.56 2.3H
2.15 1.16 2.0H
2.21
2.J6 1.12 2.09
2.14 2.\0
2.06 2.03
2.12 2.06
2.01 1.96 1.91 1.89 Ul6 1.11' 1.81 1.79
2.10
1.0' 1.911 1.9-1 1.90
3.7H
3.12
3.76
3.10 1.T!.
2..17
1.29
2.16
1.0()
1.97
1. 1 )0
2.01
1.96 1.91
2A9
2..l6 2..l./
2.67 2.6-1
2.62 2.61
IR
19 20
2A2
2.Y9 2.Y7
lAO
2.38
2.59
21
22
23
21
25
'2.57
2.56
2.36 2.35
2.34 2.33
26 27 28
29
30 .1(} 60 120
cc-
2.\6 2.\3
2.10 2.0R 2.06 2.0'" 2.02 2.01 1.91) 1.9H 1.97 1.96 1.95 1.9'-1 1.93
2.12 2.ml
2.06 2.04
2.02
1.99 1.96 1.93 !.91 1.89 1.87 1.86
2.02 2.00
1.9H
un
un
U un
1.79 1.75
2.00 1.98
1.96
1.91
1.89 1.1:!6 1.84 1.l:!3 I.BI 1.80
1.9./
1.92
I.7R
1.76
1.74 1.7:1
1.97
1.95 1.9..\ 1.93 1.92 1.91 1.9() l.!N
2.05
2J>..\ 2.02
1.92
1.91 UN
1.9D I.B9
\J.
[,ll7
1.1)-+ Ull
I.7l:! 1.76
1.7.~
1.78
1.75 1.73
I.n
1,69 1.67 1.6-1
1.63
1.61 1.59
1.72
1.71 1.69
1,[)7 I.b6 1.64 l.3 L 1 I.GO 1.59 1.58
1.62
1.60 1.59 1.57
1.70
1.69 1.67 I.G6 1.65 1.61 1.63 1.62
1.57
1.55 1.53
U:l1 U13
1.82
1.72
1.70
2.tH LOO
2.00 1.99 1.98
2.28
2.28 2.23 2.18
2A9
2A./
2.39
2.35 2.JO
1.93
1.87
I.RH
un
1.80
Ln
1.71 1.70 1.69 1.6R 1.67 1.61 [.5' LIH 1...\2
1.69 1.68
1.67
1.66
1.56
1.51
1.53
1.79 1.78
1.77 1.71
1.66
1.51
1.51 1.50 1.41
1.65
1.64
1.93
un
UB
1.77
1.72
1.82
1.77
1.74
1.68 1.63
2.75
2.71
2.U 2.011
1.1:12
1.77
1.57
1.51 IA5 1.3!:l
1.85
1.72
1.67
1.60 1.55
[.57
1.51
1.38
1.29 1.19 1.00
IA..\ 1.37
1.3U
US 1.26
1.l7
570
A_Tables usuelles
TABLE
A.7 (suite)
l'~
9 2 3 4 () 7
fi
10
J:!
13
14 245 19.4 8.71 5.87 4.6' 3.96 3.53 3.24 3.03 2.86 1.74 2.64 2.55 2.48 2.42
15 2-16 19A 8.70 5.1\6 4.62 3.94 3.51 3.22 3.01 2.85
lli
246 19,4 8.69 5.84 4.60 3.92 3.49 3.20 2.99 2.83 2.70 2.60 2.51 2,4-1 2.38 2.33 2.24 2.25 2.21 2.11\ 2. 16 2.13 2.1 1 2.09 2.07 2Jl5 2.04 2.02 ::!.Ol 1.99 1.97 1.95 1.93 1.91 1.90
17 247 19,4 8.68 5.83 4.59 3.91 3,48 3.19 2.97 2,Rl 2.69 2.58 2.50 2.43 2.37 2.32 2.27 2.23 2.20 2.17
1&
247 19.4 8.67 5.82 4.58 3.90 3.47 3.17 2.96 2.80 2.67 2.57 2.48 2.41 2,35 2.30 2.16 2.22
161 18.5 10.1 7.71 6.61 5.99 5.59 5.32 5.12 -l.9U 4.84 -l.75 4.67 4.60 -1.54 -1.49 ..1.45 4.41 4.3H 4.35 4.:\:: 4.30 4.28 4.26 4.24 4.23 4.21 -l.20 -l.IS 4.17 4.15 1.13 U 1 4. JO 4.08
:WO
216 225 no 19.0 19.2 19.2 19.3 9.55 9.28 9.12 9.01 6.94 6.59 6.39 6.26 5.79 S.H 5.19 S.OS 4.76 4.53 US 4.12 4.07 3.R4 3.R6 J.63 3.71 JAS 3.59 3.49 3.41 3.3-l J.29 3.24 J.20 3.16 3.13 3.10
3.07 3.05 3.03 3.01 2.99
237 19A 8.H9 6.09 4.88 4.1.1 3.79 3.50 3.29 3.14 ],01 2.91 1,83 2.76 2.71 2.66 2.61 2.58 2,S-l 2.51
239 19A 8.85 6.04 1 X! -l.IS 3.73 3A4 3.23' 3.07 2.95 2.85
242 19.-1 8.79 5.96 4.74 H)6 3.64 3.35 3.14 2.98 2.85 2.75 :2.67 2.60 2.5-1
245 19A 19.4 !:L74 8.73 5.91 5.89 -I.fl8 4.66 LOO 3.57 3.28 3.07 2.91 3.98 3.55 3.26 3.05 2.89 2.76 1.66 2.58 2.51 2.45
2-14
9 10 Il 12
5.14 4.74 4.46 L26 4.10 3.98 3.S9 3.81 3.74 3.68 3.63 3.59 :\.55 3.52 3,49 3.47 3..l4 3.42 3.40 3 ..19 3.37 3.35 3.J4 3.33 3.32 3.29 3.28 3.26 3.:24 3.23
4.39 3.97
3.69
3.48 3.33 3.20 3.11 :U)3 2.96 2.90
3.22
3.09 3.00 2.92 2.1:15 2.79 2.7-l 2.70 2.66 2.fi3 2.60
3.02
J3
14 15 !6 17 18 19
1.90 2.80 2.77 2.71 2.70 1.65 2.6' 2.59 2.59 2.55 2.51 2.48 2.45
2.82 2.79 2.72 2.69 2.63 2.60 2.57 2.53 2.51 2.48 2,46 2.-1 [ 2.37 2.34 2.31 2.42 2.38 2.34 2.31 2.28
2.12
2.62 2.53 2.46 2.-10
20
21 22 23 2' 25 26 27 28 29
3.01 2.85 2.96 2.81 2.93 2.77 2.90 2.74 2.S7 2.71 2.84 2.82 2.80 2.71\ 2.76 2.74 2.73 2.71 2.70 2.69 2.68 2.66 2.6-t 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.51 2.49 :2.48 2.46 2.45
2A2 :'1..38
2.39 2.35
:!.I8
:2.15
2.57 2A9 2.-12 1.37 2.32 2.55 2...16 2.-10 2.3-+ 2.30
2.53 2.44 2.37 2.32 2.27 2.51 2A2 2.36 2.30 2.25 2.49 2.-10 2.34 2.28 2.2-1 2.-17 2.16 2.-15 2.43 2.-12 2.40 2.38 2.36 2.35 2.3-l 2.32 2.31 2.30 2.29 2.29 2.27 2.25 2.24 1.23 2.21 2.19 2.17 2.16 2.14 2.13 2.12 2.11 2.10 2.39 2.37 1.36 2.35 2.33 2.31 2.29 2.28 2.26 2.25 2.24 2.23 2.22 2.21 2.20 2.18 2.17 2.15 2.14 :2.13 2.32 2.31 2.29 2.28 2.27 2.24 2.23 2.21 2.19 2.18 2.17 2.16 2.15 2.14 2.13 2.11 2.10 2.08 2.07 2.0fi 2.27 2.25 2.2-1 2.22 2.21 2.19 2.17 2,15 2.1-1 2.12 2.11 2.10 2.{)c) 2.08 2.07 2.22 2.20 2.19 2.18 2.16 :l.I4 2.12 2.11 2.09 2.08 1.06 2.05 2,04 2.03 2.03
2,:28 2.25 2.22 2.20 2.:26 2.23 2.20 2.17 2.23 2.20 2.18 2.15 2.212.182.152.13 2.20 2.16 2.14 2.11 2.11! 2.17 2.15 :2 .14 2.13 2.10 2.08 2.07 2.05 2.04 2.03 2.01 2.00 1.99 1.99 2.15 2.13 2.12 2.10 2'(l9 2.10 2.09 2.08 2.06
::u 1
2.14 1. 12
:UO
2J19 2.07 2.07 2.05 2.05 2.0-l 2.en 2.02 1.02 2.00 2.00 1.99 1.99 1.97 1.98 1.96 1.95 1.94 1.93 1.92 1.92 1.90 1.90 1.88 1.89 un 1.87 I.H6 1.86 1.84 1.85 !.lB 1.84 1.82 1.83 un
JO
32 34 36 38 -10
.f:!
2.9{) 2.67 2.lUl 2.65 :un 2.63 1.85 Ui2 1.1!4 :2.fil 2.S3 2.82 2.81 2.80 2.79 2.77 2.76 2.75 2.74
2.12
2.07 1.04 2.01 2.05 2.02 1.99 2.03 2.00 1.98 2.02 1.99 1.9fi 2.00 1.97 1.95 1.99 1.98 1.97 1.96 1.95 1.96 1.95 1.9-1 1.93 1.92 1.93 1.92 1.91 1.90 1.1l9 1.88 Ul6 1.85 1.84 1.82
44 46 48 50
4.07 3.2:2 4.06 3.21 4.05 3.20 4.04 3.19 4.03 3.18 4.02 4.00 3.9!) 3.98 3.96 3.95 3.9l 3.92 3.90 3.89 3.87 3.86 3.&5 3.84 3.16 3.15 ,l14 3.13 3.11 3.10 3.09 3J17 3.06 3.04
3Jl3 3.01 3.00 3.00
2.59 2,44
:2.58 2,43
2.57 2A2 2.57 2...J 1 2.56 2.-10 2.54 2.38 2.53 2.37 2.51 2.36 2.50 2.35
2AI} 2.33
55 60 65 70 SO 90 100
125 150 200
2.06 2.01 2.04 1.99 2.03 1.98 2.02 1.97 2.00 1.95 1.97 1.96 1.94 1.93 1.93 1.91 1.89 1.88
1.97 1.93 1.90 1.95 1.92 1.89 1.94 1.90 1.93 1.89 1.86 1.91 1.88 1.84
I.R 1 1.79
1.80 I.7S 1.77 1.75 1.74 1.73 1.70 1.69 1.67 1.66 1.64 1.63 1.62 1.78 1.76 1.75 1.73
1.72 1.71 1.69 1.67 1.66
un
2.27
2.26 2.24 2.23 2.21 1.1.1
1.8n 1.78 1.79 1.77 1.77 1.75 1.76 1.73 1.74 1.72 1.72 1.71 1.70 1.69 1.70 1.69 1.68 1.67
2.04 1.97 1.91 1.86 2.03 1.96 1.90 1.85 2.02 1.95 1.89 I.R-I 2.01 1.94 1.88 1.83
A_Tables usuelles
571
TABLE
A.7 (suite)
VALEURS (DE LA VARIABLE DE FISHER-SNEDECOR F{\l1 ; 1'2) AYANT LA PROBABILITE 0.05 D'TRE DPASSES
19
20
21 219 19.5
!t6.f
16 249 19.5 8.63 5.76 4.52 3.83 3.-10 3.10 2.89 2.71
28 250 19.5 8.62 5.75 ".50 3.82 3.39 3.09 2.87 2.71
30 250 19.5 8.62 5.75 4.50 3.81 3.38 3.08 2.86 2.70
35 251 19.5 S.GO 5.73 4 ... 8 3.79 3.36 3.06 2.84 2.68 2.55 2,4-\. 2.36 1.18 2.21 1.17 1.11 2.08 2.05 1.DI 1.98 1.96 l.93 1.91 I.R9
.. 0
50 152
60 252
Rn
252
]1).5
100 253 19,5 8.55 5.66 "AI 3.71 3.27 2.97 2.76 1.59 2.-16 :2.35 2.26 1.19 1.11
200 25" 19.5 8.54 5.65 ".39 3.69 3.15 1.95 2.73 2.56 lA3 1.32 2.13 1.16 1.10
SOO
248 148 2 19..1 19..1 3 8.67 8.66 4 5.81 5.80 ".57 t56 6 3.88 3.87 7 3A6 3A4 8 3.16 3.15 9 2.95 2.9..J. 10 2.78 2.77
3.86 3043 3.D 2.92 2.75 2.6J 2.52 2A-I 2.37 2.31 2.25 2.21 2.17 2.13 2.10 2.07 2.05 2.02 2.00 1.98 1.97 1.95 1.93 1.92 1.91 1.88 1.86 1.85 1.83 1.81 1.80 1.79 1.78 1.77 1.76 1.74 1.72 1.71 1.70 1.68 1.66 1.65 1.63 1.61 1.60 1.58 1.56 135 1.54
19.5 193
838 8.57 5.70 5.69 IAI .. A] 3.74 3.30 3.01 2.71) 2.62 2.19 2.38 2.30 1.11 2.16 1.11 2.06 2.02 ID8 1.95 1.92 UN 1.86 1.84 1.82 1.80 1.79 1.77 1.75 L7.J.
3.77 3.76 3.75 3.34 3.J3 3.32 3.0-1 3.03 3.02 2.83 2.81 1.80 2.66 2.65 2.64 2.53 2AJ 1.34 1.17 2.20 1.15 1.10 2.06 2.03 1.99 1.96 1.91 1.91 1.89 1.87 1.51 2,41 2.33 2.25 2.19 2.14 2,01} 2.05 2.01 1.9S 1.95 1.92 J.90 1.88 1.86 1.51 2,40 2.31 2.1-1 1.18 1.12 1.0B 1.0-1 1.00 1.97 1.9-1 1.91 1.88 1.86 1.84
Il 12 13 ,.. 15 16 17 18 19 10 21 22 13 1-1 25 26 27
2.66 2.56 2..17 2..10 2.3" 2.29 2.24 2.211 2.17 2.1" 1. (1 1.0B 1.06
2.0-1 :W2
2.00
1.99
28 1.97
29 1.96 30 1.95 32 34 36 38 -l0 .J.2 -14 -16 -18 50 55
60
2.65 2.51 lA6 2.39 2.33 1.211 2.23 2.19 1.16 2.12 1.10 1.D7 1.05 2.03 2.01 J.99 1.97 1.96 1.9-l1.93
2.61 2.59 2.58 2.57 2.51 lA9 2A8 2,47 2A2 2AI 2.39 1.38 ::1.35 2.33 2.32 2.31 2.29 2.17 2.26 2.15 2.24 2.22 2.21 2,19 2.19 2.17 2.16 2.15 2.152,132.122.11 2.11 2.10 2.08 2.07 2.08 2.07 l.05 1,04 2.05 2.0-1 2.02 2.01 2.03 1.01 1.00 1.98 2.00 l,l)I) 1.97 1.96 1.98 \.97 1.95 1.9.. 1.96 1.95 1.9) 1.92 1.95 1.93 1.91 1.90 1.89 1.93 1.91 1.90 1.88 1.87 1.91 1.90 1.88 1.87 1.85 1.90 I.! 1.87 1.85 1.8-l 1.81 1.80 1.78 1.76 1.7.. 1.73 1.72 1.71
8.56 5.67 IAI 3.72 3.29 2.99 2.77 1.60 2A7 2.36 2.27 1.10 2.1{
:W8
1.117 2.0" 2.03 2.02 1.99 1.99 1.98 1.95 1.96 1.94 1.9! 1.92 1.91 1.88 1.89 t.R6 I.S-l Ui1 1.80 1.88 1.85 1.82 1.80 1.78 1.84 1.82 1.79 1.77 1.75
1.87 1.85 1.84 1.82 1.86 1.84 1.82 1.81 1.8..J. 1.82 1.80 1.79 UB 1.81 1.79 1.77 U!I 1.79 1.77 1.76
1.91 1.89 1.87 1.85 1.84 1.10 un 1.81 1.82 1.80 1.81 1.79 um 1.78 1.76 1.75 1.73
65 70 80
90
Ion
125 150 200
1.7S 1.76 1.75 1.7-1 1.72 1.70 1.69 1.67 1.66 1.6-1
Ln
1.70 1.69 1.61-\ 1.65 1.64 1.62 1.61 1.59 1.58 1.57
1.86 1.85 1.83 1.8" 1.82 um 1.81 l.B 1 1.79 1.81 1.79 1.77 1.79 1.77 1.76 1.78 1.76 1.74 1.77 1.75 1.73 1.76 1.7.. 1.72 1.75 1.73 1.71 Dl 1.71 1.70 1.72 1.70 1.68 1.70 1.68 1.6fi 1.69 1.67 1.65 1.67 1.65 1.6-1 1.65 1.63 1.62 t.64 1.62 1.60 1.63 1.61 1.59 1.60 1.58 1.57 1.59 1.57 1.55 1.57 1.55 1.53 1.55 1.53 1.51 1.5-1 1.52 1.50 13) 131 1..J.9 1.51 1.50 1.-18
un
1.69 1.67 1.65 1.63 1.61 1.60 1.59 1.57 1.55 1.53 1.51 1.50 IA8
lA7
1.79 1.77 1.75 1.74 1.71 1.77 1.75 1.73 1.71 1.69 1.75 1.73 1.71 1.69 1.67 1.73 1.71 1.69 1.68 1.65 1.72 1.69 1.67 1.66 1.6' 1.70 1.68 1.66 1.65 1.62 1.69 1.67 1.65 1.63 1.61 1.68 1.65 1.6" 1.62 1.60 1.67 1.6-l- 1.62 1.61 1.59 I.M 1.63 1.61 l.60 1.58 1.64 1.62 1.60 1.59 1.57 1.55 1.54 1.52 !.50 1,48 IA6 1,45 1A.J. 1.42 1.61 1.59 1.58 1.57 1.5-1 1.53 1.52 IA9 lAS 1.46 1.59 1.57 1.56 1.55 1.52 1.51 1.-19 IA7 1.45 1.-13 1.58 1.56 1.54 1.53 1.51 1A9 1AS IA5 IA-I lAI 1.55 1.53 1.52 1.50 1.-18 1.-16 1.15 1. .. 1 1.-11 1.39 1.34 1.33 1.31
1.78 1.76 1.73 1.76 1.74 1.71 1.7.. 1.73 1.69 1.73 1.71 1.67 1.71 1.70 1.66 1.69 1.67 1.63 1.66 1.65 l.61 1.6-1 1.62 1.59 1.62 1.61 1.57 1.61 1.59 1.55 1.59 1.5 Il 1.57 1.56 1.5" 1.52 1.50 1.-19 IA7 1A5 1.57 1.56 1.55 1.54 1.51 1.50
IAH 1...16 1...15
1.53
1.52
1.51
1.-19
254 19.5 8.53 5.M .. .37 J.6B 3.1,4 2.94 2.72 1.55 2A2 2.31 1.21 2.1" 1.08 1.01 1.97 1.93 1.89 U;6 1.82 1.80 1.77 1.75 1.73 1.71 1.69 1.67 \.65 1.64 1.61 1.59 1.56 1.5.J. 1.53 1.51 1A9 1A1l
IA7
25-1 19.5 8.53 5.63 4.37 3.67 3.23 2.93 2.71 2.5-\. 1,40 2.30 1.11 1.13 1.07 1.0 J 1.96 1.92 US 1.8.J. 1.8\ 1.78 1.76 1.73 1.71 1.69 1.67 1.65 1.61 1.61 1.59 1.57 1.55 1.53 1.5\ 1.49 1.48 1.46
lAS
1.-13
1.-16
lAI 1.36 1.32 1.39 1.3-l 1.31 1.36 1.31 1.17 1.3~ 1.29 1.25 1.32 1.26 1.22 un 1.23 1.19 1.28 1.11 1.16 1.26 1.19 1.13 1.2.. 1.17 1.11
572
A ..Tables usuelles
TABLE
A.7 (suite)
VALEURS (DE LA VARIABLE DE FISHER-SNEDECOR F(vi ; IJ 2) AYANT LA PROBABILlT 0.01 D'TRE DPASSES
l'~
10
Il
11
13
14
15
[6
17
lB
-!05 500 5-10 563 9R.5 99.0 99.2 99.1 34.1 30.R 29.5 28.7 21.2 18.0 16.7 16.0 16. 3 LU 12.1 lIA
D.7 12.2 11.3 l) 1(1.6 ln Hl.O Il 9.65 12 9.33 13 g.n7 l-l 8.86 15 8.68 16 8.53 17 8AO 18 8. 19 19 8.18 20 8.10 21 8.02 22 7.95 23 7.88 24 7.82 25 7.77 26 7.72 27 7.68 21! 7.64 19 7.60 30 7.56 32 7.50 34 7,44 36 7.40 38 7.35 40 7.3\ 42 7.28 -44 7.25 46 7.22 ,18 7.19 50 7. 17 55 7.12 60 7.08 65 7.0' 70 7.01 80 6.96 90 6.93 100 6.90 115 6.84 150 6.81 200 6.76 300 6.72 5UO 6,69 1000 6.66 :x; 6.63 6 7 8
10.9 9.78 9.15 8.75 9.55 8.45 7.85 7.46 8.65 7.59 7.Ol 6.63
8.02 7.56 7.21 6.93 6.70 651 6.36 6.2) 6. Il 6.oJ 5.93 5.85 5.78 5.72 5.66 5.61 5.57 5.53 5,49 5045 5,42 5.39 5.34 5.29 5.25 5.21 5.18 5.15 5.12 5.10 6.1l{j 6.55 6.22 5.95 5.74 5.56
5,42
5.08
.5.06 5.01 4.98 4.95 4.92' 4.88 4.85 4.82 4.7R 4.75 4.71 4.68 4.65 4.63 4.61
5.29 5.18 5.09 5.01 4.94 4.87 4.82 4.76 4.72 4.68 4.64 4.60 4.57 4.54 4.51 4.46 4,42 4.38 4.34 4.31 4.29 4.26 4.24 4.22 4.20 4.16 4.13 4.1D 4.08 4.[14 . .tOI 3.98 3.94 3.92 3.88 3.85 3.82 3.80 3.78
6,42 5.99 5.67 5.41 5.11 5.04 4.R9 4.77 4.67 4.58 4.50 4,43 4.37 4.31 4. 16 4.22 4. J 8 4.14 4.11 -4.07 4JJ4 4.02 3.97 3.93 3.89 3.S6 3.83 3.80 3.78 3.76 3.74 3.72 3.68 3.65 3.61 3.60 3.56 ].54 3.51 3.47 3,45 3041 3.38 3.36 3.34 3.31
6.06
5 . 64 5.32 5.0G 4.86 4.70 4.56 4.4-4 4.34 4.25 4.17 4.10 4.04 3 . 99 3.94 3.90 3.86 3.82 3.78 3.75 3.73 3.70 3.65 3.61 3.57 3.54 3.51 3.-19 3.47 3.44 3.43 3.41 3.37 3 . 34 3.]1 3.29 3.26 3.23 3.21 3.17 3.14 3.11 3.08 3,05 HW 3.01
593 9904 27.7 15.0 10. 7 10.5 8A7 8.26 7.19 6.99 6.37 6.18 5JW 5.61 5039 5.20 5.07 Ul9 4.82 4.64 4.62 4,44 4.46 4.28 4.32 U4 4 . 20 -l.l13 4.10 3.93 -l.01 3.84 3.94 3.77 3,87 3.70 3.RI 3.64 3.76 3.59 3.71 3.54 3.67 3.50 3.63 3.46 3.59 3A2 3.56 3.39 3.53 3.36 3.50 3.33 3.47 3.30 3.43 3.~6 3.39 3.21 3.35 3. J 8 3.32 3.15 3.29 3.12 3.27 3.10 3.24 3.08 3.22 3.06 3.20 3.04 3.19 3.02 3.15 2.98 3.11 2.95 3. ()9 2.93 3.07 2.91 3.04 1.87 3.01 1.84 2.99 ::UI2 2.95 2.79 2.92 2.76 2.89 2.73 2.86 2.70 2.84 2.68 2.82 2.66 2.80 2.fi4
598 99.4 27.5 14.8 10 . 3 8.10 6.84 6.03 5A7 5.06 4.74 ,L50 4.30 4.14 4.00 3.89 3.79 3.71 3 . 63 3.56 3.51 3.45 3.41 3.36 3.32 3.19 3.16 3.23 3.20 3.17 3.13 3.09 3.05 3.01 2.99 2.97 2.95 2.93 2. 91 2.89 2.85 2.82 2.80 2.78 2.74 2.72 2.69 2.66 2.63 1.60 1.57 2.55 2.53 2.51
602 99.4 27.3 14.7 10.2 7.98 6 . 72 5.91 5.. 35 4.94 4.63 4.39 4.19 ..t03 3.89 3.78 3.68 3.60 3.52 3.46 3.40 335 3.30 3.26 3.22 3.18 3.15 3.12 3.09 3.07 ).01 2.98 2.95 2.92 2.89 2.86 2.84 2.81 2.RO 2.79 2.75 2.72 2.69 1.67 2.64 2.61 1.59 2.55 2. 53
2.50
fil] fiN 99.4 9904 27.0 26.9 14.3 Ik::! 9.81 9.77
616
7.87 6.62 5.81 5. 26 4.85 . t54 4.30 UO 3.94 3.80 3.69 3.59 3.5' 3,43 3.37 3.31 3.26 3.21 3.17 3.13 ].09 106
::un
3.00 2.98 2.93 1.89 2.86 2.83 2.80 2.78 2.75 1.73 2.72 2.70 1.66 2.63 2.61
2.59
2.55 2.52 2.50 2,47 2.44 2.41 2.38 2. 36 2.34 2.32
7.79 6.54 5.73 5-18 4.77 4.46 4.22 4.02 3.86 3.73 3.62 3.52 3.-13 3.36 3.19 3.2-4 3.18 :t14 3.09 3.06 ].02 2.99 2.96 2.93 2.91 2.86 2.82 2.79 2.75 2.73 2.70 2.68 2.66 2.64 2.63 259 2.56 2.53 1.51 2.48 2,45 2.43 2.39 2.37 2.34 2.31 2.28 2.27 2.25
7. 72 6.47 5.67 5.11 UI L40 4.16 3.96 3.80 3.67 3.55 3.46 3.37 .:UO 3.23 3 . 17 3.12 3.07 3.03 2.99 2. 96 2 . 93 1.!)O 2.87 2.84 1.80 2.76
~.72
5.05
4.65 4.34 4.10 3.91 3.75 3 . 61 3.50 3.40 3.32 3.24 3.18 3..11 3.07 3.02 2.98 2.94 2.90 2.87 2.8 . ' 2.81 2.79 2.74 2.70 2.67 2.64 2.61 2.59 2.56 2.54 2.53 2.51 2,47 2,44 2.42 2.40 2.36 2.33 2.31 1.11! 2.25 2.22 2.19 2.17 2.15 2.13
2.69 2.66 2.64 2.61 2.60 2.5R 2.56 2. 53 250 2.47 2,45 2,42 2.39 2. 37 2 . 33 2.31 2.27 2.14 2.22 2.20 2.18
99,4 26.9 [. 1..2 9 . 72 7.60 7.56 6 . 36 6.31 5 . 56 5.51 5 . UO ..4096 4.60 4.56 4.19 4. 15 4.05 4.01 3.86 3.fi2 3.70 3.66 3 . 56 3.52 3,45 3AI 3.35 3.31 3.17 3.23 3.19 3.15 3.13 3.09 3.07 3.03 3.02 2.98 2.97 2.93 2.93 2.89 2.89 2.85 2.86 2.82 2J!2 2.78 2. 79 2.75 2.77 2.73 2.74 2.70 2.70 2. 66 2.66 2.62 2.62 2.58 2.59 2.55 1. 56 2.52 2.54 2.50 2.52 2,47 2.50 2A5 2.-18 2,4~ 2.46 2.42 1.42 2.38 2.39 2.35 2.37 2.33 2.35 2.3 J 2.31 2.27 2.29 2.24 2.26 2.22 1.23 2.19 2. 10 2.16 2.17 2.13 2.14 2. 10 2.12 2.07 2.10 2.06 2.08 2.04
4.52 4.21 3.97 3.78 3.62 3.49 3.37 3.17 3.. 19 3.12 3.05 1.99 2.9' 2.89 2.81 2.78 2.75 2.72 1.69 2.66 2. 62 2.58 2.54 2.51 2A8 2.46 2...w. 2.42 2...!0 2.38 1.34 2.31
618 99.4 26.8 1.1.1 9.64 7...!R 6.24 5,44 4.89 4.49 4 . 18 3.94 3.75 3.59 3.45 3.3-l 3.2...\ 3.16 3 . 08 3.02 2.96 2.9\ 1.86 2.78 2.74 2.71 .2,68 2.66 2.63 2.58 1.55 2.51 1.48 2,45 2.43 2,40 2.38 2.37 2.35 2.31 2,28 2.26 1 . 23 2. 20 .2. 17 2.15 2. II 2.09 2.06 2.03
619
2.85 :un
99.4 26.8 I. U 9.61 7.45 6.21 5.41 4.86 4..16 4.15 3.91 3.72 3.56 3.42 3.31 3.11 3.l3 3.05 2.99 2.93 2.l 2.83 2.79 2.75 2.72 2.68 2.65 2.63 2.60 2.55
2.51
2.48 2.45 2,42
2.40 2.37 2.35 2.33 2 ..32 2.28 2.25 2.29 1.23 2.20 2.27 2.23 2.17 2.11 2.l-t 2.19 2.12 2.15 2.08 2.12 2.06 2.09 2.01 1.99 2.06 2.04 ::!.Oo 1.97 2.01 1.98 1.95 2.00 1.97 1.93
A_Tables usuelles
573
TABLE
F(vi ;
Pl) AYANT LA
19
20
12
26
30
(,25 99.5 26.5 13.9 9.40
35
40
./5
50
60
80
Ion
200
,:iOO
<Xl
mlillipli~c;;
pur 1())
3 ./ 6 7 8
Il
10 Il 11 13 14 15
16
17 1fi 19 :W 21 12 13 2-\. 15 16 27 2R 29 JO 32 34 36 38 40 -\.1 ././ ./6 48 50 55 60 65 70 80 90 100 125 150 :200 300 500 1000
~
99.4 16.7 I ..LO 9.58 7.42 6.18 5.38 .J.83 .J.13 4.12 3.88 3.69 3.53 3...10 3.18 3.18 3. [(} 3.03 1.96 2.90 2.85 2.80 2.76 2.72 2.69 2.66 2.63 2.60 2.57 2.53 1../9 1,45 2...l2 2.39 2.37 2.35 2.33 2.31 2.29 2.25 1.12 1.20 1.IR 2.14 1.11 2.09 1.05 2.03 1.00 1.97 1.94 1.91 1.90
5.36 tlll 4.41 ./.10 3.86 3.66 3.51 3.37 3.26 3.16 3.08 3.00 2.94 2.8R 2.83 2.78 1.74 2.70 1.66 1.63 1.60 2.57 2.55 2.50 1,46 2A3 1...l0 2.37 2.34 1.31 1.JO 1.18 2.17 2.13 2.20 2.17 2.15 1.12 2.09
2.(}7
-\..36 4.06 3.82 3.61 3.46 3.33 .1.11 3.12 3.03 2.% 1.90 2.84 1.78 2.7./ 2.70 2.66 2.62 1.59
1.56
2.53 2.51 2,46 2A2 2.38 2.35 2.33 2.30 2.28 2.26 2.24 2.22 2.18 2.15 1.13 1.11 2.07 2.!)'+ 2.D2 1.98 1.96 1.93 1.89 1.87 1.85 1.83
626 99.5 16.5 13JJ 9.38 7.31 7.15 7.23 6.07 6.U-\. 6.01 5.99 5.28 5.25 5.22 5.20 A1.73 4.70 . 1.67 ~1.65 4.33 4.30 4.27 -\..1.5 4.02 3.99 3.96 3.9-\. 3.78 3.75 3.72 3.70 3.59 3.56 3.53 3.51 3A3 3...10 3.37 3.35 3.29 3.26 3.24 3.2! 3.18 3.15 3.11 3.10 .1.08 3.05 .1.03 3.00 .1.00 2.97 2.94 2.92 2.91 2.R9 1.87 1.84 2.86 1.83 2.80 2.78 2.S0 2.77 2.74 2.72 2.75 2.72 2.69 2.67 2.70 1.67 2.64 2.61 2.66 2.63 2.60 2.58 2.62 2.59 2.56 2.5-4 2.58 2.55 2.53 2.50 2.55 2.52 2,49 2,./7 2S.! 2..19 2.46 2,44 2.49 2.46 1.44 2,4 1 2..17 2.-14 2...11 2.39 2.42 1.39 2.36 2.3.t 1.38 2.35 2.32 2.30 1.35 2.J2 1.29 2.26 2.32 2.28 1.16 2.23 2.29 2.26 1.13 2.:!O 2.26 2.23 2.20 2.18 2.24 2.21 1.18 2.15 2.12 2.19 2.16 2.13 2.20 2.17 2.14 2.1:2 2.18 2.15 2.12 2.10 2.15 1.11 2.08 2.06 2.12 2.08 2.05 2.03 2.09 2.06 2.03 2.00 2.07 2.03 2.01 1.98 2.03 2.00 1.97 1.9.:\ 2.00 1.1)7 1.94 1.92 1.911 1.9-4 1.92 I.R9 1.94 1.91 1.88 1.85 1.92 1.88 I.R5 1.83 1.89 1.85 1.82 1.79 1.85 1.82 1.79 1.76 1.83 1.79 1.76 1.74 1.81 1.77 1.74 1.72 1.79 1.76 1.72 1.70
628 99.5 26.5 I3.R 9.33 7.IR 5.9.t 5.15 4.60 UO 3.89 3.65 .1,46 3.30 3.17 3.05 2.96 2.R7 2.80 2.73 2.67 2.62 2.57 2.53 2.49 2..15 2,42 2.39 2.36 2.31 2.29 1.25 2.21 2.18 2.15 2.13 1.10 2.08 2.06 2.05 2JH 1.98 1.95 1.93 1.89 1.86 1.8.t 1.80 1.77 1.74 1.71 1.68 1.66 1.64
99.5 26.4 13.7 9.16 7.14 7.11 5.91 5.SR 5.12 5JI9 ..1.57 ~t5~; -\..17 4.14 .1.86 3.IB 3.61 3.59 3.43 3.40 3.27 3.14 3.13 3.10 3.02 2.99 2.92 1.89 2.84 2.81 2.76 2.73 2.69 2.67 1.6.t 2.61 2.58 2.55 2.54 2.5\ 2.49 2,46 1.45 2.42 2,./2 2.39 2.38 1.35 2.35 2.32 2.33 2.30 2.30 2.27 2.25 2.12 2.21 2.18 2.17 2.1-\. 2.1-4 2.11 2.11 2.08 2.09 2.06 2.06 :U)3 2.0.t 2.01 1.02 1.99 2.01 1.97 1.97 1.93 1.94 1.90 1.91 1.88 1.89 1.85 1.85 1.81 1.82 1.79 1.80 1.76 1.76 1.72 1.73 1.69 1.69 1.66 1.(,6 1.62 1.63 1.60 1.61 1.57 1.59 1.55
(i30
630
631
99.5 26../ 13.7 9.24 7.09 5.86 5.07 rL52 4.11 3.81 .1.57 3.38 3.22 3.08 2.97
::UU
2.78 2.71 2.61 2.58 2.53 2.48 2.44 2.40 2.36 2.33 1.30 2.27 2.25 2.20 2.16 2.12 2.09 2.06 :!.l13 2.01 1.99 1.97 1.95 1.91 !.R8 1.85 l.83 1.79 1.76 1.73 1.69 LM 1.63 1.59 1.56 1.54 1.52
99.5 2603 13.7 9.10 7.06 5.82 5.03 4.48 4.08 3.78 3.54 3.3./ 3.18 :'1.05 2.93 2.83 2.75 1.67 1.61 2.55 2.50 2A5 2AO 2.36 2.33 2.29 2.26 2.23 2.21 2.16 2.12 2.0R 2.05 2.02 1.99 1.97 1.95 1.93 1.91 1.87 1.84 1.81 1.78 1.75 1.7:2 1.69 1.65 1.62 1.58 1.55 152 1.50 IA7
6JJ 99.5 26.3 13.6 9.16 7.01 5.78 4.99 4A4 .t.Il-\. 3.73 3../9 3.30 3.11 3.00 2.89 2.79 2.70 2.63 2.56 2.50
2A5 2.40 1.36 2.31
633 99.5 26.2 13.6 9.13 6.99 5.75 .t.96 .!A2 1.01 3.71 3.-17 3.17 3.11 1. I)R 2.86 2.76 2.68 2.60 1.54 2AS
2A1 2.37 2.33 2.29 1.25 2.22 2.19 2.16 1.13 2.08 2'(}'+ 1.0{) 1.97 1.9.t 1.91 1.89 I.R6 1.84 1.82 1.78 1.75 1.71 1.70 1.66 1.62 1.60 1.55 1.52 1.48 1A./ lAl 1.38 1.36
Du
3.96 3.66 3.4 1 3.22 3.06 2.92 1.81 :2.71 1.62 2.55 2.48 2A2 2.36 2.31 2.27 2.23 1.19 2.16 2.13 2.10 2.07 2.01 1.98 1.9.t 1.90 1.87 1.85 1.82 1.80 1.78 1.76 1.71 1.68 1.65 1.62 1.58 1.54 1.52
IA7 1A3
2.18 2.25 2.22 2.19 2.16 2.11 2.07 2.03 2.00 1.97 1.94 1.92 1.90 l.88 l.86 1.81 1.78 1.75 1.73 1.69 1.66 1.63 1.59
1.56
636 99.5 26.1 13.5 9.0-16.90 5.67 -\..RS 4.3.1 3.93 3.62 3.38 3.19 3.03 1.89 2.78 2.68 2.59 2.51 2.44 2.38 2.33 2.28 2.21 2.19 2.16 2.12 2.09 2.06 2.03 1.98 1.94 1.90 1.86 \.!B 1.80 I.7S 1.75 1.73 1.71 1.67 1.63 1.60 1.57 1.53 IA9 1A7
lAI
637 99.5 16.1 13.5 9.02 6.RR 5.65 ./.86 ..\-.31 3.91 3.60 3.36 3.17 3.00 2.87 2.75 2.65 2.57 2.49 1A2 2.36 1.31 2.16 2.21 2.17 2.13 2.10 2.06 2.03 1.01 1.96 1.91 1.87 Ul-\. 1.80 1.73 1.75 1.73 1.70 1.68 LM 1.60 1.57 1.5' !..t9 \A6 1..t3
1.37
574
AIIIIIiITables usuelles
TABLE
A.a
TABLE DE DISTRIBUTION DE
T (LOI
DE STUDENT)
2
+00
X
1 2 3 4 5 6 7 8 9 10
0.90 0,158 0,142 0,137 0,134 0,132 0,131 O,BO 0,130 0.129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0.127 0,127 0.127
0,80
0,70
0.60
n.50
0,40
0.30
0.20
0.10
0.05
0,02
0.01
0,001
0.325 0.510 0.717 1.000 1,376 1.963 3.078 6.314 12,706 31.821 63.657 636,619 0.289 0,445 0,617 0,816 1,061 1.386 1,886 2,920 4,303 6,965 9.925 31,598 0.277 0.424 0,584 0,765 0,978 1,250 1.638 2,353 3,182 4.541 5,841 12.929
0,271 0.267 0,265 0,263 0,262 0.261 0,260 0,260 0.259 0.259 0,258 0.258 0.258 0,257 0,257 0,257 0.257
0,569 0,741 0,941 0.559 0,727 0,920 0,553 0, 0, 0.549 0, O. 0, 0,546 0 0,543 0 O. 0,542 0 0,
1.533 2,132 2,776 1.476 2.015 2,571 ].440 1.943 2,447 1.415 1,895 1,397 1,860 1.383 1.833 1,372 1,812 2.201 2,179 2,160 2.145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2.069 2,064 2.060 2,056 2.051 2,048 2.045 2,042
3.747 3,365 3,143 2.998 2,896 2,821 2,764 2.718 2.681 2,650 2.624
2,602
.:1.604 4,032 3,707 3,499 3,355 3,250 3.169 3,106 3,055 3,012 2,977 2.947 2.92] 2,898 2.878 2,861 2.845 2.831 2.819 2.807 2,797 2.787 2.779 2.771 2.763 2.756 2,750 2,704 2,660 2.617 2.576
8.610 6.869 5,959 5.408 5,041 4,781 4,587 4.437 4,318 4.221 4,140 4,073 4.015 3,965 3.922 3,88.3 3.850 3,819 3,792 3,767 3.745 3.725 3.707 3.690 3,674 3.659 3,646 3,551 3.460 3,373 3.291
Il 12 13 14 15 16 17 18 19 20
0,396 0.540 0,697 0,876 0.395 0.539 0,695 0.873 0,394 0,538 0,694 0,870 0,393 0.537 0.692 0,868 0,393 0,536 0,691 0,866 0,392 0.535 0.690 0.865 0.392 0,534 0.689 0.863 0,392 0.534 n,688 0,862 0.391 0,533 0,688 0,861 0,391 0.533 0,687 0.860 0.391 0,390 0.390 0,390 0,390 0,390 0,389 0,389 0,389 0,389 0.532 0,532 0532 0,531 0.531 0.531 0,531 0530 0.530 0,530 0,529 0.527 0,526 0.524 0.686 0,686 0.685 0,685 0,684 0.684 0,684 0.683 0,683 0,683 0,681 0.679 0.677 0,674
1.074 1,341 1,753 1,071 1.337 1,746 1,069 1,333 1,740 l, 1.330 1.734 1,328 1,729 L 1,064 1,325 1.725
21 0.127 0,257 22 0,127 0.256 13 0,127 0.156 24 0,127 0.256 25 0.127 0,256 26 0,127 0,256 27 0,127 0.256 28 0,127 0,256 29 0,127 0.256 30 0,127 0,256
0.859 1,063 1,323 L721 0,858 1.061 1,321 1.717 0.858 1,060 1,319 1.714 0,857 1.059 1.318 1,711 0,856 1,058 1.316 1,708 0.856 1,058 1,315 1,706 0.855 1,057 1.314 1.703 0,855 1.056 1,313 1,701 0,854 1,055 1.311 1,699 0,854 1,055 1.310 1,697 0,851 0,848 0,845 0.842 1,050 1,046 1.041 1,036 1,303 1.296 1,289 1,282
2.500 2,492 2,485 2,479 2.473 2,467 2.462 2,457 2,423 2.390 2,358 2.326
40 0,126 0,255 0,388 80 0,116 0,254 0.387 120 0,126 0.254 0,386 cr:. 0.126 0,253 0,385
TABLE
A.9
R D'UN CHANTillON ISSU D'UNE POPULATION Celte table donne les valeurs r telles que P(IRI > r) , li = " - 2 corrlation simple li , , - 2 - cl corrlation partielle tlvec cl variables fixes
NORf"1ALE O
I~
1 2 3 4 5 6 7
8
0,1
0,05 0,9969 9500 8783 8114 0,7545 7067 6664 6319 6021 0,5760 5529 5324 5139 4973 0,4821 4683 4555 4438 4329 0,4227 4132 4044 3961 3882
0,01 0,9999 9900 9587 9172 0,8745 8343 7977 7646 7348 0,7079 6835 6614 6411 6226 0,6055 5897 5751 5614 5487 0,5368 5256 515t 5052 4958
D,DOL
~
25 26 27 28 29
30 31
0,1 0,3233 3172 3115 3061 3009 0,2960 2913 2869 2826 2785 0,2746 2709 2673 2638 2605 0,2573 2542 2512 2483 2455 0,2428 2403 2377 1353
0,05 0,3809 3739 3673 3610 3550 0,3494 3440 3388 3338 3291 0,3246 3202 3160 3120 3081 0,3044 3008 2973 2940 2907 0,2875 2845 2816 2787
.
0,01 0,4869 4785 4705 4629 4556 0,4487 4421 4357 4297 4238 0,4182 4128 4076 4026 3978 0,3932 3887 3843 3802 3761 0,3721 3683 3646 3610
0,001 0,5974 5880 5790 5703 5620 0,5541 5465 5392 5322 5255 0,5189 5126 5066 5007 4951 0,4896 4843 4792 4742 4694 0,..+647 4602 4558 4515
9
10 II 12
13 14
15
16 17 18 19
20
21 22 23 24
0,9877 9000 8054 7293 0,6694 6215 5822 5494 5214 0,4973 4762 4575 4409 4259 0,4124 4000 3887 3783 3687 0,3598 3515 3438 3365 3297
1,0000 0,9990 9911 9741 0,9509 9249 8983 8721 8471 0,8233 8010 7800 7604 7419 0,7247 7084 6932 6788 6652 0,6524 6402 6287 6177 6073
~-
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
-
TABLE
A.9 (suite)
R D'UN CHANTillON ISSU D'UNE POPULATION Cette table donne les valeurs r telles que P(IRI > r) = U', v = Il - 2 corrlation simple v = TI - 2 - cl corrlation partielle avec d variables fixes
NORMALE OU
P= 0
~
49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
0,1 2329 0,2306 2284 2262 2241 2221 0,2201 2181 2162 2144 2126 0,2108 2091 2075 2058 2042 0,2027 2012 1997 1982 1968 0,1954 1940 1927 1914 1901
0,05 2759 0,2732 2706 2681 2656 2632 0,2609 2586 2564 2542 2521 0,2500 2480 2461 2442 2423 0,2405 2387 2369 2352 2335 0,2319 2303 2287 2272 2257
0,01 3575 0,3541 3509 3477 3445 3415 0,3385 3357 3329 3301 3274 0,3248 3223 3198 3174 3150 0,3127 3104 3081 3060 3038 0,3017 2997 2977 2957 2938
0,001 4473 0,4433 4393 4355 4317 4281 0,4245 42\0 4176 4143 4111 0,4079 4048 4018 3988 3959 0,3931 3904 3877 3850 3824 0,3798 3773 3749 3725 3701
~
75 76 77 78 79
80
0,1 0,1889 IB76 1864 1852 1841 0,1829 1818 1807 1796 1786 0,1775 1765 1755 1745 1735 0,1726 1716 1707 1698 1689 0,1680 1671 1663 1654 1646 0,1638
0,05 0,2242 2227 2213 2199 2185 0,2172 2159 2146 2133 2120 0,2108 2096 2084 2072 2061 0,2050 2039 2028 2017 2006 0,1996 1986 1976 1966 1956 0,1946
0,01 0,2919 2900 2882 2864 2847 0,2830 2813 2796 2780 2764 0,2748 2733 2717 2702 2688 0,2673 2659 2645 2631 2617 0,2604 2591 2578 2565 2552 0,2540
0,001 0,3678 3655 3633 3611 3590 0,3569 3548 3527 3507 3488 0,3468 3449 3430 3412 3394 0,3376 3358 3341 3324 3307 0,3291 3274 3258 3242 3127 0,3211
81 82 83 84
85
86 87 88 89 90 91 92 93 94 95 96 97 98 99
100
TABLE
A.9 (sute)
R D'UN
P= 0
Cette table donne les valeurs r teHes que PCIR) > l') = 0', V Il 2 corrlation simple 11 = 11 - 2 cl corrlation partielle avec li variables fixes
I~
lOI
0,1 0,1630 1622 1614 1606 0,1599 159] 1584 1577 1569 0.1562 1555 1548 1542 1535 0,1528 1522 ]515 1509 1502 0,1496 1490 1484 1478 1472 0,1466 1460 1455
0,05 0,]937 1927 1918 1909 0.1900 1891 1882 1874 1865 0,1857 1848 1840 1832 1824 0,1816 1809 1801 1793 1786 0.1779 1771 1764 1757 t750 0,1743 1736 1730
0,01 0,2528 2515 2504 2492 0,2480 2469 2458 2447 2436 0,2425 2414 2404 2393 2383 0,2373 2363 2353 2343 2334 0,2324 2315 2305 2296 2287 0,2278 2269 2261
0,001 0,3196 3181 3166 3152 0.3138 3123 3109 3095 3082 0.3069 3055 3042 3029 3017 0,3004 2992 2979 2967 2955 0,2943 2932 2920 2909 2897 0,2886 2875 2864
~
128 129
130
0,1 1449 1443 0,1438 1432 1427 1422 1416 0,1411 1406 1401 1396 1391 0,1386 1381 1376 1371 1367 0,1362 1357 1353 1348 1344 0,1339 1335 1330 1326 1322
0,05 1723 1716 0,1710 1703 1697 1690 1684 0,1678 1672 1666 1660 1654 0.1648 1642 1637 1631 1625 0,1620 1614 1609 1603 1598 0,1593 1587 1582 1577 1572
0.01 2252 2243 0,2235 2226 2218 2210 2202 0,2194 2186 2178 2170 2163 0,2155 2148 2140 2133 2126 0.2118 2111 2104 2097 2090 0,2083 2077 2070 2063 2057
0,001 2854 2843 O,283? 282? 28[7 2801 2791 0.2781 2771 2762 275? 2742 0,2733 2724 2714 2705 2696 0,2687 2678 2669 2660 2652 0,2643 2635 2626 26[8 2610
131 132
133
106 107
108
134
135
109
110
III
120
126 127
TABLE
R D'UN
P=0
= Il
I~
155
0,05 0,1567 1562 \557 1552 1547 0,\543 1538 1533 1529 1524 0,1519 1515 1510 1506 1501 0,1497 1493 1488 1484 1480 0,1476 1471 1467
0,001 0,2602 2594 2586 2578 2570 0,2562 2554 2547 2539 2532 0,2524 2517 2510 2502 2495 0,2488 2481 2474 2467 2460 0,2453 2446 2440
~
178 179
180
OJ
1230 1227
0,1223
0,05 1463 1459 0,1455 145\ 1447 \443 1439 0,1435 1432 1428 1424 1420 0,1417 1413 1409 1406 1402 0,1399 1395 1391 1388 1384 0,1381
D,DI
0,001 2433 2426 0,2420 2413 2407 2400 2394 0,2388 2381 2375 2369 2363 0,2357 2351 2345 2339 2333 0,2327 2321 2316 2310 2304 0,2299
156 157
158
159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176
\77
1301 0,1297 1293 1289 1285 1281 0,1277 1273 1270 1266 1262 0,1258 1255 1251 1248 1244 0,1240 1237 1233
2012 2006 2000 1994 0,1988 1982 1977 1971 1965 0,1959 1954 1948 1943 1937 0,1932 1926 1921
181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200
1220 1216 1213 1210 0,1207 1203 1200 1197 1194 0,ll91
1188
1915 1910 0,1905 1900 1895 1890 1885 0,1880 1874 1870 1865 1860 0,1855 1850 1845 1841 1836 0,1831 1827 1822 1818 1813 0,1809
Pour v > 200 on admet que r est une ralisation d'une variable de LaplaceMGauss d'esprance nulle et d'cart-type _~.
'IV
A_Tables usuelles
579
TABLE
A.9 bis
-o.B -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 +0.1 +0.2 +0.3 +0.4 +0.5 +0.6 +0.7 +0.8 +0.9 + 1.0
+1.0 +0.9 +0.8 +0.7 +0.6 +0.5
C(j
El +0.4
(]J
~ +0.5 0 a.
+0.3
+004
+0.3 +0.2 +0.1 0 -0,1 -0.2 -0.3 -0,4 -o.S
"0
c:
.Q +0.2
(j
u
~ +0.1
Ci
(JJ
0 -0.1 -0.2
"0
(]J
13
~ 0
~ -0.3
Cl.
Ul
(]J
-DA
-o.S
"0
Qi
.c: -0.6 u
W
-o.G
-0.7 -0.8 -0.9
~~
-o.i
-o.a -0.9
~~
-1.0 -0.9 -o.a -0.7 -0.6 -0.5 -0,4 -0.3 -0.2 -0.1
+0.1 +0.2 +0.3 +0.4 +0.5 +0.6 +0.7 +0.8 +0.9 +1.0
chelle des r (coefficient de corrlation de l'chantillon) Les nombres sur les courbes correspondent aux tailles d'chantillon
TABLE
r=
exp(2t) exp(2t)
+1
0.0 0.1 0,2 0,3 OA 0,5 0,6 0.7 0,8 0,9 l,n 0.00 0,0000 0,0997 0.1974 0,1913 0,3800 0.4621 0.5370 0,6044 0,6640 0,7163 0.7616 0,8005 0,8337 0,8617 0,8854 0,9051 0.9217 0.9354 0.9468 0.95624 0,96403 0,97045 0,97574 0,98010 0,98367 O,9R661 0,98903 0,99101 0,99263 0.99396 0.01 0,0100 0,1096 0.2070 0.3004 0,3885 0,4699 0,5441 0.6107 0,6696 0,7211 0.7658 0.8041 0,8367 0,8643 0.8875 0.9069 0.9232 0,9336 0,94783 0.95709 0,96473 0,97103 0,97622 0,98049 0,98399 0,98688 0,98924 0,99118 0,99278 0,99408
;- = - I n - 0.04 0,0400 0.1391 0.2355 0,3275 OAI3h 0,4930 0.5649 0,6291 0,6858 0,7352 0.7779 0.8144 0.8455 0.8717 0.8937 0,9121 0,9275 0.9402 0,95080 0,95953 0.96675 0.97269 0,97752 0.98161 0.98492 0,98764 0.98987 0.99170 0,99320 0,99443
1 2
1+ r 1- r
0,05 0.0500 0,1489 0,2449 0.3364 0,4219 0,5005 0,5717 0.6351 0,6911 0,7398 0,7818 0,8178 0,8483 0.8741 0,8957 0,9138 0,9289 0.9414 0.95175 0,96032 0,96739 0,97323 0.97803 0.98197 0,98522 0,98788 0,99007 0,99185 0,99333 0,99454 0.06 0,0599 0,1586 0,2548 0,3452 0,4301 0,5080 0,5784 0.64\1 0,6963 0.7443 0,7857 0,8210 0.85\1 0.8764 0.8977 0.9154 0.9302 0,9425 0,95268 0.96109 0,96803 0,97375 0.97846 0.98233 0,9855\ 0.98812 0,99026 0,99202 0,99346 0,99464 0,07 0,0699 0,1684 0,2636 n,3540 0,4382 0,5154 0,5850 0,6469 0,7014 0,7487 0.7895 0.8243 0,8538 0,8787 0.8996 0.9170 0,9316 0,9436 0.95359 0,96185 0,96865 0,97426 0,97888 0,98267 0,98579 0,98835 0,99045 0,99218 0,99359 0,99475 0.08 0,0798 0,1781 0,2729 0.3627 0,4462 0,5227 0,5915 0,6527 0,7064 0.7531 0,7932 0.8275 0,8565 0,8810 0,9015 0,9186 0,9329 0,9447 0,95449 0,96259 0,96926 0,97477 0,97929 0,98301 0,98607 0,98858 0,99064 0,99233 0,99372 0,99485 0,09 0.0898 0,1877 0.2821 0.3714 0.4542 0,5299 0,5980 0,6584 0,7\14 0.7574 0,7969 0,8306 0.8591 0,8831 0,9033 0,9201 0,9341 0,9458 0,95537 0,96331 0,96986 0,97526 0,97970 0.98335 0.98635 0,98881 0,99083 0,99248 0.99384 0,99495
o,m
0,0200 0,1194 0,2165 0,3095 0.3969 0,4777 0.5511 0,6169 0,6751 0,7259 0,7699 0,8076 0,8397 0,8668 0,8896 0,9087 0,9246 0.9379 0,94884 0,95792 0.96541 0,97159 0,97668 0,98087 0,98431 0.98714 0,98945 0,99136 0,99292 0.99420
0.03 0.0300 0,1193 0.2260 0,3185 0,4053 0,4854 0,5580 0,6231 0,6805 0,7306 0,7739 0,8110 0,8416 0,8691 0.89[7 0.9104 0.9261 0,9391 0.94983 0.95873 0,96609 0.97215 0.97714 0,98124 0.98462 0,98739 0,98966 0,99153 0.99306 0,99431
1.1
1,2 \,3 1.4 1,5 1,6 1,7 1,8
1.9
2,0 2,1 2.2 2.3 2,4 2.5 2,6 2,7 2,8 2.9
A_Tables usuelles
581
TABLE
A.II
TABLE DU COEFFICIENT DE CORRLATION DES RANGS DE SPEARMAN ENTRE DE DEUX VARIABLES INDPENDANTES
Valeurs r de R" ayant une probabilit ct d'tre dpasse en valeur absolue p(l R, 1 > r) = ct
0.50 4 5 6 7 8 9 10
Il 12 13 [4 15
0.20 1.000 0.800 0.657 0.571 0.524 0,483 0,455 0,427 0.406 0.385 0.367 0.354 0.341 0.328 0.317 0.309 0.299 0.292 0.284 0.278 0.271 0.265 0.259 0.255 0.250 0.245 0.240 0.236 0.232 0.229 0.225 0.222 0.219 0.216 0.212 0.210 0.207
0.10
0.05
0.02
0.01
0.005
0.002
0.001
0.600 0.500 0.371 0.321 0.310 0.267 0.248 0.236 0.224 0.209 0.200 0.189 0.182 0.176 0.170 0.165 0.161 0.156 0.152 0.148 0.144 0.142 0.138 0.136 0.133 0.130 0.128 0.126 0.124 0.121 0.120 0.118 0.116 0.114 0.113 0.111 0.110
1.000 0.886 0.786 0.738 0.700 0.648 0.618 0.587 0.560 0.538 0.521 0.503 0.485 0.472 0.460 0.447 0.435 0.425 0.415 0.406 0.398 0.390 0.382 0.375 0.368 0.362 0.356 0.350 0.345 0.340 0.335 0.330 0.325 0.321 0.317 0.313
1.000 0.943 0.893 0.833 0.783 0.745 0.709 0.671 0.648 0.622 0.604 0.582 0.566 0.550 0.535 0.520 0.508 0.496 0.486 0.476 0.466 0.457 0.448 0.440 0.433 0.425 0.418 0.412 0.405 0.399 0.394 0.388 0.383 0.378 0.373 0.368
1.000 0.929 0.88] 0.833 0.794 0.755 0.727 0.703 0.675 0.654 0.635 0.615 0.600 0.584 0.570 0.556 0.544 0.532 0.521 0.511 0.501 0.491 0.483 0.475 0.467 0.459 0.452 0.446 0.439 0.433 0.427 0.421 0.415 0.410 0.405
l.000 0.964 0.905 0.867 0.830 0.800 0.776 0.747 0.723 0.700 0.679 0.662 0.643 0.628 0.611 0.599 0.586 0.573 0.562 0.551 0.541 0.531 0.522 0.513 0.5040.496 0.489 0.482 0.475 0.468 0.462 0.456 0.450 0.444 0.439
1.000 0.952 0.917 0.879 0.845 0.825 0.802 0.776 0.754 0.732 0.713 0.695 0.677 0.662 0.648 0.634 0.622 0.610 0.598 0.587 0.577 0.567 0.558 0.549 0.541 0.533 0.525 0.517 0.510 0.504 0.497 0.491 0.485 0.479
].000 0.976 0.933 0.903 0.873 0.860 0.835 0.81l 0.786 0.765 0.748 0.728 0.712 0.696 0.681 0.667 0.654 0.642 0.630 0.619 0.608 0.598 0.589 0.580 0.571 0.563 0.554 0.547 0.539 0.533 0.526 0.519 0.513 0.507
[6 17 [8 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
38
39 40
582
A_Tables usuelles
TABLE
Valeurs r de R, ayant une probabilit a d'tre dpasse en valeur absolue pd R, 1> r) = 0: 0.50 41 42 43 44 45 46 47 48 49 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 0.108 0.107 0.105 0.104 0.103 0.102 0.101 0.100 0.098 0.097 0.095 0.094 0.092 0.090 0.089 0.087 0.086 0.084 0.083 0.082 0.081 0.080 0.078 0.077 0.076 0.075 0.074 0.074 0.073 0.072 0.071 0.070 0.070 0.069 0.068 0.20 0.104 0.202 0.199 0.197 0.194 0.192 0.190 0.188 0.186 0.184 0.180 0.]77 0.174 0.17] 0.168 0.165 0.]62 0.160 0.157 0.155 0.153 0.151 0.149 0.147 0.145 0.143 0.141 0.139 0.138 0.136 0.]35 0.133 0.132 0.130 0.129 0.10 0.261 0.257 0.254 0.251 0.148 0.246 0.243 0.240 0.238 0.235 0.231 0.226 0.222 0.218 0.214 0.211 0.207 0.204 0.201 0.198 0.195 0.193 0.190 0.\88 0.185 0.183 0.181 0.179 0.176 0.l74 0.173 0.171 0.169 0.167 0.165 0.05 0.309 0.305 0.301 0.298 0.294 0.291 0.288 0.285 0.282 0.279 0.274 0.268 0.264 0.259 0.255 0.250 0.246 0.243 0.239 0.235 0.232 0.229 0.226 0.223 0.220 0.217 0.215 0.212 0.210 0.207 0.205 0.203 0.201 0.199 0.197 0.02 0.364 0.359 0.355 0.351 0.347 0.343 0.340 0.336 0.333 0.329 0.323 0.317 0.311 0.306 0.300 0.296 0.291 0.287 0.282 0.278 0.274 0.271 0.267 0.264 0.260 0.257 0.254 0.251 0.248 0.245 0.243 0.240 0.238 0.235 0.233 0.01 0.400 0.395 0.39\ 0.386 0.382 0.378 0.374 0.370 0.366 0.363 0.356 0.349 0.343 0.337 0.331 0.326 0.321 0.316 0.311 0.307 0.303 0.299 0.295 0.291 0.287 0.284 0.280 0.277 0.274 0.271 0.268 0.265 0.262 0.260 0.257 0.005 0.002 0.473 0.468 0.463 0.458 0.453 0.448 0.443 0.439 0.434 0.430 0.001 0.501 0.495 0.490 0.484 0.479
98
100
A_Tables usuelles
583
A.12 TEST DE CONCORDANCE DE P CLASSEMENTS (lest du W de M. G. Kendall) Valeurs critiques 1\' de Wall: = 0.05 P(W lI') = 0.05 3
TABLE
~
11
4 0,750 0,619 0,553 0,512 0,484 0,461 0,447 0.434 0,425 0,415 0,409 0,402 0,395 0,37 0,33 0,3\ 0,29 0,25
5
0,600 0,500 0,449 0,418 0,395 0,378 0,365 0,354 0,346 0,336 0,332 0,327 0,322 0,30 0,26 0,25 0,24 0,20
6 0,500 0,421 0,377 0,351 0,332 0,319 0,307 0,299 0,287 0,287 0,280 0,275 0,272 0,25 0,22 0,21 0,20 0,17
3 4 5 6 7 8 9 10 Il 12
[3
14 15 20 40 60 100
co
1 0,822 0,716 0,660 0,626 0,595 0,576 0,560 0,548 0,535 0,527 0,520 0,514 0,49 0,43 0,41 0.38 0,33
TABLE
A.ll
lIor = /1
...
121/
i':',
Il
(2i - 1-2n
~
dF(x)
F est lu fonction de rpartition de la variable chantillonne YI' Y2' ... , Yll les valeurs de l'chantillon ordonn
Celle table donne les valeurs
telles que: 1 ]-r.x.
Il
t:Y
<
z)
0.99 0.55052 0.63976 0.67017 0.68352 0.69443 0.70154 0.70912 O.711tG 0.71582 0.72948 0.73784 0.74205 0.743J8 0.74346
0.975 0.48897 0.53316 0.54200 0.55056 0.55572 0.55935 0.56327 0.56513 0.56663 0.57352 0.57775 0.57990 0.58047 0.58061
0.95 0,42482 0,43938 0.44199 0,44697 0.44911 0,45100 0,45285 0.45377 0.45450 0.-15788 0.45996 0.46101 0.46129 0,46136
0.90 0.34346 0.33786 0.34183 0.34238 0.34352 0.34397 0.34461 0.34491 0.34514 0.3-1621 0.34686 0.34719 0.34728 0.34730
0.85 0.28853 0.27963 0.28337 0.28305 0.28331 0.28345 0.28358 0.21G64 0.28368 0.28387 0.28398 0.18404
0.28~06
D.!m
0.75 0.21521 0.21339 0.2\ 173 0.21165 0.21110 0.21087 0.21066 0.21052 0.21041 0.20990 0.20960 0.20944 0.20940 0.20939
0.50 0.12659 0.12542 0.\2405 0.12152 0.12200 0.12158 0.12113 0.12088 0.12069 0.11979 0.11924 0.11897 0.11890 0.11888
0.25 0.08145 0.07683 0.07494 0.07427 0.07352 0.07297 0.07254 0.07228 0.07208 0.07117 0,(J7062 0.07035 0.07027 0.07026
0.20 0.07351 0.06886 0.06681 0.06611 0.06548 0.06492 0.06448 0.06423 0.06403 0.06312 0.06258 0.06131 0.06224 0.06212
0.15 0.06554 0.06092 0.05895 0.05799 0.05747 0.05697 0.05650 0.05625 0.05605 0.05515 0.05462 0.05435 ()'()5428 0.05426
0.10 0.05758 0.05287 0.05093 0.04970 0.04910 0.04869 0.04823 0.04798 0.04778 0.04689 0.04636 0.(14610 0.()4603 0.04601
0.05 0.04963 0.04355 0.()4147 0.04035 0.03960 O,()3914 0.03876 OJJ3850 0.03830
0.037~2
O.02S 0.04565 0.03777 0.03537 0.03422 0.03344 0.03293 0.03256 0.03230 0.03209 0.03120 0.03068 0.03043 0.03037 0.03035
0.01 0.04326 0.03324 0.03013 0.02876 0.02794 0.02738 0.02706 0.02679 0.02657 0.02564 0.01512 0.02488 0.0248\ 0.02480
2 3 4 5 6 7 8 9 10 20 50 200 1000
00
0.28406
0.24743 0.24169 0.24260 0.24236 0.24198 0.24197 0.24187 0.24180 0.24175 0.24150 0.24134 0.24126 0.24124 0.24124
AIIIIIIIIIITables usuelles
585
A.14
TABLE
DII = sup f~;(x) - F(x) Valeurs de dl! lelles que P = P(Dn < dit)
/1
p:= .80
.90000 .68377 .56481 ,49165 ,44698 A 1037 .38148 .35831 33910 .32160 .30829 .19577 .28470 .27481 .26588 .25778 .15039 .14360 .13735 .23156 .22617 .22115 .21645 ,21105 .20790 .20399 .20030 ,19680 19348 .19032 .18732 .18445 .18171 .17909 .17659 .17418 17188 .16966 16753 .16547 .16349 .16158 .15974 .15796 .15623 .15457 .15295 .15139 14987 .14840
p = .90
p;;; .95
p= .98
.99
2 3 4 5 6 7 8 9 10
Il
.95000 .77639 .63604 .56522 .50945 .-1-6799 .-1-3607 .40962 .38746 .36866 .35242 .33815 .31549 .31417 .30397 .29412 .28627 .17851 .17136 .16473 .25858 .25283 .24746 .24242 .23768 .23320 .22898 .21497 .22117 .11756 .21411 .2[085 .20771 .20471 .20185 .19910 .19646 .19392 .19148 .18913 .18687 .18468 .18257 .18053 .17856 ,17665 .17481 .17302 .17128 .16959
.97500 .84189 .70760 .62394 .56328 .51926 .48342 .45427 .43001 .40925 39112 .37543 .36143 .34890 .33760 .32733 .31796 .30936 .30143 .19408 .18724 .28087 .17490 .26931 .26404 .25907 .25438 .24993 .24571 .24170 .13788 .23424 .23076 .22743 .22425 .22119 .21826 .21544 .21273 .21012 .20760 .20517 .20283 .20056 .19837 .19625 .19420 .19221 .19028 .18841
.99000 .90000 .78456 .68887 .61718 .57741 .53844 .50654 .47960 .45662 .43670 041918 A0362 .38970 .37713 .36571 .35528 .34569 .33685 .32866 .31104 .31394 .30728 .30104 .29516 .28962 .28438 .27941 .27471 .27023 .16596 .26189 .25801 .25429 .15073 .24731 .24404 .24089 .13786 .23494 .13113 .11941 .22679 ,22426 .n181 .21944.21715 .21493 .21277 .21068
.99500 .92929 .82900 .73424 .66853 .61661 .57581 .54179 .51331 .48893 .46770 .44905 .43247 .41762 .40410 .39201 .38086 .37061 .36117 .35241 .34427 .33666 .32954 .32286 .31657 .31064 .30501 .29971 .29466 .28987 .28530 .18094 .27677 .27179 .26897 .26532 .26180 .25843 .25518 .25205 .24904 .24613 .24332 .24060 .23798 .23544 .23298 .23059 .22828 .22604
Il
13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 4\ 42 43 4445 46 47
48
49 50
586
A_Tables usuelles
TABLE
<
dl!)
1/
p
.14697 .14558 .14423 .14292 .]4164 .14040 .13919 .13801 .13686 .13573 .13464 .13357 .13253 .13151 ,13052 .12954 .12859 .12766 .12675 .12586 .12499 .12413 .12329 .12247 ,12167 .12088 .12011 .11935 .11860 .11787 .11716 .11645 .11576 .11508 .11442 .11376 .11311 .11248 .11186 .11125 .11064 .11005 .10947 .10889 .10833 .10777 .10712 .10668 .10615 .10563 1.073/.,Jn
.90 .16796 .16637 .16483 .16332 .16186 .16044 .15906 .15771 .15639 .15511 .15385 .15263 .15144 .15027 .14913 .14802 .14693 .14587 .14483 .[4381 .14281 ,14183 .14087 .13993 .13901 .13811 .13723 .13636 .13551 .13467 .13385 .13305 .13226 .13148 .13072 .12997 .12923 .12850 .12779 .12709 .12640 .12572 .12506 .12440 .12375 .12312 .12249 .12187 .12126 .12067 1.223/-fn
P = .95
.18659 .18482 .18311 .18144 .17981 .17823 .17669 .17519 .17373 .17231 .17091 .16956 .16823 .16693 .16567 .16443 .16322 .16204 .16088 .15975 .15864 .15755 .15649 .15544 .15442 .15342 .15244 .15147 .15052 .14960 .14868 .14779 .14691 .14605 .14520 .14437 .14355 .14274 .14195 .14117 .14040 .13965 .13891 .13818 .13746 .13675 .13606 .13537 .13469 .13403 1.358/-fn
P = .98
.20864 .20667 .20475 .20289 .20107 .19930 .19758 .19590 .19427 .19267 .19112 .18960 .18812 .18667
P = .99
.22386 .22174 .21968 .21768 .21574 .21384 .21199 .2\019 .20844 .20673 .20506 .20343 .20184 .20029 .19877 .19729 .19584 .19442 .19303 .19167 .19034 .18903 .18776 .18650 .18528 .18408 .18290 .18174 .18060 .17949 .17840 .17732 .17627 .17523 .1742\ .17321 .17223 .17126 .17031 .16938 .16846 .16755 .16666 .16579 .16493 .16408 .16324 .16242 .16161 .16081 1.629/.,Jn
51
52
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
.18515
.18387 .18252 .18119 .17990 .17863 .17739 .17618 .17498 .17382 .17168 .17155 .17045 .16938 .16832 .16728 .\6626 .\6526 .16428 .16331 .16236 .16143 .1605\ .15961 .15R73 .15786 .15700 .15616 .15533 .15451 .15371 .15291 .15214 .15137 .15061 .14987 1.518/-fn
96
97 98 99 100
n> 100
4_Tables usuelles
587
TABLE
A.I 5
D'UN CHANTILLON DE
n OBSER.VATIONS
p 0.05 7 8 9 10 12 15 20 25 30 35 40 45 50 60 70 80 90 100 125 150 175 200 250 1.018 0.998 0.977 0.954 0.910 0.851 0.772 0.711 0.662 0.621 0.587 0.558 0.534 0,492 0.459 0.432 0.409 0.389 0.350 0.311 0.298 0.180 0.251
O.DO
:\:)3
>b =a
0.01 1,457 1,452 1.433 1.407 1.353 1.272 1.155 1.061 0.986 0.923 0.870 0.825 0.787 0.723 0.673 0.631 0.596 0.567 0.508 0.464 0,430 0,403 0.360 0.329 350 400 450 500 550 600 650 700 750 800 850 900 950 1000 1200 l400 1600 1800 1000 1500 3000 3500 4000 4500 5000
0.05 0.213 0.200 0.188 0.179 0.171 0.163 0.157 0.151 0.146 0.142 0.138 0.134 0.130 0.127 0.116 0.107 0.100 0.095 0.090 0.080 0.073 0.068 0.064 0.060 0.057
0.01 0.305 0.285 0.269 0.255 0.243 0.233 0.224 0.215 0.108 0.202 0.196 0.190 0.L85 0.180 0.165 0.152 0.142 0.134 0.127 0.114 0.104 0.096 0.090 0.085 0.081
300
588
A.16
A_Tables usuelles
TABLE
D'UN CHANTILLON DE
P
0.01 7 8 9 10 Il 15 20 25 30 35 40 45 50 75 100 125 150 100 250 300 350 400 450 500 550 600 650 700 800 900 1000 1200 1400 1600 1800 1000 2500 3000 3500 4000 4500 5000 1.25 1.31 1.35 1.34 1.46 1.55 1.65 1.72 1.79 1.84 1.89 1.93 1.95 1.08 2.18 2.24 2.29 1.37 2,42 2.46 2.50 2.52 2.55 2.57 2.58 2.60 2.61 2.62 2.65 2.66 2.68 2.71 2.72 2.74 2.76 2.77 2.79 2.81 2.82 2.83 2.84 2.85
C'
- 2: (Xi
/1 i=1
.'1
~I
0.05 1,41 1.46 1.53 1.56 1.64 1.71 1.81 1.91 1.98 2.03 2.07 2.11 1.15 2.17 2.35 2,40 2,45 3.51 2.55 2.59 2.62 2.64 2.66 2.67 2.69 2.70 2.71 2.71 2.74 2.75 2.76 2.78 2.80 2.81 2.82 2.83 2.85 2.86 2.87 2.88 2.88 2.89
<b =
0:
0.95 3.55 3.70 3.86 3.95 4.05 4.13 4.17 4.16 4.11 4.10 4.06 4.00 3.99 3.87 3.77 3.71 3.65 3.57 3.52 3,47 3.44 3,41 3.39 3.37 3.35 3.34 3.33 3.31 3.29 3.28 3.26 3.24 3.22 3.21 3.20 3.18 3.16 3.15 3.14 3.13 3.12 3.12
0.99 4.19 4.53 4.82 5.00 5.20 5.30 5.36 5.30 5.21 5.13 5.04 4.94 4.88 4.59 4.39 4.24 4.13 3.98 3.87 3.79 3.72 3.67 3.63 3.60 3.57 3.54 3.52 3.50 3,46 3,43 3,41 3.37 3.34 3.32 3.30 3.28 3.25 3.22 3.21 3.19 3.18 3.17
A_Tables usuelles
589
TABLE
A.I 7
o
p=1
11
Ho refuse
p=2
incertitude
Ho accepte
p
d~up
{/inf
p=3
4
d sup
p=5
diflr
"sup
dinf'
"SliP
dinf
clinf
d,ur
15 16 17
18
19 20 21 22 23 24 25 26 27 28 29 30 31 32
33
1.08 1.10 1.13 1.16 1.18 1.20 1.12 1.24 1.26 1.27 1.29 1.30
1.32
1.36 1.37
1.38
0.95
0.98 1.02
1.39 1040
lAI
34 35 36 37 38 39 40 45 50 55 60 65 70 75 80
85
1.33 1.34 1.35 1.36 1.37 1.38 1.39 1040 1.41 1.42 1.43 1.43
l.44
90 95 100
1048 1.50 1.53 1.55 1.57 1.58 1.60 1.61 L62 1.63 1.64 1.65
1.42 1.43 1.44 1.45 L.45 1.46 1.47 1.48 1048 1.49 1.50 1.50 1.51 1.51 1.52 1.52 1.53 1.54 1.54 1.54 1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.69
1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.43 1046 1.49 1.51 1.54 1.55 1.57 1.59 1.60 1.61 1.62 1.63
1.54 1.54 1.54 1.53 1.53 1.54 1.54 1.54 1.54 1.55 1.55 1.55 1.56 1.56 1.56 1.57 l.57 1.57 1.58 1.58 1.58 1.59 1.59 1.59 1.60 1.60 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.70 1.71 1.72
0.82 0.86 0.90 0.93 0.97 1.00 1.03 l.05 1.08 1.10 1.12 1.14 1.16 1.18
1.20
1.21 1.23 1.24 1.26 1.27 1.28 1.29 1.31 1.32 1.33 1.34 1.38 1.42 1.45 1.48 1.50 1.52 1.54 1.56 1.57 1.59 1.60 1.61
1.75 1.73 1.71 1.69 1.68 1.68 1.67 1.66 1.66 1.66 1.66 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.67 1.67 1.68 1.69 1.70 1.70 1.71
1.72 1.72
1.97 1.93
1.90
1.87 1.85
1.83
1.19 1.21 1.22 1.24 1.25 1.26 1.27 1.29 1.34 1.38 1.41
1.44
1.81 1.80 1.79 1.78 1.77 1.76 1.76 1.75 1.74 1.74 1.74 1.73 1.73 1.73 1.73 1.73
1.72
0.86 0.90
0.93
1. J 5 1.16
1.18
1.02 1.99 1.96 1.94 1.92 1.90 1.89 1.88 1.86 1.85 1.84 1.83 1.83 1.82 1.81 1.81 1.80 1.80 1.80 1.79 1.79 1.79 1.78
1.77
1.46 1.49
1.51
1.77 1.77 1.77 1.77 1.77 1.77 1.77 1.78 1.78 1.78
590
A_Tables usuelles
TABLE
A.18 COEFFICIENTS POUR CALCULER L'ESPRANCE ET LA VARIANCE DE L'CART-TYPE CORRIG ET DE L1TENDUE D'UN CHANTILLON GAUSSIEN
C4
Il
d2
1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.173 3.258 3.336 3.407 3.472 V(S*)
dJ
0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.787 0.778 0.770 0.762 0.755
3
4 5 6 7 8 9 10 11 12 13 14 15
0.7979 0.8862 0.9213 0.9400 0.9515 0.9594 0.9650 0.9693 0.9727 0.9754 0.9776 0.9794 0.9810 0.9823
E(S*)
= c.,cr
= (1
c/}O'2
E(R) = dp
VeR) = (d;,O'f-
r.!}
Formulaire
TABLEAU
Esprance Loi
E(X)
Variance
V(X)
Coellicient
d'aplatissement "YJ
Binomiale OO(1l ; p)
P(X
x)
CI;~pxqrr-\
"(1
I/pq
q - p --
{,;pq
+
1 - 6pq + -----'-~
npq
0,1,2, . .. ,11
; p)
x)
C::.;_)_I q
_ (,,)-
1- q
p)1I
l
np
1 1
npC!
1 + -+ 6pq -"pq
C:'/lp-<q-"-X q
1+ p 0, 1.2, "
,,00
Pascal PU(1l ; p)
P(X x)
Il, Il
--------~----~---1
C~~II(1l1q.I-1l
Il
IIq
~
2 -
P
= 1
p-
p2 + 6q + ---
Ilq
1, ... ,0:::
P+q
Hypergomtrique
Il,p) P(X x) , IIp N - 11 Ilpq-N - 1
Ci~J C,::/-.I
c,~
q - P N - 2u --='--~Tlpq N 2
{N (N
J
1)(N + i)
2)(N - 3)
([ _
(N -
1)N(N
l)
lIpq
6~ N+ 1
3)
Poisson PJl(IIl)
P(X
x)
=:
exp(-IIl)
,,00
(~) x!
Il
III
III
+~
III
0, 1.2, " l
Uniforme
P(X x)=:Il
+
2
--
Il"l -
12
1.8--.,--
2.4
u- - 1
1,2,.,., Il
TABLEAU
B.2
Variance
V(X)
---_...... _--.
1/1
1/1
1/12
u2
3 3 + 6/1'
'Yr
X,;
~
r
Il
r
'lI!
11/(/1 - 2yll
{87;;
0
3 + 12/11
3
Student 7;,
0
11/(11
+ 6/(11
4)(2)
Bela 1 (fi, p)
+ p)
"17 (Il
- 6
p) t 1)
+ P + 1)(/1 +
/1(/1
Beta Il (II, p)
II
+
+
P - 1)
+3
P
F(1I, p)
11
(p 2p'2(fI
t)2 (p - 2)
P - 2)
- 22) + 3
p-2
cxp(m
n(p - 2)2(p - 4)
-----Log-normale
+~)
(exp
(}"2
+ 3 exp 2rr2 -
Weibull
f(x) "'" I3x11-1
k)
r(
~) 'iT
2
(E(x"
-_._---- 0.57722
Oumbc1
(1) si (2) si
/1
/6
1.29857
5A
/1
> 2. > 4.
594
B_Formulaire
pl, X -
Il
p),
>
2111)
P( F > - - - X + Il P
Il-X
Xir.
p
11
X
1- X
-
= F(2n ~ 2p)
pX
Il
= F(21l ; 2p)
Les formules qui suivent permettent de calculer exactement ou approximativement avec une grande prcision P(X < x) ou P(X > x). Leur intrt est d'tre facilement programmables mme sur une calculatrice de poche et d'viter le recours des tables.
C.I
positif PC U <
LI)
avec:
1 + O.2316419u '
hl
= 0.319381530 ~
bl = -0.356563782;
b] = L781477937;
b4
-
1.821255978 ;
b'j
1.330274429.
596
C.2 C.2.1
C.2. 1. 1
lOI DU X~
Formules exactes
11
pair:
peX;: > x) =
en particulier on a peXi
.,
\'/2-1
exp
-ry- -.-,
-
_\-)
(x)'
~ ;-
i;(j
1.
., <
x)
1 - exp
(-'2 . x)
C.2.1.2
v impair:
peX~ >
x)
-)
")
(1)1
FI
en particulier on a PCXT
<
x)
1.
C.2.2
Formules approches
La meilleure est celle de Wilson-Hilferty qui donne P avec deux dcimales exactes ds que Il ~ 3 :
1))
[ ")
~]J -=9\'
ll)
= p.
C.l
597
Il::. ;:::
4 el pour tout
VI'
2 dcimales exactes.
+ 0.08
,\~;).
C.4
C.4. 1
C.4.1.1
=1
1
'li(l
t-)
") d'o:
peT < t)
rciproquement si on connat Cl tel que:
=- +-
1 2
Arc tg t
t g(
'li
p(Ir,1 < tl on a : 1 :
~ ex).
CA.I.2
En posant
Il
e=
Arc tg _r on a :
'111
impair:
p
(T" 1 < 1
t) = -
'li
2 { e + sin .
Tl
pair:
P (T" 1
<
t)
1.3.5 .. .(n - 3)
2.4.6 .. .(n - 2)
.,} cos/J-- e
en particulier on en dduit:
PCll1l <
t) = - -
et
P (IT 1
4
<
t)
61
(4
+ (3 + /1)3/1 .
C.4.2
Formule approche
F(l ; n)
(ITI
>
1)
les fonctions
eulriennes
et B
D.I
LA FONCTION f'
f(x) =
lXexp( -t)tX-1dt
()
1) =
r
1
r(x
1) = x1'(x)
exp( -1)1-' dl =
r
1
d(exp( -t))t-'
= [-eXP(-llI X ] :
+ xI.:eXP(-lll x - t dt
.:.c.
f(1) = J""'eXp(-t)df = 1
()
1)
nf(Jl) = n(n -
1)f(n - 2)
1)
n!f(l) = n!
f(n
= n!
La fonction f gnralise la notion de factorielle aux nombres rels positifs (fig. D.l) : Lorsque x
~
0, f(x)
00.
En effet, supposons f(x) ~ m tin, d'aprs f(x + 1) x ~ 0 f( 1) = 0 ce qui est absurde, donc f(x) ~ 00.
600
r et B
r(x)
5
4
3
2
x
FIGURE
D.I
11"
exp( -Il)
z) = -.-'iT
sm TIZ
et f ( k + 1
1)
r( + D=
k
(k
~) r( k - ~) = 2k 2
r(
k -
0.2
Dfinition:
f(p) f(q)
B(p, q)
= ['(p + q)
= ----"---Cp + q 1)!
1)!
(p - l)!(q
1)!
r et B
601
donc:
Passons en polaires:
li
p cos
\' = p sin
e:
donc:
B(p, q)
=1
1
()
"1r/2
(cos
H)~l'-I(sin
ef!iJ- Ide
En particulier:
B(~ ~) J rG)L[r(~\)]:2
2'1
r(1)
donc:
H~) = {,;I
E est un espace vectoriel de dimension finie muni d'une mtrique IVI (matrice symtrique dfinie positive). La plupart des proprits suivantes seront nonces sans dmonstration.
E.I
MATRICES M-SYMTRIQUES
n'Mv,
Soit A une matrice carre 17, 11. Le produit scalaire dans E tant dfini par (n, v) l'adjointe A* de A est dfinie par: (A*u, v) (n, Av) Vu, v
On montre que A est alors diagonalisable, que ses valeurs propres sont relles et que ses vecteurs propres sont lVI-orthogonaux deux deux, ce qui gnralise les proprits des matrices symtriques. Si n"
U2 ... ,
2: UiU~ =
1
11
lVi- l .
E.2
PROJECTEURS M-ORTHOGONAUX
Py
tant donn un sous-espace W de E, P est la matrice de projection M-orthogonale sur "V si E Wet si (Py, y Py) = 0 (fig. E.l). Ce qui revient crire que Py
E
P et que P'IVI
MP.
Un projecteur M-orthogonal est une matrice idempotente et M-symtrique. Les valeurs propres de P sont alors 1 ou 0 et Trace P
= dim
W = rang P.
604
w
FIGURE
El
Si Pl + P:, + ... + Pk sont des projecteurs J'VI-orthogonaux alors PI + P 2 + ... + Pk n'est un projecteur M-orthogonal que si, et seulement si, PiPj = 0 pour i j, c'est--dire si les espaces d'arrive des Pi sont lVI-orthogonaux.
'*
M~orthogonal
Si W.l est le supplmentaire .J'VI~orthogonal de ~v dans E, alors 1 - P est le projecteur sur W.l.
xl' et soit
y Py dOt tre orthogonal tout vecteur de W ; or, tous les vecteurs de W sont de la forme Xu, en particul ier Py = Xb.
i = l, 2, ... , 12
Py)
o les
Ui
!R/I :
u~ X'l\1(y
=0
'\Ii
p, X/MX est inversible, il vient:
donc X/My
= X(X'MX)-IX'l\tI
X 5' crit:
xx'J'Vl
(x'lVIx)
car x'lVIx est un scalaire.
E.3
PSEUDO-INVERSES
Soit A une matrice rectangle appliquant un espace E dans un espace F. Une matrice A - appliquant F dans E telle que:
A-y = x
est appele pseudo-inverse de A.
el
Ax = y
'\Iy
Im(A)
605
AA-A
Il Y a en gnral une infinit de pseudo-inverses, mais il n'existe qu'un seul pseudoinverse A +, dit de Moore-Penrose, vrifiant en plus:
A+ Ak'<
A+
D=
[dl
d2
0
[IMI
il vient:
D+
1/d2
0
J J
<p
le projecteur M-orthogonal
Il est alors immdiat de trouver le pseudo-inverse de Moore-Penrose d'une matrice symtrique non rgulire en travaillant sur la matrice diagonale de ses valeurs propres.
On en dduit la forme gnrale du pseudo-inverse de Moore de toute matrice rectangle A :
A+ = (A'A)+A'
o A' A est symtrique, en particulier si A' A est inversible (le rang de A est gal au nombre de colonnes de A) A + = (A'A)-lA'. Si XI' x::' ... , xl' engendrent un espace W de dimenson sur West alors:
X(X'MX)-X'M
E.4
g(u).
dg
du
u=
606
1
PROPRIT
--- = a
du En effet:
d(a/u)
a'u =
d(a'u)
LClilli i=]
Donc:
--- -
au i
ai
PROPRIT
l
J~'
= Au + A'u
Au
LLaijlt iU)
i )
Cherchons
ceux provenant de
= Ui
et ceux provenant de
Ui
= LI!,
c'est--dire
L (lillljll,
i*!
et
.~(/]PI1.1) dont les drives sont .~a)}lj et ,~(/illIi et il faut ajouter li Il tI, chacun.
J~")
l,)
On a donc:
d(u/Au)
"il,~J'lI' ~ ]
j
"(l,') li ~ 1,
du
---=
d(u/Au) du
u+ A' u
= H'.
607
u' . ' . tient en annu 1 sa d'" ant envee qUi vaut: D emonstratlon: Un extremum de -Au S , 0 b' u'Bu
(u'Bu)(2Au) (u ' Au)(2Bu)
(u'Bu):!
Sot:
u est donc vecteur propre de n-1A associ la valeur propre donc atteint si cette valeur propre est maximale.
ibliographie
ALLlSON, P.D., i'vlissing data, Sage Publications, 200l. ANDERBERG, M.R., Cll/ster analyss for applications, Academie Press, New York, 1973. ANDERSON, T.\V., AI1 introdllctio1l ta nmltivariate statisticczl ana/j'sis, '''iley, 3 e d., New York, 2003. ARDrLLY, P., Les techniques de sondage, Editions Technip, 2006. BARDOS, M., Analyse discriminante, Dunod, 200l. BAR.NETI, V., Interpreting multivariale data, Wiley, New York, 198 t. BENJAMINI, Y., HOCHBERG, Y. Controlling the faise discovery rate: a practical and powerfuI approach to multiple testing }). Journal of tlle Royal Statistical Society, B, 57,
289-300, 1995.
BENOIST, D., TOURBR, Y., GER.MAlN-TOURBR, S., Plans d'expriences: construction et analyse, Tec et Doc Lavoisier, 1994. BENZCRI, J.-P. et al., L'analyse des donnes, tome 1 : la tax:nomie, tome II : l'analyse des correspondances, 3e d., Dunod, Paris, 1979. BENZCRI, J.-P., Histoire et prhistoire de l'allalyse des d01lnes, Dunod, Paris, 1983. BENZCRI, 1.-P., La place de l'a priori, Encyc10pedia Universals, tome 17, 11-23, Paris. BERNIER, 1., UUvIO, J., lments de dcision statistique, PUE Paris, 1973. BERTIER, P., BOUROCHE, J.-M., Analyse des donl1es TllllltidhneTlsioll11elles, PUF, Paris, 1975. BHATTACHARYYA, G.K., JOHNSON, R.A., Statistical concepts and met/wds, Wiley, New York,
1977.
BIRJs, D., DODGE, Y, Alfemutive methods of regressioll, Wiley, 1993. BOUROCHE, J.-M., Analyse des d01lnes en 111arkelillfj, Masson, Paris, 1977. BOUROCHE, J.-M., SAPORTA, G., L'analyse des dOlllIes, Collection Que sais-je, PUF, Paris, 1980. BREUvIAN, L., FRIEDMAN, J., OLSHEN, R.A., STONE, C.J. Classificatioll and regl'ession trees,
Wadsworth,1984.
BRUYNHOOGHE, M., Classification ascendante hirarchique de grands ensembles de donnes. Un algorithme rapide fond sur la construction de voisinages rductibles ). Calliers de l'Analyse des DOlInes 3, 1, 1978. BURGES, C.J.C. A Tutorial on Support Vector Machines for Pattern Recognition . Knowledge Discovery and Data Mini1lg, 2(2), 1998.
610
_ Bibliographie
CAILLIEZ, E The analytical solution of the additive constant problem . Ps)'chometrika, 48, 305-310, 1983. CAILLIEZ, E, J.-P., ln/roduction il l'analyse des donnes, Smash, Pars, 1976. CAPERAA, P., VAN 8., Mthodes et modles ell statistique non paramtrique, Dunod, Paris, 1988. CARROLL, J.D., Generalisation of canonical ana1ysis to three or more sets of variables ~), Proe. Amer. Psy. Assist., 227-228, 1968. CAZES, P. Quelques mthodes d'analyse factorielle d'une srie de tableaux de donnes. ~) La Revue MODULAD, 31, 1-31,2004. CHATIERJEE, S., PRICE, B., Regression llnalysis by example, Wiley, New York, 1977. CIBOIS, P., L 'lina/J'se factorielle, Collection Que sais-je, PUF, Paris, 1983. CONOVER, W.1., Practicalnonparametric statistics, 2 ed., Wiley, New York, 1980. COOK, R.D., WEISBERG, S., Residullis and I~flllellCe ill regressioll, Chapman and Hall, London, 1982. DAGNEUE, P., Alla/yse statistique il plusieurs variables, Presses agronomiques de Gembloux, 1975. DAGNELIE, P. Thories et mthodes statistiques, lome I, 1973, tome IL Presses Agronomiques Gembloux, 1975. DAVISON, A.D., HINKLEY, D.V., BoolsIrap metllOds and their applications, Cambridge University Press, 1997. DE FINETI1, B., Theory ofprobabilit)', 2 tomes, Wiley, New York, 1974. DE JONG, S. PLS fits doser than PCR , Journal of Chemometrcs, 7, 551-557, 1993. DEHEUVELS, P., Probabilit, hasard et certitude, Collection Que PUF, Paris, 1982. DELECROIX, M., Histogrammes et estimation de la densit, Collection Que sais-je, PUF, Paris. 1983. DEROO, M., DUSSAIX, A.-M., Pratique et analyse des ellqutes par sondage, PUF, Paris, 1980. DEVILLE, J.-C., MALlNVAUD, E, Data analysis in official socio-economic statistics .lRSS, srie A, 146, 335-361, 1983. DEVILLE, J.-C., SAPORTA, G., Correspondence analysls with an extension towards nominal time series }), Journal of Econometries, 22, 169-189, 1983. DIDAY, E. et al., Optimisation en c/assUication automatiqlle, 2 tomes, Inria, Rocquencourt, 1979. DIDAY, E., LEMAIRE, 1., POUGET, P., TESTU, E, lments d'analyse des dOllnes, Dunod, Paris, 1983. DRAPER, N.R., SMITH, H., Applied regressioll analysis, Wiley, New York, 1966. DROESBEKE, J.1., FINE, J., SAPORTA, G. (diteurs), Plans d'expriences, applications l'eJltreprise, Editions Technip, 1997. EFRON, B., The jackknife, the bootstrap and other resampling plans, SIAM, New York, 1982. ESCOFIER, B., PAGS, J., Allalysesfactorielles simples et multiples, Dunod, L988. ESCOUFIER, Y., New results and new uses in principal components of instrumental variables , Pmc. 42 1111 Se,ssioJ11nt. Stat. 111S1., 49-152, 1979.
C
_ Bibliographie
611
FELLER. W., An introduction fo probabiliry theory and its applications, 2 voL, Wiley, New York, 1968 et 197 L FOURGEAUD, C., FUCHS, A., Statistique. Dunod, 2c d., Paris, 1972. FREUND. Y., SCHAPIRE R.E. ,( A decision-theoretic generalization of on-line learning and an application to boosting. }) Journal of Compttler and System Sciences, 55, ] 19-139, 1997. GENTLE, J. Random Humber generation and !vlonle Carlo metllods, Springer, 2003. GERI, Analyse des dOllnes volutives, Editions Technip, 1996. Gnu, N., Nlultivariate statistical 1~frel1ce, Academie Press. New York, 1977. GIITINS, R., CauO/zicalcmal)'sis, Springer-Verlag, New York, 1985. GNANADEsrKAN, R., Nlet/lOds for statistical data analysis of 11lultil'ariate obser\'atons, Wi]ey, New York, ] 977. GNEDENKO, B. et al., Mthodes mathmatiques en thore de la .fiabilit, Mir, Moscou, 1972. GOODMAN, L., KRUSKAL, W., Measures ofassociatiollfor cross-class{fications, Springer-Ver1ag, New York, 1979. GOURIROUX, C., MONFORT, A., Statistique et rnodles conorntriques, Economiea, Paris, 1989. GOWER, J., HAND, D., Biplots, Chapman & Hall, 1996. GREEN, B., AnalYZng 11Iultil'arillte data, Ho]t, Rinehart, Winston, New York, ] 978. GREENACRE, M.J., Theor)' and application of correspondence ana/J'sis, Academie Press, New York, ] 984. GUTTMAN, L., The quantification of a class of attributes. A theory and method of scale construction in the prediction of personal adjustment , 319-348 Soc. Sc. Res. Council, New York, 1941. HAHN, GJ., MEEKER, W.Q., Statistical ntel1'als, Wiley, 1991. HAND, DJ., Data mining: statisties and more? , The American Statistician, 52, l ]2-118, 1998. HAND, DJ., Discrimination and class(ftcatioll, WiIey, London, 198 L HARTlGAN, Cillstering algorithms, Wiley, New York, 1975. HASTIE, T., TmsHIRANI, R., FRIEDMAN, J., Elements ofstatisticallearning, Springer, 2001. HUBER, P., Robast statistics, Wiley, New York, 1981. JACQUARD, A., Les probabilits, Collection Que sais-je, PUE Paris, 1974. JAMBU, M., LEBEAUX, l'v1.0., Classijicatioll alltomatique pOlir l'analyse des dO/lnes, tome l : Mthodes et algorit/111Ies, tome II : Logiciels, Dunod, Paris, 1978. JAUPI, L., Contrle de /0 qualit, Dunod, 2002. JOHNSON, N.L., KOTZ, S" Distribution in statistics (4 vol.). Wiley, ] 969-1972. KARLIS, D., SAPORTA, G., SPINAKJS, A., A Simple Rule for the Selection of Principal Components , Communications in Statistics - Theory and Applications, 32, 3, 643-666,2003. KENDALL, M.G., Rank correlation met/lOds, Griftn, London, 1962. KENDALL, M.G., STUART, A.. The adl'llnced tlteory of statistics (3 voL), Griffin, London, 1966.
612
_ Bibliographie
KRUSKAL, J.B., WISH, M., Multidimensional scalillg~ Sage publications, 1978. KSHlRSAGAR, A.M., Ivlultipariate allalysis, Marcel Dekker, New York 1972. LECOUTRE, l-P., TASSI. P., Statistique non paramtriqlle et robustesse, Economica, Paris, 1987. LEHMANN, EL., Non pararnetrics, Ho1den Day, San Francisco, 1975. LETEUNE, M., Statistiqlle, la thorie et ses applications, Springer, 2005. MAC QUITTY, L.L., Similarity analysis by reciprocal pairs of discrete and continuous Data , EdIle. Psycho Meas., 26, 825-831, 1966. MALINVAUD, E., Mthodes statistiques de l'conomtrie, Dunod, Paris, 1964. MARCOTORCHINO, J.F., MTCHAUD, P., Optimisatiol1 en analyse ordinale des donnes, Masson, Paris, 1979. IvIARDlA, K.V., KENT, J.T., BIBBY, J.M., .Atlultivariate aualyss, Academic Press, London, 1979. MATALON, B., pistmologie des probabilits. bl : Logique et c01lnaissance seieHtffiqlle, Pliade. Paris. 526-553. L967. MATHERON, G., Estimer et choisir; essai sur la pratiqlle des probabilits, Centre de Morpho. Math., cole des Mines de Paris, 1978. MTIVIER, M., Notions fondamentales de la thorie des probabilits, Dunod, 2e d., Paris, 1972. MOREAU, J., DOUDlN, P.A., CAZES, P., L'analyse des correspondances et les tec/l1liques cOllnexes. Springer, 2000. NAKACHE, J.P., CONFAIS, J., Approche pragnllltique de la class(ficatioll, Editions Technip, 2005. NA KACHE, J.P., CONFAIS J., Statistique explicatil'e applique, Editions Technip, 2003. NEVEU, l, Bases mathnu.1tiques du calcul des probabilits, Masson, Paris, 1964. NTSHISATO, S., Analysis of categorical data: dllal sCliling and ifs applications, University of Toronto Press, 1980. PAPOULIS, A., Probability, randolTl variables and stoc/lllstic processes. Mc Graw HiB, New York, 1965. RAMSAY, J.O., \< Monotone regression splines in action .), Statistical Science, 3, 425-461, 1988. RAO, C.R., The use and interpretation of principal components analysis in appled research , SCl11khya, A 26, 329-358, 1964. RAo, C.R., Lzear statistical llference and its applications, WiIey, 2e ed., New York, 1973. RNYI, A., Calcul des probabilits, Dunod, Paris, 1966. ROBERT, C., The bayesm choice, Springer, 2001. ROTHSCHILD, J.E, STlGLlTZ, M., Increasing risk : 1. a definition . J. Ecol!. Theory, 2, 225-243, 1970. Roux, M., Algorithmes de classification, Masson, Paris, 1986. SAPORTA. G., Une mthode et un programme d'analyse discriminante sur variables qualitatives ;>, Premires JOlIrnes Internationales, Analyses des dOl1nes et h{(ormatiques, INRIA, Rocquencourt, 1977.
_ Bibliographie
613
SCHOLKOPFF, B., SMOLA, A., MULLER, K.R. Nonlinear Component Analysis as a Kernel Eigenvulue Problem , Neural Computation, 10, 1299-1319, 1998. SCHEFFE, H., The cmalysis of variance, Wiley, New York, 1959. SCHIFFMAN, S., REYNOLDS, M.L., YOUNG, EW., Introduction to nlllltidime1lsiorwl scaling, Academie Press, New York, ) 98l. SILVERMAN, B.W., Density estimation for statistics and data analysis, Chapman and Hall, London, ) 986. SOKAL, R.S., SNEATH, P., Princip/es ofnumerical 10Xo11(111)', Freeman, San Francisco, 1963. TAKEUCHI, K., YANAr, H., MUKHERJEE, B., The foundations of multivariate cmalysis, Wiley Eastern, New Delhi, 1982. TASSI, P., Mthodes STatistiques, Economica, Paris, 1985. TENENHAUS, M. La rgression PLS, Edtions Technp, 1998. THIRIA, S., LECHEVALLIER, Y, GASCUEL, O. (diteurs), Statistique et mthodes neuronales, Dunod, 1997. TrLL, Y, Thorie des sondages, Dunod, 2001. TOMASSONE, R., LEsQuOY, E" MILLIEZ, C., La rgressioll, Masson, Paris, 1983. TUFFRY, S., Data Mlll1g et statistique dcisonnelle, Editions Technip, 2005. TUKEY, J., Exploratory data ana/ysis, Addison-Wesley, Reading, 1977. VAPNIK, V, Statistical Learning Theor)', Wiley, 1998. VOLLE, M.; Analyse des donnes, Economica, 2e d., Paris, 1981.
B
Bardos, 462 BartIett, 106,356 Bayes, 9, 10, 13 Behnken,535 Bell, 248 Belson,253 Benjamini, 370 Benoist, 539 Benzcri, xxxii, 201,244,260 Berkson, 475 Bernoulli, 30 Bertrand, Il Bienaym-Tchebyshev, 25 Birls,404 Blackwell,298 Bochner, 57 Box, 375,472,500,535 Bravais, 126 Breiman,487 Bruynhooghe,260 Burges,504 Burman,523 Burt, 223
D
Daniels, 141 Darmois, 293, 301,414 Davison, 381 De Finetti, 12 De .long, 427 De Moivre, 62 Delecroix, 321 Deming,521 Dice,244 Diday,252 Dodge, 404 Droesbeke,475,523 Dugu,62 Durbin,398
E
Eckart-Young, 168 Erron,381 Epanechnikov, 323 Erlang,40 Escofier, 200
C
Cailliez, 183,410 Cantelli,273 Carroll, 184, 185, 198.227 Cauchy. 46, 98, 359 Cazes, 200
616
L
Lance, 258 Lawley, 473 Lehmann, 300 Leibler, 498 Lejeune, 26 Lerman, 262 Levy, 62 Lindeberg, 66 Lorenz, 116 Love,154
G
Gauss, 393,410,412 Gini, 117,484,488 Glivenko, 273, 364 Goodman, 153 Grundy, 514 Gumbel, 47,275 Guttriirii; 141,228
H
Hahn, 316 Hand, xxxii Hartley,214 Hastie, 487,494,496 Hinkley, 381 Hirschfeld,214 Hochberg ,370 Hoerl,425 Hornik,494 Horvitz, 514 Hotelling, 103, 104,348,473 Hubert, 246
M
Mac Queen, 252 Mac Quitty, 260 Mahalanobis, 89, 244, 286, 348, 447,451, 461,473 lVIalinvaud, 209 Mann, 343,484 Marcotorchino, 153,246,253 lVlarkov,28,393,410,412 Marsaglia, 375 Mc Fadden, 475 Mc Nemar, 351 Meeker,316 Mercer, 188 Mtivier, 78 Michaud, 246, 253 Minkowski,244 Montgomery, 529,530 Mller, 375
J
J accard, 244 Jambu, 258 Jaupi,285 Jensen, 23
K
Kaiser, 172, 209 Kaufmann, 367 Kendall, 138, 142,246,363 Kennard, 425 Kolmogorov, 5,273,364,366 Konig-Huyghens, 121,250
N
Nadaraya, 405 Nalmche, 243, 439, 452, 491 Neveu, 3,78 Newton, 31 Neyman, 329, 330, 336
liliiii
617
o
Ochia,244
p
Pags,410 Parzen, 323 Pascal, 38 Pearson, 43, 126,225,329,330,336 Pillai, 473 Plackett, 523 Poincar, 6, 252 Poisson, 33 Polya, 62 Pythagore, 97, 158,415
Stephan, 521 Stewart, 154 Stiglitz, 29 Stirling, 247 Stuart, 363 Student, 339
T
Tanimoto, 244 Tenenhaus, 234, 398,426 Thiria, 494 Thompson, 514 Tibshirani,487 Till, 515, 519 Torgerson, 182 Tschuprow, 150 Thcker, 427, 458 Thffry, 462, 507 Thkey, 115,320,382,383
Q
Quenouille, 382
R
Ramsay, 187 Rand, 245, 253 Rao, 244, 298,301,411 Renyi, 11,273 Robert, 319, 374 Rogers, 244 Rosenblatt, 322,457,494 Rothschild,29 Roux, 258 Russel, 244
V
Vapnik, 457, 502 Von Mises, 362,364 Von Neumann, 372
W
Wald,477 Ward, 258 Watson, 398,405 Weibull, 46,275, 359 Weisberg,421 Whitney, 343, 484 Wilcoxon,343,350,484 Wilks, 103, 105,473 Williams, 258 Wilson-Hilferty, 94 Wishart, 103,285 Wold, 87,426
S
Sado,524 Schapire, 496 Scheff, 300, 355 SchOlkopf, 187 Schwartz, 497 Shepard,244 Shewhart, 284 Silverman, 321,405 Smirnov, 342 Snedecor,106,339 Spearman, 137
y
Yates, 514
Index
A
A pm;teriOl'i, 9 Apl'ori.9 Analyse de variance, 352 Analyse factorielle discriminante, 442 Aplatissement, 27~ 123 Arbre, 488 Arc sinus, 42 Association maximale, 253 Asymtrie, 27, 123 Axes principaux, 164
Convergence, 60 Convolution, 52 Corrlation des rangs, 136 Corrlation linaire, 126 Corrlation multiple, 134, 416 Corrlation partielle, 132 Corrlation, 125 Courbe ROC, AUC, 482 Covariance, 26 Criblage, 530 Critre AIC, 498 Critre BIC, 498
B
Baggillg, 496
D
Data mining, xxxi Dendrogramme, 254 Densit, 18 Diffrence symtrique, 245 Disqual,461 Dissimilarit, 243 Distance, 243 Distance de Cook, 421 Distance de Mahalanobis, 348 Dominance stochastique, 28 Donnes manquantes, 379 Droite de Henry, 361
Barre, 112 Biais, 290 Binomiale, 31 Bote moustache. 115 Boosting, 496 Bootsrap, 496 Box-plot, 115
C
Camembert, 112 Carrs grco-latins, 540 Carrs latins, 539 CART, 491 Cartes de contrle, 284 Cercle des corrlations, 173 Coefficient de concordance de Kendall, 142 Coefficient de corrlation linaire, 71 Coefficient de Rand, 246 Coefficient de Spcarman, 137 Comparaisons multiples, 355 Composante principale, 166 Concentration, 116 Contrastes, 355
E
cart-type, 25 chantillon, 271 Effet taille , 176 Efticace, 302 Ellipse de confiance, 3 14 Ellipse de tolrance, 316 Erreur quadratique, 290 Esprance, 22 Esprance conditionnelle, 71 Esprance totale, 72
620
1ndex
Estimateur, 289, 302 Estimateur de Nadaraya-Watson, 405 Estimateur robuste, 320 Estimation baysienne, 317 tendue, 121 vnement, 4, 5, 8 Exprience alatoire, 3
Intervalle de prcision, 315 Intervalle de prvision, 40 l, 419 Intervalle de tolrance, 3 15 Intervalles de confiance, 307 Isovariance, 525
J
Jack-/mife, 382
F
F de Fisher-Snedecor, 97 Facteur prncipal~ 166 Fentre mobile, 322 Fiabilit, 7, 39, 365 Fonction caractristique, 55 Fonction d'mportance, 378 Fonction de Fisher, 449 Fonction de rpartition, 16 Fonction gnratrice, 60 Formule de reconstitution, 167~ 209 Formules de transition, 207
K
Kappa de Cohen, 154 Khi-deux, 93 K"rtosis, 27
L
Lambda (?) de Wilks, 105 Loi binomiale, 31 Lo binomiale ngative, 38 Loi de Bernoulli, 30 Loi de Cauchy, 46 Loi de Gumbel, 47 Loi de Laplace-Gauss, 43 Loi de Poisson, 33 Loi de probabilit, 16 Loi de Student, 98 Loi de Weibull, 46 Loi de Wishart, 103 Loi discrte uniforme, 30 Lo du Khi-deux, 93 Loi exponentielle, 39 Loi hypergomtrique, 36 Loi log-normale, 45 Loi multinomiale, 99 Loi normale, 43 Loi uniforme, 38 Lois bta, 41 Lois conditionnelles, 70 Lois des grands nombres, 277 Lois gamma, 40
G
Grappes, 518
H
Histogramme, 114 Homoscdasticit,387
1
Imputation, 380 Indpendance~ 8,21 Indice de Gini, 117 Indice de diversit de Gini, 488 Indice de Rand, 253 INDSCAL, 184 Ingalit de Frchet-Darmois-CramerRao, 301 Ingalit de Vapnik, 504 Inertie interclasse, 250 Inertie intraclasse, 250 Inertie, 160 Information, 295 Information de Fisher, 295
M
lVlarge, 457 Marginale, 69
... Index
621
IVIaximum de vraisemblance, 305 Mdiale, 117 Mdiane, 120 lU-estimateur, 320 Mthodes de lVIonte-Carlo, 371 Moment, 22 LVloyennc, 120 1I1ultitlimellsmal sealblg, 181 Muticolinarit, 424
Rgression, 72 Rgression ridge , 425 Rgression logistique, 475 Rgression PLS, 426 Rseaux de neurones, 493 Risque de deuxime espce, 327 Risque de premire espce, 327
S
Score, 461, 469 Similarit, 243 Skewlless, 27 Splines, 185 Statistique, 272 Statistique exhaustive, 291 Stepwise, 423 Stratification, 515 Stratification a posteriori, 521 Surapprentissage, 495 Surfaces de rponse, 532 Survie, 7 SVl\'I, 456
N
Niveau de signiJication, 336 Noyau, 114, 323 Nues dynamiques. 250
o
Odds ratio, 476
p
Perceptron, 494 Plan de sondage, 512 Plan factoriel, 526 Plans d'exprience, 523 Plans de Placltt et Burman, 528 Plans fractionnaires, 528 Press, 421 Probabilit conditionnelle, 7 Probabilit d'inclusion, 512 Processus de Poisson, 49 Profils-colonnes, 146 Profils-lignes, 146 Puissance, 331
T
T2 de Hotelling, 104 Tableau de Burt, 223 Tableau disjonctif, 220 Tableau disjonctif, xxvii Tableaux de contingence, xxvii Taux de dfaillance, 39 Taux instantan de dfaillance, 19 Test de Durbin-Watson, 398 Test de Mc Nemar, 351 Tests de normalit, 369 Thorme central-limite, 65, 92, 278 Thorme de Cochran, 97 Thorme de Gauss-LVlarkov, 410 Transformation de Mahalabonis, 89 Transforme de Fisher, 132
Q
QQ plot, 361 Quantification, 213, 228
R
Rapport de corrlation, 82, 143 Redondance, 154 Redressement, 519 Rgion critique, 326 Rgle baysienne, 467
U
Ultramtrique, 256
622
I11III
Index
v
Valeurs extrmes, 273 Valeur-test, 177 Validation croise, 501 Variable alatoire, 15 Variable supplmentaire, 176, 233 Variables canoniques, 190 Variables de Cornfield, 512 Variance, 25 Variance conditionnelle, 73
w
JJlillsorzatlm, 320