Exploration Que

Exploration Statistique
ALAIN BACCINI & PHILIPPE BESSE

Version Juin 2010
Institut de Math ematiques de Toulouse UMR CNRS C5219
Equipe de Statistique et Probabilit es
Institut National des Sciences Appliqu ees de Toulouse 31077 Toulouse cedex 4.
2
Chapitre 1
Introduction
1 Le m etier de statisticien
Le d eveloppement des moyens informatiques de stockage (bases de donn ees) et de calcul permet le
traitement et lanalyse densembles de donn ees de plus en plus volumineux. Le perfectionnement des in-
terfaces graphiques offrent aux utilisateurs, statisticiens ou non, des possibilit es de mise en uvre tr` es
simples des outils logiciels de plus en plus conviviaux. Cette evolution, ainsi que la popularisation de
nouvelles m ethodes algorithmiques (r eseaux de neurones, support vector machine...) et outils graphiques,
conduisent au d eveloppement et ` a la commercialisation de logiciels g en eraux, ou sp eciques ` a des m etiers,
qui int` egrent un sous-ensemble de m ethodes statistiques et algorithmiques plus ou moins exhaustifs.
Une question emerge alors de facon tr` es pr esente ; elle est fondamentale pour lemplois et les d ebouch es
des etudiants, la gestion des ressources humaines et les investissements economiques des entreprises ou
encore les strat egies scientiques des laboratoires de recherche.
Quelles sont les comp etences n ecessaires ` a la mise en uvre de tels logiciels pour analyser,
mod eliser, interpr eter des corpus de donn ees de plus complexes et volumineux produits par une
entreprise ou un laboratoire ?
Les enjeux sont en effet majeurs ; les r esultats inuent directement sur les prises de d ecision du mana-
gement ou la validation de r esultats scientiques et leur valorisation par des publications.
2 Terminologie
Le travail du statisticien est dabord un travail de communication avec des repr esentants dautres disci-
plines ou dautres m etiers. Ceci n ecessite beaucoup de rigueur et donc de pr ecision dans lemploi des mots
et concepts lorsquil sagit de traduire en phrases intelligibles des r esultats num eriques ou graphiques. En
effet, de ces interpr etations d ecouleront des prises de d ecision.
2.1 Statistique, statistiques, statistique
Le mot statistiques avec un s est apparu au XVIII` eme si` ecle pour d esigner des quantit es num eriques :
des tables ou etats, issus de techniques de d enombrement et d ecrivant les ressources economiques (imp ots...),
situations d emographiques (conscription...), dun pays. La Statistique est une sous-discipline des Math ematiques
qui sest d evelopp ee depuis la n du XIX` eme si` ecle notamment ` a la suite des travaux de l ecole anglaise
(K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman...). Une statistique est une quantit e d enie par rap-
port ` a un mod` ele (i.e. une statistique de test) permettant dinf erer sur son comportement dans une situation
exp erimentale donn ee.
2.2 Statistique descriptive et Statistique inf erentielle
De mani` ere approximative, il est possible de classer les m ethodes statistiques en deux groupes : celui
des m ethodes descriptives et celui des m ethodes inf erentielles.
3
4 Chapitre 1. Introduction
La Statistique descriptive n regroupe les m ethodes dont lobjectif principal est la description des
donn ees etudi ees ; cette description des donn ees se fait ` a travers leur pr esentation (la plus synth etique
possible), leur repr esentation graphique, et le calcul de r esum es num eriques. Dans cette optique, il
nest pas fait appel ` a des mod` eles probabilistes. On notera que les termes de statistique descriptive,
statistique exploratoire et analyse des donn ees sont quasiment synonymes. Cest essentiellement ` a
ces m ethodes quest consacr e ce cours.
La statistique inf erentielle. Ce terme regroupe les m ethodes dont lobjectif principal est de pr eciser
un ph enom` ene sur une population globale, ` a partir de son observation sur une partie restreinte de
cette population ; dune certaine mani` ere, il sagit donc dinduire (ou encore dinf erer) du particulier
au g en eral. Le plus souvent, ce passage ne pourra se faire que moyennant des hypoth` eses de type
probabiliste. Les termes de statistique inf erentielle, statistique math ematique, et statistique inductive
sont eux aussi quasiment synonymes.
Dun point de vue m ethodologique, on notera que la statistique descriptive pr ec` ede en g en eral la sta-
tistique inf erentielle dans une d emarche de traitement de donn ees : les deux aspects de la statistique se
compl` etent bien plus quils ne sopposent.
Population (ou population statistique) : ensemble (au sens math ematique du terme) concern e par une
etude statistique. On parle parfois de champ de l etude.
Individu (ou unit e statistique) : tout el ement de la population.
Echantillon : sousensemble de la population sur lequel sont effectivement r ealis ees les observations.
Taille de l echantillon n : cardinal du sous-ensemble correspondant.
Enqu ete (statistique) : op eration consistant ` a observer (ou mesurer, ou questionner. . . ) lensemble des
individus dun echantillon.
Recensement : enqu ete dans laquelle l echantillon observ e est la population tout enti` ere (enqu ete exhaus-
tive).
Sondage : enqu ete dans laquelle l echantillon observ e est un sousensemble strict de la population (enqu ete
non exhaustive).
Variable (statistique) :
X
_
c si qualitative
IR si quantitative
caract eristique ( age, salaire, sexe. . . ), d enie sur la population et observ ee sur l echantillon ; math ematiquement,
il sagit dune application d enie sur l echantillon. Si la variable est ` a valeurs dans IR (ou une partie
de IR, ou un ensemble de parties de IR), elle est dite quantitative ( age, salaire, taille. . . ) ; sinon elle
est dite qualitative (sexe, cat egorie socioprofessionnelle. . . ).
Donn ees (statistiques) : ensemble des individus observ es ( echantillon), des variables consid er ees, et des
observations de ces variables sur ces individus. Elles sont en g en eral pr esent ees sous forme de ta-
bleaux (individus en lignes et variables en colonnes) et stock ees dans un chier informatique. Lors-
quun tableau ne comporte que des nombres (valeurs des variables quantitatives ou codes associ es
aux variables qualitatives), il correspond ` a la notion math ematique de matrice.
3 Contenu
Un premier chapitre (statistique descriptive uni et bidimensionnelle) introduit bri` evement les techniques
permettant de r esumer les caract eristiques (tendance centrale, dispersion, bote ` a moustaches, histogramme,
estimation non param etrique) dune variable statistique ou les relations entre variables de m eme type quanti-
tatif (coefcient de corr elation, nuage de points, ou qualitatif (
2
, Cramer, Tchuprow) ou de types diff erents
(rapport de corr elation, diagrammes en botes parall` eles).
Les chaptres suivants sont consacr es aux principales m ethodes de statistique descriptive multidimen-
sionnelle.
3.1 Chronologie
Les bases th eoriques de ces m ethodes sont anciennes et sont principalement issues de psychom` etres
am ericains : Spearman (1904) et Thurstone (1931, 1947) pour lAnalyse en Facteurs, Hotteling (1935)
4. Objectifs 5
pour lAnalyse en Composantes Principales et lAnalyse Canonique, Hirschfeld (1935) et Guttman (1941,
1959) pour lAnalyse des Correspondances. Pratiquement, leur emploi ne sest g en eralis e quavec la diffu-
sion des moyens de calcul dans le courant des ann ees 60. Sous lappellation Multivariate Analysis elles
poursuivent des objectifs sensiblement diff erents ` a ceux qui apparatront en France. Un individu ou unit e
statistique ny est souvent consid er e que pour linformation quil apporte sur la connaissance des liaisons
entre variables au sein dun echantillon statistique dont la distribution est le plus souvent soumise ` a des
hypoth` eses de normalit e.
En France, lexpression Analyse des Donn ees recouvre les techniques ayant pour objectif la des-
cription statistique des grands tableaux (n lignes, o` u n varie de quelques dizaines ` a quelques milliers, p
colonnes, o` u p varie de quelques unit es ` a quelques dizaines). Ces m ethodes se caract erisent par une utilisa-
tion intensive de lordinateur, leur objectif exploratoire et une absence quasi syst ematique dhypoth` eses de
nature probabiliste au prot de la g eom etrie euclidienne. Elles insistent sur les repr esentations graphiques
en particulier de celles des individus qui sont consid er es au m eme titre que les variables.
Depuis la n des ann ees 1970, de nombreux travaux ont permis de rapprocher ou concilier les deux
points de vue en introduisant, dans des espaces multidimensionnels appropri es, les outils probabilistes et la
notion de mod` ele, usuelle en statistique inf erentielle. Les techniques se sont ainsi enrichies de notions telles
que lestimation, la convergence, la stabilit e des r esultats, le choix de crit` eres. . .
3.2 M ethodes
Les m ethodes de Statistique Multidimensionnelle concern ees sont g en eralement les suivantes :
Description et r eduction de dimension (m ethodes factorielles) :
i. Analyse en Composantes Principales (p variables quantitatives),
ii. Analyse Factorielle Discriminante (p variables quantitatives, 1 variable qualitative),
iii. Analyse Factorielle des Correspondances Binaire (2 variables qualitatives) et Multiple (p va-
riables qualitatives),
iv. Analyse Canonique (p et q variables quantitatives),
v. Multidimensional Scaling (M.D.S.) ou positionnement multidimensionnel ou analyse facto-
rielle dun tableau de distances.
vi. Analyse en Facteurs (Factor Analysis), ou analyse en facteurs communs et sp eciques.
M ethodes de classication :
i. Classication ascendante hi erarchique,
ii. Algorithmes de r eallocation dynamique,
iii. Cartes de Kohonen (r eseaus de neurones).
Les r ef erences introductives les plus utiles pour ce cours sont : Bouroche & Saporta (1980), Jobson
(1991), Droesbeke, Fichet & Tassi (1992), Everitt & Dunn (1991), Mardia, Kent & Bibby (1979), Saporta
(2006), Lebart, Morineau & Piron (1995).
4 Objectifs
Toute etude sophistiqu ee dun corpus de donn ees doit etre pr ec ed ee dune etude exploratoire ` a laide
doutils, certes rudimentaires mais robustes, en privil egiant les repr esentations graphiques. Cest la seule
facon de se familiariser avec des donn ees et surtout de d epister les sources de probl` emes :
valeurs manquantes, erron ees ou atypiques,
modalit es trop rares,
distributions anormales (dissym etrie, multimodalit e, epaisseur des queues),
incoh erences, liaisons non lin eaires.
. . .
Cest ensuite la recherche de pr e traitements des donn ees an de les rendre aux techniques plus sophis-
tiqu ees utilis ees ensuite :
transformation : logarithme, puissance, r eduction, rangs. . . des variables,
codage en classe ou recodage de classes,
imputations ou non des donn ees manquantes,
lissage, d ecompositions (ondelettes, fourier) de courbes,
Ensuite, les techniques multidimensinnelles permettent des
repr esentations graphiques synth etiques,
r eductions de dimension pour la compression ou le r esum e des donn ees,
recherches et repr esentations de typologies des observations.
4.1 Avertissements
Attention le c ot e rudimentaire voire trivial des outils de statistique descriptive uni et bidimensionnelle
ne doit pas conduire ` a les n egliger au prot dune mise en uvre imm ediate de m ethodes beaucoup plus
sophistiqu ees, donc beaucoup plus sensibles aux probl` emes cit es ci-dessus. Sils ne sont pas pris en compte,
ils r eapparatront alors comme autant dartefacts susceptibles de d enaturer voire de fausser toute tentative
de mod elisation.
Plus pr ecis ement, les m ethodes descriptives ne supposent, a priori, aucun mod` ele sous-jacent, de type
probabiliste. Ainsi, lorsquon consid` ere un ensemble de variables quantitatives sur lesquelles on souhaite
r ealiser une Analyse en Composantes Principales, il nest pas n ecessaire de supposer que ces variables sont
distribu ees selon des lois normales. N eanmoins, labsence de donn ees atypiques, la sym etrie des distribu-
tions sont des propri et es importantes des s eries observ ees pour sassurer de la qualit e et de la validit e des
r esultats.
Le d eroulement p edagogique lin eaire ne doit pas faire perdre de vue que la r ealit e dune analyse est plus
complexe et n ecessite diff erentes etapes en boucle an, par exemple, de contr oler linuence possible des
choix parfois tr` es subjectifs op er es dans les etapes de normalisation ou transformation des donn ees pour
eventuellement les remettre en cause.
Lobjectif principal est donc de faciliter la mise en uvre, la compr ehension et linterpr etation des
r esultats des techniques d ecrites pour en faciliter une utilisation pertinente et r e echie ` a laide dun logiciel
(SAS ou R) largement r epandus. Ce cours ne peut se concevoir sans une mise en uvre pratique au cours
de s eances de travaux dirig es sur machine.
5 Quel logiciel ?
Deux logiciels sont privil egi es : lun commercial (SAS) car le plus r epandu et le plus demand e dans
les offres demplois ; lautre (R) en distribution libre (licence GNU) comme outil de d eveloppement des
derni` eres avanc ees m ethodologiques du monde universitaire.
Mis ` a part le module SAS/IML de langage matriciel tr` es peu utilis e, SAS est un logiciel de type bote
noire superposant des couches basses, pour lesquelles lutilisateur ecrit des lignes de code dans une syn-
taxe complexe, et des interfaces graphiques conviviales (SAS/INSIGHT, SAS User Guide, Sas Enterprise
Miner). Sa diffusion est telle quil apparat en situation de quasi monopole dans certaines branches dac-
tiuvit e comme lindustrie pharmaceutique. Paradoxalement, sa complexit e et son co ut sont des atouts pour
lemploi de statisticiens indispensables ` a sa bonne utilisation et donc ` a sa rentabilisation. Son apprentissage
est incontournable.
A loppos e et ` a lexception des traitements les plus rudimentaires pilot ees par menu, R est avant tout
un langage de programmation pour la manipulation des objets du statisticien : vecteurs matrices, bases de
donn ees, liste de r esultats, graphiques. Dun point de vue p edagogique, sa mise en uvre oblige ` a lindis-
pensable compr ehension des m ethodes et de leurs limites. Il fait bien admettre quil ne suft pas dobtenir
des r esultats, il faut leur donner du sens. Rien ne nous semble en effet plus dangereux que des r esultats ou
des graphiques obtenus ` a laide de quelques clics de mulot dont ni les techniques, ni les options, ni leurs
limites ne sont clairement explicit ees ou contr ol ees par lutilisateur. Il est par ailleurs risqu e de se laisser
enfermer par les seules m ethodes et options offertes par un logiciel. En pratique, le r eagencement ou la
r eorganisation de quelques commandes R offrent une combinatoire tr` es ouvertes de possibilit es contraire-
ment ` a un syst` eme clos de menus pr ed enis. Il offre par ailleurs, gr ace ` a de nombreuses botes ` a outils
librement accessibles et continuellement mises ` a jour, un ensemble exhaustif des techniques et de leurs op-
6. Domaines dapplication 7
tions ainsi que des interfaces ` a des gestionnaires de bases de donn ees ou des outils sp eciques ` a certaines
disciplines (Biologie).
En r esum e, il est bien et utile de savoir utiliser ces deux types de logiciels et il est important de
comprendre que lapprentissage syntaxique dun logiciel est indispensable mais secondaire. Une fois les
m ethodes comprises et appr ehend ees, il est techniquement facile de passer dun logiciel ` a lautre, leurs
fonctionnalit es etant structurellement les m emes. La difcult e principale ne r eside pas dans lobtention de
sorties ou r esultats mais dans leur compr ehension.
6 Domaines dapplication
Toutes les m ethodes et techniques introduites ci-dessus n ecessitent d etre illustr ees sur des exemples
simples ou acad emiques, pour ne pas dire simplistes, an den comprendre les fondements. N eanmoins,
leur apprentissage effectif requiert leur utilisation effective sur des jeux de donn ees en vraie grandeur issus
de diff erents domaines dapplications. Ce nest qu` a cette condition que peuvent etre appr ehend ees les
difcult es de mise en uvre, les limites, les strat egies dinterpr etation mais aussi la grande efcacit e de ces
outils.
Diff erents jeux de donn ees issus de programmes de recherche ou contrats r ecents viendront illustrer ce
cours.
6.1 Sciences de le Vie
Biostatistique
Depuis les travaux pionniers de Sir Ronald Fisher, les disciplines des Sciences de la Vie ont toujours
motiv e les d eveloppements de la Statistique : mod` eles de dur ee de vie, mod` eles epid emiologiques, dyna-
mique de population... Apr` es le s equencage et avec la mise en place de technologies dinstrumentation ` a
haut d ebit : biopuces (microarray) pour lexpression des g` enes, electrophor` ese pour la quantication des
prot eines... la biologie mol eculaire vient renforcer lourdement cette tendance en posant des d es redou-
tables au statisticien : que faire lorsque les transcriptions (quantit es dARN messagers) de milliers de g` enes
(les variables statistiques) sont simultan ement observ es pour seulement quelques dizaines d echantillons
biologiques ?
Donn ees
Le jeu de donn ees utilis e provient de lUnit e de Pharmacologie-Toxicologie de lINRA de Toulouse. Il
concerne 40 souris r eparties en 2 g enotypes (sauvages et g en etiquement modi ees : PPAR d ecientes) et 5
r egimes alimentaires (dha, efad, lin, ref, tsol). Le plan est equilibr e complet : quatre souris par combinaison
des deux facteurs.
dha r egime enrichi en acides gras de la famille Om ega 3 et particuli` erement en acide docosahexa enoque
(DHA), ` a base dhuile de poisson ;
efad (Essential Fatty Acid Decient) : r egime constitu e uniquement dacides gras satur es, ` a base dhuile
de coco hydrog en ee ;
lin r egime riche en Om ega 3, ` a base dhuile de lin ;
ref r egime dont lapport en Om ega 6 et en Om ega 3 est adapt e des Apports Nutritionnels Conseill es pour
la population francaise, sept fois plus dOm ega 6 que dOm ega 3 ;
tsol riche en Om ega 6, ` a base dhuile de tournesol.
Les expressions des g` enes ainsi que des concentrations de 21 acides gras sont mesur ees au niveau du foie
apr` es euthanasie. Il servira de l rouge tout au long de ce cours pour illustrer les diff erentes m ethodes. La
gure : 1.1 est un exemple original demploi de lanalyse canonique. Cette m ethode permet de mettre en
relation deux paquets de variables (g` enes et concentrations dacides gras) observ ees sur les m emes individus
(souris).
6.2 Marketing
1.0 0.5 0.0 0.5 1.0
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
Dimension 1
D
i
m
e
n
s
i
o
n

2
C14.0
C16.0
C18.0
C16.1n.9
C16.1n.7
C18.1n.9
C18.1n.7
C20.1n.9
C20.3n.9
C18.2n.6
C18.3n.6
C20.2n.6
C20.3n.6
C20.4n.6
C22.4n.6
C22.5n.6
C18.3n.3
C20.3n.3
C20.5n.3
C22.5n.3
C22.6n.3
X36b4
ACAT1
ACAT2 ACBP
ACC1
ACC2
ACOTH
ADISP
ADSS1
ALDH3
AM2R
AOX
BACT
BIEN
BSEP
Bcl.3
C16SR
CACP
CAR1
CBS
CIDEA
COX1
COX2
CPT2
CYP24
CYP26
CYP27a1
CYP27b1 CYP2b10
CYP2b13
CYP2c29
CYP3A11
CYP4A10
CYP4A14
CYP7a
CYP8b1
FAS
FAT
FDFT
FXR
G6PDH
G6Pase
GK
GS
GSTa
GSTmu
GSTpi2
HMGCoAred
HPNCL
IL.2
L.FABP
LCE
LDLr
LPK
LPL
LXRa
LXRb
Lpin
Lpin1
Lpin2
Lpin3
M.CPT1
MCAD
MDR1
MDR2
MRP6
MS
MTHFR
NGFiB
NURR1
Ntcp
OCTN2
PAL
PDK4
PECI
PLTP
PMDCI
PON
PPARa
PPARd
PPARg PXR
Pex11a
RARa RARb2
RXRa
RXRb2
RXRg1
S14
SHP1
SIAT4c
SPI1.1
SR.BI
THB
THIOL
TRa
TRb
Tpalpha
Tpbeta
UCP2
UCP3
VDR
VLDLr
Waf1
ap2
apoA.I
apoB
apoC3
apoE
c.fos
cHMGCoAS
cMOAT
eif2g
hABC1
i.BABP
i.BAT
i.FABP
i.NOS
mABC1
mHMGCoAS
0.4 0.3 0.2 0.1 0.0 0.1 0.2
0
.
2
0
.
1
0
.
0
0
.
1
0
.
2
Dimension 1
D
i
m
e
n
s
i
o
n

2
lin
tsol
tsol
dha
ref
efad
lin
lin
dha
efad
dha
ref
tsol
ref
tsol
lin
efad
dha
efad
ref
efad
ref
tsol
dha
tsol
ref
ref
lin
dha
lin
efad
efad
ref
tsol
dha
efad
lin
dha
lin
tsol
WT
PPAR
FIGURE 1.1 Souris : premier plan des facteurs canoniques avec ` a gauche la repr esentation conjointe des
relations g` enes et acides gras et ` a droite les souris selon le g enotype et le r egime suivi.
Data mining
La prospection ou fouille de donn ees est une appellation issue des services marketing sp ecialis es dans
la gestion de la relation client (GRC) (client relation management ou CRM). Elle d esigne un ensemble de
techniques statistiques souvent regroup ees dans un logiciel sp ecialement concu ` a cet effet et vendu avec un
slogan racoleur (SAS Enterprise Miner) :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Les entreprises commerciales du tertiaire (banques, assurances, t el ephonie, marketing directe, publipostage,
ventes par correspondance...) sont en effet tr` es motiv ees pour tirer parti et amortir, par une aide ` a la d ecision
quanti ee, les co uts de stockage des teras octets que leur service informatique semploie ` a administrer.
Le contexte informationnel de la fouille de donn ees est celui des data wharehouses. Un entrep ot de
donn ees, dont la mise en place est assur e par un gestionnaire de donn ees (data manager) est un ensemble
de bases relationnelles extraites des donn ees brutes de lentreprise et relatives ` a une probl ematique :
gestion des stocks (ux tendu), des ventes dun groupe an de pr evoir et anticiper au mieux les
tendances du march e,
suivi des chiers clients dune banque, dune assurance, associ es ` a des donn ees socio- economiques
(INSEE), ` a lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des
op erations de marketing ou des attributions de cr edit. La gestion de la relation client vise ` a une in-
dividualisation ou personnalisation de la production et de la communication an d evacuer la notion
de client moyen.
recherche, sp ecication puis ciblage de niches de march e les plus protables (banque) ou au contraire
les plus risqu ees (assurance) ;
prospection textuelle (text mining) et veille technologique ;
web mining et comportement des internautes ;
. . .
Cet environnement se caract erise par
Des volumes et ux consid erables de donn ees issues de saisies automatis ees et chiffr es en t era-octets.
Une d emarche diff erente ` a celle de la statistique traditionnelle qui int` egre lobservation des donn ees
(planication de lexp erience) ; les donn ees analys ees sont stock ees ` a dautres ns (comptabilit e,
contr ole de qualit e...) et sont donc pr ealables ` a lanalyse.
La n ecessit e de ne pas exclure a priori un traitement exhaustif des donn ees an de ne pas lais-
6. Domaines dapplication 9
FIGURE 1.2 Banque : repr esentation des classes, w1 ` a 5, dans le premier plan factoriel de lanalyse des
correspondances multiples
ser echapper, ` a travers le crible dun sondage, des groupes de faibles effectifs mais ` a fort impact
economique.
Un point ` a ne pas n egliger : la Gestion de la Relation Client et les applications quelle suscite en Statistique
est une source demplois, une niche de march e tr` es importante pour les etudiants depuis plus de dix ans et
la tendance reste tr` es bien orient ee.
Donn ees
Chaque banque, assurance... dispose dun chier client qui, pour des raisons comptables, enregistre
tous leurs mouvements et comportements. Les donn ees anonymes en provenance de la Banque Populaire
d ecrivent donc tous les soldes et produits nanciers (emprunt, contrats dassurance vie...) d etenus par les
clients ainsi que lhistorique mensuel des mouvements, nombre dop erations, de jours ` a d ecouvert... La base
initiale etudi ee comprend 1425 clients d ecrits par 32 variables d ecrites dans le chapitre 2.
Le graphique repr esent e est un grand classique du marketing bancaire ; Lobjectif est de construire
des classes ou segments de clients homog` enes quant ` a leur comportement bancaire. Une fois les classes
construites et lensemble des clients affect es, lagent commercial sait quel langage adopter, quels produits
propos es, au client quil a en face de lui. Apr` es une analyse des correspondances multiples (chapitre 6), les
clients caract eris es par leur nouvelles coordonn ees sont regroup es en classes (chapitre 8) dont lexplicitation
est facilit ee par la repr esentation des modalit es de ces classes dans le plan factoriel dune analyse des
correspondances multiples (gure 1.2).
6.3 Industrie
Pour des raisons culturelles et historiques trop longues ` a d evelopper (culture d eterministe des

Ecoles
ding enieurs...), la Statistique a une place tr` es mineures dans lindustrie francaise sauf en cas dobligation
l egale : essais cliniques pour lautorisation de mise sur le march e des m edicaments, contr ole de qualit e et
abilit e des mat eriaux pour la conformit e aux normes ISO... La Statistique est ainsi plus v ecue comme
une contrainte, un contr ole, que comme une aide ` a la d ecision. Dautre part, les exemples d evelopp es dans
le cadre de th` eses sont, outre les questions de condentialit e, souvent trop complexes ` a expliciter pour
sadapter ` a la simple illustration de ce cours. N eanmoins, il faut etre conscient que chacune des techniques
abord ees, en particulier de biostatistique, se transposent directement : dur ee de vie et abilit e des mat eriaux,
fouille de donn ees, tracabilit e et d etection de d efaillances... dans des contextes techniquement complexes en
terme de mod elisation physique mais plus favorable sur le plan statistique : beaucoup plus dobservations
que dans le domaine de la sant e.
Les entreprises industrielles etant confront ees ` a la m eme situation que celles du tertiaire : afux et
stockage massif de donn ees, la situation et donc les m etiers de la Statistique evoluent favorablement dans
ce domaine.
7 Quelles comp etences ?
Le message ` a retenir, et faire passer, est quune analyse statistique ou une fouille de donn ees n ecessite
des comp etences vari ees :
th eorique, pour la connaissance des limites des m ethodes utilis ees la compr ehension et linterpr etation
de leurs sorties,
pratique quant aux modalit es de leur mise en uvre,
et aussi une bonne exp erience du domaine dapplication.
Un argument tendancieux est souvent avanc e : il nest pas besoin d etre m ecanicien pour conduire une
voiture. Cest vrai, il nest pas n ecessaire d etre informaticien pour utiliser un ordinateur. En revanche, toute
etude statistique n ecessite des choix fondamentaux : transformation des donn ees, s election de variables,
choix de m ethodes, valeurs des options et param` etres de ces m ethodes... quil nest pas prudent de laisser
faire par d efaut au logiciel. Ces choix ne sont pas anodins et autrement plus difciles ` a d eterminer que le
choix du carburant dans une voiture. Ils doivent etre conduits en connaissance de cause par opposition ` a une
strat egie de Shadok (cf. devise 1.3) qui est un mode dapprentissage de type jeux vid eos utile, mais pas
en toute circonstance car il ne suft pas dobtenir un r esultat pour quil soit pertinent ou m eme simplement
juste.
7. Quelles comp etences ? 11
FIGURE 1.3 Shadok : devise num ero 1
Chapitre 2
Description statistique el ementaire
1 Exemple de donn ees marketing
Un m eme ensemble de donn ees bancaires
1
va servir ` a illustrer la plupart des outils et m ethodes d ecrits
dans ce document. En voici le descriptif sommaire.
Le service marketing dune banque dispose de chiers d ecrivant ses clients et leurs comportements
(mouvements, soldes des diff erents comptes). Deux types d etudes sont habituellement r ealis ees sur des
donn ees bancaires ou m eme plus g en eralement dans le tertiaire an de personnaliser les relations avec les
clients.
i. une classication ou segmentation de la client` ele permettant de d eterminer quelques classes ou seg-
ments de comportements types.
ii. lestimation dun score en vue dun objectif particulier. Il sagit ici de pr evoir lint er et ou lapp etence
dun client pour le produit bancaire carte Visa Premier. Cest une carte de paiement haut de gamme
qui cherche ` a renforcer le lien de proximit e avec la banque en vue de d eliser une client` ele ais ee. Cet
objectif est abord e dans le module sp ecique dapprentissage statistique.
La liste des variables est issue dune base de donn ees retracant lhistorique mensuel bancaire et les
caract eristiques de tous les clients. Un sondage a et e r ealis e an dall eger les traitements ainsi quune
premi` ere s election de variables. Les 32 variables contenues dans le chier sont explicit ees dans le tableau
2.1. Elles sont observ ees sur un echantillon de 1425 clients.
2 Introduction
lobjectif des outils de Statistique descriptive el ementaire est de fournir des r esum es synth etique de
s eries de valeurs, adapt es ` a leur type (qualitatives ou quantitatives), et observ ees sur une population ou un
echantillon.
Dans le cas dune seule variable, Les notions les plus classiques sont celles de m ediane, quantile,
moyenne, fr equence, variance, ecart-type d enies parall` element ` a des repr esentations graphiques : dia-
gramme en b aton, histogramme, diagramme-bote, graphiques cumulatifs, diagrammes en colonnes, en
barre ou en secteurs.
Dans le cas de deux variables, on sint eresse ` a la corr elation, au rapport de corr elation ou encore ` a
la statistique dun test du
2
associ e ` a une table de contingence. Ces notions sont associ ees ` a diff erents
graphiques comme le nuage de points (scatterplot), les diagrammes-botes parall` eles, les diagrammes de
prols ou encore en mosaque.
Les d enitions de ces diff erentes notions se trouvent dans nimporte quel ouvrage el ementaire de Statis-
tique
2
, nous nous proposons simplement de rappeler dans ce chapitre certains outils moins classiques mais
efcaces et pr esents dans la plupart des logiciels statistiques. Cela nous permettra egalement dillustrer les
1. Merci ` a Sophie Sarpy de Informatique Banque Populaire ` a Balma pour la mise ` a disposition de ces donn ees.
2. Un support de cours accessible ` a la page www-sv.cict.fr/lsp/Besse.
13
14 Chapitre 2. Description statistique el ementaire
TABLE 2.1 Libell es des variables des donn ees bancaires.
Identif. Libell e
sexec Sexe (qualitatif)
ager Age en ann ees
famil Situation familiale
(Fmar : mari e, Fcel : c elibataire, Fdiv :divorc e,
Fuli :union libre, Fsep : s epar e de corps, Fveu :veuf)
relat Anciennet e de relation en mois
prcsp Cat egorie socio-professionnelle (code num)
opgnb Nombre dop erations par guichet dans le mois
moyrv Moyenne des mouvements nets cr editeurs
des 3 mois en Kf
tavep Total des avoirs epargne mon etaire en francs
endet Taux dendettement
gaget Total des engagements en francs
gagec Total des engagements court terme en francs
gagem Total des engagements moyen terme en francs
kvunb Nombre de comptes ` a vue
qsmoy Moyenne des soldes moyens sur 3 mois
qcred Moyenne des mouvements cr editeurs en Kf
dmvtp Age du dernier mouvement (en jours)
boppn Nombre dop erations ` a M-1
facan Montant factur e dans lann ee en francs
lgagt Engagement long terme
vienb Nombre de produits contrats vie
viemt Montant des produits contrats vie en francs
uemnb Nombre de produits epargne mon etaire
xlgnb Nombre de produits d epargne logement
xlgmt Montant des produits d epargne logement en francs
ylvnb Nombre de comptes sur livret
ylvmt Montant des comptes sur livret en francs
rocnb Nombre de paiements par carte bancaire ` a M-1
jntca Nombre total de cartes
nptag Nombre de cartes point argent
itavc Total des avoirs sur tous les comptes
havef Total des avoirs epargne nanci` ere en francs
dnbjd Nombre de jours ` a d ebit ` a M
carvp Possession de la carte VISA Premier
3. Decription dune variable 15
FIGURE 2.1 Banque : Diagramme-bote illustrant la distribution des ages des clients.
FIGURE 2.2 Banque : Diagramme-bote illustrant la distribution de la variable cumulant les totaux des
avoirs. Celle-ci apparat comme tr` es dissym etrique et avec de nombreuses valeurs atypiques. Une transfor-
mation simpose.
premi` eres etapes exploratoires ` a r ealiser sur un jeu de donn ees.
3 Decription dune variable
3.1 Cas quantitatif
Une variable quantitative prend des valeurs enti` eres ou r eelles, elle est dite alors discr` ete ou continue.
Cette propri et e ayant des incidences sur la nature de sa distribution et donc sur les graphiques associ es.
Nous nous int eresserons surtout aux variables continues.
La distribution dun variable statistique quantitative est r esum ee par diff erents indicateurs empiriques
de tendance centrale (moyenne x =
n
i=1
w
i
x
i
, m ediane) ou de dispersion ( ecart-type , intervalle inter-
quartiles). Dautres indicateurs sint eressent ` a la dissym etrie (skeeness, associ ee au moment dordre 3) ou
encore ` a lapplatissement (kurtosis ` a partir du moment dordre 4)
Deux graphiques permettent de rendre compte pr ecis ement de la nature de la distribution. La statistique
de Kolmogorov est la plus couramment utilis ee pour tester lad equation ` a une loi (normale).
Diagramme-bote (box-and-whiskers plot)
Il sagit dun graphique tr` es simple qui r esume la s erie ` a partir de ses valeurs extr emes, de ses quartiles
et de sa m ediane.
Histogramme
Dans le cas dun echantillon, on cherche ` a approcher par une estimation empirique le graphe de la
densit e de la loi th eorique associ ee ` a la population. Lhistogramme en est un exemple. Une fois d etermin ee
un d ecoupage en classes de lensemble des valeurs et les fr equences f
doccurences de ces classes, un

histogramme est la juxtaposition de rectangles dont les bases sont les amplitudes des classes consid er ees
(a
= b
b
1
) et dont les hauteurs sont les quantit es
f
b
1
, appel ees densit es de fr equence. Laire
du -` eme rectangle vaut donc f
, fr equence de la classe correspondante.

Estimation fonctionnelle
La qualit e de lestimation dune distribution par un histogramme d epend beaucoup du d ecoupage en
classe. Malheureusement, plut ot que de fournir des classes deffectifs egaux et donc de mieux r epartir
limpr ecision, les logiciels utilisent des classes damplitudes egales et tracent donc des histogrammes par-
fois peu repr esentatifs. Ces 20 derni` eres ann ees, ` a la suite du d eveloppement des moyens de calcul, sont
apparues des m ethodes destimation dites fonctionnelles ou non-param etriques qui proposent destimer la
distribution dune variable ou la relation entre deux variables par une fonction construite point par point
(noyaux) ou dans une base de fonctions splines. Ces estimations sont simples ` a calculer (pour lordinateur)
mais n ecessitent le choix dun param` etre dit de lissage. Les d emonstrations du caract` ere optimal de ces
estimations fonctionnelles, li ee ` a loptimalit e du choix de la valeur du param` etre de lissage, font appel ` a des
outils th eoriques plus sophistiqu ees sortant du cadre de ce cours (Eubank, 1988, Silverman, 1986).
Lestimation de la densit e par la m ethode du noyau se met sous la forme g en erale :
g
(x) =
1
n
n
i=1
K
_
x x
i
_
o` u est le param` etre de lissage optimis ee par une proc edure automatique qui minimise une approximation
de lerreur quadratique moyenne int egr ee (norme de lespace L
2
) ; K est une fonction sym etrique, positive,
concave, appel ee noyau dont la forme pr ecise importe peu. Cest souvent la fonction densit e de la loi
gaussienne :
K(t) =
1
2
exp(t
2
/2)
qui poss` ede de bonnes propri et es de r egularit e. Le principe consiste simplement ` a associer ` a chaque obser-
vation un el ement de densit e de la forme du noyau K et ` a sommer tous ces el ements. Un histogramme
est une version particuli` ere destimation dans laquelle l el ement de densit e est un petit rectangle dans
la classe de lobservation.
3.2 Cas qualitatif
Par d enition, les observations dune variable qualitative ne sont pas des valeurs num eriques, mais des
caract eristiques, appel ees modalit es. Lorsque ces modalit es sont naturellement ordonn ees (par exemple, la
mention au bac ou une classe d age), la variable est dite ordinale. Dans le cas contraire (par exemple, la
profession dans une population de personnes actives ou la situation familiale) la variable est dite nominale.
Les repr esentations graphiques que lon rencontre avec les variables qualitatives sont assez nombreuses.
Les trois plus courantes, qui sont aussi les plus appropri ees, sont les diagrammes en colonnes, en barre, en
secteurs. Tous visent ` a repr esenter la r epartition en effectif ou fr equences des individus dans les diff erentes
classes ou modalit es.
4 Liaison entre variables
Dans cette section, on sint eresse ` a l etude simultan ee de deux variables X et Y . Lobjectif essentiel des
m ethodes pr esent ees est de mettre en evidence une eventuelle variation simultan ee des deux variables, que
nous appellerons alors liaison. Dans certains cas, cette liaison peut etre consid er ee a priori comme causale,
une variable X expliquant lautre Y ; dans dautres, ce nest pas le cas, et les deux variables jouent des r oles
sym etriques. Dans la pratique, il conviendra de bien diff erencier les deux situations et une liaison nentrane
4. Liaison entre variables 17
FIGURE 2.3 Banque : Histogramme et estimation fonctionnelle par la m ethode du noyau de la distribution
des ages.
FIGURE 2.4 Banque : Diagramme en barres et diagramme en colonne de la r epartition des situations
familiales. Certaines modalit es trop rares et regroup ees automatiquement dans la classe other devront etre
recod ees.
FIGURE 2.5 Banque : Nuage de points illustrant labsence de liaison entre la variable age et celle cumu-
lant le total des epargnes mon etaires (corr elation de 0,17).
pas n ecessairement une causalit e. Sont ainsi introduites les notions de covariance, coefcient de corr elation
lin eaire, r egression lin eaire, rapport de corr elation, indice de concentration, khi-deux et autres indicateurs
qui lui sont li es. De m eme, nous pr esentons les graphiques illustrant les liaisons entre variables : nuage
de points (scatter-plot), diagrammes-otes parall` eles, diagramme de prols, tableau de nuages (scatter-plot
matrix).
4.1 Deux variables quantitatives
Nuage de points
Il sagit dun graphique tr` es commode pour repr esenter les observations simultan ees de deux variables
quantitatives. Il consiste ` a consid erer deux axes perpendiculaires, laxe horizontal repr esentant la variable
X et laxe vertical la variable Y , puis ` a repr esenter chaque individu observ e par les coordonn ees des valeurs
observ ees. Lensemble de ces points donne en g en eral une id ee assez bonne de la variation conjointe des
deux variables et est appel e nuage. On notera quon rencontre parfois la terminologie de diagramme de
dispersion, traduction plus d` ele de langlais scatter-plot.
Le choix des echelles ` a retenir pour r ealiser un nuage de points peut sav erer d elicat. Dune facon
g en erale, on distinguera le cas de variables homog` enes (repr esentant la m eme grandeur et exprim ees dans
la m eme unit e) de celui des variables h et erog` enes. Dans le premier cas, on choisira la m eme echelle sur
les deux axes (qui seront donc orthonorm es) ; dans le second cas, il est recommand e soit de repr esenter
les variables centr ees et r eduites sur des axes orthonorm es, soit de choisir des echelles telles que ce soit
sensiblement ces variables l` a que lon repr esente (cest en g en eral cette seconde solution quutilisent, de
facon automatique, les logiciels statistiques).
Indice de liaison
le coefcient de corr elation lin eaire est un indice rendant compte num eriquement de la mani` ere dont
les deux variables consid er ees varient simultan ement. Il est d eni ` a partir de la covariance qui g en eralise ` a
deux variables la notion de variance :
cov(X, Y ) =
n
i=1
w
i
[x
i
x][y
i
y]
= [
n
i=1
w
i
x
i
y
i
] x y.
La covariance est une forme bilin eaire sym etrique qui peut prendre toute valeur r eelle et dont la variance
est la forme quadratique associ ee. Elle d epend des unit es de mesure dans lesquelles sont exprim ees les
variables consid er ees ; en ce sens, ce nest pas un indice de liaison intrins` eque. Cest la raison pour
laquelle on d enit le coefcient de corr elation lin eaire (parfois appel e coefcient de Pearson ou de Bravais-
Pearson), rapport entre la covariance et le produit des ecarts-types :
corr(X, Y ) =
cov(X, Y )
Y
.
Le coefcient de corr elation est egal ` a la covariance des variables centr ees et r eduites respectivement
associ ees ` a X et Y : corr(X, Y ) = cov(
Xx
X
,
Y y
Y
). Par cons equent, corr(X, Y ) est ind ependant des unit es
de mesure de X et de Y . Le coefcient de corr elation est sym etrique et prend ses valeurs entre -1 et +1.
Notons pour m emoire la possibilit e dutiliser dautres indicateurs de liaison entre variables quantita-
tives. Construits sur les rangs (corr elation de Spearman) ils sont plus robustes faces ` a des situations de non
lin earit e ou des valeurs atypiques mais restent tr` es r educteurs.
4.2 Une variable quantitative et une qualitative
Notations
Soit X la variable qualitative consid er ee, suppos ee ` a r modalit es not ees
x
1
, . . . , x
, . . . , x
r
et soit Y la variable quantitative de moyenne y et de variance
2
Y
. D esignant par l echantillon consid er e,
chaque modalit e x
de X d enit une sous-population (un sous-ensemble)
de : cest lensemble des

individus, suppos es pour simplier de poids w
i
= 1/n et sur lesquels on a observ e x
; on obtient ainsi une

partition de en m classes dont nous noterons n
1
, . . . , n
m
les cardinaux (avec toujours
m
=1
n
= n, o` u
n = card()).
Consid erant alors la restriction de Y ` a
(l = 1, . . . , m), on peut d enir la moyenne et la variance

partielles de Y sur cette sous-population ; nous les noterons respectivement y
et
2
:
y
=
1
n
Y (
i
) ;
=
1
n
[Y (
i
) y
]
2
.
Botes parall` eles
Une facon commode de repr esenter les donn ees dans le cas de l etude simultan ee dune variable quan-
titative et dune variable qualitative consiste ` a r ealiser des diagrammes-botes parall` eles ; il sagit, sur un
m eme graphique dot e dune echelle unique, de repr esenter pour Y un diagramme-bote pour chacune des
sous-populations d enies par X. La comparaison de ces botes donne une id ee assez claire de linuence
de X sur les valeurs de Y , cest-` a-dire de la liaison entre les deux variables.
Formules de d ecomposition
Ces formules indiquent comment se d ecomposent la moyenne et la variance de Y sur la partition d enie
par X (cest-` a-dire comment s ecrivent ces caract eristiques en fonction de leurs valeurs partielles) ; elles
FIGURE 2.6 Banque : Diagrammes-boites illustrant les diff erences de distribution des ages en fonction
de la possession dune carte Visa Premier.
sont n ecessaires pour d enir un indice de liaison entre les deux variables.
y =
1
n
r
=1
n
2
Y
=
1
n
r
=1
n
(y
y)
2
+
1
n
r
=1
n
=
2
E
+
2
R
.
Le premier terme de la d ecomposition de
2
Y
, not e
2
E
, est appel e variance expliqu ee (par la partition, cest-
` a-dire par X) ou variance inter (between) ; le second terme, not e
2
R
, est appel e variance r esiduelle ou
variance intra (within).
Rapport de corr elation
Il sagit dun indice de liaison entre les deux variables X et Y qui est d eni par :
s
Y/X
=
2
E
2
Y
;
X et Y n etant pas de m eme nature, s
Y/X
nest pas sym etrique et v erie 0 s
Y/X
1. Cet enca-
drement d ecoule directement de la formule de d ecomposition de la variance. Les valeurs 0 et 1 ont une
signication particuli` ere int eressante.
4.3 Deux variables qualitatives
Notations
On consid` ere dans ce paragraphe deux variables qualitatives observ ees simultan ement sur n individus.
On suppose que la premi` ere, not ee X, poss` ede r modalit es not ees x
1
, . . . , x
, . . . , x
r
, et que la seconde,
not ee Y , poss` ede c modalit es not ees y
1
, . . . , y
h
, . . . , y
c
.
Ces donn ees sont pr esent ees dans un tableau ` a double entr ee, appel e table de contingence, dans lequel
on dispose les modalit es de X en lignes et celles de Y en colonnes. Ce tableau est donc de dimension r c
et a pour el ement g en erique le nombre n
h
dobservations conjointes des modalit es x
de X et y
h
de Y ;
les quantit es n
h
sont appel ees les effectifs conjoints.
Une table de contingence se pr esente donc sous la forme suivante :
y
1
y
h
y
c
sommes
x
1
n
11
n
1h
n
1c
n
1+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
n
1
n
h
n
c
n
+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
r
n
r1
n
rh
n
rc
n
r+
sommes n
+1
n
+h
n
+c
n
Les quantit es n
+
( = 1, . . . , r) et n
+h
(h = 1, . . . , c) sont appel ees les effectifs marginaux ; ils sont
d enis par n
+
=
c
h=1
n
h
et n
+h
=
r
=1
n
h
, et ils v erient
r
=1
n
+
=
c
h=1
n
+h
= n. De facon
analogue, on peut d enir les notions de fr equences conjointes et de fr equences marginales.
Repr esentations graphiques
On peut envisager, dans le cas de l etude simultan ee de deux variables qualitatives, dadapter les gra-
phiques pr esent es dans le cas unidimensionnel : on d ecoupe chaque partie (colonne, partie de barre ou
secteur) repr esentant une modalit e de lune des variables selon les effectifs des modalit es de lautre. Mais,
de facon g en erale, il est plus appropri e de r ealiser des graphiques repr esentant des quantit es tr` es utiles dans
ce cas et que lon appelle les prols.
Prols
On appelle -` eme prol-ligne lensemble des fr equences de la variable Y conditionnelles ` a la modalit e
x
de X (cest-` a-dire d enies au sein de la sous-population
de associ ee ` a cette modalit e). Il sagit

donc des quantit es :
n
1
n
+
, . . . ,
n
h
n
+
, . . . ,
n
c
n
+
.
On d enit de facon analogue le h-` eme prol-colonne :
n
1h
n
+h
, . . . ,
n
h
n
+h
, . . . ,
n
rh
n
+h
.
La repr esentation graphique des prols-lignes ou des prols-colonnes, au moyen, par exemple, de dia-
grammes en barre parall` eles, donne alors une id ee assez pr ecise de la variation conjointe des deux variables.
Indices de liaison
Lorsque tous les prols-lignes sont egaux, ce qui est equivalent ` a ce que tous les prols-colonnes soient
egaux et que
(, h) 1, . . . , r 1, . . . , c : n
h
=
n
+
n
+h
n
,
on dit quil nexiste aucune forme de liaison entre les deux variables consid er ees X et Y . Par suite, la
mesure de la liaison va se faire en evaluant l ecart entre la situation observ ee et l etat de non liaison d eni
ci-dessus.
Khi-deux
Il est courant en statistique de comparer une table de contingence observ ee, deffectif conjoint g en erique
n
h
, ` a une table de contingence donn ee a priori (et appel ee standard), deffectif conjoint g en erique s
h
, en
calculant la quantit e
r
=1
c
h=1
(n
h
s
h
)
2
s
h
.
FIGURE 2.7 Banque : Diagrammes en barres des prols lignes et colonnes de la table de contingence
croisant le sexe et la possession de la carte Visa Premier. La supercie de chaque case est en plus propor-
tionnelle ` a leffectif de la cellule associ ee.
De facon naturelle, pour mesurer la liaison sur une table de contingence, on utilise donc lindice appel e
khi-deux (chi-square) et d eni comme suit :
2
=
r
=1
c
h=1
(n
h

n
+
n
+h
n
)
2
n
+
n
+h
n
= n
_
r
=1
c
h=1
n
2
h
n
+
n
+h
1
_
.
Le coefcient
2
est toujours positif ou nul et il est dautant plus grand que la liaison entre les deux variables
consid er ees est forte. Malheureusement, il d epend aussi des dimensions r et c de la table etudi ee, ainsi que
de la taille n de l echantillon observ e ; en particulier, il nest pas major e. Cest la raison pour laquelle on a
d eni dautres indices, li es au khi-deux, et dont lobjectif est de palier ces d efauts.
Autres indicateurs
Nous en citerons trois.
Le phi-deux :
2
=

2
n
. Il ne d epend plus de n, mais d epend encore de r et de c.
Le coefcient T de Tschuprow :
T =

2
_
(r 1)(c 1)
.
On peut v erier : 0 T 1 .
Le coefcient C de Cramer :
C =
_

2
d 1
,
avec : d = inf(r, c). On v erie maintenant : 0 T C 1 .
Enin, la p-value dun test dind ependance (test du
2
) est aussi utilis ee pour comparerr des liaisons entre
variables.
5. Vers le cas multidimensionnel 23
5 Vers le cas multidimensionnel
Lobjectif des prochains chapitres de ce cours est dexposer les techniques de la statistique descrip-
tive multidimensionnelle. Or, sans connatre ces techniques, il se trouve quil est possible de d ebuter une
exploration de donn ees multidimensionnelles en adaptant simplement les m ethodes d ej` a etudi ees.
5.1 Matrices des covariances et des corr elations
Lorsquon a observ e simultan ement plusieurs variables quantitatives (p variables, p 3) sur le m eme
echantillon, il est possible de calculer dune part les variances de toutes ces variables, dautre part les
p(p1)
2
covariances des variables prises deux ` a deux. Lensemble de ces quantit es peut alors etre dispos e
dans une matrice carr ee (p p) et sym etrique, comportant les variances sur la diagonale et les covariances
` a lext erieur de la diagonale ; cette matrice, appel ee matrice des variances-covariances (ou encore matrice
des covariances) sera not ee S. Elle sera utilis ee par la suite, mais na pas dinterpr etation concr` ete. Notons
quil est possible de v erier que S est semi d enie positive.
De la m eme mani` ere, on peut construire la matrice sym etrique p p, comportant des 1 sur toute la
diagonale et, en dehors de la diagonale, les coefcients de corr elation lin eaire entre les variables prises
deux ` a deux. Cette matrice est appel ee matrice des corr elations, elle est egalement semi d enie positive,
et nous la noterons R. Elle est de lecture commode et indique quelle est la structure de corr elation des
variables etudi ees.
5.2 Tableaux de nuages
Notons X
1
, . . . , X
p
les p variables quantitatives consid er ees ; on appelle tableau de nuages le gra-
phique obtenu en juxtaposant, dans une sorte de matrice carr ee p p, p
2
sous-graphiques ; chacun des
sous-graphiques diagonaux est relatif ` a lune des p variables, et il peut sagir, par exemple, dun histo-
gramme ; le sous-graphique gurant dans le bloc dindice (j, j
), j ,= j
, est le nuage de points r ealis e avec

la variable X
j
en abscisses et la variable X
j
en ordonn ees. Dans certains logiciels anglo-saxons, ces gra-

phiques sont appel es splom (Scatter PLOt Matrix). Le tableau de nuages, avec la matrice des corr elations,
fournit ainsi une vision globale des liaisons entre les variables etudi ees.
5.3 La matrice des coefcients de Tschuprow (ou de Cramer)
Consid erons maintenant le cas o` u lon etudie simultan ement plusieurs variables qualitatives (p variables,
p 3). La matrice des coefcients de Tschuprow est la matrice carr ee dordre p, sym etrique, comportant
des 1 sur la diagonale et, en dehors de la diagonale, les coefcients de Tschuprow entre les variables prises
deux ` a deux. Il sagit donc dune matrice du m eme type que la matrice des corr elations (elle est dailleurs,
elle aussi, semi d enie positive), et son utilisation pratique est analogue. Notons que lon peut, de la m eme
facon, utiliser les coefcients de Cramer au lieu des coefcients de Tschuprow.
6 Probl` emes
Les quelques outils de ce chapitre permettent d ej` a de se faire une premi` ere id ee dun jeu de donn ees
mais surtout, en pr ealable ` a toute analyse, ils permettent de sassurer de la abilit e des donn ees, de rep erer
des valeurs extr emes atypiques, eventuellement des erreurs de mesures ou de saisie, des incoh erences de
codage ou dunit e.
Les erreurs, lorsquelle sont d ecel ees, conduisent naturellement et n ecessairement ` a leur correction ou
` a l elimination des donn ees douteuses mais dautres probl` emes pouvant apparatre nont pas toujours de
solutions evidentes.
Le mitage de lensemble des donn ees ou absence de certaines valeurs en fait partie. Faut-il suppri-
mer les individus incrimin es ou les variables ? Faut-il compl eter, par une mod elisation et pr evision
partielles, les valeurs manquantes ? Les solutions d ependent du taux de valeurs manquantes, de leur
r epartition (sont-elles al eatoires) et du niveau de tol erance des m ethodes qui vont etre utilis ees.
La pr esence de valeurs atypiques peut inuencer s ev` erement des estimations de m ethodes peu ro-
bustes car bas ees sur le carr e dune distance. Ces valeurs sont-elles des erreurs ? Sinon faut-il les
FIGURE 2.8 Banque : La simple transformation (log(50 + x)), de la variable cumulants les avoirs,
r esout bien les probl` emes pos es par lallure log-normale de sa distribution avec son cort` ege de valeurs
atypiques.
conserver en transformant les variables ou en adoptant des m ethodes robustes bas ees sur des ecarts
absolus ?
M eme sans hypoth` ese explicite de normalit e des distributions, il est pr ef erable davoir ` a faire ` a des
distributions relativement sym etriques. Une transformation des variables par une fonction monotone
(log, puissance) est hautement recommand ee an dam eliorer la sym etrie de leur distribution ou
encore pour lin eariser (nuage de points) la nature dune liaison.
7 Exemple : nutrition chez la souris
Comme annonc e en introduction, ce jeu de donn ees est repris dans chaque chapitre. Dans cet exemple,
la repr esentation des diagrammes en botes pour les souris, ordonn ees selon le g enotype et le r egime suivi
(Fig. 2.9) ne donne a priori aucune tendance sp ecique sur le comportement de lensemble des g` enes. Cette
repr esentation atteste de la qualit e de la production et de pr etraitement des donn ees. En effet, celles-ci
ont et e recueillies en utilisant une membrane par souris ; ainsi, une quelconque anomalie sur un support,
affectant lensemble des mesures relatives ` a une souris particuli` ere, apparatrait n ecessairement sur cette
repr esentation. Notons seulement que quelques g` enes atypiques, facilement rep erables sur la gure 2.10
comme les plus surexprim es, se retrouvent dans les valeurs extr emes pour chaque souris sur la gure 2.9.
Les diagrammes en botes pour chaque g` ene (Fig. 2.10) r ev` elent des g` enes dont lexpression est, sur
lensemble des souris, nettement diff erentes des autres (par exemple, 16SR, apoA.I, apoE). Les g` enes
des ARN ribosomiques comme le 16SR (ARN 16s ribosomique mitochondrial), pr esentent, dans toutes les
cellules de lorganisme, des niveaux dexpression plus elev es que tous les g` enes codant des ARN messagers.
Ces ARN servent en effet ` a la traduction des ARN messagers en prot eines. Par ailleurs, on peut constater
que les expressions de certains g` enes varient beaucoup plus que dautres sur lensemble des souris (par
exemple, FAS, S14 et THIOL). Pour ces derniers g` enes, on peut supposer quune part de cette variabilit e
est due aux facteurs consid er es, ce que nous essaierons de conrmer par la suite au moyen de techniques de
mod elisation.
7. Exemple : nutrition chez la souris 25
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39
1
0
1
40 souris
dha efad lin ref tsol dha efad lin ref tsol
PPAR WT
FIGURE 2.9 Souris : diagrammes en botes pour les 40 souris. La ligne verticale et epaisse s epare les
souris selon leur g enotype. Les lignes verticales et nes s eparent les souris selon le r egime quelles ont
suivi. La ligne horizontale repr esente la m ediane de lensemble des valeurs.
ACAT1 AM2R Bcl.3 CBS CYP26 CYP8b1 GK i.BABP Lpin LXRb MS PAL PPARd S14 Tpbeta
1
0
1
apoA.I
apoE
16SR
SPI1.1
i.BAT
FAS
THIOL
S14
FIGURE 2.10 Souris : diagrammes en botes pour les 120 g` enes. Quelques g` enes particuliers ont et e
etiquet es.
Lint er et de ces repr esentations r eside davantage dans la vision synth etique quelles offrent que dans
linformation biologique que lon peut en extraire. Elles nous orientent egalement dans les premiers choix
m ethodologiques ` a etablir avant de poursuivre lanalyse. En effet, les botes relatives ` a la distribution des
g` enes mettent clairement en evidence un certain nombre de g` enes dont lexpression est syst ematiquement
sup erieure ` a celle des autres, quelles que soient les conditions exp erimentales. De plus, la variabilit e de
ces expressions est, le plus souvent, tr` es faible. Ce constat nous conduit ` a effectuer un centrage des g` enes
(en colonnes), an d eviter un effet taille lors de la mise en uvre de techniques factorielles. En revanche,
rien dans ces repr esentations ne nous pousse ` a centrer les echantillons (en lignes), ce qui, par ailleurs,
ne se justierait pas sur le plan biologique. En effet, nous travaillons sur des donn ees acquises via des
puces d edi ees sur lesquelles les g` enes consid er es ont et e pr es electionn es et sont donc, a priori, potentielle-
ment diff erentiellement exprim es dans les conditions etudi ees. Un centrage des echantillons serait suscep-
tible de cacher des ph enom` enes biologiques. Ce raisonnement ne tiendrait pas pour une exp erimentation
pang enomique, o` u lon pourrait supposer que globalement les g` enes sexpriment de la m eme facon et que
les surexprim es compensent les sous-exprim es.
Chapitre 3
Analyse en Composantes Principales
1 introduction
Lorsquon etudie simultan ement un nombre important de variables quantitatives (ne serait-ce que 4 !),
comment en faire un graphique global ? La difcult e vient de ce que les individus etudi es ne sont plus
repr esent es dans un plan, espace de dimension 2, mais dans un espace de dimension plus importante (par
exemple 4). Lobjectif de lAnalyse en Composantes Principales (ACP) est de revenir ` a un espace de dimen-
sion r eduite (par exemple 2) en d eformant le moins possible la r ealit e. Il sagit donc dobtenir le r esum e le
plus pertinent possible des donn ees initiales.
Cest la matrice des variances-covariances (ou celle des corr elations) qui va permettre de r ealiser ce
r esum e pertinent, parce quon analyse essentiellement la dispersion des donn ees consid er ees. De cette ma-
trice, on va extraire, par un proc ed e math ematique ad equat, les facteurs que lon recherche, en petit nombre.
Ils vont permettre de r ealiser les graphiques d esir es dans cet espace de petite dimension (le nombre de fac-
teurs retenus), en d eformant le moins possible la conguration globale des individus selon lensemble des
variables initiales (ainsi remplac ees par les facteurs).
Cest linterpr etation de ces graphiques qui permettra de comprendre la structure des donn ees analys ees.
Cette interpr etation sera guid ee par un certain nombre dindicateurs num eriques et graphiques, appel es aides
` a linterpr etation, qui sont l` a pour aider lutilisateur ` a faire linterpr etation la plus juste et la plus objective
possible.
Lanalyse en Composantes Principales (ACP) est un grand classique de lanalyse des donn ees en
France pour l etude exploratoire ou la compression dun grand tableau n p de donn ees quantitatives. Le
livre de Jolliffe (2002) en d etaille tous les aspects et utilisations de facon exhaustive. Elle est introduite ici
comme lestimation des param` etres dun mod` ele, an de pr eciser la signication statistique des r esultats
obtenus. Une approche plus sophistiqu ee adapt ee ` a l etude de courbes ou donn ees fonctionnelles est pro-
pos ee au chapitre ??. LACP est illustr ee dans ce chapitre ` a travers l etude de donn ees el ementaires. Elles
sont constitu ees des moyennes sur dix ans des temp eratures moyennes mensuelles de 32 villes francaises.
La matrice initiale Xest donc (32 12). Les colonnes sont lobservation ` a diff erents instants dune m eme
variable ; elles sont homog` enes et il est inutile de les r eduire.
LACP joue dans ce cours un r ole central ; cette m ethode sert de fondement th eorique aux autres
m ethodes de statistique multidimensionnelle dites factorielles qui en apparaissent comme des cas parti-
culiers. Cette m ethode est donc etudi ee en d etail et abord ee avec diff erents niveaux de lecture. La premi` ere
section pr esente les grands principes de facon tr` es el ementaire, voire intuitive, tandis que les suivantes
explicitent les expressions matricielles des r esultats.
2 Pr esentation el ementaire de lACP
27
28 Chapitre 3. Analyse en Composantes Principales
2.1 Les donn ees
Consid erons les notes (de 0 ` a 20) obtenues par 9 el` eves dans 4 disciplines (math ematiques, physique,
francais, anglais) :
MATH PHYS FRAN ANGL
jean 6.00 6.00 5.00 5.50
alan 8.00 8.00 8.00 8.00
anni 6.00 7.00 11.00 9.50
moni 14.50 14.50 15.50 15.00
didi 14.00 14.00 12.00 12.50
andr 11.00 10.00 5.50 7.00
pier 5.50 7.00 14.00 11.50
brig 13.00 12.50 8.50 9.50
evel 9.00 9.50 12.50 12.00
Nous savons comment analyser s epar ement chacune de ces 4 variables, soit en faisant un graphique,
soit en calculant des r esum es num eriques. Nous savons egalement quon peut regarder les liaisons entre 2
variables (par exemple math ematiques et francais), soit en faisant un graphique du type nuage de points,
soit en calculant leur coefcient de corr elation lin eaire, voire en r ealisant la r egression de lune sur lautre.
Mais comment faire une etude simultan ee des 4 variables, ne serait-ce quen r ealisant un graphique ?
La difcult e vient de ce que les individus (les el` eves) ne sont plus repr esent es dans un plan, espace de
dimension 2, mais dans un espace de dimension 4 (chacun etant caract eris e par les 4 notes quil a obtenues).
Lobjectif de lAnalyse en Composantes Principales est de revenir ` a un espace de dimension r eduite (par
exemple, ici, 2) en d eformant le moins possible la r ealit e. Il sagit donc dobtenir le r esum e le plus pertinent
des donn ees initiales.
2.2 R esultats pr eliminaires
Tout logiciel fournit la moyenne, l ecart-type, le minimum et le maximum de chaque variable. Il sagit
donc, pour linstant, d etudes univari ees.
Statistiques elementaires
Variable Moyenne Ecart-type Minimum Maximum
MATH 9.67 3.37 5.50 14.50
PHYS 9.83 2.99 6.00 14.50
FRAN 10.22 3.47 5.00 15.50
ANGL 10.06 2.81 5.50 15.00
Notons au passage la grande homog en eit e des 4 variables consid er ees : m eme ordre de grandeur pour
les moyennes, les ecarts-types, les minima et les maxima.
Le tableau suivant est la matrice des corr elations. Elle donne les coefcients de corr elation lin eaire des
variables prises deux ` a deux. Cest une succession danalyses bivari ees, constituant un premier pas vers
lanalyse multivari ee.
Coefficients de correlation
MATH PHYS FRAN ANGL
MATH 1.00 0.98 0.23 0.51
PHYS 0.98 1.00 0.40 0.65
FRAN 0.23 0.40 1.00 0.95
ANGL 0.51 0.65 0.95 1.00
2. Pr esentation el ementaire de lACP 29
Remarquons que toutes les corr elations lin eaires sont positives (ce qui signie que toutes les variables
varient, en moyenne, dans le m eme sens), certaines etant tr` es fortes (0.98 et 0.95), dautres moyennes (0.65
et 0.51), dautres enn plut ot faibles (0.40 et 0.23).
2.3 R esultats g en eraux
Continuons lanalyse par celui de la matrice des variances-covariances, matrice de m eme nature que
celle des corr elations, bien que moins parlante (nous verrons n eanmoins plus loin comment elle est uti-
lis ee concr` etement). La diagonale de cette matrice fournit les variances des 4 variables consid er ees (on
notera quau niveau des calculs, il est plus commode de manipuler la variance que l ecart-type ; pour cette
raison, dans de nombreuses m ethodes statistiques, comme en A.C.P., on utilise la variance pour prendre en
compte la dispersion dune variable quantitative).
Matrice des variances-covariances
MATH PHYS FRAN ANGL
MATH 11.39 9.92 2.66 4.82
PHYS 9.92 8.94 4.12 5.48
FRAN 2.66 4.12 12.06 9.29
ANGL 4.82 5.48 9.29 7.91
Les valeurs propres donn ees ci-dessous sont celles de la matrice des variances-covariances.
Valeurs propres ; variances expliquees
FACTEUR VAL. PR. PCT. VAR. PCT. CUM.
1 28.23 0.70 0.70
2 12.03 0.30 1.00
3 0.03 0.00 1.00
4 0.01 0.00 1.00
----- ----
40.30 1.00
Interpr etation
Chaque ligne du tableau ci-dessus correspond ` a une variable virtuelle (voil` a les facteurs) dont la colonne
VAL. PR. (valeur propre) fournit la variance (en fait, chaque valeur propre repr esente la variance du facteur
correspondant). La colonne PCT. VAR, ou pourcentage de variance, correspond au pourcentage de variance
de chaque ligne par rapport au total. La colonne PCT. CUM. repr esente le cumul de ces pourcentages.
Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice des variances-
covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des individus consid er es, en
dimension 4, est ainsi egale ` a 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23+12.03+0.03+0.01 = 40.30. Le nuage
de points en dimension 4 est toujours le m eme et sa dispersion globale na pas chang e. Il sagit dun simple
changement de base dans un espace vectoriel. Cest la r epartition de cette dispersion, selon les nouvelles
variables que sont les facteurs, ou composantes principales, qui se trouve modi ee : les 2 premiers facteurs
restituent ` a eux seuls la quasi-totalit e de la dispersion du nuage, ce qui permet de n egliger les 2 autres.
Par cons equent, les graphiques en dimension 2 pr esent es ci-dessous r esument presque parfaitement la
conguration r eelle des donn ees qui se trouvent en dimension 4 : lobjectif (r esum e pertinent des donn ee
en petite dimension) est donc atteint.
0.2 0.2 0.6 1.0
0
.
6
0
.
2
0
.
2
0
.
6
Axe 1
A
x
e

2
MATH
PHYS
FRAN
ANGL
FIGURE 3.1 Donn ees ctives : Repr esentation des variables
2.4 R esultats sur les variables
Le r esultat fondamental concernant les variables est le tableau des corr elations variables-facteurs.
Il sagit des coefcients de corr elation lin eaire entre les variables initiales et les facteurs. Ce sont ces
corr elations qui vont permettre de donner un sens aux facteurs (de les interpr eter).
Correlations variables-facteurs
FACTEURS --> F1 F2 F3 F4
MATH 0.81 -0.58 0.01 -0.02
PHYS 0.90 -0.43 -0.03 0.02
FRAN 0.75 0.66 -0.02 -0.01
ANGL 0.91 0.40 0.05 0.01
Les deux premi` eres colonnes de ce tableau permettent, tout dabord, de r ealiser le graphique des va-
riables (version SAS) donn e ci-dessous.
Mais, ces deux colonnes permettent egalement de donner une signication aux facteurs (donc aux axes
des graphiques).
On notera que les deux derni` eres colonnes ne seront pas utilis ees puisquon ne retient que deux dimen-
sions pour interpr eter lanalyse.
Interpr etation
Ainsi, on voit que le premier facteur est corr el e positivement, et assez fortement, avec chacune des 4 va-
riables initiales : plus un el` eve obtient de bonnes notes dans chacune des 4 disciplines, plus il a un score elev e
sur laxe 1 ; r eciproquement, plus ses notes sont mauvaises, plus son score est n egatif. En ce qui concerne
laxe 2, il oppose, dune part, le francais et langlais (corr elations positives), dautre part, les math ematiques
et la physique (corr elations n egatives). Il sagit donc dun axe dopposition entre disciplines litt eraires et
disciplines scientiques, surtout marqu e par lopposition entre le francais et les math ematiques. Cette in-
terpr etation peut etre pr ecis ee avec les graphiques et tableaux relatifs aux individus que nous pr esentons
maintenant.
2. Pr esentation el ementaire de lACP 31
3 1 0 1 2 3
1
0
1
2
3
Axe 1
A
x
e

2
jean
alan
anni
moni
didi
andr
pier
brig
evel
FIGURE 3.2 Donn ees ctives : Repr esentation des individus
2.5 R esultats sur les individus
Le tableau ci-dessous contient tous les r esultats importants sur les individus.
Coordonnees des individus ; contributions ; cosinus carres
POIDS FACT1 FACT2 CONTG CONT1 CONT2 COSCA1 COSCA2
jean 0.11 -8.61 -1.41 20.99 29.19 1.83 0.97 0.03
alan 0.11 -3.88 -0.50 4.22 5.92 0.23 0.98 0.02
anni 0.11 -3.21 3.47 6.17 4.06 11.11 0.46 0.54
moni 0.11 9.85 0.60 26.86 38.19 0.33 1.00 0.00
didi 0.11 6.41 -2.05 12.48 16.15 3.87 0.91 0.09
andr 0.11 -3.03 -4.92 9.22 3.62 22.37 0.28 0.72
pier 0.11 -1.03 6.38 11.51 0.41 37.56 0.03 0.97
brig 0.11 1.95 -4.20 5.93 1.50 16.29 0.18 0.82
evel 0.11 1.55 2.63 2.63 0.95 6.41 0.25 0.73
On notera que chaque individu repr esente 1 el ement sur 9, do` u un poids (une pond eration) de 1/9 =
0.11, ce qui est fourni par la premi` ere colonne du tableau ci-dessus.
Les 2 colonnes suivantes fournissent les coordonn ees des individus (les el` eves) sur les deux premiers
axes (les facteurs) et ont donc permis de r ealiser le graphique des individus. Ce dernier permet de pr eciser
la signication des axes, donc des facteurs.
Interpr etation
On peut ainsi voir que laxe 1 repr esente le r esultat densemble des el` eves (si on prend leur score
ou coordonn ee sur laxe 1, on obtient le m eme classement que si on prend leur moyenne g en erale). Par
ailleurs, l el` eve le plus haut sur le graphique, celui qui a la coordonn ee la plus elev ee sur laxe 2, est Pierre
dont les r esultats sont les plus contrast es en faveur des disciplines litt eraires (14 et 11.5 contre 7 et 5.5).
Cest exactement le contraire pour Andr e qui obtient la moyenne dans les disciplines scientiques (11 et
10) mais des r esultats tr` es faibles dans les disciplines litt eraires (7 et 5.5). On notera que Monique et Alain
ont un score voisin de 0 sur laxe 2 car ils ont des r esultats tr` es homog` enes dans les 4 disciplines (mais ` a
des niveaux tr` es distincts, ce qua d ej` a r ev el e laxe 1).
Les 3 colonnes suivantes du tableau fournissent des contributions des individus ` a diverses dispersions :
CONT1 et CONT2 donnent les contributions des individus ` a la variance selon les axes 1 et 2 (rappelons
que cest la variance qui caract erise la dispersion) ; CONTG les contributions ` a la dispersion en dimension
4 (il sagit de ce que lon appelle linertie du nuage des el` eves ; la notion dinertie g en eralise celle de va-
riance en dimension quelconque, la variance etant toujours relative ` a une seule variable). Ces contributions
sont fournies en pourcentages (chaque colonne somme ` a 100) et permettent de rep erer les individus les
plus importants au niveau de chaque axe (ou du nuage en dimension 4). Elles servent en g en eral ` a afner
linterpr etation des r esultats de lanalyse.
Ainsi, par exemple, la variance de laxe 1 vaut 28.23 (premi` ere valeur propre). On peut la retrouver en
utilisant la formule de d enition de la variance :
V ar(C
1
) =
1
9
9
i=1
(c
1
i
)
2
(il faut noter que, dans une A.C.P., les variables etant centr ees, il en va de m eme pour les facteurs ; ainsi,
la moyenne de C
1
est nulle et napparat pas dans la formule de la variance). La coordonn ee de Jean (le
premier individu du chier) sur laxe 1 vaut c
1
1
= 8.61 ; sa contribution est donc :
1
9
(8.61)
2
28.23
100 = 29.19 %.
`
A lui seul, cet individu repr esente pr` es de 30 % de la variance : il est pr epond erant (au m eme titre que
Monique) dans la d enition de laxe 1 ; cela provient du fait quil a le r esultat le plus faible, Monique ayant,
` a loppos e, le r esultat le meilleur.
Enn, les 2 derni` eres colonnes du tableau sont des cosinus carr es qui fournissent la (* qualit e de la
repr esentation *) de chaque individu sur chaque axe. Ces quantit es sadditionnent axe par axe, de sorte que,
en dimension 2,

Evelyne est repr esent ee ` a 98 % (0.25 + 0.73), tandis que les 8 autres individus le sont ` a 100
%.
Lorsquon consid` ere les donn ees initiales, chaque individu (chaque el` eve) est repr esent e par un vecteur
dans un espace de dimension 4 (les el ements ou coordonn ees de ce vecteur sont les notes obtenues
dans les 4 disciplines). Lorsquon r esume les donn ees en dimension 2, et donc quon les repr esente dans
un plan, chaque individu est alors repr esent e par la projection du vecteur initial sur le plan en question. Le
cosinus carr e relativement aux deux premi` eres dimensions (par exemple, pour

Evelyne, 0.98 ou 98 %) est
celui de langle form e par le vecteur initial et sa projection dans le plan. Plus le vecteur initial est proche
du plan, plus langle en question est petit et plus le cosinus, et son carr e, sont proches de 1 (ou de 100 %) :
la repr esentation est alors tr` es bonne. Au contraire, plus le vecteur initial est loin du plan, plus langle en
question est grand (proche de 90 degr es) et plus le cosinus, et son carr e, sont proches de 0 (ou de 0 %) : la
repr esentation est alors tr` es mauvaise. On utilise les carr es des cosinus, parce quils sadditionnent suivant
les diff erentes dimensions.
3 Repr esentation vectorielle de donn ees quantitatives
3.1 Notations
Soit p variables statistiques r eelles X
j
(j = 1, . . . , p) observ ees sur n individus i (i = 1, . . . , n) affect es
des poids w
i
:
i = 1, . . . , n : w
i
> 0 et
n
i=1
w
i
= 1 ;
i = 1, . . . , n : x
j
i
= X
j
(i), mesure de X
j
sur le i
` eme
individu.
Ces mesures sont regroup ees dans une matrice Xdordre (n p).
3. Repr esentation vectorielle de donn ees quantitatives 33
X
1
X
j
X
p
1 x
1
1
x
j
1
x
p
1
.
.
.
.
.
.
.
.
.
.
.
.
i x
1
i
x
j
i
x
p
i
.
.
.
.
.
.
.
.
.
.
.
.
n x
1
n
x
j
n
x
p
n
`
A chaque individu i est associ e le vecteur x
i
contenant la i-` eme ligne de X mise en colonne.
Cest un el ement dun espace vectoriel not e E de dimension p ; nous choisissons IR
p
muni de la
base canonique c et dune m etrique de matrice M lui conf erant une structure despace euclidien :
E est isomorphe ` a (IR
p
, c, M); E est alors appel e espace des individus.
`
A chaque variable X
j
est associ e le vecteur x
j
contenant la j-` eme colonne centr ee (la moyenne de la
colonne est retranch ee ` a toute la colonne) de X. Cest un el ement dun espace vectoriel not e F de di-
mension n; nous choisissons IR
n
muni de la base canonique T et dune m etrique de matrice Ddiago-
nale des poids lui conf erant une structure despace euclidien : F est isomorphe ` a (IR
n
, T, D) avec D =
diag(w
1
, . . . , w
n
); F est alors appel e espace des variables.
3.2 Interpr etation statistique de la m etrique des poids
Lutilisation de la m etrique des poids dans lespace des variables F donne un sens tr` es particulier aux
notions usuelles d enies sur les espaces euclidiens. Ce paragraphe est la cl e permettant de fournir les in-
terpr etations en termes statistiques des propri et es et r esultats math ematiques.
Moyenne empirique de X
j
: x
j
=
Xe
j
, 1
n
_
D
= e
j
D1
n
.
Barycentre des individus : x = X
D1
n
.
Matrice des donn ees centr ees : X = X1
n
x
.
Ecart-type de X
j
:
j
= (x
j
Dx
j
)
1/2
=
_
_
x
j
_
_
D
.
Covariance de X
j
et X
k
: x
j
Dx
k
=
x
j
, x
k
_
D
.
Matrice des covariances : S =
n
i=1
w
i
(x
i
x)(x
i
x)
= X
DX.
Corr elation de X
j
et X
k
:
x
j
,x
k
D
x
j
D
x
k
D
= cos
D
(x
j
, x
k
).
Attention : Par souci de simplicit e des notations, on d esigne toujours par x
j
les colonnes de la matrice
centr ee X. On consid` ere donc que des vecteurs variables sont toujours centr es.
Ainsi, lorsque les variables sont centr ees et repr esent ees par des vecteurs de F :
la longueur dun vecteur repr esente un ecart-type,
le cosinus dun angle entre deux vecteurs repr esente une corr elation.
3.3 La m ethode
Les objectifs poursuivis par une ACP sont :
la repr esentation graphique optimale des individus (lignes), minimisant les d eformations du nuage
des points, dans un sous-espace E
q
de dimension q (q < p),
la repr esentation graphique des variables dans un sous-espace F
q
en explicitant au mieux les liai-
sons initiales entre ces variables,
la r eduction de la dimension (compression), ou approximation de X par un tableau de rang q (q < p).
Les derniers objectifs permettent dutiliser lACP comme pr ealable ` a une autre technique pr ef erant des
variables orthogonales (r egression lin eaire) ou un nombre r eduit dentr ees (r eseaux neuronaux).
Des arguments de type g eom etrique dans la litt erature francophone, ou bien de type statistique avec
hypoth` eses de normalit e dans la litt erature anglo-saxonne, justient la d enition de lACP. Nous adoptons
ici une optique interm ediaire en se r ef erant ` a un mod` ele all eg e car ne n ecessitant pas dhypoth` ese forte
sur la distribution des observations (normalit e). Plus pr ecis ement, lACP admet des d enitions equivalentes
selon que lon sattache ` a la repr esentation des individus, ` a celle des variables ou encore ` a leur repr esentation
simultan ee.
4 Mod` ele
Les notations sont celles du paragraphe pr ec edent :
X d esigne le tableau des donn ees issues de lobservation de p variables quantitatives X
j
sur n
individus i de poids w
i
,
E est lespace des individus muni de la base canonique et de la m etrique de matrice M,
F est lespace des variables muni de la base canonique et de la m etrique des poids D = diag(w
1
, . . . , w
n
).
De facon g en erale, un mod` ele s ecrit :
Observation = Mod` ele + Bruit
assorti de diff erents types dhypoth` eses et de contraintes sur le mod` ele et sur le bruit.
En ACP, la matrice des donn ees est suppos ee etre issue de lobservation de n vecteurs al eatoires
ind ependants x
1
, . . . , x
n
, de m eme matrice de covariance
2
, mais desp erances diff erentes z
i
, toutes
contenues dans un sous-espace afne de dimension q (q < p) de E. Dans ce mod` ele, E(x
i
) = z
i
est un
param` etre sp ecique attach e ` a chaque individu i et appel e effet xe, le mod` ele etant dit fonctionnel. Ceci
s ecrit en r esum e :
x
i
; i = 1, . . . , n, n vecteurs al eatoires ind ependants de E,
x
i
= z
i
+
i
, i = 1, . . . , n avec
_
E(
i
) = 0, var(
i
) =
2
,
> 0 inconnu, r eguli` ere et connue,
A
q
, sous-espace afne de dimension q de E tel que i, z
i
A
q
(q < p).
(3.1)
Soit z =
n
i=1
w
i
z
i
. Les hypoth` eses du mod` ele entranent que z appartient ` a A
q
. Soit donc E
q
le sous-
espace vectoriel de E de dimension q tel que :
A
q
= z +E
q
.
Les param` etres ` a estimer sont alors E
q
et z
i
, i = 1, . . . , n, eventuellement ; z
i
est la part syst ematique,
ou effet, suppos ee de rang q ; eliminer le bruit revient donc ` a r eduire la dimension.
Si les z
i
sont consid er es comme al eatoires, le mod` ele est alors dit structurel ; on suppose que x
1
, . . . , x
n
est un echantillon statistique i.i.d. Les unit es statistiques jouent des r oles sym etriques, elles ne nous int eressent
que pour l etude des relations entre les variables. On retrouve alors le principe de lanalyse en facteurs (ou
en facteurs communs et sp eciques, ou factor analysis).
4.1 Estimation
PROPOSITION 3.1. Lestimation des param` etres de (3.1) est fournie par lACP de (X, M, D) cest-` a-
dire par la d ecomposition en valeurs singuli` eres de (X, M, D) :
Z
q
=
q
k=1
1/2
k
u
k
v
k
= U
q
1/2
V
q
.
Preuve
Sans hypoth` ese sur la distribution de lerreur, une estimation par les moindres carr es conduit ` a r esoudre le probl` eme :
min
E
q
,z
i
i=1
w
i
x
i
z
i
2
M
; dim(E
q
) = q, z
i
z E
q
. (3.2)
Soit X = X1
n
x
la matrice centr ee et Z la matrice (n p) dont les lignes sont les vecteurs (z

i
z)
.
n
i=1
w
i
x
i
z
i
2
M
=
n
i=1
w
i
x
i
x +z z
i
2
M
+x z
2
M
;
le probl` eme (3.2) conduit alors ` a prendre
z = x et devient equivalent ` a r esoudre :

min
Z
XZ
M,D
; Z M
n,p
, rang(Z) = q
. (3.3)
La n de la preuve est une cons equence imm ediate du th eor` eme (A.5).
4. Mod` ele 35
2
Les u
k
sont les vecteurs propres D-orthonorm es de la matrice XMX
Dassoci es aux valeurs propres
k
rang ees par ordre d ecroissant.
Les v
k
, appel es vecteurs principaux, sont les vecteurs propres M-orthonorm es de la matrice X
DXM=
SMassoci es aux m emes valeurs propres ; ils engendrent des s.e.v. de dimension 1 appel es axes prin-
cipaux.
Les estimations sont donc donn ees par :
z = x,
Z
q
=
q
k=1
1/2
u
k
v
k
= U
q
1/2
V
q
= X
P
q
,
o` u

P
q
= V
q
V
q
Mest la matrice de projection
M-orthogonale sur

E
q
,
E
q
= vectv
1
, . . . , v
q
,
E
2
est appel e plan principal,
z
i
=

P
q
x
i
+x.
Remarques
i. Les solutions sont embot ees pour q = 1, . . . , p :
E
1
= vectv
1
E
2
= vectv
1
, v
2
E
3
= vectv
1
, v
2
, v
3
. . .
ii. Les espaces principaux sont uniques sauf, eventuellement, dans le cas de valeurs propres multiples.
iii. Si les variables ne sont pas homog` enes (unit es de mesure diff erentes, variances disparates), elles sont
pr ealablement r eduites :
X = X
1/2
o` u = diag (
2
1
, . . . ,
2
p
), avec
2
j
= Var (X
j
) ;
S est alors la matrice R =

1/2
S
1/2
des corr elations.
Sous lhypoth` ese que la distribution de lerreur est gaussienne, une estimation par maximum de vrai-
semblance conduit ` a la m eme solution.
4.2 D enition equivalente
On consid` ere p variable statistiques centr ees X
1
, . . . , X
p
. Une combinaison lin eaire de coefcients f
j
de ces variables,
c =
p
j=1
f
j
x
j
= Xf ,
d enit une nouvelle variable centr ee C qui, ` a tout individu i, associe la mesure
C(i) = (x
i
x)
f .
PROPOSITION 3.2. Soient p variables quantitatives centr ees X
1
, . . . , X
p
observ ees sur n individus de
poids w
i
; lACP de (X, M, D) est aussi la recherche des q combinaisons lin eaires norm ees des X
j
, non
corr el ees et dont la somme des variances soit maximale.
Les vecteurs f
k
= Mv
k
sont les facteurs principaux. Ils permettent de d enir les combinaisons
lin eaires des X
j
optimales au sens ci-dessus.
Les vecteurs c
k
= Xf
k
sont les composantes principales.
Les variables C
k
associ ees sont centr ees, non corr el ees et de variance
k
; ce sont les variables
principales ;
cov(C
k
, C
) = (Xf
k
)
DXf
= f
k
Sf
= v
k
MSMv
v
k
Mv
k
.
Les f
k
sont les vecteurs propres M
1
-orthonorm es de la matrice MS.
La matrice
C = XF = XMV = U
1/2
est la matrice des composantes principales.
Les axes d enis par les vecteurs D-orthonorm es u
k
sont appel es axes factoriels.
5 Repr esentations graphiques
5.1 Les individus
Les graphiques obtenus permettent de repr esenter au mieux les distances euclidiennes inter-individus
mesur ees par la m etrique M.
Projection
Chaque individu i repr esent e par x
i
est approch e par sa projection M-orthogonale z
i
q
sur le sous-
espace

E
q
engendr e par les q premiers vecteurs principaux v
1
, . . . , v
q
. En notant e
i
un vecteur de la base
canonique de E, la coordonn ee de lindividu i sur v
k
est donn ee par :
x
i
x, v
k
_
M
= (x
i
x)
Mv
k
= e
i
XMv
k
= c
k
i
.
PROPOSITION 3.3. Les coordonn ees de la projection M-orthogonale de x
i
x sur

E
q
sont les q premiers
el ement de la i-` eme ligne de la matrice C des composantes principales.
Mesures de qualit e
La qualit e globale des repr esentations est mesur ee par la part de dispersion expliqu ee :
r
q
=
trSM
P
q
trSM
=
q
k=1
p
k=1
k
.
Remarque. La dispersion dun nuage de points unidimensionnel par rapport ` a sa moyenne se mesure
par la variance. Dans le cas multidimensionnel, la dispersion du nuage A par rapport ` a son barycentre x se
mesure par linertie, g en eralisation de la variance :
I
g
(A) =
n
i=1
w
i
|x
i
x|
2
M
=
_
_
X
_
_
2
M,D
= tr (X
DXM) = tr (SM).
La qualit e de la repr esentation de chaque x
i
est donn ee par le cosinus carr e de langle quil forme avec
sa projection :
[cos (x
i
x, z
i
q
)]
2
=
_
_
_
P
q
(x
i
x)
_
_
_
2
M
|x
i
x|
2
M
=
q
k=1
(c
k
i
)
2
p
k=1
(c
k
i
)
2
.
Pour eviter de consulter un tableau qui risque d etre volumineux (n lignes), les etiquettes de chaque
individu sont afch ees sur les graphiques avec des caract` eres dont la taille est fonction de la qualit e. Un
individu tr` es mal repr esent e est ` a la limite de la lisibilit e.
5. Repr esentations graphiques 37
A
x
e

2
- 8
- 7
- 6
- 5
- 4
- 3
- 2
- 1
0
1
2
3
4
A x e 1
- 1 0 0 1 0 2 0
FIGURE 3.3 Temp eratures : premier plan des individus.
Contributions
Les contributions de chaque individu ` a linertie de leur nuage
i
=
w
i
|x
i
x|
2
M
trSM
=
w
i
p
k=1
(c
k
i
)
2
p
k=1
k
,
ainsi qu` a la variance dune variable principale
k
i
=
w
i
(c
k
i
)
2
k
,
permettent de d eceler les observations les plus inuentes et, eventuellement, aberrantes. Ces points appa-
raissent visiblement lors du trac e des diagrammes-botes parall` eles des composantes principales qui evitent
ainsi une lecture fastidieuse de ce tableau des contributions. En effet, ils se singularisent aussi comme out-
liers hors de la bote (au del` a des moustaches) correspondant ` a une direction principale. Les individus
correspondants, consid er es comme individus suppl ementaires, peuvent etre elimin es lors dune nouvelle
analyse.
Individus suppl ementaires
Il sagit de repr esenter, par rapport aux axes principaux dune analyse, des individus qui nont pas
particip e aux calculs de ces axes. Soit s un tel vecteur, il doit etre centr e, eventuellement r eduit, puis projet e
sur le sous-espace de repr esentation. Les coordonn ees sont fournies par :
v
k
, V
q
V
q
M(s x)
_
M
= v
k
MV
q
V
q
M(s x) = e
k
q
M(s x).
Les coordonn ees dun individu suppl ementaire dans la base des vecteurs principaux sont donc :
V
q
M(s x).
5.2 Les variables
Les graphiques obtenus permettent de repr esenter au mieux les corr elations entre les variables (cosi-
nus des angles) et, si celles-ci ne sont pas r eduites, leurs variances (longueurs).
Projection
Une variable X
j
est repr esent ee par la projection D-orthogonale

Q
q
x
j
sur le sous-espace F
q
engendr e
par les q premiers axes factoriels. La coordonn ee de x
j
sur u
k
est :
x
j
, u
k
_
D
= x
j
Du
k
=
1
k
x
j
DXMv
k
=
1
k
e
j
DXMv
k
=
_
k
v
k
j
.
A
x
e

2
- 1 . 0
- 0 . 5
0 . 0
0 . 5
1 . 0
A x e 1
- 1 . 0 - 0 . 5 0 . 0 0 . 5 1 . 0
A
x
e

3
- 1 . 0
- 0 . 5
0 . 0
0 . 5
1 . 0
A x e 2
- 1 . 0 - 0 . 5 0 . 0 0 . 5 1 . 0
FIGURE 3.4 Temp eratures : Premier et deuxi` eme plan des variables.
PROPOSITION 3.4. Les coordonn ees de la projection D-orthogonale de x
j
sur le sous-espace F
q
sont
les q premiers el ements de la j-` eme ligne de la matrice V
1/2
.
Mesure de qualit e
La qualit e de la repr esentation de chaque x
j
est donn ee par le cosinus carr e de langle quil forme avec
sa projection :
_
cos (x
j
,

Q
q
x
j
)
_
2
=
_
_
_
Q
q
x
j
_
_
_
2
D
|x
j
|
2
D
=
q
k=1
k
(v
j
k
)
2
p
k=1
k
(v
j
k
)
2
.
Corr elations variablesfacteurs
Ces indicateurs aident ` a linterpr etation des axes factoriels en exprimant les corr elations entre variables
principales et initiales.
cor(X
j
, C
k
) = cos (x
j
, c
k
) = cos (x
j
, u
k
) =
x
j
, u
k
_
D
|x
j
|
D
=
j
v
k
j
;
ce sont les el ements de la matrice
1/2
V
1/2
.
Cercle des corr elations
Dans le cas de variables r eduites x
j
=
1
j
x
j
,
_
_
x
j
_
_
D
= 1, les x
j
sont sur la sph` ere unit e o
n
de F.
Lintersection o
n
F
2
est un cercle centr e sur lorigine et de rayon 1 appel e cercle des corr elations. Les
projections de x
j
et x
j
sont colin eaires, celle de x
j
etant ` a lint erieur du cercle :
_
_
_
Q
2
x
j
_
_
_
D
= cos (x
j
,

Q
2
x
j
) 1.
Ainsi, plus

Q
2
x
j
est proche de ce cercle, meilleure est la qualit e de sa repr esentation. Ce graphique est
commode ` a interpr eter ` a condition de se m eer des echelles, le cercle devenant une ellipse si elles ne
sont pas egales. Comme pour les individus, la taille des caract` eres est aussi fonction de la qualit e des
repr esentations.
A
x
e

2
- 1 . 0
- 0 . 5
0 . 0
0 . 5
1 . 0
A x e 1
- 1 . 0 - 0 . 5 0 . 0 0 . 5 1 . 0
FIGURE 3.5 Carte Visa : la repr esentation des variables dans le premier plan de lACP fournit une
interpr etation classique (stocks versus ux) de ce type de donn ees.
5.3 Repr esentation simultan ee ou biplot
`
A partir de la d ecomposition en valeurs singuli` eres de (X, M, D), on remarque que chaque valeur
x
j
i
x
j
=
p
k=1
_
k
u
k
i
v
j
k
=
_
U
1/2
V
_
j
i
sexprime comme produit scalaire usuel des vecteurs
c
i
=
_
U
1/2
_
i
et v
j
ou encore u
i
et
_
V
1/2
_
j
.
Pour q = 2, la quantit e z
i
j
en est une approximation limit ee aux deux premiers termes.
Cette remarque permet dinterpr eter deux autres repr esentations graphiques en ACP projetant simul-
tan ement individus et variables.
i. la repr esentation isom etrique ligne utilise les matrices Cet V; elle permet dinterpr eter les distances
entre individus ainsi que les produits scalaires entre un individu et une variable qui sont, dans le
premier plan principal, des approximations des valeurs observ ees X
j
(
i
) ;
ii. la repr esentation isom etrique colonne utilise les matrices U et V
1/2
; elle permet dinterpr eter les
angles entre vecteurs variables (corr elations) et les produits scalaires comme pr ec edemment.
Remarques
i. Dans le cas fr equent o` u M = I
p
et o` u les variables sont r eduites, le point repr esentant X
j
, en
superposition dans lespace des individus se confond avec un pseudo individu suppl ementaire qui
prendrait la valeur 1 ( ecart-type) pour la variable j et 0 pour les autres.
ii. En pratique, ces diff erents types de repr esentations (simultan ees ou non) ne diff` erent que par un chan-
gement d echelle sur les axes ; elles sont tr` es voisines et suscitent souvent les m emes interpr etations.
0.2 0.0 0.2 0.4 0.6
0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
Comp.1
C
o
m
p
.
2
ajac
ange
ango
besa
biar
bord
bres
cler
dijo
embr
gren
lill
limo
lyon
mars
mont
nanc
nant
nice
nime
orle
pari
perp
reim
renn
roue
stqu
stra
toul
tlse
tour
vich
10 5 0 5 10 15 20
1
0
5
0
5
1
0
1
5
2
0
janv
fevr
mars
avri
mai
juin
juil
aout
sept
octo
nove
dece
FIGURE 3.6 Temp eratures : Repr esentation simultan ee ou biplot du premier plan.
6. Choix de dimension 41
Lusage th eoriquement (gure ??) fait nalement superposer les deux repr esentations isom etrisues
lignes et colonnes.
6 Choix de dimension
La qualit e des estimations auxquelles conduit lACP d epend, de facon evidente, du choix de q, cest-
` a-dire du nombre de composantes retenues pour reconstituer les donn ees, ou encore de la dimension du
sous-espace de repr esentation.
De nombreux crit` eres de choix pour q ont et e propos es dans la litt erature. Nous pr esentons ici ceux, les
plus courants, bas es sur une heuristique et un reposant sur une quantication de la stabilit e du sous-espace
de repr esentation. Dautres crit` eres, non explicit es, sinspirent des pratiques statistiques d ecisionnelles ;
sous lhypoth` ese que lerreur admet une distribution gaussienne, on peut exhiber les lois asymptotiques des
valeurs propres et donc construire des tests de nullit e ou d egalit e de ces derni` eres. Malheureusement, outre
la n ecessaire hypoth` ese de normalit e, ceci conduit ` a une proc edure de tests embot es dont le niveau global
est incontr olable. Leur utilisation reste donc heuristique.
6.1 Part dinertie
La qualit e globale des repr esentations est mesur ee par la part dinertie expliqu ee :
r
q
=
q
k=1
p
k=1
k
.
La valeur de q est choisie de sorte que cette part dinertie expliqu ee r
q
soit sup erieure ` a une valeur seuil
x ee a priori par lutilisateur. Cest souvent le seul crit` ere employ e.
6.2 R` egle de Kaiser
On consid` ere que, si tous les el ements de Y sont ind ependants, les composantes principales sont toutes
de variances egales ( egales ` a 1 dans le cas de lACP r eduite). On ne conserve alors que les valeurs propres
sup erieures ` a leur moyenne car seules jug ees plus informatives que les variables initiales ; dans le cas
dune ACP r eduite, ne sont donc retenues que celles plus grandes que 1. Ce crit` ere, utilis e implicitement
par SAS/ASSIST, a tendance ` a surestimer le nombre de composantes pertinentes.
6.3

Eboulis des valeurs propres
Cest le graphique (gures 6.3 et 6.3) pr esentant la d ecroissance des valeurs propres. Le principe
consiste ` a rechercher, sil existe, un coude (changement de signe dans la suite des diff erences dordre 2)
dans le graphe et de ne conserver que les valeurs propres jusqu` a ce coude. Intuitivement, plus l ecart
(
q

q+1
) est signicativement grand, par exemple sup erieur ` a (
q1

q
), et plus on peut etre assur e
de la stabilit e de

E
q
.
6.4 Botes-` a-moustaches des variables principales
Un graphique (gure 6.4 et 6.4) pr esentant, en parall` ele, les botes-` a-moustaches des variables princi-
pales illustre bien leurs qualit es : stabilit e lorsquune grande bote est associ ee ` a de petites moustaches,
instabilit e en pr esence dune petite bote, de grandes moustaches et de points isol es. Intuitivement, on
conserve les premi` eres grandes botes. Les points isol es ou outliers d esignent les points ` a forte contri-
bution, ou potentiellement inuents, dans une direction principale. Ils n ecessitent une etude clinique : une
autre analyse dans laquelle ils sont d eclar es suppl ementaires (poids nuls) an d evaluer leur impact sur
lorientation des axes.
6.5 Stabilit e du sous-espace
La pr esentation de lACP, comme r esultat de lestimation dun mod` ele, offre une autre approche au
probl` eme du choix de dimension. La qualit e des estimations est evalu ee de facon habituelle en statistique
par un risque moyen quadratique d enissant un crit` ere de stabilit e du sous-espace de repr esentation. Il est
d eni comme lesp erance dune distance entre le mod` ele vrai et lestimation qui en est faite. Besse (1992)
P C T V A R
0 . 0
0 . 2
0 . 4
0 . 6
0 . 8
1 . 0
K
0 1 2 3 4 5 6 7 8 9 1
0
1
1
1
2
FIGURE 3.7 Temp eratures : eboulis des valeurs propres.
P C T V A R
0 . 0
0 . 2
0 . 4
0 . 6
0 . 8
1 . 0
K
0 1 2 3 4 5 6 7
FIGURE 3.8 Carte Visa : eboulis des valeurs propres.
C C
- 1 0
0
1 0
2 0
K
0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2
FIGURE 3.9 Temp eratures : composantes en botes.
6. Choix de dimension 43
C C
- 3
- 2
- 1
0
1
2
3
4
5
K
0 1 2 3 4 5 6 7
FIGURE 3.10 Carte Visa Premier : composantes en botes.
propose d etudier la qualit e de lestimation du sous-espace de repr esentation

E
q
en consid` erant la fonction
perte :
L
q
= Q(E
q
,
E
q
) =
1
2
_
_
_P
q

P
q
_
_
_
2
M,D
= q trP
q
P
q
,
o` u Q mesure la distance entre deux sous-espaces par la distance usuelle entre les matrices de projection
qui leur sont associ ees. Cest aussi la somme des carr es des coefcients de corr elation canonique entre les
ensembles de composantes ou de variables principales qui engendrent respectivement E
q
et son estimation
E
q
.
Un risque moyen quadratique est alors d eni en prenant lesp erance de la fonction perte :
R
q
= EQ(E
q
,
E
q
). (3.4)
Sans hypoth` ese sur la distribution de lerreur, seules des techniques de r e- echantillonnage (bootstrap, jackk-
nife) permettent de fournir une estimation de ce risque moyen quadratique. Leur emploi est justi e, car le
risque est invariant par permutation des observations, mais co uteux en temps de calcul. On se pose donc la
question de savoir pour quelles valeurs de q les repr esentations graphiques sont ables, cest-` a-dire stables
pour des uctuations de l echantillon. Besse (1992) propose dutiliser une approximation de lestimateur
par jackknife ; elle fournit, directement ` a partir des r esultats de lA.C.P. (valeurs propres et composantes
principales), une estimation satisfaisante du risque :
R
JKq
=

R
Pq
+O((n 1)
2
).
R
Pq
est une approximation analytique de lestimateur jackknife qui a pour expression :
R
Pq
=
1
n 1
q
k=1
p
j=q+1
1
n
n
i=1
(c
k
i
)
2
(c
j
i
)
2
(
j

k
)
2
(3.5)
o` u c
j
i
d esigne le terme g en eral de la matrice des composantes principales C.
Ce r esultat souligne limportance du r ole que joue l ecart (
q

q+1
) dans la stabilit e du sous-espace
de repr esentation. Le d eveloppement est inchang e dans le cas dune ACP r eduite ; de plus, il est valide tant
que
n >
|S|
2
2
inf (
k

k+1
); k = 1, . . . , q
.
La gure 3.11 montrent la stabilit e du sous-espace de repr esentation en fonction de la dimension q pour
lA.C.P. des donn ees de temp eratures. Comme souvent, le premier axe est tr` es stable tandis que le premier
1 2 3 4 5 6 7 8 9 10 11 12
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
FIGURE 3.11 Temp eratures : stabilit e des sous-espaces.
plan reste able. Au del` a, les axes etant tr` es sensibles ` a toute perturbation des donn ees, ils peuvent etre
associ es ` a du bruit. Ces r esultats sont coh erents avec les deux crit` eres graphiques pr ec edents mais souvent,
en pratique, le crit` ere de stabilit e conduit ` a un choix de dimension plus explicite.
7 Interpr etation
Les macros SAS d ecrites en exemple, de m eme que la plupart des logiciels, proposent, ou autorisent,
l edition des diff erents indicateurs (contributions, qualit es, corr elations) et graphiques d enis dans les pa-
ragraphes pr ec edents.
Les contributions permettent didentier les individus tr` es inuents pouvant d eterminer ` a eux seuls
lorientation de certains axes ; ces points sont v eri es, caract eris es, puis eventuellement consid er es
comme suppl ementaires dans une autre analyse.
Il faut choisir le nombre de composantes ` a retenir, cest-` a-dire la dimension des espaces de repr esentation.
Les axes factoriels sont interpr et es par rapport aux variables initiales bien repr esent ees.
Les graphiques des individus sont interpr et es, en tenant compte des qualit es de repr esentation, en
termes de regroupement ou dispersions par rapport aux axes factoriels et projections des variables
initiales.
Les quelques graphiques pr esent es sufsent, dans la plupart des cas, ` a linterpr etation dune ACP clas-
sique et evitent la sortie volumineuse, lorsque n est grand, des tableaux usuels daide ` a linterpr etation.
On echappe ainsi ` a une critique fr equente, et souvent justi ee, des anglo-saxons vis-` a-vis de la pratique
francaise de lanalyse des donn ees qui, paradoxalement, cherche ` a r esumer au mieux linformation
mais produit plus de chiffres en sortie quil ny en a en entr ee ! Remarque. LACP est une technique
lin eaire optimisant un crit` ere quadratique ; elle ne tient donc pas compte d eventuelles liaisons non lin eaires
et pr esente une forte sensibilit e aux valeurs extr emes.
Nous donnons pour cet exemple le graphique des premi` eres valeurs propres (gure 3.12) qui conduit ` a
consid erer trois dimensions repr esentant environ les deux tiers de linertie globale.
Les gures 3.13 et 3.14 donnent la repr esentation des souris et celle des g` enes, dabord dans le premier
plan principal, ensuite dans celui correspondant aux dimensions 1 et 3. Dans le cadre de cette ACP, il est
V
a
r
ia
n
c
e
s
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
FIGURE 3.12 Souris : eboulis des dix premi` eres valeurs propres de lACP.
coh erent de rechercher quels sont les 25% des g` enes contribuant le plus ` a la d enition de lespace propre
` a trois dimensions jug e pertinent. Avec cette s election, la repr esentation des variables ainsi restreinte ` a 30
g` enes est plus facilement lisible sur les gures 3.13 et 3.14. Toutefois, dans le cas dune puce pang enomique,
avec potentiellement plusieurs milliers de g` enes, une telle repr esentation ne serait pas exploitable.
Le premier plan (Fig. 3.13) doit etre interpr et e globalement puisque sa premi` ere bissectrice s epare
exactement les souris WT des souris PPAR. Les g` enes ` a coordonn ees n egatives sur laxe 1 et positives sur
laxe 2 sont sensiblement plus exprim es chez les souris WT, en particulier CYP3A11, CYP4A10, CYP4A14,
THIOL, PMDCI, GSTpi2, L.FABP et FAS.
`
A linverse, les g` enes ` a forte coordonn ee n egative sur laxe 2
sexpriment davantage chez les souris PPAR, par exemple, S14, PAL et CAR1. Ceci est en partie connu
des biologistes (Aoyama et al., 1998).
Le ph enom` ene le plus marquant concernant laxe 3 (Fig. 3.14) est lopposition, chez les souris WT,
entre les r egimes dha (1), dont les coordonn ees sont toutes positives, et efad (2), dont les coordonn ees
sont toutes n egatives. Les g` enes les plus exprim es dans le premier cas (r egime dha chez les souris WT) sont
CYP3A11, CYP4A10, CYP4A14, CYP2c29 et CAR1; dans le second cas (r egime efad chez les m emes
souris), il sagit des g` enes FAS, S14, Lpin et Lpin1. Parmi ces r egulations, on note une opposition
entre les CYP4A, connus pour etre impliqu es dans le catabolisme des acides gras, et les g` enes FAS et S14
impliqu es eux dans la synth` ese des lipides. Par ailleurs, la r egulation de CYP3A11 par le DHA a d ej` a et e
d ecrite dans Berger et al. (2002).
1.5 1.0 0.5 0.0 0.5 1.0 1.5
1
.
5
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
Dimension 1
D
i
m
e
n
s
i
o
n

2
3
5
5
1
4
2
3
3
1
2
1
4
5
4
5
3
2
1
2
4
2
4
5
1
5
4
4
3
1
3
2
2
4
5 1
2
3
1
3
5
0.4 0.2 0.0 0.2
0
.
4
0
.
2
0
.
0
0
.
2
Dimension 1
D
i
m
e
n
s
i
o
n

2
ACC2
ACOTH
AOX
BIEN
CAR1
CYP2c29
CYP3A11
CYP4A10
CYP4A14
FAS
G6Pase
GK
GSTmu
GSTpi2
HMGCoAred
L.FABP
LPK
Lpin
Lpin1
MCAD
NGFiB
PAL
PECI
PMDCI
S14
SHP1
THIOL
TRa
cHMGCoAS
mHMGCoAS
FIGURE 3.13 Souris : Repr esentations de lACP sur le premier plan principal.
`
A gauche : individus-souris
identi es par leur g enotype (WT en gras, PPAR en italique) et leur r egime (1-dha, 2-efad, 3-lin , 4-ref,
5-tsol).
`
A droite : 30 variables-g` enes qui contribuent le plus aux trois premiers axes.
1.5 1.0 0.5 0.0 0.5 1.0 1.5
1
.
5
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
Dimension 1
D
i
m
e
n
s
i
o
n

3 3
5
5
1
4
2
3
3
1
2
1
4
5
4
5
3
2
1
2
4
2
4
5
1
5
4
4
3
1
3
2
2
4
5
1
2
3
1
3
5
0.4 0.2 0.0 0.2
0
.
4
0
.
2
0
.
0
0
.
2
Dimension 1
D
i
m
e
n
s
i
o
n

3
ACC2
ACOTH
AOX
BIEN
CAR1
CYP2c29
CYP3A11
CYP4A10
CYP4A14
FAS
G6Pase
GK
GSTmu
GSTpi2
HMGCoAred
L.FABP
LPK
Lpin
Lpin1
MCAD
NGFiB
PAL
PECI
PMDCI
S14
SHP1
THIOL
TRa
cHMGCoAS
mHMGCoAS
FIGURE 3.14 Souris : Repr esentations de lACP sur le plan compos e des axes principaux 1 et 3 avec les
m emes conventions que pour la gure 3.13.
Chapitre 4
Analyse Factorielle Discriminante
1 Introduction
1.1 Donn ees
Les donn ees sont constitu ees de
p variables quantitatives X
1
, . . . , X
p
jouant le r ole de variables explicatives comme dans le mod` ele
lin eaire,
une variable qualitative T, ` a m modalit es T
1
, . . . , T
m
, jouant le r ole de variable ` a expliquer.
La situation est analogue ` a celle de la r egression lin eaire multiple mais, comme la variable ` a expliquer
est qualitative, on aboutit ` a une m ethode tr` es diff erente. Les variables sont observ ees sur lensemble des
n individus affect es des poids w
i
> 0, (
n
i=1
w
i
= 1), et lon pose
D = diag(w
i
; i = 1, . . . , n).
La variable T engendre une partition
; = 1, . . . , m de lensemble des individus dont chaque

el ement est deffectif n
.
On note T (n m) la matrice des indicatrices des modalit es de la variable T ; son terme g en eral est
t
i
= t
(
i
) =
_
1 si T(
i
) = T
0 sinon
.
En posant
w
w
i
,
il vient
D = T
DT = diag(w
1
, . . . , w
m
).
1.2 Objectifs
Deux techniques cohabitent sous la m eme appellation danalyse discriminante :
descriptive : cette m ethode recherche, parmi toutes les ACP possibles sur les variables X
j
, celle dont les
repr esentations graphiques des individus discriminent au mieux les m classes engendr ees par la
variable T (e.g. recherche de facteurs de risque en statistique m edicale) ;
d ecisionnelle : connaissant, pour un individu donn e, les valeurs des Y
j
mais pas la modalit e de T, cette
m ethode consiste ` a affecter cet individu ` a une modalit e (e.g. reconnaissance de formes). Cette m ethode
est d ecrite dans la partie mod elisation de ce cours.
Remarque. Lorsque le nombre et les caract eristiques des classes sont connues, il sagit dune discrimina-
tion ; sinon, on parle de classication ou encore, avec des hypoth` eses sur les distributions, de reconnaissance
de m elanges.
47
48 Chapitre 4. Analyse Factorielle Discriminante
1.3 Notations
On note X la matrice (n p) des donn ees quantitatives, G la matrice (m p) des barycentres des
classes :
G = D
1
T
DX =
_
_
g
1
.
.
.
g
m
_ o` u g
=
1
w
w
i
x
i
,
et X
e
la matrice (n p) dont la ligne i est le barycentre g
de la classe
` a laquelle appartient lindividu

i :
X
e
= TG = PG;
P = TD
1
T
Dest la matrice de projection D-orthogonale sur le sous-espace engendr e par les indicatrices
de T ; cest encore lesp erance conditionnelle sachant T.
Deux matrices centr ees sont d enies de sorte que Xse d ecompose en
X = X
r
+X
e
avec
X
r
= XX
e
et X
e
= X
e
1
n
x
.
On note egalement Gla matrice centr ee des barycentres :
G = G1
m
x
.
On appelle alors variance intraclasse (within) ou r esiduelle :
S
r
= X
r
DX
r
=
m
=1
w
i
(x
i
g
)(x
i
g
,
et variance interclasse (between) ou expliqu ee :
S
e
= G
DG = X
e
DX
e
=
m
=1
w
(g
x)(g
x)
.
PROPOSITION 4.1. La matrice des covariances se d ecompose en
S = S
e
+S
r
.
2 D enition
2.1 Mod` ele
Dans lespace des individus, le principe consiste ` a projeter les individus dans une direction permettant
de mettre en evidence les groupes.
`
A cette n, Il faut privil egier la variance interclasse au d etriment de la
variance intraclasse consid er ee comme due au bruit.
En ACP, pour chaque effet z
i
` a estimer, on ne dispose que dune observation x
i
; dans le cas de lAFD
on consid` ere que les el ements dune m eme classe
sont les observations r ep et ees n
fois du m eme effet

z
pond er e par w
w
i
. Le mod` ele devient donc :
x
i
; i = 1, . . . , n, n vecteurs ind ependants de E,
, i
, x
i
= z
+
i
avec
_
E(
i
) = 0, var(
i
) = ,
r eguli` ere et inconnue,
A
q
, sous-espace afne de de dimension q de E tel que
, z
A
q
, (q < min(p, m1)).
(4.1)
Remarque. Soit z =
m
=1
w
. Le mod` ele entrane que z A

q
. Soit E
q
le sous-espace de dimension
q de E tel que A
q
= z +E
q
. Les param` etres ` a estimer sont E
q
et z
; = 1, . . . , m ; w
est un param` etre

de nuisance qui ne sera pas consid er e.
3. R ealisation de lAFD 49
2.2 Estimation
Lestimation par les moindres carr es s ecrit ainsi :
min
E
q
,z
_
m
=1
w
i
|x
i
z
|
2
M
; dim(E
q
) = q, z
z E
q
_
.
Comme on a
m
=1
w
i
|x
i
z
|
2
M
=
m
=1
w
i
|x
i
g
|
2
M
+
m
=1
w
|g
|
2
M
,
on est conduit ` a r esoudre :
min
E
q
,z
_
m
=1
w
|g
|
2
M
; dim(E
q
) = q, z
z E
q
_
.
La covariance
2
du mod` ele (4.1) etant inconnue, il faut lestim ee. Ce mod` ele stipule que lensemble
des observations dune m eme classe
l
suit une loi (inconnue) de moyenne z
e
ll et de variance . Dans ce
cas particulier, la matrice de covariances intraclasse ou matrice des covariances r esiduelles empiriques S
r
fournit donc une estimation optimale de la m etrique de r ef erence :
M=

1
= S
1
r
.
PROPOSITION 4.2. Lestimation des param` etres E
q
et z
du mod` ele 4.1 est obtenue par lACP de

(G, S
1
r
, D). Cest lAnalyse Factorielle Discriminante (AFD) de (X[T, D) .
3 R ealisation de lAFD
Les expressions matricielles d enissant les repr esentations graphiques et les aides ` a linterpr etation
d ecoulent de celles de lACP.
3.1 Matrice ` a diagonaliser
LACP de (G, S
1
r
, D) conduit ` a lanalyse spectrale de la matrice positive S
1
r
-sym etrique :
G
DGS
1
r
= S
e
S
1
r
.
Comme S
1
r
est r eguli` ere, cette matrice est de m eme rang que S
e
et donc de m eme rang que G qui est de
dimension (mp). Les donn ees etant centr ees lors de lanalyse, le rang de la matrice ` a diagonaliser est
h = rang(S
e
S
1
r
) inf(m1, p),
qui vaut en g en eral m1 cest-` a-dire le nombre de classes moins un.
On note
1

h
> 0 les valeurs propres de S
e
S
1
r
et v
1
, . . . , v
h
les vecteurs propresS
1
r
-
orthonorm es associ es. On pose
= diag(
1
, . . . ,
h
) et V = [v
1
, . . . , v
h
].
Les vecteurs v
k
sont appel es vecteurs discriminants et les sous-espaces vectoriels de dimension 1 quils
engendrent dans IR
p
les axes discriminants.
3.2 Repr esentation des individus
Lespace des individus est (IR
p
, b. c., S
1
r
). Une repr esentation simultan ee des individus x
i
et des
barycentres g
des classes par rapport aux m emes axes discriminants est obtenue dans cet espace au moyen
des coordonn ees :
C = XS
1
r
V pour les individus et
C = GS
1
r
V = D
1
T
DC pour les barycentres.

Les individus initiaux sont projet es comme des individus suppl ementaires dans le syst` eme des axes discri-
minants. Comme en ACP, on peut calculer des cosinus carr es pour pr eciser la qualit e de repr esentation de
chaque individu.
Il est utile de diff erencier graphiquement la classe de chaque individu an de pouvoir appr ecier visuel-
lement la qualit e de la discrimination.
3.3 Repr esentation des variables
Lespace des variables est (IR
m
, b. c., D). Chaque variable X
j
est repr esent e par un vecteur dont les
coordonn ees dans le syst` eme des axes factoriels est une ligne de la matrice V
1/2
.
3.4 Interpr etations
Les interpr etations usuelles : la norme est un ecart-type, un cosinus dangle est un coefcient de
corr elation, doivent etre faites en termes d ecarts-types et de corr elations expliqu ees par la partition.
La repr esentation des variables est utilis ee pour interpr et ee les axes en fonction des variables initiales
conjointement avec la matrice des corr elations expliqu ees variablesfacteurs :
1
e
V
1/2
. La matrice
1
e
etant la matrice diagonale des ecarts-types expliqu es
j
e
cest-` a-dire des racines carr ees des el ements
diagonaux de la matrice S
e
.
Le point pratique essentiel est de savoir si la repr esentation des individus-barycentres et des individus
initiaux permet de faire une bonne discrimination entre les classes d enies par la variable T. Si ce nest pas
le cas, lAFD ne sert ` a rien, les X
j
nexpliquent pas T. Dans le cas favorable, le graphique des individus
permet dinterpr eter la discrimination en fonction des axes et, celui des variables, les axes en fonction des
variables initiales. La synth` ese des deux permet linterpr etation de T selon les X
j
.
4 Variantes de lAFD
4.1 Individus de m emes poids
LAFD peut etre d enie de diff erentes facon. Dans la litt erature anglo-saxonne, et donc dans la version
standard dAFD du logiciel SAS (proc edure candisc), ce sont les estimations sans biais des matrices de
variances intra (within) et inter (between) qui sont consid er ees dans le cas dindividus de m emes poids
1/n.
Dans ce cas particulier,
D =
1
n
I
n
et D =
1
n
diag(n
1
, . . . , n
m
) o` u n
= card(
)
et les matrices de covariances empiriques ont alors pour termes g en eraux :
(S)
k
j
=
1
n
n
i=1
(x
j
i
x
j
)(x
k
i
x
k
),
(S
e
)
k
j
=
1
n
m
=1
n
(g
j
x
j
)(g
k
x
k
),
(S
r
)
k
j
=
1
n
m
=1
(x
j
i
g
j
)(x
k
i
g
k
).
5. Exemples 51
Du point de vue de le Statistique inf erentielle, on sait que les quantit es calcul ees ci-dessus ont respec-
tivement (n 1), (m 1) et (n m) degr es de libert e. En cons equence, ce point de vue est obtenu en
remplacant dans les calculs
S par S
=
n
n 1
S,
S
e
par S
e
= B =
n
m1
S
e
,
S
r
par S
r
= W =
n
n m
S
r
.
Les r esultats num eriques de lAFD se trouvent alors modi es de la facon suivante :
matrice ` a diagonaliser : S
e
S
1
r
=
nm
m1
S
e
S
1
r
,
valeurs propres :
=
nm
m1
,
vecteurs propres : V
=
_
n
nm
V,
repr esentation des barycentres : C
=
_
nm
n
C,
repr esentation des variables : V
1/2
=
_
n
m1
V
1/2
,
corr elations variables-facteurs :
1
e
V
1/2
=
1
e
V
1/2
.
Ainsi, les repr esentations graphiques sont identiques ` a un facteur d echelle pr` es tandis que les parts de
variance expliqu ee et les corr elations variables-facteurs sont inchang ees.
4.2 M etrique de Mahalanobis
LAFD est souvent introduite dans la litt erature francophone comme un cas particulier dAnalyse Ca-
nonique entre un ensemble de p variables quantitatives et un ensemble de m variables indicatrices des
modalit es de T. La proposition suivante etablit les relations entre les deux approches :
PROPOSITION 4.3. lACP de (G, S
1
r
, D) conduit aux m emes vecteurs principaux que lACP de (G, S
1
, D).
Cette derni` ere est lACP des barycentres des classes lorsque lespace des individus est muni de la m etrique
dite de Mahalanobis M= S
1
et lespace des variables de la m etrique des poids des classes D.
Les r esultats num eriques de lAFD se trouvent alors modi es de la facon suivante :
matrice ` a diagonaliser : S
e
S
1
,
valeurs propres : (I +)
1
,
vecteurs propres : V(I +)
1/2
,
repr esentation des barycentres : C(I +)
1/2
,
repr esentation des variables : V
1/2
,
corr elations variables-facteurs :
1
e
V
1/2
.
Les repr esentations graphiques des individus (voir ci-dessus) ne diff` erent alors que dune homoth etie et
conduisent ` a des interpr etations identiques, les corr elations variables-facteurs ainsi que les repr esentations
des variables sont inchang ees.
5 Exemples
Ce chapitre est illustr e par une comparaison des sorties graphiques issues dune ACP et dune AFD. Les
donn ees d ecrivent trois classes dinsectes sur lesquels ont et e r ealis ees 6 mesures anatomiques. On cherche
` a savoir si ces mesures permettent de retrouver la typologie de ces insectes. Ce jeu de donn ees scolaire
conduit ` a une bien meilleure discrimination que ce que lon peut obtenir dans une situation concr` ete.
Cest ce qui se passe avec les donn ees bancaires. La discrimination obtenue nest pas tr` es nette, une
meilleure le sera en consid erant une s election de variables plus adapt ee. Dautre part, la situation est ici tr` es
A
x
e

2
- 4
- 3
- 2
- 1
0
1
2
3
A x e 1
- 4 - 3 - 2 - 1 0 1 2 3 4
FIGURE 4.1 Insectes : premier plan factoriel de lACP.
A
x
e

2
- 4
- 3
- 2
- 1
0
1
2
3
4
5
A x e 1
- 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7
FIGURE 4.2 Insectes : premier plan factoriel de lAFD.
5. Exemples 53
C A R V P R 0 1
P S E U D Y
0 . 0
0 . 1
0 . 2
0 . 3
0 . 4
0 . 5
0 . 6
0 . 7
0 . 8
0 . 9
1 . 0
C A N 1
- 2 - 1 0 1 2 3 4 5
FIGURE 4.3 Banque : premier plan factoriel de lAFD. Laxe 2 est issu dun tirage al eatoire, laxe 1 ne
fournit pas une discrimination tr` es marqu ee. Cela remet en cause la popssibilit e de discrimination lin eaire
des deuc classes.
particuli` ere car la variable ` a expliquer nayant que deux modalit es, la dimension du sous-espace est r eduite
` a un. Une deuxi` eme dimension est g en er ee de facon al eatoire an de rendre plus lisible la repr esentation
des individus.
Enn, cette technique nest pas adapt ee aux probl` emes li es aux donn ees dexpression. En effet, le
nombre de param` etre discriminants y tr` es important et conduit ` a un probl` eme dind etermination. Nous
navons donc pas trouver dexemple dapplication pertinent pour des donn ees dexpression. Plus pr ecis ement,
avec le nombre de variables/g` enes pr esents, il est toujours possible de trouver un ou des axes discrimi-
nants diff erents types d echantillons biologiques. Le probl` eme est en fait mal pos e (plus dinconnues que
d equations). Il semble donc que cet objectif de dicrimination doit etre abord e avec dautres outils issus de
la th eorie de lapprentissage.
Chapitre 5
Analyse Factorielle des
Correspondances
1 Introduction
1.1 Donn ees
On consid` ere dans ce chapitre deux variables qualitatives observ ees simultan ement sur n individus
affect es de poids identiques 1/n. On suppose que la premi` ere variable, not ee X, poss` ede r modalit es not ees
x
1
, . . . , x
, . . . , x
r
, et que la seconde, not ee Y , poss` ede c modalit es not ees y
1
, . . . , y
h
, . . . , y
c
.
La table de contingence associ ee ` a ces observations, de dimension r c, est not ee T; son el ement
g en erique est n
h
, effectif conjoint. Elle se pr esente sous la forme suivante :
y
1
y
h
y
c
sommes
x
1
n
11
n
1h
n
1c
n
1+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
n
1
n
h
n
c
n
+
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
r
n
r1
n
rh
n
rc
n
r+
sommes n
+1
n
+h
n
+c
n
1.2 Notations
Les quantit es n
+
=
c
h=1
n
h
; = 1, . . . , r et n
+h
=
r
=1
n
h
; h = 1, . . . , c sont les effectifs
marginaux v eriant
r
=1
n
+
=
c
h=1
n
+h
= n. De facon analogue, on d enit les notions de fr equences
conjointes (f
h
= n
h
/n) et de fr equences marginales. Ces derni` eres sont rang ees dans les vecteurs :
g
r
= [f
1+
, . . . , f
r+
]
,
et g
c
= [f
+1
, . . . , f
+c
]
.
Elles permettent de d enir les matrices :
D
r
= diag(f
1+
, . . . , f
r+
),
et D
c
= diag(f
+1
, . . . , f
+c
).
On sera egalement amen e ` a consid erer les prolslignes et les prolscolonnes d eduits de T. Le ` eme
prol-ligne est
n
1
n
+
, . . . ,
n
h
n
+
, . . . ,
n
c
n
+
.
55
56 Chapitre 5. Analyse Factorielle des Correspondances
Il est consid er e comme un vecteur de IR
c
et les r vecteurs ainsi d enis sont dispos es en colonnes dans la
matrice c r
A =
1
n
T
D
1
r
.
De m eme, le h` eme prol-colonne est
n
1h
n
+h
, . . . ,
n
h
n
+h
, . . . ,
n
rh
n
+h
,
vecteur de IR
r
, et la matrice r c des prols-colonnes est
B =
1
n
TD
1
c
.
1.3 Liaison entre deux variables qualitatives
D EFINITION 5.1. On dit que deux variables X et Y sont non li ees relativement ` a T si et seulement si :
(, h) 1, . . . , r 1, . . . , c : n
h
=
n
+
n
+h
n
.
Il est equivalent de dire que tous les prols-lignes sont egaux, ou encore que tous les prols-colonnes
sont egaux (voir chapitre 2).
Cette notion est coh erente avec celle dind ependance en probabilit es. En effet, soit = 1, . . . , n
lensemble des individus observ es et (, T(), P) lespace probabilis e associ e o` u P est l equiprobabilit e ;
/
X
= x
1
, . . . , x
r
et /
Y
= y
1
, . . . , y
c
d esignent les ensembles de modalit es, ou valeurs prises par
les variables X et Y . On note

X et

Y les variables al eatoires associ ees aux 2 variables statistiques X et Y :
X : (, T(), P) (/
X
, T(/
X
)),
Y : (, T(), P) (/
Y
, T(/
Y
)) ;
P
X
, P
Y
et P
XY
d esignent respectivement les probabilit es images d enies par

X,

Y et le couple (
X,

Y )
sur (/
X
, T(/
X
)), (/
Y
, T(/
Y
)) et (/
X
/
Y
, T(/
X
) T(/
Y
)) ; ce sont les probabilit es em-
piriques. Alors, X et Y sont non li ees si et seulement si

X et

Y sont ind ependantes en probabilit e (la
v erication est imm ediate).
On suppose maintenant quil existe une liaison entre X et Y que lon souhaite etudier. La repr esentation
graphique des prols-lignes ou des prols-colonnes, au moyen de diagrammes en barres parall` eles, ainsi
que le calcul de coefcients de liaison (Cramer ou Tschuprow) donnent une premi` ere id ee de la varia-
tion conjointe des deux variables (voir chapitre 2). Le test du
2
permet de plus de sassurer du caract` ere
signicatif de cette liaison. Il est construit de la mani` ere suivante :
lhypoth` ese nulle est H0 :

X et

Y sont ind ependantes en probabilit es ;
lhypoth` ese alternative est H1 : les variables

X et

Y ne sont pas ind ependantes.
La statistique de test est alors
2
=
r
=1
c
h=1
_
n
h

n
+
n
+h
n
_
2
n
+
n
+h
n
;
elle suit asymptotiquement (pour les grandes valeurs de n), et si lhypoth` ese H0 est vraie, une loi de
2
` a
(r 1)(c 1) degr es de libert e. On rejette donc H0 (et lon conclut au caract` ere signicatif de la liaison)
si
2
d epasse une valeur particuli` ere (valeur ayant une probabilit e faible et x ee a priori en g en eral 0,05
d etre d epass ee par une loi de
2
` a (r 1)(c 1) degr es de libert e).
1.4 Objectifs
Pour pr eciser la liaison existant entre les variables X et Y , on souhaite d enir un mod` ele statistique
susceptible de fournir des param` etres dont la repr esentation graphique (de type biplot) illustrera les cor-
respondances entre les modalit es de ces 2 variables. Cette approche sera d evelopp ee au paragraphe 3.
Une autre approche, tr` es courante dans la litt erature francophone, consiste ` a d enir lAnalyse Factorielle
des Correspondances (AFC) comme etant le r esultat dune double Analyse en Composantes Principales
2. Double ACP 57
lACP des prolslignes,
lACP des prolscolonnes,
relativement ` a la m etrique dite du
2
. Cette approche est pr esent ee au paragraphe 2.
Remarque. :
i. Toute structure dordre existant eventuellement sur les modalit es de X ou de Y est ignor ee par lAFC
ii. Tout individu pr esente une modalit e et une seule de chaque variable.
iii. Chaque modalit e doit avoir et e observ ee au moins une fois ; sinon, elle est supprim ee.
2 Double ACP
2.1 M etriques du
2
Les correspondances entre modalit es evoqu ees au paragraphe pr ec edant se trouvent exprim ees en termes
de distances au sens dune certaine m etrique. Ainsi, chaque modalit e x
de X est caract eris ee par son prol

ligne repr esent e par le vecteur a
de lespace IR
c
muni de la base canonique (les coordonn ees de a
sont
les el ements de la ` eme colonne de A). De m eme, chaque modalit e y
h
de Y est caract eris ee par son prol
colonne repr esent e par le vecteur b
h
de lespace IR
r
muni de la base canonique.
Ces espaces sont respectivement munis des m etriques, dites du
2
, de matrices D
1
c
et D
1
r
. Ainsi, la
distance entre deux modalit es x
et x
i
de X s ecrit
|a
a
i
|
2
D
1
c
=
c
h=1
1
f
+h
(a
h
a
i
h
)
2
,
et de m eme pour les modalit es de Y . La m etrique du
2
introduit les inverses des fr equences margi-
nales des modalit es de Y comme pond erations des ecarts entre el ements de deux prols relatifs ` a X (et
r eciproquement) ; elle attribue donc plus de poids aux ecarts correspondants ` a des modalit es de faible effec-
tif (rares) pour Y .
2.2 ACP des prolscolonnes
On sint eresse ici ` a lACP du triplet (B
, D
1
r
, D
c
). Dans cette ACP, les individus sont les modalit es
de Y , caract eris ees par les prolscolonnes de T, pond er ees par les fr equences marginales correspondantes
et rang ees en lignes dans la matrice B
.
PROPOSITION 5.2. Les el ements de lACP de (B
, D
1
r
, D
c
) sont fournis par lanalyse spectrale de la
matrice carr ee, D
1
r
sym etrique et semid enie positive BA.
Preuve Elle se construit en remarquant successivement que :
i. le barycentre du nuage des prolscolonnes est le vecteur g
r
des fr equence marginales de X,
ii. la matrice BD
c
B
g
r
D
c
g
r
joue le r ole de la matrice des variancescovariances,
iii. la solution de lACP est fournie par la D.V.S. de (B
1g
r
, D
1
r
, D
c
), qui conduit ` a rechercher les valeurs et
vecteurs propres de la matrice (SM)
BD
c
B
D
1
r
g
r
D
c
g
r
= BAg
r
g
r
D
1
r
( car B
D
1
r
= D
1
c
A)
iv. les matrices BA g
r
g
r
D
1
r
et BA ont les m emes vecteurs propres associ ees aux m emes valeurs propres, ` a
lexception du vecteur g
r
associ e ` a la valeur propre
0
= 0 de BAg
r
g
r
D
1
r
et ` a la valeur propre
0
= 1 de
BA.
2
On note U la matrice contenant les vecteurs propres D
1
r
orthonorm es de BA. La repr esentation des
individus de lACP r ealis ee fournit une repr esentation des modalit es de la variable Y . Elle se fait au
moyen des lignes de la matrice des composantes principales (XMV) :
C
c
= B
D
1
r
U.
2.3 ACP des prolslignes
De facon sym etrique (ou duale), on sint eresse ` a lACP des individus modalit es de X ou prols
lignes (la matrice des donn ees est A
), pond er es par les fr equences marginales des lignes de T (la matrice

diagonale des poids est D
r
) et utilisant la m etrique du
2
. Il sagit donc de lACP de (A
, D
1
c
, D
r
).
PROPOSITION 5.3. Les el ements de lACP de (A
, D
1
c
, D
r
) sont fournis par lanalyse spectrale de la
matrice carr ee, D
1
c
sym etrique et semid enie positive AB.
On obtient directement les r esultats en permutant les matrices A et B, ainsi que les indices c et r.
Notons V la matrice des vecteurs propres de la matrice AB; les coordonn ees permettant la repr esentation
les modalit es de la variable X sont fournies par la matrice :
C
r
= A
D
1
c
V.
Sachant que V contient les vecteurs propres de AB et Uceux de BA, le th eor` eme (A.1) montre quil
suft de r ealiser une seule analyse, car les r esultats de lautre sen d eduisent simplement :
V = AU
1/2
,
U = BV
1/2
;
est la matrice diagonale des valeurs propres (except ee
0
= 0) communes aux deux ACP
C
c
= B
D
1
r
U = B
D
1
r
BV
1/2
= D
1
c
ABV
1/2
= D
1
c
V
1/2
,
C
r
= A
D
1
c
V = D
1
r
U
1/2
.
On en d eduit les formules dites de transition :
C
c
= B
C
r
1/2
,
C
r
= A
C
c
1/2
.
La repr esentation simultan ee habituellement construite ` a partir de ces matrices (option par d efaut de
SAS) nest pas a priori justi ee. On lui donnera un sens dans les paragraphes suivants.
3 Mod` eles pour une table de contingence
On ecrit dabord que chaque fr equence f
h
de Tcorrespond ` a lobservation dune probabilit e th eorique
p
h
; on mod elise donc la table de contingence par cette distribution de probabilit es. On pr ecise ensuite le
mod` ele en explicitant l ecriture de p
h
. Diff erents mod` eles classiques peuvent etre consid er es.
3.1 Le mod` ele loglin eaire
Il consiste ` a ecrire :
ln(p
h
) = +
+
h
+
h
avec des contraintes le rendant identiable. Ce mod` ele, tr` es classique, ne sera pas d evelopp e ici. On pourra
se reporter, par exemple, ` a Bishop et al. (1975).
3.2 Le mod` ele dassociation
Il est encore appel e RC-mod` ele, ou mod` ele de Goodman (1991) :
p
h
=
h
exp
_
q
k=1
hk
_
.
3. Mod` eles pour une table de contingence 59
Ce mod` ele, muni des contraintes n ecessaires, permet de structurer les interactions et de faire des repr esentations
graphiques des lignes et des colonnes de T au moyen des param` etres
k
et
hk
. Ces param` etres peuvent
etre estim es par maximum de vraisemblance ou par moindres carr es.
3.3 Le mod` ele de corr elation
On ecrit ici :
p
h
= p
+
p
+h
+
q
k=1
_
k
u
k
v
k
h
, (5.1)
avec q inf(r 1, c 1),
1

q
> 0 et sous les contraintes didentiabilit e suivantes :
r
=1
u
k
=
c
h=1
v
k
h
= 0,
u
k
D
1
r
u
j
= v
k
D
1
c
v
j
=
kj
.
Remarque. :
i. Le mod` ele (5.1) ci-dessus est equivalent au mod` ele consid er e par Goodman (1991) :
p
h
= p
+
p
+h
_
1 +
q
k=1
_
k
h
_
, (5.2)
moyennant une homoth etie sur les param` etres.
ii. La quantit e
q
k=1
k
u
k
v
k
h
exprime l ecart ` a lind ependance pour la cellule consid er ee.
iii. Le mod` ele suppose que cet ecart se d ecompose dans un sousespace de dimension q < min(c
1, r 1).
iv. Les estimations des param` etres p
+
, p
+h
,
k
, u
k
, v
k
peuvent etre r ealis ees par maximum de vrai-
semblance
1
ou par moindres carr es. Dans le contexte de la statistique descriptive, qui est celui de ce
cours, il est naturel de retenir cette derni` ere solution.
3.4 Estimation Moindres Carr es dans le mod` ele de corr elation
Crit` ere
Consid erons les espaces IR
c
et IR
r
munis de leur base canonique et de leur m etrique du
2
respectives
et notons P le tableau des probabilit es th eoriques d enies selon le mod` ele (5.1). Le crit` ere des moindres
carr es s ecrit alors :
min
P
_
_
_
_
1
n
TP
_
_
_
_
2
D
1
r
D
1
c
. (5.3)
Estimation
PROPOSITION 5.4. Lestimation des param` etres de (5.1) en r esolvant (5.3) est fournie par la D.V.S. de
(
1
n
T, D
1
c
, D
1
r
) ` a lordre q. Les probabilit es marginales p
+
et p
+h
sont estim ees par f
+
et f
+h
tandis
que les vecteurs u
k
(resp. v
k
) sont vecteurs propres de la matrice BA (resp. AB) associ es aux valeurs
propres
k
.
On obtient ainsi, dune autre facon, lAFC de la table de contingence T.
1. On suppose alors que les n p
h
sont les param` etres de lois de Poisson ind ependantes conditionnellement ` a leur somme qui est
x ee et egale ` a n.
Preuve Elle se construit ` a partir de la D.V.S. de (
1
n
T, D
1
c
, D
1
r
) :
1
n
t
h
=
min(r1,c1)
k=0
k
u
k
v
k
h
,
o` u les vecteurs u
k
(resp. v
k
) sont vecteurs propres D
1
r
orthonorm es (resp. D
1
c
orthonorm es) de la matrice
1
n
TD
1
c
1
n
T
D
1
r
= BA (resp.
1
n
T
D
1
r
1
n
TD
1
c
= AB),
associ es aux valeurs propres
k
.
De plus, le vecteur g
r
= u
0
(resp. g
c
= v
0
) est vecteur propre D
1
r
norm e (resp. D
1
c
norm e) de la matrice BA
(resp. AB) associ e ` a la valeur propre
0
= 1. Enn, les matrices AB et BA sont stochastiques
2
et donc les valeurs
propres v erient :
1 =
0

1

q
> 0.
En identiant les termes, lapproximation de rang (q + 1) de la matrice P s ecrit donc :
P
q
= g
r
g
c
+
q
k=1
k
u
k
v
k
et les propri et es dorthonormalit e des vecteurs propres assurent que les contraintes du mod` ele sont v eri ees.
2
4 Repr esentations graphiques
4.1 Biplot
La d ecomposition de la matrice
1
n
T se transforme encore en :
f
h
f
+
f
+h
f
+
f
+h
=
min(r1,c1)
k=0
_
k
u
k
f
+
v
k
h
f
+h
.
En se limitant au rang q, on obtient donc, pour chaque cellule (, h) de la table T, une approximation de
son ecart relatif ` a lind ependance comme produit scalaire des deux vecteurs
u
k
f
+
1/4
k
et
v
k
h
f
+h
1/4
k
,
termes g en eriques respectifs des matrices
D
1
r
U
1/4
et D
1
c
V
1/4
,
qui sont encore les estimations des vecteurs
et
h
du mod` ele 5.2. Leur repr esentation (par exemple
avec q = 2) illustre alors la correspondance entre les deux modalit es x
et y
h
: lorsque deux modalit es,
eloign ees de lorigine, sont voisines (resp. oppos ees), leur produit scalaire est de valeur absolue importante ;
leur cellule conjointe contribue alors fortement et de mani` ere positive (resp. n egative) ` a la d ependance entre
les deux variables.
LAFC apparat ainsi comme la meilleure reconstitution des fr equences f
h
, ou encore la meilleure
repr esentation des ecarts relatifs ` a lind ependance. La repr esentation simultan ee des modalit es de X et de
Y se trouve ainsi pleinement justi ee.
2. Matrice r eelle, carr ee, ` a termes positifs, dont la somme des termes de chaque ligne (ou chaque colonne) vaut 1.
4.2 Double ACP
Chacune des deux ACP r ealis ee permet une repr esentation des individus (modalit es) approchant,
au mieux, les distances du
2
entre les prolslignes dune part, les prolscolonnes dautre part. Les
coordonn ees sont fournies cette fois par les matrices (de composantes principales)
C
r
= D
1
r
U
1/2
et C
c
= D
1
c
V
1/2
.
M eme si la repr esentation simultan ee na plus alors de justication, elle reste couramment employ ee. En
fait, les graphiques obtenus diff` erent tr` es peu de ceux du biplot ; ce dernier sert donc de caution puisque
les interpr etations des graphiques sont identiques. On notera que cette repr esentation issue de la double
ACP est celle r ealis ee par la plupart des logiciels statistiques (cest en particulier le cas de SAS).
4.3 Repr esentations barycentriques
Dautres repr esentations simultan ees, appel ees barycentriques, sont propos ees en utilisant les matrices
D
1
r
U
1/2
et D
1
c
V,
ou encore les matrices
D
1
r
U et D
1
c
V
1/2
.
Si lon consid` ere alors, par exemple, la formule de transition
C
r
= A
C
c
1/2
C
r
1/2
= A
C
c
D
1
r
U = A
D
1
c
V
1/2
,
on voit que dans la seconde des repr esentations cidessus, chaque modalit e x
de X est repr esent ee par un

vecteur qui est barycentre de lensemble des vecteurs associ es aux modalit es de Y , chacun deux ayant pour
poids l el ement correspondant du li` eme prolligne. L` a encore, la repr esentation simultan ee sen trouve
parfaitement justi ee. Malheureusement, dans la pratique, les repr esentations barycentriques sont souvent
illisibles ; elles sont, de ce fait, tr` es peu utilis ees.
4.4 Autre repr esentation
La pratique de lAFC montre que linterpr etation des graphiques est toujours la m eme, quelle que soit
la repr esentation simultan ee choisie parmi les 3 cidessus.
On peut ainsi envisager dutiliser, pour une repr esentation simultan ee des modalit es de X et de Y , les
coordonn ees fournies respectivement par les lignes des matrices
D
1
r
U et D
1
c
V.
Linterpr etation du graphique sera toujours la m eme et les matrices cidessus, outre leur simplicit e,
pr esentent lavantage de conduire a une repr esentation graphique qui reste invariante lorsque lon utilise
la technique dAnalyse Factorielle des Correspondances Multiples (voir chapitre suivant) sur les donn ees
consid er ees ici.
4.5 Aides ` a linterpr etation
Les qualit es de repr esentation dans la dimension choisie et les contributions des modalit es de X ou de
Y se d eduisent ais ement de celles de lACP Ces quantit es sont utilis ees ` a la fois pour choisir la dimension
de lAFC et pour interpr eter ses r esultats dans la dimension choisie.
Mesure de la qualit e globale
Pour une dimension donn ee q (1 q d = inf(r 1, c 1)), la qualit e globale des repr esentations
graphiques en dimension q se mesure par le rapport entre la somme des q premi` eres valeurs propres de
lAFC et leur somme compl` ete de 1 ` a d.
Comptetenue de la propri et e

d
k=1
k
=
2
(voir en 6.1), la qualit e de la repr esentation dans la
ki` eme dimension s ecrit
n
k
2
.
On parle encore de part du khideux expliqu ee par la ki` eme dimension (voir les sorties du logiciel SAS).
Mesure de la qualit e de chaque modalit e
Pour chaque modalit e de X (resp. de Y ), la qualit e de sa repr esentation en dimension q se mesure par le
cosinus carr e de langle entre le vecteur repr esentant cette modalit e dans IR
c
(resp. dans IR
r
) et sa projection
D
1
c
orthogonale (resp. D
1
r
orthogonale) dans le sousespace principal de dimension q.
Ces cosinus carr es sobtiennent en faisant le rapport des sommes appropri ees des carr es des coordonn ees
extraites des lignes de C
r
(resp. de C
c
).
Contributions ` a linertie totale
Linertie totale (en dimension d) du nuage des prolslignes (resp. des prolscolonnes) est egale ` a la
somme des d valeurs propres. La part due au ii` eme prolligne (resp. au ji` eme prolcolonne) valant
f
+
d
k=1
(c
k
r
)
2
(resp. f
+h
d
k=1
(c
k
ch
)
2
), les contributions ` a linertie totale sen d eduisent imm ediatement.
Contributions ` a linertie selon chaque axe
Il sagit de quantit es analogues ` a celles cidessus, dans lesquelles il ny a pas de sommation sur lindice
k. Ces quantit es sont utilis ees dans la pratique pour s electionner les modalit es les plus importantes, cest
` adire celles qui contribuent le plus ` a la d enition de la liaison entre les 2 variables X et Y .
Remarque
En g en eral, on ninterpr` ete pas les axes dune AFC (en particulier parce quil ny a pas de variable quan-
titative intervenant dans lanalyse). Linterpr etation sappuie surtout sur la position relative des diff erentes
modalit es rep er ees comme les plus importantes.
5 Exemple
Lexemple des donn ees bancaires ainsi que les donn ees dexpression g enomique se pr ete mal ` a lillustra-
tion dune analyse des correspondances, aucun couple de variable qualitative ne conduit ` a des repr esentations
int eressantes.
La table de contingence etudi ee ` a titre dexemple d ecrit la r epartition des exploitations agricoles de la
r egion MidiPyr en ees dans les diff erents d epartements en fonction de leur taille. Elle croise la variable
qualitative d epartement, ` a 8 modalit es, avec la variable taille de lexploitation, quantitative d ecoup ee en 6
classes. Les donn ees, ainsi que les r esultats num eriques obtenus avec la proc edure corresp de SAS/STAT,
sont fournis en annexe.
La gure 5 pr esente le premier plan factoriel utilisant les coordonn ees obtenues par d efaut, cest` adire
celles de la double ACP.
6 Compl ements
6.1 Propri et es
Formule de reconstitution des donn ees. On appelle ainsi lapproximation dordre q (cest` adire four-
nie par lAFC en dimension q) de la table des fr equences initiales (
1
n
T) :
f
h
f
+
f
+h
q
k=1
_
k
u
k
v
k
h
.
6. Compl ements 63
arie
aver
h.g.
gers
lot
h.p.
tarn
t.g.
SINF1
S1_5
S5_10
S10_20
S20_50
S50_99
S_100
A
x
e
2
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
Axe 1
-0.5 -0.3 -0.1 0.1 0.3 0.5 0.7
FIGURE 5.1 R epartition des exploitations agricoles par taille et par d epartement. Premier plan de lAFC.
Les valeurs propres v erient :
d
k=1
k
=
2
.
En effet, on v erie facilement :
trAB =
d
k=0
k
= 1 +

2
n
= 1 +
2
;
do` u le r esultat.
6.2 Invariance
Les tables de contingence T et T, IR
+
, admettent la m eme AFC ( evident).
Propri et e d equivalence distributionnelle : si deux lignes de T, et i, ont des effectifs proportionnels,
alors les repr esentations de x
et x
i
sont confondues (leurs prols sont identiques) et le regroupement
de x
et x
i
en une seule modalit e (en additionnant les effectifs) laisse inchang ees les repr esentations
graphiques (m eme chose pour les colonnes de T). Cette propri et e est une cons equence de la m etrique
du
2
.
6.3 Choix de la dimension q
Le choix de la dimension pose les m emes probl` emes quen ACP De nombreuses techniques empiriques
ont et e propos ees (essentiellement : part dinertie expliqu ee, eboulis des valeurs propres). Il existe egalement
une approche probabiliste qui peut donner des indications int eressantes. Nous la d etaillons cidessous.
Posons
n
q
h
= nf
+
f
+h
+n
q
k=1
_
k
u
k
v
k
h
,
estimation dordre q de leffectif conjoint de la cellule (, h). Alors, sous certaines conditions ( echantillonnage,
n grand, mod` ele multinomial . . . ), on peut montrer que
K
q
=
r
=1
c
h=1
(n
h

n
q
h
)
2
n
q
h
n
d
k=q+1
k
suit approximativement une loi de
2
` a (r q 1)(c q 1) degr es de libert e. On peut donc retenir
pour valeur de q la plus petite dimension pour laquelle K
q
est inf erieure ` a la valeur limite de cette loi. Le
choix q = 0 correspond ` a la situation o` u les variables sont proche de lind ependance en probabilit es ; les
fr equences conjointes sont alors bien approch ees par les produits des fr equences marginales.
Chapitre 6
Analyse des Correspondances Multiples
Cette m ethode est une g en eralisation de lAnalyse Factorielle des Correspondances, permettant de
d ecrire les relations entre p (p > 2) variables qualitatives simultan ement observ ees sur n individus. Elle
est aussi souvent utilis ee pour la construction de scores comme pr ealable ` a une m ethode de classication
(nu ees dynamiques) n ecessitant des donn ees quantitatives.
1 Codages de variables qualitatives
1.1 Tableau disjonctif complet
Soit X une variable qualitative ` a c modalit es. On appelle variable indicatrice de la ki` eme modalit e de
x (k = 1, . . . , c), la variable X
(k)
d enie par
X
(k)
(i) =
_
1 si X(i) = A
k
,
0 sinon,
o` u i est un individu quelconque et A
k
est la ki` eme modalit e de X. On notera n
k
leffectif de A
k
.
On appelle matrice des indicatrices des modalit es de X, et lon notera X, la matrice n c de terme
g en eral :
x
k
i
= X
(k)
(i).
On v erie :
c
k=1
x
k
i
= 1, i et
n
i=1
x
k
i
= n
k
.
Consid erons maintenant p variables qualitatives X
1
, . . . , X
p
. On note c
j
le nombre de modalit es de X
j
,
c =
p
j=1
c
j
et X
j
la matrice des indicatrices de X
j
.
On appelle alors tableau disjonctif complet la matrice X, nc, obtenue par concat enation des matrices
X
j
:
X = [X
1
[ [X
p
].
Xv erie :
c
k=1
x
k
i
= p, i et
n
i=1
c
k=1
x
k
i
= np.
Dautre part, la somme des el ements dune colonne de Xest egale ` a leffectif marginal de la modalit e de la
variable X
j
correspondant ` a cette colonne.
1.2 Tableau de Burt
On observe toujours p variables qualitatives sur un ensemble de n individus. On appelle tableau de Burt
la matrice B, c c, d enie par :
B = X
X.
65
66 Chapitre 6. Analyse des Correspondances Multiples
On peut ecrire B = [B
jl
] (j = 1, . . . , p ; l = 1, . . . , p) ; chaque bloc B
jl
, de dimension c
j
c
l
, est d eni
par :
B
jl
= X
j
X
l
.
Si j ,= l, B
jl
est la table de contingence obtenue par croisement des variables X
j
en lignes et X
l
en
colonnes. Si j = l, le bloc diagonal B
jj
est luim eme une matrice diagonale v eriant :
B
jj
= diag (n
j
1
, . . . , n
j
c
j
).
La matrice B est sym etrique, deffectifs marginaux n
j
l
p et deffectif total np
2
.
1.3 La d emarche suivie dans ce chapitre
La g en eralisation de lAFC ` a plusieurs variables qualitatives repose sur certaines propri et es observ ees
dans le cas el ementaire o` u p = 2. On sint eresse tout dabord aux r esultats fournis par lAFC usuelle
r ealis ee sur le tableau disjonctif complet X = [X
1
[X
2
] relatif ` a 2 variables qualitatives X
1
et X
2
; X est
alors consid er e comme une table de contingence (paragraphe 2). Ensuite, on suit la m eme d emarche avec
lAFC r ealis ee sur le tableau de Burt B relatif ` a X
1
et X
2
(paragraphe 3). Enn, en utilisant les propri et es
obtenues dans les deux premiers cas, on g en eralise cette double approche ` a un nombre quelconque p de
variables qualitatives ; on d enit ainsi lAnalyse Factorielle des Correspondances Multiples (paragraphe 4).
2 AFC du tableau disjonctif complet relatif ` a 2 variables
2.1 Donn ees
On note toujours X
1
et X
2
les 2 variables qualitatives consid er ees et r et c leurs nombres respectifs de
modalit es.
Les matrices intervenant dans lAFC usuelle sont reprises ici avec les m emes notations, mais surlign ees.
On obtient ainsi :
T = X = [X
1
[X
2
] ;
D
r
=
1
n
I
n
;
D
c
=
1
2
_
D
r
0
0 D
c
_
=
1
2
;
A =
1
2n
T
D
1
r
=
1
2
X
;
B =
1
2n
TD
1
c
=
1
n
X
1
.
On consid` ere ici lAFC comme une double ACP : celle des prolslignes A, puis celle des prols
colonnes B.
2.2 ACP des prolslignes
Les prolslignes, provenant de T, sont associ es aux n individus observ es. Leur ACP conduit ainsi ` a
une repr esentation graphique des individus, inconnue en AFC classique.
PROPOSITION 6.1. LACP des prolslignes issue de lAFC r ealis ee sur le tableau disjonctif complet
associ e ` a 2 variables qualitatives conduit ` a lanalyse spectrale de la matrice D
1
c
sym etrique et positive :
AB =
1
2
_
I
r
B
A I
c
_
.
Les r +c valeurs propres de AB s ecrivent
k
=
1
k
2
,
2. AFC du tableau disjonctif complet relatif ` a 2 variables 67
o` u les
k
sont les valeurs propres de la matrice AB (donc celles de lAFC classique de X
1
et X
2
).
Les vecteurs propres D
1
c
orthonorm es associ es se mettent sous la forme
V =
1
2
_
U
V
_
;
la matrice U (resp. V) contient les vecteurs propres D
1
r
orthonorm es (resp. D
1
c
-orthonorm es) de la
matrice BA(resp. AB) ; autrement dit, les matrices Uet Vsont les matrices de vecteurs propres obtenues
en faisant lAFC classique de la table de contingence croisant X
1
et X
2
.
La matrice des composantes principales s ecrit
C
r
=
1
2
[X
1
C
r
+X
2
C
c
]
1/2
,
o` u C
r
et C
c
sont encore les matrices de composantes principales de lAFC classique.
Dans la pratique, on ne consid` ere que les d = inf(r 1, c 1) plus grandes valeurs propres diff erentes
de 1, ainsi que les vecteurs propres associ es. Les valeurs propres sont rang ees dans la matrice
M= diag (
1
, . . . ,
d
) =
1
2
_
I
d
+
1/2
_
.
Les autres valeurs propres non nulles sont dues ` a lartice de construction de la matrice ` a diagonaliser ;
elles nont donc pas de signication statistique.
On notera que la matrice C
r
, n d, fournit les coordonn ees permettant la repr esentation graphique des
individus sur les axes factoriels.
2.3 ACP des prolscolonnes
Les prolscolonnes sont associ es aux r + c modalit es des variables. Leur ACP conduit donc ` a une
repr esentation graphique de ces modalit es dont on verra quelle est tr` es voisine de celle fournie par une
AFC classique.
PROPOSITION 6.2. LACP des prolscolonnes issue de lAFC r ealis ee sur le tableau disjonctif complet
associ e ` a 2 variables conduit ` a lanalyse spectrale de la matrice D
1
r
BA =
1
2n
_
X
1
D
1
r
X
1
+X
2
D
1
c
X
.
Les r +c valeurs propres non nulles de BAsont les
k
.
Les vecteurs propres D
1
r
orthonorm es associ es se mettent sous la forme :
U =
1
n
C
r
M
1/2
.
La matrice des composantes principales s ecrit :
C
c
=
_
C
r
C
c
_
1/2
M
1/2
.
Ainsi, lAFC du tableau disjonctif complet permet, gr ace aux coordonn ees contenues dans les lignes
de la matrice C
c
, une repr esentation simultan ee des modalit es des 2 variables. Cette repr esentation est tr` es
voisine de celle obtenue par lAFC classique, d enie au chapitre pr ec edent. Une simple homoth etie sur
chaque axe factoriel, de rapport
_
1+
k
2
k
, permet de passer de lune ` a lautre.
De plus, cette approche permet aussi de r ealiser une repr esentation graphique des individus avec les
coordonn ees contenues dans les lignes de la matrice C
r
.
`
A un facteur pr` es, chaque individu apparat comme
le barycentre des 2 modalit es quil a pr esent ees. Dans le cas o` u n est grand, le graphique des individus a
n eanmoins peu dint er et ; seule sa forme g en erale peut en avoir un.
Remarque. Si, dans lAFC classique, on choisit dutiliser, pour la repr esentation simultan ee des moda-
lit es de X
1
et de X
2
, les lignes des matrices
C
r
= D
1
r
U = C
r
1/2
et C
c
= D
1
c
V = C
c
1/2
(voir chapitre pr ec edent, soussection 4.4), alors on obtient par AFCdu tableau disjonctif complet la matrice
C
c
= C
c
M
1/2
=
_
C
r
C
c
_
;
il y a invariance de la repr esentation des modalit es lorsquon passe dune m ethode ` a lautre. Pour les indi-
vidus, on obtient
C
r
=
1
2
[X
1
C
r
+X
2
C
c
] M
1/2
(le commentaire est alors le m eme quavec C
r
).
3 AFC du tableau de Burt relatif ` a 2 variables
Dans cette section, on sint eresse aux r esultats fournis par lAFC r ealis ee sur le tableau de Burt B =
X
X, (r + c) (r + c), relatif aux 2 variables X

1
et X
2
; B est encore consid er e comme une table de
contingence. La matrice B etant sym etrique, les prolslignes et les prolscolonnes sont identiques ; il
suft donc de consid erer une seule ACP
Les notations des matrices usuelles de lAFC sont maintenant r eutilis ees surmont ees dun tilde. On
obtient ainsi :
T = B =
_
nD
r
T
T
nD
c
_
;
D
r
=

D
c
=
1
2
_
D
r
0
0 D
c
_
=
1
2
= D
c
;
A =

B =
1
2
_
I
r
B
A I
c
_
= AB.
On consid` ere encore lAFC comme lACP des prolslignes

A(ou des prolscolonnes

B).
PROPOSITION 6.3. LACP des prolslignes (ou des prolscolonnes) issue de lAFC r ealis ee sur
le tableau de Burt associ e ` a 2 variables qualitatives conduit ` a lanalyse spectrale de la matrice

D
c
1
B =
_
AB
2
.
Elle admet pour matrice de vecteurs propres

D
c
1
orthonorm es
U =

V = V =
1
2
_
U
V
_
.
Les valeurs propres associ ees v erient :
k
=
2
k
.
C
r
=

C
c
=
_
C
r
C
c
_
1/2
M.
4. Analyse Factorielle des Correspondances Multiples 69
La matrice

C
r
fournit les coordonn ees permettant une repr esentation simultan ee des modalit es des deux
variables.
`
A une homoth etie pr` es, cette repr esentation est identique ` a celle de lAFC classique, r ealis ee sur
la table de contingence T (mais le rapport dhomoth etie, sur chaque axe, nest plus le m eme quavec C
c
).
Remarque.
En reprenant les notations de la remarque 2.3, on obtient ici :
r
(=

C
c
) =

C
r
M
1
= C
c
=
_
C
r
C
c
_
.
Ainsi, si lon utilise ce mode de repr esentation graphique, les trois approches de lAFC que nous
avons pr esent ees conduisent ` a la m eme repr esentation simultan ee des modalit es des 2 variables : il y
a donc invariance de cette repr esentation.
Dans les deux cas dAFC consid er es dans ce chapitre (sur tableau disjonctif complet et sur tableau
de Burt) on trouve, par construction, des valeurs propres non nulles sans signication statistique. En
cons equence, les crit` eres de qualit e sexprimant comme une part dinertie expliqu ee nont plus de
signication.
LAFC sur tableau de Burt ne prend en compte que linformation contenue dans B qui ne consid` ere
que les croisements de variables prises deux ` a deux. En cons equence, les interactions de niveau plus
elev e sont ignor ees par cette approche, ` a moins de proc eder ` a des recodages de variables comme
lexplique lexemple pr esent e dans la section 5.
4 Analyse Factorielle des Correspondances Multiples
4.1 D enition
On consid` ere maintenant p variables qualitatives (p 3) not ees X
j
; j = 1, . . . , p, poss edant res-
pectivement c
j
modalit es, avec c =
p
j=1
c
j
. On suppose que ces variables sont observ ees sur les m emes
n individus, chacun affect e du poids 1/n.
Soit X = [X
1
[ [X
p
] le tableau disjonctif complet des observations (X est n c) et B = X
X le
tableau de Burt correspondant (B est carr e dordre c, sym etrique).
D EFINITION 6.4. On appelle Analyse Factorielle des Correspondances Multiples (AFCM) des variables
(X
1
, . . . , X
p
) relativement ` a l echantillon consid er e, lAFC r ealis ee soit sur la matrice X soit sur la ma-
trice B.
On note n
j
k
(1 j p, 1 k c
j
) leffectif de la ki` eme modalit e de X
j
, D
j
=
1
n
diag (n
j
1
, . . . , n
j
c
j
)
et = diag (D
1
. . . D
p
) (est carr ee dordre c et diagonale).
4.2 AFC du tableau disjonctif complet X
Comme dans le cas p = 2, on reprend les notations de lAFC classique en les surlignant. On obtient
ainsi :
T = X;
D
r
=
1
n
I
n
;
D
c
=
1
p
;
A =
1
p
X
;
B =
1
n
X
1
.
ACP des prolslignes
PROPOSITION 6.5. LACP des prolslignes issue de lAFC r ealis ee sur le tableau disjonctif complet
de p variables qualitatives conduit ` a lanalyse spectrale de la matrice D
1
c
AB =
1
np
B
1
.
Il y a m (m c p) valeurs propres not ees
k
, (0 <
k
< 1) rang ees dans la matrice diagonale M.
La matrice des vecteurs propres D
1
c
orthonorm es associ es se d ecompose en blocs de la facon sui-
vante :
V =
_
_
V
1
.
.
.
V
p
_
_;
chaque bloc V
j
est de dimension c
j
m.
C
r
=
p
j=1
X
j
D
1
j
V
j
.
Comme dans le cas p = 2, la matrice des composantes principales permet de r ealiser une repr esentation
graphique des individus dans laquelle chacun apparat, ` a un facteur pr` es, comme le barycentre des p moda-
lit es quil a pr esent ees.
Remarque. La g en eralisation au cas p > 2 restreint les propri et es. Ainsi, les vecteurs des blocs V
j
ne
sont pas les vecteurs propres D
1
j
orthonorm es dune matrice connue.
ACP des prolscolonnes
PROPOSITION 6.6. LACP des prolscolonnes issue de lAFC r ealis ee sur le tableau disjonctif complet
de p variables conduit ` a lanalyse spectrale de la matrice D
1
r
BA =
1
np
X
1
X
=
1
np
p
j=1
X
j
D
1
j
X
j
.
La matrice des vecteurs propres D
1
r
orthonorm es v erie :
U = BVM
1/2
.
C
c
= p
1
VM
1/2
;
elle se d ecompose en blocs sous la forme :
C
c
=
_
_
C
1
.
.
.
C
p
_
_.
Chaque bloc C
j
, de dimension c
j
m, fournit en lignes les coordonn ees des modalit es de la variable
X
j
permettant la repr esentation graphique simultan ee.
4. Analyse Factorielle des Correspondances Multiples 71
4.3 AFC du tableau de Burt B
Le tableau de Burt B = X
X, carr e dordre c, etant sym etrique, les prolslignes et les prolscolonnes

sont identiques ; on ne consid` ere donc ici quune seule ACP
En utilisant encore le tilde dans ce cas, les matrices usuelles de lAFC deviennent :
T = B ;
D
r
=

D
c
=
1
p
= D
c
;
A =

B =
1
np
B
1
= AB.
PROPOSITION 6.7. LACP des prolslignes (ou des prolscolonnes) issue de lAFC r ealis ee sur
le tableau de Burt associ e ` a p variables qualitatives conduit ` a lanalyse spectrale de la matrice

D
c
1
B =
_
AB
2
.
Elle admet pour matrice de vecteurs propres

D
c
1
orthonorm es

U =

V = V.
Les valeurs propres associ ees v erient
k
=
2
k
.
C
r
=

C
c
= C
c
M
1/2
=
_
_
C
1
.
.
.
C
p
_
_M
1/2
.
La matrice

C
r
fournit les coordonn ees permettant la repr esentation simultan ee des modalit es de toutes
les variables (on ne peut pas faire de repr esentation des individus si lon fait lAFC du tableau de Burt).
4.4 Variables illustratives
Soit X
0
une variable qualitative, ` a c
0
modalit es, observ ee sur les m emes n individus que les X
j
et n etant pas intervenue dans lAFCM Soit T
0j
la table de contingence c
0
c
j
croisant les variables
X
0
en lignes et X
j
en colonnes. Lobjectif est maintenant de repr esenter les modalit es de cette variable
suppl ementaire X
0
dans le graphique de lAFCM r ealis ee sur X
1
, . . . , X
p
. Pour cela, on consid` ere les
matrices :
B
0
= [T
01
[ . . . [T
0p
] ;
D
0
=
1
n
diag (n
0
1
, . . . , n
0
c
0
) ;
A
0
=
1
np
D
1
0
B
0
.
Les coordonn ees des modalit es de la variable suppl ementaires X
0
sur les axes factoriels sont alors
fournies dans les lignes de la matrice
C
0
= A
0
D
c
1
V = pA
0
1
V.
4.5 Interpr etation
Les repr esentations graphiques sont interpr et ees de mani` ere analogue ` a ce qui est fait dans lAFC de
deux variables, bien que la repr esentation simultan ee des modalit es de toutes les variables ne soit pas, en
toute rigueur, r eellement justi ee.
Les principes suivants sont donc appliqu es :
TABLE 6.1 Donn ees sous la forme dune table de contingence compl` ete
Histologie
Inammation minime Grande inammation
Centre

Age Survie Maligne B enigne Maligne B enigne
Tokyo < 50 non 9 7 4 3
oui 26 68 25 9
50 69 non 9 9 11 2
oui 20 46 18 5
> 70 non 2 3 1 0
oui 1 6 5 1
Boston < 50 non 6 7 6 0
oui 11 24 4 0
50 69 non 8 20 3 2
oui 18 58 10 3
> 70 non 9 18 3 0
oui 15 26 1 1
Glamorgan < 50 non 16 7 3 0
oui 16 20 8 1
50 69 non 14 12 3 0
oui 27 39 10 4
> 70 non 3 7 3 0
oui 12 11 4 1
on interpr` ete globalement les proximit es et les oppositions entre les modalit es des diff erentes va-
riables, comme en AFC, en privil egiant les modalit es sufsamment eloign ees du centre du graphique
(attention aux modalit es ` a faible effectif !) ;
les rapports de valeurs propres ne sont pas interpr etables comme indicateurs de qualit e globale ; on
peut n eanmoins regarder la d ecroissance des premi` eres valeurs propres pour choisir la dimension ;
les coefcients de qualit e de chaque modalit e ne peuvent pas etre interpr et es ; seules les contributions
des modalit es ` a linertie selon les axes sont interpr et ees, selon le m eme principe quen AFC
5 Exemple
LAFCM ne donne pas de r esultats tr` es int eressants sur les donn ees bancaires ` a lexception du graphe
pr esent e dans le chapitre dintroduction qui est relativement plus sophistiqu e car il fait pr ealablement appel
` a une classication. Il en est de m eme pour les donn ees dexpression qui sont quantitatives. En revanche,
lAFCM est tr` es indiqu ee et tr` es utilis ee dans des enqu etes de nature emlid emiologique.
5.1 Les donn ees
La litt erature angloam ericaine pr esente souvent des donn ees relatives ` a plusieurs variables qualitatives
sous la forme dune table de contingence compl` ete (5). Cest le cas de lexemple cidessous qui d ecrit les
r esultats partiels dune enqu ete r ealis ee dans trois centres hospitaliers (Boston, Glamorgan, Tokyo) sur des
patientes atteintes dun cancer du sein. On se propose d etudier la survie de ces patientes, trois ans apr` es le
diagnostic. En plus de cette information, quatre autres variables sont connues pour chacune des patientes :
le centre de diagnostic,
la tranche d age,
le degr e dinammation chronique,
lapparence relative (b enigne ou maligne).
Lobjectif de cette etude est une analyse descriptive de cette table en cherchant ` a mettre en evidence les
facteurs de d ec` es.
5. Exemple 73
C b o s
C g l a
C t o k
A < 5 0
A > - <
A > 7 0
S n o n
S o u i
I g r a
I p e t
T b e n
T m a l
A
x
e

2
- 0 . 7
- 0 . 6
- 0 . 5
- 0 . 4
- 0 . 3
- 0 . 2
- 0 . 1
0 . 0
0 . 1
0 . 2
0 . 3
0 . 4
0 . 5
0 . 6
0 . 7
0 . 8
0 . 9
1 . 0
A x e 1
- 1 0 1 2
FIGURE 6.1 Cancer du sein : analyse des donn ees brutes.
5.2 Analyse brute
On se reportera ` a la gure 5. La variable survie, qui joue en quelques sortes le r ole de variable ` a expli-
quer, est tr` es proche de laxe 2 et semble li ee ` a chacune des autres variables.
5.3 Analyse des interactions
Pour essayer de mettre en evidence d eventuelles interactions entre variables, les donn ees sont recon-
sid er ees de la facon suivante :
les variables centre et age sont crois ees, pour construire une variable c x age, ` a 9 modalit es ;
les variables inflam et appar sont egalement crois ees pour d enir la variable histol, ` a 4 mo-
dalit es.
Une nouvelle analyse est alors r ealis ee en consid erant comme actives les deux variables nouvellement
cr e ees, ainsi que la variable survie, et comme illustratives les variables initiales : centre, age,
inflam, appar. Les r esultats sont donn es dans la gure 5.3.
S n o n
S o u i
H g - b
H g - m
H p - b
H p - m
X B < 5
X B > -
X B > 7
X G < 5
X G > -
X G > 7
X T < 5
X T > -
X T > 7
C b o s
C g l a
C t o k
A < 5 0
A > - <
A > 7 0
I g r a
I p e t
T b e n
T m a l
A
x
e

2
- 2
- 1
0
1
2
A x e 1
- 2 - 1 0 1 2
FIGURE 6.2 Cancer du sein : analyse des interactions.
Chapitre 7
Positionnement multidimensionnel
1 Introduction
Consid erons n individus. Contrairement aux chapitres pr ec edents, on ne connat pas les observations de
p variables sur ces n individus mais dans certains cas les n(n1)/2 valeurs dun indice (de distance, dissi-
milarit e ou dissemblance) observ ees ou construites pour chacun des couples dindividus. Ces informations
sont contenues dans une matrice (n n) D. Lobjectif du positionnement multidimensionnel (multidimen-
sional scaling, ou MDS, ou ACP dun tableau de distances) est de construire, ` a partir de cette matrice, une
repr esentation euclidienne des individus dans un espace de dimension r eduite q qui approche au mieux
les indices observ es. Autrement dit, visuellement le graphique obtenu repr esente en dimension (en g en eral)
2 la meilleure approximation des distances observ ees entre les individus pouvant etre des g` enes ou des
echantillons biologiques.
Exemple el ementaire : Les donn ees sont constitu ees dun tableau contenant les distances kilom etriques
par route (Source : IGN) entre 47 grandes villes en France et dans les pays limitrophes. Toutes ces va-
leurs sont rang ees dans le triangle inf erieur dune matrice carr ee avec des 0 sur la diagonale. La structure
du r eseau routier, le relief, font que cette matrice de distances nest pas euclidienne qui, dans ce cas, cor-
respondrait ` a la distance ` a vol doiseau. Mais, comme le montre le graphique issu dun positionnement
multidimensionnel, lapproximation euclidienne en est tr` es proche.
Le MDS etant encore une technique factorielle, comme en ACP il est n ecessaire de d eterminer le nombre
de dimensions xant la taille de lespace de repr esentation. Le graphique repr esentant la d ecroissance des
valeurs propres aide ` a ce choix.
Le principal int er et de cette technique est donc de pouvoir observer graphiquement le m eme ensemble
de donn ees ` a travers diff erentes optiques et m eme den comparer les repr esentations ; chaque optique est
d enie par la facon dont on mesure des distances ou dissimilarit es entre les objets. Citons trois exemples
typiques dans le cas sp ecique de g` enes d ecrits par leurs expressions transcriptomiques et un exemple pluls
qualitatif :
chaque g` ene est un vecteur dans un espace vectoriel muni de la distance euclidienne classique (racine
de la somme des carr es des ecarts). Le MDS ou ACP du tableau des distances qui en d ecoule est
equivalent ` a lACP dans laquelle les g` enes sont les individus (les lignes).
On mesure la dissimilarit e entre deux g` enes X
j
et X
k
par 1 cor(X
j
, X
k
) faisant intervenir la
corr elation lin eaire de Pearson ou celle robuste sur les rangs de Spearman. Les g` enes co-r egul es (for-
tement positivement corr el es) sont tr` es proches, les g` enes associ es dans un m ecanisme dinhibition
(fortement n egativement corr el es) seront aussi proches.
On mesure la distance entre deux g` enes par
_
1 cor(X
j
, X
k
)
2
. Elle v erie, dans ce cas, les pro-
pri et es qui en font une distance euclidienne. Co-r egul es ou inhib es, les g` enes corr el es positivement
ou n egativement sont proches dans les repr esentations graphiques.
Consid erons un tableau avec, en ligne, les individus dun groupe et en colonne les pays de la C.E.
La valeur 1 est mise dans une case lorsque lindividu de la ligne a pass e au moins une nuit dans le
pays concern e. Il est alors facile de construire une matrice de similarit e avec un indice qui compte
75
76 Chapitre 7. Positionnement multidimensionnel
800 600 400 200 0 200 400
4
0
0
2
0
0
0
2
0
0
4
0
0
cp1
c
p
2
amie
ando
ange
bale
laba
besa
bord
boul
bour
bres
brux
caen
cala
cham
cher
clem
dijo
gene
gren
leha
hend
lill
limo
lour
luxe
lyon
lema
mars
metz
mont
mulh
nanc
nant
nice
orle
pari
perp
poit
reim
renn
roue
roya
stma
stra
toul
tour
troy
FIGURE 7.1 Villes : Positionnement de 47 villes ` a partir de la matrice de leurs distances kilom etriques.
2. Distance, similarit es 77
le nombre de 1 apparaissant dans les m emes colonnes de tous les couples dindividus. Lobjectif est
ensuite dobtenir une repr esentation graphique rapprochant les individus ayant visit e les m emes pays.
Les preuves et d eveloppements th eoriques sont omis dans cet expos e succinct, ils sont ` a chercher dans
la bibliographie. Voir par exemple Mardia et col. (1979).
2 Distance, similarit es
Rappelons quelques propri et es et d enitions el ementaires mais basiques ` a propos de la notion de dis-
tance.
2.1 D enitions
D EFINITION 7.1.
Une matrice (n n) D est appel ee matrice de distance si elle est sym etrique et si :
d
j
j
= 0 et (j, k), j ,= k, d
k
j
0.
Une matrice (n n) C est appel ee matrice de similarit e si elle est sym etrique et si
(j, k), c
k
j
c
j
j
.
Une matrice de similarit e se transforme en matrice de distance par :
d
k
j
= (c
j
j
+c
k
k
2c
k
j
)
1/2
.
D EFINITION 7.2. Une matrice de distance est dite euclidienne sil existe une conguration de vecteurs
x
1
, . . . , x
n
dans un espace vectoriel euclidien E de sorte que
d
k
j
2
= x
j
x
k
, x
j
x
k
.
On note Ala matrice issue de D de terme g en eral d
k
j
= d
k
j
2
/2 et Hla matrice de centrage :
H = I 11
D,
qui est la matrice de projection sur le sous-espace D-orthogonal au vecteur 1 dans lespace euclidien F des
variables muni de la m etrique des poids.
PROPOSITION 7.3.
Soit D une matrice de distance et B la matrice obtenue par double centrage de la matrice A issue
de D :
B = HAH
,
alors D est une matrice euclidienne si et seulement si B est positive (toutes ses valeurs propres sont
positives ou nulles).
Si la matrice de similarit e C est positive alors la matrice de distance D d eduite est euclidienne.
2.2 Distances entre variables
Lun des int er ets pratiques du positionnement multidimensionnel est daider ` a comprendre, visualiser,
les structures de liaison dans un grand ensemble de variables. On obtient ainsi des indications pour guider le
choix dun sous-ensemble de variables, par exemple les plus li ees ` a une variable ` a expliquer. Cette approche
n ecessite la d enition dindices de similarit e entre variables. Beaucoup sont propos es dans la litt erature et
concr` etement utilis es pour les donn ees dexpression. Les g` enes etant consid er es comme des variables, on
sint eresse alors ` a diff erents crit` eres bas es sur la corr elation lin eaire usuelle de Pearson ou robuste (non
param etrique de Spearman).
On note X et Y deux variables statistiques dont les observations sur les m emes n individus sont rang ees
dans les vecteurs centr es x et y de lespace euclidien F muni de la m etrique des poids D. On v erie
facilement :
cov(X, Y ) = x
Dy
X
= |x|
D
cor(X, Y ) =
x
Dy
|x|
D
|y|
D
.
La valeur absolue ou le carr e du coefcient de corr elation d enissent des indices de similarit e entre
deux variables quantitatives. Il est facile den d eduire des distances. Le carr e du coefcient de corr elation
lin eaire a la particularit e dinduire une distance euclidienne :
d
2
(X, Y ) = 2(1 cor
2
(X, Y )).
PROPOSITION 7.4. La distance entre variables quantitatives d
2
(X, Y ) est encore le carr e de la distance
|P
x
P
y
|
D
entre les projecteurs D-orthogonaux sur les directions engendr ees par les vecteurs x et y.
Des indices de dissimilarit e peuvent egalement etre d enis pour un couple de variables qualitatives (` a partir
de lindice de Tschuprow) ou pour une variable quantitative et une variable qualitative (` a parti du rapport
de corr elation). Ils ont moins dint er et pour des donn ees dexpression et sont laiss es de c ot e.
3 Recherche dune conguration de points
Le positionnement multidimensionnel est la recherche dune conguration de points dans un espace
euclidien qui admette D comme matrice de distances si celle-ci est euclidienne ou, dans le cas contraire,
qui en soit la meilleure approximation ` a un rang q x e (en g en eral 2) au sens dune norme sur les matrices.
Nous ne nous int eressons dans ce chapitre qu` a la version m etrique du MDS, une autre approche non
m etrique construite sur les rangs est d evelopp ee dans la bibliographie.
Ainsi pos e, le probl` eme admet une innit e de solutions. En effet, la distance entre deux vecteurs x
i
et
x
k
dune conguration est invariante par toute transformation afne z
i
= Fx
i
+b dans laquelle F est une
matrice orthogonale quelconque et b un vecteur de IR
p
. Une solution nest donc connue qu` a une rotation
et une translation pr` es.
3.1 Propri et es
La solution est donn ee par les r esultats (Mardia et col.79) ci-dessous :
PROPOSITION 7.5. Soit D une matrice de distance et B = HAH la matrice centr ee en lignes et
colonnes associ ee.
Si D est la matrice de distance euclidienne dune conguration x
1
, . . . , x
n
alors B est la matrice
de terme g en eral
b
k
j
= (x
j
x)
(x
k
x)
qui se met sous la forme
B = (HX)(HX)
.
Elle est donc positive et appel ee matrice des produits scalaires de la conguration centr ee.
R eciproquement, si Best positive de rang p, une conguration de vecteurs admettant Bpour matrice
des produits scalaires est obtenue en consid erant sa d ecomposition spectrale B = UU
. Ce sont
les lignes de la matrice centr ee X = U
1/2
qui fournissent les coordonn ees des vecteurs de la
repr esentation euclidienne.
3.2 Explicitation du MDS
Pour r esum e, dans le cas dune matrice D euclidienne suppos ee de rang q, le MDS est obtenu en
ex ecutant les etapes suivantes :
4. Application au choix de variables 79
i. construction de la matrice Ade terme g en eral 1/2d
k
j
2
,
ii. calcul de la matrice des produits scalaires par double centrage B = HAH
,
iii. diagonalisation de B = UU
;
iv. les coordonn ees dune conguration, appel ees coordonn ees principales, sont les lignes de la matrice
X = U
1/2
.
Dans le cas euclidien, ACP et MDS sont directement connect es.
PROPOSITION 7.6. Soit Y la matrice des donn ees habituelles en ACP. LACP de (Y, M, 1/nI) fournit
les m emes repr esentations graphiques que le positionnement calcul e ` a partir de la matrice de distances de
terme g en eral |y
i
y
j
|
M
. Si C d esigne la matrice des composantes principales, alors les coordonn ees
principales sont
nC.
Lint er et du MDS apparat evidemment lorsque les observations Y sont inconnues ou encore si lon
cherche la meilleure repr esentation euclidienne de distances non-euclidiennes entre les individus ; cest
lobjet du th eor` eme suivant. En ce sens, le MDS g en eralise lACP et permet, par exemple, de consid erer
une distance de type robuste ` a base de valeurs absolues mais la repr esentation des variables pose alors
quelques probl` emes car le biplot nest plus lin eaire.
PROPOSITION 7.7. Si D est une matrice de distance, pas n ecessairement euclidienne, B la matrice de
produit scalaire associ ee, alors, pour une dimension q x ee, la conguration issue du MDS a une matrice
de distance

Dqui rend
n
j,k=1
(d
k
j
d
k
j
2
) minimum et, cest equivalent, une matrice de produit scalaire
B qui minimise
_
_
_B

B
_
_
_
2
.
4 Application au choix de variables
La s election dun sous-ensemble de variables pour la mise en uvre de techniques factorielles (Jol-
liffe 2002) nest pas aussi claire que dans le cadre de la recherche dun mod` ele lin eaire parcimonieux. Le
probl` eme vient souvent de la confusion de deux objectifs :
supprimer des variables tr` es li ees, donc redondantes, et dont la multiplicit e vient renforcer articiel-
lement linuence de certains ph enom` enes,
supprimer des variables an de simplier linterpr etation des axes tout en conservant au mieux les
repr esentations graphiques.
Le premier objectif modie donc les repr esentations en visant ` a etre plus proche de la r ealit e ou au
moins dune r ealit e moins triviale tandis que, par principe, le deuxi` eme objectif recherche le sous-ensemble
restreint de variables susceptibles dengendrer le m eme sous-espace de repr esentation.
Il nexiste pas de solution miracle, n eanmoins les outils pr esent es dans ce chapitre : indices de similarit e
entre variable et positionnement multidimensionnel, peuvent aider ` a ces choix surtout lorsque lanalyse
dun grand nombre de variables n ecessite de segmenter lanalyse en sous-groupes. Les algorithmes de
classication (hi erarchique ou centres mobiles) appliqu es sur les m emes tableaux de distance apportent un
eclairage compl ementaire.
Une analyse en composantes principales (cf. chapitre 3) fournit un premier apercu de la repr esentation
de g` enes relativement aux echantillons biologiques par linterm ediaire dun biplot. Le but ici est de sint eresser
aux eventuelles co-r egulations ou inhibitions entre g` enes. Le cas ech eant, ceux-ci apparatront corr el es po-
sitivement ou n egativement. Le positionnement multidimensionnel permet de consid erer diff erentes facon
de prendre en compte des distances inter-g` enes :
distance euclidienne, d
1
(X, Y ) =
_
n
i=1
(X
i
Y
i
)
2
, positive ou nulle ;
distance associ ee ` a la corr elation carr ee, d
2
(X, Y ) =
_
1 cor(X, Y )
2
, comprise entre 0 et 1 ;
distance associ ee ` a la corr elation, d
3
(X, Y ) = 1 cor(X, Y ), comprise entre 0 et 2.
A G E R
O P G N B L
M O Y R V L
T A V E P L
E N D E T L
G A G E T L
G A G E C L
G A G E M L
Q C R E D L
D M V T P L
B O P P N L
L G A G T L
V I E M T L
X L G M T L
Y L V M T L
I T A V C L
H A V E F L
D N B J D L
A
x
e

2
- 2
- 1
0
1
A x e 1
- 2 - 1 0 1 2 3
FIGURE 7.2 Banque : Positionnement, conform ement aux carr es de leurs corr elations, des variables
quantitatives.
En cas de probl` eme de robustesse (valeurs atypiques) encore pr esent apr` es transformation en logarithme,
remplacer la corr elation lin eaire de Pearson par celle sur les rangs de Spearman peut sav erer utile.
Remarquons tout dabord que dans les trois cas, plus la valeur est petite, plus les g` enes dont on mesure
l eloignement sont proches. Ensuite, pour d
2
et d
3
, une valeur proche de 1 caract erise deux g` enes non
corr el es, ce qui nest pas n ecessairement le cas de la distance euclidienne. Enn, il est important de noter
quune corr elation forte et n egative entre deux g` enes conduit ` a deux r esultats oppos es selon d
2
(valeur
proche de 0) et d
3
(valeur proche de 2).
La gure 7.3 illustre les trois possibilit es avec le positionnement multidimensionnel des g` enes. Lanalyse
conjointe de ces trois graphiques conduit ` a de nombreuses interpr etations sur le plan biologique. Sans
rentrer dans les d etails, nous noterons que ces trois graphiques tendent ` a s eparer deux groupes de g` enes
qui interviennent dans deux fonctions biologiques oppos ees : les CYP4A, PMDCI, PECI, AOX, BIEN,
THIOL, CPT2, mHMGCoAS, Tpalpha et Tpbeta sont impliqu es dans le catabolisme des lipides et la
c etog en` ese alors que les g` enes FAS, S14, ACC2, cHMGCoAS, HMGCoAred et, plus indirectement, GK
et LPK sont impliqu es dans la synth` ese de lipides au niveau h epatique. On observera quaucun des trois
graphiques de la gure 7.3, analys e individuellement, ne conduit ` a la totalit e de cette interpr etation mais
que cest bien lanalyse conjointe de ces repr esentations qui permet dafner la connaissance du biologiste
sur ces donn ees. Succintement, notons egalement que dautres g` enes tendent ` a participer ` a ces groupes.
Par exemple, le g` ene Lpin1 est proche des g` enes impliqu es dans la lipog en` ese. Bien que sa fonction soit
actuellement inconnue, Peterfy et al. (2001) ont observ e que la lign ee de souris d eciente pour Lpin1
pr esente des alt erations du m etabolisme des lipides.
Les g` enes dont la position sur le graphique sera le plus modi e en passant de la distance d
2
` a la distance
d
3
seront ceux pr esentant des corr elations n egatives et importantes avec de nombreux autres g` enes. Un cas
typique dans notre exemple est celui de CAR1 dont lACP (ainsi, que la matrice des corr elations) a montr e
quil etait n egativement corr el es avec des g` enes tels que GSTpi2, CYP3A11, FAS... La position relative
des couples de g` enes ainsi obtenus change de facon importante entre les deux graphiques. On observera en
particulier le couple CAR1-GSTpi2 totalement oppos e sur laxe 1 selon d
3
et relativement proche selon
d
2
(tandis quil pr esente une opposition moins marqu ee selon d
1
). La surexpression du g` ene CAR1 et la
sous-expression du g` ene GSTpi2 chez les souris d ecientes en r ecepteur PPAR na pas et e d ecrite et
constitue lun des r esultats originaux de ce travail. L etude dun lien potentiel entre ces deux modications
dexpression n ecessitera la mise en uvre dexp eriences compl ementaires.
1.0 0.5 0.0 0.5
1
.
0
0
.
5
0
.
0
0
.
5
Dimension 1
D
im
e
n
s
io
n

2
X36b4
ACAT1
ACAT2
ACBP
ACC1
ACC2
ACOTH
ADISP
ADSS1 ALDH3
AM2R AOX
BACT
BIEN
BSEP
Bcl.3
C16SR CACP
CAR1
CBS
CIDEA
COX1
COX2 CPT2
CYP24
CYP26
CYP27a1
CYP27b1
CYP2b10
CYP2b13
CYP2c29
CYP3A11
CYP4A10
CYP4A14
CYP7a
CYP8b1
FAS
FAT FDFT
FXR
G6PDH
G6Pase
GK
GS
GSTa
GSTmu
GSTpi2
HMGCoAred
HPNCL
IL.2
L.FABP
LCE
LDLr
LPK
LPL
LXRa
LXRb
Lpin
Lpin1
Lpin2
Lpin3
M.CPT1
MCAD
MDR1
MDR2 MRP6
MS
MTHFR
NGFiB
NURR1
Ntcp
OCTN2
PAL
PDK4
PECI
PLTP
PMDCI
PON
PPARa PPARd PPARg PXR
Pex11a
RARa
RARb2
RXRa RXRb2
RXRg1
S14
SHP1 SIAT4c SPI1.1
SR.BI
THB
THIOL
TRa
TRb
Tpalpha
Tpbeta
UCP2
UCP3
VDR
VLDLr
Waf1
ap2
apoA.I
apoB
apoC3
apoE
c.fos
cHMGCoAS
cMOAT
eif2g
hABC1
i.BABPi.BAT
i.FABP
i.NOS
mABC1
mHMGCoAS
0.5 0.0 0.5
0
.
6
0
.
4
0
.
2
0
.
0
0
.
2
0
.
4
Dimension 1
D
im
e
n
s
io
n

2
X36b4
ACAT1
ACAT2
ACBP
ACC1
ACC2
ACOTH
ADISP
ADSS1
ALDH3
AM2R
AOX
BACT BIEN
BSEP
Bcl.3
C16SR
CACP
CAR1
CBS
CIDEA
COX1
COX2
CPT2
CYP24
CYP26
CYP27a1
CYP27b1
CYP2b10
CYP2b13
CYP2c29
CYP3A11
CYP4A10
CYP4A14
CYP7a
CYP8b1
FAS
FAT
FDFT
FXR
G6PDH
G6Pase
GK
GS
GSTa
GSTmu
GSTpi2
HMGCoAred
HPNCL
IL.2
L.FABP
LCE
LDLr
LPK
LPL
LXRa
LXRb
Lpin Lpin1
Lpin2
Lpin3
M.CPT1
MCAD
MDR1
MDR2
MRP6
MS
MTHFR
NGFiB
NURR1
Ntcp
OCTN2
PAL
PDK4
PECI
PLTP
PMDCI
PON
PPARa
PPARd
PPARg
PXR
Pex11a
RARa
RARb2
RXRa
RXRb2
RXRg1
S14
SHP1
SIAT4c
SPI1.1
SR.BI
THB
THIOL
TRa
TRb
Tpalpha
Tpbeta
UCP2
UCP3
VDR
VLDLr
Waf1
ap2
apoA.I
apoB
apoC3
apoE
c.fos
cHMGCoAS
cMOAT
eif2g
hABC1
i.BABP
i.BAT
i.FABP
i.NOS
mABC1
mHMGCoAS
0.6 0.4 0.2 0.0 0.2 0.4
0
.
4
0
.
2
0
.
0
0
.
2
Dimension 1
D
im
e
n
s
io
n

2
X36b4
ACAT1
ACAT2
ACBP ACC1
ACC2
ACOTH
ADISP
ADSS1
ALDH3
AM2R
AOX
BACT
BIEN
BSEP
Bcl.3
C16SR CACP
CAR1 CBS
CIDEA
COX1
COX2
CPT2
CYP24
CYP26
CYP27a1
CYP27b1
CYP2b10
CYP2b13
CYP2c29
CYP3A11
CYP4A10
CYP4A14
CYP7a
CYP8b1
FAS
FAT
FDFT
FXR
G6PDH
G6Pase
GK
GS
GSTa
GSTmu
GSTpi2
HMGCoAred
HPNCL
IL.2
L.FABP
LCE
LDLr LPK
LPL
LXRa
LXRb
Lpin Lpin1
Lpin2
Lpin3
M.CPT1
MCAD
MDR1
MDR2
MRP6
MS
MTHFR
NGFiB
NURR1
Ntcp
OCTN2
PAL
PDK4
PECI
PLTP
PMDCI
PON
PPARa
PPARd
PPARg
PXR
Pex11a
RARa
RARb2
RXRa
RXRb2
RXRg1
S14
SHP1
SIAT4c
SPI1.1
SR.BI
THB
THIOL
TRa
TRb
Tpalpha
Tpbeta
UCP2
UCP3
VDR
VLDLr
Waf1
ap2
apoA.I
apoB
apoC3
apoE
c.fos
cHMGCoAS
cMOAT
eif2g
hABC1
i.BABP
i.BAT
i.FABP
i.NOS
mABC1
mHMGCoAS
FIGURE 7.3 Souris : positionnement multidimensionnel des g` enes sur les axes 1 et 2 selon 3 distances
diff erentes : distance euclidienne (d
1
` a gauche), corr elation (d
3
au centre), corr elation carr ee (d
2
` a droite).
Dune mani` ere g en erale, on peut retenir que lutilisation de la distance euclidienne tend ` a rapprocher
des g` enes dont les expressions sont proches. En revanche, les deux autres indicateurs consid` erent que deux
g` enes sont proches si leur expression varie dans le m eme sens selon les conditions exp erimentales. La
corr elation (d
3
) distingue les g` enes corr el es n egativement, ce que ne permet pas la corr elation carr ee (d
2
)
qui doit donc etre utilis ee en connaissance de cause.
Notons que la distance d
1
est plus courante en statistique alors que d
3
lest davantage dans les etudes
relatives aux biopuces. Autant que possible une comparaison des trois distances est recommand ee. On se
r ef erera ` a Draghici (2003, chapitre 11) pour une discussion plus d etaill ee sur le sujet.
Chapitre 8
Classication
1 Introduction
1.1 Les donn ees
Comme dans le cas du chapitre pr ec edent (MDS), les donn ees peuvent se pr esenter sous diff erentes
formes ; elles concernent n individus suppos es affect es, pour simplier, du m eme poids :
un tableau de distances (ou dissimilarit es, ou mesures de dissemblance), n n, entre les individus
pris deux ` a deux ;
les observations de p variables quantitatives sur ces n individus ;
les observations, toujours sur ces n individus, de variables qualitatives ou dun m elange de variables
quantitatives et qualitatives.
Dune facon ou dune autre, il sagit, dans chaque cas, de se ramener au tableau des distances deux ` a
deux entre les individus (cest-` a-dire au premier cas). Le choix dune matrice de produit scalaire permet de
prendre en compte simplement un ensemble de variables quantitatives tandis que le troisi` eme cas n ecessite
plus de d eveloppements ; il nest pas pr esent e ici car de peu dint er et pour des donn ees dexpression.
1.2 Les objectifs
Lobjectif dune m ethode de classication d eborde le cadre strictement exploratoire. Cest la recherche
dune typologie, ou segmentation, cest-` a-dire dune partition, ou r epartition des individus en classes, ou
cat egories. Ceci est fait en optimisant un crit` ere visant ` a regrouper les individus dans des classes, cha-
cune le plus homog` ene possible et, entre elles, les plus distinctes possible. Cet objectif est ` a distinguer des
proc edures de discrimination, ou encore de classement (en anglais classication) pour lesquelles une typo-
logie est a priori connue, au moins pour un echantillon dapprentissage. Nous sommes dans une situation
dapprentissage non-supervis e, ou en anglais de clustering
1
.
1.3 Les m ethodes
Un calcul el ementaire de combinatoire montre que le nombre de partitions possibles dun ensemble de n
el ements crot plus quexponentiellement avec n. Ainsi, pour n = 20, il est de lordre de 10
13
. Il nest donc
pas question de chercher ` a optimiser le crit` ere sur toutes les partitions possibles. Les m ethodes se limitent
` a lex ecution dun algorithme it eratif convergeant vers une bonne partition qui correspond en g en eral ` a
un optimum local. M eme si le besoin de classer des objets est tr` es ancien, seule la g en eralisation des outils
informatiques en a permis lautomatisation dans les ann ees 1970. Celeux et col. (1989) d ecrivent en d etail
ces algorithmes.
Diff erents choix sont laiss es ` a linitiative de lutilisateur :
une mesure d eloignement (dissemblance, dissimilarit e ou distance) entre individus ;
le crit` ere dhomog en eit e des classes ` a optimiser : il est, dans le cas de variables quantitatives, g en eralement
1. Faire attention aux faux amis francais / anglais : discrimination / classication (supervis ee) et classication / clustering (non-
supervis ee)
83
84 Chapitre 8. Classication
d eni ` a partir de la trace dune matrice de variances-covariances ; soit les variances et covariances
interclasses (la trace correspond alors ` a linertie de la partition), soit les variances et covariances
intraclasse ;
la m ethode : la classication ascendante hi erarchique et celle par r eallocation dynamique sont les
plus utilis ees, seules ou combin ees ;
le nombre de classes : cest un point d elicat.
Enn, diff erents outils recherchent une interpr etation, ou des caract erisations, des classes obtenues.
On notera que les principes algorithmiques de ces m ethodes sont relativement el ementaires.
Classication ascendante hi erarchique, ou CAH
Il sagit de regrouper it erativement les individus, en commencant par le bas (les deux plus proches) et
en construisant progressivement un arbre, ou dendrogramme, regroupant nalement tous les individus en
une seule classe, ` a la racine (cf. gure 2 qui reprend les donn ees el ementaires du chapitre pr ec edent). Ceci
suppose de savoir calculer, ` a chaque etape ou regroupement, la distance entre un individu et un groupe ainsi
que celle entre deux groupes. Ceci n ecessite donc, pour lutilisateur de cette m ethode, de faire un choix
suppl ementaire : comment d enir la distance entre deux groupes connaissant celles de tous les couples
dindividus entre ces deux groupes. Diff erents choix, appel es saut en francais et linkage en anglais, sont
d etaill es plus loin. Le nombre de classes est d etermin e a posteriori, ` a la vue du dendrogramme ou dun
graphique repr esentant la d ecroissance de la hauteur de chaque saut, ou ecart de distance, op er e ` a chaque
regroupement.
Classication par r eallocation dynamique
Dans ce cas, le nombre de classes, k, est x e a priori. Ayant initialis e k centres de classes par tirage
al eatoire, tous les individus sont affect es ` a la classe dont le centre est le plus proche au sens de la distance
choisie (en principe, euclidienne pour cette m ethode). Dans une deuxi` eme etape, lalgorithme calcule des
barycentres de ces classes qui deviennent les nouveaux centres. Le proc ed e (affectation de chaque individu
` a un centre, d etermination des centres) est it er e jusqu` a convergence vers un minimum (local) ou un nombre
dit erations maximum x e.
Classication mixte
La CAH n ecessite imp erativement la construction dun tableau de distances n n et son stockage
en m emoire ; le nombre maximum dindividus trait es peut sen trouver limit e. Ce nest pas le cas dans
lalgorithme de r eallocation, do` u lint er et possible dune approche mixte pour, ` a la fois, classer de grands
volumes de donn ees et s electionner le nombre de classes par CAH.
Dans le cas plus sp ecique de donn ees dexpression, et comme pour le chapitre pr ec edent (MDS), le
choix principal est celui de la distance (ou dissimilarit e) utilis ee. Sajoute en plus le choix du crit` ere de
saut en CAH et celui du nombre de classes (a priori avec la r eallocation dynamique, ou a posteriori avec la
CAH). La plupart des logiciels d edi es ` a ces donn ees proposent une double CAH des lignes (g` enes) et des
colonnes ( echantillons biologiques) dans une repr esentation graphique habilement color ee.
2 Illustration
En guise de premi` ere illustration sur les m ethodes de classication, nous reprenons l etude des m emes
donn ees que dans le chapitre pr ec edent : un tableau contenant les distances kilom etriques par route (Source :
IGN) entre 47 grandes villes en France et dans les pays limitrophes. Toutes ces valeurs sont rang ees dans le
triangle inf erieur dune matrice carr ee avec des 0 sur la diagonale. Il sagit donc de regrouper au mieux ces
villes, en tenant compte de leurs proximit es relatives au sens de cette distance routi` ere.
`
A lissue de lex ecution, la classication ascendante hi erarchique fournit les deux graphiques pr ecis es
ci-dessous.
Un graphique daide au choix du nombre de classes (cf. gure 2). Il repr esente ` a rebours, en fonction
du nombre de classes, la d ecroissance de la distance interclasses. La pr esence dune rupture impor-
tante dans cette d ecroissance aide au choix du nombre de classes comme dans le cas du choix de
3. Mesures d eloignement 85
5 10 15
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
nb de classes
H
a
u
t
e
u
r
FIGURE 8.1 Villes : D ecroissance de la variance interclasses ` a chaque regroupement dans le cas du saut
de Ward.
dimension en ACP, avec l eboulis des valeurs propres. Dans ce cas, il faut lire le graphe de droite ` a
gauche et sarr eter avant le premier saut jug e signicatif. Avec lindice de Ward, cela revient ` a cou-
per larbre avant une perte, jug ee trop importante, de la variance interclasses. Dans le cas des villes
rep er ees par leurs distances kilom etriques, le choix de 5 classes semble raisonnable.
Le dendrogramme (cf. gure 2) est une repr esentation graphique, sous forme darbre binaire, des
agr egations successives jusqu` a la r eunion en une seule classe de tous les individus. La hauteur dune
branche est proportionnelle ` a lindice de dissemblance ou distance entre les deux objets regroup es.
Dans le cas du saut de Ward, cest la perte de variance interclasses.
Une fois un nombre de classes s electionn e ` a laide du premier graphique, une coupure de larbre fournit,
dans chaque sous-arbre, la r epartition des individus en classes. Ces classes peuvent ensuite etre repr esent ees
dans les axes dune analyse factorielle, en g en eral une ACP ou un MDS (gure 2).
Signalons quil est courant, dans la pratique, de mettre en uvre, ` a lissue dune CAH, une m ethode
de r eallocation dynamique avec pour nombre de classes celui choisi par CAH et pour centres initiaux les
barycentres des classes obtenues : on stabilise ainsi les classes.
Notons egalement que lexemple pr esent e ici est relativement simple et bien structur e. Modier le crit` ere
de saut ne change pas grand chose dans ce cas. Mais, attention, il est facile de v erier exp erimentalement
quune classication ascendante est un objet tr` es sensible. En effet, il suft de modier une distance dans
le tableau, par exemple de r eduire sensiblement la distance de Grenoble ` a Brest, pour que la classication
(nombre de classes, organisation) devienne tr` es sensible au choix du crit` ere de saut. En revanche, la structure
des donn ees fait que la repr esentation factorielle de lACP du tableau de distance (MDS) est tr` es robuste ` a
ce type derreur de mesure.
3 Mesures d eloignement
Notons = i = 1, . . . , n lensemble des individus. Cette section se propose de d enir sur
diff erentes mesures d eloignement entre deux individus. Les hypoth` eses et propri et es etant de plus en plus
fortes.
3.1 Indice de ressemblance, ou similarit e
Cest une mesure de proximit e d enie de dans IR
+
et v eriant :
s(i, j) = s(j, i), (i, j) : sym etrie ;
s(i, i) = S > 0, i : ressemblance dun individu avec lui-m eme ;
s(i, j) S, (i, j) : la ressemblance est major ee par S.
l
u
x
e
m
e
t
z
n
a
n
c
r
e
i
m
t
r
o
y
b
e
s
a
d
i
j
o
s
t
r
a
b
a
l
e
m
u
l
h
m
a
r
s
n
i
c
e
c
h
a
m
g
e
n
e
g
r
e
n
l
y
o
n
h
e
n
d
b
o
r
d
r
o
y
a
m
o
n
t
p
e
r
p
a
n
d
o
l
o
u
r
t
o
u
l
b
o
u
l
c
a
l
a
b
r
u
x
l
i
l
l
c
a
e
n
c
h
e
r
l
e
h
a
r
o
u
e
a
m
i
e
p
a
r
i
b
r
e
s
r
e
n
n
s
t
m
a
l
a
b
a
n
a
n
t
c
l
e
m
l
i
m
o
p
o
i
t
a
n
g
e
l
e
m
a
t
o
u
r
b
o
u
r
o
r
l
e
0
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
H
e
i
g
h
t
FIGURE 8.2 Villes : Exemple dun dendrogramme issu de la classication des donn ees par CAH et saut
de Ward.
3. Mesures d eloignement 87
800 600 400 200 0 200 400
4
0
0
2
0
0
0
2
0
0
4
0
0
cp1
c
p
2
amie
ando
ange
bale
laba
besa
bord
boul
bour
bres
brux
caen
cala
cham
cher
clem
dijo
gene
gren
leha
hend
lill
limo
lour
luxe
lyon
lema
mars
metz
mont
mulh
nanc
nant
nice
orle
pari
perp
poit
reim
renn
roue
roya
stma
stra
toul
tour
troy
FIGURE 8.3 Villes : Repr esentation des classes (couleurs) obtenues par CAH dans les coordonn ees du
MDS.
Un indice de ressemblance norm e s
est facilement d eni ` a partir de s par :

s
(i, j) =
1
S
s(i, j), (i, j) ;
s
est une application de dans [0, 1].

3.2 Indice de dissemblance, ou dissimilarit e
Une dissimilarit e est une application d de dans IR
+
v eriant :
d(i, j) = d(j, i), (i, j) : sym etrie ;
d(i, i) = 0, i : nullit e de la dissemblance dun individu avec lui-m eme.
Les notions de similarit e et dissimilarit e se correspondent de facon el ementaire. Si s est un indice de res-
semblance, alors
d(i, j) = S s(i, j), (i, j)
est un indice de dissemblance. De facon r eciproque, si d est un indice de dissemblance avec D = sup
(i,j)
d(i, j),
alors s(i, j) = Dd(i, j) est un indice de ressemblance. Comme s
, un indice de dissemblance norm e est

d eni par :
d
(i, j) =
1
D
d(i, j), (i, j)
avec d
= 1s
et s
= 1d
. Du fait de cette correspondance imm ediate, seule la notion de dissemblance,

ou dissimilarit e, norm ee est consid er ee par la suite.
3.3 Indice de distance
Un indice de distance est, par d enition, un indice de dissemblance qui v erie de plus la propri et e :
d(i, j) = 0 = i = j.
Cette propri et e evite des incoh erences pouvant apparatre entre dissemblances, par exemple :
k : d(i, k) ,= d(j, k), avec pourtant i ,= j et d(i, j) = 0.
3.4 Distance
Une distance sur est, par d enition, un indice de distance v eriant en plus la propri et e din egalit e
triangulaire. Autrement dit, une distance d est une application de dans IR
+
v eriant :
d(i, j) = d(j, i), (i, j) ;
d(i, i) = 0 i = j ;
d(i, j) d(i, k) +d(j, k), (i, j, k)
3
.
Si est ni, la distance peut etre norm ee.
3.5 Distance euclidienne
Dans le cas o` u est un espace vectoriel muni dun produit scalaire, donc dune norme, la distance
d enie ` a partir de cette norme est appel ee distance euclidienne :
d(i, j) = < i j, i j >
1/2
= |i j|.
La condition pour quune matrice donn ee de distances entre el ements dun espace vectoriel soit issue
dune distance euclidienne est explicit ee dans le chapitre pr ec edent. Toute distance nest pas n ecessairement
euclidienne ; voir, par exemple, celle construite sur la valeur absolue.
4. Classication ascendante hi erarchique 89
3.6 Utilisation pratique
Concr` etement, il peut arriver que les donn ees ` a traiter soient directement sous la forme dune matrice
dun indice de ressemblance ou de dissemblance. Il est alors facile de la transformer en une matrice de
dissemblances norm ees avant daborder une classication.
Nous pr ecisons ci-dessous les autres cas.
Donn ees quantitatives
Lorsque les p variables sont toutes quantitatives, il est n ecessaire de d enir une matrice M de produit
scalaire sur lespace IR
P
. Le choix M = I
p
, matrice identit e, est un choix el ementaire et courant ; mais
il est vivement conseill e de r eduire les variables de variances h et erog` enes, comme en ACP, ce qui revient
` a consid erer, comme matrice de produit scalaire, la matrice diagonale compos ee des inverses des ecarts-
types :
M=
1
= diag (
1
1

1
p
).
La m etrique dite de Mahalanobis (inverse de la matrice des variances-covariances) peut aussi etre utilis ee
pour att enuer la structure de corr elation.
Donn ees qualitatives
Dans le cas tr` es particulier o` u toutes les variables sont binaires (pr esence ou absence de caract eristiques),
de nombreux indices de ressemblances ont et e propos es dans la litt erature. Ils ne sont pas d etaill es dans le
cadre dun cours sp ecique aux donn ees dexpression.
3.7 Bilan
Une fois ces pr eliminaires accomplis, nous nous retrouvons donc avec
soit un tableau de mesures quantitatives n p, associ e ` a une matrice de produit scalaire p p (en
g en eral I
p
) d enissant une m etrique euclidienne,
soit directement un tableau n n de dissemblances ou de distances entre individus.
Attention, si n est grand, la deuxi` eme solution peut se heurter rapidement ` a des probl` emes de stockage en
m emoire pour lex ecution des algorithmes.
4 Classication ascendante hi erarchique
4.1 Principe
Linitialisation de cet algorithme consiste, sil nest d ej` a donn e, ` a calculer un tableau de distances (ou
de dissemblances) entre les individus ` a classer. Lalgorithme d emarre alors de la partition triviale des n
singletons (chaque individu constitue une classe) et cherche, ` a chaque etape, ` a constituer des classes par
agr egation des deux el ements les plus proches de la partition de l etape pr ec edente. Lalgorithme sarr ete
avec lobtention dune seule classe. Les regroupements successifs sont repr esent es sous la forme dun arbre
binaire ou dendrogramme.
4.2 Distance, ou dissemblance, entre deux classes
`
A chaque etape de lalgorithme, il est n ecessaire de mettre ` a jour le tableau des distances (ou des dis-
semblances). Apr` es chaque regroupement, de deux individus, de deux classes ou dun individu ` a une classe,
les distances entre ce nouvel objet et les autres sont calcul ees et viennent remplacer, dans la matrice, les
distances des objets qui viennent d etre agr eg es. Diff erentes approches sont possibles ` a ce niveau, donnant
lieu ` a diff erentes CAH.
Notons A et B deux classes, ou el ements, dune partition donn ee, w
A
et w
B
leurs pond erations, et d
i,j
la distance entre deux individus quelconques i et j.
Le probl` eme est de d enir d(A, B), distance entre deux el ements dune partition de .
Cas dune dissemblance
Les strat egies ci-dessous saccomodent dun simple indice de dissemblance d eni entre les individus.
Elles sappliquent egalement ` a des indices plus structur es (distance) mais nen utilisent pas toutesles pro-
pri et es.
d(A, B) = min
iA,jB
(d
ij
) (saut minimum, single linkage),
d(A, B) = sup
iA,jB
(d
ij
) (saut maximum ou diam` etre, complete linkage),
d(A, B) =
1
card(A)card(B)
iA,jB
d
ij
(saut moyen, group average linkage).
Cas dune distance euclidienne
Les strat egies suivantes n ecessitent la connaissance de repr esentations euclidiennes des individus : ma-
trice n p des individus an, au minimum, de pouvoir d enir les barycentres not es g
A
et g
B
des classes.
d(A, B) = d(g
A
, g
B
) (distance des barycentres, centrod),
d(A, B) =
w
A
w
B
w
A
+w
B
d(g
A
, g
B
) (saut de Ward).
Important
Le saut de Ward joue un r ole particulier et est la strat egie la plus courante ; cest m eme loption par
d efaut (SAS) dans le cas dune distance euclidienne entre individus. En effet, ce crit` ere induit, ` a chaque
etape de regroupement, une minimisation de la d ecroissance de la variance interclasse.
4.3 Algorithme
ALGORITHME 8.1 :
classication ascendante hi erarchique
Initialisation Les classes initiales sont les singletons. Calculer la matrice de leurs distances
deux ` a deux.
Iterer les deux etapes suivantes jusqu` a lagr egation en une seule classe :
i. regrouper les deux classes les plus proches au sens de la distance entre classes choisie,
ii. mettre ` a jour le tableau de distances en remplacant les deux classes regroup ees par la nouvelle
et en calculant sa distance avec chacune des autres classes.
4.4 Graphes
Les graphes obtenus ` a lissue dune CAH ont et e pr esent es et illustr es dans le paragraphe 2. Il sagit du
graphique daide au choix du nombre de classes et du dendrogramme.
5 Agr egation autour de centres mobiles
5.1 Principes
Diff erents types dalgorithmes ont et e d enis autour du m eme principe de r eallocation dynamique des
individus ` a des centres de classes, eux-m emes recalcul es ` a chaque it eration. Ces algorithmes requi` erent
une repr esentation vectorielle des individus dans IR
p
muni dune m etrique, g en eralement euclidienne. Une
adaptation de cet algorithme, PAM (pour Partitioning clustering of the data into k clusters Around
Medods ; Kaufman & Rousseeuw, 1990), en est une version robuste, egalement adapt ee ` a une matrice de
dissimilarit es. Ce dernier algorithme est en revanche limit e au niveau du nombre dobservations (200).
Il est important de noter que, contrairement ` a la m ethode hi erarchique pr ec edente, le nombre de classes
k doit etre d etermin e a priori.
5. Agr egation autour de centres mobiles 91
Ces m ethodes sont it eratives : apr` es une initialisation des centres consistant, le plus souvent, ` a tirer
al eatoirement k individus, lalgorithme r ep` ete deux op erations jusqu` a la convergence dun crit` ere :
i. Chaque individu est affect e ` a la classe dont le centre est le plus proche.
ii. Calcul des k centres des classes ainsi constitu ees.
5.2 Principale m ethode
Il sagit de la m ethode (kmeans) propos ee dans Forgy (1965).
ALGORITHME 8.2 :
Initialisation Tirer au hasard, ou s electionner pour des raisons ext erieures ` a la m ethode, k
points dans lespace des individus, en g en eral k individus de lensemble, appel es centres ou noyaux.
Iterer les deux etapes suivantes, jusqu` a ce que le crit` ere de variance interclasses ne croisse plus
de mani` ere signicative, cest-` a-dire jusqu` a la stabilisation des classes.
i. Allouer chaque individu au centre (cest-` a-dire ` a la classe) le plus proche au sens de la m etrique
euclidienne choisie ; on obtient ainsi, ` a chaque etape, une classication en k classes, ou moins
si, nalement, une des classes devient vide.
ii. Calculer le centre de gravit e de chaque classe : il devient le nouveau noyau ; si une classe sest
vid ee, on peut eventuellement retirer al eatoirement un noyau compl ementaire.
5.3 Propri et es
Convergence Le crit` ere (la variance interclasses) est major e par la variance totale. Il est simple de mon-
trer quil ne peut que crotre ` a chaque etape de lalgorithme, ce qui en assure la convergence. Il
est equivalent de maximiser la variance interclasses ou de minimiser la variance intraclasse. Cette
derni` ere est alors d ecroissante et minor ee par 0. Concr` etement, une dizaine dit erations suft g en eralement
pour atteindre la convergence.
Optimum local La solution obtenue est un optimum local, cest-` a-dire que la r epartition en classes d epend
du choix initial des noyaux. Plusieurs ex ecutions de lalgorithme permettent de sassurer de la pr esence
de formes fortes, cest-` a-dire de classes, ou partie de classes, pr esentes de mani` ere stable dans la ma-
jorit e des partitions obtenues.
5.4 Variantes
Algorithme kmeans
Il sagit dune modication de lalgorithme pr ec edent, propos ee par Mac Queen (1967). Les noyaux des
classes, ici les barycentres des classes concern ees, sont recalcul es ` a chaque allocation dun individu ` a une
classe. Lalgorithme est ainsi plus efcace, mais il d epend de lodre des individus dans le chier.
Nu ees dynamiques
La variante propos ee par Diday (1971) consiste ` a remplacer chaque centre de classe par un noyau
constitu e d el ements repr esentatifs de cette classe. Cela permet de corriger linuence d eventuelles valeurs
extr emes sur le calcul du barycentre.
Partitionning Around Medods
Cet algorithme, propos e par Kaufman & Rousseeuw (1990), permet de classier des donn ees de facon
plus robuste, cest-` a-dire moins sensible ` a des valeurs atypiques. Il permet egalement de traiter des matrices
de dissimilarit es. Les r esultats sont fournis dans la gure 5.4, pour lequels le nombre de classe est x e a
priori ` a 5, comme le sugg` ere la CAH, mais pour lesquels les classes obtenues sont sensiblement diff erentes.
5.5 Combinaison
Chaque m ethode pr ec edente peut etre plus ou moins adapt ee ` a la situation rencontr ee. La classication
hi erarchique, qui construit n ecessairement la matrice des distances, naccepte quun nombre limit e dindi-
800 600 400 200 0 200 400
4
0
0
2
0
0
0
2
0
0
4
0
0
cp1
c
p
2
amie
ando
ange
bale
laba
besa
bord
boul
bour
bres
brux
caen
cala
cham
cher
clem
dijo
gene
gren
leha
hend
lill
limo
lour
luxe
lyon
lema
mars
metz
mont
mulh
nanc
nant
nice
orle
pari
perp
poit
reim
renn
roue
roya
stma
stra
toul
tour
troy
FIGURE 8.4 Villes : Repr esentation des classes (couleurs) obtenues par PAM dans les coordonn ees du
MDS.
vidus ; de son c ot e, la r eallocation dynamique n ecessite de xer a priori le nombre de classes. La strat egie
suivante, adapt ee aux grands ensembles de donn ees, permet de contourner ces difcult es.
i. Ex ecuter une m ethode de r eallocation dynamique en demandant un grand nombre de classes, de
lordre de 10% de n.
ii. Sur les barycentres des classes pr ec edentes, ex ecuter une classication hi erarchique puis d eterminer
un nombre optimal k de classes.
iii. Ex ecuter une m ethode de r eallocation dynamique sur tout lensemble en xant ` a k le nombre de
classes. Pour initialiser lalgorithme, il est habituel de choisir pour noyaux les barycentres (calcul es
en pond erant par les effectifs de classes) des classes de l etape pr ec edente.
Pour ce type de donn ees, les biologistes appr ecient particuli` erement de construire une double clas-
sication hi erarchique op erant ` a la fois sur les lignes et sur les colonnes (g` enes et echantillons). Une
repr esentation en fausses couleurs fournit une lecture susceptible de prendre en compte les distances res-
pectives des lignes (g` enes) dune part et des colonnes ( echantillons biologiques) dautre part, et de se faire
ainsi une id ee des g` enes pouvant inuencer la hi erarchie obtenue pour les echantillons. N eanmoins, cette
lecture, m eme en se limitant ` a une s election des g` enes propos es par lanalyse en composantes principales
(chapitre 3), nest pas tr` es ais ee (gure ??).
Le choix de la distance est evidemment important. La plus fr equemment rencontr ee pour l etude du
transcriptome est du type de d
3
, bas ee sur la corr elation. Il nous semble pertinent dutiliser les trois types
de distances et den appr ecier leur compl ementarit e quant ` a linterpr etation des r esultats. Nous avons fait
le choix de limiter cette comparaison des distances au MDS et nous nous contenterons ici de pr esenter une
classication bas ee sur la distance euclidienne d
1
. Le deuxi` eme choix intervenant en classication concerne
le crit` ere dagglom eration, cest-` a-dire la facon dont est d enie la distance entre deux groupes, et na pas
dinterpr etation biologique simple. Ce choix a plus une implication g eom etrique, sur la forme des classes
obtenues. Nous avons utilis e le crit` ere de Ward parce quil favorise la construction de classes relativement
sph eriques et quon peut lui associer des crit` eres guidant la d etermination du nombre de classes.
Linterpr etation de la double classication (Fig. 8.5) pr esente des analogies avec celle de lACP sur le
premier plan principal. Si lon sint eresse aux individus-souris, on peut constater que les deux g enotypes
sont diff erenci es en deux groupes, ` a lexception de trois souris de type PPAR ayant suivi les r egimes efad
(pour deux dentre elles) et ref. Ce sont ces trois m emes individus que lon retrouve projet es dans la
partie n egative du premier axe de lACP (Fig. 3.13). Pour les variables-g` enes, on peut distinguer deux
grandes classes correspondant, dapr` es les donn ees, ` a deux niveaux dexpressions : ` a gauche, les g` enes
dont lexpression est relativement faible, ` a droite les g` enes dont lexpression est globalement plus elev ee.
Dans cette seconde classe, un groupe attire particuli` erement lattention sur limage : sur une bande verticale
correspondant ` a 14 g` enes, les couleurs sont nettement plus variables que sur le reste de limage. Il sagit
des g` enes
CYP4A10, CYP4A14, CYP3A11, L.FABP, THIOL, PMDCI, S14,
Lpin1, Lpin, FAS, GSTmu, GSTpi2, CYP2c29, G6Pase
qui apparaissent tous parmi les g` enes les plus corr el es aux deux premiers axes principaux de lACP (Fig. 3.13).
MDS et classication apparaissent donc comme des techniques compl ementaires, mais elles ne sont pas
sensibles de la m eme facon aux perturbations. La perturbation dune donn ee peut fortement inuencer la
structure dun dendrogramme alors quen MDS, la prise en compte conjointe de toutes les distances deux ` a
deux assure une certaine robustesse pour le calcul des coordonn ees principales. Pour cette raison, il est utile
de repr esenter les classes dans une projection sur des axes factoriels obtenus soit par MDS soit par ACP.
L eboulis des valeurs propres (Fig. 8.6) nous oriente vers une repr esentation du MDS en deux dimensions.
La repr esentation de la gure 8.7 est analogue ` a celle d ej` a pr esent ee (Fig. 7.3). Elle est compl et ee par
un codage en couleurs des g` enes, selon leur appartenance ` a une classe issu de la classication hi erarchique.
Pour cela, nous avons coup e larbre an den extraire 5 classes.
S
R
.B
I
N
tc
p
C
A
R
1
P
A
L
c
.fo
s
T
R
b
V
L
D
L
r
R
A
R
a
S
IA
T
4
c
i.N
O
S
C
Y
P
2
b
1
3
e
if2
g
A
D
S
S
1
F
A
T
U
C
P
2
C
Y
P
2
b
1
0
N
G
F
iB
C
Y
P
2
6
R
A
R
b
2
C
Y
P
2
7
b
1
C
Y
P
2
4
U
C
P
3
R
X
R
g
1
L
p
in
3
i.B
A
T
G
S
P
O
N
C
O
X
2
N
U
R
R
1
M
.C
P
T
1
P
X
R
M
S
V
D
R
P
D
K
4
A
C
O
T
H
R
X
R
a
M
C
A
D
C
ID
E
A
O
C
T
N
2
A
C
C
1
P
P
A
R
g
F
X
R
M
D
R
1
W
a
f1
a
p
o
C
3
S
H
P
1
T
R
a
i.B
A
B
P
C
1
6
S
R
X
3
6
b
4
C
O
X
1
B
c
l.3
L
X
R
a
L
X
R
b
L
P
L
h
A
B
C
1
A
D
IS
P
R
X
R
b
2
M
T
H
F
R
a
p
2
C
Y
P
7
a
m
A
B
C
1
IL
.2
P
e
x
1
1
a
A
C
A
T
1
T
H
B
P
P
A
R
d
C
Y
P
4
A
1
0
C
Y
P
4
A
1
4
C
Y
P
3
A
1
1
L
.F
A
B
P
T
H
IO
L
P
M
D
C
I
G
S
T
m
u
G
S
T
p
i2
C
Y
P
2
c
2
9
G
6
P
a
s
e
S
1
4
L
p
in
1
L
p
in
F
A
S
H
M
G
C
o
A
re
d
P
L
T
P
L
D
L
r
F
D
F
T
G
6
P
D
H
A
C
C
2
P
P
A
R
a
i.F
A
B
P
L
P
K
c
H
M
G
C
o
A
S
C
Y
P
8
b
1
C
P
T
2
C
A
C
P
P
E
C
I
A
L
D
H
3
m
H
M
G
C
o
A
S
B
IE
N
G
K
G
S
T
a
H
P
N
C
L
L
p
in
2
A
O
X
A
C
B
P
C
B
S
S
P
I1
.1
a
p
o
A
.I
M
D
R
2
C
Y
P
2
7
a
1
B
S
E
P
B
A
C
T
T
p
b
e
ta
T
p
a
lp
h
a
M
R
P
6
c
M
O
A
T
L
C
E
a
p
o
B
A
M
2
R
a
p
o
E
PPAR ref
PPAR dha
PPAR dha
PPAR dha
PPAR efad
PPAR efad
PPAR tsol
PPAR tsol
PPAR ref
PPAR lin
PPAR dha
PPAR lin
PPAR ref
PPAR lin
PPAR lin
PPAR tsol
PPAR tsol
WT ref
WT ref
WT tsol
WT efad
WT tsol
WT ref
WT ref
WT lin
WT lin
WT lin
WT lin
WT tsol
WT tsol
WT dha
WT dha
WT dha
WT dha
WT efad
WT efad
WT efad
PPAR ref
PPAR efad
PPAR efad
FIGURE 8.5 Souris : double classication ascendante hi erarchique des individus-souris et des variables-
g` enes selon la m ethode de Ward, avec la distance euclidienne.
1 2 3 4 5 6 7 8 9 10
Dimension
V
a
le
u
rs
p
ro
p
re
s
0
2
4
6
8
1
0
1
2
1
4
FIGURE 8.6 Souris : eboulis des valeurs propres pour le MDS de la matrice de distance euclidienne
interg` enes.
1.0 0.5 0.0 0.5 1.0
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
Dimension 1
D
i
m
e
n
s
i
o
n

2
X36b4
ACAT1
ACAT2
ACBP
ACC1
ACC2
ACOTH
ADISP
ADSS1
ALDH3
AM2R AOX
BACT
BIEN
BSEP
Bcl.3
C16SR
CACP
CAR1
CBS
CIDEA
COX1
COX2 CPT2
CYP24
CYP26
CYP27a1
CYP27b1
CYP2b10
CYP2b13
CYP2c29
CYP3A11
CYP4A10
CYP4A14
CYP7a
CYP8b1
FAS
FAT FDFT
FXR
G6PDH
G6Pase
GK
GS
GSTa
GSTmu
GSTpi2
HMGCoAred
HPNCL
IL.2
L.FABP
LCE
LDLr
LPK
LPL
LXRa
LXRb
Lpin
Lpin1
Lpin2
Lpin3
M.CPT1
MCAD
MDR1
MDR2
MRP6
MS
MTHFR
NGFiB
NURR1
Ntcp
OCTN2
PAL
PDK4
PECI
PLTP
PMDCI
PON
PPARa
PPARd
PPARg
PXR
Pex11a
RARa
RARb2
RXRa RXRb2
RXRg1
S14
SHP1
SIAT4c SPI1.1
SR.BI
THB
THIOL
TRa
TRb
Tpalpha
Tpbeta
UCP2
UCP3
VDR
VLDLr
Waf1
ap2
apoA.I
apoB
apoC3
apoE
c.fos
cHMGCoAS
cMOAT
eif2g
hABC1
i.BABPi.BAT
i.FABP
i.NOS
mABC1
mHMGCoAS
FIGURE 8.7 Souris : repr esentation par positionnement multidimensionnel (distance euclidienne) des 5
groupes issues de la classication hi erarchique des g` enes.
Bri` evement, on peut noter que laxe 1 met en evidence lopposition pr ec edemment evoqu ee entre CAR1
(surexprim e chez les souris PPAR) et un groupe de g` enes (CYP3A10, CYP4A10, CYP4A14, PMDCI,
THIOL et L-FABP) qui est surexprim e chez les souris WT. De mani` ere similaire, laxe 2 oppose les g` enes
induits par le r egime dha (valeurs positives, g` enes impliqu es dans le catabolisme des lipides et dans le
m etabolisme des x enobiotiques) aux g` enes induits par le r egime efad (valeurs n egatives, g` enes principa-
lement impliqu es dans la synth` ese de lipides). En remontant vers les feuilles de larbre de classication,
on notera que le groupe des g` enes repr esent es en vert est s epar e en deux sous-groupes qui conservent une
coh erence vis-` a-vis des fonctions biologiques de catabolisme et de synth` ese des lipides respectivement.
Une observation des donn ees individuelles r ev` ele que ces r egulations op er ees par les r egimes semblent plus
marqu ees chez les souris WT. Baccini et col. (2005) montrent que dautres techniques (for ets al eatoires par
exemple) permettent de conrmer ces observations de mani` ere plus objective.
Nous laissons au lecteur lappr eciation sur le nombre de combinaisons doptions possibles qui sont
offertes par lensemble de ces outils : centrage, r eduction, distance, crit` ere de saut, projection, classication !
Bibliographie
[1] P.C. Besse. Pca stability and choice of dimensionality. Statistics & Probability Letters, 13 :405410,
1992.
[2] P.C. Besse, H. Cardot, and F. Ferraty. Simultaneous non-parametric regressions of unbalanced longi-
tudinal data. Computational Statistics & Data Analysis, 24 :255270, 1997.
[3] P.C. Besse and J.O. Ramsay. Principal component analysis of sampled curves. Psychometrika,
51 :285311, 1986.
[4] J.M. Bouroche and G. Saporta. LAnalyse des Donn ees. Que Sais-je, PUF, 1980.
[5] F. Caillez and J.M. Pages. Introduction ` a lAnalyse des Donn ees. SMASH, 1976.
[6] G. Celeux, E. Diday, G. Govaert, Y. Lechevallier, and H. Ralambondrainy. Classication automatique
des donn ees. Dunod, 1989.
[7] J.C. Deville. M ethodes statistiques et num eriques de lanalyse harmonique. Ann Insee, 15., 1974.
[8] J.J. Droesbeke, B. Fichet, and P. Tassi. Mod` eles pour lAnalyse des Donn ees Multidimensionnelles.
Economica, 1992.
[9] L. Goodman. Measures, models, and graphical displays in the analysis of crossclassied data. Jour-
nal of the American Statistical Association, 86 :10851138, 1991.
[10] J.C. Gower and S.A. Harding. Non-linear biplots. Biometrika, 75 :445455, 1988.
[11] J.D. Jobson. Applied Multivariate Data Analysis, volume II : Categorical and multivariate methods.
Springer-Verlag, 1992.
[12] I. Jolliffe. Principal Component Analysis. Springer-Verlag, 2nd edition edition, 2002.
[13] L. Kaufman and J. Rousseeuw, P. Finding groups in data. Wiley, 1990.
[14] L. Lebart, A. Morineau, and M. Piron. Statistique exploratoire multidimensionnelle. Dunod, 1995.
[15] K.V. Mardia, J.T. Kent, and J.M. Bibby. Multivariate Analysis. Academic Press, 1979.
[16] J.O Ramsay and B. Silverman. Functional Data Analysis. Springer-Verlag, 1997.
[17] G. Saporta. Probabilit es, Analyse des Donn ees et Statistique. Technip, deuxi` eme edition, 2006.
97
98 BIBLIOGRAPHIE
Chapitre A
Outils alg ebriques
Ce chapitre se propose de rassembler des notations et rappels dalg` ebre lin eaire ainsi que quelques
compl ements math ematiques du niveau du premier cycle des Universit es.
Dans tout ce qui suit, E et F sont deux espaces vectoriels r eels munis respectivement des bases cano-
niques c = e
j
; j = 1, . . . , p et T = f
i
; i = 1, . . . , n. On note indiff eremment soit un vecteur de
E ou de F, un endomorphisme de E, ou une application lin eaire de E dans F, soit leurs repr esentations
matricielles dans les bases d enies ci-dessus.
1 Matrices
1.1 Notations
La matrice dordre (n p) associ ee ` a une application lin eaire de E dans F est d ecrite par un tableau :
A =
_
_
a
1
1
. . . a
j
1
. . . a
p
1
.
.
.
.
.
.
.
.
.
a
1
i
. . . a
j
i
. . . a
p
i
.
.
.
.
.
.
.
.
.
a
1
n
. . . a
j
n
. . . a
p
n
_
_
.
On note par la suite :
a
j
i
= [A]
j
i
le terme g en eral de la matrice,
a
i
= [a
1
i
, . . . , a
p
i
]
un vecteur-ligne mis en colonne,

a
j
= [a
j
1
, . . . , a
j
n
]
un vecteur-colonne.
Types de matrices
Une matrice est dite :
vecteur-ligne (colonne) si n = 1 (p = 1),
vecteur-unit e dordre p si elle vaut 1
p
= [1, . . . , 1]
,
scalaire si n = 1 et p = 1,
carr ee si n = p.
Une matrice carr ee est dite :
identit e (I
p
) si a
j
i
=
j
i
=
_
0 si i ,= j
1 si i = j
,
diagonale si a
j
i
= 0 lorsque i ,= j,
sym etrique si a
j
i
= a
i
j
, (i, j),
triangulaire sup erieure (inf erieure) si a
j
i
= 0 lorsque i > j (i < j).
99
100 Chapitre A. Outils alg ebriques
Matrice partitionn ee en blocs
Matrices dont les el ements sont eux-m emes des matrices. Exemple :
A(n p) =
_
A
1
1
(r s) A
2
1
(r (p s))
A
1
2
((n r) s) A
2
2
((n r) (p s))
_
.
1.2 Op erations sur les matrices
Somme : [A+B]
j
i
= a
j
i
+b
j
i
pour Aet B de m eme ordre (n p).
Multiplication par un scalaire : [A]
j
i
= a
j
i
pour R.
Transposition : [A
]
j
i
= a
i
j
, A
est dordre (p n).

(A
= A; (A+B)
= A
+B
; (AB)
= B
;
_
A
1
1
A
2
1
A
1
2
A
2
2
_
=
_
A
1
1
A
1
2
A
2
1
A
2
2
_
.
Produit scalaire el ementaire : a
b =
n
i=1
a
i
b
i
o` u a et b sont des vecteurs-colonnes.
Produit : [AB]
j
i
= a
i
b
j
avec A
(np)
, B
(pq)
et AB
(nq)
, et pour des matrices par blocs :
_
A
1
1
A
2
1
A
1
2
A
2
2
_ _
B
1
1
B
2
1
B
1
2
B
2
2
_
=
_
A
1
1
B
1
1
+A
2
1
B
1
2
A
1
1
B
2
1
+A
2
1
B
2
2
A
1
2
B
1
1
+A
2
2
B
1
2
A
1
2
B
2
1
+A
2
2
B
2
2
_
sous r eserve de compatibilit e des dimensions.
1.3 Propri et es des matrices carr ees
La trace et le d eterminant sont des notions intrins` eques, qui ne d ependent pas des bases de repr esentation
choisies, mais uniquement de lapplication lin eaire sous-jacente.
Trace
Par d enition, si Aest une matrice (p p),
trA =
p
j=1
a
j
j
,
et il est facile de montrer :
tr = ,
trA = trA,
tr(A+B) = trA+ trB,
trAB = trBA,
reste vrai si Aest (n p) et si B est (p n)
trCC
= trC
C =
n
i=1
p
j=1
(c
j
i
)
2
dans ce cas, C est (n p).
2. Espaces euclidiens 101
D eterminant
On note [A[ le d eterminant de la matrice carr ee A(p p). Il v erie :
[A[ =
p
j=1
a
j
j
, si Aest triangulaire ou diagonale,
[A[ =
p
[A[,
[AB[ = [A[[B[,
A B
0 C
= [A[[C[,
A
1
1
A
2
1
A
1
2
A
2
2
= [A
1
1
[[A
2
2
A
1
2
(A
1
1
)
1
A
2
1
[ (A.1)
= [A
2
2
[[A
1
1
A
2
1
(A
2
2
)
1
A
1
2
[, (A.2)
sous r eserve de la r egularit e de A
1
1
et A
2
2
.
Cette derni` ere propri et e se montre en consid erant les matrices :
B =
_
I A
2
1
(A
2
2
)
1
0 I
_
et BAB
,
puis en comparant les d eterminants [BAB
[ et [A[.
Inverse
Linverse de A, lorsquelle existe, est la matrice unique not ee A
1
telle que :
AA
1
= A
1
A = I ;
elle existe si et seulement si [A[ , = 0. Quelques propri et es :
(A
1
)
= (A
)
1
, (AB)
1
= B
1
A
1
, [A
1
[ =
1
[A[
.
D enitions
Une matrice carr ee Aest dite :
sym etrique si A
= A,
singuli` ere si [A[ = 0,
r eguli` ere si [A[ , = 0,
idempotente si AA = A,
d enie-positive si, x IR
p
, x
Ax 0, et si x
Ax = 0 x = 0,
positive, ou semi-d enie-positive, si, x IR
p
, x
Ax 0,
orthogonale si AA
= A
A = I (A
= A
1
).
2 Espaces euclidiens
E est un espace vectoriel r eel de dimension p isomorphe ` a IR
p
.
2.1 Sous-espaces
Un sous-ensemble E
q
de E est un sous-espace vectoriel (s.e.v.) de E sil est non vide et stable :
(x, y) E
2
q
, IR, (x +y) E
q
.
Le q-uple x
1
, . . . , x
q
de E constitue un syst` eme lin eairement ind ependant si et seulement si :
q
i=1
i
x
i
= 0
1
= =
q
= 0.
Un syst` eme lin eairement ind ependant c
q
= e
1
, . . . , e
q
qui engendre dans E un s.e.v. E
q
=
vece
1
, . . . , e
q
en constitue une base et dim(E
q
) = card(c
q
) = q.
2.2 Rang dune matrice A
(np)
Dans ce sous-paragraphe, Aest la matrice dune application lin eaire de E = IR
p
dans F = IR
n
.
Im(A) = vecta
1
, . . . , a
p
est le s.e.v. de F image de A;
Ker(A) = x E ; Ax = 0 est le s.e.v. de E noyau de A;
E = Im(A) Ker(A) si Aest carr ee associ ee ` a un endomorphisme de E
et p = dim(Im(A)) + dim(Ker(A)).
rang(A) = dim(Im(A)),
0 rang(A) min(n, p),
rang(A) = rang(A
),
rang(A+B) rang(A) + rang(B),
rang(AB) min(rang(A), rang(B)),
rang(BAC) = rang(A), si B et C sont r eguli` eres,
rang(A) = rang(AA
) = rang(A
A).
Enn, si B(p q) est de rang q(q < p) et Aest carr ee (p p) de rang p, alors la matrice B
ABest de
rang q.
2.3 M etrique euclidienne
Soit Mune matrice carr ee (p p), sym etrique, d enie-positive ; Md enit sur lespace E :
un produit scalaire : x, y
M
= x
My,
une norme : |x|
M
= x, x
1/2
M
,
une distance : d
M
(x, y) = |x y|
M
,
des angles : cos
M
(x, y) =
x,y
M
x
M
y
M
.
La matrice M etant donn ee, on dit que :
une matrice Aest M-sym etrique si (MA)
= MA,
deux vecteurs x et y sont M-orthogonaux si x, y
M
= 0,
un vecteur x est M-norm e si |x|
M
= 1,
une base c
q
= e
1
, . . . , e
q
est M-orthonorm ee si
(i, j), e
i
, e
j
M
=
j
i
.
2.4 Projection
Soit W un sous-espace de E et B = b
1
, . . . , b
q
une base de W ; P(p p) est une matrice de
projection M-orthogonale sur W si et seulement si :
y E, Py W et Py, y Py
M
= 0.
Toute matrice idempotente (P
2
= P) et M-sym etrique (P
M = MP) est une matrice de projection

M-orthogonale et r eciproquement.
3. El ements propres 103
Propri et es
Les valeurs propres de P sont 0 ou 1 (voir 3) :
u W, Pu = u, = 1, de multiplicit e dim(W),
vW, (on note v W
) Pv = 0, = 0, de multiplicit e dim(W
).
trP = dim(W).
P = B(B
MB)
1
B
M, o` u B =
_
b
1
, . . . , b
q
.
Dans le cas particulier o` u les b
j
sont M-orthonorm es :
P = BB
M=
q
i=1
b
j
b
j
M.
Dans le cas particulier o` u q = 1 alors :
P =
bb
Mb
M=
1
|b|
M
bb
M.
Si P
1
, . . . , P
q
sont des matrices de projection M-orthogonales alors la somme P
1
+ + P
q
est
une matrice de projection M-orthogonale si et seulement si : P
k
P
j
=
j
k
P
j
.
La matrice I P est la matrice de projection M-orthogonale sur W
.
3 El ements propres
Soit Aune matrice carr ee (p p).
3.1 D enitions
Par d enition, un vecteur v d enit une direction propre associ ee ` a une valeur propre si lon a :
Av = v.
Si est une valeur propre de A, le noyau Ker(AI) est un s.e.v. de E, appel e sous-espace propre,
dont la dimension est major e par lordre de multiplicit e de . Comme cas particulier, Ker(A) est le
sous-espace propre associ e, si elle existe, ` a la valeur propre nulle.
Les valeurs propres dune matrice Asont les racines, avec leur multiplicit e, du polyn ome caract eristique :
[AI[ = 0.
TH EOR` EME A.1. Soit deux matrices A(n p) et B(p n) ; les valeurs propres non nulles de AB et
BAsont identiques avec le m eme degr e de multiplicit e. Si u est vecteur propre de BAassoci e ` a la valeur
propre diff erente de z ero, alors v = Au est vecteur propre de la matrice AB associ e ` a la m eme valeur
propre.
Les applications statistiques envisag ees dans ce cours ne sint eressent qu` a des types particuliers de
matrices.
TH EOR` EME A.2. Une matrice Ar eelle sym etrique admet p valeurs propres r eelles. Ses vecteurs propres
peuvent etre choisis pour constituer une base orthonorm ee de E ; Ase d ecompose en :
A = VV
=
p
k=1
k
v
k
v
k
o` u V est une matrice orthogonale [v

1
, . . . , v
p
] des vecteurs propres orthonorm es associ es aux valeurs
propres
k
, rang ees par ordre d ecroissant dans la matrice diagonale .
TH EOR` EME A.3. Une matrice A r eelle M-sym etrique admet p valeurs propres r eelles. Ses vecteurs
propres peuvent etre choisis pour constituer une base M-orthonorm ee de E ; Ase d ecompose en :
A = VV

M=
p
k=1
k
v
k
v
k
M
o` u V = [v
1
, . . . , v
p
] est une matrice M-orthogonale (V
MV = I
p
et VV
= M
1
) des vecteurs propres
associ es aux valeurs propres
k
, rang ees par ordre d ecroissant dans la matrice diagonale .
Les d ecompositions ne sont pas uniques : pour une valeur propre simple (de multiplicit e 1) le vecteur
propre norm e est d eni ` a un signe pr` es, tandis que pour une valeur propre multiple, une innit e de bases
M-orthonorm ees peuvent etre extraites du sous-espace propre unique associ e.
Le rang de Aest aussi le rang de la matrice associ ee et donc le nombre (r ep et ees avec leurs multipli-
cit es) de valeurs propres non nulles.
Par d enition, si Aest positive, on note la racine carr ee de A:
A
1/2
=
p
k=1
_
k
v
k
v
k
M= V
1/2
V
M.
3.2 Propri et es
Si
k
,=
j
, v
k
M
v
j
;
trA =
p
k=1
k
; [A[ =
p
k=1
k
;
si Aest r eguli` ere, k,
k
,= 0 ;
si Aest positive,
p
0 ;
si Aest d enie-positive,
p
> 0 ;
3.3 D ecomposition en Valeurs Singuli` eres (DVS)
Il sagit, cette fois, de construire la d ecomposition dune matrice X(n p) rectangulaire relativement ` a
deux matrices sym etriques et positives D(n n) et M(p p).
TH EOR` EME A.4. Une matrice X(n p) de rang r peut s ecrire :
X = U
1/2
V
=
r
k=1
_
k
u
k
v
k
; (A.3)
U(nr) contient les vecteurs propres D-orthonorm es (U
DU = I
r
) de la matrice D-sym etrique positive
XMX
D associ es aux r valeurs propres non nulles

k
rang ees par ordre d ecroissant dans la matrice
diagonale (r r) ; V(pr) contient les vecteurs propres M-orthonorm es (V
MV = I
r
) de la matrice
M-sym etrique positive X
DXMassoci es aux m emes valeurs propres. De plus,

U = XMV
1/2
et V = X
DU
1/2
.
4 Optimisation
4.1 Norme dune matrice
Lespace vectoriel E de dimension p (resp. F de dimension n) est muni de sa base canonique et dune
m etrique de matrice M(resp. D). Soit Xune matrice (n p). Lensemble /
n,p
des matrices (n p) est
un espace vectoriel de dimension np ; on le munit du produit scalaire :
X, Y
M,D
= trXMY
D. (A.4)
4. Optimisation 105
Dans le cas particulier o` u M = I
p
et D = I
n
, et en notant vec(X) =
_
x
1
, . . . , x
p
la matrice
vectoris ee, ce produit scalaire devient :
X, Y
I
p
,I
n
= trXY
=
n
i=1
p
j=1
x
j
i
y
j
i
= vec(X)
vec(Y).
La norme associ ee ` a ce produit scalaire (A.4) est appel ee norme trace :
|X|
2
M,D
= trXMX
D,
|X|
2
I
p
,I
n
= trXX
= SSQ(X) =
n
i=1
p
j=1
(x
j
i
)
2
(SSQ signie sum of squares).
La distance associ ee ` a cette norme devient, dans le cas o` u Dest une matrice diagonale (D = diag(w
1
, . . . , w
n
)),
le crit` ere usuel des moindres carr es :
d
2
(X, Y) = |XY|
2
M,D
=
n
i=1
w
i
|x
i
y
i
|
2
M
.
4.2 Approximation dune matrice
Les matrices X, M et D sont d enies comme ci-dessus ; X est suppos ee de rang r. On cherche la
matrice Z
q
, de rang q inf erieur ` a r, qui soit la plus proche possible de X.
TH EOR` EME A.5. La solution du probl` eme :
min
Z
_
|XZ|
2
M,D
; Z /
n,p
, rang(Z) = q < r
_
(A.5)
est donn ee par la somme des q premiers termes de la d ecomposition en valeurs singuli` eres (A.3) de X:
Z
q
=
q
k=1
_
k
u
k
v
k
= U
q
1/2
q
V
q
.
Le minimum atteint est :
|XZ
q
|
2
M,D
=
r
k=q+1
k
.
Les matrices U
q
,
q
et V
q
contiennent les q premiers vecteurs et valeurs propres donn es par la DVS de
X; Z
q
est appel ee approximation de rang q de X.
Ce th eor` eme peut se reformuler dune mani` ere equivalente. On note

P
q
(resp.

Q
q
) la projection M-
orthogonale sur E
q
= Im(V
q
) (resp. D-orthogonale sur F
q
= Im(U
q
)) :
P
q
=
q
k=1
v
k
v
k
M= V
q
V
q
M
Q
q
=
q
k=1
u
k
u
k
D = U
q
U
q
D,
Z
q
=

Q
q
X = X
P
q
.
PROPOSITION A.6. Avec les notations pr ec edentes :
P
q
= arg max
P
q
_
_
_
XP
q
_
_
2
M,D
;
P
q
projection M-orthogonale de rang q < r ,
Q
q
= arg max
Q
q
_
|Q
q
X|
2
M,D
;
Q
q
projection D-orthogonale de rang q < r .
Table des mati` eres
1 Introduction 3
1 Le m etier de statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Statistique, statistiques, statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Statistique descriptive et Statistique inf erentielle . . . . . . . . . . . . . . . . . . 3
3 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Chronologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 M ethodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.1 Avertissements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5 Quel logiciel ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6 Domaines dapplication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.1 Sciences de le Vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.2 Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6.3 Industrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
7 Quelles comp etences ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 Description statistique el ementaire 13
1 Exemple de donn ees marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Decription dune variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1 Cas quantitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Cas qualitatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 Liaison entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Une variable quantitative et une qualitative . . . . . . . . . . . . . . . . . . . . . 19
4.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1 Matrices des covariances et des corr elations . . . . . . . . . . . . . . . . . . . . . 23
5.2 Tableaux de nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.3 La matrice des coefcients de Tschuprow (ou de Cramer) . . . . . . . . . . . . . . 23
6 Probl` emes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7 Exemple : nutrition chez la souris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
107
108 TABLE DES MATI
`
ERES
3 Analyse en Composantes Principales 27
1 introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2 Pr esentation el ementaire de lACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 R esultats pr eliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 R esultats g en eraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.4 R esultats sur les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5 R esultats sur les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Repr esentation vectorielle de donn ees quantitatives . . . . . . . . . . . . . . . . . . . . . 32
3.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Interpr etation statistique de la m etrique des poids . . . . . . . . . . . . . . . . . . 33
3.3 La m ethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 D enition equivalente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 Repr esentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.1 Les individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2 Les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3 Repr esentation simultan ee ou biplot . . . . . . . . . . . . . . . . . . . . . . . . 39
6 Choix de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.1 Part dinertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2 R` egle de Kaiser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.3

Eboulis des valeurs propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.4 Botes-` a-moustaches des variables principales . . . . . . . . . . . . . . . . . . . . 41
6.5 Stabilit e du sous-espace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7 Interpr etation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 Analyse Factorielle Discriminante 47
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.1 Donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.3 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2 D enition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.1 Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 R ealisation de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Matrice ` a diagonaliser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Repr esentation des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3 Repr esentation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.4 Interpr etations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Variantes de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
TABLE DES MATI
`
ERES 109
4.1 Individus de m emes poids . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2 M etrique de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Analyse Factorielle des Correspondances 55
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.1 Donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.3 Liaison entre deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . 56
1.4 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2 Double ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.1 M etriques du
2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2 ACP des prolscolonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.3 ACP des prolslignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3 Mod` eles pour une table de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.1 Le mod` ele loglin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2 Le mod` ele dassociation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3 Le mod` ele de corr elation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Estimation Moindres Carr es dans le mod` ele de corr elation . . . . . . . . . . . . . 59
4 Repr esentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1 Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2 Double ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.3 Repr esentations barycentriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.4 Autre repr esentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5 Aides ` a linterpr etation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.1 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.2 Invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.3 Choix de la dimension q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6 Analyse des Correspondances Multiples 65
1 Codages de variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.1 Tableau disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.2 Tableau de Burt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.3 La d emarche suivie dans ce chapitre . . . . . . . . . . . . . . . . . . . . . . . . . 66
2 AFC du tableau disjonctif complet relatif ` a 2 variables . . . . . . . . . . . . . . . . . . . 66
2.1 Donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.2 ACP des prolslignes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.3 ACP des prolscolonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3 AFC du tableau de Burt relatif ` a 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . 68
4 Analyse Factorielle des Correspondances Multiples . . . . . . . . . . . . . . . . . . . . . 69
4.1 D enition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
110 TABLE DES MATI
`
ERES
4.2 AFC du tableau disjonctif complet X . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 AFC du tableau de Burt B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Variables illustratives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.5 Interpr etation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.1 Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2 Analyse brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 Analyse des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7 Positionnement multidimensionnel 75
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2 Distance, similarit es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.1 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.2 Distances entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3 Recherche dune conguration de points . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.1 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.2 Explicitation du MDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4 Application au choix de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8 Classication 83
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.1 Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.2 Les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
1.3 Les m ethodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3 Mesures d eloignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.1 Indice de ressemblance, ou similarit e . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2 Indice de dissemblance, ou dissimilarit e . . . . . . . . . . . . . . . . . . . . . . . 88
3.3 Indice de distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.4 Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.5 Distance euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.6 Utilisation pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.7 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4 Classication ascendante hi erarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Distance, ou dissemblance, entre deux classes . . . . . . . . . . . . . . . . . . . . 89
4.3 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4 Graphes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5 Agr egation autour de centres mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.1 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2 Principale m ethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
TABLE DES MATI
`
ERES 111
5.4 Variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.5 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
A Outils alg ebriques 99
1 Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
1.2 Op erations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
1.3 Propri et es des matrices carr ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2 Espaces euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.1 Sous-espaces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2.2 Rang dune matrice A
(np)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.3 M etrique euclidienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.4 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
3 El ements propres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.1 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.2 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.3 D ecomposition en Valeurs Singuli` eres (DVS) . . . . . . . . . . . . . . . . . . . . 104
4 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.1 Norme dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.2 Approximation dune matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Exploration Que

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Exploration Que

Încărcat de

Drepturi de autor:

Formate disponibile

Exploration Statistique

ALAIN BACCINI & PHILIPPE BESSE

doccurences de ces classes, un

, fr equence de la classe correspondante.

de X d enit une sous-population (un sous-ensemble)

de : cest lensemble des

; on obtient ainsi une

(l = 1, . . . , m), on peut d enir la moyenne et la variance

de X (cest-` a-dire d enies au sein de la sous-population

de associ ee ` a cette modalit e). Il sagit

, est le nuage de points r ealis e avec

en ordonn ees. Dans certains logiciels anglo-saxons, ces gra-

la matrice centr ee et Z la matrice (n p) dont les lignes sont les vecteurs (z

z = x et devient equivalent ` a r esoudre :

Dassoci es aux valeurs propres

S est alors la matrice R =

; = 1, . . . , m de lensemble des individus dont chaque

` a laquelle appartient lindividu

sont les observations r ep et ees n

fois du m eme effet

. Le mod` ele entrane que z A

est un param` etre

du mod` ele 4.1 est obtenue par lACP de

DC pour les barycentres.

de X est caract eris ee par son prol

), pond er es par les fr equences marginales des lignes de T (la matrice

de X est repr esent ee par un

X, (r + c) (r + c), relatif aux 2 variables X

sym etrique et positive :

X, carr e dordre c, etant sym etrique, les prolslignes et les prolscolonnes

sym etrique et positive :

est facilement d eni ` a partir de s par :

est une application de dans [0, 1].

, un indice de dissemblance norm e est

. Du fait de cette correspondance imm ediate, seule la notion de dissemblance,

un vecteur-ligne mis en colonne,

est dordre (p n).

M = MP) est une matrice de projection

o` u V est une matrice orthogonale [v

D associ es aux r valeurs propres non nulles

DXMassoci es aux m emes valeurs propres. De plus,

S-ar putea să vă placă și