Sunteți pe pagina 1din 5

1

Introduction lAnalyse en Composantes Principales (ACP)

Introduction lAnalyse en
Composantes Principales (ACP)

jean
alan
anni
moni
didi
andr
pier
brig
evel

Rsum
Introduction lmentaire aux techniques factorielles de rduction de
dimension lors de ltude de p variables quantitatives. Meilleures reprsentations planes des individus et des variables. Valeurs propres
et vecteurs propres dune matrice de variances ou corrlation et
composantes principales.
Retour au plan.

1
1.1

Introduction
objectif

MATH
6.00
8.00
6.00
14.50
14.00
11.00
5.50
13.00
9.00

PHYS
6.00
8.00
7.00
14.50
14.00
10.00
7.00
12.50
9.50

FRAN
5.00
8.00
11.00
15.50
12.00
5.50
14.00
8.50
12.50

ANGL
5.50
8.00
9.50
15.00
12.50
7.00
11.50
9.50
12.00

Nous savons comment analyser sparment chacune de ces 4 variables, soit


en faisant un graphique, soit en calculant des rsums numriques. Nous savons galement quon peut regarder les liaisons entre 2 variables (par exemple
mathmatiques et franais), soit en faisant un graphique du type nuage de
points, soit en calculant leur coefficient de corrlation linaire, voire en ralisant la rgression de lune sur lautre.
Mais comment faire une tude simultane des 4 variables, ne serait-ce quen
ralisant un graphique ? La difficult vient de ce que les individus (les lves)
ne sont plus reprsents dans un plan, espace de dimension 2, mais dans un espace de dimension 4 (chacun tant caractris par les 4 notes quil a obtenues).

La description des liaisons entre deux variables par des techniques statisLobjectif de lAnalyse en Composantes Principales est de revenir un estiques bidimensionnelles conduisent se poser la question de la reprsentation pace de dimension rduite (par exemple, ici, 2) en dformant le moins possible
simultanes de donnes en dimension plus grande que 2. Quelle graphique la ralit. Il sagit donc dobtenir le rsum le plus pertinent des donnes inipermettrait de gnraliser le nuage de points trac dans le cas de deux va- tiales.
riables permettant daborder la structure de corrlation prsente entre plus de
2 variables. Loutil utilis est alors lanalyse en composantes principales.

Descriptions uni et bivarie

Mathmatiquement, lanalyse en composantes principales est un simple


changement de base : passer dune reprsentation dans la base canonique des
Tout logiciel fournit la moyenne, lcart-type, le minimum et le maximum
variables initiales une reprsentation dans la base des facteurs dfinis par les de chaque variable. Il sagit donc, pour linstant, dtudes univaries.
vecteurs propres de la matrice des corrlations.
Statistiques lmentaires

1.2

Exemple jouet

Une prsentation trs lmentaire de cette dmarche est propose sur un


exemple jouet de donnes. Considrons les notes (de 0 20) obtenues par 9
lves dans 4 disciplines (mathmatiques, physique, franais, anglais) :

Variable
MATH
PHYS
FRAN

Moyenne
9.67
9.83
10.22

Ecart-type
3.37
2.99
3.47

Minimum
5.50
6.00
5.00

Maximum
14.50
14.50
15.50

ANGL

10.06

2.81

5.50

Introduction lAnalyse en Composantes Principales (ACP)

15.00

Notons au passage la grande homognit des 4 variables considres :


mme ordre de grandeur pour les moyennes, les carts-types, les minima et
les maxima.

MATH
PHYS
FRAN
ANGL

MATH
11.39
9.92
2.66
4.82

PHYS
9.92
8.94
4.12
5.48

FRAN
2.66
4.12
12.06
9.29

ANGL
4.82
5.48
9.29
7.91

Le tableau suivant est la matrice des corrlations. Elle donne les coefficients
de corrlation linaire des variables prises deux deux. Cest une succession
Les valeurs propres donnes ci-dessous sont celles de la matrice des
danalyses bivaries, constituant un premier pas vers lanalyse multivarie.
variances-covariances.
Valeurs propres ; variances expliques

Coefficients de corrlation

MATH
PHYS
FRAN
ANGL

MATH
1.00
0.98
0.23
0.51

PHYS
0.98
1.00
0.40
0.65

FRAN
0.23
0.40
1.00
0.95

Remarquons que toutes les corrlations linaires sont positives (ce qui signifie que toutes les variables varient, en moyenne, dans le mme sens), certaines
tant trs fortes (0.98 et 0.95), dautres moyennes (0.65 et 0.51), dautres enfin
plutt faibles (0.40 et 0.23).

3
3.1

FACTEUR
1
2
3
4

ANGL
0.51
0.65
0.95
1.00

Dcomposition spectrale de la matrice des


covariances
Rsultats numriques

Continuons lanalyse par ltude de la matrice des variances-covariances,


matrice de mme nature que celle des corrlations, bien que moins parlante
(nous verrons nanmoins plus loin comment elle est utilise concrtement). La
diagonale de cette matrice fournit les variances des 4 variables considres (on
notera quau niveau des calculs, il est plus commode de manipuler la variance
que lcart-type ; pour cette raison, dans de nombreuses mthodes statistiques,
comme en A.C.P., on utilise la variance pour prendre en compte la dispersion
dune variable quantitative).
Matrice des variances-covariances

3.2

VAL. PR.
28.23
12.03
0.03
0.01
----40.30

PCT. VAR.
0.70
0.30
0.00
0.00
---1.00

PCT. CUM.
0.70
1.00
1.00
1.00

Interprtation statistique

Chaque ligne du tableau ci-dessus correspond une variable virtuelle (voil


les facteurs) dont la colonne VAL . PR . (valeur propre) fournit la variance (en
fait, chaque valeur propre reprsente la variance du facteur correspondant). Un
facteur est une combinaison linaire des variables initiales dans laquelle les coefficients sont donnes par les coordonnes des vecteurs propres (changement
de base).
LACP peut tre dfinie comme la recherche des combinaisons linaires de
plus grande variance, des variables initiales (les valeurs propres).
La colonne PCT. VAR, ou pourcentage de variance, correspond au pourcentage de variance de chaque ligne par rapport au total. La colonne PCT. CUM .
reprsente le cumul de ces pourcentages en dimension 1, 2... Additionnons
maintenant les variances des 4 variables initiales (diagonale de la matrice des
variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion
totale des individus considrs, en dimension 4, est ainsi gale 40.30.
Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23 + 12.03 +
0.03 + 0.01 = 40.30. Le nuage de points en dimension 4 est toujours le mme

Introduction lAnalyse en Composantes Principales (ACP)

et sa dispersion globale na pas chang. Il sagit dun simple changement de


base dans un espace vectoriel.
Cest la rpartition de cette dispersion, selon les nouvelles variables de plus
grande dispersion, que sont les facteurs ou composantes principales, qui se
trouve modifie : les 2 premiers facteurs restituent eux seuls la quasi-totalit
de la dispersion du nuage, ce qui permet de ngliger les 2 autres.
Par consquent, les graphiques en dimension 2 prsents ci-dessous rsument presque parfaitement la configuration relle des donnes qui se
trouvent en dimension 4 : lobjectif (rsum pertinent des donne en petite
dimension) est donc atteint.

3.3

Interprtation gomtrique

Une autre interprtation est dordre gomtrique (cf. figure 1). Chaque individu xi (resp. variable xj ) est considr comme un vecteur p (resp. n) composantes dans un espace vectoriel. LACP est la recherche du meilleur plan (ou
sous-espace) de projection : le plus proche au sens des moindres carrs, pour
obtenir la reprsentation la plus fidle, ou la moins dforme, des individus F IGURE 1 Interprtation gomtrique de lACP comme la recherche du
(resp. des variables) dans un sous-espace de dimension rduite.
meilleur sous-espace de reprsentation.

FACTEURS
MATH
PHYS
FRAN
ANGL

Corrlations variables-facteurs
--> F1
F2
F3
F4
0.81
-0.58
0.01
-0.02
0.90
-0.43
-0.03
0.02
0.75
0.66
-0.02
-0.01
0.91
0.40
0.05
0.01

Les deux premires colonnes de ce tableau permettent, tout dabord, de raliser le graphique des variables (version SAS) de la figure 2.

0.2

MATH
PHYS

0.2

Le rsultat fondamental concernant les variables est le tableau des corrlations variables-facteurs. Il sagit des coefficients de corrlation linaire entre
les variables initiales et les facteurs. Ce sont ces corrlations qui vont permettre
de donner un sens aux facteurs (de les interprter).

0.6

Rsultats numriques

ANGL
0.6

4.1

tude des variables

Axe 2

FRAN
0.2

0.2

0.6

1.0

Axe 1

F IGURE 2 Donnes fictives : Reprsentation des variables

Introduction lAnalyse en Composantes Principales (ACP)

Mais, ces deux colonnes permettent galement de donner une signification


aux facteurs (donc aux axes des graphiques).

On notera que les deux dernires colonnes ne seront pas utilises puisquon
ne retient que deux dimensions pour interprter lanalyse.

andr brig

Interprtation

1 0

jean

didi

alan

moni

anni evel
pier

Par construction, le cosinus de langle de deux vecteurs variables approche


le coefficient de corrlation entre ces variables. Ainsi, on lit (cf. figure 2) que
le premier facteur est corrl positivement, et assez fortement, avec chacune
des 4 variables initiales : plus un lve obtient de bonnes notes dans chacune
des 4 disciplines, plus il a un score lev sur laxe 1 ; rciproquement, plus ses
notes sont mauvaises, plus son score est ngatif. Le premier facteur reprsente
approximativement la note moyenne (centre sur la moyenne de la classe) de
chaque lve. En ce qui concerne laxe 2, il oppose, dune part, le franais et
langlais (corrlations positives), dautre part, les mathmatiques et la physique
(corrlations ngatives). Il sagit donc dun axe dopposition entre disciplines
littraires et disciplines scientifiques, surtout marqu par lopposition entre le
franais et les mathmatiques. Laxe 2 approche donc la moyenne des matires
evel
scientifique moins la moyenne des matires littraires.

Axe 2

4.2

1 0

Axe 1

F IGURE 3 Donnes fictives : Reprsentation des individus


0.11

1.55

2.63

0.25

0.73

Cette interprtation peut tre prcise avec les graphiques et tableaux relatifs
On notera que chaque individu reprsente 1 lment sur 9, do un poids
aux individus que nous prsentons maintenant.
(une pondration) de 1/9 = 0.11, ce qui est fourni par la premire colonne du
tableau ci-dessus.

tude des individus

Les 2 colonnes suivantes fournissent les coordonnes des individus (les


lves) sur les deux premiers axes (les facteurs) et ont donc permis de raliser
5.1 Rsultats numriques
le graphique des individus. Ce dernier permet de prciser la signification des
Le tableau ci-dessous contient tous les rsultats importants sur les individus. axes, donc des facteurs.

jean
alan
anni
moni
didi
andr
pier
brig

Coordonnes des individus et cosinus carrs


POIDS
FACT1
FACT2
COSCA1
COSCA2
0.11
-8.61
-1.41
0.97
0.03
0.11
-3.88
-0.50
0.98
0.02
0.11
-3.21
3.47
0.46
0.54
0.11
9.85
0.60
1.00
0.00
0.11
6.41
-2.05
0.91
0.09
0.11
-3.03
-4.92
0.28
0.72
0.11
-1.03
6.38
0.03
0.97
0.11
1.95
-4.20
0.18
0.82

5.2

Interprtation

On peut ainsi voir que laxe 1 reprsente le rsultat densemble des lves
(si on prend leur score ou coordonne sur laxe 1, on obtient le mme
classement que si on prend leur moyenne gnrale). Par ailleurs, llve le
plus haut sur le graphique, celui qui a la coordonne la plus leve sur laxe
2, est Pierre dont les rsultats sont les plus contrasts en faveur des disciplines
littraires (14 et 11.5 contre 7 et 5.5). Cest exactement le contraire pour Andr
qui obtient la moyenne dans les disciplines scientifiques (11 et 10) mais des

Introduction lAnalyse en Composantes Principales (ACP)

rsultats trs faibles dans les disciplines littraires (7 et 5.5). On notera que
Monique et Alain ont un score voisin de 0 sur laxe 2 car ils ont des rsultats
trs homognes dans les 4 disciplines (mais des niveaux trs distincts, ce qua
dj rvl laxe 1).

brig
5

0.4

andr
MATH

0.2

PHYS

Complments linterprtation

Comp.2

0.0
0.2

moni

ANGL

evel
anni

Les 2 dernires colonnes du tableau sont des cosinus carrs qui fournissent
la qualit de la reprsentation de chaque individu sur chaque axe. Ces quantits sadditionnent axe par axe, de sorte que, en dimension 2, velyne est
reprsente 98 % (0.25 + 0.73), tandis que les 8 autres individus le sont 100
%.

jean
alan

0.4

Des logiciels comme SPAD fournissent dautres rsultats daide linterprtation.

didi

FRAN
0.6

5.3

pier
0.6

0.4

0.2

0.0

0.2

0.4

Comp.1

Lorsquon considre les donnes initiales, chaque individu (chaque lve)


est reprsent par un vecteur dans un espace de dimension 4 (les lments
F IGURE 4 Donnes fictives : Reprsentation simultane
ou coordonnes de ce vecteur sont les notes obtenues dans les 4 disciplines).
Lorsquon rsume les donnes en dimension 2, et donc quon les reprsente
dans un plan, chaque individu est alors reprsent par la projection du vec- dveloppement plus dtailler pour en justifier la construction et linterprtateur initial sur le plan en question. Le cosinus carr relativement aux deux tion.
premires dimensions (par exemple, pour velyne, 0.98 ou 98 %) est celui de
langle form par le vecteur initial et sa projection dans le plan. Plus le vecteur
initial est proche du plan, plus langle en question est petit et plus le cosinus,
et son carr, sont proches de 1 (ou de 100 %) : la reprsentation est alors trs
bonne. Au contraire, plus le vecteur initial est loin du plan, plus langle en
question est grand (proche de 90 degrs) et plus le cosinus, et son carr, sont
proches de 0 (ou de 0 %) : la reprsentation est alors trs mauvaise. On utilise les carrs des cosinus, parce quils sadditionnent suivant les diffrentes
dimensions.

Reprsentation simultane

Un troisime type de reprsentation graphique associant individus et variables (le biplot) est dtaill dans le document dcrivant plus prcisment
lanalyse en composantes principales. Ce graphe associant des vecteurs individus et variables appartenant des espaces vectoriels diffrents ncessite un

S-ar putea să vă placă și