Documente Academic
Documente Profesional
Documente Cultură
Introduction lAnalyse en
Composantes Principales (ACP)
jean
alan
anni
moni
didi
andr
pier
brig
evel
Rsum
Introduction lmentaire aux techniques factorielles de rduction de
dimension lors de ltude de p variables quantitatives. Meilleures reprsentations planes des individus et des variables. Valeurs propres
et vecteurs propres dune matrice de variances ou corrlation et
composantes principales.
Retour au plan.
1
1.1
Introduction
objectif
MATH
6.00
8.00
6.00
14.50
14.00
11.00
5.50
13.00
9.00
PHYS
6.00
8.00
7.00
14.50
14.00
10.00
7.00
12.50
9.50
FRAN
5.00
8.00
11.00
15.50
12.00
5.50
14.00
8.50
12.50
ANGL
5.50
8.00
9.50
15.00
12.50
7.00
11.50
9.50
12.00
La description des liaisons entre deux variables par des techniques statisLobjectif de lAnalyse en Composantes Principales est de revenir un estiques bidimensionnelles conduisent se poser la question de la reprsentation pace de dimension rduite (par exemple, ici, 2) en dformant le moins possible
simultanes de donnes en dimension plus grande que 2. Quelle graphique la ralit. Il sagit donc dobtenir le rsum le plus pertinent des donnes inipermettrait de gnraliser le nuage de points trac dans le cas de deux va- tiales.
riables permettant daborder la structure de corrlation prsente entre plus de
2 variables. Loutil utilis est alors lanalyse en composantes principales.
1.2
Exemple jouet
Variable
MATH
PHYS
FRAN
Moyenne
9.67
9.83
10.22
Ecart-type
3.37
2.99
3.47
Minimum
5.50
6.00
5.00
Maximum
14.50
14.50
15.50
ANGL
10.06
2.81
5.50
15.00
MATH
PHYS
FRAN
ANGL
MATH
11.39
9.92
2.66
4.82
PHYS
9.92
8.94
4.12
5.48
FRAN
2.66
4.12
12.06
9.29
ANGL
4.82
5.48
9.29
7.91
Le tableau suivant est la matrice des corrlations. Elle donne les coefficients
de corrlation linaire des variables prises deux deux. Cest une succession
Les valeurs propres donnes ci-dessous sont celles de la matrice des
danalyses bivaries, constituant un premier pas vers lanalyse multivarie.
variances-covariances.
Valeurs propres ; variances expliques
Coefficients de corrlation
MATH
PHYS
FRAN
ANGL
MATH
1.00
0.98
0.23
0.51
PHYS
0.98
1.00
0.40
0.65
FRAN
0.23
0.40
1.00
0.95
Remarquons que toutes les corrlations linaires sont positives (ce qui signifie que toutes les variables varient, en moyenne, dans le mme sens), certaines
tant trs fortes (0.98 et 0.95), dautres moyennes (0.65 et 0.51), dautres enfin
plutt faibles (0.40 et 0.23).
3
3.1
FACTEUR
1
2
3
4
ANGL
0.51
0.65
0.95
1.00
3.2
VAL. PR.
28.23
12.03
0.03
0.01
----40.30
PCT. VAR.
0.70
0.30
0.00
0.00
---1.00
PCT. CUM.
0.70
1.00
1.00
1.00
Interprtation statistique
3.3
Interprtation gomtrique
Une autre interprtation est dordre gomtrique (cf. figure 1). Chaque individu xi (resp. variable xj ) est considr comme un vecteur p (resp. n) composantes dans un espace vectoriel. LACP est la recherche du meilleur plan (ou
sous-espace) de projection : le plus proche au sens des moindres carrs, pour
obtenir la reprsentation la plus fidle, ou la moins dforme, des individus F IGURE 1 Interprtation gomtrique de lACP comme la recherche du
(resp. des variables) dans un sous-espace de dimension rduite.
meilleur sous-espace de reprsentation.
FACTEURS
MATH
PHYS
FRAN
ANGL
Corrlations variables-facteurs
--> F1
F2
F3
F4
0.81
-0.58
0.01
-0.02
0.90
-0.43
-0.03
0.02
0.75
0.66
-0.02
-0.01
0.91
0.40
0.05
0.01
Les deux premires colonnes de ce tableau permettent, tout dabord, de raliser le graphique des variables (version SAS) de la figure 2.
0.2
MATH
PHYS
0.2
Le rsultat fondamental concernant les variables est le tableau des corrlations variables-facteurs. Il sagit des coefficients de corrlation linaire entre
les variables initiales et les facteurs. Ce sont ces corrlations qui vont permettre
de donner un sens aux facteurs (de les interprter).
0.6
Rsultats numriques
ANGL
0.6
4.1
Axe 2
FRAN
0.2
0.2
0.6
1.0
Axe 1
On notera que les deux dernires colonnes ne seront pas utilises puisquon
ne retient que deux dimensions pour interprter lanalyse.
andr brig
Interprtation
1 0
jean
didi
alan
moni
anni evel
pier
Axe 2
4.2
1 0
Axe 1
1.55
2.63
0.25
0.73
Cette interprtation peut tre prcise avec les graphiques et tableaux relatifs
On notera que chaque individu reprsente 1 lment sur 9, do un poids
aux individus que nous prsentons maintenant.
(une pondration) de 1/9 = 0.11, ce qui est fourni par la premire colonne du
tableau ci-dessus.
jean
alan
anni
moni
didi
andr
pier
brig
5.2
Interprtation
On peut ainsi voir que laxe 1 reprsente le rsultat densemble des lves
(si on prend leur score ou coordonne sur laxe 1, on obtient le mme
classement que si on prend leur moyenne gnrale). Par ailleurs, llve le
plus haut sur le graphique, celui qui a la coordonne la plus leve sur laxe
2, est Pierre dont les rsultats sont les plus contrasts en faveur des disciplines
littraires (14 et 11.5 contre 7 et 5.5). Cest exactement le contraire pour Andr
qui obtient la moyenne dans les disciplines scientifiques (11 et 10) mais des
rsultats trs faibles dans les disciplines littraires (7 et 5.5). On notera que
Monique et Alain ont un score voisin de 0 sur laxe 2 car ils ont des rsultats
trs homognes dans les 4 disciplines (mais des niveaux trs distincts, ce qua
dj rvl laxe 1).
brig
5
0.4
andr
MATH
0.2
PHYS
Complments linterprtation
Comp.2
0.0
0.2
moni
ANGL
evel
anni
Les 2 dernires colonnes du tableau sont des cosinus carrs qui fournissent
la qualit de la reprsentation de chaque individu sur chaque axe. Ces quantits sadditionnent axe par axe, de sorte que, en dimension 2, velyne est
reprsente 98 % (0.25 + 0.73), tandis que les 8 autres individus le sont 100
%.
jean
alan
0.4
didi
FRAN
0.6
5.3
pier
0.6
0.4
0.2
0.0
0.2
0.4
Comp.1
Reprsentation simultane
Un troisime type de reprsentation graphique associant individus et variables (le biplot) est dtaill dans le document dcrivant plus prcisment
lanalyse en composantes principales. Ce graphe associant des vecteurs individus et variables appartenant des espaces vectoriels diffrents ncessite un