Cours ACP

L’ANALYSE
EN COMPOSANTES
PRINCIPALES
A.C.P.
Remarque: Les aspects mathématiques et les démonstrations

seront développés en cours
Pierre-Louis Gonzalez
INTRODUCTION
Données : n individus observés sur p variables quantitatives.
L’A.C.P. permet d’explorer les liaisons entre variables et les

ressemblances entre individus.
Résultats :
Ö Visualisation des individus

(Notion de distances entre individus)
Ö Visualisation des variables

(en fonction de leurs corrélations)
2
INTERPRÉTATION DES RÉSULTATS
c Mesurer la qualité des représentations obtenues :
z critère global
z critères individuels
d « Donner des noms aux axes »

Expliquer la position des individus
e Utilisation éventuelle de variables supplémentaires

(illustratives)
3
I. L’ANALYSE EN COMPOSANTES PRINCIPALES
LE PROBLÈME
1. LES DONNÉES
p variables quantitatives observées sur n individus.
X1 X2 Xj Xp
x11 x1j x1p
x12 x 2j x 2p
X n x12 x ij x ip individu e'i

(n,p)
x1n x nj x pn
Variable Xj
p
INDIVIDU = Élément de Rp
VARIABLE = Élément de Rn
4
On cherche à représenter le nuage des individus.
A chaque individu noté ei, on peut associer un point dans

Rp = espace des individus.
X3
x 3i
ei
x1i
1
X
x 2i
X2
A chaque variable du tableau X est associé un axe de Rp.
Impossible à visualiser dès que p > 3.
5
2. PRINCIPE DE L’A.C.P.
On cherche une représentation des n individus

e1 , e 2 . .. e n , dans un sous-espace Fk de Rp de
dimension k (k petit 2 ; 3 ...)
(par exemple un plan)
Autrement dit, on cherche à définir k nouvelles
variables combinaisons linéaires des p variables
initiales qui feront perdre le moins d’information
possible.
Ces variables seront appelées « composantes principales »,

les axes qu’elles déterminent : « axes principaux »
les formes linéaires associées : « facteurs principaux »
6
« Perdre le moins
d’information possible »
Fk devra être « ajusté » le mieux possible au nuage

c
des e i : la somme des carrés des distances des e i à Fk
doit être minimale.
d Fk est le sous-espace tel que le nuage projeté

ait une inertie (dispersion) maximale.
c et d sont basés sur les notions de : distance

projection orthogonale
7
ei
ej
Δ2 fi
βi
βj fj
αi αj Δ1
La distance entre fi et fj est inférieure à la distance entre ei et ej
8
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS
yB B

Dans le plan :
A
yA d 2 (A, B) = (x B − x A ) + (y B − y A )
2 2

xA xB
Dans l’espace Rp à p dimensions, on généralise cette notion : la

distance euclidienne entre deux individus s’écrit :
(
e i = x1i x 2i ... x ip )
ej = (x 1
j x 2j ... x ) p
j
( ) ( ) ( ) ( )
2 2 2
d 2 e i , e j = x1i − x1j + x 2i − x 2j + . .. x ip − x pj
(e , e ) = ∑ (x )
p
2
d 2
i j
k
i − x kj
k =1
! Le problème des unités ?
9
Pour résoudre ce problème, on choisit de transformer les données
en données centrées-réduites.
L’observation x ik est alors remplacée par :
x ik x k
UNITÉS D’ÉCART TYPE :
sk
où : x k = moyenne de la variable X k
Δ k = écart-type de la variable X k
Exemple :
Puissance moyenne de 30 voitures = 92 ch

Ecart-type = 24 ch
Renault 21 TXI : 140 ch
La Renault 21 TXI a une puissance qui est de :

140 − 92
= 2 écarts-type au-dessus de la moyenne.
24
10
4. INERTIE TOTALE
n
d (e i , g)
1 2
Ig = ∑
i n
= somme pondérée des carrés des distances des individus au
centre de gravité g .
L’inertie mesure la dispersion totale du nuage de points.

L’inertie est donc aussi égale à la somme des variances des variables
étudiées.
En notant V la matrice de variances-covariances :
⎛ s1 s12 ........ s1p ⎞

2
⎜ ⎟
............
...........
V= ⎜ 2
s2 ⎟
⎜ 2
⎟
⎝ p1
s s p ⎠
p
I g = ∑ si2
i =1
I g = Tr ( V)
Remarque 1 :
Dans le cas où les variables sont centrées réduites, la variance de
chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
11
Remarque 2 : Equivalence des deux critères concernant la « perte
d’information »
Projection orthogonale du nuage sur un sous-espace
ei
fi
F g
Soit F un sous-ensemble de Rp
f i la projection orthogonale de e i sur F
On va chercher F tel que :
∑ ei − f i
2
c pi soit minimal , ce qui revient d’après le
=
i 1
théorème de Pythagore à maximiser :

n
∑ pi f i − g
2
d i =1
, car on a :
2 2
ei − g = ei − f i + f i − g ∀i = 1 . .. n
2
n n n
∑ ∑ ∑
2 2
p i ei − g − pi ei − f i pi f i − g
2
Donc : =

i =1

i =1

i =1
quantité minimiser cette maximiser

⇔
fixe quantité (carrés l’inertie du
des distances entre nuage projeté
points individus et
leurs projections
12
II. LA SOLUTION DU PROBLÈME POSÉ
La recherche d’axes portant le maximum d’inertie équivaut à la

construction de nouvelles variables (auxquelles sont associées ces axes)
de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de

façon à se placer dans un nouveau système de représentation où le
premier axe apporte le plus possible de l’inertie totale du nuage, le
deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite.
Cette réorganisation s’appuie sur la diagonalisation de la matrice de

variances-covariances.
13
1. SOLUTION
Axes principaux
On appelle axes principaux d’inertie les axes de direction des

vecteurs propres de V normés à 1.
Il y en a p.
Le premier axe est celui associé à la plus grande valeur propre λ 1 .
On le note u1 .
Le deuxième axe est celui associé à la deuxième valeur propre λ 2 .
On le note u 2 .
Composantes principales
A chaque axe est associé une variable appelée composante

principale.
La composante c1 est le vecteur renfermant les cordonnées des
projections des individus sur l’axe 1.
La composante c 2 est le vecteur renfermant les cordonnées des
projections des individus sur l’axe 2.
Pour obtenir ces coordonnées, on écrit que chaque composante
principale est une combinaison linéaire des variables initiales.
Exemple : c1 = u11 x1 + u12 x 2 + ... u1p x p
14
2. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES
c La variance d’une composante principale est égale à

l’inertie apportée par l’axe principal qui lui est associé.
1ère composante c1 variance : λ 1
2ème composante c 2 variance : λ 2
3ème composante c 3 variance : λ 3
d Les composantes principales sont non corrélées

deux à deux.
En effet, les axes associés sont orthogonaux.
15
3. REPRÉSENTATION DES INDIVIDUS
La jème composante principale
⎛ c1j ⎞
⎜ j⎟
⎜ c2 ⎟
c =⎜ ⎟
j
........
fournit les coordonnées des n individus

⎜ ⎟
⎜ j⎟
⎝ cn ⎠ sur le jème axe principal.
Si on désire une représentation plane des individus, la meilleure sera celle

réalisée grâce aux deux premières composantes principales.
ei
c2i

g c1i 1

ej
! Attention à la qualité de représentation de chaque individu.
16
4. REPRÉSENTATION DES VARIABLES
Les « proximités » entre les composantes principales et les variables

initiales sont mesurées par les covariances, et surtout les corrélations.
( )
r c j , x i est le coefficient de corrélation linéaire entre c j et x i .
c2
xi
(
r c ,x2 i
)
(
r c1 , x i ) 1
c
CERCLE DES CORRÉLATIONS
17
5. INTERPRETATION DES « PROXIMITÉS » ENTRE
VARIABLES
On utilise un produit scalaire entre variables permettant d’associer

aux paramètres courants : écart-type, coefficient de corrélation
linéaire des représentations géométriques.
( )
n
1
x ,x =
i j
n ∑x
k =1
i
k x kj
On suppose les variables centrées.
z (x , x ) = Cov (x , x )
i j i j
( ) ∑ (x )
n
i 2 1 i 2
= x ,x =
i j
zz x k
n k =1
2
xi = s2i = variance de x i
2
Î zzz xi = écart-type de x i
zzzz Coefficient de corrélation linéaire
Cos ( X , X ) =
(X , X ) = Cov (X , X ) = r i j i j
Î
i j
X i
X j si s j (X , X )
i j
18
3
X
1
X
X2
X1 et X 2 ont une corrélation proche de 1.

X1 et X 3 ont une corrélation proche de 0.
19
III. VALIDITÉ DES REPRÉSENTATIONS
1. CRITÈRE GLOBAL
λi
mesure la part d’inertie expliquée par l’axe i.
λ 1 + λ 2 + ... λ p
λ1 + λ 2 est la part d’inertie expliquée par le

Exemple :
p
∑λ
i =1
i premier plan principal.
Ce critère (souvent exprimé en pourcentage) mesure le degré de

reconstitution des carrés des distances.
La réduction de dimension est d’autant plus forte que les variables

de départ sont plus corrélées.
20
Combien d’axes ?
Différentes procédures :
c Pourcentage d’inertie souhaité : a priori
d Diviser l’inertie totale par le nombre de variables initiales

Ö inertie moyenne par variable : I.M.
Conserver tous les axes apportant une inertie supérieure à cette
valeur I.M.
(inertie > 1 si variables centrées réduites).
e Histogramme
4
.. λ 1 = 4,5
3
2
. λ 2 = 3,8
λ 3 = 2,9
1 ....
λ1 λ 2 λ3 λ4 λ5 λ6 λ7
cassure
21
2. CRITÈRES INDIVIDUELS
Pour chaque individu e i , la qualité de sa représentation est définie

par le carré du cosinus de l’angle entre l’axe de projection et le
vecteur e i .
ei
axe 2
θ2 θ1 fi
θ
y axe 1
cos2 θ = cos2 θ1 + cos2 θ 2
En général, les qualités de représentation sont données axe par axe.

Pour avoir la qualité de représentation dans un plan, on additionne
les critères correspondant aux axes étudiés.
Ce critère n’a pas de signification pour les individus proches

! de g .
c regarder les distances des individus au centre de

gravité g
d utiliser le critère de cos2 pour les individus

suffisamment éloignés de g .
22
CONTRIBUTIONS
Il est très utile aussi de calculer pour chaque axe la contribution

apportée par les divers individus à cet axe.
Considérons la kème composante principale c k , soit c ik la valeur de la

composante pour le ième individu.
( )
n
1 k
∑
2
c = λk
i =1 n i
La contribution de l’individu e i à la composante n° k est définie par :
1 k
( )
2
c
n i
λk
Remarque :
Il n’est pas souhaitable qu’un individu ait une contribution

excessive (car facteur d’instabilité) Î éliminer les individus
dont la contribution est trop importante.
Problème des enquêtes par sondage
23
3. REPRÉSENTATION DES VARIABLES
Le cercle des corrélations est la projection du nuage des variables sur le

plan des composantes principales.
corrélation = cosinus
c2

c1
Les variables bien représentées sont celles qui sont proches du cercle :
celles qui sont proches de l’origine sont mal représentées.
24
4. INTERPRÉTATION EXTERNE : VARIABLES
ET INDIVIDUS SUPPLÉMENTAIRES
(ILLUSTRATIFS)
Variables
• Variable quantitative : On calcule le coefficient de

corrélation entre la variable supplémentaire et les composantes
principales.
Ceci permet sa représentation sur le cercle des corrélations.
zz Variable qualitative :
Â Identification des individus de chaque catégorie de la

variable

25
Â Représentation de chaque catégorie par son centre de gravité.
?
?
Â Calcul du rapport de corrélation entre la variable qualitative

supplémentaire et chaque composante principale (test de Fischer-
Snedecor) ou valeur-test dans SPAD.
Individus
Individu de poids nul ne participant pas à l’analyse (fichier test).
Appliquer aux coordonnées de l’individu les expressions

définissant les composantes principales.
26

Cours ACP

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours ACP

Încărcat de

Drepturi de autor:

Formate disponibile

L’ANALYSE

Remarque: Les aspects mathématiques et les démonstrations

Données : n individus observés sur p variables quantitatives.

L’A.C.P. permet d’explorer les liaisons entre variables et les

Ö Visualisation des individus

Ö Visualisation des variables

c Mesurer la qualité des représentations obtenues :

d « Donner des noms aux axes »

e Utilisation éventuelle de variables supplémentaires

p variables quantitatives observées sur n individus.

X n x12 x ij x ip individu e'i

A chaque individu noté ei, on peut associer un point dans

A chaque variable du tableau X est associé un axe de Rp.

Impossible à visualiser dès que p > 3.

On cherche une représentation des n individus

Ces variables seront appelées « composantes principales »,

Fk devra être « ajusté » le mieux possible au nuage

d Fk est le sous-espace tel que le nuage projeté

c et d sont basés sur les notions de : distance

La distance entre fi et fj est inférieure à la distance entre ei et ej

Dans l’espace Rp à p dimensions, on généralise cette notion : la

! Le problème des unités ?

L’observation x ik est alors remplacée par :

Puissance moyenne de 30 voitures = 92 ch

La Renault 21 TXI a une puissance qui est de :

L’inertie mesure la dispersion totale du nuage de points.

⎛ s1 s12 ........ s1p ⎞

théorème de Pythagore à maximiser :

quantité minimiser cette maximiser

La recherche d’axes portant le maximum d’inertie équivaut à la

En d’autres termes, on effectue un changement de repère dans Rp de

Cette réorganisation s’appuie sur la diagonalisation de la matrice de

On appelle axes principaux d’inertie les axes de direction des

A chaque axe est associé une variable appelée composante

Exemple : c1 = u11 x1 + u12 x 2 + ... u1p x p

c La variance d’une composante principale est égale à

1ère composante c1 variance : λ 1

2ème composante c 2 variance : λ 2

3ème composante c 3 variance : λ 3

d Les composantes principales sont non corrélées

En effet, les axes associés sont orthogonaux.

La jème composante principale

fournit les coordonnées des n individus

Si on désire une représentation plane des individus, la meilleure sera celle

! Attention à la qualité de représentation de chaque individu.

Les « proximités » entre les composantes principales et les variables

CERCLE DES CORRÉLATIONS

On utilise un produit scalaire entre variables permettant d’associer

On suppose les variables centrées.

zzzz Coefficient de corrélation linéaire

X1 et X 2 ont une corrélation proche de 1.

λ1 + λ 2 est la part d’inertie expliquée par le

Ce critère (souvent exprimé en pourcentage) mesure le degré de

La réduction de dimension est d’autant plus forte que les variables

c Pourcentage d’inertie souhaité : a priori

d Diviser l’inertie totale par le nombre de variables initiales

Pour chaque individu e i , la qualité de sa représentation est définie

cos2 θ = cos2 θ1 + cos2 θ 2

En général, les qualités de représentation sont données axe par axe.

Ce critère n’a pas de signification pour les individus proches

c regarder les distances des individus au centre de

d utiliser le critère de cos2 pour les individus

Il est très utile aussi de calculer pour chaque axe la contribution

Il n’est pas souhaitable qu’un individu ait une contribution

Problème des enquêtes par sondage