Data Mining Acp-1 PDF

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante
Data Mining
Analyse en Composantes Principales
W. Toussile
wilson.toussile@gmail.com
1 Département MSP
École Nationale Supérieure Polytechnique
20/07/2020
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 1 / 94

1 Notions de base
2 Espace métrique des individus et inerties
3 Espace métrique des variables
4 Analyse en Composante Principales
5 ACP dans l’espace des variables
6 Les représentations graphiques
7 Pratique de l’ACP

Section 1
Introduction

Introduction
L’ACP fait partie des méthodes exploratoires multidimensionnelles

dites factorielles, qui sont géométriques et non probabilistes.
L’ACP permet de réduire la dimension de représentation des
données numériques, en déformant le moins possible la réalité
De telles méthodes servent à comprendre la structure des données
et à formuler des hypothèses à étudier à l’aide d’outils de
statistique inférentielle.

Les données
Elles se présentent sous la forme d’une matrice X de dimensions n × p:

X = xij , (1)
1≤i≤n;1≤j≤p
où xij ∈ R est l’observation de la variable X j sur l’individu i, n la taille

de l’échantillon et p le nombre de variables.
Données de l’individu i :
 1
xi
 .. 
xi =  .  ∈ Rp
xip
Données de la variable j :
 j
x
j
 .1  n
 ..  ∈ R
x = 
xnj
Les objectifs
Les espaces des individus et des variables sont en général de grande
dimension (p ≥ 3 ou n ≥ 3), rendant difficile toute représentation des
nuages (individus ou variables) dans le plan.
L’ objectif de l’ACP est de
I Condenser l’information contenu dans le tableau (de grandes
dimensions) par une analyse des corrélations linéaires entre les
variables et une visualisation graphique des distances entre les
individus;
I Dégager les liaisons entre variables et les ressemblances entre
individus;
L’idée générale de l’ACP est de trouver un système d’axes

orthogonaux dans un espace de plus petite dimension (par exemple
2) dans lequel le nuage projeté est de plus grande variance,
correspondant ainsi à une perte minimale d’information.
Exemple (Cornillon et al. 2008) I
Le fichier decathlon.csv contient les résultats d’athlètes aux 10

épreuves de décathlon. Ce jeu de données se trouve aussi dans le
package factoextra. On souhaite
I Analyser les liaisons entre les performances aux différentes épreuves
I Savoir si certaines épreuves se “ressemblent”
I Déterminer des profils d’athlètes
I On se doute par exemple que les performances au 100m, 110mhaies
et saut en longueur soient corrélées. Est-il utile de garder les
données des trois épreuves, ou d’en fabriquer une variable qui
“résume” ces trois?

Exemple (Cornillon et al. 2008) II
Sous R
# Se trouve dans le package factoextra
require(factoextra)
require(dplyr)
# 1eres lignes
decathlon2 %>% head()
# Les dimensions du tableau

dim(decathlon2)

Exemple (Cornillon et al. 2008) III
Sous Python
import pandas as pd
decathlon = pd.read_csv("decathlon.csv", sep=";",
index_col = 0)
print("Dimensions = ".format(decathlon.shape))
decathlon.head()

Section 2
Notions de base

Quelques définitions I
Soit (ei )i la base canonique de Rp . Alors x j = X · ej
Definition (Centre de gravité)

Le centre de gravité du nuage des individus affectés des poids
(ωi )ni=1 ∈ Sn est le point
X
x = (x j )j = ωi xi = t XD1n ∈ Rp
i
P 1
ωi > 0 et i ωi = 1 et en général, ωi =
n
Matrice des poids : D = diag(ω1 , · · · , ωn )

Quelques définitions II
Nuage des individus : I := {(xi , ωi )}i
Données centrées : Y := (xij − x j )i,j = X − 1n t x

Matrice des covariances empiriques :
V = t XDX − x t x = t YDY
0 0
ωi (xij − x j )(xij − x j )
P
avec [V]j,j 0 = i
Remarque :
I y = 0Rp
I kxi − xi 0 k2 = kyi − yi 0 k2

Quelques définitions III

Données centrées et réduites :
xij − x j
!
ωi (xij − x j )2
X
Z := , où sj2 :=
sj i,j i
Si on pose S−1 = diag( s1j )j , on a Z = YS−1 .

Matrice des corrélations empiriques :
R = S−1 VS−1 = S−1t YDYS−1 = t ZDZ
Note : R est la matrice des covariances des données centrées-réduites,

elle résume la structure des dépendances linéaires entre les p variables
Xj

Exemple I
Sous R
X = decathlon2[, 1:10]
Y = scale(X, scale = FALSE)
n = nrow(X)
D = diag(rep(1/n, n))
S_1 = diag(1/sqrt(diag(V)))
Z = Y%*%S_1
V = t(Y)%*%D%*%Y # Covariances
R = t(Z)%*%D%*%Z # Corrélations
M = diag(1/diag(V))

Exemple II
Sous Python
import sklearn
from sklearn.preprocessing import StandardScaler
X = decathlon.iloc[:, 0:10]
Y = StandardScaler(with_std = False).fit_transform(X)
Z = StandardScaler(with_std = True).fit_transform(X)
n = X.shape[0]
D = (1/n)*np.diag(np.ones(n))
M = np.diag(1/X.std())
V = Y.T.dot(D).dot(Y)
R = Z.T.dot(D).dot(Y)

Section 3
Espace métrique des individus et inerties

Espace métrique des individus I

Il est nécessaire de munir l’espace des individus d’une mesure de
“proximité”. Quelle distance choisir?
La distance euclidienne n’est pas forcément le plus adaptée,
surtout lorsque les variables n’ont pas le même ordre de grandeur
(xij − xij0 )2 = t (xi − xi 0 )(xi − xi 0 ) =: kxi − xi 0 k2I

X
d 2 (xi , xi 0 ) =
j
En général, on utilise une distance de la forme

2
dM (xi , xi 0 ) := t (xi − xi 0 )M(xi − xi 0 ) =: kxi − xi 0 k2M
où M est une matrice symétrique définie positive choisie de sorte à

donner la même importance aux variables
Remarque : d 2 = dI2
Espace métrique des individus II

1
On choisit très souvent M = S−2 = diag( )j
sj2
I Ce choix revient à réduire chaque variable
I La distance associée donne la même importance à toutes variables,
au regard de leur dispersion
Remarque :
dS2−2 (xi , xi 0 ) = dS2−2 (yi , yi 0 )

= d 2 (zi , zi 0 )
Ainsi, le choix de dS−2 consiste en celui de la distance euclidienne sur

les données centrées réduites Z = (X − 1n t x )S−1

Inertie totale du nuage des individus I

Considérons un nuage des individus pondérés I = {(xi , ωi )}i et
une distance dM
Inertie totale :
X X X
2
It = ωi dM (xi , x ) = ωi kxi − x k2M = ωi kyi k2M
i i i
I It mesure la dispersion du nuage des individus autour du centre de

gravité x
Proposition
1 XX
It = ωi ωi 0 kxi − xi 0 k2M .
2 i i0

Inertie totale du nuage des individus II
1 XX 1 XX
ωi ωi 0 kxi − xi 0 k2M = ωi ωi 0 kxi − x + x − xi 0 k2M
2 i i0 2 i i0
= ...

Inertie totale du nuage des individus III

Expression matricielle de l’inertie
Proposition
It = tr (MV ) = tr (VM) .
Proof.
X X X
ωi kyi k2M = t
ωi tr yi t yi M

It = ωi yi Myi =
i i i
! !
X
= tr ωi yi t yi M = tr (VM) = tr (MV ) .
i

Inertie totale du nuage des individus IV
Rappels
tr (AB) = tr (BA)
tr (A + B) = tr (A) + tr (B)
tr (αA) = αtr (A) .

Inertie totale du nuage des individus V

Sous R
my.norm <- function(x, M){
#M sdp
return(t(x)%*%M%*%x)
}
# Inertie total
(1/n)*sum(apply(Y, 1, function(yi) my.norm(yi, M)))
(1/(2*n*n))*sum(sapply(1:n, function(i)
return(sum(sapply(1:n, function(j)
return(my.norm(as.numeric(X[i, ])-as.numeric(X[j, ]), M)))
sum(diag(V%*%M))

Inertie totale du nuage des individus VI
Sous Python
import numpy as np
def myNorm(x, Mat = M):
return(x.dot(Mat).dot(x))
print((1/n)*np.sum(np.apply_along_axis(myNorm, 1, Y)))
print(np.sum(np.diag(V.dot(M))))

Inertie expliquée par un sous-espace I
Considérons le nuage de points centrés I c = {(yi , ωi )}i et soit F

un sous-espace vectoriel de Rp
Inertie expliquée de I c expliqué par F : On appelle ainsi l’inertie
du nuage projeté sur F :
X
IF ((yi , ωi )i ) = ωi kybiF k2M
i
où
ybiF = PF (yi ).

Inertie expliquée par un sous-espace II
Inertie expliquée par une droite : Soit ∆u une droite engendrée par
un vecteur M-normée u (t uMu = 1). On a
P∆u (yi ) = hu, yi iM u = (t uMyi )u
et
X X
I∆u ((yi , ωi )i ) = ωi kP∆u yi k2M = ωi t uMyi t yi Mu
i i
!
X
t
= uM ωi yi t yi Mu = t uMVMu
i

Décomposition de l’inertie I
Soit F un sev de Rp . Désignons par F ⊥ son supplément M-orthogonal

dans Rp .
Proposition (Preuve en exo)
1 Alors It = IF + IF ⊥ .
2 Plus généralement, si Ft = F1 ⊕ F2 et F1 ⊥M F2 , alors
IF = IF1 + IF2 .
IF ⊥ est donc une mesure de la déformation du nuage lors de la

projection sur F :
X
IF ⊥ = ωi kyi − PF yi k2M
i

Décomposition de l’inertie II
Preuve
1 Tout vecteur x ∈ Rp se décompose de façon unique comme
x = PF x + PF ⊥ x , avec hPF x , PF ⊥ x iM = 0. Il suffit alors
d’appliquer Pythagore à
X X
It = ωi kyi k2M = ωi kPF yi + PF ⊥ yi k2M .
i i
2 Remarquer que PF yi = PF1 PF yi + PF2 PF yi = PF1 yi + PF2 yi car

F1 et F2 sont des sev de F , puis appliquer Pythagore à
X X
IF = ωi kPF yi k2M = ωi kPF1 yi + PF2 yi k2M
i i

Section 4
Espace métrique des variables

Espace métrique des variables I
La colonne j de la matrice X représente les données de la variable

X j que nous notons

x j = xij ∈ Rn .
i
Un choix naturel de la métrique est celle associée au produit

scalaire
0 0 0

ωi yij yij = cov x j , x j .
X
hy j , y j iD =
i
Ainsi,
kyj k2D = sj2

Espace métrique des variables II
0
L’angle θj,j 0 entre y j et y j est donné par
0

0
hy j , y j iD cov x j , x j
cos θj,j 0 = j = = [R]j,j 0 .
ky kD ky j 0 kD sj sj 0

Section 5
Analyse en Composante Principales

Le problème
Obtenir une représentation du nuage des individus en le projetant

sur un sev de dimension k < p, en minimisant les déformations :
IEk = max {IE | E ⊂ Rn , dimE = k}
Definition
On appelle sous-espace principal de dimension k tout sev de dimension
k solution du problème précédent.

Espaces et axes principaux I
Theorem
Soit Ek un sous-espace principal de dimension k < p. Alors tout
sous-espace principal de dimension k + 1 est sous la forme
Ek+1 = Ek ⊕ ∆uk+1 ,
où uk+1 est un vecteur M-orthogonal à Ek dont la droite engendrée

∆uk+1 est d’inertie maximale parmi toutes les droites vectorielles
M-orthogonales à Ek .

Espaces et axes principaux II
Proof.
Il suffit de montrer que tout sev F de dimension k + 1 est d’inertie
IF ≤ IEk+1 . Soit donc F un sev de dimension k + 1. On a
dimEk⊥ + dimF = (p − k) + (k + 1) = p + 1, d’où Ek⊥ et F ont au
moins une direction commune 0Rp 6= u ∈ Ek⊥ ∩ F . Soit Fe un
supplémentaire de ∆u dans F : F = Fe ⊕ ∆u . Alors dimFe = k. On en
déduit IFe ≤ IEk . Par ailleurs, Iu ≤ Iuk+1 . Ainsi
IF = IFe + Iu ≤ IEk + Iuk+1 = IEk+1 .

Espaces et axes principaux III

Remarques
D’après le théorème précédent, les sous-espaces principaux Ek sont
emboîtés et peuvent être calculés de façon itérative:
I Rechercher ∆u1 tel que Iu1 = max {Iu } et poser E1 = ∆u1 ;
I Rechercher ∆u2 tel que Iu2 = max {Iu | u ⊥M E1 } et poser
E2 = E1 ⊕ ∆u2
I ···
I Rechercher ∆uk tel que Iuk = max {Iu | u ⊥M Ek−1 } et poser
Ek = Ek−1 ⊕ ∆uk
Definition (Axes principales)

Les axes ∆u1 , · · · , ∆up sont appelées axes principaux d’inertie de l’ACP.

Calcul des axes principaux I

On suppose que kuk k2M = 1 pour tout k.
Axe principal ∆u1
Supposons ku1 kM = 1. Alors
Iu1 = t u1 MVMu1 .
Pb : maxkukM =1 t uMVMu.
Lagrangien : L (u, λ) = t uMVMu − λt uMu.
∇u L (u, λ) = 0 équiv. à VMu = λu. Donc u est un vecteur
propre de VM de valeur propre λ. En multipliant membres
l’égalité précédente par t uM, on obtient λ = Iu .

Calcul des axes principaux II
u1 est un vecteur propre de VM associé à la valeur propre λ1 := Iu1

Pour maximiser Iu1 , il suffit de choisir un vecteur propre u1 associé
à la plus grande valeur propre λ1 de la matrice VM.

Calcul des axes principaux III

Theorem
1 Il existe une base M-orthonormale (u ) de vecteurs propres de la
j
matrice VM associés aux valeurs propres (réelles positives) rangées
dans l’ordre décroissant λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0.
2 Les vecteurs u engendrent respectivement las axes principaux
j
d’inertie de l’ACP et on a
Iuj = λj .
3 Pour tout k < p, le sev Ek := R {u1 , · · · , uk } est le sous-espace

principal de dimension k, et l’inertie expliqué par Ek est donné par
:
IEk = λ1 + · · · + λk .

Calcul
Proof.
des axes principaux IV
1 La matrice VM est M symétrique :
hx , VMy iM = t xMVMy = t yMVMx = hVMx ; y iM .
Par conséquent, les valeurs propres de VM sont réelles et positives,

et l’espace engendré par les colonnes de VM admet une base
M-orthonormale de vecteurs propres de VM.
2 On a vu que u1 est un vecteur propre unitaire associé à la plus
grande valeur propre λ1 de VM. Les autres axes principaux uk
sont vecteurs propres unitaires associés aux valeurs propres
t
λk = max uMVMu| kukM = 1, hu, uj iM = 0, j = 1, · · · , k − 1 .
Comme kuk kM = 1, on a Iuk = t uk MVMuk = t uk M (λk uk ) = λk .

3 Par un theo précédent, Ek = ∆u1 ⊕ · · · ⊕ ∆uk et
IEk = λ1 + · · · + λk .
Composantes principales I
On cherche à condenser le nuage (yi , ωi )i dans des sous-espaces

principaux de dimensions réduites, dont nous connaissons déjà les
axes principaux uj .

Notons cij les coordonnées du nuage sur l’axe principal ∆uj :
i
X X
t
yi = hyi , uj iM · uj = yi Muj · uj ,
j j
d’où
cij = t yi Muj .

Composantes principales II
Definition (Composante principale)

Le vecteur
c j = cij ∈ Rn = YMuj
i
est appelé j-ième composante principale.

Composantes principales III
Notons C = c 1 · · · c p , U = [u1 · · · up ]. Alors

C = YMU
Proposition
1 Les CP sont des combinaisons linéaires des variables de départ y j .
2 Les CP c j sont centrées, de variances λj et non-corrélées
deux-à-deux.
3 Les CP c 1 , · · · , c p sont vecteurs propres de la matrice YMt YD,
de valeurs propres associées λ1 , · · · , λp .

Composantes principales IV
Munissons l’espace des variables de la métrique D := diag (ωi )i .
Alors
0 0 0

hy j , y j iD = t y j Dy j = cov y j , y j
Rappelons que pour r = rg (Y) ≤ min (n, p),

λr +1 = · · · = λp = 0. Ce qui implique c r +1 = · · · = c p = 0Rn .
Pour j ≤ r , on définit
1
f j = p cj.
λj
Les f j sont D-orthonormés.

Definition (Facteurs principaux)
Les f j sont appelés facteurs principaux.

Composantes principales V
Composantes principales.
1. c j = YMu j = k Mu j k y k .
P
2.
c = t CD1 = t UMt YD1 = t UMy = 0.
0
h i
cov c j , c j = t
CDC = t UMt YDYMU = t UMVMU.
On a VMU = λ1 u 1 · · · λp u p = Udiag (λ1 , · · · , λp ). D’où

0
h i
cov c j , c j = t UMUdiag (λj ) = Id diag (λj ) .
3. Par définition de (uj , λj ), on a VMuj = λj uj . D’où en multipliant

membre à membre par YM et en utilisant c j = YMuj , on a
YMt YDc j = λj c j

Résumé d’une ACP normée I
Données : X et matrice des poids D

Données centrées : Y = X − 1n t x

Métrique de l’espace des individus : M = diag sj2

Résumé d’une ACP normée II

Les sorties de ACP (Y, D, M)
Les valeurs propres λj de VM = t YDYM,
λ1 > λ2 > · · · > λr > 0 = λr +1 = · · · = λp , où r = rg (Y).
Les axes principaux uj , vecteurs propres associés aux λj qui
forment une base M-orthonormale de Rp :
t
YDYMuj = λj uj , t uj Muj 0 = δj,j 0 .
Les composantes principales c j = t YMuj si j ≤ r et c j = 0 si

j >r
1
Les facteurs principaux f j = p c j pour j ≤ r
λj

Résumé d’une ACP normée III
Sous R
require(FactoMineR)
out_pca = PCA(X, scale.unit = TRUE, ncp = ncol(X))
out_pca$eig # Valeurs propres
summary(out_pca)

Résumé d’une ACP normée IV
Sous Python
import numpy as np
from sklearn.decomposition import PCA
pca = PCA(n_components = 10)
pca.fit(X)
dir(pca)

Section 6
ACP dans l’espace des variables

Le problème
On s’intéresse au nuage y j dans Rn

Objectif : Trouver les sous-espaces principaux Fk qui conservent

au mieux l’information liée à l’inertie contenu dans le nuage y j j .
Les besoins :
I Les données t Y (matrice p × n)
I Une métrique sur Rn ; en général on choisit D= diag (ωi )i
I Une matrice des poids; en général M = diag s12
j
On fait alors l’ACP (t Y, M, D)

ACP (t Y, M, D)
Proposition
1 Les valeurs propres non nulles de l’ACP (t Y, M, D) sont les
valeurs propres non nulles λ1 , · · · , λr de lACP (Y, D, M).
2 Les axes principaux de l’ACP (t Y, M, D) correspondant aux
valeurs propres λ1 , · · · , λr sont les facteurs principaux f 1 , · · · , f r
de l’ACP (Y, D, M).
Les t
√ composantes √ principales de l’ACP ( Y, M, D) sont
3
λ1 u1 , · · · , λr ur . Autrement dit, les facteurs principaux de

l’ACP (t Y, M, D) sont les axes principaux u1 , · · · , ur de
l’ACP (Y, D, M) correspondant aux valeurs propres non-nulles.
Proof.

Section 7
Les représentations graphiques

Représentation des individus I
Rappelons qu’un des but de l’ACP est de fournir une

représentation graphique du nuage des individus dans un espace de
dimension k < p, typiquement 2 ou 3.
On sait maintenant que la “meilleure” représentation graphique,
au sens de l’inertie est donnée par la projection de nuage sur le
sous-espace principal Ek

Représentation des individus II

Qualité de la représentation : Elle est mesurée par le pourcentage
d’inertie expliquée par Ek
IEk λ1 + · · · + λk
= Pp .
I j=1 λj
Plus cette quantité est proche de 1, moins le nuage projeté est

déformé.
Qualité de représentation d’un individu i
k j 2
kPEk yi k2M
P
2 j=1 (ci )
cos (yi , PEk yi ) = =
kyi k2M
Pp j 2
j=1 (ci )

Représentation des individus III
L’individu est d’autant bien représenté que cette quantité est

proche de 1. Dans ce cas, les conclusions qu’on peut en tirer sont
d’autant pertinentes.

Représentation des individus IV

Contribution d’un individu i à un axe uk
ωi (cik )2 ωi (cik )2
=P k )2
= ωi (fi k )2 .
λk i ω i (ci
ωi (cik )2
En général, lorsque > ωi , on considère que la
λk
contribution de l’individu i est importante.
Il est conseillé de retirer les individus pour lesquels les
contributions sont trop importantes, et de les réintégrer comme
individus supplémentaires
Les “outliers” peuvent être détectés sur les boîtes à moustaches
des composantes principales c 1 , · · · , c p ou des facteurs principaux
f 1, · · · , f p .

Représentation des individus V
Contribution d’un individu i
Pp k 2 Pp
ωi kyi k2M ωi k=1 (ci ) ωi (c k )2
= = Pk=1 i
I I k λk

Représentation des individus VI
Individus supplémentaires
Il s’agit des individus qui ne font pas partie de l’échantillon ayant servi
pour l’ACP, et qu’on représente sur les axes principaux.
Soit x ∈ Rp les données d’un individu supplémentaire. Ses
coordonnées dans le repère (x , u1 , · · · , up ) sont données par
hx − x , uk iM .

Représentation des variables I

Rappelons que les axes principaux de l’espace des variables sont
les facteurs principaux f j , j = 1, · · · , r :
r r r p
λk ukj .
X X X
PF k y j = hy j , f k iD · f k = cov y j , f k · f k =
k=1 k=1 k=1
Qualité globale de représentation sur ∆f k :

Pk
j=1 λj
Pp .
j=1 λj
Qualité de représentation d’une variable :

kPf k y j k2D hy j , f k i2D
cos2 y j , Pf k yi = = = cor 2
y j k
, f = cor 2
yj, c
ky j k2D sj2
car d k = √1 c k .
λk
Représentation des variables II
Par exemple, la qualité de représentation sur le premier plan

principal F2 est

cos2 y j , PF2 y j = cor 2 y j , c 1 + cor 2 y j , c 2
y j est d’autant bien représentée que cos2 y j , PF2 y j est proche de


Cercle des corrélations I

!
1
On suppose ici que M = diag .
sj2 j
Considérons les données centrées et réduites D. Rappelons que

l’ACP (Y, D, M) correspond à ACP (Z , D, Id).
Ainsi var z j = kz j k2Id = 1, toutes les variable se trouvent sur la

sphère unité Sn de Rn .
L’intersection de cette sphère unité et le premier plan principal est
dons un cercle unité appelé cercle des corrélations
PF2 z j est un point à l’intérieur du cercle des corrélations, et la
représentation est d’autant meilleure que PF2 z j est proche du
cercle des corrélations.

Cercle des corrélations II
Note :
0
I La proximité des projections de z j et z j une forte corrélation
linéaire
I Des projections diamétralement opposés indiquent une corrélation
négative proche de −1
I Des projections presque orthogonales indiquent une faible
corrélation

Reconstitution des données I
À partir de la décomposition des yi dans la base des vecteurs

propres u1 , · · · , up , on a
X j Xq
yi = ci uj = λj fi j uj
j j
On en déduit la formule de reconstitution:

r q
X
Y= λj f j t uj .
j=1
e k = Pk pλj f j t uj .
Pour une dimension k fixé, posons Y j=1

Reconstitution des données II
e k de dimension n × p est de rang k.

La matrice Y
On montre que Y e k est la meilleure approximation de Y par une
matrice de rang k au sens des “moindres carrés” :
n o
e k k2 = inf kY − Tk2 | T matrice n × p de rang k
kY − Y M,D
où
kTv kD

kTkM,D := sup .
v ∈Rp kv kM

Section 8
Pratique de l’ACP

Nombre d’axes à retenir
Pb : Combien d’axes principaux retenir?

De nombreux critères du nombre k ont été proposé dont les plus
courants sont :
nP o
k
La part d’inertie : kb = arg mink j=1 λj ≥ λseuil
I
n o
La règle de Kaiser : kb = arg mink λk ≥ p1 j λj = pI
P
I
I Éboulis des valeurs propres : Sélectionner la plus grande valeur kb

avant le “coude” dans le graphique des (j, λj ) présentant la
décroissance des valeurs propres.

Interprétation I
Carte des variables ou des individus

Donner le pourcentage d’inertie expliqué par le plan et chacun des
axes
Indiquer les variables et individus mal représentés dans ce plan,
pour les exclure de la description
Utiliser les contributions :
I Des variables pour interpréter les axes en termes de variables de
départ
I Des individus pour identifier les plus influents pour l’orientation
d’un axe et ceux qui ont une contribution excessive

Interprétation II
Pour une carte des variables : étudier les angles entre les
projections des variables en termes de covariance ou de corrélation
pour dégager éventuellement des groupes de variables.
Pour les cartes des individus : étudier les proximités ou oppositions
entre les points en termes de “comportement”, et dégager
éventuellement des groupes d’individus et les comportement
singuliers.
Faire une synthèse des informations et hypothèses principales
dégagées de la carte décrite.

Récapitulatif
Individus Variables
Espace Rp Rn
Données Y tY
Poids D = diag (ω
i ) M
1
Métrique M = diag sj2
D
À diagonaliser VM = t YDYM YMt YD
Valeurs propres λ1 ≥ λ2 ≥ · · · ≥ λr > 0 λ1 ≥ λ2 ≥ · · · ≥ λr > 0
Axes principaux u1 , · · · , up f 1, · · · , f p
CP c j = YMuj cek = t YDf k
k
FP f 1 , · · · , f k = √cλ u1 , · · · , ur
k
2
(cik )
Contribution de yi ωi λk

Section 9
Exemples

“iris” I
require(dplyr)
?iris
iris %>% head()
Sepal.Length Sepal.Width Petal.Length Petal.Width Species

5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa

“iris” II
require(FactoMineR)
require(factoextra)
acp_iris = PCA(iris, scale.unit = TRUE,
ncp = 4, quali.sup = 5, graph = FALSE)
names(acp_iris) # Le contenu
## [1] "eig" "var" "ind" "svd" "qual

as.data.frame(acp_iris$eig) # Les valeurs propres
eigenvalue percentage of variance cumulative percentage of v

comp 1 2.9184978 72.9624454 72
comp 2 0.9140305 22.8507618 95
comp 3 0.1467569 3.6689219 99
comp 4 0.0207148 0.5178709 100

“iris” III
# Éboulis des valeurs propres
fviz_screeplot(acp_iris, ncp = 4) + theme_bw()
Percentage of explained variances
Scree plot
60
40
20
0
1 2 3 4
Dimensions

“iris” IV
# Représentation des individus

fviz_pca_ind(acp_iris, geom = "point", axes = c(1, 2),
habillage = iris$Species,
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()

“iris” V
Individuals − PCA
2
Dim2 (22.9%)
Groups
1
setosa
0
versicolor
−1 virginica
−2
−2 0 2
Dim1 (73%)

“iris” VI
# Représentation des variables

plot.PCA(acp_iris, choix = "var")

“iris” VII
PCA graph of variables
Dim 2 (22.85%)
1.0 Sepal.Width
0.5 Sepal.Length
Petal.Width
0.0
Petal.Length
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (72.96%)

“iris” VIII
Détection des "outliers"

boxplot.matrix(acp_iris$ind$coord)

“iris” IX
3
−3 0
Dim.1 Dim.3

“iris” X
b = boxplot(acp_iris$ind$coord[, 2])
1
−2

“iris” XI
i_outliers = as.numeric(names(b$out))
acp_iris2 = PCA(iris, scale.unit = TRUE, ind.sup = i_outlier

ncp = 4, quali.sup = 5, graph = FALSE)

“iris” XII

fviz_pca_ind(acp_iris2, geom = "point", axes = c(1, 2),
habillage = iris$Species[-i_outliers],
addEllipses = TRUE,

“iris” XIII
Individuals − PCA
3
2
Groups
Dim2 (21%)
1
setosa
0
versicolor
−1 virginica
−2
−3
−2 0 2
Dim1 (74.6%)

“iris” XIV
# Représentation des variables

plot.PCA(acp_iris2, choix = "var") #ou

“iris” XV
PCA graph of variables
Dim 2 (20.98%)
1.0
Sepal.Width
0.5 Sepal.Length
Petal.Width
0.0
Petal.Length
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (74.64%)
#fviz_pca_var(acp_iris, col.var="steelblue")+theme_minimal()

“iris” XVI
# Biplot
fviz_pca_biplot(acp_iris2, label = "var", axes = c(1, 2),
habillage = iris$Species[-i_outliers],
addEllipses = TRUE,

“iris” XVII
PCA − Biplot
Sepal.Width 132
3 16 118
2
Sepal.Length
Groups
Dim2 (21%)
1
Petal.Width
Petal.Length setosa
0 versicolor
−1 virginica
−2
61
−3
−2 0 2
Dim1 (74.6%)

“decathlon” I
Il s’agit d’un jeu de données décrivant les scores des 10 épreuves du

décathlon de n = 41 athlètes. En plus de ces p = 10 scores, on a aussi
le total des points, le rank et la compétition. Nous souhaitons
découvrir les relations entres les scores des différentes épreuves.
require(FactoMineR)
require(factoextra)
require(dplyr)
data("decathlon")
dim(decathlon)
names(decathlon)

“decathlon” II
L’ACP
fit_acp = PCA(decathelon, scale.unit = TRUE,
ncp = 5, quanti.sup = 11:12,
quali.sup = 13, graph = FALSE)
names(fit_acp) # Le contenu
fit_acp$eig # Les valeurs propres
# Éboulis des valeurs propres

fviz_screeplot(fit_acp, ncp = 10) + theme_bw()

“decathlon” III
Représentations graphiques

“decathlon” IV
fviz_pca_ind(fit_acp, geom = "text", axes = c(1, 2),
habillage = decathlon$Competition,
addEllipses = TRUE,

fviz_pca_var(fit_acp, col.var="steelblue")+
theme_minimal()
# Biplot
fviz_pca_biplot(fit_acp, label = "var",
habillage = decathlon$Competition,
addEllipses = TRUE,
Section 10
Références

Biblio
Practical Guide To Principal Component Methods in R

(Kassambara 2017)

Références
Cornillon, Pierre-André, Arnaud Guyader, François Husson, Nicolas

Jégou, Julie Josse, Maela Kloareg, Eric Matzner-Løber, and Laurent
Rouviere. 2008. Statistique avec R. Presses Universitaires de Rennes.
https://hal.archives-ouvertes.fr/hal-00382106.
Kassambara, Alboukadel. 2017. Practical Guide to Principal
Component Methods in R: PCA, M (ca), Famd, Mfa, Hcpc, Factoextra.
Vol. 2. STHDA.

Data Mining Acp-1 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Data Mining Acp-1 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

École Nationale Supérieure Polytechnique

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 1 / 94

2 Espace métrique des individus et inerties

3 Espace métrique des variables

4 Analyse en Composante Principales

5 ACP dans l’espace des variables

6 Les représentations graphiques

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 2 / 94

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 3 / 94

L’ACP fait partie des méthodes exploratoires multidimensionnelles

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 4 / 94

où xij ∈ R est l’observation de la variable X j sur l’individu i, n la taille

L’idée générale de l’ACP est de trouver un système d’axes

Exemple (Cornillon et al. 2008) I

Le fichier decathlon.csv contient les résultats d’athlètes aux 10

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 7 / 94

Exemple (Cornillon et al. 2008) II

# Les dimensions du tableau

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 8 / 94

Exemple (Cornillon et al. 2008) III

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 9 / 94

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 10 / 94

Soit (ei )i la base canonique de Rp . Alors x j = X · ej

Definition (Centre de gravité)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 11 / 94

Nuage des individus : I := {(xi , ωi )}i

Données centrées : Y := (xij − x j )i,j = X − 1n t x

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 12 / 94

Quelques définitions III

Si on pose S−1 = diag( s1j )j , on a Z = YS−1 .

R = S−1 VS−1 = S−1t YDYS−1 = t ZDZ

Note : R est la matrice des covariances des données centrées-réduites,

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 13 / 94

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 14 / 94

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 15 / 94

Espace métrique des individus et inerties

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 16 / 94

Espace métrique des individus I

(xij − xij0 )2 = t (xi − xi 0 )(xi − xi 0 ) =: kxi − xi 0 k2I

En général, on utilise une distance de la forme

où M est une matrice symétrique définie positive choisie de sorte à

Espace métrique des individus II

dS2−2 (xi , xi 0 ) = dS2−2 (yi , yi 0 )

Ainsi, le choix de dS−2 consiste en celui de la distance euclidienne sur

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 18 / 94

Inertie totale du nuage des individus I

I It mesure la dispersion du nuage des individus autour du centre de

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 19 / 94

Inertie totale du nuage des individus II

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 20 / 94

Inertie totale du nuage des individus III

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 21 / 94

Inertie totale du nuage des individus IV

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 22 / 94

Inertie totale du nuage des individus V

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 23 / 94

Inertie totale du nuage des individus VI

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 24 / 94

Inertie expliquée par un sous-espace I

Considérons le nuage de points centrés I c = {(yi , ωi )}i et soit F

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 25 / 94

Inertie expliquée par un sous-espace II