Sunteți pe pagina 1din 95

Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Data Mining
Analyse en Composantes Principales

W. Toussile
wilson.toussile@gmail.com

1 Département MSP

École Nationale Supérieure Polytechnique

20/07/2020

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 1 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

1 Notions de base

2 Espace métrique des individus et inerties

3 Espace métrique des variables

4 Analyse en Composante Principales

5 ACP dans l’espace des variables

6 Les représentations graphiques

7 Pratique de l’ACP

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 2 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 1

Introduction

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 3 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Introduction

L’ACP fait partie des méthodes exploratoires multidimensionnelles


dites factorielles, qui sont géométriques et non probabilistes.
L’ACP permet de réduire la dimension de représentation des
données numériques, en déformant le moins possible la réalité
De telles méthodes servent à comprendre la structure des données
et à formuler des hypothèses à étudier à l’aide d’outils de
statistique inférentielle.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 4 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Les données
Elles se présentent sous la forme d’une matrice X de dimensions n × p:
 
X = xij , (1)
1≤i≤n;1≤j≤p

où xij ∈ R est l’observation de la variable X j sur l’individu i, n la taille


de l’échantillon et p le nombre de variables.
Données de l’individu i :
 1
xi
 .. 
xi =  .  ∈ Rp
xip

Données de la variable j :
 j
x
j
 .1  n
 ..  ∈ R
x = 

xnj
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 5 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Les objectifs
Les espaces des individus et des variables sont en général de grande
dimension (p ≥ 3 ou n ≥ 3), rendant difficile toute représentation des
nuages (individus ou variables) dans le plan.
L’ objectif de l’ACP est de
I Condenser l’information contenu dans le tableau (de grandes
dimensions) par une analyse des corrélations linéaires entre les
variables et une visualisation graphique des distances entre les
individus;
I Dégager les liaisons entre variables et les ressemblances entre
individus;

L’idée générale de l’ACP est de trouver un système d’axes


orthogonaux dans un espace de plus petite dimension (par exemple
2) dans lequel le nuage projeté est de plus grande variance,
correspondant ainsi à une perte minimale d’information.
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 6 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple (Cornillon et al. 2008) I

Le fichier decathlon.csv contient les résultats d’athlètes aux 10


épreuves de décathlon. Ce jeu de données se trouve aussi dans le
package factoextra. On souhaite
I Analyser les liaisons entre les performances aux différentes épreuves
I Savoir si certaines épreuves se “ressemblent”
I Déterminer des profils d’athlètes
I On se doute par exemple que les performances au 100m, 110mhaies
et saut en longueur soient corrélées. Est-il utile de garder les
données des trois épreuves, ou d’en fabriquer une variable qui
“résume” ces trois?

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 7 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple (Cornillon et al. 2008) II

Sous R
# Se trouve dans le package factoextra
require(factoextra)
require(dplyr)

# 1eres lignes
decathlon2 %>% head()

# Les dimensions du tableau


dim(decathlon2)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 8 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple (Cornillon et al. 2008) III

Sous Python
import pandas as pd
decathlon = pd.read_csv("decathlon.csv", sep=";",
index_col = 0)
print("Dimensions = ".format(decathlon.shape))
decathlon.head()

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 9 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 2

Notions de base

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 10 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Quelques définitions I

Soit (ei )i la base canonique de Rp . Alors x j = X · ej

Definition (Centre de gravité)


Le centre de gravité du nuage des individus affectés des poids
(ωi )ni=1 ∈ Sn est le point
X
x = (x j )j = ωi xi = t XD1n ∈ Rp
i

P 1
ωi > 0 et i ωi = 1 et en général, ωi =
n
Matrice des poids : D = diag(ω1 , · · · , ωn )

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 11 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Quelques définitions II

Nuage des individus : I := {(xi , ωi )}i

Données centrées : Y := (xij − x j )i,j = X − 1n t x


Matrice des covariances empiriques :

V = t XDX − x t x = t YDY
0 0
ωi (xij − x j )(xij − x j )
P
avec [V]j,j 0 = i

Remarque :
I y = 0Rp
I kxi − xi 0 k2 = kyi − yi 0 k2

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 12 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Quelques définitions III


Données centrées et réduites :

xij − x j
!
ωi (xij − x j )2
X
Z := , où sj2 :=
sj i,j i

Si on pose S−1 = diag( s1j )j , on a Z = YS−1 .


Matrice des corrélations empiriques :

R = S−1 VS−1 = S−1t YDYS−1 = t ZDZ

Note : R est la matrice des covariances des données centrées-réduites,


elle résume la structure des dépendances linéaires entre les p variables
Xj

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 13 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple I

Sous R
X = decathlon2[, 1:10]
Y = scale(X, scale = FALSE)
n = nrow(X)

D = diag(rep(1/n, n))
S_1 = diag(1/sqrt(diag(V)))
Z = Y%*%S_1

V = t(Y)%*%D%*%Y # Covariances
R = t(Z)%*%D%*%Z # Corrélations
M = diag(1/diag(V))

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 14 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Exemple II
Sous Python
import sklearn
from sklearn.preprocessing import StandardScaler

X = decathlon.iloc[:, 0:10]
Y = StandardScaler(with_std = False).fit_transform(X)
Z = StandardScaler(with_std = True).fit_transform(X)
n = X.shape[0]
D = (1/n)*np.diag(np.ones(n))
M = np.diag(1/X.std())

V = Y.T.dot(D).dot(Y)
R = Z.T.dot(D).dot(Y)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 15 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 3

Espace métrique des individus et inerties

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 16 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espace métrique des individus I


Il est nécessaire de munir l’espace des individus d’une mesure de
“proximité”. Quelle distance choisir?
La distance euclidienne n’est pas forcément le plus adaptée,
surtout lorsque les variables n’ont pas le même ordre de grandeur

(xij − xij0 )2 = t (xi − xi 0 )(xi − xi 0 ) =: kxi − xi 0 k2I


X
d 2 (xi , xi 0 ) =
j

En général, on utilise une distance de la forme


2
dM (xi , xi 0 ) := t (xi − xi 0 )M(xi − xi 0 ) =: kxi − xi 0 k2M

où M est une matrice symétrique définie positive choisie de sorte à


donner la même importance aux variables
Remarque : d 2 = dI2
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 17 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espace métrique des individus II


1
On choisit très souvent M = S−2 = diag( )j
sj2
I Ce choix revient à réduire chaque variable
I La distance associée donne la même importance à toutes variables,
au regard de leur dispersion

Remarque :

dS2−2 (xi , xi 0 ) = dS2−2 (yi , yi 0 )


= d 2 (zi , zi 0 )

Ainsi, le choix de dS−2 consiste en celui de la distance euclidienne sur


les données centrées réduites Z = (X − 1n t x )S−1

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 18 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus I


Considérons un nuage des individus pondérés I = {(xi , ωi )}i et
une distance dM
Inertie totale :
X X X
2
It = ωi dM (xi , x ) = ωi kxi − x k2M = ωi kyi k2M
i i i

I It mesure la dispersion du nuage des individus autour du centre de


gravité x

Proposition
1 XX
It = ωi ωi 0 kxi − xi 0 k2M .
2 i i0

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 19 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus II

1 XX 1 XX
ωi ωi 0 kxi − xi 0 k2M = ωi ωi 0 kxi − x + x − xi 0 k2M
2 i i0 2 i i0
= ...

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 20 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus III


Expression matricielle de l’inertie
Proposition

It = tr (MV ) = tr (VM) .

Proof.

X X X
ωi kyi k2M = t
ωi tr yi t yi M
 
It = ωi yi Myi =
i i i
! !
X
= tr ωi yi t yi M = tr (VM) = tr (MV ) .
i

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 21 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus IV

Rappels

tr (AB) = tr (BA)
tr (A + B) = tr (A) + tr (B)
tr (αA) = αtr (A) .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 22 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus V


Sous R
my.norm <- function(x, M){
#M sdp
return(t(x)%*%M%*%x)
}

# Inertie total
(1/n)*sum(apply(Y, 1, function(yi) my.norm(yi, M)))
(1/(2*n*n))*sum(sapply(1:n, function(i)
return(sum(sapply(1:n, function(j)
return(my.norm(as.numeric(X[i, ])-as.numeric(X[j, ]), M)))
sum(diag(V%*%M))

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 23 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie totale du nuage des individus VI

Sous Python
import numpy as np
def myNorm(x, Mat = M):
return(x.dot(Mat).dot(x))

print((1/n)*np.sum(np.apply_along_axis(myNorm, 1, Y)))
print(np.sum(np.diag(V.dot(M))))

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 24 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie expliquée par un sous-espace I

Considérons le nuage de points centrés I c = {(yi , ωi )}i et soit F


un sous-espace vectoriel de Rp
Inertie expliquée de I c expliqué par F : On appelle ainsi l’inertie
du nuage projeté sur F :
X
IF ((yi , ωi )i ) = ωi kybiF k2M
i


ybiF = PF (yi ).

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 25 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Inertie expliquée par un sous-espace II

Inertie expliquée par une droite : Soit ∆u une droite engendrée par
un vecteur M-normée u (t uMu = 1). On a

P∆u (yi ) = hu, yi iM u = (t uMyi )u

et
X X
I∆u ((yi , ωi )i ) = ωi kP∆u yi k2M = ωi t uMyi t yi Mu
i i
!
X
t
= uM ωi yi t yi Mu = t uMVMu
i

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 26 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Décomposition de l’inertie I

Soit F un sev de Rp . Désignons par F ⊥ son supplément M-orthogonal


dans Rp .
Proposition (Preuve en exo)
1 Alors It = IF + IF ⊥ .
2 Plus généralement, si Ft = F1 ⊕ F2 et F1 ⊥M F2 , alors
IF = IF1 + IF2 .

IF ⊥ est donc une mesure de la déformation du nuage lors de la


projection sur F :
X
IF ⊥ = ωi kyi − PF yi k2M
i

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 27 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Décomposition de l’inertie II
Preuve
1 Tout vecteur x ∈ Rp se décompose de façon unique comme
x = PF x + PF ⊥ x , avec hPF x , PF ⊥ x iM = 0. Il suffit alors
d’appliquer Pythagore à
X X
It = ωi kyi k2M = ωi kPF yi + PF ⊥ yi k2M .
i i

2 Remarquer que PF yi = PF1 PF yi + PF2 PF yi = PF1 yi + PF2 yi car


F1 et F2 sont des sev de F , puis appliquer Pythagore à
X X
IF = ωi kPF yi k2M = ωi kPF1 yi + PF2 yi k2M
i i

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 28 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 4

Espace métrique des variables

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 29 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espace métrique des variables I

La colonne j de la matrice X représente les données de la variable


X j que nous notons
 
x j = xij ∈ Rn .
i

Un choix naturel de la métrique est celle associée au produit


scalaire
0 0 0
 
ωi yij yij = cov x j , x j .
X
hy j , y j iD =
i

Ainsi,
kyj k2D = sj2

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 30 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espace métrique des variables II

0
L’angle θj,j 0 entre y j et y j est donné par
 0


0
hy j , y j iD cov x j , x j
cos θj,j 0 = j = = [R]j,j 0 .
ky kD ky j 0 kD sj sj 0

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 31 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 5

Analyse en Composante Principales

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 32 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Le problème

Obtenir une représentation du nuage des individus en le projetant


sur un sev de dimension k < p, en minimisant les déformations :

IEk = max {IE | E ⊂ Rn , dimE = k}

Definition
On appelle sous-espace principal de dimension k tout sev de dimension
k solution du problème précédent.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 33 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espaces et axes principaux I

Theorem
Soit Ek un sous-espace principal de dimension k < p. Alors tout
sous-espace principal de dimension k + 1 est sous la forme

Ek+1 = Ek ⊕ ∆uk+1 ,

où uk+1 est un vecteur M-orthogonal à Ek dont la droite engendrée


∆uk+1 est d’inertie maximale parmi toutes les droites vectorielles
M-orthogonales à Ek .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 34 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espaces et axes principaux II

Proof.
Il suffit de montrer que tout sev F de dimension k + 1 est d’inertie
IF ≤ IEk+1 . Soit donc F un sev de dimension k + 1. On a
dimEk⊥ + dimF = (p − k) + (k + 1) = p + 1, d’où Ek⊥ et F ont au
moins une direction commune 0Rp 6= u ∈ Ek⊥ ∩ F . Soit Fe un
supplémentaire de ∆u dans F : F = Fe ⊕ ∆u . Alors dimFe = k. On en
déduit IFe ≤ IEk . Par ailleurs, Iu ≤ Iuk+1 . Ainsi

IF = IFe + Iu ≤ IEk + Iuk+1 = IEk+1 .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 35 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Espaces et axes principaux III


Remarques
D’après le théorème précédent, les sous-espaces principaux Ek sont
emboîtés et peuvent être calculés de façon itérative:
I Rechercher ∆u1 tel que Iu1 = max {Iu } et poser E1 = ∆u1 ;
I Rechercher ∆u2 tel que Iu2 = max {Iu | u ⊥M E1 } et poser
E2 = E1 ⊕ ∆u2
I ···
I Rechercher ∆uk tel que Iuk = max {Iu | u ⊥M Ek−1 } et poser
Ek = Ek−1 ⊕ ∆uk

Definition (Axes principales)


Les axes ∆u1 , · · · , ∆up sont appelées axes principaux d’inertie de l’ACP.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 36 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Calcul des axes principaux I


On suppose que kuk k2M = 1 pour tout k.
Axe principal ∆u1
Supposons ku1 kM = 1. Alors

Iu1 = t u1 MVMu1 .

Pb : maxkukM =1 t uMVMu.
Lagrangien : L (u, λ) = t uMVMu − λt uMu.
∇u L (u, λ) = 0 équiv. à VMu = λu. Donc u est un vecteur
propre de VM de valeur propre λ. En multipliant membres
l’égalité précédente par t uM, on obtient λ = Iu .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 37 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Calcul des axes principaux II

u1 est un vecteur propre de VM associé à la valeur propre λ1 := Iu1


Pour maximiser Iu1 , il suffit de choisir un vecteur propre u1 associé
à la plus grande valeur propre λ1 de la matrice VM.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 38 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Calcul des axes principaux III


Theorem
1 Il existe une base M-orthonormale (u ) de vecteurs propres de la
j
matrice VM associés aux valeurs propres (réelles positives) rangées
dans l’ordre décroissant λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0.
2 Les vecteurs u engendrent respectivement las axes principaux
j
d’inertie de l’ACP et on a

Iuj = λj .

3 Pour tout k < p, le sev Ek := R {u1 , · · · , uk } est le sous-espace


principal de dimension k, et l’inertie expliqué par Ek est donné par
:
IEk = λ1 + · · · + λk .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 39 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Calcul
Proof.
des axes principaux IV
1 La matrice VM est M symétrique :

hx , VMy iM = t xMVMy = t yMVMx = hVMx ; y iM .

Par conséquent, les valeurs propres de VM sont réelles et positives,


et l’espace engendré par les colonnes de VM admet une base
M-orthonormale de vecteurs propres de VM.
2 On a vu que u1 est un vecteur propre unitaire associé à la plus
grande valeur propre λ1 de VM. Les autres axes principaux uk
sont vecteurs propres unitaires associés aux valeurs propres
t
λk = max uMVMu| kukM = 1, hu, uj iM = 0, j = 1, · · · , k − 1 .

Comme kuk kM = 1, on a Iuk = t uk MVMuk = t uk M (λk uk ) = λk .


3 Par un theo précédent, Ek = ∆u1 ⊕ · · · ⊕ ∆uk et
IEk = λ1 + · · · + λk .
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 40 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Composantes principales I

On cherche à condenser le nuage (yi , ωi )i dans des sous-espaces


principaux de dimensions réduites, dont nous connaissons déjà les
axes principaux uj .
 
Notons cij les coordonnées du nuage sur l’axe principal ∆uj :
i
X X
t
yi = hyi , uj iM · uj = yi Muj · uj ,
j j

d’où
cij = t yi Muj .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 41 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Composantes principales II

Definition (Composante principale)


Le vecteur  
c j = cij ∈ Rn = YMuj
i
est appelé j-ième composante principale.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 42 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Composantes principales III

Notons C = c 1 · · · c p , U = [u1 · · · up ]. Alors


 

C = YMU

Proposition
1 Les CP sont des combinaisons linéaires des variables de départ y j .
2 Les CP c j sont centrées, de variances λj et non-corrélées
deux-à-deux.
3 Les CP c 1 , · · · , c p sont vecteurs propres de la matrice YMt YD,
de valeurs propres associées λ1 , · · · , λp .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 43 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Composantes principales IV
Munissons l’espace des variables de la métrique D := diag (ωi )i .
Alors
0 0 0
 
hy j , y j iD = t y j Dy j = cov y j , y j

Rappelons que pour r = rg (Y) ≤ min (n, p),


λr +1 = · · · = λp = 0. Ce qui implique c r +1 = · · · = c p = 0Rn .
Pour j ≤ r , on définit
1
f j = p cj.
λj

Les f j sont D-orthonormés.


Definition (Facteurs principaux)
Les f j sont appelés facteurs principaux.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 44 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Composantes principales V
Composantes principales.
1. c j = YMu j = k Mu j k y k .
P  

2.
c = t CD1 = t UMt YD1 = t UMy = 0.

0
h  i
cov c j , c j = t
CDC = t UMt YDYMU = t UMVMU.

On a VMU = λ1 u 1 · · · λp u p = Udiag (λ1 , · · · , λp ). D’où


 

0
h  i
cov c j , c j = t UMUdiag (λj ) = Id diag (λj ) .

3. Par définition de (uj , λj ), on a VMuj = λj uj . D’où en multipliant


membre à membre par YM et en utilisant c j = YMuj , on a
YMt YDc j = λj c j

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 45 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Résumé d’une ACP normée I

Données : X et matrice des poids D


Données centrées : Y = X − 1n t x
 
Métrique de l’espace des individus : M = diag sj2

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 46 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Résumé d’une ACP normée II


Les sorties de ACP (Y, D, M)
Les valeurs propres λj de VM = t YDYM,
λ1 > λ2 > · · · > λr > 0 = λr +1 = · · · = λp , où r = rg (Y).
Les axes principaux uj , vecteurs propres associés aux λj qui
forment une base M-orthonormale de Rp :
t
YDYMuj = λj uj , t uj Muj 0 = δj,j 0 .

Les composantes principales c j = t YMuj si j ≤ r et c j = 0 si


j >r
1
Les facteurs principaux f j = p c j pour j ≤ r
λj

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 47 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Résumé d’une ACP normée III

Sous R
require(FactoMineR)
out_pca = PCA(X, scale.unit = TRUE, ncp = ncol(X))
out_pca$eig # Valeurs propres
summary(out_pca)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 48 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Résumé d’une ACP normée IV

Sous Python
import numpy as np
from sklearn.decomposition import PCA
pca = PCA(n_components = 10)
pca.fit(X)
dir(pca)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 49 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 6

ACP dans l’espace des variables

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 50 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Le problème

On s’intéresse au nuage y j dans Rn




Objectif : Trouver les sous-espaces principaux Fk qui conservent


au mieux l’information liée à l’inertie contenu dans le nuage y j j .
Les besoins :
I Les données t Y (matrice p × n)
I Une métrique sur Rn ; en général on choisit D= diag (ωi )i
I Une matrice des poids; en général M = diag s12
j

On fait alors l’ACP (t Y, M, D)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 51 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

ACP (t Y, M, D)
Proposition
1 Les valeurs propres non nulles de l’ACP (t Y, M, D) sont les
valeurs propres non nulles λ1 , · · · , λr de lACP (Y, D, M).
2 Les axes principaux de l’ACP (t Y, M, D) correspondant aux
valeurs propres λ1 , · · · , λr sont les facteurs principaux f 1 , · · · , f r
de l’ACP (Y, D, M).
Les t
√ composantes √ principales de l’ACP ( Y, M, D) sont
3

λ1 u1 , · · · , λr ur . Autrement dit, les facteurs principaux de


l’ACP (t Y, M, D) sont les axes principaux u1 , · · · , ur de
l’ACP (Y, D, M) correspondant aux valeurs propres non-nulles.

Proof.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 52 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 7

Les représentations graphiques

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 53 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus I

Rappelons qu’un des but de l’ACP est de fournir une


représentation graphique du nuage des individus dans un espace de
dimension k < p, typiquement 2 ou 3.
On sait maintenant que la “meilleure” représentation graphique,
au sens de l’inertie est donnée par la projection de nuage sur le
sous-espace principal Ek

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 54 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus II


Qualité de la représentation : Elle est mesurée par le pourcentage
d’inertie expliquée par Ek

IEk λ1 + · · · + λk
= Pp .
I j=1 λj

Plus cette quantité est proche de 1, moins le nuage projeté est


déformé.
Qualité de représentation d’un individu i

k j 2
kPEk yi k2M
P
2 j=1 (ci )
cos (yi , PEk yi ) = =
kyi k2M
Pp j 2
j=1 (ci )

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 55 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus III

L’individu est d’autant bien représenté que cette quantité est


proche de 1. Dans ce cas, les conclusions qu’on peut en tirer sont
d’autant pertinentes.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 56 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus IV


Contribution d’un individu i à un axe uk

ωi (cik )2 ωi (cik )2
=P k )2
= ωi (fi k )2 .
λk i ω i (ci

ωi (cik )2
En général, lorsque > ωi , on considère que la
λk
contribution de l’individu i est importante.
Il est conseillé de retirer les individus pour lesquels les
contributions sont trop importantes, et de les réintégrer comme
individus supplémentaires
Les “outliers” peuvent être détectés sur les boîtes à moustaches
des composantes principales c 1 , · · · , c p ou des facteurs principaux
f 1, · · · , f p .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 57 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus V

Contribution d’un individu i

Pp k 2 Pp
ωi kyi k2M ωi k=1 (ci ) ωi (c k )2
= = Pk=1 i
I I k λk

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 58 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des individus VI

Individus supplémentaires
Il s’agit des individus qui ne font pas partie de l’échantillon ayant servi
pour l’ACP, et qu’on représente sur les axes principaux.
Soit x ∈ Rp les données d’un individu supplémentaire. Ses
coordonnées dans le repère (x , u1 , · · · , up ) sont données par

hx − x , uk iM .

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 59 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des variables I


Rappelons que les axes principaux de l’espace des variables sont
les facteurs principaux f j , j = 1, · · · , r :
r r   r p
λk ukj .
X X X
PF k y j = hy j , f k iD · f k = cov y j , f k · f k =
k=1 k=1 k=1

Qualité globale de représentation sur ∆f k :


Pk
j=1 λj
Pp .
j=1 λj

Qualité de représentation d’une variable :


  kPf k y j k2D hy j , f k i2D   
cos2 y j , Pf k yi = = = cor 2
y j k
, f = cor 2
yj, c
ky j k2D sj2

car d k = √1 c k .
λk
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 60 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Représentation des variables II

Par exemple, la qualité de représentation sur le premier plan


principal F2 est
     
cos2 y j , PF2 y j = cor 2 y j , c 1 + cor 2 y j , c 2

y j est d’autant bien représentée que cos2 y j , PF2 y j est proche de




W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 61 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Cercle des corrélations I


!
1
On suppose ici que M = diag .
sj2 j

Considérons les données centrées et réduites D. Rappelons que


l’ACP (Y, D, M) correspond à ACP (Z , D, Id).
Ainsi var z j = kz j k2Id = 1, toutes les variable se trouvent sur la


sphère unité Sn de Rn .
L’intersection de cette sphère unité et le premier plan principal est
dons un cercle unité appelé cercle des corrélations
PF2 z j est un point à l’intérieur du cercle des corrélations, et la
représentation est d’autant meilleure que PF2 z j est proche du
cercle des corrélations.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 62 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Cercle des corrélations II

Note :
0
I La proximité des projections de z j et z j une forte corrélation
linéaire
I Des projections diamétralement opposés indiquent une corrélation
négative proche de −1
I Des projections presque orthogonales indiquent une faible
corrélation

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 63 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Reconstitution des données I

À partir de la décomposition des yi dans la base des vecteurs


propres u1 , · · · , up , on a
X j Xq
yi = ci uj = λj fi j uj
j j

On en déduit la formule de reconstitution:


r q
X
Y= λj f j t uj .
j=1

e k = Pk pλj f j t uj .
Pour une dimension k fixé, posons Y j=1

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 64 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Reconstitution des données II

e k de dimension n × p est de rang k.


La matrice Y
On montre que Y e k est la meilleure approximation de Y par une
matrice de rang k au sens des “moindres carrés” :
n o
e k k2 = inf kY − Tk2 | T matrice n × p de rang k
kY − Y M,D


kTv kD
 
kTkM,D := sup .
v ∈Rp kv kM

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 65 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 8

Pratique de l’ACP

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 66 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Nombre d’axes à retenir

Pb : Combien d’axes principaux retenir?


De nombreux critères du nombre k ont été proposé dont les plus
courants sont :
nP o
k
La part d’inertie : kb = arg mink j=1 λj ≥ λseuil
I

n o
La règle de Kaiser : kb = arg mink λk ≥ p1 j λj = pI
P
I

I Éboulis des valeurs propres : Sélectionner la plus grande valeur kb


avant le “coude” dans le graphique des (j, λj ) présentant la
décroissance des valeurs propres.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 67 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Interprétation I

Carte des variables ou des individus


Donner le pourcentage d’inertie expliqué par le plan et chacun des
axes
Indiquer les variables et individus mal représentés dans ce plan,
pour les exclure de la description
Utiliser les contributions :
I Des variables pour interpréter les axes en termes de variables de
départ
I Des individus pour identifier les plus influents pour l’orientation
d’un axe et ceux qui ont une contribution excessive

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 68 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Interprétation II

Pour une carte des variables : étudier les angles entre les
projections des variables en termes de covariance ou de corrélation
pour dégager éventuellement des groupes de variables.
Pour les cartes des individus : étudier les proximités ou oppositions
entre les points en termes de “comportement”, et dégager
éventuellement des groupes d’individus et les comportement
singuliers.
Faire une synthèse des informations et hypothèses principales
dégagées de la carte décrite.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 69 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Récapitulatif

Individus Variables
Espace Rp Rn
Données Y tY

Poids D = diag (ω
 i ) M
1
Métrique M = diag sj2
D
À diagonaliser VM = t YDYM YMt YD
Valeurs propres λ1 ≥ λ2 ≥ · · · ≥ λr > 0 λ1 ≥ λ2 ≥ · · · ≥ λr > 0
Axes principaux u1 , · · · , up f 1, · · · , f p
CP c j = YMuj cek = t YDf k
k
FP f 1 , · · · , f k = √cλ u1 , · · · , ur
k
2
(cik )
Contribution de yi ωi λk

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 70 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 9

Exemples

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 71 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” I

require(dplyr)
?iris
iris %>% head()

Sepal.Length Sepal.Width Petal.Length Petal.Width Species


5.1 3.5 1.4 0.2 setosa
4.9 3.0 1.4 0.2 setosa
4.7 3.2 1.3 0.2 setosa
4.6 3.1 1.5 0.2 setosa
5.0 3.6 1.4 0.2 setosa
5.4 3.9 1.7 0.4 setosa

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 72 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” II
require(FactoMineR)
require(factoextra)
acp_iris = PCA(iris, scale.unit = TRUE,
ncp = 4, quali.sup = 5, graph = FALSE)
names(acp_iris) # Le contenu

## [1] "eig" "var" "ind" "svd" "qual


as.data.frame(acp_iris$eig) # Les valeurs propres

eigenvalue percentage of variance cumulative percentage of v


comp 1 2.9184978 72.9624454 72
comp 2 0.9140305 22.8507618 95
comp 3 0.1467569 3.6689219 99
comp 4 0.0207148 0.5178709 100

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 73 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” III
# Éboulis des valeurs propres
fviz_screeplot(acp_iris, ncp = 4) + theme_bw()
Percentage of explained variances
Scree plot

60

40

20

0
1 2 3 4
Dimensions

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 74 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” IV

# Représentation des individus


fviz_pca_ind(acp_iris, geom = "point", axes = c(1, 2),
habillage = iris$Species,
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 75 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” V
Individuals − PCA

2
Dim2 (22.9%)

Groups
1
setosa
0
versicolor
−1 virginica
−2

−2 0 2
Dim1 (73%)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 76 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” VI

# Représentation des variables


plot.PCA(acp_iris, choix = "var")

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 77 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” VII
PCA graph of variables

Dim 2 (22.85%)
1.0 Sepal.Width

0.5 Sepal.Length
Petal.Width
0.0
Petal.Length

−0.5

−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (72.96%)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 78 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” VIII

Détection des "outliers"


boxplot.matrix(acp_iris$ind$coord)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 79 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” IX

3
−3 0

Dim.1 Dim.3

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 80 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” X
b = boxplot(acp_iris$ind$coord[, 2])

1
−2

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 81 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XI

i_outliers = as.numeric(names(b$out))

acp_iris2 = PCA(iris, scale.unit = TRUE, ind.sup = i_outlier


ncp = 4, quali.sup = 5, graph = FALSE)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 82 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XII

# Représentation des individus


fviz_pca_ind(acp_iris2, geom = "point", axes = c(1, 2),
habillage = iris$Species[-i_outliers],
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 83 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XIII
Individuals − PCA
3

2
Groups
Dim2 (21%)

1
setosa
0
versicolor
−1 virginica
−2

−3
−2 0 2
Dim1 (74.6%)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 84 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XIV

# Représentation des variables


plot.PCA(acp_iris2, choix = "var") #ou

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 85 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XV
PCA graph of variables

Dim 2 (20.98%)
1.0
Sepal.Width
0.5 Sepal.Length
Petal.Width
0.0
Petal.Length

−0.5

−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (74.64%)

#fviz_pca_var(acp_iris, col.var="steelblue")+theme_minimal()

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 86 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XVI

# Biplot
fviz_pca_biplot(acp_iris2, label = "var", axes = c(1, 2),
habillage = iris$Species[-i_outliers],
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 87 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“iris” XVII
PCA − Biplot
Sepal.Width 132
3 16 118

2
Sepal.Length
Groups
Dim2 (21%)

1
Petal.Width
Petal.Length setosa
0 versicolor

−1 virginica

−2
61
−3
−2 0 2
Dim1 (74.6%)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 88 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” I

Il s’agit d’un jeu de données décrivant les scores des 10 épreuves du


décathlon de n = 41 athlètes. En plus de ces p = 10 scores, on a aussi
le total des points, le rank et la compétition. Nous souhaitons
découvrir les relations entres les scores des différentes épreuves.
require(FactoMineR)
require(factoextra)
require(dplyr)
data("decathlon")
dim(decathlon)
names(decathlon)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 89 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” II

L’ACP
fit_acp = PCA(decathelon, scale.unit = TRUE,
ncp = 5, quanti.sup = 11:12,
quali.sup = 13, graph = FALSE)
names(fit_acp) # Le contenu
fit_acp$eig # Les valeurs propres

# Éboulis des valeurs propres


fviz_screeplot(fit_acp, ncp = 10) + theme_bw()

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 90 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” III

Représentations graphiques

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 91 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

“decathlon” IV
# Représentation des individus
fviz_pca_ind(fit_acp, geom = "text", axes = c(1, 2),
habillage = decathlon$Competition,
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()

# Représentation des individus


fviz_pca_var(fit_acp, col.var="steelblue")+
theme_minimal()

# Biplot
fviz_pca_biplot(fit_acp, label = "var",
habillage = decathlon$Competition,
addEllipses = TRUE,
ellipse.level = 0.95) + theme_classic()
W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 92 / 94
Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Section 10

Références

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 93 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Biblio

Practical Guide To Principal Component Methods in R


(Kassambara 2017)

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 94 / 94


Introduction Notions de base Espace métrique des individus et inerties Espace métrique des variables Analyse en Composante

Références

Cornillon, Pierre-André, Arnaud Guyader, François Husson, Nicolas


Jégou, Julie Josse, Maela Kloareg, Eric Matzner-Løber, and Laurent
Rouviere. 2008. Statistique avec R. Presses Universitaires de Rennes.
https://hal.archives-ouvertes.fr/hal-00382106.
Kassambara, Alboukadel. 2017. Practical Guide to Principal
Component Methods in R: PCA, M (ca), Famd, Mfa, Hcpc, Factoextra.
Vol. 2. STHDA.

W. Toussile wilson.toussile@gmail.com (ENSP) Data Mining 20/07/2020 95 / 94

S-ar putea să vă placă și