Sunteți pe pagina 1din 72

Analyse en Composantes Principales (ACP)

Principes et pratique de lACP

Ricco RAKOTOMALALA
Universit Lumire Lyon 2

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

PLAN
1.

Position du problme

2.

ACP : calculs via la diagonalisation de la matrice des corrlations

3.

ACP : calculs via la dcomposition en valeurs singulires

4.

Pratique de lACP

5.

Rotation des axes pour une meilleure interprtation

6.

Les logiciels (SPAD, SAS, Tanagra et R)

7.

Plus loin (1) avec lACP : techniques de r-chantillonnage

8.

Plus loin (2) : test de sphricit et indice(s) MSA

9.

Plus loin (3) : ACP sur les corrlations partielles, gestion de leffet taille

10. Plus loin (4) : analyse en facteurs principaux


11. Bibliographie

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Construire un nouveau systme de reprsentation


(composantes principales, axes factoriels, facteurs : combinaisons linaires des variables originelles)
qui permet synthtiser linformation

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Analyser un tableau de donnes Variables toutes quantitatives

j : 1,, p

Les donnes autos


(Saporta, 2006 ; page 428)

i : 1,, n
Individus actifs

Modele
CYL
Alfasud TI
Audi 100
Simca 1300
Citroen GS Club
Fiat 132
Lancia Beta
Peugeot 504
Renault 16 TL
Renault 30
Toyota Corolla
Alfetta 1.66
Princess 1800
Datsun 200L
Taunus 2000
Rancho
Mazda 9295
Opel Rekord
Lada 1300

PUISS
1350
1588
1294
1222
1585
1297
1796
1565
2664
1166
1570
1798
1998
1993
1442
1769
1979
1294

Variables actives quantitatives


c.--d. seront utilises pour la
construction des facteurs
LONG

79
85
68
59
98
82
79
55
128
55
109
82
115
98
80
83
100
68

xij

LARG
393
468
424
412
439
429
449
424
452
399
428
445
469
438
431
440
459
404

POIDS
161
177
168
161
164
169
169
163
173
157
162
172
169
170
166
165
173
161

V.MAX
870
1110
1050
930
1105
1080
1160
1010
1320
815
1060
1160
1370
1080
1129
1095
1120
955

165
160
152
151
165
160
154
140
180
140
175
158
160
167
144
165
173
140

Questions :

(1) Quelles sont les vhicules qui se ressemblent ? (proximit entre les individus)
(2) Sur quelles variables sont fondes les ressemblances / dissemblances
(3) Quelles sont les relations entre les variables

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Position du problme (1)


Analyse des proximits entre les individus

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Positionnement des individus (2 variables)

Que voit-on dans ce graphique ?


1.

Les variables CYL et PUISS sont lies.

2.

Opel Reckord et Taunus 2000 (Ford)

CYL x PUIS

ont le mme profil (caractristiques)


120

3.

Renault 30

Renault 30 et Toyota Corolla ont des

Datsun 200L

profils opposs

PUISS
1166
1222
1294
1294
1297
1350
1442
1565
1570
1585
1588
1769
1796
1798
1979
1993
1998
2664

55
59
68
68
82
79
80
55
109
98
85
83
79
82
100
98
115
128

100

Modele
CYL
Toyota Corolla
Citroen GS Club
Simca 1300
Lada 1300
Lancia Beta
Alfasud TI
Rancho
Renault 16 TL
Alfetta 1.66
Fiat 132
Audi 100
Mazda 9295
Peugeot 504
Princess 1800
Opel Rekord
Taunus 2000
Datsun 200L
Renault 30

Fiat 132

Audi 100
Mazda 9295
Lancia Beta
Princess
1800
Rancho
Peugeot 504
Alfasud TI

Opel Rekord
Taunus 2000

Simca
Lada 1300
1300

60

prsentes dans le tableau de donnes !

PUISS

Un graphique ne fait que rvler des informations

80

Alfetta 1.66

Citroen GS Club
Toyota Corolla Renault 16 TL

1000

1500

2000

2500

3000

CYL

Que faire si on veut prendre en compte

(p > 2) variables simultanment ?

Tableau tri selon CYL


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Positionnement des individus (p >2)

100

160

175

140

CYL
100

Impossible de crer un nuage p dimensions.

170
1500 2500

60

On pourrait croiser les variables 2 2, mais :


1.

Trs difficile de surveiller plusieurs cadrans


en mme temps.

PUISS

Etiqueter les points rendrait le tout illisible.

460

60

2.

175

400

LONG

Ce type de reprsentation nest utile que pour


1200

160

LARG

points atypiques.

170

800

POIDS

effectuer un diagnostic rapide et reprer les

140

V.MAX

Ex. Renault 30 : le plus gros moteur, la plus


puissante, une des plus lourdes, la plus rapide.

1500 2500

400 440

800

1200

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Positionnement des individus Principe de lACP (1) Notion dinertie


Principe : Construire un systme de reprsentation de
dimension rduite (q << p) qui prserve les distances

Distance euclidienne

entre les individus. On peut la voir comme une

entre 2 individus (i, i)

d (i, i ' ) xij xi ' j


p

j 1

compression avec perte (contrle) de linformation.


Un critre global : distance entre lensemble des individus pris 2

1
Ip 2
2n

2, inertie du nuage de points dans lespace originel. Elle traduit la


quantit dinformation disponible.
Autre criture de linertie : cart par rapport au barycentre G (vecteur
constitu des moyennes des p variables)

(i, i' )

i 1 i '1

1 n 2
I p d (i, G )
n i 1

60

multidimensionnelle (calcule sur p dimensions)

80

barycentre, cest une variance

PUISS

Linertie indique la dispersion autour du

100

120

CYL x PUIS

1000

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

1500

2000
CYL

2500

3000

Positionnement des individus Principe de lACP (1) Rgression orthogonale


Habituellement on (a) centre et (b) rduit les variables. On
parle dACP norme.

zij

(a) Pour que G soit situ lorigine [obligatoire]

(b) Pour rendre comparables les variables exprimes sur des

xij x j

xj

1 n
xij
n i 1

sj

s 2j

1 n
2
xij x j
n i 1

chelles (units) diffrentes [non obligatoire]


Cas particulier de 2 variables c.r.
(Ip = p =2)
CYL x PUIS

F2

lcartement global des points par rapport lorigine :

1 n 2
1 Fi1 1.796628
n i 1

F1
89.83%

10.17%

(1) Trouver la premire composante F1 qui maximise

Minimisation

est la part dinertie explique par le 1er axe


factoriel (ou 1re composante)

(2) Trouver la 2nde composante F2 qui traite linertie nonexplique (rsiduelle) par F1 (par consquent, F2 est non

corrle avec F1)

-1

PUISS.CR

Ip

89.83%

-3

-2

1 n 2
2 Fi 2 0.203372
n i 1
-3

-2

-1

CYL.CR

(3) Et bien videmment :

k 1

Maximisation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

10.17%
I

1.797 0.203 2 I p

Les inerties expliques sadditionnent. Prendre tous les p facteurs


possibles permet de rcuprer toute linformation disponible !

Prservation des

(1) Les proximits entre individus sont prserves si on prend un nombre q de

proximits dans le repre


rduit

composantes suffisamment reprsentatives (en terme de % dinertie exprime)


(2) Si on prend les p facteurs, on retrouve les distances dans le repre originel

Distances dans le repre originel

Si on ne tient compte que de la 1re

(variables centres et rduites)

composante (1 = 89.83%), les distances


sont approximes. On constate

d 2 (1,2) (1.2814 (1.1273)) 2 (1.4953 (1.2933)) 2


0.06455

nanmoins que les proximits sont


assez bien respectes (globalement).

d 2 (2,6) 1.14415
d 2 (1,6) 1.72529
Modele

d 2F1 (1,2) (1.9335 1.7117) 2


0.06340
CYL

PUISS

Modele

F1 (89.83%) F2 (10.17%)

1
2
3

Toyota Corolla
Citroen GS Club
Simca 1300

-1.2814
-1.1273
-0.9292

-1.4953
-1.2933
-0.8389

1
2
3

Toyota Corolla
Citroen GS Club
Simca 1300

1.9635
1.7117
1.2502

0.1513
0.1174
-0.0639

4
5
6
7
8

Lada 1300
Lancia Beta
Alfasud TI
Rancho
Renault 16 TL

-0.9292
-0.9209
-0.7751
-0.5219
-0.1835

-0.8389
-0.1319
-0.2834
-0.2329
-1.4953

4
5
6
7
8

Lada 1300
Lancia Beta
Alfasud TI
Rancho
Renault 16 TL

1.2502
0.7444
0.7484
0.5337
1.1871

-0.0639
-0.5580
-0.3477
-0.2044
0.9276

9
10

Alfetta 1.66
Fiat 132

-0.1697
-0.1284

1.2316
0.6761

9
10

Alfetta 1.66
Fiat 132

-0.7509
-0.3873

-0.9909
-0.5689

11
12
13
14
15
16

Audi 100
Mazda 9295
Peugeot 504
Princess 1800
Opel Rekord
Taunus 2000

-0.1202
0.3779
0.4522
0.4577
0.9558
0.9943

0.0196
-0.0814
-0.2834
-0.1319
0.7771
0.6761

11
12
13
14
15
16

Audi 100
Mazda 9295
Peugeot 504
Princess 1800
Opel Rekord
Taunus 2000

0.0711
-0.2097
-0.1194
-0.2304
-1.2254
-1.1812

-0.0989
0.3248
0.5201
0.4169
0.1263
0.2250

17
18

Datsun 200L
Renault 30

1.0081
2.8408

1.5346
2.1911

17
18

Datsun 200L
Renault 30

-1.7980
-3.5581

-0.3723
0.4594

Donnes centres et rduites

Coordonnes dans
le repre factoriel

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

d 2F1 (2,6) 0.92783


d 2F1 (1,6) 1.147632

Si on tient compte des 2 composantes,


on retrouve les distances exactes entre
les individus.
d 2F1 , F2 (1,2) (1.9635 1.7117) 2 (0.1513 0.1174) 2
0.06455
d 2F1 , F2 (2,6) 1.14415
d 2F1 , F2 (1,6) 1.72529

Une des questions cls de lACP est


de dfinir le nombre de composantes
q retenir pour obtenir une

approximation suffisamment
satisfaisante !!!

10

Position du problme (2)


Analyse des relations entre les variables

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

11

Relations entres variables Principe de lACP (2) Matrice des corrlations


1 n
xij x j xim xm
n i 1
rjm
s j sm
170

100

CYL

460

60

PUISS
LONG
LARG
POIDS
V.MAX

140

dans les graphiques croiss des variables

140

800

Elle traduit numriquement ce que lon peut observer

175

175

1
0.797
0.701
0.630
0.789
0.665

PUISS LONG LARG POIDS V.MAX


0.797 0.701 0.630 0.789 0.665
1 0.641 0.521 0.765 0.844
0.641
1 0.849 0.868 0.476
0.521 0.849
1 0.717 0.473
0.765 0.868 0.717
1 0.478
0.844 0.476 0.473 0.478
1

160

sur les donnes autos

CYL

160

170

Matrice des corrlations R

CORR
CYL
PUISS
LONG
LARG
POIDS
V.MAX

100

1500 2500

60

400

entre deux variables Xj et Xm

1200

Le coefficient de corrlation mesure la liaison (linaire)

1500 2500

400 440

800

1200

POIDS

CYL

PUISS

LONG

LARG

V.MAX

POIDS

1.000

0.789

0.765

0.868

0.717

0.478

CYL

0.789

1.000

0.797

0.701

0.630

0.665

On peut essayer de la rorganiser manuellement pour

PUISS

0.765

0.797

1.000

0.641

0.521

0.844

mieux faire apparatre les blocs de variables mais.

LONG

0.868

0.701

0.641

1.000

0.849

0.476

LARG

0.717

0.630

0.521

0.849

1.000

0.473

V.MAX

0.478

0.665

0.844

0.476

0.473

1.000

(1) Ce ne sera jamais parfait


(2) La manipulation est inextricable ds que le nombre de variables est lev
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

12

Relations entres variables Principe de lACP (2) Construction des composantes

1 rj2 ( F1 )

Construire la premire composante F1 qui permet de maximiser le


carr de sa corrlation avec les variables de la base de donnes

j 1

Habituellement, Inertie totale = Somme des variances des variables

Ip p

Lorsque les donnes sont rduites (ACP norme), Inertie totale = Trace(R) = p

Part dinertie explique par F1 =

1
p
p

De nouveau, on observe la dcomposition de linformation en composantes

k 1

non corrles (orthogonales)

Axis

Exemple de traitement pour les p = 6


variables de la base de donnes

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Eigen value Proportion (%) Cumulative (%)

4.421

73.68%

73.68%

0.856

14.27%

87.95%

0.373

6.22%

94.17%

0.214

3.57%

97.73%

0.093

1.55%

99.28%

0.043

0.72%

100.00%

Tot.

13

PCA_1_Axis_2

Relations entres variables Principe de lACP (2) Approximation des corrlations


ACP sur les p = 6 variables,

Liaison de la variable poids avec le 1er axe

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)

cercle des0.9corrlations.

rpoids( F1 ) 0.905

0.8
0.7

2
rpoids
( F1 ) 0.819

et

0.6
0.5

LARG
LONG

0.4
14%
0.3

La reprsentation de la variable nest pas

POIDS

complte, on a besoin dun second facteur F2

0.2
0.1
0

rpoids( F2 ) 0.225

CYL

-0.1
-0.2
-0.3

et

2
rpoids
( F2 ) 0.050

PUISS

-0.4
-0.5

V.M AX

Si on exploite tous les p facteurs

-0.6
-0.7

-0.8
-0.9
-1

k 1

-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PCA_1_Axis_1

74%

2
poids

( Fk ) 0.819 0.050 1

Approximation assez bonne parce que POIDS et

LACP produit aussi une


approximation dans lespace des

variables (approximation des


corrlations)

rpoids,cyl 0.789

CYL sont bien reprsentes sur le 1er facteur

q 1

rpoids,cyl ( F1 ) rpoids( Fk ) rcyl ( Fk ) 0.90519 0.89346 0.809


k 1

[Ex. si on ne prend en compte

rpoids,v.max 0.478

que q = 1 facteur]

rpoids,v.max ( F1 ) 0.90519 0.75471 0.683


Approximation mauvaise parce que V.MAX est mal reprsente sur

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

le premier facteur [(0.75471)=57% de linformation seulement]

14

Les mains dans le cambouis : comment sont obtenus les rsultats de lACP ?

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

15

Objectif des calculs


Construire un ensemble de composantes (F1, F2, , Fk,), combinaisons linaires des
variables originelles (centres et rduites), dont on peut apprcier la qualit de restitution de
linformation travers linertie reproduite (k)

F1 a11z1 a21z 2 a p1 z p (1 )

Fk a1k z1 a2 k z2 a pk z p (k )

Fp a1 p z1 a2 p z2 a pp z p ( p )

Comment obtenir les coefficients


ajk partir des donnes ?

Qui permettent de calculer les coordonnes des

Que lon interprtera en calculant leur corrlations

individus dans le repre factoriel, et de juger de

(et autres indicateurs drivs : CTR et COS)

leur proximit dans les diffrents plans factoriels

avec les variables originelles (X1, X2, , Xp)

Fik a1k zi1 a2k zi 2 a pk zip


Valeur de la variable Z2 (X2 aprs centrage et
rduction) pour lindividu ni

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

rx j ( Fk )
Plus la corrlation est leve en valeur absolue, plus forte
est linfluence de la variable sur le facteur

16

Calcul via la diagonalisation de la matrice des corrlations


Calcul uniquement dans lespace des variables,
mais rsultats disponibles pour les deux points de vue (individus et variables)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

17

#chargement du fichier de donnes


autos <- read.table(file="autos.txt",sep="\t",row.names=1,header=T,dec=".")
#calcul de la matrice des corrlations
autos.cor <- cor(autos)
print(autos.cor)

#trace de la matrice = inertie totale


print(sum(diag(autos.cor)))

Valeurs propres = k

#diagonalisation avec la fonction eigen


autos.eigen <- eigen(autos.cor)
print(autos.eigen)
#calcul des corrlations des variables avec les composantes
cor.factors <- NULL
for (j in 1:ncol(autos)){
rf <- sqrt(autos.eigen$values[j])*autos.eigen$vectors[,j]
cor.factors <- cbind(cor.factors,rf)
}

Vecteurs propres = ajk

rownames(cor.factors) <- colnames(autos)


colnames(cor.factors) <- paste("F",1:ncol(autos),sep="")

Corrlations
#affichage des 2 premires composantes seulement

variables x facteurs

print(cor.factors[,1:2])

rx j ( Fk ) k a jk

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

18

Calcul via la dcomposition en valeurs singulires de la matrice des


donnes centres et rduites
Montre bien le caractre dual de lanalyse

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

19

On obtient les coordonnes

zij

factorielles des individus avec

Fik k uik

#affichage des 3 premires obs. de Z


print(head(autos.cr,3))
#dcomposition en valeurs singulires

svd.autos <- svd(autos.cr)


print(svd.autos,digits=3)
#calcul des inerties associes aux composantes
print(svd.autos$d^2/nrow(autos))

Principe de la SVD

Z UV T

avec

Z vk k u k

Z T u k k vk

V correspond aux vecteurs propres c.--d. les coef. ajk

Calcul des inerties :

k2
n

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

20

Que lire et comment lire les rsultats de lACP ?

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

21

Dtermination du nombre de composantes retenir

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

22

Valeurs propres et dtection empirique du nombre q de facteurs retenir


(1) Tableau des valeurs propres
Axis

Eigen value

Difference

Proportion (%) Cumulative (%)

4.420858

3.564796

73.68%

73.68%

0.856062

0.482996

14.27%

87.95%

0.373066

0.159144

6.22%

94.17%

0.213922

0.121121

3.57%

97.73%

0.092801

0.049511

1.55%

99.28%

0.04329

0.72%

100.00%

Tot.

Indications : (1) sur limportance des composantes, (2) sur


lvolution de limportance cumule, (3) sur la qualit de
linformation restitue par les q premiers facteurs.

(2) Eboulis des valeurs propres : scree plot


Rgle du coude de Cattell, ngliger les composantes qui

Scree plot

emmnent peu dinformations additionnelles. Trs


performante lorsquil y a des blocs de variables. Fournit

surtout des scnarios de solutions.


3

Problme : Intgrer le coude dans la slection ? Ici, q = 2 ou


q = 1 ? Tout dpend de la valeur propre associe au coude, si

elle est faible, il faut exclure la composante associe.


1

Mais, en pratique, (a) il faut au moins q = 2 afin de


0
1

Component

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

pouvoir raliser les reprsentations graphiques; (b) il faut


aussi pouvoir interprter les composantes.
23

Valeurs propres et dtection numrique du nombre q de facteurs retenir (ACP norme) [1]

Rgle de Kaiser-Guttman : si les variables sont


indpendantes deux deux, les valeurs propres k

seraient toutes gales 1.


Remarque 1 : cette rgle ne tient pas compte du tout
des caractristiques des donnes.

Axis

Eigen value

Difference

Proportion (%) Cumulative (%)

4.420858

3.564796

73.68%

73.68%

0.856062

0.482996

14.27%

87.95%

0.373066

0.159144

6.22%

94.17%

0.213922

0.121121

3.57%

97.73%

0.092801

0.049511

1.55%

99.28%

0.04329

0.72%

100.00%

Tot.

Remarque 2 : On peut aussi voir le seuil 1


comme la moyenne des valeurs propres.

Rgle de Karlis-Saporta-Spinaki : rendre la rgle


plus stricte en tenant compte des caractristiques

seuil 1 2

p 1
6 1
1 2
2.08465
n 1
18 1

(n et p) des donnes.
Axis

p 1
1 2
n 1
A droite, nous avons 2 x cart-type des
v.p. sous H0 un test unilatral 5%
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Eigen value

Difference

Proportion (%) Cumulative (%)

4.420858

3.564796

73.68%

73.68%

0.856062

0.482996

14.27%

87.95%

0.373066

0.159144

6.22%

94.17%

0.213922

0.121121

3.57%

97.73%

0.092801

0.049511

1.55%

99.28%

0.04329

0.72%

100.00%

Tot.

24

Valeurs propres et dtection numrique du nombre q de facteurs retenir (ACP norme) [2]

Test des btons briss de Frontier (1976) et


Legendre-Legendre (1983) : si linertie tait rpartie
alatoirement sur les axes, la distribution des v.p.
suivrait la loi des btons briss .

1 1 1 1 1 1
b1 2.45
1 2 3 4 5 6
Eigenvalues - Significance

Problme : les tables sont rarement accessibles.

Heureusement les valeurs critiques 5% peuvent


tre obtenues trs facilement.
p

1
bk
mk m
La composante est valide si :

k bk

Broken-stick

Axis

Eigenvalue

4.420858

2.45

0.856062

1.45

0.373066

0.95

0.213922

0.616667

0.092801

0.366667

0.04329

0.166667

critical values

1 1 1 1
b3 0.95
3 4 5 6

Toutes les approches sont cohrentes : q = 1 seul facteur semble suffire dans cette tude. Par
commodit (hum, pas si sr, cf. interprtation et rotation des axes), on en choisira q = 2.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

25

Caractrisation des composantes par les variables


Analyse des relations entre les variables via les composantes

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

26

Caractrisation des facteurs laide des variables Cercle des corrlations


Contributions : influence de la variable dans

Cosinus carr : qualit de

la dfinition de la composante (rarement

Corrlation : degr de liaison de

la variable avec la composante

rx2j ( Fk ) k
j 1

Corr.

variable sur la composante.


On peut la cumuler sur les

j 1

Axis_1

reprsentation de la

fournie car redondante avec CORR et COS)


rx2j ( Fk ) p
CTR jk
; CTR jk 1

q premires composantes.

Axis_2

CTR (%)

COS (%)

Corr.

CTR (%)

COS (%)

POIDS

0.905

19%

82 % (82 %)

0.225

6%

5 % (87 %)

CYL

0.893

18%

80 % (80 %)

-0.115

2%

1 % (81 %)

PUISS

0.887

18%

79 % (79 %)

-0.385

17%

15 % (93 %)

LONG

0.886

18%

79 % (79 %)

0.381

17%

15 % (93 %)

LARG

0.814

15%

66 % (66 %)

0.413

20%

17 % (83 %)

V.MAX

0.755

13%

57 % (57 %)

-0.574

38%

33 % (90 %)

74 % (74 %)

0.85606

Var. Expl.

4.42086

COS 2jk rx2j ( Fk )


q

COS 2jq COS 2jk


k 1

COS
k 1

2
jk

14 % (88 %)

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)


1
0.9
0.8
0.7
0.6
0.5

cercle des corrlations


pour obtenir une vision

PCA_1_Axis_2

On utilise souvent le

0.4

LARG
LONG

0.3

POIDS

0.2
0
-0.1

effet taille marqu, que lon


peut lier lencombrement /

0.1

CYL

gamme des vhicules ; mais

-0.2
-0.3

synthtique immdiate.

On observe (axe 1 : 74%) un

aussi (axe 2 : 14%), une

PUISS

-0.4
-0.5

caractrisation par les

V.M AX

-0.6

performances (sportivit).

-0.7
-0.8
-0.9
-1
-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Ricco Rakotomalala
PCA_1_Axis_1
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

27

Reconstitution des corrlations Corrlation reproduite et rsiduelle

A nombre de composantes fix, on peut

comparer les corrlations brutes calcules


(en bleu) sur les donnes originelles, et
celles estimes partir du repre factoriel
(en vert). Nous avons choisi q = 2 pour les

donnes AUTOS .
Entre parenthses la diffrence entre les
corrlations.

Lapproximation sera dautant meilleure que


les variables sont bien reprsentes dans le
repre slectionn.
COS des variables cumul pour les 2 premires composantes
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

28

Caractrisation des composantes par les individus


Analyse des proximits entre individus via leurs coordonnes factorielles

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

29

N.B.

1 n 2
1 n p 2 1 n 2
I p d (i, G ) zij d i
n i 1
n i 1 j 1
n i 1

Caractrisation des facteurs


laide des individus Coordonnes,
contributions et cos

originel variables c.r.). Cest le carr de la distance lorigine.

(1) Coordonne factorielle de lindividu

(4) Les cos s additionnent.

Fik (permet de situer le positionnement

Qualit des reprsentations sur

relatif des observations).

les q = 2 premiers facteurs.

Axe 1

Lecture : Les vhicules se

caractrisent par lencombrement


(axe 1, illustrs par les vhicules
{9, 10, 13}) et la performance
(axe 2, avec surtout {1, 2, 11}).

Remarque : {6, 16 et 5} sont mal


reprsents sur les q = 2
premires composantes parce
quils ne se distinguent ni par l
encombrement (proche de la
moyenne) ni par la performance
(se situent dans la moyenne).

di indique la part de lindividu dans linertie totale (dans lespace

N Modele
1 Alfasud TI

Axe 2

Coord.

CTR

Cos

Coord.

CTR

Cos

SUM(COS)

-2.139

6%

56%

-1.786

21%

39%

94%

Audi 100

1.561

3%

37%

1.527

15%

35%

71%

Simca 1300

-1.119

2%

58%

0.675

3%

21%

79%

Citroen GS Club

-2.574

8%

98%

-0.113

0%

0%

98%

5
6

Fiat 132

0.428
-0.304

0%
0%

16%
8%

-0.696
0.196

3%
0%

41%
3%

57%
12%

7
8

Peugeot 504
Renault 16 TL

0.684
-1.948

1%
5%

31%
67%

0.933
0.980

6%
6%

58%
17%

88%
84%

Renault 30

4.410

24%

89%

-1.064

7%

5%

94%

10 Toyota Corolla
11 Alfetta 1.66

-3.986

20%

98%

-0.236

0%

0%

98%

0.438

0%

4%

-1.912

24%

82%

86%

12 Princess 1800
13 Datsun 200L
14 Taunus 2000

1.018
2.941

1%
11%

53%
78%

0.842
0.559

5%
2%

36%
3%

89%
81%

1.315

2%

70%

-0.487

2%

10%

80%

15 Rancho
16 Mazda 9295

-0.691

1%

24%

0.898

5%

41%

65%

0.386

0%

22%

-0.356

1%

19%

40%

17 Opel Rekord
18 Lada 1300

2.290
-2.709

7%
9%

86%
93%

-0.104
0.144

0%
0%

0%
0%

86%
93%

Lancia Beta

(2) Contribution : indique linfluence de


lindividu dans la dfinition du facteur

CTRik

2
ik

F
; CTRik 1
n k i 1

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

(3) Cos : indique la qualit de la


reprsentation de lindividu sur le facteur
(fraction de son inertie restitue par le
facteur)

COSik2

Fik2 p
; COSik2 1
2
d i j 1
30

Reprsentation graphique des plans factoriels

Premier plan factoriel

Ce graphique fait en trs grande partie la


popularit de lACP. On peut y juger
4

visuellement des proximits

Renault 16 TLRancho Peugeot


504
Princess
1800
Simca 1300
Lada 1300
Citroen GS Club
Toyota Corolla

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)


1

Datsun 200L

Lancia Beta

Opel Rekord
Mazda 9295
Taunus 2000
Fiat 132
Renault 30

Alfasud TI

-2

temps le cercle des corrlations.

Audi 100

proximits en considrant dans le mme

Comp.2 (14%)

Et on peut comprendre le pourquoi des

(dissemblances) entre les individus.

Alfetta 1.66

0.9
0.8
0.6

PCA_1_Axis_2

0.5
0.4

LARG
LONG

0.3

POIDS

-4

0.7

0.2
0.1
0
-0.1

CYL

-4

-2

-0.2
-0.3

Comp.1 (74%)

PUISS

-0.4
-0.5

V.M AX

-0.6
-0.7

Remarque : certains proposent de mler les deux reprsentations

-0.8
-0.9

dans un graphique dit biplot . Attention, les proximits individus-

-1
-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PCA_1_Axis_1

variables nont pas vraiment de sens. Ce sont les directions qui


importent dans ce cas.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

31

Variables illustratives
Renforcer linterprtation des composantes

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

32

Variables illustratives
Var. illustrative qualitative

Variables non utilises pour la construction des


composantes. Mais utilises aprs coup pour
mieux comprendre / commenter les rsultats.
Ex. Les caractristiques intrinsques des
vhicules sont les variables actives (largeur,
poids, puissance, etc.). En illustratives, on
utilise des variables introduisant des
considrations subjectives (prix, gamme) ou
calcules aprs coup pour une meilleure
interprtation (rapport poids/puissance).

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Modele
Alfasud TI
Audi 100
Simca 1300
Citroen GS Club
Fiat 132
Lancia Beta
Peugeot 504
Renault 16 TL
Renault 30
Toyota Corolla
Alfetta-1.66
Princess-1800
Datsun-200L
Taunus-2000
Rancho
Mazda-9295
Opel-Rekord
Lada-1300

FINITION
2_B
3_TB
1_M
1_M
2_B
3_TB
2_B
2_B
3_TB
1_M
3_TB
2_B
3_TB
2_B
3_TB
1_M
2_B
1_M

Var. illustratives quantitatives

PRIX
R.POID.PUIS
30570
11.01
39990
13.06
29600
15.44
28250
15.76
34900
11.28
35480
13.17
32300
14.68
32000
18.36
47700
10.31
26540
14.82
42395
9.72
33990
14.15
43980
11.91
35010
11.02
39450
14.11
27900
13.19
32700
11.20
22100
14.04

33

Variables illustratives quantitatives

1 n
1 n
Fik yi y
yi y Fik Fk n
n i 1
i 1
ry ( Fk )

s y sFk
s y k

Calculer les corrlations des variables supplmentaires

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)


1

avec les facteurs. c.--d. calculer le coefficient de

0.9

corrlation entre les coordonnes des n individus

0.8

sur les facteurs et les valeurs prises par la variable

0.6

des corrlations.
CORR
PRIX
R.POID.PUIS

Comp.1
0.772
-0.589

Comp.2
-0.087
0.673

PCA_1_Axis_2

illustrative. Il est possible de les placer dans le cercle

0.7

R.Poid.Puis

0.5
0.4

LARG
LONG

0.3

POIDS

0.2
0.1
0

Prix CYL

-0.1
-0.2
-0.3

PUISS

-0.4

Tester la significativit du lien avec la statistique

-0.5

base sur la transformation de Fisher

-0.7

V.M AX

-0.6
-0.8

Lien significatif (~) 5% si

1 1 r
u y n 3 ln

2 1 r
SIGNIF.
PRIX
R.POID.PUIS

-0.9
-1

uy 2

Comp.1
3.975
-2.619

Comp.2
-0.337
3.158

-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PCA_1_Axis_1

Le rapport poids/puissance nest pas li positivement


avec le poids parce que les voitures lourdes sont

comparativement plus puissantes.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

34

gk

1
ng

i: yi g

Variables illustratives qualitatives

ik
FINITION
1_M
2_B
3_TB

Comp.1
Comp.2
Moyenne Valeur.Test Moyenne Valeur.Test
-2.0004
-2.43
0.0226
0.06
0.2353
0.37
-0.0453
-0.16
1.3924
1.93
0.0340
0.11

n_g
5
7
6

Premier plan factoriel

Comparer les moyennes des composantes

conditionnellement aux groupes dfinis par les


4

modalits de la variable illustrative qualitative.


Possibilit de tester la significativit de lcart par

n ng
n 1

2
Fk

ng

n ng
n 1

Ecart significatif (~) 5% si

k
ng

VTgk 2

gk 0

Renault 16 TLRancho Peugeot


504
Princess
1800
Simca 1300
Lada 1300
M
Citroen GS Club
Toyota Corolla

Datsun 200L

Lancia Beta

TBOpel Rekord
Mazda
B9295
Taunus 2000
Fiat 132
Renault 30

Alfasud TI

-2

VTgk

gk Fk

Audi 100

-4

avec la valeur test (Morineau, 1984).

Comp.2 (14%)

rapport lorigine (moyenne des composantes = 0)

Alfetta 1.66

Conclusion : La finition progresse avec la


gamme / encombrement , elle na
aucun lien avec la sportivit .
-4

Remarque : On pourrait galement sappuyer sur

-2

Comp.1 (74%)

lANOVA pour comparer les moyennes, et/ou


calculer le rapport de corrlation.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

35

Individus illustratifs (supplmentaires)


Positionner de nouveaux individus

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

36

Pourquoi des individus illustratifs (supplmentaires) ?

Plusieurs raisons possibles :


1. Des individus collects aprs coup que lon aimerait situer par rapport ceux
de lchantillon dapprentissage (les individus actifs).
2. Des individus appartenant une population diffrente (ou spcifique) que lon
souhaite positionner.
3. Des observations savrant atypiques ou trop influentes dans lACP que lon

a prfr carter. On veut maintenant pouvoir juger de leur positionnement


par rapport aux individus actifs.

Modele
CYL
Peugeot 604
Peugeot 304 S

PUISS
2664
1288

LONG
136
74

LARG
472
414

POIDS
177
157

V.MAX
1410
915

180
160

Plutt cas n2 ici, on souhaite situer 2 Peugeot supplmentaires


(mme sil y a dj la Peugeot 504 parmi les individus actifs).

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

37

Calculs pour les individus illustratifs

Description des vhicules


Modele
CYL
Peugeot 604
Peugeot 304 S
Moyenne
Ecart-type

PUISS

LONG

LARG

POIDS

Moyennes et carts-type calculs

V.MAX

2664
1288

136
74

472
414

177
157

1410
915

180
160

1631.667
363.394

84.611
19.802

433.500
21.484

166.667
5.164

1078.833
133.099

158.278
11.798

Modele
CYL
PUISS
LONG
LARG
POIDS
V.MAX
Peugeot 604
2.8408
2.5951
1.7920
2.0010
2.4881
1.8411
Peugeot 304 S
-0.9457
-0.5359
-0.9076
-1.8719
-1.2309
0.1460
Attribute

Comp.1

Comp.2

CYL

0.424936

-0.1241911

PUISS

0.4217944

-0.4157739

fonctions de

LONG

0.4214599

0.4118177

projection =

LARG

0.3869222

0.446087

POIDS

0.430512

0.2426758

V.MAX

0.3589443

-0.6198626

Comp.1
5.5633
-2.2122

Comp.2
-0.3386
-1.2578

(individus actifs, n = 18).

Description aprs centrage-rduction

Premier plan factoriel

vecteurs propres

illustratifs : produit scalaire entre


description (c.r.) et vecteurs propres.

Audi 100

Renault 16 TLRancho Peugeot


504
Princess
1800
Simca 1300

Opel Rekord
Mazda 9295
Taunus 2000
Fiat 132

Peugeot 604
Renault 30

Peugeot 304 S
Alfasud TI

Datsun 200L

Lancia Beta

Lada 1300
Citroen GS Club
Toyota Corolla

-2

Coordonnes factorielles des individus

issus de lACP
Comp.2 (14%)

Modele
Peugeot 604
Peugeot 304 S

Coefficients des

sur lchantillon dapprentissage

Alfetta 1.66

-4

Les positionnements confirment ce que lon


sait de ces vhicules : 604 , statutaire
(proche de la Renault 30); 304 S , plutt -4
petite sportive (proche de lAlfasud)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

-2

0
Comp.1 (74%)

38

Objectif : obtenir des composantes plus facilement interprtables

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

39

Rotation VARIMAX (dmarche)

La composante est issue dune maximisation globale 1

r
j 1

2
j

( F1 )

Mais, il se peut trs bien que chaque variable prsente individuellement une
corrlation moyenne avec la composante. Linterprtation est difficile.
Attribute
-

Axis_1
Corr.

Axis_2

% (Tot. %)

Corr.

% (Tot. %)

LONG

0.88615 79 % (79 %)

0.38103 15 % (93 %)

LARG

0.81354 66 % (66 %)

0.41274 17 % (83 %)

POIDS

0.90519 82 % (82 %)

0.22453

5 % (87 %)

CYL

0.89346 80 % (80 %)

-0.11491

1 % (81 %)

V.MAX

0.75471 57 % (57 %)

-0.57352 33 % (90 %)

0.7
0.6

0.88686 79 % (79 %)

-0.38469 15 % (93 %)

4.42086 74 % (74 %)

0.85606 14 % (88 %)

0.9
0.8

F2*

Lide est de faire pivoter les facteurs ( nombre de facteurs fixs)


de manire rendre plus tranches (clarifier) les liaisons ou non-

liaisons des variables avec lun des facteurs (on peut prserver ou
non lorthogonalit). Linterprtation des facteurs est facilit.

F2
F1*

0.5

PCA_1_Axis_2

PUISS
Var. Expl.

Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)


1

0.4

LARG
LONG

0.3

POIDS

0.2

FF1

0.1
0

CYL 1

-0.1
-0.2
-0.3

PUISS

-0.4
-0.5

V.M AX

-0.6

Attribute
-

Axis_1
Corr.

Axis_2

% (Tot. %)

Corr.

% (Tot. %)

LONG

0.91748 84 % (84 %)

-0.2978

9 % (93 %)

LARG

0.88379 78 % (78 %)

-0.22608

5 % (83 %)

POIDS

0.8286 69 % (69 %)

-0.42801 18 % (87 %)

CYL

0.59598 36 % (36 %)

-0.67549 46 % (81 %)

V.MAX

0.18928

4 % (4 %)

-0.92881 86 % (90 %)

PUISS

0.41314 17 % (17 %)

-0.87397 76 % (93 %)

Var. Expl.

2.87114 48 % (48 %)

2.40578 40 % (88 %)

-0.7
-0.8
-0.9
-1
-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PCA_1_Axis_1

Mthode : Rotation VARIMAX (orthogonale)


Principe : maximiser la variance des carrs
des corrlations intra-facteurs (c.--d. les
rendre les plus diffrents possibles les uns

Lexplication globale est prserve (88% de linertie), mais la rpartition

des autres).

entre les composantes a t modifie (48% - 40% vs. 74% - 14%)

Cf. https://onlinecourses.science.psu.edu/stat505/node/86

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

40

Rotation VARIMAX (reprsentation des individus)


On retrouve les 2 dimensions : encombrement
/ gamme vs. performances .

Premier plan factoriel


Finalement, plus que par sa taille, la Renault 30
2

se distingue avant tout par ses performances


(cylindre, puissance et surtout v.max).
Toyota Corolla
Lada 1300

Rancho
Simca 1300

Citroen GS Club

Lancia Beta

Audi 100
Peugeot 504
Princess 1800

Mazda 9295

Datsun 200L
Fiat 132
Opel Rekord
Taunus 2000

-1

Alfasud TI

Alfetta 1.66

-2

Comp.2* (40%)

Renault 16 TL

Renault 30

-2

-1

Comp.1* (48%)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Modele
Alfasud TI
Toyota Corolla
Lada 1300
Citroen GS Club
Simca 1300
Renault 16 TL
Alfetta 1.66
Lancia Beta
Rancho
Taunus 2000
Fiat 132
Mazda 9295
Princess 1800
Peugeot 504
Renault 30
Opel Rekord
Audi 100
Datsun 200L

CYL PUISS LONG LARG POIDS V.MAX


1350
79
393
161
870
165
1166
55
399
157
815
140
1294
68
404
161
955
140
1222
59
412
161
930
151
1294
68
424
168 1050
152
1565
55
424
163 1010
140
1570
109
428
162 1060
175
1297
82
429
169 1080
160
1442
80
431
166 1129
144
1993
98
438
170 1080
167
1585
98
439
164 1105
165
1769
83
440
165 1095
165
1798
82
445
172 1160
158
1796
79
449
169 1160
154
2664
128
452
173 1320
180
1979
100
459
173 1120
173
1588
85
468
177 1110
160
1998
115
469
169 1370
160

41

Prambule : les signes des vecteurs propres sont fixs arbitrairement, ils

peuvent tre diffrents dun logiciel lautre. Ce nest pas un problme. Le


plus important est que les positions relatives entre les individus (proximits)
et les variables (corrlations) soient prserves.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

42

SPAD
La rfrence de lanalyse de

donnes la franaise .

Cercle des corrlations

Reprsentation des individus

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

43

SAS avec les PROC PRINCOMP et PROC FACTOR


La seconde est prfrable car fournit des sorties plus

dtailles et ralise les rotations


proc factor data = mesdata.autos
corr
method = principal
n=2
rotate=varimax
plots=all;
var cyl puiss long larg poids v_max;
run;

Rsultats aprs rotation

Matrice de rotation des


facteurs (changement de
base), = -41.25

cos

sin

sin

cos

Rsultats avant rotation

Cos cumul sur les 2


premires composantes.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

44

R
Avec plthore de packages : ade4, ca, FactoMineR, psych, etc.
#exemple avec le package psych qui propose la rotation VARIMAX
library(psych)
library(GPArotation)
autos.varimax <- principal(autos,nfactors=2,rotate="varimax")

print(autos.varimax,digits=4)

Les tests bass sur le rapport


de vraisemblance sont plus
adapts aux techniques de
factor analysis (cf. la doc
de psych)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

45

Tanagra
ACP et Rotation VARIMAX

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

46

Attention, ce sont des procdures purement mcaniques. Les rsultats


doivent tre valids par linterprtation des facteurs.
Ex. Toutes pousseront ( tort, on le sait maintenant) ngliger le 2nd facteur
pour les donnes AUTOS

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

47

Analyse parallle
Dterminer la distribution des k sous H0 (absence de lien entre les variables)
Variante : On peut aussi gnrer

Dmarche :

1.

2.

Mlanger alatoirement les valeurs lintrieur des colonnes,

alatoirement des colonnes de valeurs

en traitant les colonnes de manire indpendante le lien

suivant une gaussienne avec mme

entre les variables est compltement cass (on est sous H0)

moyenne et cart-type.

Raliser lACP sur cette nouvelle version des donnes,


collecter les v.p.

3.

Rpter T fois les oprations (1) et (2)

4.

On obtient pour chaque k une collection de v.p., on en dduit


la moyenne k qui sert de seuil critique

5.

On dcide que la composante k est pertinente si k > k

Variante : Plutt que la moyenne, on


peut aussi prendre le quantile dordre
0.95 pour un test unilatral 5%

(0.95) Critical

Component

Eigenvalue

4.4209

2.2255

0.8561

1.6438

0.3731

1.2513

0.2139

0.9783

0.0928

0.7357

0.0433

0.4874

value

Donnes AUTOS , seuil critique :

Reprsentation graphique des

quantile dordre 0.95 des v.p. sous H0

v.p. et des seuils pour chaque

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

k sous Tanagra

48

Analyse bootstrap
Evaluer la significativit des v.p. successifs c.--d. k > 1 significativement ?
Dmarche :
1.

Effectuer un tirage alatoire avec remise de n observations parmi n


(certains individus se rptent ainsi)

2.

Raliser lACP sur cette nouvelle version des donnes, collecter les v.p.

3.

Rpter T fois les oprations (1) et (2)

4.

On obtient pour chaque k une collection de v.p., on en dduit la


distribution empirique. Pour chaque k , on calcule le quantile dordre
0.05 (k0.05)

5.

On dduit que la composante k est pertinente si k

Lide est de procder un test de


0.05

>1

significativit 5% (la v.p. est-elle


significativement plus grande que 1 ?)

Component

(0.05) Lower bound

3.692685

0.513354

0.229661

0.096113

0.037946

0.006305

Remarque : ceci tant, il faut tre prudent. Si on sintresse


lintervalle de confiance bootstrap 90%, on se rend
compte que celui du 2nd facteur couvre la valeur 1 .
Component

(0.05) Lower bound

(0.95) Upper bound

facteur est significatif, le quantile dordre

3.692685

4.975922

0.513354

1.42439

0.05 des v.p. issus du bootstrap est > 1

0.229661

0.577211

0.096113

0.295001

0.037946

0.122611

0.006305

0.052366

Donnes AUTOS : seul le premier

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

49

Analyse bootstrap
Evaluer le recouvrement entre les k successifs. La composante k est pertinente si k > k+1 significativement.
Dmarche :
1.

Effectuer un tirage alatoire avec remise de n observations


parmi n (certains individus se rptent ainsi)

2.

Raliser lACP sur cette nouvelle version des donnes,


collecter les v.p.

3.

Rpter T fois les oprations (1) et (2)

4.

On obtient pour chaque k une collection de v.p., on en dduit la


distribution empirique. Pour chaque k , on calcule lintervalle

5.

de confiance 90% avec les bornes = les quantiles dordre

On retrouve lide du coude : est-ce

0.05 et 0.95 [k0.05 ; k0.95]

que la composante k amne de


linformation additionnelle significative

On dduit que la composante k est pertinente si k0.05 > k+10.95

par rapport aux suivantes ?

c.--d. la borne basse de k est-elle plus grande que la


borne haute de k+1 (y a-t-il un dcalage significatif ?).
(0.05) Lower bound

(0.95) Upper bound

3.692685

4.975922

0.513354

1.42439

0.229661

0.577211

0.096113

0.295001

0.037946

0.122611

0.006305

0.052366

Eigenvalue

Component

Scree test
5

Donnes AUTOS : dans le tableau des intervalles de confiance,


0

on effectue les comparaisons en dcal avec les quantiles successifs.


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

3
Component

Graphiquement, on voit mieux (Tanagra)

50

Tester lintrt de lACP en vrifiant sil est possible de


compresser efficacement linformation disponible
Mesurer le degr de redondance des donnes

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

51

Test de sphricit de Bartlett


Base sur lanalyse de la matrice des corrlations R

H0 : les variables sont deux deux indpendantes

R = matrice unit

2 situations extrmes (rappel : |R| = produit des valeurs propres de R)


|R| = 1, les variables sont deux deux orthogonales, ACP inutile, impossible de rsumer linformation

|R| = 0, il y a une colinarit parfaite (le 1er facteur explique 100% de linertie totale)

Statistique de test :
R
CYL
PUISS
LONG
LARG
POIDS
V.MAX

CYL
1
0.797
0.701
0.630
0.789
0.665

2p 5

2 p ( p 1)
B n 1
ln R

6
2

PUISS
LONG
LARG
POIDS
V.MAX
0.797
0.701
0.630
0.789
0.665
1
0.641
0.521
0.765
0.844
0.641
1
0.849
0.868
0.476
0.521
0.849
1
0.717
0.473
0.765
0.868
0.717
1
0.478
0.844
0.476
0.473
0.478
1

Attention ! Quand n est grand,

rejet quasi systmatique de H0 car les


ddl ne tiennent pas compte de n

Donnes
AUTOS

Dterminant 0.001213 <<< les variables sont fortement redondantes


B
ddl
p-value

95.11988
15
<0.00001

Conclusion : rejet de H0, les variables ne sont pas indp. 2 2. Il est possible de

compresser linformation avec lACP. Efficacement mme si lon en juge la valeur de |R|.
Effectivement, on a vu que F1 reprsentait 74% de linfo dispo.
Remarque : une variante de ce test peut tre utilise pour dtecter le nombre de
composantes significatives , mais elle savre trop permissive en pratique.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

52

MSA : Measure of sampling adequacy [ou indice KMO (Kaiser Mayer Olkin)]
Ide du MSA : confronter la matrice des corrlations brutes avec la matrice des corrlations partielles.
Si MSA 1, lACP peut agir efficacement parce que corrlations partielles sont quasi-nulles (en valeur
absolue) ; si MSA << 1, problme car pas de redondance entre les variables.

R
CYL
PUISS
LONG
LARG
POIDS
V.MAX

Corrlations brutes entre les

Corrlations partielles c.--d. aprs avoir

variables prises 2 2 (rjm)

retranch linfluence des (p-2) autres (r*jm)

CYL
1
0.797
0.701
0.630
0.789
0.665

PUISS LONG
LARG
POIDS V.MAX
0.797
0.701
0.630
0.789
0.665
1
0.641
0.521
0.765
0.844
0.641
1
0.849
0.868
0.476
0.521
0.849
1
0.717
0.473
0.765
0.868
0.717
1
0.478
0.844
0.476
0.473
0.478
1

PARTIAL R CYL
PUISS LONG
LARG
POIDS V.MAX
CYL
1
0.107
-0.060
0.109
0.320
0.189
PUISS
0.107
1
-0.083
-0.334
0.652
0.841
LONG
-0.060
-0.083
1
0.582
0.530
0.090
LARG
0.109
-0.334
0.582
1
0.127
0.331
POIDS
0.320
0.652
0.530
0.127
1
-0.611
V.MAX
0.189
0.841
0.090
0.331
-0.611
1

Les corrlations brutes et partielles sont majoritairement diffrentes, les relations entre 2 variables
quelconques sont fortement dtermines par les autres.

r
MSA
r r
2

j m j

jm

j m j

jm

j m j

* 2
jm

Donnes AUTOS
MSA = 0.740

MSA est plus un indice de compressibilit


de linformation quun indicateur de lintrt
dune ACP pour un fichier de donnes !
http://peoplelearn.homestead.com/Topic20Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

FACTORanalysis3a.html

53

Indice MSA par variable


MSA par variable : dtecter les variables qui se dtachent des autres, ceux dont la corrlation

partielle reste proche de la corrlation brute c.--d. qui participent peu la redondance globale
plus lindice est faible, plus la variable est faiblement lie globalement aux autres.

r r
2

MSAj

m j

jm

m j

jm

m j

MSACYL

CYL
PUISS
LONG
LARG
POIDS
V.MAX

* 2
jm

CYL

CYL
1

PUISS LONG
LARG
POIDS V.MAX
0.797
0.701
0.630
0.789
0.665

r*

PARTIAL R CYL
CYL

PUISS LONG
LARG
POIDS V.MAX
0.107
-0.060
0.109
0.320
0.189

0.797 0.701 0.665


0.940
0.797 0.701 0.665 0.107 (0.06) 0.189

MSA
0.940
0.674
0.803
0.784
0.693
0.598

CYL est la variable la plus lie lensemble des autres

V.MAX est celle qui participe le moins la tendance collective

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

54

Retrancher linfluence dune ou plusieurs variables qui psent sur toutes les
autres dans lanalyse

Une manire de grer leffet taille qui crase souvent la 1re composante

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

55

Problme de leffet taille en ACP


Correlation scatterplot (PCA_1_Axis_1 vs. PCA_1_Axis_2)
1
0.9

Ex. CYL pse sur

0.8
0.7
0.6

Effet taille : parfois, une ou plusieurs

et dterminent fortement les rsultats,

0.4

LARG
LONG

0.3

POIDS

0.2

PCA_1_Axis_2

variables psent sur lensemble des autres

0.5

CYL

-0.1
-0.2
-0.3

PUISS

-0.4
-0.5

1re composante qui semblent concentrer

variables, dterminant
le 1er facteur, et

0.1

notamment en pesant exagrment sur la

lensemble des

V.M AX

-0.6

entranant avec lui


lensemble des autres
variables.

-0.7
-0.8

toute linformation disponible.

-0.9
-1
-1 -0.9-0.8-0.7-0.6-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PCA_1_Axis_1

Solution : analyser les relations entre les


variables aprs avoir retranch (en

Corrlation

contrlant) linfluence de ou des

brutes

variables incrimines c.--d. au lieu de

CORR
CYL
PUISS
LONG
LARG
POIDS
V.MAX

diagonaliser la matrice des corrlations


partielles (la nature de linformation

Corrlations

traite est diffrente)

partielles / CYL

POIDS selon que lon contrle ou non linfluence de CYL ;

voir aussi la relation POIDS x V.MAX

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

1
0.797
0.701
0.630
0.789
0.665
CORR/CYL

brutes, baser lACP sur les corrlations

Ex. Voir la diffrence entre les corrlations PUISS x

CYL

PUISS
LONG
LARG
POIDS
V.MAX

PUISS LONG LARG POIDS V.MAX


0.797 0.701 0.630 0.789 0.665
1 0.641 0.521 0.765 0.844
0.641
1 0.849 0.868 0.476
0.521 0.849
1 0.717 0.473
0.765 0.868 0.717
1 0.478
0.844 0.476 0.473 0.478
1

PUISS LONG LARG POIDS V.MAX


1 0.192 0.041 0.368 0.697
0.192
1 0.736 0.719 0.018
0.041 0.736
1 0.461 0.093
0.368 0.719 0.461
1 -0.102
0.697 0.018 0.093 -0.102
1

Matrice diagonaliser
56

ACP partir de la matrice


des corrlations partielles

Il y a 2 composantes

proc factor data = mesdata.autos


corr
method = principal
n=2
plots=all;
var puiss long larg poids v_max;
partial cyl;
run;

analyser, de manire
vidente maintenant : avec
1 = 2.41 et 2 = 1.61.

PCA_2_Axis_1 vs. PCA_2_Axis_2


Correlation scatterplot (PCA_2_Axis_1 vs. PCA_2_Axis_2)

Peugeot 504

0.9
0.8
0.7

Princess 1800
Rancho

1 100
Audi

0.6
0.5

Datsun 200L

PCA_2_Axis_2

PCA_2_Axis_2

0.4

LongLarg
0.1
Poids
0.3
0.2

Renault 16 TL

r s_LARG_1

r s_LONG_1

r s_POI DS_1

0
-0.1

Lada 1300

Simca 1300

Opel Rekord

Toyota Cor

Citroen GS Club
Mazda 9295
Taunus 2000
Renault 30

Lancia Beta
-1

Fiat 132

-0.2
-0.3
-0.4

-2

-0.5

Alfasud TI

-0.6
-0.7
-0.8
-0.9

Puiss
V.max
r s_PUI SS_1

r s_V. MAX_1

-1
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PCA_2_Axis_1

-3

Alfetta 1.66
-3

-2

-1

0
PCA_2_Axis_1

De nouveaux types de rsultats apparaissent.

Les 2 dimensions apparaissent nettement. (1) Encombrement /

Ex. Eu gard sa cylindre, la RENAULT 30 :

gamme : cylindre gale, on distingue les voitures

1. Nest pas si encombrante (moins que les autres mme)

longues/larges/lourdes des autres. (2) Performances : la

2. Nest pas si performante (dans la moyenne simplement)

puissance et la rapidit caractrisent les vhicules. Sans quil soit

Ex. LAlfasud Ti est une petite teigneuse

Ricco Rakotomalala
ncessaire
de post-traiter cette fois-ci (rotation des axes).
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Ex. Le moteur de la Renault 16 TL est vraiment sous exploit


57

Plutt que de sintresser la variabilit totale des variables,


analyser la variabilit partage
Approche a priori prfrable lorsque lon cherche structurer
linformation
On sintresse aux techniques non-itratives seulement

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

58

Gestion des variables non pertinentes en ACP


LACP cherche reproduire toute la variabilit des donnes, cest pour cette raison que la
somme des COS des variables est gale 1 lorsquon prend en compte tous les facteurs.
Cette ide nest pas toujours pertinente quand des variables totalement trangres ltude
simmiscent dans le fichier de donnes. Elles psent de manire indue sur les rsultats.
Ex. AUTOS + 6 variables N(0, 1) gnres alatoirement.
Modele
Alfasud TI
Audi 100
Simca 1300
Citroen GS Club
Fiat 132
Lancia Beta
Peugeot 504
Renault 16 TL
Renault 30
Toyota Corolla
Alfetta 1.66
Princess 1800
Datsun 200L
Taunus 2000
Rancho
Mazda 9295
Opel Rekord
Lada 1300

CYL
1350
1588
1294
1222
1585
1297
1796
1565
2664
1166
1570
1798
1998
1993
1442
1769
1979
1294

PUISS
79
85
68
59
98
82
79
55
128
55
109
82
115
98
80
83
100
68

LONG
393
468
424
412
439
429
449
424
452
399
428
445
469
438
431
440
459
404

LARG
POIDS V.MAX
161
870
165
177
1110
160
168
1050
152
161
930
151
164
1105
165
169
1080
160
169
1160
154
163
1010
140
173
1320
180
157
815
140
162
1060
175
172
1160
158
169
1370
160
170
1080
167
166
1129
144
165
1095
165
173
1120
173
161
955
140

RND1
1.029
0.379
-0.346
0.849
-1.425
0.890
-0.860
2.379
-0.578
0.381
0.204
0.216
0.603
-0.326
-0.787
-0.931
0.984
0.986

RND2
0.109
0.367
0.737
0.494
-0.210
0.071
-0.001
-1.367
0.705
0.330
0.287
0.549
0.914
0.857
0.948
1.222
0.831
0.791

RND3
0.267
-1.054
-0.056
-0.320
0.535
-1.308
-0.315
-0.633
-1.304
0.121
-2.117
-0.619
1.403
-0.565
-1.389
-0.133
-0.138
-0.100

RND4
-0.949
0.106
-0.430
0.729
-0.200
-0.971
-1.329
-1.448
2.124
-1.285
-1.675
-0.096
-0.371
1.455
-0.377
-1.090
0.545
0.037

RND5
0.053
1.316
0.274
0.637
-1.983
-0.131
-0.605
0.609
-1.132
0.570
0.111
-1.632
-1.892
0.370
-0.139
-1.201
-1.730
0.221

RND6
-1.144
1.632
1.044
0.793
0.832
-1.134
1.299
-0.175
-2.091
-1.628
2.773
-0.066
0.681
-0.656
-0.721
0.187
1.459
0.764

Ces variables additionnelles vont masquer les relations existantes entre les autres
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

59

ACP sur AUTOS avec 6

Attribute

variables bruites
Nombre de composantes
Scree plot
5

2 (?)

4 (?)

CYL
PUISS
LONG
LARG
POIDS
V.MAX
RND1
RND2
RND3
RND4
RND5
RND6
Var. Expl.

Axis_1
Corr.
% (Tot. %)
-0.8847 78 % (78 %)
-0.8912 79 % (79 %)
-0.8452 71 % (71 %)
-0.7702 59 % (59 %)
-0.8905 79 % (79 %)
-0.7541 57 % (57 %)
0.4695 22 % (22 %)
-0.4413 19 % (19 %)
0.0474
0 % (0 %)
-0.5592 31 % (31 %)
0.6468 42 % (42 %)
-0.0811
1 % (1 %)
5.40111 45 % (45 %)

Axis_2
Corr.
% (Tot. %)
-0.0295 0 % (78 %)
-0.0157 0 % (79 %)
-0.2290 5 % (77 %)
-0.3696 14 % (73 %)
-0.0488 0 % (80 %)
-0.1145 1 % (58 %)
-0.3550 13 % (35 %)
0.4068 17 % (36 %)
0.7548 57 % (57 %)
0.0730 1 % (32 %)
-0.4995 25 % (67 %)
-0.3246 11 % (11 %)
1.42714 12 % (57 %)

Axis_3
Corr.
% (Tot. %)
-0.1463 2 % (80 %)
-0.0217 0 % (79 %)
0.3167 10 % (87 %)
-0.0191 0 % (73 %)
0.1851 3 % (83 %)
-0.0820 1 % (59 %)
0.0293 0 % (35 %)
-0.2630 7 % (43 %)
0.3744 14 % (71 %)
-0.6058 37 % (69 %)
-0.3422 12 % (78 %)
0.7132 51 % (62 %)
1.36642 11 % (68 %)

Axis_4
Corr.
% (Tot. %)
-0.2681 7 % (88 %)
0.0356 0 % (80 %)
-0.0911 1 % (88 %)
-0.1024 1 % (74 %)
-0.1536 2 % (85 %)
0.1318 2 % (61 %)
-0.5753 33 % (68 %)
0.5380 29 % (72 %)
-0.3263 11 % (82 %)
-0.0873 1 % (69 %)
0.1718 3 % (81 %)
0.4404 19 % (81 %)
1.09082 9 % (77 %)

Leffet taille subsiste :

La sportivit est compltement noye au

encombrement / gamme

milieu (masque par) des variables rnd

Comp.2

Datsun 200L

PCA_1_Axis_1 vs. PCA_1_Axis_2


Fiat 132
Toy ota Corolla

Mazda 9295
0
1

10

11

12

Component

Alf asud TI
Lada 1300

Simca 1300

rien faire avec ces voisins !!!

0
PCA_1_Axis_2

Par ex., lAlfasud et lAfetta nont

Rancho

Princess 1800
Taunus 2000

Renault 30

Citroen GS Club

Opel Rekord

Comp.1

Peugeot 504

-1

Lancia Beta

Remarque : En ralit, il faut trouver la


dimension sportivit sur le 5me
facteur, que nous navons pas retenu

Renault 16 TL

-2

Alf etta 1.66

avec les critres usuels.


Audi 100

-4

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

-3

-2

-1
0
PCA_1_Axis_1

60

Principe de lanalyse en facteurs principaux (Principal Factor Analysis)


En thorie, lanalyse en facteur principaux correspond une dmarche de modlisation.
On cherche construire des facteurs (F1, F2, , Fq) [on parle aussi de variables
latentes ] qui permettent de reproduire au mieux les variables originelles.

x1 a11F1 a12 F2 a1q Fq e1

x a F a F a F e
p1 1
p2 2
pq q
p
p

ej sont des termes derreur


puisquune modlisation nest jamais
parfaite.

En pratique, il sagit simplement de diagonaliser une variante de la matrice des corrlations


mettant en exergue la variance partage entres les variables. Lapproche fournit des rsultats trs
similaires ceux de lACP. Cest pour cette raison quelles sont souvent confondues dailleurs.

Quelques dfinitions et formules


Rj est la communalit (communality). Il sagit du coefficient de dtermination de la rgression
de Xj sur les (p-1) autres variables. Ainsi, Rj correspond la part de variance de Xj explique par les
autres. Cette quantit doit tre modlise.
uj est luniqueness , uj = 1 Rj. Cest la proportion de la variance de Xj non explique par les
autres variables. Elle ne doit pas tre modlise.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

61

Analyse en Facteurs Principaux (AFP)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

62

Analyse en facteurs principaux [AFP] (Outil Principal Factor Analysis dans Tanagra)
CYL
CYL

Matrice des
corrlations (usuelle)

PUISS LONG LARG POIDS V_MA RND1 RND2 RND3 RND4 RND5 RND6
X
1
0.80
0.70
0.63
0.79
0.66
-0.28
0.24 -0.06
0.57 -0.55 -0.13

PUISS

0.80

0.64

0.52

0.77

0.84

-0.38

0.35

-0.11

0.43

-0.58

0.07

LONG

0.70

LARG

0.63

0.64

0.85

0.87

0.48

-0.29

0.22

-0.01

0.31

-0.48

0.31

0.52

0.85

0.72

0.47

-0.19

0.25

-0.19

0.48

-0.26

0.11

POIDS
V_MA
X
RND1

0.79

0.77

0.87

0.72

0.48

-0.36

0.27

-0.01

0.35

-0.62

0.09

0.66

0.84

0.48

0.47

0.48

-0.31

0.27

-0.19

0.38

-0.45

0.11

-0.28

-0.38

-0.29

-0.19

-0.36

-0.31

-0.44

0.02

-0.18

0.37

-0.02

RND4 et RND5 sont fortuitement

RND2

0.24

0.35

0.22

0.25

0.27

0.27

-0.44

0.08

0.43

-0.25

0.01

(trs malencontreusement)

RND3

-0.06

-0.11

-0.01

-0.19

-0.01

-0.19

0.02

0.08

-0.03

-0.38

-0.02

corrles avec les variables initiales.


Cest une difficult supplmentaire.

RND4

0.57

0.43

0.31

0.48

0.35

0.38

-0.18

0.43

-0.03

-0.14

-0.24

RND5

-0.55

-0.58

-0.48

-0.26

-0.62

-0.45

0.37

-0.25

-0.38

-0.14

-0.02

RND6

-0.13

0.07

0.31

0.11

0.09

0.11

-0.02

0.01

-0.02

-0.24

-0.02

CYL

Matrice H = (hjm)

PUISS LONG LARG POIDS V_MA RND1 RND2 RND3 RND4 RND5 RND6
X
0.80
0.70
0.63
0.79
0.66
-0.28
0.24 -0.06
0.57 -0.55 -0.13

CYL

0.84

PUISS

0.80

0.92

0.64

0.52

0.77

0.84

-0.38

0.35

-0.11

0.43

-0.58

0.07

LONG

0.70

0.64

0.93

0.85

0.87

0.48

-0.29

0.22

-0.01

0.31

-0.48

0.31

LARG

0.63

0.52

0.85

0.88

0.72

0.47

-0.19

0.25

-0.19

0.48

-0.26

0.11

POIDS

0.79

0.77

0.87

0.72

0.92

0.48

-0.36

0.27

-0.01

0.35

-0.62

0.09

On a remplac 1 par les

V_MA
X
RND1

0.66

0.84

0.48

0.47

0.48

0.88

-0.31

0.27

-0.19

0.38

-0.45

0.11

-0.28

-0.38

-0.29

-0.19

-0.36

-0.31

0.34

-0.44

0.02

-0.18

0.37

-0.02

communalits dans la

RND2

0.24

0.35

0.22

0.25

0.27

0.27

-0.44

0.39

0.08

0.43

-0.25

0.01

RND3

-0.06

-0.11

-0.01

-0.19

-0.01

-0.19

0.02

0.08

0.45

-0.03

-0.38

-0.02

diagonale.

RND4

0.57

0.43

0.31

0.48

0.35

0.38

-0.18

0.43

-0.03

0.61

-0.14

-0.24

RND5

-0.55

-0.58

-0.48

-0.26

-0.62

-0.45

0.37

-0.25

-0.38

-0.14

0.69

-0.02

RND6

-0.13

0.07

0.31

0.11

0.09

0.11

-0.02

0.01

-0.02

-0.24

-0.02

0.51

diagonaliser pour la PFA.

Rcyl = 0.84 coefficient de dtermination de la rgression de CYL sur les autres variables
(PUISS, LONG, , RND6). Seule cette fraction doit tre intgre dans la modlisation.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

63

AFP sur les donnes AUTOS + RND Tableau des valeurs propres

Moyenne des valeurs

Somme des valeurs de la diagonale

propres, peut tre utilise

principale de la matrice diagonaliser

comme seuil pour la


slection des facteurs

On en slectionne 4 si on
se fie ce critre

On modlise plus que la


H nest pas semi-dfinie

variance commune, une

positive, il est normal que

correction dans lautre

lon puisse obtenir des

sens est ncessaire

v.p. ngatives

Au final, on modlise bien


la variabilit commune

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

64

AFP sur les donnes AUTOS + RND - 4 facteurs slectionns


Rj modliser

Rj restitue sur les 4 premiers facteurs = somme du carr des loadings


Les variables initiales sont plutt bien modlises
La sportivit / performance
napparat que sur le 4me facteur

PFA_1_Axis_1
PFA_1_Axis_4
Princess vs.
1800
Rancho
Datsun 200L

Toujours encombrement / gamme , mais RND4 et RND5


Renault 30

psent toujours beaucoup trop.

Attention : loadings corrlation. Elles correspondent aux


avec les facteurs (dans les faits, la lecture est trs similaire

Lada 1300

Simca 1300
Citroen GS Club

Toyota Coroll

Opel Rekord
Mazda 9295Lancia Beta

PFA_1_Axis_4

coefficients standardiss de la rgression de chaque variable


celle de lACP).

Peugeot 504
Audi 100
Taunus 2000

Renault 16 TL

Fiat 132
-1

Alfasud TI

-2

Dans le plan factoriel (1, 4), on retrouve


les proximits que nous avions constat
lors de lACP sur les variables
originelles (CYL, , V.MAX)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
-2

Alfetta 1.66
-1

0
PFA_1_Axis_1

65

AFP et Rotation VARIMAX - 4 facteurs slectionns


Le principe de la rotation des axes
reste valable : on effectue une
rotation pour 4 facteurs.

Linertie
explique par
les 4 facteurs
reste la mme
aprs rotation.

Encombrement /

gamme

Sportivit / performances, avec RND5

On peut oublier

qui simmisce malheureusement


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

66

Analyse de Harris
Exacerber les corrlations en les divisant par les uniqueness

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

67

Harris Matrice diagonaliser et Tableau des valeurs propres


CYL

PUISS LONG LARG POIDS V_MA RND1 RND2 RND3 RND4 RND5 RND6
X
7.24
6.50
4.59
7.22
4.89
-0.88
0.76 -0.20
2.29 -2.48 -0.45

CYL

5.35

PUISS

7.24

11.94

8.49

5.41

10.00

8.87

-1.67

1.61

-0.53

2.49

-3.72

0.37

LONG

6.50

8.49

12.55

9.00

11.57

5.10

-1.30

1.03

-0.07

1.82

-3.17

1.62

LARG

4.59

5.41

9.00

7.33

7.50

3.98

-0.67

0.91

-0.75

2.23

-1.35

0.46

POIDS

7.22

10.00

11.57

7.50

12.10

5.05

-1.58

1.28

-0.06

2.05

-4.02

0.48

V_MAX

4.89

8.87

5.10

3.98

5.05

7.48

-1.12

1.00

-0.76

1.75

-2.37

0.46

corrlations quelles concernent

RND1

-0.88

-1.67

-1.30

-0.67

-1.58

-1.12

0.51

-0.70

0.03

-0.35

0.82

-0.04

RND2

0.76

1.61

1.03

0.91

1.28

1.00

-0.70

0.64

0.14

0.88

-0.57

0.02

des variables fortement lies aux

RND3

-0.20

-0.53

-0.07

-0.75

-0.06

-0.76

0.03

0.14

0.82

-0.06

-0.93

-0.04

autres (Rj 1 uj 0)

RND4

2.29

2.49

1.82

2.23

2.05

1.75

-0.35

0.88

-0.06

1.56

-0.40

-0.55

RND5

-2.48

-3.72

-3.17

-1.35

-4.02

-2.37

0.82

-0.57

-0.93

-0.40

2.21

-0.04

RND6

-0.45

0.37

1.62

0.46

0.48

0.46

-0.04

0.02

-0.04

-0.55

-0.04

1.03

h*jm

h jm
u j um

Souligner dautant plus les

Seuil (possible) = Moyenne des


Eboulis des valeurs propres

valeurs sur la diagonale de la


matrice traiter = TRACE / p

Scree plot
48
46
44
42
40
38
36
34
32

Eigenvalue

30
28
26
24
22

2 facteurs

20
18
16
14
12
10
8
6
4
2
0
1

10

11

12

Component

Les deux points de vue convergent pour une solution en q = 2 facteurs


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

68

Harris Tableau des loadings et reprsentation des individus


Rj restitue sur les q = 2 premiers facteurs : somme du carr des loadings
p
Estimations plutt bonnes individuellement et globalement, car : 6.03354 R 2
j 1

(6.03354/8.36437) = 72% de la
variabilit initiale a t reproduite.

Le rle de V.MAX et sa relation avec PUISS

apparat ds le 2nd facteur maintenant.

On retrouve les rsultats de lACP sur variables

originelles sans quil soit ncessaire de procder


une rotation des axes.
Rsultat confirm par la reprsentation des individus.
Harris_1_Axis_1 vs. Harris_1_Axis_2
Audi 100

Renault 16 TL

Variance non pondr explique : somme des

Peugeot 504
1

carrs des loadings des variables avec le

Et, 5.16276 + 0.87078 = 6.03354

Harris_1_Axis_2

facteur : (0.86673 + ... + 0.12942) = 5.16276

Rancho
Simca 1300

Princess 1800
Datsun 200L

Lancia Beta
0

Lada GS
1300
Citroen
Club

Toyota Corolla

Opel Rekord
Mazda 9295
Taunus 2000
Fiat 132

-1
Renault 30

Alfasud TI
-1

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Alfetta 1.66
0
Harris_1_Axis_1

69

Factor scores - Les coefficients des fonctions de projection


Lanalyse en facteurs principaux et lanalyse de Harris
fournissent les coefficients permettant de projeter les individus
dans le repre factoriel avec une information supplmentaire :
la crdibilit de la fonction de projection.

Indicateur de fiabilit du facteur.


Correspond au carr de la corrlation

entre la variable latente thorique (


estimer) et son estimation par le facteur
(cf. doc SAS).
Plus il est proche de 1, plus le facteur
est crdible ; plus il sloigne de 1,
moins intressant est le facteur. Selon
certaines rfrences, 0.7 indique une
bonne stabilit.

Paramtres pour le centrage

Coefficients permettant de calculer les coordonnes

et rduction des variables

factorielles des individus (ventuellement


supplmentaires) partir de leur description.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

70

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

71

Les ouvrages incontournables sur lanalyse de donnes

Escofier B., Pags J., Analyses factorielles simples et multiples , Dunod, 2008.
Lebart L., Morineau A., Piron M., Statistique exploratoire multidimensionnelle , Dunod, 3me
dition, 2000.
Saporta G., Probabilits, Analyse des Donnes et Statistique , Technip, 2006.
Tenenhaus M., Statistique : Mthodes pour dcrire, expliquer et prvoir , Dunod, 2006.

Tutoriels et supports de cours (innombrables sur le web) avec, entres autres,

Tutoriel Tanagra, http://tutoriels-data-mining.blogspot.fr/ ; voir la section Analyse Factorielle .


Les plus complets (Tanagra, code source R, SAS, etc.), certains traitant le fichier AUTOS :
ACP Description de vhicules (Mars 2008)
Analyse en composantes principales avec R (Mai 2009)
ACP avec R Dtection du nombre daxes (Juin 2012)
ACP sous R Indice KMO et test de Bartlett (Mai 2012)
ACP sur corrlations partielles (suite) (Juin 2012)

ACP avec Tanagra Nouveaux outils (Juin 2012)


Analyse en facteurs principaux (Sept. 2012)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

72

S-ar putea să vă placă și