Sunteți pe pagina 1din 34

ACP visualisation

 Représentation graphique: projection dans un plan


de n individus à p caractères
 Un individu est un point d’un espace à p
dimensions
 Un caractère est un point d’un espace à n
dimensions
 calcul des distances: centrer et réduire
synopmetho.sba
ACPFR.XLS

M1 Manangement UE4 LP 1
450000
400000
350000
300000
250000

Visualiser
PUIS
200000 REVENU
150000
100000
50000
0
0 0,5 1 1,5 2 2,5

TAILLE PUIS REVENU QCSP QGEO QSEXE


I001 1,75 7 100000 1 1 1
I002 1,74 6 90000 4 3 1
I003 1,7 5 80000 3 2 1
I004 1,59 9 200000 2 4 2
I005 1,72 11 400000 5 5 1
I006 1,75 7 90000 1 1 1
I007 1,7 6 90000 4 3 1
I008 1,74 7 90000 4 3 1
I009 1,75 7 90000 1 1 1
I010 1,5 7 100000 1 1 2
I011 1,75 7 120000 1 1 1
I012 1,75 8 100000 1 1 1
I013 1,9 7 120000 1 1 1
I014 1,76 6 300000 4 3 1
I015 1,75 7 100000 1 1 1
I016 1,75 7 100000 1 1 2
I017 1,7 5 80000 3 2 2

M1 Manangement UE4 LP 2
Tableaux Croisés Dynamiques

Somme de REVENU  

QCSP Total

1 1010000

2 6300000

3 2480000

4 2640000

5 3600000

Total 16030000

M1 Manangement UE4 LP 3
Cadres professions
Agriculteurs ouvriers employés
moyens lib.
taille m 1.75 1.78 1.74 1.70 1.72 C la s s if ic a t io n h ie r a r c h iq u e d i r e c t e

Puissance
7 9 6 5 11
véhicule
revenu F 100 000 200 000 90 000 80 000 400 000

a g r i o u v r e m p l c a d r p r li

M1 Manangement UE4 LP 4
Matrice des observations
M a tr ic e d e s d o n n é e s

U n e lig n e i e s t u n
  in d iv id u
 

U n e c o lo n n e j e s t u n c a r a c tè r e

M1 Manangement UE4 LP 5
ACP normalisation exemple
Désirant visualiser les différences par CSP, il faut
normaliser les données.
-données lignes transformées en écart par rapport à la
moyenne de la ligne:
Visualisation des différences relatives

écart/m Agric. Cadrm. Ouvr. Empl. Proflib.


taille m +0.01 +0.03 0 -0.04 -0.02
Puiss cv -0.6 +1.4 -1.6 -2.6 +3.4
revenu F -74000 +26000-84000 -94 000 +226 000

M1 Manangement UE4 LP 6
ACP réduire
Résultats réduits obtenus par
division des lignes par l’écart-type du caractère.
L’écart-type de la ligne devient 1

0,37 1,11 0,00 -1,48 -0,74

-0,25 0,58 -0,66 -1,08 1,41

-0,55 0,19 -0,62 -0,70 1,67

M1 Manangement UE4 LP 7
D e u x E S P A C E S d e R E P R E S E N T A T IO N

L e ta b le au d es o b se rva tio ns N xP, so u vent e st b e auc o up tro p gra nd p o ur p erc e vo ir u ne in fo rm at io n,


le b ut d e l' a na lyse fa c to rie lle e st d e s y nthé tise r p o ur v is ua lis er

M1 Manangement UE4 LP 8
ACP projection

 La matrice des
covariances (distance euclidienne réduite) ou
corrélations (centrées-réduites) est utilisée

 Représentation par projection,


déformation, perte d’information
 les distances entre les n points du plan de
projection ne peuvent égaler les distances entre les
n individus de l’espace à p dimensions

M1 Manangement UE4 LP 9
ACP proximité
Distance entre deux individus
d²(i,i') = (xik-xi'k)²
=(1/p) (xik-xi'k)²/k ²
k

Distance entre deux variables


d²(j,j’) =  (xij-xij’)²
=(1/n) [(xij-x.j)/j)- (xij’-x.j’)/j’]²
M1 Management UE4 LP 10
C h a n g e m e n t d 'o r ig in e

M1 Manangement UE4 LP 11
C e n tr e r e t r é d u ir e le s d o n n é e s
in itia le s

c h a q u e c o o r d o n n é e j d 'u n in d iv id u i e s t
r e m p la c é e p a r

M1 Manangement UE4 LP 12
CORRELATION

1 ( x i  MX ) ( y i  MY )
ρ (X , Y ) 
n

i X
.
Y

Si x et y sont centrées réduites, alors

 x .y i
1 i
cos( X , Y )  i
 . xi . yi   ( X , Y )
n. n n i

M1 Manangement UE4 LP 13
Points variables
Si rjj’ coefficient corrélation d²(j,j’)= 2(1-rjj’)
 Longueur d’un vecteur Variable Xj
 ||Xj||= ((1/n)∑ xj ²)1/2
 Centrée -réduite moyenne nulle, ||Xj||= 1

 Extrémités vecteurs Variables situés dans


une sphère de rayon 1

M1 Manangement UE4 LP 14
ACP construction
 Corrélations: déterminent les axes factoriels
et expriment la dispersion
 Réduction de caractères possible: seulement
si des coefficients de corrélation non nuls
existent sur les caractères initiaux
 Par construction, le coefficient de
corrélation entre 2 variables (centrées) égale
le cosinus de l’angle entre ces 2 variables

M1 Manangement UE4 LP 15
ACP: individus - variables
OBSERVATIONS
VARIANCES
individus
CORRELATIONS
variables
INTERPRETATIONS
individus plan distances
variables cercle angles

M1 Manangement UE4 LP 16
ACP Plan factoriel
 plan de projection:
distances en moyenne les mieux conservées
origine point moyen

 minimisation des écarts entre tout point


initial et sa projection ou maximisation des
distances entre les projections p 1, p2,... pn

 un plan est engendré par deux vecteurs


perpendiculaires, soient u1 u2,
M1 Manangement UE4 LP 17
ACP: recherche des vecteurs
engendrant le plan factoriel
||X i u|| est la longueur de la projection
Xi
de Xi sur l’axe engendré par u
Somme carrés des n projections est:
 ∑ (Xi u)² = u’X’Xu=(Xu)’Xu = ||Xu||
∑ IXi² = ∑ IH² + ∑ HXi²
I H u Inertie nuage: V/u+distance nuage/u
X i . u = ||Xi u||1/² Conserver au mieux l’information
IXi² = IH² +HXi² initiale c’est
Cos² = IH²/IXi² Minimiser ∑ HXi² revient à
I centre de gravité Maximiser ∑ IH²
(nuage individus) Part de Variance Expliquée par u:
∑ IH² / ∑ IXi²
X 'X

- - +
=

= -
= - - +

= Cov x ix j
s i i= j v a r x i

M1 Manangement UE4 LP 19
C o v a r ia n c e
Si les individus sont projetés

M1 Manangement UE4 LP 20
ACP vecteur propre
D’où le programme:
Max u’X’Xu
u’u =1
- lagrangien L(u,λ)= u’X’Xu+ λ(1-u’u)
- dérivée (dL/du)= 2 X’Xu - 2 λu
- condition du 1er ordre: annulation de la dérivée au
point candidat à l’optimum
X’X u = λu
u est vecteur propre associé à la valeur propre
maximale λ

M1 Manangement UE4 LP 21
ACP meilleur plan global
La distance entre les projections est
maximale si le premier axe a pour vecteur
directeur u, vecteur propre de la matrice des
variances associé a la valeur propre
maximale
Le deuxième vecteur engendrant ce
meilleur plan de représentation est
orthogonal et unitaire

M1 Manangement UE4 LP 22
ACP optimisation
D’où le programme:
Max v’X’Xv
v’v =1
- lagrangien L(v,μ)= v’X’Xv+ μ(1-v’v)
- dérivée (dL/dv)= 2 X’Xv - 2 μ v
- condition du 1er ordre: annulation de la dérivée au
point candidat à l’optimum
X’X v = μ v, μ est alors la deuxième plus grande
valeur propre

M1 Manangement UE4 LP 23
Relations entre les espaces
Dans IRp
X’X u = λu, i.e. ║Xu║= λ=u X’X u
XX’X u = λXu
i.e. λ vp de XX’ associée à Xu
Dans IRn La matrice est XX’
XX’ u’ = λ’ u’ λ’ = λ

M1 Manangement UE4 LP 24
Coordonnées nouvelles
D’où u’= Xu/ √λ u= X’u’/ √λ
PROPORTIONNALITE
Nouvelles coordonnées:
Les composantes Xu sont les coordonnées
des individus φ =Xu et
Ψ =X’u’pour les variables

M1 Manangement UE4 LP 25
ACP plans factoriels
- La base globalement la meilleure est
composée des vecteurs propres associés aux
deux plus grandes valeurs propres
- D’autres bases, composées de vecteurs
propres associées aux valeurs propres moins
grandes peuvent aussi représenter le nuage
en le déformant peu par rapport aux
objectifs

M1 Manangement UE4 LP 26
A x e s fa c to r ie ls ?

le p la n d e p r o je c t io n le m e ille u r m in im is e
le s d é f o r m a t io n s e t c o n s e r v e u n m a x im u m
d e v a r ia n c e

M1 Manangement UE4 LP 27
ACP plusieurs facteurs
La qualité de le représentation par les Q premiers axes
factoriels est liée à la part de

∑ λi, i=1…q dans tr X’X=∑ λi i=1…n


Si corrélation tr x’x=p
Axes du plan de projection: u1, u2 …
= Facteurs principaux

Coordonnées des individus dans ce plan: Ci


= Composantes principales
Variances CP = VP

M1 Manangement UE4 LP 28
ACP
Les composantes principales sont les
 (c1, c2...cp ) sur l’axe Uk

liste des coordonnées des n individus sur


l’axe Uk , ci1,ci2, ...cip combinaison linéaire
des caractères initiaux pour tout i, xi
 Dont les coefficients sont les composantes
du kième facteur principal,
 Contribution de i: c²ik /λk
poids un individu =1/n, contribution>poids intéressante,problématique si >0,25
M1 Manangement UE4 LP 29
ACP résumé
Visualisation dans un espace
centre: point moyen

Réduction des caractères par combinaison


coefficients corrélation des caractères
initiaux non nuls
Maximisation de l’écartement
différenciation des catégories

M1 Manangement UE4 LP 30
ACP résultats

axes principaux
minimum de déformation du nuage de
points, inertie des points maximale par
rapport à ces axes

meilleur plan de projection


origine plan, point moyen des individus,
confondue avec le centre du cercle des
corrélations: variables
M1 Manangement UE4 LP 31
ACP ex. synthèse par moyenne

Agric. Cadrmoy. Ouvr. Empl. proflib.


taille m 1.75 1.78 1.74 1.70 1.72
Puisscv 7 9 6 5 11
revenu F 100000 200 000 90000 80 000 400 000

Exercice: VIOAcp.xls

M1 Manangement UE4 LP 32
acp.sba
M1 Management UE4 LP 34
ACP Pertinence Interprétation
Qualité
- fonction du taux d’inertie
- fonction du carré du cosinus de chaque point
avec le plan, ou fonction des corrélations composantes
principales et caractères initiaux plus il est élevé
meilleure est la représentation
Cercle des corrélations
- angle aigu: caractères proches, obtus: opposés
- droit: différenciés
Plan factoriel
plus un individu est extrême, plus il s’écarte de la
moyenne l’origine; plus il s’oppose à ceux se situant à
l’autre extrémité,
premier axe opposition gauche-droite
pour le deuxième opposition bas-haut
M1 Management UE4 LP 35

S-ar putea să vă placă și