Documente Academic
Documente Profesional
Documente Cultură
Proprits gomtriques dsires: Reprsentation approches du nuage des n individus dans un sous-espace de dimension rduite. => Espace de projection avec distorsion minimale des distances projetes.
Dfinition des composantes par constructions successives: C1 dtermine une nouvelle direction dans le nuage de points qui suit laxe dallongement (tirement) maximal du nuage. ci1 = coordonne du point i sur laxe C1 C1 = projection de xi sur C1 xi
ci1 g *
C1 de variance maximale les projections ci1 sont les plus disperses possible. Pour fixer la droite, on impose quelle passe par g (centre de gravit, sinon lensemble des droites parallles conviennent). => C1 = droite passant par le centre de gravit, ralisant le meilleur ajustement possible du nuage c--d : qui conserve au mieux la distance entre les points (aprs projection) => droite de projection assurant une distorsion minimale.
4
C2 = 2me composante, orthogonale C1 et de variance maximale. => C2 dtermine un axe perpendiculaire C1 (au point g) suivant la 2me direction dallongement maximum du nuage. => C1 et C2 dterminent le plan principal : le meilleur plan de projection (de distorsion minimum). p
2
C2 b2 b1
p1 f1
f2 C1
a1
a2
C1 est telle que la moyenne des d2(ai , ai) max. C2 est C1 et telle que la moyenne des d2(bi , bi) max. => C1 et C2 dterminent le plan tel que d2(fi , fi ) soit maximum. => C3 est la droite C1 et C2 (par g) telle que la variance des coord. soit maximum ...
5
(x) = vv x
T
Et donc
2 2 sV sV
vT S v
o S est la matrice variance-covariance des donnes
vT S v
=> problme doptimisation sous contrainte Nous formons donc la fonction de Lagrange
vT S v
Et nous calculons les conditions ncessaires doptimalit
Sv=v
9
vT S v
La solution est donc de projeter les donnes sur le vecteur propre de S ayant la valeur propre la plus leve
10
(vTSv)
o v1 est le premier vecteur propre valeur propre maximale Comme les vecteurs propres de S sont orthonorms, la solution est de choisir le deuxime vecteur propre de S ( deuxime valeur propre maximale) Et ainsi de suite pour les composantes successives
11
Moyenne de Ck = 0 Variance de Ck = k , cov(Ck , Ck) = 0 (pour tout k k ), => matrice var.-covar. des Ck = matrice diagonale des valeurs propres de S Cov(Ck , Xj) = k vjk Cor(Ck , Xj) =
k v jk k s jj
k
s jj
v jk
12
tr(S) = s = j
j =1 2 j j =1
Chaque valeur propre mesure la part de variance explique par laxe factoriel (composante principale) correspondant(e) = variance des projections sur l'axe % de variance explique par chaque composante:
j =1
13
Rsultats:
Par transformation linaire, lACP remplace les p variables de dpart (corrles et de variances ) en q nouvelles composantes (q p) Ck orthogonales 2 2 (dcorrles) de variances maximales et dcroissantes: var(C1) var(C2) var(Cq) nombre maximum de composantes principales: q (nbre de k 0) p avec q < p ds que lune des variables dorigine est une combinaison linaire dautres. mise en vidence de relations linaires dans les donnes les donnes occupent, en ralit, un sous-espace de dimensions rduites (q < p ) Le nombre maximum de composantes principales = dimension intrinsque des donnes
14
Approche quivalente: transformation de Karhunen-Love Approche base sur le critre des moindres carrs: Recherche de la droite (passant par g) qui assure, par projection, la meilleure reprsentation des donnes ( 1 dim.) au sens des moindres carrs.
x g
* v
Dans l'espace de dpart la projection des xi sur une telle droite s'crit: g + ai v = g + vT (xi - g) v o v est le vecteur directeur unitaire de la droite ai = vT (xi - g) (projection du vecteur centr)
15
J = (g + ai v ) x i
i =1 n 2 2 n
= ai v (x i g )
i =1 n T
= ai v 2 ai v (x i g ) + x i g
i =1 n i =1 2 i =1 2 n n 2 n
= ai 2 ai + x i g = v (x i g ) + x i g
T 2 i =1 i =1 i =1 i =1 i =1
= v (x i g )(x i g ) v + x i g
T T i =1 T i =1
= v Sv + x i g
i =1
Il faut donc trouver le vecteur v qui maximise vT S v, ce qui nous ramne au mme problme doptimisation que prcdemment.
16
Pour trouver le sous-espace de dimension de r qui assure la meilleure reprsentation des donnes (au sens des moindres carrs), nous sommes donc amens, comme prcdemment, calculer les valeurs/vecteurs propres de S En particulier, les deux premiers axes principaux permettent la meilleure reprsentation (au sens des moindres carrs) des donnes sur un plan
17
k =1 p k =1
V (C )
k =1 k
Variance totale
Si les variables originales sont fortement corrles entre elles, un nombre rduit de composantes permet dexpliquer 80% 90% de variance !
18
Gomtriquement : Projection des donnes dans un sous-espace de dimension r, centr sur g et dfini par les r premiers axes principaux dallongement du nuage. La projection de xi dans ce nouvel espace r dimensions est un vecteur ci:
ci = cik v k
k =1 r
Les projections ci sont les plus disperses possible et minimisent les distorsions au sens des moindres carrs:
J r = ci y i
i =1
(y i = xi g )
Les ci sont des approximations des yi minimisant l'erreur des moindres carrs.
19
. . . .
C2
Projection
Plus le nuage est aplati sur C1 , C2 moins de variance sur la 3me dimension. % de variance explique par C1 , C2 lev En gnral : - % de variance explique par C1 , C2 , , Cr = mesure daplatissement du nuage sur le sous-espace des composantes ( r dim.). Plus ce % est grand, meilleure est la reprsentation des donnes dans le sous-espace ! - Les composantes principales sont entirement dtermines par la matrice S variancecovariance (vecteurs propres). => modification de S modification des composantes
20
Remarques pratiques:
Les variables trs disperses (sj levs) sont plus influentes que les autres. Les composantes principales expliquent essentiellement la variance (dispersion des donnes) due aux variables les plus disperses. Possibilit de travailler en donnes rduites: mme importance pour toutes les variables (normalises par sj), mais possible perte d'information. Si on travaille sur les donnes centres-rduites: S = R lACP explique la structure de R (autres composantes que celles de S) Autre possibilit : travailler sur les rangs ACP non-paramtrique plus robuste : - pour des donnes trs htrognes - aux dissymtries des distributions - en prsence de valeurs trs dviantes (extrmes => augmente anormalement la variance) permet dintgrer des variables qualitatives ordinales
21
.. . . . ...... .. .
C2
C1
=> la reprsentation nest valable que si le % de variance explique par C1 et C2 est suffisamment lev (nuage assez aplati sur le plan) => vrifier si les proximits se maintiennent dans dautres plans de projection: C1 - C3 , C2 - C3 , => individus les mieux reprsents = points proches du plan de projection (distorsion peu importante) => valuation de la qualit de reprsentation des diffrents points
22
. xi .g
ik
.k
ci
. xj .k
cj
Ck
car
cos
k
ik = 1
bonne reprsentation si ik 0 ou 180 (cos2 ik 1) mauvaise reprsentation si ik 90 ou 270 (cos2 ik 0) => xj mieux reprsent que xi sur Ck Qualit de la reprsentation sur le plan principal: cos 2 i1 + cos 2 i 2 ( 1) Contribution de chaque point l'inertie (variance) de Ck: 2 n cik 2 Var (Ck ) = k = cik contribution de x i =
i =1
K K K K K
M rp 3
Interprtation des 2 premires composantes C1 , C2 : cercle des corrlations : C1 et C2 tant non-corrles, on a Cor2( C1, Xj ) + Cor2( C2, Xj ) 1 => chaque variable reprsente par les coordonnes : (Cor( C1, Xj ), Cor( C2, Xj )) est dans un cercle de rayon 1
C2
.X5 .X8
.X1
C1
.X6 .X7
3/ Projection de points supplmentaires sur le plan principal aprs le calcul des composantes
- individus typiques de groupes dindividus Exemple: 3 individus t1 , t2 , t3 C2 .t1 .t2 .t3 C1 aux profils typiques de 3 groupes distincts
permet de voir si les composantes C1 et C2 sont mme de les distinguer ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)
- indicateurs des variables initiales projection de "pseudo-individus" reprsentatifs de la direction ou dune (ou plusieurs) valeur(s) particulire(s) dune variable initiales.
25
. .
e1
.
e3
p2
.
C1 Ecrasement du repre des axes d'origine sur le plan principal
26