Sunteți pe pagina 1din 26

Chapitre 2: Analyse en composantes principales (A.C.P.

Analyse de la structure de la matrice variance-covariance


Analyse de la variabilit et de la dispersion des donnes
Except si lune des variables peut sexprimer comme une fonction dautres, on a besoin des p variables pour prendre en compte toute la variabilit du systme Objectif de lACP: dcrire laide de q < p composantes un maximum de cette variabilit => trouver des descripteurs "efficaces" des donnes. Utilit : - rduction de la dimension des donnes - outil de visualisation des donnes 2 ou 3 dimensions (si q = 2 ou 3) - interprtation des donnes : liaisons inter-variables Etape intermdiaire souvent utilise avant dautres analyses !
2

Recherche des composantes principales


Proprits statistiques dsires: Nouveau systme de q (< p) variables: C1 , C2 ,, Ck ,, Cq non corrles (reprsentation optimale) de variance maximale (respect de la dispersion des donnes initiales) d'importance dcroissante (=> permet de se limiter au k meilleures) obtenues par combinaisons linaires des variables dorigine centres par rapport leur moyenne Y1,, Yp Ck = a1k Y1 + a2k Y2 + ... + apk Yp => coefficients ajk dterminer

Proprits gomtriques dsires: Reprsentation approches du nuage des n individus dans un sous-espace de dimension rduite. => Espace de projection avec distorsion minimale des distances projetes.

Dfinition des composantes par constructions successives: C1 dtermine une nouvelle direction dans le nuage de points qui suit laxe dallongement (tirement) maximal du nuage. ci1 = coordonne du point i sur laxe C1 C1 = projection de xi sur C1 xi
ci1 g *

ci1 = a1 j ( xij x j ) = a1 j yij


j =1 j =1

C1 de variance maximale les projections ci1 sont les plus disperses possible. Pour fixer la droite, on impose quelle passe par g (centre de gravit, sinon lensemble des droites parallles conviennent). => C1 = droite passant par le centre de gravit, ralisant le meilleur ajustement possible du nuage c--d : qui conserve au mieux la distance entre les points (aprs projection) => droite de projection assurant une distorsion minimale.
4

C2 = 2me composante, orthogonale C1 et de variance maximale. => C2 dtermine un axe perpendiculaire C1 (au point g) suivant la 2me direction dallongement maximum du nuage. => C1 et C2 dterminent le plan principal : le meilleur plan de projection (de distorsion minimum). p
2

C2 b2 b1

p1 f1

f2 C1

a1

a2

C1 est telle que la moyenne des d2(ai , ai) max. C2 est C1 et telle que la moyenne des d2(bi , bi) max. => C1 et C2 dterminent le plan tel que d2(fi , fi ) soit maximum. => C3 est la droite C1 et C2 (par g) telle que la variance des coord. soit maximum ...
5

Dtermination de la 1re composante principale:


Loprateur de projection orthogonale, , sur une droite de vecteur directeur unitaire v scrit:

(x) = vv x
T

avec La variance des observations projetes scrit alors:


2 sV

Nous avons donc


2 sV

Et donc
2 2 sV sV

vT S v
o S est la matrice variance-covariance des donnes

Nous devons donc maximiser cette variance des observations projetes

vT S v
=> problme doptimisation sous contrainte Nous formons donc la fonction de Lagrange

vT S v
Et nous calculons les conditions ncessaires doptimalit

Nous obtenons ainsi lquation aux valeurs propres

Sv=v
9

La variance des observations projetes scrit alors


2 sV

vT S v

La solution est donc de projeter les donnes sur le vecteur propre de S ayant la valeur propre la plus leve

10

Dtermination de la 2me composante principale:


Afin de trouver le second axe de variance maximale, nous recherchons

(vTSv)
o v1 est le premier vecteur propre valeur propre maximale Comme les vecteurs propres de S sont orthonorms, la solution est de choisir le deuxime vecteur propre de S ( deuxime valeur propre maximale) Et ainsi de suite pour les composantes successives

11

Interprtation des composantes principales


kme composante principale Ck dfinie par la combinaison linaire: Ck = v1k Y1 + v2k Y2 + . + vpk Yp o et avec 1 > 2 > k > p vjk = contribution de la variable Yj (Xj) la composante Ck
p

(Yj = variables centres)

(v1k , v2k , , vpk)T = vk le kme vecteur propre de S

Tout vecteur de donnes initial xi devient ci o cik = xij x j v jk


j =1

Moyenne de Ck = 0 Variance de Ck = k , cov(Ck , Ck) = 0 (pour tout k k ), => matrice var.-covar. des Ck = matrice diagonale des valeurs propres de S Cov(Ck , Xj) = k vjk Cor(Ck , Xj) =

k v jk k s jj

k
s jj

v jk
12

Interprtation des valeurs propres


La somme des valeurs propres correspond la variance totale des donnes:

tr(S) = s = j
j =1 2 j j =1

Chaque valeur propre mesure la part de variance explique par laxe factoriel (composante principale) correspondant(e) = variance des projections sur l'axe % de variance explique par chaque composante:

j =1

13

Rsultats:
Par transformation linaire, lACP remplace les p variables de dpart (corrles et de variances ) en q nouvelles composantes (q p) Ck orthogonales 2 2 (dcorrles) de variances maximales et dcroissantes: var(C1) var(C2) var(Cq) nombre maximum de composantes principales: q (nbre de k 0) p avec q < p ds que lune des variables dorigine est une combinaison linaire dautres. mise en vidence de relations linaires dans les donnes les donnes occupent, en ralit, un sous-espace de dimensions rduites (q < p ) Le nombre maximum de composantes principales = dimension intrinsque des donnes

14

Approche quivalente: transformation de Karhunen-Love Approche base sur le critre des moindres carrs: Recherche de la droite (passant par g) qui assure, par projection, la meilleure reprsentation des donnes ( 1 dim.) au sens des moindres carrs.
x g

* v

Dans l'espace de dpart la projection des xi sur une telle droite s'crit: g + ai v = g + vT (xi - g) v o v est le vecteur directeur unitaire de la droite ai = vT (xi - g) (projection du vecteur centr)
15

Le critre des moindres carr minimiser s'crit:

J = (g + ai v ) x i
i =1 n 2 2 n

= ai v (x i g )
i =1 n T

= ai v 2 ai v (x i g ) + x i g
i =1 n i =1 2 i =1 2 n n 2 n

= ai 2 ai + x i g = v (x i g ) + x i g
T 2 i =1 i =1 i =1 i =1 i =1

= v (x i g )(x i g ) v + x i g
T T i =1 T i =1

= v Sv + x i g
i =1

Il faut donc trouver le vecteur v qui maximise vT S v, ce qui nous ramne au mme problme doptimisation que prcdemment.

16

Pour trouver le sous-espace de dimension de r qui assure la meilleure reprsentation des donnes (au sens des moindres carrs), nous sommes donc amens, comme prcdemment, calculer les valeurs/vecteurs propres de S En particulier, les deux premiers axes principaux permettent la meilleure reprsentation (au sens des moindres carrs) des donnes sur un plan

17

Choix des r premires composantes principales


r << p rduction de la dimension objectif : garder un maximum dinformation des donnes initiales. Mesure de cette information : le % de variance explique:

k =1 p k =1

V (C )
k =1 k

Variance totale

Si les variables originales sont fortement corrles entre elles, un nombre rduit de composantes permet dexpliquer 80% 90% de variance !

18

Gomtriquement : Projection des donnes dans un sous-espace de dimension r, centr sur g et dfini par les r premiers axes principaux dallongement du nuage. La projection de xi dans ce nouvel espace r dimensions est un vecteur ci:
ci = cik v k
k =1 r

v k = (vk1 ,...., vkp )


p j =1

est le k me vecteur propre de S matrice var.-covar.


p j =1

et cik = vkj ( xij x j ) = vkj yij

des donnes initiales

Les projections ci sont les plus disperses possible et minimisent les distorsions au sens des moindres carrs:

J r = ci y i
i =1

(y i = xi g )

Les ci sont des approximations des yi minimisant l'erreur des moindres carrs.
19

Exemple : donnes initiales 3 dimensions distribues dans un ballon de rugby


C1

. . . .
C2

Projection

proximit sur le plan C1 , C2 proximit dans lespace initial

Plus le nuage est aplati sur C1 , C2 moins de variance sur la 3me dimension. % de variance explique par C1 , C2 lev En gnral : - % de variance explique par C1 , C2 , , Cr = mesure daplatissement du nuage sur le sous-espace des composantes ( r dim.). Plus ce % est grand, meilleure est la reprsentation des donnes dans le sous-espace ! - Les composantes principales sont entirement dtermines par la matrice S variancecovariance (vecteurs propres). => modification de S modification des composantes
20

Remarques pratiques:
Les variables trs disperses (sj levs) sont plus influentes que les autres. Les composantes principales expliquent essentiellement la variance (dispersion des donnes) due aux variables les plus disperses. Possibilit de travailler en donnes rduites: mme importance pour toutes les variables (normalises par sj), mais possible perte d'information. Si on travaille sur les donnes centres-rduites: S = R lACP explique la structure de R (autres composantes que celles de S) Autre possibilit : travailler sur les rangs ACP non-paramtrique plus robuste : - pour des donnes trs htrognes - aux dissymtries des distributions - en prsence de valeurs trs dviantes (extrmes => augmente anormalement la variance) permet dintgrer des variables qualitatives ordinales
21

Interprtation des rsultats


1/ Reprsentation des individus dans le plan principal => peut faire apparatre des groupes dindividus prsentant des similitudes.
! proximits abusives dues aux projections

.. . . . ...... .. .

C2

C1

=> la reprsentation nest valable que si le % de variance explique par C1 et C2 est suffisamment lev (nuage assez aplati sur le plan) => vrifier si les proximits se maintiennent dans dautres plans de projection: C1 - C3 , C2 - C3 , => individus les mieux reprsents = points proches du plan de projection (distorsion peu importante) => valuation de la qualit de reprsentation des diffrents points

22

Mesure de la qualit de reprsentation d'un point: Pour chaque composante:

. xi .g
ik

.k
ci

. xj .k
cj

Ck

(xij x j )v jk 2 c j =1 cos 2 ik = 2 ik = 2 d ( x i ,g ) p p (xij x j )v jk k =1 j =1


p

car

cos
k

ik = 1

bonne reprsentation si ik 0 ou 180 (cos2 ik 1) mauvaise reprsentation si ik 90 ou 270 (cos2 ik 0) => xj mieux reprsent que xi sur Ck Qualit de la reprsentation sur le plan principal: cos 2 i1 + cos 2 i 2 ( 1) Contribution de chaque point l'inertie (variance) de Ck: 2 n cik 2 Var (Ck ) = k = cik contribution de x i =
i =1

=> identification des lments responsables de la position de l'axe


23

2/ Interprtation des composantes principales


Base: corrlations avec les variables initiales
X1 X2 M Xp C1 r11 r21 M rp1 C2 r12 r22 M rp 2 C3 r13
23

K K K K K

=> reprer les variables trs corrles ( r 1 ou r -1 )

M rp 3

Interprtation des 2 premires composantes C1 , C2 : cercle des corrlations : C1 et C2 tant non-corrles, on a Cor2( C1, Xj ) + Cor2( C2, Xj ) 1 => chaque variable reprsente par les coordonnes : (Cor( C1, Xj ), Cor( C2, Xj )) est dans un cercle de rayon 1
C2

.X5 .X8

.X1

groupes de variables lies ou opposes .X2 .X3 .X4

C1

.X6 .X7

si proches de la circonfrence, bien reprsentes par les 2 composantes !


24

3/ Projection de points supplmentaires sur le plan principal aprs le calcul des composantes
- individus typiques de groupes dindividus Exemple: 3 individus t1 , t2 , t3 C2 .t1 .t2 .t3 C1 aux profils typiques de 3 groupes distincts

permet de voir si les composantes C1 et C2 sont mme de les distinguer ide de ce qui est distinguable (t1 des autres) ou non (t2, t3)

- indicateurs des variables initiales projection de "pseudo-individus" reprsentatifs de la direction ou dune (ou plusieurs) valeur(s) particulire(s) dune variable initiales.

25

0 0 1 0 1 0 e1 = 0 e 2 = 0 L e p = 0 M M M 1 0 0 min ( xi1 ) max( xi1 ) 0 0 p1 = 0 p2 = 0 M M 0 0


C2 e2 p1

Indicateurs du repre d'origine (des variables centres)

Indicateurs de valeurs spcifiques d'une variable

. .

e1

.
e3

p2

.
C1 Ecrasement du repre des axes d'origine sur le plan principal
26

S-ar putea să vă placă și