Sunteți pe pagina 1din 18

Analyse en Composantes Principales

A.C.P.
M. Rehailia
Laboratoire de Mathmatiques de
lUniversit de Saint Etienne
(LaMUSE).

Introduction

LACP, introduite par K. Pearson et Thurston (annes


20), est une technique des statistiques descriptives
destine lanalyse des donnes
multidimensionnelles.
Elle permet de rduire la dimension de lespace des
descripteurs.
On cherche rduire le nombre de descripteurs
(variables) avec le minimum de perte dinformation
et prservant les relations existant dj avec entre
les diffrents descripteurs.

Position du Problme
On

a observ p variables sur n individus.


Dans la pratique cela reprsente un tableau
np entres quil est difficile, voire
impossible lire, pour extraire les
informations les plus pertinentes.
Exemple artificiel : Supposons quon a
observ le jeu de donnes suivant :

Exemple (suite)
descrip-teur
Sujet
S1
S2
S3
S4
S5
S6

D1

D2

D3

D4

-11
-12
-15
-14
-14,5
-13

-60
-62
-80
-75
-82
-72

110
93
113
94
100
102

40
25
39
25
30
32

Rappels

Matrice de variance-covariance : mesure la liaison entre les


diffrents descripteurs
=

cov X , X
i

i, j

o cov(Xi, Xi) = Var(Xi).

Matrice de corrlation : mme chose que sauf quil sagit


dun paramtre sans dimension
R = (Rij)i,j

Matrice de corrlation
1

0,970

-0,064

0,094

--

-0,102

0,037

--

--

0,986

--

--

--

Commentaires
Le tableau 1 est difficile lire (en particulier
lorsquon a plusieurs variables et sujets).
Par consquent les relations entre les
diffrents descripteurs sont indcelables
premire vue.
La matrice de corrlation (matrice de liaison
sans dimension) montre que la variable 1 est
fortement corrle avec la variable 2 ; il en est
de mme pour les variables 3 et 4.

Comment se fait la rduction de la


dimension tout en prservant les liaisons entre
les diffrents descripteurs ?

Les variables de dpart sont remplaces par des


vecteurs propres de la matrice ou de la matrice
R, appels Composantes principales.

Y-a-t-il un critre darrt ? gnralement on sarrte


quand au moins 75% de la variance est explique par
la variance cumule par les CP.

Quest-ce quun vecteur propre ?

est une valeur propre de la matrice A si et seulement si


Av = v
Le vecteur v dans la relation ci-dessus est appel vecteur
associ
Les valeurs propres sobtiennent en rsolvant le systme
dquations det(A- I) = 0.
Le nombre de valeurs propres, 1> > p, est gal au nombre
de lignes = nombre de colonnes de la matrice A
Important : La somme des valeurs propres de A est gale la
variance contenue dans lensemble des donnes.

Expression des composantes


principales

Dun point de vue pratique les composantes


principales scrivent
Fj = 1X1+.+ pXp
cest--dire que Fj est une combinaison linaire des
variables initiales X1, , Xp.
En plus de cet aspect calculatoire on doit pouvoir
faire des affirmations sur la qualit de la rduction et
la qualit de la reprsentation graphique.

Reprsentation graphique

Lorsque les diffrentes CP ont t trouves on peut reprsenter les diffrentes variables et
les diffrents individus dans le plan CP1, CP2 comme illustr ci-dessous

Interprtation

Chaque valeur propre reprsente la variance prise en compte


par la composante principale correspondante.
Pour lexemple on obtient :

Ici les deux premires composantes rendent compte de


0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale.
Ce qui veut dire que les 4 descripteurs peuvent tre remplacs
par les 2 premires composantes tout en prservant la quasitotalit de linformation (rduction).

Rsultats des calculs


Scores

des individus : il sagit des valeurs


prises par les composantes principales sur
les individus.
Ici

Rsultats (suite I)
Saturations

des variables : il sagit des


coefficients de corrlation entre les variables
et les composantes principales.

La

premire composante est surtout corrle


avec les deux derniers descripteurs

Rsultats (suite II)

Contribution (relative) dun individu la


formation dune composante principale :
0,07712
0,64%
2
2
0,0771 ... 0,0556

CTR(sujet 1, CP1)=

Qualit de la reprsentation :
pour sujet 1 et CP2

2,75152
0,998
2
2
QLT = 0,0771 ... 0,0166

Rsultats (suite II)

Qualit de la reprsentation dune variable la


formation dune CP : contribution de la premire variable
la formation de la premire composante principale
CTR =

0,62882
0,1976
2
2
2
0,6288 0,6651 ... 0,7129

Interprtation

Scores et saturations ne sont pas exprims


dans la mme unit de mesure.
Interprter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrl.
Individus proches de lorigine : ils ont peu
contribu linertie.
Interprter plutt les oppositions marques entre
individus.

Exemple

Analyser

les donnes Budget-temps


(voir feuilles de TD)

MERCI de votre attention !

S-ar putea să vă placă și