Sunteți pe pagina 1din 8

2001, I. Prim et D.

Darpy 1 Eiche n6
FICHE N. 7 : L'ANALYSE EN COMPOSANTES PRINCIPALES
RAPPELS :
L'analyse en composantes principales est une methode d'analyse des donnees multivariees.
Elle permet de decrire et d'explorer les relations qui existent entre plusieurs variables
simultanement a la diIIerence des methodes bi-variees qui etudient les relations supposees
entre deux variables.
La procedure s'appuie sur un tableau caracteristiques (c-a-d variables) X individus. On
cherche un nombre plus reduit de variables pour decrire eIIicacement les phenomenes
structurant d'un groupe de donnees.
On recherche donc les correlations qui existent entre les diIIerentes variables, pour rapprocher
au sein de "composantes" les variables les plus proche entre elles. On regroupe donc les
variables pour qu'elles "composent" des dimensions dans le but de reduire le nombre de
caracteristiques decrivant les individus aIin de mieux interpreter les donnees. Les
"composantes" sont en quelque sorte des "meta-variables".
En pratique chaque dimension est deIinie par la meilleure combinaison lineaire de variables
expliquant la variance non expliquee par la dimension precedente.
PROCEDURE ACP :
Le Iichier "Indicateurs economiques"
1
propose 7 variables (ou caracteristiques) pour
caracteriser les 22 regions Iranaises. L'analyse en composantes principales va permettre la
reduction du nombre de variables aIin de determiner une structure sous-jacente.
RcapituIatif des observations
a
Alsace 1624,00 39,14 8280,00 35976,00 241,00 5,20 700,00
Aquitaine 2795,00 36,62 41308,00 85351,00 256,00 10,20 1300,00
Auvergne 1320,00 37,48 26013,00 40494,00 129,00 9,30 600,00
Basse-Normandie 1390,00 38,63 17589,00 35888,00 91,00 9,00 600,00
Bourgogne 1600,00 38,26 31582,00 40714,00 223,00 8,10 750,00
Bretagne 2795,00 36,62 27208,00 73763,00 296,00 9,50 1300,00
Centre 2370,00 38,78 39151,00 56753,00 229,00 7,90 110,00
Champagne Ardenne 1340,00 37,85 25606,00 24060,00 155,00 9,30 550,00
Corse 240,00 , 8680,00 8273,00 , , ,
Franche Comt 1090,00 37,27 16202,00 27481,00 159,00 7,10 450,00
Haute Normandie 1730,00 37,80 12317,00 37461,00 181,00 10,80 750,00
Ile de France 10660,00 46,04 12012,00 273604,00 6722,00 7,30 5800,00
Languedoc Rousillon 2110,00 32,12 27376,00 62202,00 179,00 13,20 1000,00
Limousin 720,00 38,06 16942,00 21721,00 73,00 7,90 350,00
Lorraine 2300,00 34,34 23547,00 48353,00 185,00 8,60 950,00
Midi-Pyrnnes 2430,00 37,14 45348,00 78771,00 237,00 9,00 1100,00
Nord Pas de Calais 3960,00 32,05 12414,00 78504,00 278,00 12,60 1600,00
Pays de Loire 3060,00 37,93 32082,00 72027,00 339,00 9,60 1300,00
Picardie 1810,00 34,39 19399,00 36285,00 139,00 9,80 750,00
Poitou Charentes 1590,00 36,82 25809,00 44592,00 133,00 10,10 750,00
Provence - Cte d'azur 4260,00 34,96 31400,00 132552,00 610,00 11,00 2300,00
Rhne Alpes 5350,00 39,44 48698,00 159634,00 1474,00 7,40 2500,00
22 22 21 22 22 21 21 21
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
RGION
Population
en milliers
Population
active par
rapport la
population
totale
Superficie
en km2
Nombre
d'entreprises
Nombre
de brevets
dposs
au cours
de l'anne
Taux de
chmage
Nombre
delignes
tlphonique
s, en milliers
Limit aux 100 premires observations
a.
1
D'apres Giannelloni & Vernettte (1994), (WXGHVGHPDUFKp, Vuibert.
2001, I. Prim et D. Darpy 2 Eiche n6
Dans une premiere etape il convient de reperer les donnees aberrantes ou manquantes aIin de
ne pas les integrer dans l'analyse. La region Corse n'a pas toutes les inIormations et la region
Ile-de-Erance risque d'avoir un poids trop important dans l'analyse. Par consequent nous
allons eliminer ces deux observations de l'analyse
Placer le curseur sur la ligne correspondant a l'individu et Irappez la touche Supprimer de
votre clavier.
Pour realiser l'analyse en composante principale, selectionner Analyse ~ Eactorisation ~
Analyse Eactorielle...
On emploie le terme de Iactoriser, car il s'agit bien de reduire en une combinaison lineaire
plusieurs variables ensemble.
1
2
3
4
U La bote dialogue permet de selectionner les variables a Iactoriser. Selectionner toutes les
variables et cliquer sur la Ileche vers la droite.
V Selectionner le type de methode de Iactorisation. Conserver le deIaut "Analyse en
composantes principales" et selectionner l'option "graphique des valeurs propres",
egalement appele "graphique du coude".
W Il est toujours possible de demander une rotation des donnees, qui sera presentee dans la
section suivante. Ici on ne modiIie rien. Cependant il Iaut demander la "carte Iactorielle"
en cliquant sur l'option aIin de representer graphiquement les diIIerentes variables par
rapport aux composantes qui seront extraites et calculees.
X La bote "options" permet de selectionner des options de presentation, pour classer les
variables les plus importantes et cacher celles qui n'expliquent pas les dimensions. La
lecture des tableaux de resultats sont ainsi Iacilites.
2001, I. Prim et D. Darpy 3 Eiche n6
La procedure propose trois tableaux et un graphique a analyser
1. La variance exliquee
Le tableau presente les 2 dimensions qui permettent de resumer l'inIormation. La premiere
dimension extraite permet d'expliquer 57 de la variance du phenomene. Autrement dit,
les variables qui composent la premiere dimension rassemble synthetise 57 du
phenomene. C'est pourquoi on considere que la premiere dimension "explique" 57. La
deuxieme dimension n'explique que 27 de la variance. La variance est calculee a partir
de la valeur propre initiale qui elle-mme est dependante du nombre de variables au
depart. Par hypothese on recherche des dimensions de telle sorte qu'elles expliquent plus
que 1/ nb de dimensions , c'est-a-dire plus qu'une variable. Dans ce cas on retient les
dimensions qui expliquent plus de 1/7 14.2. Une valeur propre de 1 correspond a
14.2 . Une valeur propre de 4.058 permet d'expliquer 4.058 X 14.2 57. En
deIinitive tout les resultats du tableaux sont tous relies les uns aux autres.
Variance expIique totaIe
4,058 57,976 57,976 4,058 57,976 57,976
1,917 27,387 85,364 1,917 27,387 85,364
,630 8,997 94,360
,207 2,955 97,315
9,335E-02 1,334 98,649
7,330E-02 1,047 99,696
2,129E-02 ,304 100,000
Composante
1
2
3
4
5
6
7
Total
% de la
variance == % cumuls Total
% de la
variance == % cumuls
Valeurs propres initiales Sommes des carrs charges
Mthode d'extraction : Analyse des principaux composants.
La variance cumulee (85) permet d'evaluer si la reduction des 7 variables a 2
composantes permet de conserver l'essentiel du phenomene mesure par les 7 variables de
depart.
2. La qualite de representation
QuaIit de reprsentation
1,000 ,936
1,000 ,894
1,000 ,516
1,000 ,980
1,000 ,896
1,000 ,849
1,000 ,905
Population en milliers
Population active par rapport la population totale
Superficie en km2
Nombre d'entreprises
Nombre de brevets dposs au cours de l'anne
Taux de chmage
Nombre delignes tlphoniques, en milliers
Initial Extraction
Mthode d'extraction : Analyse des principaux composants.
de variance explique
dans les dimensions
extraites
La qualite de la representation permet de repondre a la question : dans quelle mesure mes
variables de depart sont-elles prises en comptes par les variables extraites? Ainsi la qualite
de representations de "population en milliers", est de 0.936. Cela veut dire que 93 de la
variance de la variable est prise en compte par l'une des dimensions extraites. Par contre la
variable "SuperIicie en km
2
" est mal representee par les deux dimensions qui sont
extraites. Cela signiIie que cette variable sera mal prise en compte par les deux meta-
variables que nous allons retenir.
2001, I. Prim et D. Darpy 4 Eiche n6
3. La Matrice des composantes
Il existe plusieurs manieres d'etudier les coeIIicients qui sont presentes dans la matrice des
composantes.
D'une part les colonnes correspondent a chacune des dimensions extraites (2 dans ce cas
precis). Elles contiennent des coeIIicients de saturation qui s'interpretent comme des
coeIIicients de correlation : le " nombre d'entreprises" 0.990 avec la dimension 1, et la
correlation avec la dimension 2 de cette mme variable est negligeable. On peut donc dire
que la dimension 1 et la variable "nombre d'entreprises" suivent la mme pente.
Matrice des composantes
a
,990
,964
,941 -,142
,883 ,340
,648 ,309
-,128 ,937
,219 -,895
Nombre d'entreprises
Population en milliers
Nombre delignes tlphoniques, en milliers
Nombre de brevets dposs au cours de l'anne
Superficie en km2
Population active par rapport la population totale
Taux de chmage
1 2
Composante
Mthode d'extraction : Analyse en composantes principales.
2 composantes extraites.
a.
Potentiel de
developpement
Activite
economique
D'autre part tous ces coeIIicients Iorment les coeIIicients a, b, c,. d'une droite de
regression qui est la composition lineaire de la composante. Ainsi composante 1
a "1E GHQWUHSULVHV" b "3RSXODWLRQ HQ PLOOLHUV" c "1E GH OLJQHV WpOpSKRQLTXHV",
etc. La deuxieme colonne represente la composante 2, avec les coeIIicients a', b', c',
etc.
EnIin la matrice des composantes nous permet de nommer les dimensions extraites en
etudiant les coeIIicients de saturation de chacune des variables par rapport aux
dimensions. Ainsi la dimension 1 peut tre nommee "Potentiel de developpement" car les
variables Iortement correlee avec elle (dont le coeIIicent est ~ 0.70) sont des indicateurs
du niveau de developpement et d'industrialisation (telephone, brevet, entreprises) : de la
valeur peut potentiellement tre creee. La dimension 2 souligne le niveau de l'activite
economique en dehors de la taille de cette activite : c'est l'activite economique representee
par deux variables : le niveau d'emploi de la population active et le taux de chmage. Les
coeIIicients sont naturellement inverses les uns par rapport aux autres. Si l'activite
economique augmente lorsque la population active augmente, l'activite economique
decrot lorsque le taux de chmage augmente aussi, bien que ces deux variables ne soient
pas directement connectees.
4. Le diagramme des composantes
Le diagramme des composantes est la representations graphique de la matrice des
composantes.
Les coeIIicients de saturations deviennent les coordonnees dans l'espace a 2 dimensions
ainsi cree. Les coordonnees du "QE GH OLJQHV WpOpSKRQLTXHV" sur l'axe des abcisses (axe X)
2001, I. Prim et D. Darpy 5 Eiche n6
est 0.941 et -0.142 sur l'axe des ordonnees (axe Y). Toutes les inIormations sont
disponibles pour que SPSS construisent les diagramme des composantes.
Diagramme de composantes
Composante 1
1,0 ,5 0,0 -,5 -1,0
C
o
m
p
o
s
a
n
t
e

2
1,5
1,0
,5
0,0
-,5
-1,0
nombre deli gne
taux de chmage
nombre de brevets
nombre d'entrepri ses
superfi cie en km2
populati on active pa
populati on en m
REPRESENTATION GRAPHIQUES DES INDIVIDUS :
La matrice des composantes permet egalement de calculer les coordonnees pour representer
graphiquement les individus par rapport aux deux dimensions extraites, dans le but de
comparer la position des chacune des observations.
En eIIet si on remplace, dans l'equation composante 1 a "1E GHQWUHSULVHV"
b "3RSXODWLRQ HQ PLOOLHUV" c "1E GH OLJQHV WpOpSKRQLTXHV", etc., les variables avec leur
vraie valeur pour chaque region, on obtient alors le score Iactoriel, c'est-a-dire une valeur
composite pour la dimension, qui devient la coordonnee dans l'espace par rapport a cette
mme dimension. On repete la mme procedure pour chacune dimension.
Recommencer l'analyse Iactorielle et cliquer sur "Eacteurs" et ensuite sur "Enregistrer sur les
variables"
2001, I. Prim et D. Darpy 6 Eiche n6
Deux nouvelles variables sont creees dans l'editeur de donnees qui donnent les scores
Iactorielles c'est-a-dire les coordonnees calculees de chaque individu par rapport aux deux
dimensions a partir de la matrice des composantes.
Il est ensuite aise de representer graphiquement les observations, en creant un graphique de
dispersion.
1. Selectionner dans le menu Graphes ~
Diagramme de dispersion, pour obtenir la
bote de dialogue sur la droite. Cliquer
"DeIinir".
9
2. Eaire glisser la variable REGR Eactor Score 1
vers l'axe X et REGR Eactor 2 vers l'axe Y.
AIin d'aIIicher sur le graphique les noms des
regions, Iaire glisser Region vers "Etiqueter
les observations par:".
Ensuite cliquer sur Options
9
3. Cliquer sur "AIIicher le diagramme avec les
etiquettes" pour les Iaire apparatre.
Le graphique ainsi obtenu necessite quelques modiIications pour en ameliorer la lisibilite.
Double-cliquer sur le graphique pour ouvrir la Ientre d'edition de graphiques.
1. Selectionner ensuite la commande Graphique
~ Lignes de reIerences.
2. Cliquer OK pour Echelle X
3. Cliquer ensuite Ajouter et enIin OK
4. Repeter la mme operation pour Echelle Y.
9
2001, I. Prim et D. Darpy 7 Eiche n6
Les observations (les regions dans ce cas) sont maintenant representees graphiquement par
rapport aux deux dimensions extraites. La visualisation graphique des resultats permet de
constater qu'il existe au moins deux groupes de region. Une analyse plus Iine peut tre
conduite alors avec une ClassiIication Hierarchique (voir Iiche n 11).
REGR factor score 1 for analysis 1
4 3 2 1 0 -1 -2
R
E
G
R

f
a
c
t
o
r

s
c
o
r
e



2

f
o
r

a
n
a
l
y
s
i
s




1
2
1
0
-1
-2
-3
5K{QH$OSHV
3URYHQFH&{WHGD]
3RLWRX&KDUHQWHV
3LFDUGLH
3D\VGH/RLUH
1RUG3DVGH&DODLV
0LGL3\UpQQpHV
/RUUDLQH
/LPRXVLQ
/DQJXHGRF5RXVLOORQ
+DXWH1RUPDQGLH
)UDQFKH&RPWp
&KDPSDJQH$UGHQQH
&HQWUH
%UHWDJQH
%RXUJRJQH
%DVVH1RUPDQGLH
$XYHUJQH
$TXLWDLQH
$OVDFH
PROCEDURE ACP AVEC ROTATION :
Lorsque la matrice des composantes ne permet de discerner clairement quelles variables
composent quelles dimensions, on a recours a une rotation des axes pour modiIier les
coordonnees des variables par rapport aux axes.
X1
X2
X3
X4
Composante 1
Composante 2

X1 0,50 - 0,40
X2 0,40 - 0,50
X3 0,50 0,45
X4 0,60 0,35
X1
X2
X3
X4
Composante 1
Composante 2

X1 0,50 - 0,40
X2 0,40 - 0,50
X3 0,50 0,45
X4 0,60 0,35
C
o
m
p
o
s
a
n
t
e
1
C
o
m
p
o
s
a
n
t
e
2

X1 0,90 - 0,10 -
X2 0,85 - 0,15
X3 0,05 0,75
X4 0,10 0,70
Avant rotation Aprs rotation
La matrice des composantes extraites
sans rotation est la matrice des
coordonnees des variables par rapport
aux deux axes que Iorment les
dimensions. Les coordonnees telles
quelles ne permettent pas de dire si X
1
,
X
2
, X
3
ou X
4
permettent sont plus
caracteristiques d'une dimension ou
d'une autre.
La rotation permettra de reduire cette
incertitude
La rotation modiIie le placement des axes dans
l'espace par rapport aux variables, sans modiIier
l'emplacement de celles-ci. Les variables sont
immobiles mais le reIerentiel bouge, ce qui permet
de calculer une nouvelles matrices des
coordonnees, c'est-a-dire des composantes. Ainsi
l'analyste peut plus Iacilement evaluer la
contribution de chaque variable a la construction
des composantes, et par voie de consequence mieux
nommer ces nouvelles meta-variables.
2001, I. Prim et D. Darpy 8 Eiche n6
Pour obtenir une rotation Varimax (rotation maintenant l'orthogonalite des axes), il Iaut
selectionner l'option rotation dans la bote dialogue de l'analyse Iactorielle :