Sunteți pe pagina 1din 19

Analyse de Données Multidimensionnelle :

Analyse en Composantes Principales (ACP)


Sous SPSS

Réalisé par : Nabil EL BAOUCHARI


Science économique
Année Universitaire : 2016 - 2017
**
Sommaire :

 Introduction : Démarche statistique

 Partie 1 : ACP [problème et L’analyse]


 ACP ? problème ?
 Les objectifs L’ACP ?
 Des outils d’analyses ACP

 Partie 2 : traitement L’ACP sous SPSS


 Introduction
 Matrice des données
 La démarche à suivre sous SPSS
 Analyse des résultats

 Conclusion
Introduction :
Démarche statistique

 On désigne par statistique descriptive multidimensionnelle l'ensemble des


méthodes de la statistique descriptive permettant de traiter simultanément un
nombre quelconque de variables. Ces méthodes sont purement descriptives,
c'est-à-dire qu'elles ne supposent, a priori, aucun modèle Sous-jacent, de type
probabiliste.
 Parmi ces modèles on a L’ACP (pour les variables quantitatives) dont le but
est de résumer le maximum d’information possibles en perdant le moins
possible pour :
 Faciliter l’interprétation d’un grand nombre de données initiales
 Donner plus de sens aux données réduites
ACP permet donc de réduire des tableaux de grandes tailles en un petit nombre de
variables (2 ou 3 généralement) tout en conservant un maximum d’information.
o Analyse les résultats de L’ACP répondre à trois questions :
1. Les données sont-elles factorisables ?
2. Combien de facteurs retenir ?
3. Comment interpréter les résultats ?
Alors l’ACP permet d’explorer les liaisons entre variables et les
ressemblances entre individus.
Les données :
p variables quantitatives observées sur n individus

On recherche à représentation le nuage des individus, chaque e'i


on peut associer un point dans Rp (espace des individus) Impos-
sible à visualiser dès que p > 3
On cherche une représentation des n individus, dans un
sous-espace Fk de Rp de dimension k ( k petit 2,3…)
Autrement dit, on cherche à définir k nouvelles variables com-
binaisons linéaires des p variables initiales qui feront perdre le
moins d’information possible.
o Ces variables seront appelées « composantes principales »
o Les axes qu’elles déterminent : « axes principaux »
o Les formes linéaires associées : « facteurs principaux »
« Perdre le moins d’information possible »

Distance projection
Orthogonale

Fk devra être « ajusté » le


mieux possible au nuage Fk est le sous-espace tel
des individus: la somme que le nuage projeté ait
des carrés des distances une inertie (dispersion)
des individus à Fk doit maximale.
être minimale.

Le choix de la distance
Entre individus : INERTIE

Dans l’espace Rp à p dimensions, la distance euclidienne


entre deux individus s’écrit:

Le problème des unités ?


Pour résoudre ce problème, on choisit de transformer les données en don-
nées centrées-réduites. moyenne
de la
variable
écart-type de la Xk
variable Xk
INERTIE TOTALE :
L’inertie mesure la dispersion totale du nuage de points. Et
donc aussi égale à la somme des variances des variables étu-
diées.
S1²……….. S1p²
S2² S2²….....S2p²
V la matrice de
V= … ……. variances-covariances
… ……..
S1p²……….Sp²

Donc le cas les variances sont centrées réduits S i²=1 Inertie to-
tal est alors égale à p (nombre des variables).
« LA SOLUTION DU PROBLÈME POSÉ »
La recherche d’axes portant le maximum d’inertie équivaut à la construction de
nouvelles variables de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de façon à se
placer dans un nouveau système de représentation où le premier axe apporte le
plus possible de l’inertie totale du nuage, le deuxième axe le plus possible de
l’inertie non prise en compte par le premier axe, et ainsi de suite.

« la diagonalisation de la matrice de variances-covariances »

a. Axes principaux :
On appelle axes principaux d’inertie les axes de direction les vecteurs propres
de V normés à 1. Il y en a p.
Le premier axe est celui associé à la plus grande valeur propre on le note u1.
Le deuxième axe est celui associé à la dexième valeur propre on le note u2.
…………….
…………….
…………….
b. Composantes principales :

À chaque axe est associée une variable appelée composante principale.


La composante cⁱ est le vecteur renfermant les cordonnées des projections des
individus sur l’axe i.
Pour obtenir ces coordonnées, on écrit que chaque composante principale est
une combinaison linéaire des variables initiales.

Par Exemple :

 La variance d’une composante principale est égale à l’inertie portée par


l’axe principal qui lui est associé.

 Les composantes principales sont non corrélées deux à deux (en effet les
axes associés sont orthogonaux).

« REPRÉSENTATION DES INDIVIDUS »


C1 1
j
La jème composante principale c = C2 2
.

Cpj

Fournit les coordonnées des n individus sur le jème axe principal.

Si on désire une représentation plane des individus, la meilleure sera celle


réalisée grâce aux deux premières composantes principales.
« REPRÉSENTATION DES VARIABLES »
Les « proximités » entre les composantes principales et les variables
initiales sont mesurées par les covariances, et surtout les corrélations

r (cj,Xi) :est le coefficient de corrélation linéaire entre cj et Xi.

2
C
Xi
r (c2 , xi )

r (c2 , xi ) C1

CERCLE DES CORRÉLATIONS

« QUELLES QUE FOURMULES D’INTERPERITER DES


VARAIBLES »
i. Le produit scalaire :
Permettant d’associer aux paramètres courants :
écart-type, coefficient de corrélation linéaire des représentations
géométriques.(on suppose les variables centrées).

ii. Coefficient de corrélation linéaire


Le cosinus de l’angle formé par les variables Xi et Xj est le coefficient de
corrélation linéaire de ces deux variables
 Partie 2 : traitement L’ACP sous SPSS
i. Introduction :
Le traitement et l’analyse l’ACP manuellement peut-être compliqué car par
exemple si on travaille avec plus que 100 variables statistiques dont le
nombre d’observation plus grand, le traitement devient très difficile alors les
logiciels (R, Excel…) permettent de facilité le traitement pour n’importe
qu’ils cas, parmi ces logiciels on a SPSS.

ii. Matrice des données :


Pour développer mieux le traitement et l’analyse ACP on dispose la matrice
des données suivants :
1ère année Economie et gestion
Semestre 1 Economie et gestion Semestre 2 Economie et gestion
M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 M12 M13 M14

Etudiant 1
E
1
7 12 11 9 14 20 9 14,5 18 7,5 10 13 13,5 8,5
Etudiant 2
E
2
5 7 10 6 13 18 12 14,5 7 5 10 14 11,5 10,5
Etudiant 3
E
3
6 14 11,5 11 5 12,5 13 11,5 15 1 5 12 11,5 15
Etudiant 4
E
4
8,5 11 10 3 2 5 10 12 10 5 10 15 10 12,5
Etudiant 5
E
5
10,5 10 12,5 10 8 11,5 11 10 9 10 10 18 6 14,5
Etudiant 6
E
6
11 8 12,5 9 13 3 10 11,5 9 7 7 6 4,5 11
Etudiant 7
E
7
12 15 11 13 18 14 14 15,5 18 8,5 5 12 14,5 13,6
Etudiant 8
E
8
11 15 16 13 10 7 6 12 19 15 12 10 18 14
Etudiant 9
E
9
10 10 15 18 11 15 15 9 12 19 16 14 10 13
Etudiant 10
E
10
10 15 18 11 8 10 12 12 14 12 19 14 16 18
M1 :introduction à l’économie M2 :microéconomie 1 M3 :comptabilité générale 1 M4 :management 1 M5 : statistique descriptif M6 :
analyses mathématique M7 :LT 1 M8 :macroéconomie M9 :microéconomie 2 M10 :comptabilité générale 2 M11 :management 2
M12 :probabilités M13 :algèbres et math fin M14 : LT 2

On dispose les notes de 1er années économie et gestion dont 14 modules (variables statistiques)
on note M (M1 à M14) avec 10 étudiants (individus) on note E (E à E ).
i i 1 10
On transfert notre base de données dans le SPSS et en suite en décodé les variables.

Fichier SPSS : « Matrice DD.sav »


iii. La démarche à suivre sous SPSS :
 Pour faire analyse de l’ACP on faire les étapes suivantes :

La boîte de dialogue suivante apparaît alors :


On choisit les variables qui nous
paraissent les mieux adaptées
à l’analyse en les sélectionnant dans
la partie de droite puis en cliquant
sur la flèche qui pointe vers la

droite.

Cinq boites de dialogue


d’options s’offrent maintenant
à nous :
 Caractéristiques…
 Extraction…
 Rotation…
 Scores…
 Options…
Dans « matrice de corrélation »
cliquer sur « Coefficients » et
« Indice KMO et test de shéri-
cité de Bartlett’s ».
et poursuivre !

Dans la biote EXTRACTION on


choisit Tracé d’effondrement (Gra-
phique des valeurs propres), on re-
marque que la méthode utilisé est
composante principales, pour les
valeurs propres on va détailler dans
les résultats ! click sur poursuivre !

Pour l’instant, il ne faut rien toucher


dans «méthode». L’option « Vari-
max » pourra être choisie si les résul-
tats ne sont pas suffisants dans un
premier temps.
Par contre, cocher l’option « Carte(s)
factorielle(s)» Cette option permet
d’avoir une représentation des diffé-
rents axes.
Pour l’instant, il ne faut toucher à rien.

Choisir l’option « Classement des variables


par taille » dans Affichage des projections.

Pour terminer on clique sur OK !


iv. Analyse des résultats
Analyser les résultats d’une ACP, c’est répondre à trois questions :

 Les données sont-elles factorisables ?


 Combien de facteurs retenir ?
 Comment interpréter les résultats ?

Les données sont-elles factorisables ?


Pour répondre à cette question, dans un premier temps, il convient
d’observer la matrice des corrélations. Si plusieurs variables sont corrélées
(> 0.5), la factorisation est possible. Si non, la factorisation n’a pas de sens et
n’est donc pas conseillée.

Dans notre exemple, plusieurs variables sont corrélées entre elles l’ACP
satisfait on peut continuer.
Mesure de l'adéquation de l'échantillonnage (KMO)
Cette mesure donne un aperçu global de la qualité des corrélations inter-
items. L’indice KMO varie entre 0 et 1 et donne une information
complémentaire à l’examen de la matrice de corrélation.
Son interprétation va comme suit :
0,80 et plus Excellent 0,70 et plus Bien 0,60 et plus Médiocre 0,50 et plus Misérable
Moins de 0,50 Inacceptable
Cet indice augmente 1) plus la taille de l’échantillon est grande, 2) plus les
corrélations inter-items sont élevées, 3) plus le nombre de variables est grand
et 4) plus le nombre de facteurs décroît.
Combien de facteurs retenir ?
Trois règles sont applicables :
• 1ere règle : la règle de Kaiser qui veut qu’on ne retienne que les facteurs
aux valeurs propres supérieures à 1.
• 2eme règle : on choisit le nombre d’axe en fonction de la restitution
minimale d’information que l’on souhaite. Par exemple, on veut que le
modèle restitue au moins 80% de l’information.
Pour ces deux premières règles, on examine le tableau « Variance totale
expliquée ».

Variance totale expliquée

Valeurs propres initiales Sommes extraites du carré des chargements

Composante Total % de la variance % cumulé Total % de la variance % cumulé

1 4,355 31,110 31,110 4,355 31,110 31,110

2 2,933 20,951 52,061 2,933 20,951 52,061

3 2,052 14,655 66,716 2,052 14,655 66,716

4 1,892 13,512 80,228 1,892 13,512 80,228

5 1,241 8,861 89,090 1,241 8,861 89,090

6 ,643 4,593 93,683

7 ,584 4,174 97,857

8 ,187 1,336 99,193

9 ,113 ,807 100,000

10 3,001E-16 2,143E-15 100,000

11 1,588E-16 1,134E-15 100,000

12 -1,032E-16 -7,370E-16 100,000

13 -2,131E-16 -1,522E-15 100,000

14 -4,505E-16 -3,218E-15 100,000


Méthode d'extraction : Analyse en composantes principales.

On prend Les valeurs propres supérieure 1 de la matrice covariance-variance,


rappels bien que on peut déterminer les valeurs propres d’un matrice suite la
formule suivant :

A₋ΦI =0 Avec :
A : matrice
Φ : valeur propre de la matrice A
I : matrice identité
 3eme méthode : le « Tracé d'effondrement test » ou test du coude. On
observe le graphique des valeurs propres et on ne retient que les valeurs qui
se trouvent à gauche du point d’inflexion. Graphiquement, on part des
composants qui apportent le moins d’information (qui se trouvent à droite),
on relie par une droite les points presque alignés et on ne retient que les axes
qui sont au-dessus de cette ligne.

Dans notre exemple, nous ne retenons les cinq premiers axes.


Interprétation des résultats :
Matrice des composantesa

Composante
1 2 3 4 5

comptabilité générale 1 ,911 -,204 -,041 -,009 -,185


comptabilité générale 2 ,785 -,166 ,278 -,350 -,316
management 1 ,735 ,105 ,368 -,386 ,240
LT 2 ,673 -,283 -,102 ,413 ,433
microéconomie 1 ,655 ,492 -,251 ,406 ,289
management 2 ,624 -,360 ,307 ,188 -,514
introduction à l’économie ,615 -,087 -,294 -,504 ,202
macroéconomie -,357 ,833 -,020 ,087 -,067
microéconomie 2 ,530 ,756 -,158 ,105 ,061
algèbres et math fin ,533 ,655 -,011 ,422 -,213
analyses mathématique -,162 ,467 ,829 ,136 -,102
LT 1 -,006 -,136 ,678 -,049 ,639
statistique descriptif ,004 ,615 ,309 -,665 -,035
probabilités -,018 -,290 ,563 ,580 -,012

Méthode d'extraction : Analyse en composantes principales.


a. 5 composantes extraites.
La Matrice des composantes donne le degré d’information à retenir après
l’extraction les variables comme remarque le 1er composante est très corrélé
avec comptabilité 1 et 2 et management 1 ainsi de suite pour les autres
composantes, mais on remarque que 3éme et 4éme et 5éme composantes sont
moins corrélés avec les variables. Alors on choisit autre solution pour mieux
analyser les variables et pour aussi présenter d’une manière très simple.
C-à-d au lieu choisit 1 on peut prendre 2 dans le cadre d’extraction comme
valeur propres :
Donc dans l’extraction SPSS on choisit seulement les 3 composantes dont les
valeurs propres sont supérieures ou égale 2 !

Comme observe que M14 et M11 très corrélé de plus M10 et M3 ainsi de
suite pour les autres variables on peut observer simplement les variables.
Le graphique donner une aide sur dispersion des notes des modules
C’est l’objet principale de l’ACP.

S-ar putea să vă placă și