Documente Academic
Documente Profesional
Documente Cultură
1
1.1
Mise en uvre
Caractristiques
Statistiques - Caractristiques univaries : Donne lesprance et lcart-type de chaque variable. Statistiques - Structure initiale : Afche les valeurs de la structure initiale (variance, valeurs propres, etc) Matrice des corrlations - Coefcients : Afche la matrice des corrlations Matrice des corrlations - Indice KMO et test de Bartlett : Calcule le KMO et effectue le test de Bartlett. Ils permettent de dterminer, a priori, ladquation de lACP. Matrice des corrlations - Anti-image : Permet de dterminer les variables supprimer dans le cas dun KMO trop faible.
1.2
Extraction
Mthode : Mthode dextraction. Laisser Composantes principales. Analyser - Matrice de corrlation/covariance : fait une ACP norme ou non-norme. Afcher - Structure factorielle sans rotation : Rsultat avant rotation [Laisser cocher supprimer ventuellement si rotation]. Afche les coordonnes des composantes, . . . Afcher - Graphique des valeurs propres : Scree plot. Permet de reprer le coude. Extraire - Valeurs propres suprieures / Nombre de facteurs : permet de prciser les facteurs (axes) quon souhaite utiliser. Soit ceux correspondants une valeur propre suprieure 1 (donc expliquant mieux quune variable initiale) soit par leur nombre (2 ou 3).
1.3
Rotation
Mthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le plan factoriel. Ne change pas linertie explique par le plan. Aucune : Pas de rotation. Les facteurs correspondent aux valeurs propres par ordre de grandeur dcroissante. Varimax : simplie linterprtation des facteurs Quartimax : simplie linterprtation des variables Equamax : combinaison de Varimax et Quartimax Afcher - Structure aprs rotation : Afche les coordonnes des composantes aprs rotation, . . . Afcher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel.
1.4
Facteurs
Enregistrer dans des variables (Mthode Rgression) : Permet denregistrer (les coordonnes des individus dans) les nouvelles variables. Permet de faire une reprsentation du nuage des individus. Afcher la matrice des coefcients factoriels : Coordonnes des composantes dans les variables initiales.
2
2.1
Rsultats
Statistiques descriptives
Afche la moyenne, lcart-type et le nombre dobservations pour chaque variable. Permet donc de
Facult de Droit de de Sciences conomiques, Universit de Limoges. E-mail: vincent.jalby@unilim.fr
juger de lhtrognit des variables ; reprer les variables ayant des valeurs manquantes.
2.2
Matrices de corrlation
Permet de dceler rapidement les variables fortement corrles et/ou de juger de lexistence de corrlations sufsantes entre les variables. conrmer par le test de Bartlett.
2.3
Ce test consiste comparer la matrice des corrlations X X avec lidentit (pas de corrlation entre les variables) en utilisant un test du 2 . Une valeur leve avec une signication proche de 0 permet de rejeter la non-corrlation globale des variables, cest--dire, assure que les variables sont sufsamment corrles entre-elles pour permettre une rduction signicative de la dimension. Condition indispensable pour faire une ACP.
2.4
Test Kaiser-Mayer-Olkin
Le KMO, rapport de la somme des corrlations au carr par la somme des corrlations partielles au carr, est un rel compris entre 0 et 1. Un KMO assez lev (> 0.6) assure que les corrlations partielles ne sont pas trop importantes par rapport aux corrlations simples. Indispensable pour obtenir une ACP intressante. Dans la ngative, il peut tre ncessaire de supprimer certaines variables.
2.5
Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude.
2.6
Qualit de reprsentation
Reprer les variables ayant un taux dextraction (de variance) faible, en dessous de 60 %. Linterprtation de ces variables devra tre faite avec prudence. Cette tape peut tre une conrmation des observations faites sur le graphe.
2.7
Dterminer le nombre daxes retenir pour avoir plus de 70 % de variance (cumule) explique. Si le nombre daxes est suprieur 2, il faudra tudier plusieurs schmas. Limportance de chaque axe est donne par le % de variance explique (par chaque axe).
2.8
2.9
Matrice de transformation
2.10
2.11
3
3.1
Analyse de lACP
Intrt de lACP : KMO and Bartletts Test / Correlation Matrix
Vrier que le Chi-2 du Bartletts Test est sufsamment grand avec une signication quasi nulle : les variables sont sufsamment corrles. La matrice des corrlation peut conrmer cela. Vrier que le KMO est suprieur 0,6 ou 0,5 : pas de corrlations partielles trop importantes. Sinon, supprimer une ou plusieurs variables de lanalyse.
3.2
Dterminer le nombre daxes retenir pour avoir plus de 70 % de variance (cumule) explique. Si le nombre daxe est suprieur 2, il faudra tudier plusieurs schmas. Limportance de chaque axe est donne par le % de variance explique (par chaque axe). Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude. Cela doit correspondre au nombre daxes dtermin prcdemment.
3.3
Reprer les variables ayant un taux dextraction (de variance) faible, en dessous de 60 %. Linterprtation de ces variables devra tre faite avec prudence. Cette tape peut tre une conrmation des observations faites sur le graphe.
3.4
Reprer les variables ayant une forte contribution (positive ou ngative) sur chaque axe. Ces variables donneront un sens aux axes. Deux (groupes de) variables avec des contributions de signes opposs reprsenteront des oppositions. Cette tape peut tre une conrmation des observations faites sur le graphe.
3.5
Ltude graphique ne doit porter que sur les variables se trouvant proches du cercle (bord du disque) des corrlations, cest--dire celles qui sont sufsamment reprsentes. Reprer les groupes de variables et interprter leurs regroupements. Les variables proches des axes permettent de donner un sens aux axes, en mettant ventuellement en valeur des oppositions. Des variables proches reprsentent des variables fortement corrles. Des variables angle droit reprsentent des variables non corrles.
4
4.1
Pour obtenir le nuage des individus (dans le plan factoriel), il faut faire une ACP en ayant coch loption Facteurs > Enregistrer dans des variables. Deux (ou plus) nouvelles variables sont gnres. Elles portent le nom facx_y o x reprsente le numro du facteur, et y le numro de lanalyse.
4.2
Faire alors un diagramme de dispersion simple (Graphe > Diagramme de dispersion > Simple. Mettre le premier facteur sur laxe X et le second sur laxe Y. tiqueter les observations par la variable contenant le nom des individus, et ne pas oublier de cocher dans Options... loption Afficher le diagramme avec les tiquettes dobservations.
4.3
Lorigine des axes (0, 0) correspond la moyenne sur lchantillon. La signication des axes est celle obtenue dans lanalyse duale (des variables). Il convient de mettre en valeur : les groupes dindividus (ayant donc un comportement identique) ; les individus isols ; la position relative des (groupe d) individus par rapport aux axes. Attention, ce graphique ne permet pas de connatre la qualit de reprsentation des individus.
4.4
Contribution
2 mi F (i)
La contribution dun individu Xi la dtermination de laxe U est donne par CTR (i) =
Les points les plus loigns de lorigine ont les plus fortes contributions.
4.5
Il nest pas possible de lobtenir automatiquement. Les formules thoriques sont : QLT(i) =
CO2 (i)
CO2 (i) =
o reprsente les valeurs propres des axes retenus, Xi lindividu i, G le barycentre des individus, F (i) la coordonne de Xi sur laxe associ , CO2 (i) le taux de reprsentation de Xi par laxe associ , QLT(i) la qualit de reprsentation de Xi dans les axes associs aux . Pour appliquer ces formules dans SPSS, il faut tenir compte que les calculs sont faits sur des donnes centres-rduites (Xi = Xi , G = 0) les coordonnes donnes par SPSS (facx_y) sont donnes dans un systme daxes orthonormaux. Pour appliquer les formules prcdentes, il faut donc centrer et rduire les variables originales et multiplier les coordonnes sur les axes principaux par . 4.5.1 Normalisation des variables
Utiliser Analyse > Statistiques descriptives > Caractristiques en cochant enregistrer des valeurs standardises dans des variables sur les variables originales. 4.5.2 Norme de chaque point
Dnir une nouvelle variables norm2 via Transformer > Calculer en utilisant la formule : norm2 = z_variable_1 2 + + z_variable_2 2 4.5.3 Calcul des CO2
Dnir les nouvelles variables CO2_1, CO2_2 pour chacun des axes via Transformer > Calculer en utilisant la formule : CO2_ = (fac_1 2) /norm2 4.5.4 Calcul de QLT
Dnir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule : QLT = CO2_1 + CO2_2 + . . . 4.5.5 Cas de la rotation En effet, la rotation est effectue dans lespace des variables ; lorsquon lapplique lespace des individus, il sagit dune rotation compose avec une homotthie sur chacune des variables. Soit ( f1 , f2 ) les coordonnes dun individus X dans les axes factoriels avant rotation, 1 , 2 les valeurs propres associes chaque axe. Alors les coordonnes de cet individus dans lespace des individus sont (x1 , x2 ) = ( 1 f1 , 2 f2 ). a b Soit R = la matrice de rotation. Aprs rotation, les coordonnes de lindividu X sur les axes b a factoriels sont ( f1f2 ) = (a + b f2 f1 a f2 ), mais ses coordonnes dans lespace des individus , f1 ,b sont (x1 , x2 ) = (a 1 f1 + b 2 f2 , b 1 f1 a 2 f2 ). Il nexiste pas dexpression simple de (x1 , x2 ) en fonction de ( f1 , f2 ). 4
Les CO2 aprs rotation sont donc (pour la premire composante) CO2_R1 = |x1 |2 a2 f12 1 + b2 f22 2 = X 2 X 2
Il nest donc pas possible dexprimer simplement les CO2 aprs rotation en fonction de ( f1 , f2 ). En dimension 2, on peut facilement dduire les CO2 aprs rotation de ceux avant rotation via les formules : CO2_1_R = a2 CO2_1 + b2 CO2_2 et CO2_2_R = b2 CO2_1 + a2 CO2_2
o a et b sont les coefcients de la matrice de rotation. Bien sr, les QLT ne changent pas. (Ces formules se gnralisent simplement aux dimensions suprieures.)
5
5.1
Amlioration de lACP
Rotation
Si linterprtation des axes nest pas convaincante, utilisez une rotation pour obtenir une nouvelle analyse : Varimax : simplie linterprtation des facteurs en minimisant le nombre de variables ayant de fortes contributions sur un mme facteur Quartimax : simplie linterprtation des variables en minimisant le nombre de facteurs ncessaires lexplication de chaque variable Equamax : compromis entre Varimax et Quartimax.
5.2
5.2.1
Suppression de variables
Test de Bartlett
Si le test de Bartlett choue (variables insufsamment corrles), il y a peu despoir damliorer lACP. 5.2.2 Amlioration du KMO
Si lindice KMO est trop faible (< 0.5), cela signie quil y a trop de corrlations partielles. Il convient donc de supprimer la (ou les) variables ayant le plus dinuence sur les corrlations partielles. Pour cela, demander le calcul de la matrice des corrlations anti-image . La diagonale de cette matrice correspond au KMO pour chaque variable (quotient de la somme des corrlations au carr de cette variable avec les autres variables, par la mme chose plus la somme des corrlations partielles au carr de cette variable.) Il convient donc de supprimer la variable ayant le KMO le plus faible. 5.2.3 Contributions excessives
Si une variable (ou un individu) a une contribution trop importante sur (la dtermination d) un axe principal, il peut tre intressant de supprimer cette variable (ou cet individu) de ltude pour tenter de mieux expliquer les autres variables.