Documente Academic
Documente Profesional
Documente Cultură
2005/2006
1 Prsentation de l'enseignement
EC PSR83B : Introduction aux analyses multidimensionnelles EC PSR83C : Informatique. Applications Horaires : mardi 8h15-10h15 - Salle A204 Contrle des connaissances : (contrle continu) PSR83B : Examen crit (3 heures) PSR83C : Evaluation de TD
1.1 Bibliographie
Cibois P. : L'analyse factorielle, 2000, PUF, Coll. Que sais-je N 2095 Escoffier B., Pags J.C. : Analyses factorielles simples et multiples, 1988, Dunod Bry, X. : Analyses factorielles simples, 1995, Ed. Economica Lebart L., Morineau A., Piron M. : Statistique exploratoire multidimensionnelle, 2000, Dunod Crucianu M., Asselin de Beauville J-P., Bon R. : Mthodes factorielles pour l'analyse de donnes Doise W., Clmence A., Lorenzi-Cioldi F. : Reprsentations sociales et analyses de donnes, 1992, PUG, Grenoble
1.3 Programmes
Analyse d'un protocole multinumrique. Nuage euclidien. Inertie et variance d'un nuage. Directions principales d'un nuage. Analyse en composantes principales.
F.-G. Carpentier - 2006 1
2005/2006
Description d'un tableau de contingence : effectifs, frquences, taux de liaison. Coefficient de contingence. Analyse factorielle des correspondances. Analyse des correspondances multiples. Tableau disjonctif de Burt. Nuage des modalits. Nuage des individus, des patrons. Prsentation de la classification ascendante hirarchique.
2.2 Mini-exemple
Ci-dessous, un tableau de notes attribues 9 sujets dans 5 matires. Sujet Jean Aline Annie Monique Didier Andr Pierre Brigitte Evelyne Math 6 8 6 14,5 14 11 5,5 13 9 Sciences 6 8 7 14,5 14 10 7 12,5 9,5 Franais 5 8 11 15,5 12 5,5 14 8,5 12,5 Latin 5,5 8 9,5 15 12 7 11,5 9,5 12 Musique 8 9 11 8 10 13 10 12 18
2005/2006
La somme des valeurs de chaque colonne est nulle (donnes centres, moyenne nulle pour chaque variable). La somme des carrs des valeurs de chaque colonne est 9 (donnes rduites, donc d'cart type gal 1)
Comme les variables sont centres rduites, la corrlation entre la variable Z k et la variable Z l est 1 simplement zik z il . n i Dans notre exemple, toutes les variables sont corrles positivement. La corrlation est forte entre les 2 premires, et entre la 3 et la 4. La cinquime est faiblement corrle aux autres variables.
2005/2006
corrlations et la matrice diagonale des valeurs propres sont semblables : elles reprsentent la mme information (l'inertie du nuage de points) dans deux systmes d'axes orthonorms diffrents. Val. propr 1 2 3 4 5 2,8618 1,1507 0,9831 0,0039 0,0004 % Total variance 57,24 23,01 19,66 0,08 0,01 Cumul Val. propr 2,86 4,01 5,00 5,00 5,00 Cumul % 57,24 80,25 99,91 99,99 100,00
3,0
57,24%
2,0
0,0
-0,5 0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
La variation totale (100%) est rpartie selon 5 valeurs propres. D'o l'ide de ne garder que les valeurs propres (et directions propres) qui reprsentent au moins 20% de variation. Variante : on observe une brusque dcroissance des valeurs propres entre la 3 et la 4 valeur propre. Au final, on dcide de ne garder que trois valeurs propres.
2005/2006
7 8 9
(2,7857) 2 (2,7857) 2 Par exemple : CTR( S1, CP1 ) = = = 0,3013 2,7857 2 + 1,2625 2 + ... + 0,62312 9 2,8618
Contributions des ind., bases sur les corrlations (crucianu-1-1.sta) Var. illustrative : Sujet Fact. 1 Fact. 2 Fact. 3 Sujet 1 30,13 4,42 6,14 Jean 2 6,19 1,05 3,48 Aline 3 4,01 10,04 0,94 Annie 4 37,85 0,27 14,80 Monique 5 14,84 5,99 0,40 Didier 6 3,49 13,94 14,69 Andr 7 0,41 29,73 9,35 Pierre 8 1,58 12,33 5,41 Brigitte 9 1,51 22,23 44,79 Evelyne
(2,7857) 2 (2,7857) 2 QLT ( S1, CP1 ) = = = 0,8855 2,7857 2 + 0,6765 2 + ... + 0,0332 2 1,0865 2 + 1,2817 2 + 1,5037 2 + 1,6252 2 + 1,0190 2 Gomtriquement, la qualit de la reprsentation d'un individu i par la composante principale k est gale cos2 , o est l'angle (OM i , CP k ).
Cosinus carrs, bases sur les corrlations (crucianu-1-1.sta) Var. illustrative : Sujet Fact. 1 Fact. 2 Fact. 3 1 0,8855 0,0522 0,0619 2 0,7920 0,0542 0,1530 3 0,4784 0,4813 0,0384 4 0,8786 0,0025 0,1180 5 0,8515 0,1383 0,0080 6 0,2465 0,3962 0,3568 7 0,0263 0,7671 0,2061 8 0,1877 0,5898 0,2211 9 0,0583 0,3458 0,5954
F.-G. Carpentier - 2006 5
Sujet Jean Aline Annie Monique Didier Andr Pierre Brigitte Evelyne
2005/2006
Les qualits de reprsentation sont additives. Par exemple, la qualit de reprsentation d'un individu i par le plan (CP1, CP2) est donne par : ( Score de Si selon CP1 ) 2 + ( Score de Si selon CP2 ) 2 QLT ( Si , CP1;CP2 ) = (Score de Si selon CPl )2 Pour le sujet 1 (Jean), la qualit de reprsentation par le plan factoriel 1x2 est : 0,8855+0,0522=0,9377. Cette valeur reprsente le carr du cosinus de l'angle que fait OM 1 avec le plan (CP1, CP2).
Projection des ind. sur le plan factoriel ( 1 x 2) Observations avec la somme des cosinus carrs >= 0,00 Var. illustrative : Sujet 2,0 1,5 Andr 1,0 Jean Fact. 2 : 23,01% 0,5 0,0 Aline Brigitte Didier
l
Monique
-0,5 Annie -1,0 Evelyne -1,5 -2,0 -2,5 -5 -4 -3 -2 -1 0 1 2 3 4 5 Active Fact. 1 : 57,24% Pierre
Projection des ind. sur le plan factoriel ( 1 x 3) Observations avec la somme des cosinus carrs >= 0,00 Var. illustrative : Sujet 2,0 1,5 Monique 1,0 0,5 Fact. 3 : 19,66% 0,0 Brigitte Andr Jean Pierre Aline Annie
Didier
SAT ( Z j , CPk ) = ( Z j , CPk ) N.B. Les variables de dpart sont centres rduites, les variables principales sont centres, et de variances gales aux valeurs propres correspondantes. On peut donc retrouver les saturations l'aide d'un calcul tel que : (1,0865)(2,7857) + (0,4939)(1,2625) + (1,0865)(1,0168) + (1,4322)(3,1222) SAT ( Z1, CP1) = + 9 2,8618 (1,2840)(1,9551) + (0,3951)(0,9478) + (1,2347)(0,3250) + (0,9877)(0,6373) + (0,1975)(0,6231) 9 2,8618
2005/2006
Coord. factorielles des var., bases sur les corrlations (crucianu-1-1.sta) Fact. 1 Fact. 2 Fact. 3 Math 0,8059 0,5714 -0,1534 Sciences 0,8970 0,4308 -0,0929 Franais 0,7581 -0,6110 0,2257 Latin 0,9103 -0,3975 0,1084 Musique 0,0667 -0,3275 -0,9425
Contributions des var., bases sur les corrlations (crucianu-1-1.sta) Fact. 1 Fact. 2 Math 0,2269 0,2837 Sciences 0,2812 0,1613 Franais 0,2008 0,3245 Latin 0,2895 0,1373 Musique 0,0016 0,0932
2005/2006
composante principale, selon le plan des deux premires composantes, dans l'espace dfini par les trois premires composantes. Communauts, bases sur les corrlations (crucianu-1-1.sta) Avec 1 Avec 2 facteur facteurs Math 0,6495 0,9759 Sciences 0,8046 0,9902 Franais 0,5747 0,9481 Latin 0,8286 0,9866 Musique 0,0044 0,1117 Avec 3 facteurs 0,9995 0,9988 0,9990 0,9983 1,0000
Graphiquement, la qualit de la reprsentation d'une variable dans le plan (CP1, CP2) est le carr de la norme (longueur) du vecteur reprsentant cette variable (projection de cette variable dans le plan).
-0,5
Franais
2005/2006
-0,5
Musique -1,0 -1,0 -0,5 0,0 Fact. 1 : 57,24% 0,5 1,0 Active
Mathmatiquement, ce tableau est la matrice de "changement de base orthonorme" permettant de passer des variables Zi aux composantes principales CPk ou vice-versa. On observera que : - chaque ligne reprsente un vecteur de norme 1 - chaque colonne reprsente un vecteur de norme 1 - deux "vecteurs ligne" quelconques sont orthogonaux - deux "vecteurs colonne" quelconques sont orthogonaux Pour l'individu 1, les variables de dpart ont pour valeurs : Math -1,0865
F.-G. Carpentier - 2006
Sciences -1,2817
Franais -1,5037
9
Latin -1,6252
Musique -1,0190
2005/2006
Pour l'individu 1, les scores sur les 5 composantes principales sont : Fact. 1 -2,7857 Fact. 2 0,6764 Fact. 3 0,7368 Fact. 4 -0,0482 Fact. 5 -0,0332
Les valeurs propres pourraient galement tre calcules partir du tableau, comme variances des composantes principales. Autrement dit, on pourrait l'aide du tableau des coefficients, retrouver tous les rsultats indiqus ci-dessus. Ce tableau permet galement de retrouver les saturations des variables, en multipliant les coefficients correspondant chaque facteur par la racine carre de la valeur propre correspondante. Par exemple, pour la premire variable et la premire composante principale :
SAT ( Z1, CP1) = 0,4764 2,8618 = 0,8059
10
2005/2006
La fentre de dialogue permet de spcifier les variables qui participeront l'analyse. Elle permet galement d'indiquer les diffrentes options choisies pour le traitement. Utilisez l'onglet "Avanc" de cette fentre. - Comment seront traites les valeurs manquantes ? Ici, les donnes ne comportent pas de valeur manquante. - L'analyse sera-t-elle base sur les covariances ou sur les corrlations ? Sur l'exemple trait ici, la question mrite d'tre pose, car toutes les donnes sont exprimes avec la mme unit. Cependant, l'tude mene partir des covariances ferait surtout apparatre les variables qui combinent valeurs leves et fortes variations, telles que PROF par exemple. Le paragraphe prcdent concernait l'ACP norme, c'est--dire l'ACP base sur les corrlations. Nous dirons ultrieurement quelques mots sur l'ACP non norme.
F.-G. Carpentier - 2006 11
2005/2006
- Utilise-t-on les variances et covariances non corriges (SC/N) ou les variances et covariances corriges (SC/(N-1)). Dans le cas d'une ACP norme, les deux mthodes fournissent des rsultats presque identiques : seuls les scores des individus sont lgrement modifis. En fait, l'ACP est une mthode descriptive et non une mthode infrentielle. Elle est effectue dans un but exploratoire : on tudie les donnes pour elles-mmes, et non en vue d'une gnralisation une population. C'est pourquoi l'utilisation des variances non corriges est gnralement justifie. Cliquez ensuite sur le bouton OK. N.B. Ne fermez pas l'analyse en cours pendant la suite des manipulations. Ainsi, vous n'aurez pas indiquer de nouveau les options ci-dessus, vos rsultats seront cohrents entre eux et se rassembleront dans un mme classeur.
LOIS -0,19 -0,11 -0,11 -0,11 0,24 0,07 -0,04 0,21 -0,10 1,00
Pour cela, cliquez sur les boutons "Valeurs propres" et "Trac des valeurs propres" de l'onglet "Base". Dans notre cas, on peut choisir de retenir 4 composantes principales. Dans les manipulations qui suivent, on indiquera donc 4 dans la zone d'dition "nombre de facteurs". On remarque galement que la dernire valeur propre est 0. Cette proprit est due une particularit de nos donnes : la somme des variables de dpart est une constante, gale 2400 sur chaque individu.
12
2005/2006
Pour les rsultats relatifs aux individus et aux variables, on utilisera de prfrence les onglets correspondants.
On peut ensuite obtenir les projections du nuage des individus selon les premiers axes factoriels l'aide du bouton "Projection de individus, 2D". Lorsque les individus ne sont pas anonymes (c'est le cas ici), il est utile d'tiqueter chaque point. Plusieurs mthodes sont possibles : - Utiliser les identifiants d'individus figurant dans la premire colonne du tableau de donnes - Utiliser les numros des observations - Utiliser les tiquettes indiques dans la variable "illustrative" : ces tiquettes peuvent tre des identifiants des individus, mais peuvent galement reprsenter un groupe d'appartenance, etc.
Projec tio n des ind. s ur l e plan factor iel ( 1 x 2) Obs ervations avec la s om m e des cos inus carrs >= 0,00 3
FCU FAU FM U FNU
HCU
Fact. 2 : 21,20%
1
HCE
HAU HCY HM U
HAE HM HM YE HAY
-1
FAW FCW FM W FNW
-2
HAW HM W HCW
2005/2006
On obtient les saturations des variables en cliquant sur le bouton "Coordonnes des variables" ou le bouton "Corrlation facteurs et variables" : dans le cas d'une ACP norme, ces deux traitements fournissent le mme rsultat. On obtient leurs contributions la formation des composantes principales en utilisant le bouton "Contributions des variables". Les qualits de reprsentation sont calcules, de faon cumulative (qualit de la projection selon CP1, puis selon le plan (CP1,CP2), puis selon l'espace (CP1,CP2,CP3) en utilisant le bouton "Communauts (Cosinus2)".
0,5
MENA
0,0 SOMM
COUR
-0,5
SOMM REPA
TELE -1,0 -1,0 -0,5 0,0 Fact. 1 : 45,89% 0,5 1,0 Active -1,0 -1,0 -0,5 0,0 Fact. 2 : 21,20% 0,5 1,0 Active
14
2005/2006
0,5 ENFA Fact. 4 : 11,95% TELE 0,0 REPA TOIL PROF TRAN COUR MENA
SOMM -0,5
LOIS -1,0 -1,0 -0,5 0,0 Fact. 3 : 13,21% 0,5 1,0 Active
15
2005/2006
Veillez ce que la feuille de donnes Budget-Temps-ONU soit un lment terminal de la hirarchie des objets du classeur. A l'aide du bouton droit de la souris, pointez l'icne de la feuille dans le volet gauche du classeur et utilisez le menu Extraire dans une fentre indpendante - Copie. Insrez ensuite cette fentre comme objet du classeur, et renommez-la Budget-avec-Moyennes. Insrez cette feuille six lignes supplmentaires, qui serviront accuillir les moyennes par sexe et par zone gographique.
Calcul des moyennes d'une variable, selon les groupes dfinis par la variable catgorise SEX
Utilisez le menu Statistiques Elmentaires - Dcompositions ; tableau non factoriel. Sous l'onglet "Base", indiquez les 10 premires variables comme variables dpendantes, et SEX variable de classement :
Copiez ensuite les deux lignes de moyennes obtenues et collez-les dans la feuille Budget-avec-moyennes, comme observations 29 et 30. Attribuez ces deux lignes les noms d'observations : Hommes et Femmes. Procdez de mme pour les moyennes par zone gographique. On obtient, dans l'ordre, les USA, l'Ouest, la Yougoslavie et l'Est.
2.3.3.2 ACP avec les moyennes par sexe et par zone gographique comme individus supplmentaires
Introduisez dans la feuille de donnes "Budget-avec-moyennes" une variable supplmentaire : "Individus actifs", valant 1 sur les 28 premires observations, et 0 sur les 6 moyennes qui suivent.
F.-G. Carpentier - 2006 16
2005/2006
Rendez active cette feuille de donnes et refaites une ACP en dclarant en remplissant le premier dialogue comme suit :
HCU
USA
Fact. 2 : 21,20%
1
HCE
HCY HAU HM U
-1
FAW FCW FM W FNW Ouest HAW HM W HCW
-2
-3 -3 -2 -1 0 1 Fact. 1 : 45,89% 2 3 4 5
Active Suppl.
17
2005/2006
On peut ainsi caractriser l'axe en termes d'opposition entre individus : ici, femmes autres que "femmes actives" v/s hommes actifs ou non prcis. Il peut galement tre intressant d'tudier comment l'axe classe les individus. Si un individu a une contribution trs forte la formation d'un axe, on peut choisir de recommencer l'analyse en retirant cet individu, puis de l'introduire en tant qu'individu supplmentaire.
2005/2006
2.4.3.2 Analyse des projections des variables sur les plans factoriels
Les diagrammes reprsentant les projections des variables sur les axes factoriels nous fournissent plusieurs types d'informations : - La longueur du vecteur reprsentant la variable est lie la qualit de la reprsentation de la variable par sa projection dans ce plan factoriel : le carr de la longueur est la qualit de la reprsentation. - Pour les variables bien reprsentes, l'angle entre deux variables est li au coefficient de corrlation entre ces variables (si la reprsentation est exacte, le coefficient de corrlation est le cosinus de cet angle). Ceci permet de dgager des "groupes de variables" de significations voisines, des groupes de variables qui "s'opposent", des groupes de variables relativement indpendantes entre eux. - De mme, pour les variables bien reprsentes, l'angle que fait la projection de la variable avec un axe factoriel est li au coefficient de corrlation de cette variable et de l'axe factoriel. - L'exemple des notes est un cas (frquent en pratique) o toutes les variables sont corrles positivement entre elles. Le premier axe factoriel correspond alors une synthse de l'effet commun ces variables. Dans notre exemple, cela correspondrait au "niveau scolaire gnral" des sujets. Ce facteur a souvent une interprtation vidente et l'tude doit s'attacher analyser les facteurs suivants. Ce phnomne est connu sous le nom d'"effet taille".
19
2005/2006
2005/2006
STA : adresse statique, en nombre de paniers. La variable VIT est code systmatiquement avec un signe "-" afin que, comme pour les autres variables, une valeur leve traduise une bonne performance. Source : Institut National du Sport et de l'Education Physique (I.N.S.E.P.) - Extrait d'un fichier trait par Marion Wolf pour la Fdration Franaise de Basket-Ball
SUJET I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 TAI 170 181 192 173 170 175 170 168 166 181 186 180 185 192 191 192 192 195 VIT -4 -5 -5,1 -4,1 -4 -4,3 -4,4 -4 -4 -5,3 -4,7 -4,6 -4,8 -5 -4,9 -4,9 -5,1 -5,3 DET 77 49 50 70 70 72 70 76 76 48 55 50 50 48 45 43 50 50 PAS 15 15 16,1 15,5 12,5 12,4 12 11 10 15,2 15,5 12 12,8 11,5 11,3 10,5 10,5 15,1 LEG 63,7 45,1 46,2 63,5 64,3 61,6 65,6 64 64 50,2 51 51,7 49,7 45,6 45,9 48,9 45 47,1 STA 17 11 15 17 19 18 10 7 8 10 14 16 19 17 16 18 16 19
On ralise une ACP norme sur ces donnes. Les rsultats fournis par Statistica (ou Excel) sont les suivants : Donnes centres rduites et inerties relatives des individus (Excel)
SUJET I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 TAI -1,1447 -0,0058 1,1332 -0,8341 -1,1447 -0,6270 -1,1447 -1,3518 -1,5589 -0,0058 0,5120 -0,1093 0,4084 1,1332 1,0297 1,1332 1,1332 1,4438 VIT 1,3863 -0,7836 -1,0006 1,1694 1,3863 0,7354 0,5184 1,3863 1,3863 -1,4346 -0,1326 0,0844 -0,3496 -0,7836 -0,5666 -0,5666 -1,0006 -1,4346 DET 1,5461 -0,7661 -0,6836 0,9680 0,9680 1,1332 0,9680 1,4635 1,4635 -0,8487 -0,2707 -0,6836 -0,6836 -0,8487 -1,0965 -1,2616 -0,6836 -0,6836 PAS 0,9983 0,9983 1,5458 1,2472 -0,2461 -0,2959 -0,4950 -0,9928 -1,4905 1,0978 1,2472 -0,4950 -0,0968 -0,7439 -0,8434 -1,2416 -1,2416 1,0481 LEG 1,2003 -1,1159 -0,9789 1,1754 1,2750 0,9388 1,4369 1,2377 1,2377 -0,4808 -0,3812 -0,2940 -0,5431 -1,0536 -1,0163 -0,6427 -1,1284 -0,8669 STA 0,5695 -1,0076 0,0438 0,5695 1,0953 0,8324 -1,2705 -2,0591 -1,7962 -1,2705 -0,2191 0,3067 1,0953 0,5695 0,3067 0,8324 0,3067 1,0953 Inertie 7,76% 4,13% 5,65% 5,80% 6,53% 3,59% 5,96% 11,71% 12,48% 5,40% 1,95% 0,84% 2,09% 4,27% 4,09% 5,41% 5,24% 7,09%
Corrlations (Basket.sta)
TAI VIT DET F.-G. Carpentier - 2006 TAI 1,0000 -0,8833 -0,8974 VIT -0,8833 1,0000 0,9108 21 DET -0,8974 0,9108 1,0000 PAS 0,1054 -0,2217 -0,0760 LEG -0,9241 0,9206 0,9498 STA 0,4630 -0,1748 -0,2969
PSR83B - Introduction aux analyses multidimensionnelles PAS 0,1054 -0,2217 -0,0760 LEG -0,9241 0,9206 0,9498 STA 0,4630 -0,1748 -0,2969
Val. Propres (matrice de corrl.) & stat. associes (Basket.sta) Variables actives seules
Val. propr 1 2 3 4 5 6 3,8960 1,0174 0,8992 0,0877 0,0678 0,0319 % Total variance 64,9331 16,9573 14,9862 1,4613 1,1304 0,5318
Val. Propres (matrice de corrl.) Variables actives seules 4,5 4,0 3,5 3,0 2,5 2,0 Valeur propre 1,5 16,96% 1,0 0,5 1,46% 0,0 -0,5 -1 0 1 2 3 4 5 6 7 8 Numro de valeur propre 1,13% ,53% 14,99% 64,93%
PSR83B - Introduction aux analyses multidimensionnelles Fact. 1 7,90 2,00 5,75 4,51 6,42 3,34 7,52 14,31 15,19 1,98 0,72 0,23 2,00 5,18 4,57 4,66 4,96 8,78 Fact. 2 14,50 0,04 5,73 16,37 2,92 1,30 2,17 9,41 14,18 0,02 4,02 0,92 0,28 2,79 4,80 5,62 8,75 6,18 Fact. 3 0,79 16,72 5,43 0,24 11,74 7,00 2,58 4,64 1,17 25,01 3,95 1,22 4,30 2,57 1,62 8,60 2,33 0,08
2005/2006
23
2005/2006
Fact. 1 : 64,93%
Projection des ind. sur le plan factoriel ( 2 x 3) Observations avec la somme des cosinus carrs >= 0,00 2,5 2,0 1,5 1,0 0,5 0,0 I9 -0,5 I3 -1,0 -1,5 -2,0 -2,5 -3,0 -3,0 I2 I10 I11 I7 I8 I1 I4 I5 I6 I13 I14 I12 I18 I15 I17 I16
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
Active
Fact. 2 : 16,96%
0,5
STA -0,5
Active
PAS -0,5
Active
2005/2006
1) Examiner la matrice des corrlations entre les variables. Faites un commentaire. 2) Examen du nuage de points : quels sont les sujets dont l'inertie est la plus forte ? Quels sont ceux dont l'inertie est la plus faible ? On choisit de ne conserver que 3 composantes principales. Justifier ce choix. 2) a) Quels sont les sujets qui contribuent le plus fortement la formation du premier axe principal ? Indiquez galement si leur contribution intervient dans la partie positive ou dans la partie ngative de l'axe. b) Citez deux sujets qui sont bien reprsents par leur premire composante principale. Quels sont les deux sujets les plus mal reprsents par cette composante ? 3) Analysez, de la mme faon, le deuxime, puis le troisime axe principal. 4) a) Quelles sont les variables les plus fortement corrles avec la premire composante principale. Interprtez cette composante l'aide de ces variables. b) De mme, donnez une interprtation des deuxime et troisime composantes principales.
26
2005/2006
1) Saisir les donnes dans Statistica sous une forme convenant la ralisation d'une analyse en composantes principales.. 2) Ralisez une analyse en composantes principales norme, sur les 4 variables Comb, Prob, Logi et Math. Dterminez notamment la matrice des corrlations, les valeurs propres, les scores, contributions et qualits des individus sur les deux premires composantes, les coefficients des variables et les saturations, contributions et qualit des variables (2 premires composantes). Ralisez le graphique des individus et celui des variables par rapport aux deux premiers axes principaux. 3) Examiner et commenter le tableau des corrlations. 4) Les variables Comb et Proba apparaissent proches sur le graphique. Quel est pourtant leur coefficient de corrlation ? Comment peut-on l'expliquer ? 5) Les points s8 et s14 apparaissent trs proches sur le graphique. Est-ce le cas dans la ralit ? Mme question pour s9 et s15. 6) Comment les variables contribuent-elles la formation de l'axe CP1 ? Comment cet axe classe-t-il les individus ? 7) Comment les variables contribuent-elles la formation de l'axe CP2 ? Dcrire cet axe en termes d'oppositions entre variables, en termes d'oppositions entre individus. 8) a) Ralisez le graphique des individus en tiquetant les points l'aide des modalits de la variable Pdagogie, puis en tiquetant les points l'aide des modalits de la variable Milieu. Interprtez les graphiques obtenus. b) Calculez les moyennes des variables observes dans les 4 groupes dfinis par les combinaisons de modalits des variables Pdagogie et Milieu. Ajoutez ces moyennes comme observations supplmentaires dans la feuille de donnes Statistica, puis reprenez l'ACP en dclarant ces valeurs comme individus supplmentaires. Ralisez un graphique des individus affichant ces individus supplmentaires. 9) L'tude limite aux deux premires composantes vous parat-elle suffisante ? Comment souhaiteriezvous poursuivre cette tude ?
2005/2006
conomiques (variables nominales) et les habitudes de frquentation des mdias (variables numriques continues) en tant que variables supplmentaires. Mais ces donnes ne sont pas prsentes ici. L'ensemble des donnes se trouve dans la feuille de donnes Statistica Budget-temps-multimedia.sta du serveur de TD. Ci-dessous figurent quelques indications pour la lecture de ce tableau : Les 27 "individus" (qui sont en ralit dans le cadre de cet exemple des groupes d'individus) sont reprs par un identificateur en 4 caractres: - le 1er caractre est l'ge du groupe (1=jeune, 2=moyen, 3=g) - le 2me caractre est ici toujours gal 1 (car il s'agit ici d'une slection d'hommes actifs) - le 3me est le niveau d'ducation (1=primaire, 2=secondaire, 3=suprieur) - le 4me est le type d'agglomration ( 1=communes rurales; 2=villes moyennes; 3=villes importantes; 4=agglomration parisienne; 5,6,7 = groupes mixtes). La signification des 16 variables actives est la suivante : Somm.......... Sommeil Repo ........... Repos Reps ........... Repas chez soi Repr ........... Repas restaurant Trar ............ Travail rmunr Mna .......... Mnage Visi ............ Visite amis Jard ............ Jardinage, Bricolage Lois ............ Loisirs extrieur Disq ............ Disque cassette Lect ............ Lecture livre Cour ........... Courses dmarches Prom .......... Promenade A pi ............ Dplacement pied Voit ............ Dplacement en Voiture Frq ............ Frquentation Mdia On lit par exemple sur la premire ligne du tableau que le groupe '1111' (jeunes, actifs, peu instruits, ruraux) consacre en moyenne par jour 463,8 minutes au "sommeil", 23,8 minutes des activits regroupes sous la rubrique "repos", 107,3 minutes pour les "repas chez soi", etc. Analysez ces donnes l'aide d'une ACP, en suivant la mthode d'interprtation qui a t indique en cours. N.B. Bien que la dcroissance des valeurs propres soit relativement progressive, on tudiera essentiellement les deux premires composantes principales. Crez des variables nominales supplmentaires Age, Niveau d'ducation, Catgorie d'agglomration et, pour chacune d'elle, ralisez un graphe de projection des individus en utilisant comme tiquettes les modalits de la variable. Essayez d'interprtez les graphes ainsi obtenus.
2005/2006
L'ensemble tudi est constitu des reprsentants typiques de 62 espces de mammifres varis, de la taupe l'lphant, dcrits par 10 variables numriques. Chaque individu est d'abord caractris par des mesures concernant le poids du corps en kilogrammes, le poids du cerveau en grammes, le nombre d'heures de sommeil sans rve par jour, le nombre d'heures de sommeil avec rves, la somme des deux types de sommeil, la dure de vie maximale en annes, et la dure de la priode de gestation en jours. Trois indices ont t calcul : - Un indice de prdation : 1= faible risque d'tre chass par un prdateur 5 = fort risque. - Un indice d'exposition pendant le sommeil : 1= animal dormant dans une tanire trs protge, 5 = animal trs expos aux prdateurs pendant son sommeil - Un indice de dangerosit, obtenu partir des indices prcdents et d'autres informations, dcrivant dans quelle mesure le mammifre peut tre mis en danger par d'autres animaux. Ouvrez la feuille de donnes sleep.sta et observez les donnes saisies. Traitez ces donnes l'aide d'une ACP norme et interprtez les rsultats, en utilisant essentiellement les rsultats relatifs aux variables, et les deux premires dimensions factorielles. Vous devriez parvenir aux rsultats suivants : On observe que toutes les variables sont relativement bien reprsentes par les 2 premiers axes factoriels. On observe galement qu'aucune variable n'a un rle dominant dans l'orientation des axes factoriels. Trois groupes de variables apparaissent : un premier groupe concernant directement le sommeil, un deuxime groupe de variables lies l'valuation du danger et un troisime groupe relatif aux caractristiques physiques. Le premier axe factoriel oppose le groupe "sommeil" aux deux autres groupes : les temps de sommeil les plus longs sont observs chez les mammifres qui sont le moins en danger. Le deuxime axe factoriel montre une autre opposition, moins forte, entre le groupe "danger" et le groupe "caractristiques physiques" : il existe, globalement, une corrlation ngative entre la taille du mammifre et le danger encouru. L'lment le plus vident dans le diagramme de projection des individus est la position excentre des individus 1 et 5 (lphants d'Afrique et d'Asie). Pour l'essentiel, l'examen du diagramme des individus confirme l'analyse propose partir de l'examen des variables. Reprenez alors l'tude en plaant dclarant ces deux individus comme individus inactifs.
2005/2006
III subjectif (1)-objectif (5) IV faux (1)-vrai (5) V faible (1)-fort (5) VI fantaisiste (1)-srieux (5) Pour un tudiant donn, une discipline donne et une paire d'adjectifs donne l'opinion exprime sur la discipline par l'tudiant au moyen du diffrentiateur est une note qui peut prendre 5 valeurs : 1 association forte avec le premier terme du diffrentiateur 2 prfrence pour le premier terme du diffrentiateur 3 absence d'opinion 4 prfrence pour le second terme du diffrentiateur 5 association forte avec le second terme du diffrentiateur Le tableau de donnes du fichier Disciplines-Differentiateurs.stw indique le score moyen obtenu par chaque discipline sur chaque paire d'adjectifs. N.B. L'tiquette retenue pour dsigner chaque couple est le second terme du diffrentiateur. 1) Traitez ces donnes par une analyse en composantes principales norme, en plaant l'astrologie comme individu supplmentaire. Calculez notamment l'aide de Statistica le tableau des corrlations, celui des valeurs propres, les scores, contributions et qualits de reprsentation des individus et les saturations, contributions et qualits de reprsentation des variables. Ralisez la reprsentation des individus et celle des variables dans le premier plan factoriel. 2) Etude du tableau des valeurs propres a) A quoi correspond la somme des valeurs propres ? b) On choisit de n'tudier que les deux premires composantes principales. Justifier ce choix en analysant le tableau des valeurs propres. 3) Etude du tableau des corrlations. Quelles sont les variables le plus fortement corrles entre elles ? Y a-t-il des variables pratiquement non corrles ? 4) Etude des qualits de reprsentation dans le premier plan principal. Quel est l'individu le moins bien reprsent par le premier plan principal ? Quel est l'individu le mieux reprsent ? 5) Etude du nuage des individus. a) Quels sont les individus dont la contribution la formation de la premire composante principale est suprieure la moyenne ? Pour chacun d'eux, prciser le signe de la coordonne correspondante. Caractriser cet axe en termes d'opposition entre individus. b) Mme question pour la deuxime composante principale. 6) Etude du nuage des variables a) La reprsentation graphique des variables montre qu'elles sont toutes trs bien reprsentes dans le plan (CP1, CP2). Justifier cette affirmation. b) Quelles sont les deux variables qui sont le plus fortement corrles la premire variable principale ? c) Mme question pour la deuxime variable principale. d) Deux variables sont pratiquement indpendantes de la 2 variable principale. Lesquelles ? e) A propos de cet exemple, peut-on parler "d'effet de taille" ? 7) L'individu "Astrologie" a t plac en individu supplmentaire dans l'analyse. a) Quel rle joue un tel individu dans le droulement des calculs ncessaires l'excution de l'ACP ?
F.-G. Carpentier - 2006 30
2005/2006
b) Pour quelles raisons a-t-on choisi de placer en individu supplmentaire ? c) Commenter les valeurs numriques obtenues et la position de cet individu sur le graphique. N.B. Les rsultats fournis par cette ACP ne constituent videmment en aucune faon un jugement de valeur sur les disciplines cites. Les conclusions ventuelles peuvent tout au plus porter sur les opinions des 11 sujets interrogs... Travail rendre par mail votre enseignant (Francois.Carpentier@univ-brest.fr) : - Un classeur Statistica contenant les rsultats numriques de l'ACP et les graphiques. - Un fichier Word contenant votre interprtation des rsultats, avec notamment des rponses aux questions 2 7.
31