Documente Academic
Documente Profesional
Documente Cultură
Analyse des Correspondances Multiples, donn ees manquantes, algorithme NIPALS, D ecomposition en Valeurs
Singuli` eres.
1. Introduction Lapparition de donn ees manquantes est fr equente dans un tableau de donn ees (appareil de mesure d efectueux, ` la question, etc.) De nombreux auteurs ont e tudi individus nayant pas r epondu a e le probl` eme dimputation des valeurs manquantes. Par exemple, [WAS] propose une approche de plus proches voisins pour une imputation bas ee sur les moindres carr es. Le cas de tables de contingence incompl` etes en Analyse des Correspondances est tudi e e dans [DELEE]. Dans [SAP], lACM est pr esent ee dans un cadre danalyse dhomog en eit e et une m ethode destimation des valeurs manquantes est propos ee. Soit X une matrice de donn ees qualitatives de dimension (n, p) o` u n objets sont d ecrits sur p variables qualitatives. On se place dans le cas o` u certaines entr ees xij sont manquantes. Lid ee pour traiter ces donn ees manquantes en Analyse des Correspondances Multiples (ACM) est dutiliser lalgorithme NIPALS pr esent e dans [TEN] pour la gestion des donn ees manquantes en Analyse en Composantes Principales (ACP). Pour cela, on d enit lACM comme une ACP appliqu ee aux lignes de la matrice des prols lignes ou encore aux colonnes de la matrice des ` partir du tableau disjonctif complet K associ ` X. On prols colonnes de la matrice de fr equences F construite a ea notera r = (f1. , ..., fi. , ..., fn. )t , c = (f.1 , ..., f.s , ..., f.q )t , Dn = diag(r) et Dq = diag(c) avec q le nombre total de modalit es.
2. ACM et D ecomposition en Valeurs Singuli` eres tre vue comme une ACP appliqu LACM peut e ee aux lignes de la matrice des prols lignes centr es L = 1 1 q D etriques Dn sur Rn et D eres composantes principales n (F rc) avec les m q sur R . La matrice des r premi` Y de dimension (n, r) s ecrit, gr ace aux formules de passage, Y = Dn
1/2
d ecomposition DVS de la matrice r eelle F = Dn (F rc)Dq . La DVS de F de rang r s ecrit F = UVt o` u est la matrice diagonale des valeurs singuli` eres, U est la matrice des r vecteurs propres norm es de FFt et V est la matrice des r vecteurs propres norm es de Ft F. On en d eduit la formule de reconstruction suivante :
1/2 1 1/2 = D U V t D n n (F rc)Dq Z Y
1/2
1/2
On a donc : Z=
r t yh vh h=1 Zh
Cette formule de reconstruction de Z nous permet de calculer de mani` ere it erative des composantes principales yh en tenant compte des donn ees manquantes.
4. Conclusion ` dautres Cette adaptation de lalgorithme NIPALS au cas de lACM est appliqu e sur des exemples et compar ee a approches de gestion de donn ees manquantes.
5. Bibliographie
[DELEE] De Leeuw, J., Van Der Heijden., (1988), Correspondence Analysis of incomplete contingency tables, Psychometrika, 53(2), 223-233. [SAP] Saporta, G., (2002), Data fusion and data grafting, Computational Satistics and Data Analysis, 38, 465-473. [TEN] Tenenhaus, M., (1998), La regression PLS, Editions TECHNIP. [WAS] Wasito, I., Mirkin, B., (2006), Nearest neighbours in least-squares data imputation algorithms with different missing patterns, Computational Satistics and Data Analysis, 50, 926-949.