Documente Academic
Documente Profesional
Documente Cultură
Université Lyon 1
Exercice 1 (4 pts)
Soit X un sous-ensemble de Rd de taille |X | finie. On pose
1 X
µ= x,
|X |
x∈X
et on désigne par h., .i le produit scalaire usuel sur Rd et k.k la norme euclidienne associée. Montrer que
X X
kx − yk2 = kx − µk2 + |X | × kµ − yk2 ∀y ∈ X .
x∈X x∈X
Exercice 2 (6 pts)
On se place ici dans un cadre d’Analyse des Correspondances Multiples (ACM). En particulier, en réutilisant
les notations du cours, on considère
nij
• un tableau de données T avec Tij = ni. pour tout i ∈ {1, . . . , m1 }, j ∈ {1, . . . , m2 }.
1 −1
• une matrice W = n D1 ,
Par la suite, p désigne le nombre de colonnes de la matrice X (p = 10) et n le nombre de lignes (n = 10).
1. On décide ici de travailler avec les données centrées. Rappeler à quoi correspond la matrice G définie
ci-dessous.
1
> T <- scale(X, center=TRUE, scale=FALSE)
> W <- diag(1/n, nrow=n)
> G <- t(T)%*%W%*%T
> G
Justifier la différence existant entre G et la matrice ci-dessous (on pourra par exemple remarquer que
0.608 ∗ 10/9 = 0.68)
> var(T)
[1] 6.751086
> sum(eigen(G)$values)
2
[1] 6.751086
> cor(T,acp$scores)[,1]
Quelles sont les variables les plus corrélées positivement (respectivement négativement) avec cette pre-
mière composante principale? Quelle interprétation pourrait-on donner à cette première composante.
6. La commande suivante permet de récupérer les positions des points du nuage de départ sur le 2ème
axe principal.
> acp$scores[,2]
[1] 1.277231
> eigen(G)$values[2]
[1] 1.277231