Sunteți pe pagina 1din 3

MAM3 Mars 2020

Université Lyon 1

Contrôle continu n°2


A rendre pour le jeudi 2 avril
N.B.: IL s’agit d’un travail personnel. Les comptes-rendus seront comparés entre eux.

Exercice 1 (4 pts)
Soit X un sous-ensemble de Rd de taille |X | finie. On pose
1 X
µ= x,
|X |
x∈X

et on désigne par h., .i le produit scalaire usuel sur Rd et k.k la norme euclidienne associée. Montrer que
X X
kx − yk2 = kx − µk2 + |X | × kµ − yk2 ∀y ∈ X .
x∈X x∈X

On pourra en particulier montrer dans un premier temps que

kx − yk2 = kx − µk2 + ky − µk2 − 2hx − µ, y − µi.

Exercice 2 (6 pts)
On se place ici dans un cadre d’Analyse des Correspondances Multiples (ACM). En particulier, en réutilisant
les notations du cours, on considère
nij
• un tableau de données T avec Tij = ni. pour tout i ∈ {1, . . . , m1 }, j ∈ {1, . . . , m2 }.
1 −1
• une matrice W = n D1 ,

• une métrique M = nD2−1 .


n.j
Soit Ω1 ∈ Rm2 l’individu de référence défini comme (Ω1 )j = n = p.j pour tout j ∈ {1, . . . , m2 .
1. Montrer que M Ω1 = 1, où 1 désigne le vecteur dont toutes les entrées sont égales à 1.
2. On pose par la suite Γ = T 0 W T . Déduire de la question précédente que ΓM Ω1 = Ω1 , i.e. que Ω1 est
vecteur propre de la matrice ΓM associé à la valeur propre 1.

Problème (10 pts)


On s’intéresse dans cet exercice à un jeu de données compilant des évaluations par des expert d’un certain
nombre de cidres vendus dans le commerce. Ces données sont contenues dans le fichier Cidres.txt.

> X <- read.table("Cidre.txt",header=TRUE)


> X
odeur sucre acide amer astringence suffocante piquante alcool parfum fruitee
1 2.14 1.86 3.29 2.29 2.00 0.14 2.29 1.86 1.29 1.29
2 2.43 0.79 2.71 2.57 2.00 0.43 2.57 2.86 0.43 0.14
3 2.71 3.14 2.57 2.57 1.43 0.14 2.14 0.86 2.29 1.71
4 3.00 3.71 2.14 2.07 1.57 0.00 1.29 1.00 3.14 3.14
5 3.43 1.29 2.86 3.14 2.17 1.00 1.86 2.86 1.14 0.29
6 3.14 0.86 2.86 3.79 2.57 0.14 1.71 3.29 0.14 0.00
7 3.14 1.14 2.86 2.86 2.00 0.43 1.71 1.86 0.14 0.00
8 2.43 3.71 3.21 1.57 1.71 0.00 1.00 0.57 2.57 2.86
9 5.10 2.86 2.86 3.07 1.79 1.71 0.43 1.43 0.57 2.71
10 3.07 3.14 2.57 3.00 2.00 0.00 0.43 1.29 2.57 3.07

Par la suite, p désigne le nombre de colonnes de la matrice X (p = 10) et n le nombre de lignes (n = 10).

1. On décide ici de travailler avec les données centrées. Rappeler à quoi correspond la matrice G définie
ci-dessous.

1
> T <- scale(X, center=TRUE, scale=FALSE)
> W <- diag(1/n, nrow=n)
> G <- t(T)%*%W%*%T
> G

odeur sucre acide amer astringence suffocante


odeur 0.607769 0.06578 -0.038047 0.227483 0.008734 0.345929
sucre 0.065780 1.25890 -0.100510 -0.395800 -0.264210 -0.114660
acide -0.038047 -0.10051 0.097161 -0.015269 0.032248 0.022243
amer 0.227483 -0.39580 -0.015269 0.350941 0.128578 0.119053
astringence 0.008734 -0.26421 0.032248 0.128578 0.093404 0.011414
suffocante 0.345929 -0.11466 0.022243 0.119053 0.011414 0.276069
piquante -0.332357 -0.48129 0.030891 -0.014189 0.030878 -0.086127
alcool 0.018508 -0.92063 0.042476 0.366306 0.233458 0.104218
parfum -0.241972 1.04344 -0.132374 -0.400634 -0.216162 -0.281712
fruitee 0.181791 1.36814 -0.109323 -0.382163 -0.251814 -0.066449
piquante alcool parfum fruitee
odeur -0.332357 0.018508 -0.241972 0.181791
sucre -0.481290 -0.920630 1.043440 1.368140
acide 0.030891 0.042476 -0.132374 -0.109323
amer -0.014189 0.366306 -0.400634 -0.382163
astringence 0.030878 0.233458 -0.216162 -0.251814
suffocante -0.086127 0.104218 -0.281712 -0.066449
piquante 0.496181 0.301686 -0.250424 -0.656033
alcool 0.301686 0.790656 -0.721734 -0.948988
parfum -0.250424 -0.721734 1.143436 1.089532
fruitee -0.656033 -0.948988 1.089532 1.636569

Justifier la différence existant entre G et la matrice ci-dessous (on pourra par exemple remarquer que
0.608 ∗ 10/9 = 0.68)
> var(T)

odeur sucre acide amer astringence


odeur 0.675298889 0.07308889 -0.04227444 0.25275889 0.009704444
sucre 0.073088889 1.39877778 -0.11167778 -0.43977778 -0.293566667
acide -0.042274444 -0.11167778 0.10795667 -0.01696556 0.035831111
amer 0.252758889 -0.43977778 -0.01696556 0.38993444 0.142864444
astringence 0.009704444 -0.29356667 0.03583111 0.14286444 0.103782222
suffocante 0.384365556 -0.12740000 0.02471444 0.13228111 0.012682222
piquante -0.369285556 -0.53476667 0.03432333 -0.01576556 0.034308889
alcool 0.020564444 -1.02292222 0.04719556 0.40700667 0.259397778
parfum -0.268857778 1.15937778 -0.14708222 -0.44514889 -0.240180000
fruitee 0.201990000 1.52015556 -0.12147000 -0.42462556 -0.279793333
suffocante piquante alcool parfum fruitee
odeur 0.38436556 -0.36928556 0.02056444 -0.2688578 0.20199000
sucre -0.12740000 -0.53476667 -1.02292222 1.1593778 1.52015556
acide 0.02471444 0.03432333 0.04719556 -0.1470822 -0.12147000
amer 0.13228111 -0.01576556 0.40700667 -0.4451489 -0.42462556
astringence 0.01268222 0.03430889 0.25939778 -0.2401800 -0.27979333
suffocante 0.30674333 -0.09569667 0.11579778 -0.3130133 -0.07383222
piquante -0.09569667 0.55131222 0.33520667 -0.2782489 -0.72892556
alcool 0.11579778 0.33520667 0.87850667 -0.8019267 -1.05443111
parfum -0.31301333 -0.27824889 -0.80192667 1.2704844 1.21059111
fruitee -0.07383222 -0.72892556 -1.05443111 1.2105911 1.81841000

2. A quelle quantité d’intérêt pour l’ACP correspond la trace de la matrice G?


> sum(diag(G))

[1] 6.751086

3. Pourquoi obtient le même résultat en regardant la somme des valeurs propres?


> eigen(G)$values

[1] 4.745258e+00 1.277231e+00 3.152737e-01 1.813389e-01 1.147371e-01 5.462088e-02


[7] 4.320999e-02 1.672925e-02 2.687242e-03 3.556183e-17

> sum(eigen(G)$values)

2
[1] 6.751086

4. A la vue de la commande suivante, combien de composantes principales serait-il pertinent de conserver?


(à justifier)

> PV <- eigen(G)$values/sum(eigen(G)$values)


> PV

[1] 7.028881e-01 1.891890e-01 4.669970e-02 2.686071e-02 1.699536e-02 8.090681e-03


[7] 6.400450e-03 2.478009e-03 3.980459e-04 5.267572e-18

5. On se lance dans la mise en place de l’ACP pour ce jeu de données.


> acp <- princomp(T,cor=F)
La commande suivante permet d’obtenir la correlation entre les variables (colonnes) du tableau T et
la première composante principale.

> cor(T,acp$scores)[,1]

odeur sucre acide amer astringence suffocante


0.02094127 0.99162518 -0.29451194 -0.62537283 -0.75083327 -0.24280482
piquante alcool parfum fruitee
-0.61168040 -0.91675100 0.89465533 0.96598400

Quelles sont les variables les plus corrélées positivement (respectivement négativement) avec cette pre-
mière composante principale? Quelle interprétation pourrait-on donner à cette première composante.
6. La commande suivante permet de récupérer les positions des points du nuage de départ sur le 2ème
axe principal.

> acp$scores[,2]

[1] -1.1636356 -0.8588478 -0.8735170 -0.4356829 0.3182805 0.3137906 0.0851998


[8] -0.7477554 2.9674630 0.3947048

Justifier l’égalité des deux quantités suivantes


> var(acp$scores[,2])*9/10

[1] 1.277231

> eigen(G)$values[2]

[1] 1.277231

A ce titre, en quoi l’individu 9 est-il particulièrement intéressant?


7. Donner une interprétation de cette seconde composante principale. On pourra s’appuyer sur la question
précédente ainsi que sur la commande
> cor(T,acp$scores)[,2]

odeur sucre acide amer astringence suffocante


0.97857811 0.04161056 -0.05129621 0.52782849 0.14820619 0.81149636
piquante alcool parfum fruitee
-0.66966799 0.06169400 -0.33397070 0.18842454

S-ar putea să vă placă și