Analyse Donnees

MAM3 Mars 2020
Université Lyon 1
Contrôle continu n°2

A rendre pour le jeudi 2 avril
N.B.: IL s’agit d’un travail personnel. Les comptes-rendus seront comparés entre eux.
Exercice 1 (4 pts)
Soit X un sous-ensemble de Rd de taille |X | finie. On pose
1 X
µ= x,
|X |
x∈X
et on désigne par h., .i le produit scalaire usuel sur Rd et k.k la norme euclidienne associée. Montrer que
X X
kx − yk2 = kx − µk2 + |X | × kµ − yk2 ∀y ∈ X .
x∈X x∈X
On pourra en particulier montrer dans un premier temps que
kx − yk2 = kx − µk2 + ky − µk2 − 2hx − µ, y − µi.
Exercice 2 (6 pts)
On se place ici dans un cadre d’Analyse des Correspondances Multiples (ACM). En particulier, en réutilisant
les notations du cours, on considère
nij
• un tableau de données T avec Tij = ni. pour tout i ∈ {1, . . . , m1 }, j ∈ {1, . . . , m2 }.
1 −1
• une matrice W = n D1 ,
• une métrique M = nD2−1 .

n.j
Soit Ω1 ∈ Rm2 l’individu de référence défini comme (Ω1 )j = n = p.j pour tout j ∈ {1, . . . , m2 .
1. Montrer que M Ω1 = 1, où 1 désigne le vecteur dont toutes les entrées sont égales à 1.
2. On pose par la suite Γ = T 0 W T . Déduire de la question précédente que ΓM Ω1 = Ω1 , i.e. que Ω1 est
vecteur propre de la matrice ΓM associé à la valeur propre 1.
Problème (10 pts)

On s’intéresse dans cet exercice à un jeu de données compilant des évaluations par des expert d’un certain
nombre de cidres vendus dans le commerce. Ces données sont contenues dans le fichier Cidres.txt.
> X <- read.table("Cidre.txt",header=TRUE)

> X
odeur sucre acide amer astringence suffocante piquante alcool parfum fruitee
1 2.14 1.86 3.29 2.29 2.00 0.14 2.29 1.86 1.29 1.29
2 2.43 0.79 2.71 2.57 2.00 0.43 2.57 2.86 0.43 0.14
3 2.71 3.14 2.57 2.57 1.43 0.14 2.14 0.86 2.29 1.71
4 3.00 3.71 2.14 2.07 1.57 0.00 1.29 1.00 3.14 3.14
5 3.43 1.29 2.86 3.14 2.17 1.00 1.86 2.86 1.14 0.29
6 3.14 0.86 2.86 3.79 2.57 0.14 1.71 3.29 0.14 0.00
7 3.14 1.14 2.86 2.86 2.00 0.43 1.71 1.86 0.14 0.00
8 2.43 3.71 3.21 1.57 1.71 0.00 1.00 0.57 2.57 2.86
9 5.10 2.86 2.86 3.07 1.79 1.71 0.43 1.43 0.57 2.71
10 3.07 3.14 2.57 3.00 2.00 0.00 0.43 1.29 2.57 3.07
Par la suite, p désigne le nombre de colonnes de la matrice X (p = 10) et n le nombre de lignes (n = 10).
1. On décide ici de travailler avec les données centrées. Rappeler à quoi correspond la matrice G définie
ci-dessous.
1
> T <- scale(X, center=TRUE, scale=FALSE)
> W <- diag(1/n, nrow=n)
> G <- t(T)%*%W%*%T
> G
odeur sucre acide amer astringence suffocante

odeur 0.607769 0.06578 -0.038047 0.227483 0.008734 0.345929
sucre 0.065780 1.25890 -0.100510 -0.395800 -0.264210 -0.114660
acide -0.038047 -0.10051 0.097161 -0.015269 0.032248 0.022243
amer 0.227483 -0.39580 -0.015269 0.350941 0.128578 0.119053
astringence 0.008734 -0.26421 0.032248 0.128578 0.093404 0.011414
suffocante 0.345929 -0.11466 0.022243 0.119053 0.011414 0.276069
piquante -0.332357 -0.48129 0.030891 -0.014189 0.030878 -0.086127
alcool 0.018508 -0.92063 0.042476 0.366306 0.233458 0.104218
parfum -0.241972 1.04344 -0.132374 -0.400634 -0.216162 -0.281712
fruitee 0.181791 1.36814 -0.109323 -0.382163 -0.251814 -0.066449
piquante alcool parfum fruitee
odeur -0.332357 0.018508 -0.241972 0.181791
sucre -0.481290 -0.920630 1.043440 1.368140
acide 0.030891 0.042476 -0.132374 -0.109323
amer -0.014189 0.366306 -0.400634 -0.382163
astringence 0.030878 0.233458 -0.216162 -0.251814
suffocante -0.086127 0.104218 -0.281712 -0.066449
piquante 0.496181 0.301686 -0.250424 -0.656033
alcool 0.301686 0.790656 -0.721734 -0.948988
parfum -0.250424 -0.721734 1.143436 1.089532
fruitee -0.656033 -0.948988 1.089532 1.636569
Justifier la différence existant entre G et la matrice ci-dessous (on pourra par exemple remarquer que
0.608 ∗ 10/9 = 0.68)
> var(T)
odeur sucre acide amer astringence

odeur 0.675298889 0.07308889 -0.04227444 0.25275889 0.009704444
sucre 0.073088889 1.39877778 -0.11167778 -0.43977778 -0.293566667
acide -0.042274444 -0.11167778 0.10795667 -0.01696556 0.035831111
amer 0.252758889 -0.43977778 -0.01696556 0.38993444 0.142864444
astringence 0.009704444 -0.29356667 0.03583111 0.14286444 0.103782222
suffocante 0.384365556 -0.12740000 0.02471444 0.13228111 0.012682222
piquante -0.369285556 -0.53476667 0.03432333 -0.01576556 0.034308889
alcool 0.020564444 -1.02292222 0.04719556 0.40700667 0.259397778
parfum -0.268857778 1.15937778 -0.14708222 -0.44514889 -0.240180000
fruitee 0.201990000 1.52015556 -0.12147000 -0.42462556 -0.279793333
suffocante piquante alcool parfum fruitee
odeur 0.38436556 -0.36928556 0.02056444 -0.2688578 0.20199000
sucre -0.12740000 -0.53476667 -1.02292222 1.1593778 1.52015556
acide 0.02471444 0.03432333 0.04719556 -0.1470822 -0.12147000
amer 0.13228111 -0.01576556 0.40700667 -0.4451489 -0.42462556
astringence 0.01268222 0.03430889 0.25939778 -0.2401800 -0.27979333
suffocante 0.30674333 -0.09569667 0.11579778 -0.3130133 -0.07383222
piquante -0.09569667 0.55131222 0.33520667 -0.2782489 -0.72892556
alcool 0.11579778 0.33520667 0.87850667 -0.8019267 -1.05443111
parfum -0.31301333 -0.27824889 -0.80192667 1.2704844 1.21059111
fruitee -0.07383222 -0.72892556 -1.05443111 1.2105911 1.81841000
2. A quelle quantité d’intérêt pour l’ACP correspond la trace de la matrice G?

> sum(diag(G))
[1] 6.751086
3. Pourquoi obtient le même résultat en regardant la somme des valeurs propres?

> eigen(G)$values
[1] 4.745258e+00 1.277231e+00 3.152737e-01 1.813389e-01 1.147371e-01 5.462088e-02

[7] 4.320999e-02 1.672925e-02 2.687242e-03 3.556183e-17
> sum(eigen(G)$values)
2
[1] 6.751086
4. A la vue de la commande suivante, combien de composantes principales serait-il pertinent de conserver?

(à justifier)
> PV <- eigen(G)$values/sum(eigen(G)$values)

> PV
[1] 7.028881e-01 1.891890e-01 4.669970e-02 2.686071e-02 1.699536e-02 8.090681e-03

[7] 6.400450e-03 2.478009e-03 3.980459e-04 5.267572e-18
5. On se lance dans la mise en place de l’ACP pour ce jeu de données.

> acp <- princomp(T,cor=F)
La commande suivante permet d’obtenir la correlation entre les variables (colonnes) du tableau T et
la première composante principale.
> cor(T,acp$scores)[,1]

0.02094127 0.99162518 -0.29451194 -0.62537283 -0.75083327 -0.24280482
-0.61168040 -0.91675100 0.89465533 0.96598400
Quelles sont les variables les plus corrélées positivement (respectivement négativement) avec cette pre-
mière composante principale? Quelle interprétation pourrait-on donner à cette première composante.
6. La commande suivante permet de récupérer les positions des points du nuage de départ sur le 2ème
axe principal.
> acp$scores[,2]
[1] -1.1636356 -0.8588478 -0.8735170 -0.4356829 0.3182805 0.3137906 0.0851998

[8] -0.7477554 2.9674630 0.3947048
Justifier l’égalité des deux quantités suivantes

> var(acp$scores[,2])*9/10
[1] 1.277231
> eigen(G)$values[2]
[1] 1.277231
A ce titre, en quoi l’individu 9 est-il particulièrement intéressant?

7. Donner une interprétation de cette seconde composante principale. On pourra s’appuyer sur la question
précédente ainsi que sur la commande
> cor(T,acp$scores)[,2]

0.97857811 0.04161056 -0.05129621 0.52782849 0.14820619 0.81149636
-0.66966799 0.06169400 -0.33397070 0.18842454

Analyse Donnees

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analyse Donnees

Încărcat de

Drepturi de autor:

Formate disponibile

MAM3 Mars 2020

Contrôle continu n°2

On pourra en particulier montrer dans un premier temps que

kx − yk2 = kx − µk2 + ky − µk2 − 2hx − µ, y − µi.

• une métrique M = nD2−1 .

Problème (10 pts)

> X <- read.table("Cidre.txt",header=TRUE)

odeur sucre acide amer astringence suffocante

odeur sucre acide amer astringence

2. A quelle quantité d’intérêt pour l’ACP correspond la trace de la matrice G?

3. Pourquoi obtient le même résultat en regardant la somme des valeurs propres?

[1] 4.745258e+00 1.277231e+00 3.152737e-01 1.813389e-01 1.147371e-01 5.462088e-02

4. A la vue de la commande suivante, combien de composantes principales serait-il pertinent de conserver?

> PV <- eigen(G)$values/sum(eigen(G)$values)

[1] 7.028881e-01 1.891890e-01 4.669970e-02 2.686071e-02 1.699536e-02 8.090681e-03

5. On se lance dans la mise en place de l’ACP pour ce jeu de données.

odeur sucre acide amer astringence suffocante

[1] -1.1636356 -0.8588478 -0.8735170 -0.4356829 0.3182805 0.3137906 0.0851998

Justifier l’égalité des deux quantités suivantes

A ce titre, en quoi l’individu 9 est-il particulièrement intéressant?

odeur sucre acide amer astringence suffocante

S-ar putea să vă placă și