Documente Academic
Documente Profesional
Documente Cultură
M2
Lanalyse en composantes principales est note ACP. Elle sapplique tous les tableaux de donnes
o les variables sont de type quantitatif. Cest la mthode de rfrence pour deux raisons :
-
cest une mthode qui peut servir de support dautres techniques statistiques comme par
exemple la rgression orthogonale, la construction dindicateurs synthtiques, la prvision
dune chronique ou encore complter une information manquante dans un tableau.
1er exemple
On considre le tableau suivant :
Y
Individus\variables
1
20
2
82
3
44
4
65
5
25
Somme
236
X
10
40
20
30
15
115
La reprsentation graphique des individus dans lespace R des deux variables, en utilisant une base
orthonorme
Y
suivant :
100
90
2
80
nuage de rgression
70
4
60
50
3
G( X, Y )
40
30
5
20
r10
j
r
i
0
0
10
X
20
30
40
50
60
70
80
90 100
1 / 11
Analyse de donnes
M2
Avec la rgression, il est parfois possible de visualiser linformation contenue dans le nuage de
rgression (les proximits relatives des 5 points)
Le tableau des calculs permettant de trouver les lments dune rgression sur donnes centres
(x,y) et non centre (X,Y) est le suivant :.
Ind
1
2
3
4
5
Somme
Y
20
82
44
65
25
236
y
Y
X
XY
xy
x2
X2
Y2 y = Y Y x = X X
10
100
200
400
-27,20
-13,00 739,84 169,00 353,60 18,99
40 1600 3280 6724
34,80
17,00 1211,04 289,00 591,60 84,09
20
400
880 1936
-3,20
-3,00
10,24
9,00
9,60 40,69
30
900 1950 4225
17,80
7,00 316,84 49,00 124,60 62,39
15
225
375
625
-22,20
-8,00 492,84 64,00 177,60 29,84
115 3225 6685 13910
0,00
0,00 2770,80 580,00 1257,00 236,00
Y=
1
n
Yi =
236
= 47.2
5
X=
1
n
Xi =
115
= 23
5
V [Y ] =
1
n
Yi2 Y2 =
1
n
Xi2 X2 =
13910
(47.2)2 = 554.16
5
[Y ] = V [Y ] = 554.16 = 23.54
V [X] =
3225
(23 )2 = 116
5
rYX =
cov[X, Y ]
1 XY nXY 1 ( 6685 5 * 47.2 * 23)
= 0.9916 rXY =
=
= 0.9916
n
X Y
5
10.77 * 23.54
[X] [Y ]
r 2 = 0.98
r 2 , le coefficient de dtermination, nous indique que 98% du nuage de rgression est expliqu par la
droite de rgression Y = aX + b .
Il est donc possible dutiliser cette droite pour rsumer le nuage de rgression.
La mthode de calcul des paramtres a et b de la droite de rgression consiste minimiser la somme
des carrs des rsidus entre les valeurs observes Yi et le valeurs calcules Y
i
La minimisation de la somme des carts au carr porte le nom de mthode des MCO. Cela scrit :
2
Min Yi Yi
On dmontre que :
a =
cov (X, Y )
[Y ]
23.54
=r
= 0.9916 *
= 2.17
V( X)
[X]
10.77
b = Y aX 47.2 2.17 * 23 = 2.71 (la droite passe par le point G( X, Y ) qui est le centre de
gravit du nuage des points des individus).
Y = 2.17 X 2.71
2 / 11
Analyse de donnes
M2
Le nuage de rgression permet de connatre linformation concernant les individus du tableau. Par
exemple, on visualise le point 1 proche du point 5 et le point 1 loin du point 2. Il est possible aussi de
quantifier cette information en calculant toutes les distances au carr (thorme de Pythagore) entre
les paires de points et de les classer par ordre croissant.
Le graphe de rgression montre que le nuage de point est insr dans une ellipse aux bords aplatis ,
ce qui signifie que ce nuage peut tre rsum au moyen dune droite de rgression. Cette observation
est confirme par le calcul du coefficient de corrlation r = 0.99 , ce qui signifie quil existe une
relation troite et positive entre X et Y. Il est donc possible de substituer au nuage de rgression, la
= 2.17 X 2.71 ou encore la droite sur variables centres y = 2.17 x qui a pour origine le
droite Y
point G( X, Y ) . (Cf le tableau prcdent pour le dtail des calculs)
On peut donc calculer les projections au sens des moindre carrs (paralllement laxe des
ordonnes) des 5 points sur la droite de rgression.
,L , Y . On constate
Ces projections sont donnes pour les variables non centres par les calculs Y
1
5
et Y au carr, on trouve environ celle du
alors que si on calcule la distance, par exemple, entre Y
1
5
nuage de rgression entre le point 1 et le point 5.
Remarque importante :
lorsque lon travaille sur les variables centres, on a les coordonnes suivantes des vecteurs x et y :
13
17
r
X X = x = 3
7
8
27.2
34.8
r
Y Y = y = 3.2
17.8
22.2
r
r
Le produit scalaire entre les vecteurs x et y scrit :
r r
x * y = ( 13) * ( 27.2) + L + ( 8 ) * ( 22.2) = 1257 =
r r
x*y
De ce fait :
=
n
xiy i
i
xy = cov( x, y)
n
r
( x )2
Do : V ( x ) = cov( x, x ) =
n
r
x
et (x ) =
n
3 / 11
Analyse de donnes
M2
r r
x*y
r r
cov( x, y )
x*y
n
= r
De plus : r =
r = r r
x
y
( x ) ( y )
x y
*
n
n
Par ailleurs on sait que :
r r r
r
x * y = x * y * cos avec langle form par les deux vecteurs.
Do : r = cos .
Ainsi, lorsque les variables sont centres, le coefficient de corrlation entre les 2 variables est
gal au cosinus de langle form par les vecteurs reprsentant ces variables.
Quand on centre et on rduit des variables (par exemple y i =
Yi Y
), on forme des vecteurs qui ont
Y
tous la mme dimension. ( V( y ) = 1 ). De ce fait, la variance est la distance commune tous les
vecteurs (ils se situent sur un cercle de rayon 1) et ils se positionnent les uns par rapport aux autres
par le coefficient de corrlation linaire que lon dduit partir de langle form par les deux vecteurs.
Exemple 2
Soit le tableau de donnes suivant :
Ind\var
x1
x2
X (3,2) =
( )
Reprsentation graphique du nuage des 3 points individus dans lespace R des variables ( x1 en
rr
abscisse, x 2 en ordonne). Le systme daxes est orthonorm : base i , j telle que
r
r
r r
i = j = 1, i * j = 0 .
x2
8
7
6
5
4
3
2
1
r
i
r
j
x1
0
0
4 / 11
Analyse de donnes
M2
(r r r )
3
Reprsentation graphique du nuage des 2 points variables dans lespace R des individus. Le
r
r
r
r r
r r
r r
i = j = k = 1, i * j = 0 i * k = 0 j * k = 0 .
x2
r
j
x1
r
i
1
r
k
3
Les points du nuage constituent linformation donne par les colonnes du tableau. Ici aussi, on peut
calculer la distance euclidienne entre les deux point.
Calcul des caractristiques des colonnes du tableau
Calcul de la moyenne et de lcart type de x1 et x 2 :
x1 =
18
=6
3
x2 =
12
=4
3
V ( x1) =
116
62 = 2.67
3
( x1) = 1.633
V ( x2 ) =
74
42 = 8.67
3
( x2 ) = 2.944
1=
9
= 4.5
2
2=
13
= 6 .5
2
V (1) =
41
( 4.5 )2 = 0.25
2
V ( 2) =
85
( 6.5)2 = 0.25
2
V ( 3) =
64
( 4 )2 = 16
2
3=
8
=4
2
(1) = 0.5
( 2) = 0.5
(3 ) = 4
5 / 11
Analyse de donnes
M2
x1 x1 x 2 x2
x x1
z1 = 1
( x1)
x2 x2
( x 2 )
x1
x2
-2
-1.225
0.34
Z( 3,2) = 2
1.02
-4
1.225
-1.36
18
12
z2 =
( )
Reprsentation graphique du nuage des 3 points individus dans lespace R des variables rcentres
r
rduites ( z1 en abscisse et z 2 en ordonne). Le systme daxes est orthonorm : base i , j telle
2
r
r
r r
que i = j = 1, i * j = 0 . Dans cet espace, lorigine des axes (point 0) est confondu avec le centre
de gravit du triangle (Point G ( z1 = 0, z 2 = 0)
Z2
2
r
i
r
j
0
-2
Z1
0 G
-1
-1
-2
3
Dans lespace R des individus, se situent les deux variables centres rduites. Avec un systme
daxes orthonorm on peut calculer :
En utilisant les variables centres rduites dans lespace trois dimensions des individus avec un
systme orthonorm on peut calculer :
3
3
=3
d (0, z1 ) =
+0+
2
2
Do
1 2
d (0, z1 ) = 1 la variance de z1
3
3
+ 3 2 + 4 3 = 3
d (0, z 2 ) =
26
26
26
1 2
d (0, z 2 ) = 1 la variance de z2
3
6 / 11
Analyse de donnes
M2
Dans cet espace, la distance au carr entre lorigine et une variable est, N = 3 prs, la variance de la
variable. Quand les variables sont centres et rduites, toutes les variables sont quidistantes de
lorigine. Cette distance est, au nombre dobservations prs, la variance des variables.
x1
x2
X = 2
( 3,2)
Zij =
6
x j
xij x j
x j
2
3
26
3
z1
1
3
2
Z =
z2
3
26
3 3
( 3,2)
z1
z1
-1,225
0,34
avec zij =
1,02
1,225
-1,36
x ij x j
.
xi
26
3
3
2
4 3
26
z j
La
moyenne
des
variables
centres et rduites est gale 0.
Lcart type des variables centres et
rduites est gal 1.
De plus :
r=
cov
( x ) ( y )
comme ( x ) = 1
covariance.
et
Remarque : on peut aussi traiter linformation contenue dans le tableau de dpart en utilisant le
tableau des individus centrs rduits.
x1
x2
xi
( xi )
4.5
0.5
X( 3,2) = 2
6.5
0.5
7 / 11
Analyse de donnes
Q ( 3,2) =
-1
-1
-1
avec qij =
M2
x ij x i
( xi )
Il est possible de reprsenter linformation contenue dans ce nouveau tableau comme prcdemment
et den tirer des conclusions.
1
2
3 3
26
0
3 3
26
3
2
2 0
4 3
26 3
2
1
ZZ
N
3
1
=
26 3 15
2 3
4 3
26
3
26
3 3
15
1
2 13 =
5
3
2 3
0.69
2 13 = 1
1
1 0.69
Le rsultat de ce calcul est une matrice carre, de dimension (2,2), note R, contenant les coefficients
de corrlation linaires des variables.
Cette matrice carre R a pour dimension le nombre de variables. Elles possde les proprits
suivantes :
Dans cette matrice R, on a sur la diagonale les variances des variables, or dans lexercice prcdent
on a vu que cette variance tait, au nombre dobservations prs, la distance de la variable lorigine.
Elle contient de part et dautre de la diagonale le coefficient de corrlation linaire entre les deux
variables. Or dans lexercice prcdent, on a vu que ce coefficient de corrlation tait le cosinus de
langle form par les deux variables. Langle form par les deux variables peut donc en tre dduit.
Avec la matrice R, il est donc possible de reprsenter dans lespace les positions relatives des
variables entre elles. Cette matrice R nous donne donc linformation recherche concernant les
variables. Cest la raison pour laquelle elle porte le nom de matrice dinformation des variables.
ZZ' = 0
3
2
3
2
3
26
4 3 26
26
3
26
3 3
0
3 3
26
9
21
3 13
26
27
2 = 9
4 3 26
26
51 36
26
26
26
51
26
36
= V
26 (3,3)
87
26
Cette matrice V nest pas une matrice de corrlation, mais elle y ressemble. On lui donne le nom de
matrice dinformation des individus. Elle est symtrique ; sa diagonale est la somme des carrs des
individus lignes du tableau et de part et dautre on trouve la somme des produits lignes deux deux
des individus
Caractristiques de la matrice R
Les caractristiques dune matrice sont donnes par les vecteurs propres associs aux valeurs
propres de la matrice.
8 / 11
Analyse de donnes
M2
X = X avec R
( 2,2 ) ( 2,1)
( 2,1)
[R ] X = 0
0.69
1
1 0 x1 0
R=
=
1
0 1 x 2 0
0.69
1 0.69 x1 0
R=
=
0.69 1 x 2 0
(1 )x1 0.69 x 2 = 0
0.69 x1 + (1 )x 2 = 0
Calcul du dterminant :
1 0.69
2
2
R =
= (1 ) ( 0.69 )
0.69 1
= (1 0.69 )(1 + 0.69 )
= (0.31 )(1.69 )
1 = 1.69
2 = 0.31
pour 1 = 1.69
[T ]X = 0
0.69 1.69
0 x1
1
= 0
1 0
1.69 x 2
0.69
0.69 0.69 x1
= 0
0.69 0.69 x 2
0.69 x1 0.69 x 2 = 0
0.69 x1 0.69 x 2 = 0
9 / 11
Analyse de donnes
M2
x1 + x 2 = 0
r
k
V1 =
k
k R
On a une infinit de vecteurs propres ports par la seconde bissectrice du plan (x1, x 2 ) .
r r
k 2 + k 2 = 1 2k 2 = 1 k 2 =
1
2
k =
2
2
r
b1 = 2 = vecteur propre norm de R.
2
2
Pour 2 = 0.31
0.69 0.69 x1
= 0
0.69 0.69 x 2
0.69 x1 0.69 x 2 = 0
0.69 x1 + 0.69 x 2 = 0
x1 x 2 = 0 x 2 = x1
r
k
V2 =
k
k R
k 2 + k 2 = 2k 2 = 1 k =
2
2
r
b 2 = 2 = vecteur propre norm de R.
2
2
Ces vecteurs propres norms constituent une nouvelle base orthonorme dans laquelle la norme de
chaque vecteur =1 et leur produit scalaire est nul :
b1 = 1
r r
et
b
*
b
=
r
1
2
b2 = 1
2
2 *
2
2
2
2
2
2 = 2 2 = 0
2
2 2
On peut alors placer les coordonnes (dans lancienne base) de ces vecteurs dans une matrice
B ( 2,2) , dans lordres dcroissant de leurs valeurs propres.
10 / 11
Analyse de donnes
B ( 2,2) = 2
2
M2
1
Cette matrice est une matrice orthogonale et vrifie donc : B = B , soit BB = I
Caractristique de la matrice V
Si on calcule comme prcdemment les valeurs propres de la matrice V : V = 0 c'est--dire :
1.62
0.55
1.96
1.96
0.35
1.04
1.38 = 0
1.38
3.35
1 = 5.07
on trouve : 2 = 0.93
3 = 0
1 = 5.07
1 = 1.69
2 = 0.93
2 = 0.31
j = 6
j = 2 = n
3 = 0
On voit que si on multiplie les valeurs propres de la matrice R par 3, on obtient les deux premires
valeurs propres de la matrice V et que la dernire valeur propre de V est nulle.
On peut dmonter que les valeurs propres de la matrice V sont gales aux
valeurs propres de R multiplies par N et quil y a dans la matrice V, N-n
valeurs propres nulles.
On peut aussi dmontrer quil est possible de calculer les vecteurs propres de V connaissant ceux de
R. Et donc, quen dfinitive, les caractristiques de R permettent de calculer celles de V et
rciproquement.
11 / 11