Sunteți pe pagina 1din 4

Analyse des données S6, Option : Gestion Prof.

Mohamed El Merouani

Exemples d’introduction à l’analyse des données:


De la statistique à la géométrie :
Soient X1 et X2 deux variables statistiques. Notons Y1 et Y2 les variables centrées construites à
partir de X1 et X2 :
Y1 = X 1 − X 1 Y2 = X 2 − X 2
Convenons d’écrire les données brutes associées à chacune de ces variables, sous la forme de
n-uplets :
(Y1(ω1),…, Y1(ωi),…, Y1(ωn)) (Y2(ω1),…, Y2(ωi),…, Y2(ωn))
ou, si l’on pose yij= Yj(ωi)
(y11,…,yi1,…,yn1) (y12,…,yi2,…,yn2)
Il est posible de considérer que ces n-uplets comme les composantes de deux vecteurs Y1 et
Y2 éléments de IRn (espace vectoriel de dimension n).

Exemple 1 :
Soit le tableau des données correspondant à deux variables statistiques X1 et X2 :

X1 X2
ω1 1 6
ω2 3 2
On a
X1 = 2 X2 = 4
D’où les variables centrées Y1 et Y2 :
Y1 Y2
ω1 -1 2
ω2 1 -2
On a bien Y1 = 0 Y2 = 0

Les vecteurs Y1(-1,1) et Y2(2,-2) de IR2 ; le plan IR2 est appelé espace des individus, car
chaque axe du repère orthonormé est associé à un individu

1
Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

Var (Y j ) = (yij − Y j )2
1 n
∀ j = 1, 2 ∑
n i =1

= ∑ ( y ij ) = Y j
1 n 2 1 2

n i =1 n
Yj
et σ (Y j ) =
n
où Yj = y12j + L + yij2 + L + y nj2 est la norme euclidienne du vecteur Y j , c’est-à-

dire, dans un langage plus courant, la longueur du vecteur Y j

Pour les vecteurs de l’exemple 1 ;


1
2
(
Var (Y1 ) = 12 + 12 = 1 ) Var (Y2 ) =
1
2
(4 + 4) = 4
Y1 = 12 + 12 = 2 Y2 = 4 + 4 = 2 2
La longueur du vecteur associé à une variable statistique centrée est donc proportionnelle à
l’écart-type de cette variable.
Calculons, maintenant, la covariance de (Y1, Y2) :
Cov (Y1 , Y2 ) = ∑ ( y i1 − Y1 )( y i 2 − Y2 )
1 n
n i =1
1 n 1
= ∑ y i1 y i 2 = (Y1 ⋅ Y2 )
n i =1 n
où (Y1.Y2) désigne le produit scalaire de Y1 et de Y2.
On rappelle que, si α est l’angle formé entre les vecteurs Y1 et Y2, alors :

Y1 ⋅ Y2
cos α = (1)
Y1 Y2
Soit encore, compte tenu de ce qui précède,
nCov (Y1 , Y2 ) Cov (Y1 , Y2 )
cos α = = =ρ
nσ (Y1 )σ (Y2 ) Var (Y1 )Var (Y2 )
c’est le coefficient de corrélation linéaire entre Y1 et Y2.

2
Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

Dans l’exemple 1 précédent, on peut voir clairement que les vecteurs Y1 et Y2 sont colinéaires
et de sens contraire, l’angle de Y1 et Y2 est donc égal à π ; or cos π = –1, résultat que l’on
retrouve en utilisant la formule (1),
− 2 + ( −2 )
cos α = = −1
2 8

Lorsque les vecteurs sont linéairement dépendants (liés), il existe λ ∈ IR+* tel que Y1=λY2,
donc cos α=±1 et réciproquement.
Yj − Yj
Quand on centre et on réduit des variables (par exemple Z j = ), on forme des
σ (Y j )
vecteurs qui ont tous la même dimension. ( Var ( Z j ) = 1 )

De ce fait, la variance est la distance commune à tous les vecteurs (ils se situent sur un cercle
de rayon 1) et ils se positionnent les uns par rapport aux autres par le coefficient de corrélation
linéaire que l’on déduit à partir de l’angle formé par les deux vecteurs.
Exemple 2 :
Soit le tableau de données suivant :
Variables X1 X2
Individus
1 4 5
2 6 7
3 8 0
 4  5
   
X1 = 6 et X 2 = 7
8  0
   ,
8+6+4 5+7+0
Les moyennes : X 1 = = 6 et X2 = =4
3 3
Center les variables (xij − x j ) :
4-6=-2 5-4=1
6-6=0 7-4=3
8-6=2 0-4=-4
Leur normes (écart-types σ Xii ) :

[(− 2) + (2) ] =
1 1 2
X1 = σ X1 = [4 + 4] = 2
2 2

3 3 3

[1 + 3 2 + (− 4) ] =
1 2 26
X2 = σ X2 =
2
et
3 3

−2 3 3 
 
 2 2 26  avec xij − x j
z ij =
 3 3  σX
Z = 0  i

 26 
 3 −4 3
 
 2 26  3
Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani

⇒ Z 1 = C1∗ = 0 et Z 2 = C 2∗ = 0
σ yj = 1; j = 1,2
Cov ( X , Y )
De plus r = entre deux variables X et Y,
σ ( X )σ (Y )
mais si σ ( X ) = σ (Y ) = 1, alors r = Cov( X , Y ) .
1
Calcul du produit matriciel Z'Z :
p
 3 3 
− 
 3 3  2 26   − 15   −5 
− 
1 2
0
2  0 3 3  1 3   1 
2 13  =  1 − 0,69
  =  2 13  =  
3 3 3 3 − 4 3  26  3  − 15   −5   − 0,69 1 
   3   1 
 26 26 26  3 −4 3  2 13   2 13 
 
 2 26 

Le résultat de ce calcul est la matrice R des corrélations linéaires des variables. On


l’appelle aussi la matrice d’information des variables.
R est une matrice symétrique, ayant des « 1 » sur la diagonale (les variances des
variables) et tous ses éléments sont inférieurs ou égales à 1 en valeur absolue.

Calcul du produit matriciel ZZ’ :

  − 51 
− 3
3  21
 9
 2 

26 3 3   
− 0   13 26 26 
 
3 3 2 2 = 9 27 − 36 
ZZ ' =  0  =V
 26  3 3 3 − 4 3   26 26 26 
   − 51 − 36 87 
 3 − 4 3  26 26 26  
  
 2 26   26 26 26 

Cette matrice V n’est pas une matrice de corrélation, mais elle porte le nom de matrice
d’information des individus. Elle est symétrique aussi.

S-ar putea să vă placă și