AD-Exemples Introduction PDF

Analyse des données S6, Option : Gestion Prof.
Mohamed El Merouani
Exemples d’introduction à l’analyse des données:

De la statistique à la géométrie :
Soient X1 et X2 deux variables statistiques. Notons Y1 et Y2 les variables centrées construites à
partir de X1 et X2 :
Y1 = X 1 − X 1 Y2 = X 2 − X 2
Convenons d’écrire les données brutes associées à chacune de ces variables, sous la forme de
n-uplets :
(Y1(ω1),…, Y1(ωi),…, Y1(ωn)) (Y2(ω1),…, Y2(ωi),…, Y2(ωn))
ou, si l’on pose yij= Yj(ωi)
(y11,…,yi1,…,yn1) (y12,…,yi2,…,yn2)
Il est posible de considérer que ces n-uplets comme les composantes de deux vecteurs Y1 et
Y2 éléments de IRn (espace vectoriel de dimension n).
Exemple 1 :
Soit le tableau des données correspondant à deux variables statistiques X1 et X2 :
X1 X2
ω1 1 6
ω2 3 2
On a
X1 = 2 X2 = 4
D’où les variables centrées Y1 et Y2 :
Y1 Y2
ω1 -1 2
ω2 1 -2
On a bien Y1 = 0 Y2 = 0
Les vecteurs Y1(-1,1) et Y2(2,-2) de IR2 ; le plan IR2 est appelé espace des individus, car
chaque axe du repère orthonormé est associé à un individu
1
Analyse des données S6, Option : Gestion Prof. Mohamed El Merouani
Var (Y j ) = (yij − Y j )2
1 n
∀ j = 1, 2 ∑
n i =1
= ∑ ( y ij ) = Y j
1 n 2 1 2
n i =1 n
Yj
et σ (Y j ) =
n
où Yj = y12j + L + yij2 + L + y nj2 est la norme euclidienne du vecteur Y j , c’est-à-
dire, dans un langage plus courant, la longueur du vecteur Y j
Pour les vecteurs de l’exemple 1 ;

1
2
(
Var (Y1 ) = 12 + 12 = 1 ) Var (Y2 ) =
1
2
(4 + 4) = 4
Y1 = 12 + 12 = 2 Y2 = 4 + 4 = 2 2
La longueur du vecteur associé à une variable statistique centrée est donc proportionnelle à
l’écart-type de cette variable.
Calculons, maintenant, la covariance de (Y1, Y2) :
Cov (Y1 , Y2 ) = ∑ ( y i1 − Y1 )( y i 2 − Y2 )
1 n
n i =1
1 n 1
= ∑ y i1 y i 2 = (Y1 ⋅ Y2 )
n i =1 n
où (Y1.Y2) désigne le produit scalaire de Y1 et de Y2.
On rappelle que, si α est l’angle formé entre les vecteurs Y1 et Y2, alors :
Y1 ⋅ Y2
cos α = (1)
Y1 Y2
Soit encore, compte tenu de ce qui précède,
nCov (Y1 , Y2 ) Cov (Y1 , Y2 )
cos α = = =ρ
nσ (Y1 )σ (Y2 ) Var (Y1 )Var (Y2 )
c’est le coefficient de corrélation linéaire entre Y1 et Y2.
2
Dans l’exemple 1 précédent, on peut voir clairement que les vecteurs Y1 et Y2 sont colinéaires
et de sens contraire, l’angle de Y1 et Y2 est donc égal à π ; or cos π = –1, résultat que l’on
retrouve en utilisant la formule (1),
− 2 + ( −2 )
cos α = = −1
2 8
Lorsque les vecteurs sont linéairement dépendants (liés), il existe λ ∈ IR+* tel que Y1=λY2,
donc cos α=±1 et réciproquement.
Yj − Yj
Quand on centre et on réduit des variables (par exemple Z j = ), on forme des
σ (Y j )
vecteurs qui ont tous la même dimension. ( Var ( Z j ) = 1 )
De ce fait, la variance est la distance commune à tous les vecteurs (ils se situent sur un cercle
de rayon 1) et ils se positionnent les uns par rapport aux autres par le coefficient de corrélation
linéaire que l’on déduit à partir de l’angle formé par les deux vecteurs.
Exemple 2 :
Soit le tableau de données suivant :
Variables X1 X2
Individus
1 4 5
2 6 7
3 8 0
 4  5
   
X1 = 6 et X 2 = 7
8  0
   ,
8+6+4 5+7+0
Les moyennes : X 1 = = 6 et X2 = =4
3 3
Center les variables (xij − x j ) :
4-6=-2 5-4=1
6-6=0 7-4=3
8-6=2 0-4=-4
Leur normes (écart-types σ Xii ) :
[(− 2) + (2) ] =
1 1 2
X1 = σ X1 = [4 + 4] = 2
2 2
3 3 3
[1 + 3 2 + (− 4) ] =
1 2 26
X2 = σ X2 =
2
et
3 3
−2 3 3 
 
 2 2 26  avec xij − x j
z ij =
 3 3  σX
Z = 0  i
 26 
 3 −4 3
 
 2 26  3
⇒ Z 1 = C1∗ = 0 et Z 2 = C 2∗ = 0
σ yj = 1; j = 1,2
Cov ( X , Y )
De plus r = entre deux variables X et Y,
σ ( X )σ (Y )
mais si σ ( X ) = σ (Y ) = 1, alors r = Cov( X , Y ) .
1
Calcul du produit matriciel Z'Z :
p
 3 3 
− 
 3 3  2 26   − 15   −5 
− 
1 2
0
2  0 3 3  1 3   1 
2 13  =  1 − 0,69
  =  2 13  =  
3 3 3 3 − 4 3  26  3  − 15   −5   − 0,69 1 
   3   1 
 26 26 26  3 −4 3  2 13   2 13 
 
 2 26 
Le résultat de ce calcul est la matrice R des corrélations linéaires des variables. On

l’appelle aussi la matrice d’information des variables.
R est une matrice symétrique, ayant des « 1 » sur la diagonale (les variances des
variables) et tous ses éléments sont inférieurs ou égales à 1 en valeur absolue.
Calcul du produit matriciel ZZ’ :
  − 51 
− 3
3  21
 9
 2 

26 3 3   
− 0   13 26 26 
 
3 3 2 2 = 9 27 − 36 
ZZ ' =  0  =V
 26  3 3 3 − 4 3   26 26 26 
   − 51 − 36 87 
 3 − 4 3  26 26 26  
  
 2 26   26 26 26 
Cette matrice V n’est pas une matrice de corrélation, mais elle porte le nom de matrice
d’information des individus. Elle est symétrique aussi.

AD-Exemples Introduction PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

AD-Exemples Introduction PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Analyse des données S6, Option : Gestion Prof.

Exemples d’introduction à l’analyse des données:

dire, dans un langage plus courant, la longueur du vecteur Y j

Pour les vecteurs de l’exemple 1 ;

Le résultat de ce calcul est la matrice R des corrélations linéaires des variables. On

Calcul du produit matriciel ZZ’ :

S-ar putea să vă placă și