Sunteți pe pagina 1din 105

Ricco Rakotomalala

Analyse de corrlation

tude des dpendances - Variables quantitatives


Version 1.1

Universit Lumire Lyon 2


Page: 1

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 2

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Avant-propos

Ce support dcrit les mthodes statistiques destines quantier et tester la liaison entre

variables

quantitatives : on parle d'analyse de corrlation dans la littrature.


Il correspond une partie des enseignements d'conomtrie (je prfre l'appellation

naire Multiple )

Rgression Li-

en L3-IDS de la Facult de Sciences Economiques de l'Universit Lyon 2 (http:

//dis.univ-lyon2.fr/).

Il se veut avant tout oprationnel. Nous nous concentrons sur les principales

formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle
avec les rsultats fournis par les logiciels de statistique libres et/ou commerciaux. Le bien-fond des tests,
la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux
d'approfondir les bases thoriques consulter les ouvrages numrs dans la bibliographie.
Un document ne vient jamais du nant. Pour laborer mes supports, je m'appuie sur direntes
rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus
prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents
sont le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart
de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail (de toute manire je
multiple les vrications avant d'y faire rfrence) ; une disponibilit plus ou moins alatoire, au gr des
migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier (dsol s'il
y a des liens qui ne fonctionnent plus) ; les informations sont disparates, avec une absence d'organisation,
la dirence des ouvrages qui suivent une ligne pdagogique trs structurante.
Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles
pour les enseignements. Il y a la gratuit bien sr. C'est un aspect important. Mais il y a aussi l'accs
des fonctionnalits qui sont moins videntes avec les supports classiques. Par exemple, dans la grande
majorit des cas, les donnes qui illustrent les documents sont accessibles sur le site web de diusion.
C'est un atout fort. Pour notre cas, le lecteur pourra (j'espre) reproduire aisment les calculs prsents
l'aide du chier EXCEL qui accompagne ce document.
Concernant ce support, rendons Csar ce qui lui appartient. Parmi les direntes rfrences utilises,
j'ai beaucoup t inuenc par

excellents ouvrages : celui de Chen et Popovitch [2], il fait partie de la

non moins excellente srie "Quantitative Applications in the Social Sciences" de Sage University Paper ;

Page: 3

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Avant-propos

celui de Avazian [1], qui fait partie des rfrences, introuvables aujourd'hui, que je bichonne dans ma
bibliothque.
Ce support est totalement gratuit. Vous pouvez en reprendre des parties dans vos propres productions
ou dans vos enseignements, tant qu'elles sont elles-mmes diuses titre non commercial. Une citation
de la source originale serait apprcie.
Bien entendu, selon la formule consacre, ce document n'engage que son auteur. Toutes suggestions
ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.

Page: 4

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Table des matires

Partie I Analyse de Corrlation


1

Liaison entre 2 variables quantitatives

............................................

1.1

Objectif : analyser la liaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Analyse graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Coecient de corrlation

.........................................................

2.1

Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2

Coecient de corrlation de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.3

Coecient de corrlation empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.4

Test de signicativit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.5

Test de conformit et intervalle de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.6

Problmes et cas pathologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

Tests de comparaison de corrlations

.............................................

25

coecients de corrlation (chantillons indpendants) . . . . . . . . . . . . . . .

25

3.1

Comparaison de

3.2

Comparaison de

K (K 2)

3.3

Comparaison de

3.4

Comparaison de

coecients (chantillons indpendants) . . . . . . . . . . . . . . . . . . .

27

coecients de corrlation (mme chantillon) - Cas 1 . . . . . . . . . . . . . . .

29

coecients de corrlation (mme chantillon) - Cas 2 . . . . . . . . . . . . . . .

30

3.5

Test de nullit des corrlations croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

3.6

Comparaison de

matrices des corrlations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

3.7

Commentaires sur la comparaison des coecients de corrlations . . . . . . . . . . . . . . . . . . . . .

38

Variations autour de la corrlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4.1

Corrlation bisriale ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4.2

Corrlation mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

4.3

Le coecient

.................................................................

47

4.4

de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

4.5

de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

Page: 5

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Table des matires


4.6

Rapport de corrlation

.........................................................

62

Partie II Corrlations partielles et semi-partielles


5

Corrlation partielle paramtrique et non paramtrique

..........................

69

5.1

Principe de la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

5.2

Corrlation partielle d'ordre

5.3

Corrlation partielle d'ordre

p (p > 1)

5.4

Corrlation partielle sur les rangs -

bas sur le

de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

de Pearson . . . . . . . . . . . . . . . . . . . . . . .

74

de Spearman partiel . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

Corrlation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

6.1

Principe de la corrlation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

6.2

Calcul et infrence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83

6.3

Corrlation semi-partielle d'ordre

bas sur le

71

...............................................

85

A Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

89

B Fichier de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

91

C L'analyse de corrlation avec Tanagra

............................................

93

D L'analyse de corrlation avec R - Package 'psych' . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

95

Littrature

99

Page: 6

...........................................................................

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Partie I

Analyse de Corrlation

Page: 1

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 2

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

1
tudier la liaison entre deux variables quantitatives

1.1 Objectif : analyser la liaison


Soient

et

deux grandeurs statistiques quantitatives observes. On souhaite :

1. Dterminer s'il existe une relation entre

et

Y.

2. Caractriser la forme de la liaison (la relation) entre

et

(positive ou ngative, linaire ou non

linaire, monotone ou non monotone).


3. Tester si la liaison est statistiquement signicative.
4. Quantier l'intensit de la liaison.
5. Valider la liaison identie. Est-ce qu'elle n'est pas le fruit d'un simple artefact ou le produit d'autres
informations sous-jacentes dans les donnes ?
Attention, la position des variables est symtrique dans ce cadre. On ne veut pas valuer l'inuence
d'une des variables sur l'autre, la dirence de la rgression.

1.2 Analyse graphique


L'analyse graphique est une bonne manire de comprendre les direntes caractristiques numres

ci-dessus. Le graphique "nuage de points" est l'outil privilgi . Nous plaons en abscisse la variable
en ordonne la variable

Y,

X,

chaque observation est positionne dans le repre ainsi constitu. L'intrt est

multiple : nous pouvons situer les proximits entre les individus ; tudier la forme globale des points, voir
notamment s'il existe une forme de liaison ou de rgularit ; dtecter visuellement les points qui s'cartent
des autres, les observations atypiques ; vrier s'il n'y a pas de regroupement suspects, laissant entendre
qu'il y a en ralit une troisime variable qui inuence le positionnement des individus...
Dans la gure 1.1, nous illustrons quelques types de liaisons qui peuvent exister entre

variables

continues :


Liaison linaire positive. X


augmentation de

Y,

et

voluent dans le mme sens, une augmentation de

du mme ordre quelle que soit la valeur de

entrane une

X.

1. http://www.ebsi.umontreal.ca/jetrouve/illustre/nuage.htm
Page: 3

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

1 Liaison entre 2 variables quantitatives

Fig. 1.1.

Liaison linaire ngative. X


la valeur de

voluent en sens inverse. La pente est inchange quelle que soit

Liaison monotone positive non-linaire. X

et

voluent dans le mme sens, mais la pente est

X.

Liaison non-linaire non-monotone. Il y a une relation fonctionnelle (de type sinusodale ici) entre
X

et

X.

dirente selon le niveau de




Quelques types de liaisons entre 2 variables

et

Y.

Mais la relation n'est pas monotone,

Absence de liaison. La valeur de X


situation caractristique est que

peut augmenter ou diminuer selon la valeur de

ne donne indication sur la valeur de

(ou

Y)

Y,

X.

et inversement. L'autre

est constant quelle que soit la valeur de la seconde

variable.

Page: 4

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

1.3 Notations

1.3 Notations
Nous utiliserons les conventions suivantes dans ce support :

variable est note en majuscules (X est une variable).


xi correspond la valeur prise par l'observation numro i pour la variable X .

 Une


 La population parente est note


 L'chantillon est not

pop .

l'eectif de l'chantillon est

nous travaillons sur un chantillon de

n = card().

observations, constitues de couples

{(xi , yi ), i = 1, . . . , n}.
 La moyenne empirique calcule sur l'chantillon est
 L'cart type empirique est

Page: 5

sx =


n
1
n

job: Analyse_de_Correlation

Dans le cadre de la corrlation,

i=1 (xi

x
=

1
n

n
i=1

(xi , yi )

c.--d.

xi

x
)2

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 6

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2
Coecient de corrlation de Bravais-Pearson

2.1 Covariance
L'objectif de la covariance est de quantier la liaison entre deux variables
en vidence le

sens

de la liaison et son

et

Y , de manire mettre

intensit.

2.1.1 Dnition
La covariance est gale l'esprance du produit des variables centres.

COV (X, Y ) = E{[X E(X)][Y E(Y )]}

(2.1)

On peut aussi l'crire comme l'esprance du produit des variables, moins le produit des esprances.

COV (X, Y ) = E[XY ] E[X]E[Y ]

(2.2)

Signication. La covariance mesure la tendance des deux variables tre simultanment au dessus
ou en dessous de leurs esprances respectives. Elle modlise une liaison monotone.

Quelques remarques :
1. La rfrence est donc l'esprance mathmatique, on veut savoir si : lorsque
esprance,

est suprieur a son

a tendance tre suprieur (ou infrieur) son esprance.

2. On peut maintenant quantier le




COV (X, Y ) > 0

sens

de la liaison

: la relation est positive c.--d. lorsque

est plus grand que son esprance,

est plus grand que son esprance,

tendance l'tre galement ;




COV (X, Y ) = 0

: absence de relation monotone ;

COV (X, Y ) < 0

: la liaison est ngative c.--d. lorsque

tendance tre plus petit que sa propre esprance.


3. La covariance d'une variable avec elle-mme est la variance, la relation est toujours positive. En eet,

Page: 7

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2 Coecient de corrlation
COV (X, X) = E{[X E(X)][X E(X)]}
= E{[X E(X)]2 }
= V (X)
>0

2.1.2 Proprits
Voici les principales proprits de la covariance (Note : essayez d'eectuer les dmonstrations partir
de la dnition et des proprits de l'esprance mathmatique).
1.

Symtrie. COV (X, Y ) = COV (Y, X)

2.

Distributivit. COV (X, Y

+ Z) = COV (X, Y ) + COV (X, Z)

(... ne pas oublier que

E[X + Y ] =

E[X] + E[Y ])
3.

Covariance avec une constante. COV (X, a) = 0

4.

Covariance avec une variable transforme.(Transformation ane) COV (X, a + b Y ) = b


COV (X, Y )

5.

Variance de la somme de deux variables alatoires. V (X +Y ) = V (X)+V (Y )+2COV (X, Y )

6.

Covariance de 2 variables indpendantes.


X, Y independants COV (X, Y ) = 0
Attention, la rciproque est gnralement fausse. Ce n'est pas parce que la covariance est nulle que
les variables sont forcment indpendantes.
(Remarque : Pour dmontrer cette proprit, il ne faut pas oublier que lorsque
dants,

et

sont indpen-

E[X Y ] = E[X] E[Y ]).

2.1.3 Domaine de dnition


La covariance est dnie dans l'ensemble des rels c.--d.

< COV (.) < +.

Il permet de se

rendre compte du sens de la liaison. Plus sa valeur est leve (en valeur absolue), plus la liaison est
forte. Mais nous ne savons pas quelle est la limite. Nous ne pouvons pas non plus comparer la covariance
d'une variable

avec deux autres variables

et

Z.

Dans la pratique, nous prfrerons donc une mesure

normalise : le coecient de corrlation rpond ces spcications (section 2.2).

2.1.4 Estimation
Sur un chantillon de taille

n,

la covariance empirique est dnie de la manire suivante :

n
Sxy =

i=1 (xi

x
)(yi y)
n

On montre que c'est un estimateur biais de la covariance, en eet

Page: 8

job: Analyse_de_Correlation

macro: svmono.cls

(2.3)

E[Sxy ] =

n1
n COV

(X, Y ).

date/time: 8-Mar-2015/7:21

2.1 Covariance
L'estimateur sans biais de la covariance

1 s'crit par consquent :

x
)(yi y)
=
n1

i=1 (xi

(X, Y ) =
COV

n
i=1

xi yi n
xy
n1

(2.4)

Dtails des calculs sur un exemple. Pour prciser les ides, dtaillons les calculs dans le tableur
EXCEL. Nous cherchons calculer la covariance entre la cylindre et la puissance de

28 vhicules (Figure

2.1) :

Fig. 2.1.

Dtails des calculs - Estimation de la covariance

 Au bas de la feuille de calcul, en colonne C et D nous avons la moyenne de chaque variable.


 Dans la colonne E, nous calculons le produit

(xi yi ),

dont la somme est

4451219.

 Nous pouvons alors former la covariance empirique (formule 2.3), elle est gale
 L'estimateur sans biais (formule 2.4) tant lui gal
s'amenuise mesure que l'eectif

19062.2063.

18381.4133.

L'cart entre les deux valeurs

augmente.

 Notons que la fonction "COVARIANCE(...)" du tableur EXCEL fournit la covariance empirique.

Comparaison de covariances.

Illustrons maintenant l'impossibilit de comparer des covariances

lorsque les variables sont exprimes dans des units direntes. Nous souhaitons travailler sur un chier
de

28

vhicules dcrites l'aide de la cylindre, la puissance, le poids et la consommation (Figure 2.2 ; ce

chier reviendra plusieurs fois dans ce support).

1. Faire le parallle avec l'estimateur sans biais de la variance


Page: 9

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

10

2 Coecient de corrlation

Fig. 2.2.

Fichier "consommation des automobiles"

La covariance empirique de la variable "consommation" avec les autres variables nous donne respectivement : cylindre =

1197.6 ;

puissance =

61.7 ;

poids =

616.3.

Manifestement, les valeurs ne se situent

pas sur la mme chelle, toute comparaison n'a aucun sens.

2.2 Coecient de corrlation de Pearson


2.2.1 Dnition
Le coecient de corrlation linaire simple, dit de

Bravais-Pearson

(ou de

Pearson ), est une norma-

lisation de la covariance par le produit des carts-type des variables.

COV (X, Y )
rxy =
V (X) V (Y )
COV (X, Y )
=
x y

(2.5)

(2.6)

Remarque 1 (Prcisions sur la notation). Dans ce qui suit, s'il n'y a pas d'ambiguts, nous omettrons les
indices

et

Y.

2.2.2 Proprits
1. Il est de mme signe que la covariance, avec les mmes interprtations.

Page: 10

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.3 Coecient de corrlation empirique


2.

et

sont indpendants, alors

11

r = 0. La rciproque est fausse, sauf cas particulier que nous prcisons

maintenant.
3. Lorsque le couple de variables
avons l'quivalence

(X, Y )

r = 0 X

et

suit une loi normale bi-varie, et uniquement dans ce cas, nous

sont indpendants. Dans ce cas, le coecient de corrlation

caractrise parfaitement la liaison entre

et

Y.

Dans les autres cas, le coecient de corrlation

constitue une mesure parmi les autres de l'intensit de la corrlation.

intensit de liaison linaire entre 2 variables.

4. Le coecient de corrlation constitue une mesure de l'

Il peut tre gal zro alors qu'il existe une liaison fonctionnelle entre les variables. C'est le cas lorsque
la liaison est non monotone.
5. La corrlation d'une variable avec elle mme est

rxx = 1.

2.2.3 Domaine de dnition


Le coecient de corrlation est indpendant des units de mesure des variables, ce qui autorise les
comparaisons. La mesure est normalise, elle est dnie entre

1 r +1

(2.7)

Lorsque :


r = +1,

la liaison entre

fournit la valeur de


r = 1,

et

est linaire, positive et parfaite c.--d. la connaissance de

nous

(et inversement).

la liaison est linaire et ngative.

2.2.4 Quelques exemples graphiques


Reprenons les exemples graphiques prsents ci-dessus (section 1.2, gure 1.1), achons maintenant
le coecient de corrlation (Figure 2.3). Si la liaison est non monotone,
liaison est monotone mais non linaire,

n'est d'aucune utilit. Si la

caractrise mal l'intensit de la liaison.

2.3 Coecient de corrlation empirique


2.3.1 Dnition
Sur un chantillon de taille

n, nous estimons le coecient de corrlation l'aide de la formule suivante

(quation 2.8) :

2. Pour raliser la dmonstration, il faut s'appuyer sur deux pistes


Y
X
+
) 0 r 1
x
y
X
Y
V(

) 0 r +1
x
y
V(

Page: 11

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

12

2 Coecient de corrlation

Fig. 2.3.

Coecients de corrlation pour dirents types de liaison

)(yi y)
i=1 (xi x
n
2
)
i=1 (xi x
i=1 (yi

r = n
On parle de

coecient de corrlation empirique

y)2

(2.8)

dans la littrature. Aprs quelques simplications,

nous pouvons galement utiliser la formulation suivante :

r =

xi yi n
xy

yi2 n
y2

x2i n
x2

(2.9)

Nous pouvons calculer le coecient de corrlation sans disposer du dtail des observations, les quantits pr-calcules

Page: 12

x
, y,

xi yi ,

x2i

et

job: Analyse_de_Correlation

yi2

susent.

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.3 Coecient de corrlation empirique

13

2.3.2 Interprtation
Le coecient de corrlation sert avant tout caractriser une relation linaire positive ou ngative.
Il s'agit d'une mesure symtrique. Plus il est proche de

r=0

(en valeur absolue), plus la relation est forte.

indique l'absence de corrlation, il quivaut un test d'indpendance si et seulement si le couple

(X, Y )

suit une loi normale bivarie.

La valeur de

r n'a

pas de signication intrinsque. En revanche, son carr c.--d.

r2 ,

que l'on appelle

coecient de dtermination, s'interprte comme la proportion de variance de Y (resp. X ) linairement explique par X (resp. Y ). On peut faire le rapprochement avec les rsultats produits avec la
3

rgression linaire .
Ainsi,
avec

r = 0.9,

r = 0.81,

on voit que la liaison est forte, puisqu'elle se rapproche de

on peut dire que

81%

de la variance de

est explique par

1.

C'est tout. En revanche,


(et inversement)(voir [3],

page 90).
Il existe par ailleurs d'autres interprtations du coecient de corrlation de Pearson. Parmi les plus
intressants gure l'interprtation gomtrique qui assimile
de

observations

et

au cosinus de l'angle entre les deux vecteurs

4.

2.3.3 Product-moment correlation


Dans la littrature anglo-saxonne, on parle souvent de "product-moment correlation" propos du
coecient de corrlation de Pearson. Cela s'explique par le fait qu'il peut s'exprimer comme la moyenne
du produit des variables centres rduites. Si l'on dsigne par

cr

(resp.

cr

y)

les valeurs de

(resp.

Y)

centres et rduites c.--d.

cr

xi =

xi x

sx

Le coecient de corrlation empirique peut s'crire

1 cr cr
xi yi
n i=1
n

r =

(2.10)

En particulier, lorsque les donnes sont centres et rduites, covariance et corrlation empiriques sont
quivalents.

2.3.4 Biais et Coecient de corrlation ajust


Le coecient de corrlation empirique est un estimateur biais. Fort heureusement, le biais devient
ngligeable lorsque l'eectif augmente. L'esprance de l'estimateur s'crit ([1], page 107) :

E[
r] = r

r(1 r2 )
2n

3. Voir http://fr.wikipedia.org/wiki/Rgression_linaire_multiple
4. Voir http://en.wikipedia.org/wiki/Correlation_coefficient
Page: 13

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

14

2 Coecient de corrlation
Pour cette raison, certains logiciels proposent un coecient de corrlation ajust

raj =

5 ([6], page 274)

n1
(1 r2 )
n2

(2.11)

Bien entendu, l'ajustement est d'autant plus sensible que l'eectif est faible. Lorsque

raj

est lev,

r et

se confondent.

2.3.5 Exemples numriques


Dtails des calculs sur un exemple.

Reprenons les variables cylindre (X) et puissance (Y) de

notre chier "voitures". Nous dtaillons les calculs dans la feuille EXCEL (Figure 2.4) :

Fig. 2.4.

Dtails des calculs - Estimation de la corrlation

 Au bout des colonnes C et D, nous disposons toujours des moyennes empiriques.


 Nous formons les quantits

102138444

et

(xi yi ), x2i

et

yi2 .

Nous calculons leurs sommes respectives :

4451219,

197200.

5. Voir le parallle avec le coecient de dtermination ajust en rgression linaire multiple http://fr.
wikipedia.org/wiki/Rgression_linaire_multiple
Page: 14

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.3 Coecient de corrlation empirique


 A partir de la formule 2.9, nous obtenons le numrateur =

514679.571

15

et le dnominateur =

543169.291.
 Reste former le rapport, la corrlation entre la cylindre et la puissance est

r = 0.9475.

 La fonction "COEFFICIENT.CORRELATION(...)" du tableur EXCEL propose la mme valeur.

Nuage de points. Il y a une forte liaison linaire entre "cylindre" et "puissance", ce que conrme
le graphique nuage de points (Figure 2.5). On notera aussi, et le coecient de corrlation ne sait pas
traduire ces informations, que

points semblent s'carter des autres, mais pas de la mme manire :

Fig. 2.5.

Nuage de points "Cylindre vs. Puissance"

 La "Lancia K 3.0 LS" est une grosse cylindre, trs puissante. Elle s'carte du nuage certes, mais
elle est dans la ligne de la liaison entre les deux variables.
 La "Hyundai Sonata 3000" est aussi une grosse cylindre, mais elle est relativement anmique. Le
point est un peu l'cart des autres, tout comme la Lancia, mais elle ne respecte pas, apparemment,
l'apparente liaison (visuelle et numrique) entre cylindre et puissance. Si on retire cette observation,
la corrlation est renforce, elle passe

0.9635.

Comparaison de coecients de corrlation. Maintenant, nous pouvons comparer les coecients


de corrlation calculs sur direntes variables. Reprenons notre exemple des voitures, calculons le coecient de corrlation de consommation avec les autres variables, nous obtenons respectivement : cylindre
=

0.892,

puissance =

0.888

et poids =

0.926.

La variable "consommation" est singulirement corrle avec l'ensemble des variables. Le lien avec

Mais sans l'arsenal de l'infrence statistique, nous ne


pouvons pas armer s'il est signicativement plus lev que les autres.
poids semble plus lev que le lien avec puissance.

Page: 15

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

16

2 Coecient de corrlation

2.4 Test de signicativit


2.4.1 Spcications du test
Le premier test qui vient l'esprit est la signicativit de la corrlation c.--d. le coecient de
corrlation est-il signicativement dirent de

0?

Le test s'crit :

H0 : r = 0
H1 : r = 0

Remarque 2 (Autres hypothses alternatives). On peut vouloir dnir une hypothse alternative dirente
(H1

:r<0

ou

H1 : r > 0).

Les caractristiques des distributions restent les mmes. Pour un risque

donn, seul est modi le seuil de rejet de

H0

puisque le test est unilatral dans ce cas.

Test exact. Le test tudi dans cette section est paramtrique. On suppose a priori
(X, Y )

6
suit une loi normale bivarie . Dans ce cas : la distribution sous

H0

que le couple

de la statistique du test que

nous prsenterons plus bas est exacte ; le test de signicativit quivaut un test d'indpendance.

Test asymptotique. Cette restriction est moins contraignante lorsque n est susamment grand 7 . A
partir de

25

observations, l'approximation est bonne, mme si nous nous cartons (un peu) de la distri-

bution normale conjointe ([12], page 308). La distribution est asymptotiquement valable sous l'hypothse

r = 0.

Mais le test de signicativit revient simplement tester l'absence ou la prsence de corrlation.

Statistique du test. Sous H0 , la statistique :


t=
suit une loi de Student

(n 2)

(2.12)

1
r2
n2

degrs de libert.

Rgion critique. La rgion critique (rejet de l'hypothse nulle) du test au risque s'crit :
R.C. : |t| > t1 2 (n 2)
o

t1 2 (n 2)

est le quantile d'ordre

2 de la loi de Student

(n 2)

degrs de libert. Il s'agit

d'un test bilatral.

Probabilit critique (p-value). Plutt que de comparer la statistique calcule avec la seuil thorique
p-value ) que l'on doit

fournie par la loi de Student, les logiciels proposent souvent la probabilit critique (
comparer au risque

que l'on s'est x. Si la p-value est plus petite, alors nous rejetons l'hypothse nulle.

6. Si (X, Y ) suit une loi normale bivarie, alors X et Y suivent individuellement une loi normale. En revanche,
ce n'est pas parce que X et Y sont individuellement gaussiens que le couple (X, Y ) l'est forcment. Enn, si X
ou Y n'est pas gaussien, le couple (X, Y ) ne l'est pas non plus.
7. Voir http://faculty.vassar.edu/lowry/ch4pt1.html et http://www2.chass.ncsu.edu/garson/PA765/
correl.htm#assume
Page: 16

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.5 Test de conformit et intervalle de conance

17

2.4.2 Un exemple numrique


Reprenons le calcul de la corrlation entre la cylindre et la puissance (Figure 2.4). Nous souhaitons
tester sa signicativit au risque

= 0.05.

n = 28,

Nous avions

et

r = 0.9475.

Nous devons calculer les lments suivants :


 La statistique du test

t=

0.9475

10.94752
282

= 15.1171

= 0.05

 Le seuil thorique au risque

est

t0.975 (28 2) = 2.0555

 Nous concluons donc au rejet de l'hypothse nulle c.--d. les rsultats que nous obtenons partir
des donnes ne sont pas compatibles avec une absence de corrlation. On s'en serait dout avec une
valeur aussi leve. A la dirence que maintenant, nous pouvons associer un risque la prise de
dcision.

2.4.3 Test asymptotique (bis)


De manire gnrale,

r tend

lentement vers la loi normale. Quand

n +, t

suit une loi de Student

degrs de libert inni, donc vers la loi normale.


Sous l'hypothse

H0 : r = 0,

la convergence est plus rapide. Lorsque

approxime l'aide de la loi normale

N (0;

n > 100,

la loi de

peut tre

1 ). Le test de signicativit peut s'appuyer sur cette


n1

distribution.

2.5 Test de conformit et intervalle de conance


Pour calculer un intervalle de conance ou tester la conformit de

avec une autre valeur que

0,

il

faudrait connatre la distribution de la statistique de manire gnrique c.--d. quelle que soit la vraie
valeur de

dans la population.

Or, on se rend compte que dans un voisinage autre que


plus lente et, pour les petits eectifs, la distribution de

r = 0,

la convergence vers la loi normale est

tend tre dissymtrique gauche ([2], page

15).
Pour remdier cela, il est conseill de passer par une transformation dite de Fisher.

2.5.1 Transformation de Fisher


La transformation de Fisher s'crit

z =

1 1 + r
ln
2 1 r

Elle est distribue asymptotiquement selon une

loi normale de paramtres 8

8. Il existe une approximation ([1], page 108) plus prcise de l'esprance E[z ]
lger biais, mais il devient trs vite ngligeable ds que n augmente.
Page: 17

job: Analyse_de_Correlation

(2.13)

macro: svmono.cls

1
2

ln

1+r
1r

r
2(n1)

. Il y a un

date/time: 8-Mar-2015/7:21

18

2 Coecient de corrlation
1 1+r
ln
2 1r
1
V [
z]
n3
E[
z]

L'approximation est bonne ds les (relativement) petites valeurs de

(ds

n > 10

en pratique).

Nous pouvons nous appuyer sur cette statistique pour raliser le test de signicativit ci-dessus. Mais,
plus intressant encore, la transformation nous ore d'autres possibilits.

2.5.2 Intervalle de conance


Nous pouvons calculer un intervalle de conance pour
peut obtenir

partir de

z en

r.

Il faut pour cela garder l'esprit que l'on

utilisant la relation

r =

e2z 1
e2z + 1

(2.14)

Voici la dmarche adopter pour obtenir l'intervalle de conance au niveau de conance


 Calculer

partir de

r (Equation

(1 )

2.13)

 Calculer les bornes de l'intervalle de conance de

avec

z1,2 = z u

1
2

1
n3

 En dduire alors les bornes de l'intervalle de conance de

(2.15)

(Equation 2.14)

Exemple numrique. Nous souhaitons calculer l'intervalle de conance de la corrlation entre cylindre et puissance pour un niveau de conance de

95%.

Rappelons que

 Le quantile de la loi normale centre rduite d'ordre


 La transformation de Fisher nous donne

 L'cart type de

z est

gal

1
283

z =

1
2

est

u0.975 = 1.96

1+0.9475
ln 10.9475
= 1.8072

= 0.2

 La borne basse de l'intervalle de conance s'crit


procd, la borne haute

0.975

r = 0.9475.

z1 = 1.8072 1.96 0.2 = 1.4152 ;

selon le mme

z2 = 2.1992

 Nous en dduisons les bornes de l'intervalle de conance du coecient de corrlation :

e21.4152 1
= 0.8886
e21.4152 + 1
e22.1992 1
r2 = 22.1992
= 0.9757
e
+1
r1 =

L'intervalle de conance au niveau

95%

de la corrlation entre la cylindre et la puissance est

[0.8886 ; 0.9757]

Page: 18

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.6 Problmes et cas pathologiques

19

2.5.3 Comparaison un standard (autre que 0)


La transformation nous permet d'aller plus loin que le simple test de signicativit, nous avons la
possibilit de comparer la valeur du coecient de corrlation avec une valeur de rfrence
associe

est valable quelle que soit la valeur de

r0 .

La loi

dans la population parente.

Nous passons par la transformation de Fisher, avec

z0 =

1
2

1+r0
ln 1r
,
0

l'hypothse nulle du test s'crit

H0 : z = z0
La statistique du test

est

z z0
U=
= (
z z0 ) n 3

(2.16)

1
n3

Elle suit une loi normale centre rduite.

Exemple : Corrlation cylindre - puissance. Nous souhaitons eectuer le test unilatral suivant
au risque

5%

H0 : r = 0.9
H1 : r > 0.9
Les tapes du calcul sont les suivantes
 Nous calculons la valeur de rfrence transforme
 Rappelons que

r = 0.9475

 La statistique du test est

z = 1.8072

et

U = (
z z0 )

z0 =

 Au risque

1+0.9
ln 10.9
= 1.4722

n 3 = (1.8072 1.4722)

 Que nous devons comparer avec le quantile d'ordre


rduite c.--d.

1
2

28 3 = 1.6750

1 = 1 0.05 = 0.95 de la loi normale centre

u0.95 = 1.6449

= 5%,

l'hypothse nulle n'est pas compatible avec nos donnes, nous acceptons

H1

2.6 Problmes et cas pathologiques


"Corrlation n'est pas causalit". C'est une phrase maintes fois rpte dans tous les ouvrages.
En eet, le coecient de corrlation est un indicateur statistique, avec ses forces et ses faiblesses. Il ne
faut surtout pas en faire une rfrence absolue. Il importe de dlimiter clairement son champ d'action
et identier les cas o ses indications sont sujettes caution. La qualit des interprtations conscutives
aux calculs en dpend (voir aussi [3], pages 93-94, concernant les "petites corrlations").

2.6.1 Corrlation fortuite


La corrlation peut parfois tre totalement fortuite. Johnston ([4], page 10) rapporte par exemple que
sur les donnes annuelles de

1897

1985,

des tudes ont montr une corrlation de

0.91

entre le revenu

national amricain et le nombre de tches solaires (les zones sombres du soleil, ce sont des zones moins
chaudes). Personne ne peut dcemment soutenir qu'il y a une relation quelconque entre ces

Page: 19

job: Analyse_de_Correlation

macro: svmono.cls

grandeurs.

date/time: 8-Mar-2015/7:21

20

2 Coecient de corrlation

2.6.2 Facteur confondant


La corrlation peut aussi cacher l'inuence d'un autre facteur. On montre par exemple qu'il existe une
relation ngative entre la taille des personnes et la longueur de leur chevelure. On pourra toujours avancer
des arguments plus ou moins psychologiques, mais avant de s'avancer outre mesure, on ferait mieux de
revenir sur les conditions du recueil des donnes et vrier qu'il n'y a pas d'informations caches derrire
tout cela.
Dans cet exemple, on se rend compte que les hommes et les femmes sont mlangs dans le chier de
donnes. Or,

en moyenne,

les hommes sont plus grands que les femmes, et inversement, les femmes ont

une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rle de facteur confondant.
L'apparente liaison est un artefact li l'existence d'un facteur non matris.
Dans le cas o le facteur confondant est qualitatif, on dtecte facilement le problme en construisant
un nuage de points en distinguant les sous-groupes. tudions plus en dtail notre exemple "taille vs.
longueur de cheveux" chez les hommes et chez les femmes. Lorsque nous construisons le nuage de points,
nous constatons que le nuage des hommes se distingue du nuage des femmes (Figure 2.6). Globalement,
une liaison compltement factice apparat. La corrlation est
chez les femmes, il passe

Fig. 2.6.

r = 0.602

r1 = 0.074

chez les hommes,

r2 = 0.141

sur la totalit des individus.

Nuage de points "taille vs. longueur des cheveux" - Hommes et femmes confondus

Lorsque le facteur est quantitatif, c'est un peu plus compliqu (exemple : vente de lunettes de soleil et
de crmes glaces, il n'y a pas de lien direct, c'est l'ensoleillement ou la temprature qui les font varier de

Page: 20

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.6 Problmes et cas pathologiques

21

manire concomitante). Nous tudierons plus en dtail le calcul de la corrlation en contrlant les eets
d'une ou plusieurs tierces variables dans la partie consacre la corrlation partielle.

2.6.3 Points aberrants (atypiques)


Dans certains cas,

1 ou 2 points peuvent totalement fausser les

rsultats. Ces points s'cartent signi-

cativement des autres, on parle de points "aberrants" ou "atypiques", dans le sens o ils n'appartiennent
(vraisemblablement) pas la population parente.
Les raisons de l'apparition de ce type d'observations sont multiples : erreur lors du recueil des donnes
(exemple : une personne de

4 ans souscrit une assurance-vie, en ralit elle a 40 ans) ; un comportement

rellement dirent (exemple : un sportif tellement dop qu'il porte les records du monde des sommets
jamais atteints) ; etc.
Le positionnement de ces points par rapport au nuage global laisse croire (ou masque) l'existence
d'une liaison manifeste entre les variables. Il existe certes des techniques statistiques destines identier
automatiquement les donnes atypiques, mais force est de constater que des graphiques simples telles que
les nuages de points permettent souvent de dtecter rapidement les anomalies.

Fig. 2.7.

Inuence du point numro 7 sur le coecient de corrlation

Dans un premier exemple (Figure 2.7), on note le positionnement totalement atypique de l'individu
numro

7. Si on l'utilise dans les calculs, le coecient empirique est 0.9976, trs proche de liaison linaire

parfaite. Si on le retire c.--d. on calcule le coecient sur les

0.0185.

Le point numro

points restants, la corrlation passe

fausse compltement le calcul.

Parfois, le point aberrant est particulirement sournois. Il est conforme au domaine de dnition de
et

Y . Mais sur la conjonction (X, Y ), il s'carte du nuage principal (Figure 2.8). Dans cet exemple, le point

atypique (entour de rouge) masque en partie la forte liaison entre

et

Y . Les techniques statistiques de

9
dtection univarie des points atypiques sont totalement inoprantes ici. Il faut se tourner vers d'autres
procdures. Certaines sont lies la mthode statistique mise en oeuvre pour analyser les donnes

10 .

9. Voir http://tutoriels-data-mining.blogspot.com/2008/05/dtection-univarie-des-points-aberrants.
html

10. Pour la rgression multiple, il existe toute une panoplie d'indicateurs assez ecaces - Voir http://

tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html
Page: 21

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

22

2 Coecient de corrlation

Fig. 2.8.

Point aberrant "multivari"

2.6.4 Liaison non linaire


Le coecient de corrlation sert avant tout caractriser une liaison linaire. Lorsqu'elle ne l'est pas,

r peut

nous induire en erreur sur l'existence et l'intensit de la relation entre les variables.

Liaison monotone. Lorsque la liaison est non linaire mais monotone, le coecient de corrlation
est certes peu adapt mais n'est pas compltement hors de propos : il donne des indications quant
l'existence de la liaison, mais il traduit mal son intensit.

Fig. 2.9.

Liaison non linaire monotone

Dans la gure 2.9, nous constatons visuellement l'existence d'une liaison fonctionnelle quasi parfaite
entre

et

Y,

c'est patent lorsqu'on relie les points. Pourtant le coecient de corrlation nous annonce

r = 0.7804, indiquant clairement qu'il y a une liaison certes, mais ne rendant pas compte de son intensit.
Nous verrons plus loin avec les indicateurs bass sur les rangs comment palier ce problme sans avoir
faire des manipulations compliques.

Liaison non monotone. Lorsque la liaison est non monotone, c'est la catastrophe : le coecient de
corrlation ne rend compte ni de l'intensit de la liaison, ni mme de son existence.
Dans la gure 2.10 (A), on constate immdiatement la forme parabolique de la relation. Pourtant le
coecient de corrlation nous indique
bien une liaison entre

Page: 22

et

Y,

rxy = 0.0118.

Eectivement, elle n'est pas linaire, mais il y a

le coecient de Pearson est totalement inadapt ici.

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

2.6 Problmes et cas pathologiques

Fig. 2.10.

23

Liaison non linaire et non monotone

Linarisation par transformation de variables. Une solution vidente, surtout si l'on considre
l'exemple prcdent, est de proposer une transformation de variables de manire mettre en exergue
une relation linaire. Dans la gure 2.10 (B), si nous proposons une nouvelle variable
rlation mesure en est grandement modie

rzy = 0.990.

Z = X 2,

la cor-

Il y a bien un lien entre les variables, elle est

particulirement forte.
Malheureusement, cette dmarche est dicile reproduire : la fonction de transformation adquate
n'est pas toujours vidente produire ; dans le traitement de gros chiers o nous avons manipuler
plusieurs dizaines de variables, le nombre de congurations expertiser est dissuasif.

Page: 23

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 24

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3
Tests de comparaison de corrlations

Dans cette section sont runis quelques tests de comparaison de corrlations que l'on retrouve peu
souvent dans la littrature francophone et qui, pourtant, rpondent des problmatiques trs concrtes.

3.1 Comparaison de 2 coecients de corrlation (chantillons indpendants)


Autre possibilit qu'introduit la transformation de Fisher : la comparaison les corrlations dans deux
populations direntes. Mettons que nous souhaitons comparer la corrlation entre le poids et la taille
chez les hommes et chez les femmes. Est-ce qu'elle est identique dans les deux populations ?
Nous travaillons sur

chantillons indpendants, extraits au hasard dans chaque sous population.

La corrlation thorique est

r1

(resp.

r2 )

chez les femmes (resp. chez les hommes). Le test d'hypothses

s'crit :

H0 : r1 = r2
H1 : r1 = r2
Nous disposons de

chantillons de taille

n1

et

n2 .

Nous introduisons la statistique

D = z1 z2
Sous

H0 ,

puisque les estimateurs

tillons indpendants), la statique

r (et

par consquent

(3.1)

z)

sont indpendants (estims sur des chan-

suit asymptotiquement une loi normale de paramtres

E[D] = 0
V [D] =
Au risque

1
1
+
n1 3 n2 3

la rgion critique du test bilatral s'crit :

R.C. : U =

Page: 25

job: Analyse_de_Correlation

|
z1 z2 |
1
n1 3

1
n2 3

u1 2

macro: svmono.cls

date/time: 8-Mar-2015/7:21

26

3 Tests de comparaison de corrlations

Exemple numrique : comparer la corrlation taille - poids chez les hommes et chez
les femmes. Nous disposons d'un chantillon de n1 = 15 femmes, et n2 = 20 hommes (Figure 3.1).
Nous souhaitons tester l'galit du coecient de corrlation entre le poids et la taille dans les deux
sous-populations au risque de

Fig. 3.1.

5%.

Les tapes du calcul sont numres ci-dessous.

Comparaison de 2 coecients de corrlation - chantillons indpendants

 Nous calculons les coecients de corrlation, nous obtenons


 Nous appliquons la transformation de Fisher,
 Nous calculons la statistique
 Nous en dduisons alors

U=

D = z1 z2 = 0.1045,
|0.1045|

0.1422

0.3652
0.3770

 Que nous comparons au quantile d'ordre


 Conclusion : au risque de

z1 = 0.6417

et

r1 = 0.5661

et

r2 = 0.4909

z2 = 0.5372

puis sa variance

V (D) =

1
153

1
203

= 0.1422

= 0.2771

0.975

de la loi normale centre rduite, soit

u0.975 = 1.96

5%, les donnes sont compatibles avec l'hypothse nulle c.--d. le coecient

de corrlation entre le poids et taille n'est pas signicativement dirent chez les hommes et les
femmes.

Page: 26

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.2 Comparaison de K (K 2) coecients (chantillons indpendants)

3.2 Comparaison de K

(K 2)

27

coecients (chantillons indpendants)

Il est possible de gnraliser ce test pour comparer

coecients de corrlation dans

populations. La statistique du test s'crit diremment, elle suit une loi du

sous-

dans ce cas (voir [2], page

22). Il s'agit bien souvent de comparer le mme coecient de corrlation sur plusieurs sous-populations.

Remarque 3 (C'est une vraie gnralisation).

Lorsque

K = 2,

nous devrions retrouver le test prcdent,

nous vrierons cela sur le mme exemple que prcdemment (section 3.1).

L'hypothse nulle du test est

H0 : r1 = r2 = = rK
L'hypothse alternative est "un des coecients au moins s'carte des autres".
La statistique du test s'crit :

(nk

k=1
o

nk

Fisher de
Sous

3)
zk2

K
[ k=1 (nk 3)
zk ]2
K
k=1 (nk 3)

est l'eectif de l'chantillon ayant servi mesurer la corrlation

rk

c.--d.

zk =

1
2

(3.2)

rk ; zk

est la transformation de

1+
rk
ln 1
rk .

H0 , la statistique du test suit une loi du 2 (K 1) K 1 degrs de libert. On rejette l'hypothse

nulle lorsqu'elle est suprieure au quantile

21 (K 1)

de la loi thorique pour un risque

Exemple numrique 1 : comparaison de la corrlation poids vs. consommation des vhicules de direntes origines. Nous souhaitons vrier, au risque de 5%, que la corrlation entre
le poids et la consommation des vhicules est la mme pour des vhicules en provenance de l'Europe
(France, Allemagne, etc.), du Japon, et des USA. Le chier est disponible sur le site DASL (Data and

Story Library) . Du chier original, nous avons supprim l'observation atypique (la fameuse Buick Estate
Wagon). Nous disposons pour chaque catgorie de vhicule de

n1 = 9 , n2 = 7

et

n3 = 21

observations.

Tous les calculs ont t mens dans une feuille EXCEL (Figure 3.2), en voici les dtails :
 Pour chaque origine des vhicules, nous disposons des deux colonnes de donnes (Poids et Consommation).
 Nous obtenons les coecients de corrlation empiriques

r1 = 0.9716, r2 = 0.9540, r3 = 0.9647 ;

en

z1 = 2.1198, z2 = 1.8741, z3 = 2.0092.

zk = 3178.7259 ; B = k (nk 3) = 28 ; C = k (nk 3)


zk2 =
k (nk 3)

appliquant la transformation de Fisher, nous avons :


 Nous formons alors

A=

113.6718.
 La statistique du test est
 Le quantile d'ordre

2 = C

A
B

= 0.1459.

1 = 95% de la loi du 2

(K 1) = 2 degrs de libert est 20.95 (2) = 5.9915.

Nos donnes sont compatibles avec l'hypothse nulle : les corrlations sont les mmes quelle que
soit l'origine des vhicules.

1. http://lib.stat.cmu.edu/DASL/Stories/FuelEfficientBuickWagon.html
Page: 27

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

28

3 Tests de comparaison de corrlations

Fig. 3.2.

Comparaison de K = 3 coecients de corrlation - chantillons indpendants

 De la mme manire, nous aurions pu calculer la probabilit critique du test (la p-value), elle est
gale

0.9297,

largement suprieure au risque

5%.

La conclusion est bien videmment la mme.

Exemple numrique 2 : Comparaison de la corrlation taille - poids chez les hommes


et chez les femmes. Le test est une gnralisation de la comparaison de 2 coecients. Vrions que
les rsultats sont en accord avec notre exemple de la section 3.1. Dtaillons de nouveaux les calculs en
reprenant les notations de l'exemple prcdent


A = [(15 3) 0.6417 + (20 3) 0.5372]2 = 283.3678

B = (15 3) + (20 3) = 29

C = (15 3) 0.64172 + (20 3) 0.53722 = 9.8481

 Ainsi, la statistique du test est

2 = C

A
B

= 0.0768,

Conformment au test prcdent, on conclut, au risque

que l'on comparera

5%,

20.95 (1) = 3.8415.

que les donnes sont compatibles avec

l'hypothse d'galit des coecients de corrlation.


 En regardant de plus prs les rsultats, nous constatons que

0.0768 = 0.2771.

On retrouve exac-

tement la valeur de la statistique du test bas sur la loi normale. Ce n'est gure tonnant, en eet

Page: 28

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.3 Comparaison de 2 coecients de corrlation (mme chantillon) - Cas 1


n'oublions pas qu'il y a une relation entre la loi normale et la loi du

[N (0; 1)] (1).


2

29

degr de libert c.--d.

Les deux tests sont totalement quivalents.

3.3 Comparaison de 2 coecients de corrlation (mme chantillon) - Cas 1


Autre analyse intressante dans la pratique, nous souhaitons comparer les corrlations respectives de
deux variables

et

avec la variable

Y.

La situation est un peu plus complexe car les corrlations sont

calcules sur un seul et mme chantillon.


L'hypothse nulle du test est naturellement

H0 : ryx = ryz
On peut vouloir construire un test unilatral (ryx
Dans ce cadre, le test

> ryz

ou

ryx < ryz )

ou bilatral (ryx

= ryz ).

t de Williams est conseill ds lors que n est assez grand (n 20). La statistique

s'crit ([2], page 24)

t = (
ryx ryz )
o

(n 1)(1 + rxz )
+ r2 (1 rxz )3

(3.3)

2 n1
n3 |R|

2
2
2
r = (
ryx + ryz )/2 ; |R| = 1 ryx
ryz
rxz
+ 2
ryx ryz rxz

est le dterminant de la matrice

(3 3)

des corrlations entre les variables.

suit une loi de Student

(n 3)

degrs de libert.

Remarque 4 (X et Z sont orthogonaux). Nous remarquons que le degr du lien entre les variables X
inue sur les rsultats. Si
des corrlations

ryx

et

et

sont orthogonaux (c.--d.

rxz = 0),

et

la statistique dpend uniquement

ryz .

Exemple numrique : comparaison de la corrlation "consommation - puissance et


consommation - cylindre. Reprenons notre chier des voitures (Figure 2.2). Nous souhaitons savoir
si,

5%,

la corrlation de la consommation (Y) avec la cylindre (la taille du moteur, X) est comparable

sa corrlation avec la puissance (Z). Nous sommes sur un test bilatral, on veut vrier si l'cart observ
est statistiquement signicatif.
Conformment la formule 3.3, nous construisons la feuille EXCEL (Figure 3.3) :
 Notre eectif est

n = 28.

 Nous calculons les corrlations comparer

ryx = 0.8919

et

ryz = 0.8878.

Nous voulons savoir si

l'cart observ est signicatif c.--d. transposable dans la population (H1 ) ou uniquement du aux
uctuations d'chantillonnage (H0 ).
 Nous calculons la corrlation

rxz = 0.9475.

Nous constatons qu'elles sont trs lies. Peut tre

d'ailleurs qu'elles amnent le mme type d'information vis vis de

Y , nous vrierons cette assertion

dans la partie de ce support consacre aux corrlation partielles.

Page: 29

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

30

3 Tests de comparaison de corrlations

Fig. 3.3.

 Nous calculons l'cart

Comparaison de 2 corrlations du mme chantillon - Cas 1

A = (
ryx ryz ) = 0.0041

B = (n 1)(1 + rxz = 52.5838

2
2
2
|R| = 1 ryx
ryz
rxz
+ 2
ryx ryz rxz = 0.0191

r = (
ryx + ryz )/2 = 0.8898

C = (1 rxz )3 = 0.0001

 Nous obtenons la statistique du test

t=A

 Que nous comparons au seuil critique


 Au risque

B
2 27
25 0.0191+0.88980.0001

= 0.1448

T0.975 (25) = 2.0595.

5%, nos donnes sont compatibles avec l'hypothse nulle, la consommation est identique-

ment corrle la cylindre et la puissance.


 La p-value du test gal

0.8861

conduit bien videmment la mme conclusion.

3.4 Comparaison de 2 coecients de corrlation (mme chantillon) - Cas 2


Toujours partir sur un mme chantillon, ce second test consiste opposer

H0 : rxy = rzw
H1 : rxy = rzw
Le test peut tre unilatral (c.--d.

H1 : rxy < rzw

ou

rxy > rzw ).

De prime abord, ce test parat assez trange. Est-ce que comparer des corrlations calcules sur des
concepts dirents a rellement un sens ? Prenons l'exemple des voitures, opposer la corrlation entre

Page: 30

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.4 Comparaison de 2 coecients de corrlation (mme chantillon) - Cas 2

31

la puissance et la consommation, d'une part, et la corrlation entre le poids et le prix, d'autre part, ne
parat pas trs pertinent.
On comprend mieux le sens de ce test la lumire de l'exemple propos par une des rares rfrences
qui le dcrit (voir [2], page 24). Pour un ensemble d'lecteurs, on calcule la corrlation entre les donations
et les intentions de votes, une anne donne, puis

ans plus tard. L'objectif est de vrier si le lien entre

ces deux variables a t modi entre temps.

appariement. Nous voulons comparer l'intensit

De cet exemple, nous retiendrons avant tout l'ide d'

d'un lien avant et aprs l'occurrence d'un vnement, qui peut tre simplement un certain dlai, mais qui
peut tre aussi une action particulire. Mais la notion d'appariement est plus large. Il y a eectivement
la situation "avant - aprs". Mais nous pouvons la dnir surtout comme des mesures eectues sur une
unit statistique : dans un mnage, mesurer et comparer une caractristique chez l'homme et la femme ;

comparer la mme variable chez des jumeaux ; etc. .


Le test de Clark et Dunn est conseille pour cette conguration. Il suit asymptotiquement une loi
normale centre rduite, il est valable ds lors que
variables

X = 1, Y = 2, Z = 3

et

W = 4.

n 20.

Par commodits, nous numroterons les

Nous crirons par exemple

r12

pour

rxy ,

ou

r34

pour

rzw ,

etc.

La statistique du test s'crit

U = (
z12 z34 )

n3
2 2
s

(3.4)

avec

1+
r
ln 1
r,

z =

1
2

s =

r =

(1
r 2 )2 ;
r12 +
r34
;
2

= 0.5{[(
r13 r23 r)(
r24 r23 r)] + [(
r14 r13 r)(
r23 r13 r)] + [(
r13 r14 r)(
r24 r14 r)] + [(
r14

la transformation de Fisher ;

r24 r)(
r23 r24 r)]}
Une autre formulation est possible. Elle s'appuie sur l'ide que nous pouvons simplier l'expression
sous l'hypothse nulle d'galit des corrlations (voir [7], page 97).

Exemple : les donations au parti. Reprenons directement l'exemple dcrit dans l'ouvrage de Chen
et Popovich ([2], page 25). Il s'agit de tester, pour

n = 203

votants, si le lien entre les donations au parti

et les intentions de vote a volu dans un laps de temps de

r12 = 0.3

et

annes. Les corrlations comparer sont

r34 = 0.4.

Nous disposons des corrlations croises :

r13 = 0.6, r14 = 0.2, r23 = 0.3, r24 = 0.7.

A partir des quations ci-dessus, nous obtenons


La statistique du test est gal

|U | = 1.48

U = 1.48.

r = 0.35, = 0.3125

Au risque

avec le quantile de la loi normale centre rduite

avec l'hypothse nulle,

5%,

et

s = 0.4059.

pour un test bilatral, nous comparons

u0.975 = 1.96.

Les donnes sont compatibles

annes plus tard, le lien entre les intentions de vote et les donations n'a pas

volu signicativement.

2. Voir http://www.tufts.edu/~gdallal/paired.htm
Page: 31

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

32

3 Tests de comparaison de corrlations

3.5 Test de nullit des corrlations croises


3.5.1 Test de Bartlett
On calcule la matrice des corrlations lorsque l'on souhaite apprhender plusieurs variables simultanment. Elle retranscrit les corrlations entre les variables prises deux deux. Elle est symtrique, et la
diagonale - la corrlation d'une variable avec elle-mme - est gale 1.
Le test de nullit des corrlations croises vise tablir l'orthogonalit deux deux des variables de
l'ensemble de donnes. En d'autres termes, il s'agit de savoir si la matrice des corrlations est assimilable
la matrice identit (hypothse nulle) ou non.
Le test de sphricit de Bartlett est parfois associ l'analyse en composantes principales (ACP) dans
les logiciels. L'objectif est d'identier s'il existe une certaine redondance dans les donnes que l'on pourra
exploiter pour produire des axes factoriels porteurs d'informations pertinentes. Si l'hypothse nulle est

compatible avec les donnes, essayer d'obtenir un rsum de l'information via une ACP serait vain .
Pour mesurer le lien entre les variables, le dterminant de la matrice des corrlations
Sous l'hypothse d'orthogonalit des variables,

|R| = 1

|R|

est calcul.

puisque tous les coecients hors diagonale prin-

cipale sont nuls. Le principe du test consiste valuer dans quelle mesure l'on s'carte de cette situation
de rfrence

|R| = 1.

La statistique du test s'crit :

)
(
2p+5
ln(|R|)
= n1
6
2

Sous

est le nombre de variables,

H0 ,

(3.5)

est le nombre d'observations.

la statistique suit une loi du

p(p1)
degrs de libert.
2

Remarque : Il faut utiliser avec beaucoup de prudence ce test. Il aboutit quasi-systmatiquement


au rejet de l'hypothse nulle lorsque la taille de l'chantillon
de ne l'utiliser que lorsque le ratio

augmente. On recommande gnralement

n
p (nombre d'observations / nombre de variables) est infrieur

5.

Exemple : Traitement du chier "Consommation des automobiles" (Figure 2.2). Nous souhaitons tester la nullit des corrlations croises entre les

p=4

variables qui composent la base. Tous les

calculs ont t retranscrits dans une feuille Excel (Figure 3.4) :


 La matrice des corrlations

|R|

est calcule tout d'abord. Elle est symtrique. La corrlation d'une

variable avec elle-mme est gale

1,

ce sont les valeurs que nous observons sur la diagonale

principale. Nous constatons que les variables sont trs fortement lies entre elles (les valeurs sont
proches de

en valeur absolue).

 Le dterminant est gal

|R| = 0.0025826,

proche de

0.

Ce qui conrme les fortes corrlations

observes dans la matrice.


 Reste calculer la statistique de test,

3. cf. Tutoriel Tanagra,

ACP sous R - Indice KMO et test de Bartlett,

mai 2012, http://

tutoriels-data-mining.blogspot.fr/2012/05/acp-sous-r-indice-kmo-et-test-de.html
Page: 32

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.5 Test de nullit des corrlations croises

Fig. 3.4.

33

Test de sphricit de Bartlett - Fichier "Consommation des automobiles"


)
(
24+5
2 = 28 1
ln(0.0025826) = 147.9813
6

 Elle est distribue selon une loi du

43
2

=6

degrs de libert. La probabilit critique est gale

2.067 1029 .

L'hypothse de sphricit - orthogonalit deux deux des variables - est trs largement incompatible
avec les donnes. On s'en doutait un peu rien qu'en regardant la matrice des corrlations ceci tant.

Remarque : Cas de p = 2. Lorsque p = 2, le test de Bartlett correspond un test usuel de nullit


du coecient c.--d. un test de signicativit. On se rend compte pourtant qu'en introduisant

p = 2 dans

la statistique, nous tombons sur une expression qui est dirente du test de Student (section 2.4) ou du
test bas sur la statistique de Fisher (section 2.5). En eet, si

r est

la corrlation entre les

variables :

)
(
2p+5
ln(|R|)
2 = n 1
6
(
)
22+5
= n1
ln(|R|)
6
1
= (2 n 5) ln(1 r2 )
2
Reprenons notre exemple de la section 2.4.2, nous avions

n = 28

et

r = 0.9475

entre la cylindre et

la puissance (Fichier "Consommation des automobiles", gure 2.2). En appliquant la formule simplie
ci-dessus, nous obtenons :

1
2 = (2 n 5) ln(1 r2 )
2
1
= (2 28 5) ln(1 0.94752 )
2
= 58.1733

Page: 33

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

34

3 Tests de comparaison de corrlations


Sous

H0 ,

elle suit une loi du

(p-value) est gale

2.4 10

14

p(p1)
2

2(21)
2

= 1

degr de libert. La probabilit critique

. Tout comme pour le test de Student, nous rejetons l'hypothse de nullit

de la corrlation, mais avec une statistique dirente.

3.5.2 Test de Steiger : une statistique simplie


Une statistique alternative attribue Steiger (1980) est dcrite dans l'ouvrage de Revelle ([7], page

1
n3 . On
2
sait de plus qu'elle est distribue selon la loi normale. Son carr suit par consquent une loi du (1).

95). Elle passe par la transformation de Fisher

z.

La variance de

est connue, elle est gale

Nous pouvons ds lors former la somme

2s = (n 3)

zjk

2
zjk

(3.6)

k>j

est la transformation de Fisher de la corrlation estime entre les variables

H0 , la statistique 2s suit une loi du

Xj

et

Xk .

Sous

p(p1)

degrs de libert.
2

La procdure est indubitablement plus simple. Il nous vite de calculer le dterminant de la matrice
des corrlations, exercice toujours prilleux sur les ordinateurs.

Fig. 3.5.

Test de sphricit de Steiger - Fichier "Consommation des automobiles"

Exemple : Reprenons notre exemple numrique du chier "Consommation des automobiles". Nous
calculons la matrice des corrlations transformes par la formule de Fisher (section 2.5). Puis nous formons
la statistique de test

2s

(Figure 3.5) :

2s = (n 3)

2
zjk

k>j

= (28 3) (1.08722 + 1.29942 + + 1.63192 )


= 329.4190
La conclusion est la mme, les corrlations croises sont signicatives avec une p-value de

4.031068 .

On notera nanmoins que la valeur de la statistique de test est particulirement leve. Plus encore que
pour le test de Bartlett, nous devons tre trs prudent avec cet outil qui conclut quasi-systmatiquement

Page: 34

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.6 Comparaison de 2 matrices des corrlations


au rejet de l'hypothse nulle ds que les eectifs
package 'psych', [8] - procdure

35

augmentent un tant soit peu (cf. documentation du

cortest.normal).

3.6 Comparaison de 2 matrices des corrlations


3.6.1 Test de Steiger
Ce test consiste confronter deux matrices des corrlations calcules sur deux sous-populations distinctes. Il s'agit donc d'un test de comparaison de plusieurs corrlations - considres simultanment sur chantillons indpendants.
Par exemple, pour reprendre notre chier "Consommation des automobiles"(Figure 2.2), l'ide serait
de vrier s'il y a une dirence dans la structure des relations entre les variables selon que l'on a aaire
aux vhicules asiatiques (japonaises, sud-corennes) ou europennes.
Nous prsentons la procdure

cortest.normal

du package 'psych' ([8], pages 59 61) dans cette

section. La mthode est attribue Steiger (1980). Elle s'appuie sur le carr de l'cart entre les transformations de Fisher des corrlations calcules sur les
Soit

zm,jk

sous-populations.

est la transformation de Fisher de la corrlation estime

dans la sous-population

rm,jk

entre les variables

Xj

et

m (m {1, 2}). La statistique de test s'crit :


(
)
n1 n2
2
2
(
z1,jk z2,jk )
s =
n1 + n2
j

Xk

(3.7)

k>j

n1

Sous

et

H0 ,

n2

sont les eectifs dans les sous-chantillons.

les corrlations sont globalement identiques dans les deux sous-populations, la statistique

suit une loi du

p(p1)
degrs de libert.
2

Exemple numrique : Nous souhaitons comparer les structures de corrlations entre les vhicules
asiatiques et europennes dans le chier "Consommation des automobiles" (Figure 2.2). Nous devons tout
d'abord scinder en 2 parties les donnes puis calculer les matrices des corrlations croises
les

R1

et

R2

dans

sous-populations (Figure 3.6).

Nous distinguons

n1 = 10

automobiles asiatiques et

n2 = 18

europennes. A premire vue, les corr-

lations semblent trs similaires globalement. Voyons si les calculs conrment cela :
 Les matrices

Z1

et

Z2

sont formes partir des transformations de Fisher des corrlations. Par

exemple, pour le croisement entre la cylindre et la puissance chez les vhicules asiatiques, nous
avons (Figure 3.7) :

1 1 + 0.9422
ln
= 1.7571
2 1 0.9422
carr entre les z c.--d. pour

z1,12 =
 La matrice

D2

correspond l'cart au

les mmes variables

d212 = (
z1,12 z2,12 )2 = (1.7571 2.3846)2 = 0.3938
 Nous sommons la partie triangulaire suprieure de la matrice :

S = 0.3938 + 0.0133 + 0.0030 + + 0.0218 = 0.4421


Page: 35

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

36

3 Tests de comparaison de corrlations

Fig. 3.6.

Matrices des corrlations dans les sous-populations - Fichier "Consommation des automobiles"

 Nous calculons le terme de pondration

c=

n1 n2
n1 +n2

= 6.4286

 Et nous obtenons nalement la statistique de test

2 = 6.4286 0.4421 = 1.5159


Sous l'hypothse nulle, cette statistique suit une loi du
La probabilit critique est gale

0.9584.

Au risque

5%,

p(p1)
2

43
2

= 6

degrs de libert.

l'hypothse d'galit des corrlations n'est pas

contredite par les donnes.

3.6.2 Test de Jennrich


Revelle ([7], page 98) dcrit un second test pour la mme nalit. Le test de Jennrich (1970) s'appuie sur une formulation autrement plus complexe. Le texte n'est pas vraiment prcis. Il est heureusement possible de retracer les formules en explorant le code source du package 'psych' ([8], procdure

cortest.jennrich 4 ).
La statistique de test s'crit :

4. On peut trs facilement obtenir le code source d'une fonction en introduisant son nom dans la ligne de
commande R. Une autre piste est de charger le code source du package sur le serveur CRAN et de le dzipper http://cran.r-project.org/web/packages/psych/index.html
Page: 36

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.6 Comparaison de 2 matrices des corrlations

37

Comparaison de 2 matrices des corrlations - Test de Steiger - Fichier "Consommation des automobiles"

Fig. 3.7.

2 =

1
tr(Z Z T ) diag(Z)T S 1 diag(Z)
2

(3.8)

O :


S = R2

est la moyenne pondre des

c=

matrices des corrlations c.--d.

c.--d. chaque coecient de la matrice

est pass au carr ;

est telle que :

diag(Z)
H0 ,

c R1 (R1 R2 )

est la diagonale principale de la matrice

moins) comme un vecteur de taille


Sous

n1 R1 +n2 R2
;
n1 +n2

n1 n2
n1 +n2 ;

Z=


R=

qui se prsente (dans notre formulation tout du

(p 1).

la statistique suit une loi du

p(p1)
degrs de libert.
2

Nous retranscrivons tous les calculs dans une feuille Excel pour le chier "Consommation des automobiles" (Figure 3.8). Sans rentrer dans les dtails, nous obtenons la sortie
de

0.6066

pour un

nulle au risque

Page: 37

2 = 4.5202

avec une p-value

degrs de libert. Ici galement, les donnes sont compatibles avec l'hypothse

5%.

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

38

3 Tests de comparaison de corrlations

Fig. 3.8.

Test de Jennrich - Fichier "Consommation des automobiles"

Remarque : L'ide qu'il faut retenir de cette section est que nous disposons de deux tests qui reposent
sur la dirence entre les matrices des corrlations, soit sous leur forme native (R1

R2 )

(Jennrich), soit

via la transformation de Fisher (Z1 Z2 ) (Steiger). Ce qui, somme toute, est tout fait logique s'agissant
de la comparaison de corrlations.

3.7 Commentaires sur la comparaison des coecients de corrlations


Comme le notent Chen et Popovich dans leur ouvrage ([2], page 25), les tests de comparaison de
coecients de corrlations sont peu dcrits, peu rpandus, et de ce fait rarement disponibles dans les
logiciels ( moins que ce ne soit l'inverse, c'est parce qu'ils sont peu programms qu'ils sont peu utiliss).
C'est regrettable car les applications pratiques sont nombreuses, elles ouvrent d'autres pistes pour l'exploration des donnes. De plus, argument important qui milite en faveur de leur diusion, le dispositif est

Page: 38

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

3.7 Commentaires sur la comparaison des coecients de corrlations

39

trs souple : les tests restent valables pour les mesures de corrlation drives du coecient de Pearson,
mesures que nous dcrirons dans le chapitre 4 de ce support.

Page: 39

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 40

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4
Variations autour de la corrlation

Dans certaines situations, relatives au type des variables, ou conscutives une transformation des
variables, le coecient de corrlation est simpli. Son interprtation peut tre modie et/ou enrichie.
Dans cette partie, nous numrons quelques unes de ces variantes, les formules et les tests associes.
Puis nous montrons leur utilisation et leur interprtation sur un jeu de donnes.
Quelques rfrences pour cette partie, donnant un positionnement clair des direntes techniques,
sont les sites de Garson -

http://www2.chass.ncsu.edu/garson/PA765/correl.htm, toujours aussi ex-

cellents, et de Calkins, de l'Universit d'Andrews (USA) -

http://www.andrews.edu/~calkins/math/

edrm611/edrm13.htm

4.1 Corrlation bisriale ponctuelle


4.1.1 Formulation
Point biserial correlation coecient

Le coecient de corrlation bisriale ponctuelle (

en anglais ) est

utilis pour mesurer la liaison entre une variable dichotomique (X pour xer les ides) et une variable
continue. La variable binaire peut l'tre naturellement (ex. sexe = H ou F) ou suite un dcoupage en
intervalles (ex. revenu, dcoup en

intervalles). Bien que dans ce second cas, son utilisation ne soit pas

2
trs recommande , on prfrera des indicateurs plus puissants (voir chapitre 4.2).
L'objectif est de mesurer l'association entre
cod

0/1,

et

X.

En calculant le coecient de Pearson,

tant

nous obtenons exactement le coecient bisriale ponctuelle. En y regardant de plus prs, on

se rend compte rapidement qu'il s'agit en ralit de la statistique de la comparaison de moyenne entre
chantillons indpendants. On cherche savoir si dans les sous-groupes dnis par

X, Y

est dirent en

moyenne.
La corrlation bisriale ponctuelle est dnie comme suit pour chantillon de taille
du premier groupe, et

n0

individus du second groupe (n

n, avec n1

individus

= n1 + n0 )

1. Voir http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1 pour la traduction des termes statistiques
2. Voir http://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient
Page: 41

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

42

4 Variations autour de la corrlation

rpb =
avec

y1

2
c.--d. sn1

et

y0

y1 y0
sn1

les moyennes conditionnelles ;

1
n1

i=1 (yi

y)

sn1

n1 n0
n(n 1)

(4.1)

l'cart type estim sur l'ensemble de l'chantillon

4.1.2 Test de signicativit - 1


En nous basant sur le schma de la corrlation (section 2.4, nous pouvons tester la signicativit du
coecient l'aide du

tr

suivant une loi de Student

tr =

(n1 + n0 2)

degrs de libert

rpb

(4.2)

2
1rpb
n1 +n0 2

4.1.3 Test de signicativit - 2


En nous basant sur le schma du test de comparaison de moyennes

3 pour chantillons indpendants,

nous pouvons vrier si les moyennes sont signicativement direntes dans les sous-groupes. La statistique

tc

suit une loi de Student

(n1 + n0 2)

degrs de libert

tc =
s

y1 y0
s

(4.3)

est l'cart type estim de l'cart entre les moyennes

(n1 1)s21 +(n0 1)s20 1


( n1 + n10 ) ;
n1 +n0 2
nj
1
2
2
 avec sj =
i=1 (yi yj ) les variances conditionnelles.
nj 1


s2 =

A priori,

cette formulation est totalement quivalente celle base sur le coecient de corrlation.

Vrierons cela sur un exemple.

4.1.4 Exemple
Nous voulons vrier la liaison entre le genre des personnes et leur taille. En d'autres termes nous
cherchons savoir si les hommes, en moyenne, sont plus grands que les femmes. Nous utilisons les donnes
dj traites dans la section 2.6.2, nous ne conservons que la taille (Figure 4.1). Nous allons travailler
en deux temps, tout d'abord en calculant le coecient de corrlation sur les donnes codes, puis en
mettant en oeuvre le calcul spcique sous forme de comparaison de moyennes. Les rsultats doivent tre
cohrents.
Dans les colonnes B et C du tableur, nous avons les donnes, puis les rsultats des calculs bass sur
le coecient de Pearson. Voici les dtails des calculs :
 Les hommes sont cods

1, les femmes 0. En soi a n'a pas d'importance, mais il faudra s'en rappeler

lors de l'interprtation du coecient, le codage dtermine le signe du coecient.

3. http://en.wikipedia.org/wiki/Student's_t-test
Page: 42

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.1 Corrlation bisriale ponctuelle

Fig. 4.1.

43

Corrlation bisriale ponctuelle : taille selon le genre des individus

 Voyons justement le coecient de Pearson empirique, il est gal

r = 0.748034. Le signe est positif,

cela veut dire qu'en moyenne les hommes sont plus grands que les femmes.
 Le graphique nuage de points conrme cette ide, le nuage des hommes est visuellement plus lev
que celui des femmes, la dispersion tant peu prs la mme dans les deux groupes.
 Pour raliser le test de signicativit, nous calculons

n 2 = 33

Il suit une loi de Student

degrs de libert.

 La probabilit critique du test est


 Au risque

tr = 6.4749.

5%,

2.4 107 ,

trs petite.

l'hypothse nulle, il n'y aucun lien entre le genre et la taille, n'est pas compatible

avec les donnes.


Dans les colonnes E, F , G et H du tableur, nous avons les calculs relatifs au coecient
 Avec le tableau crois dynamique, nous avons conrmation des eectifs :

rpb

n0 = 15 femmes, et n1 = 20

hommes.
 Les moyennes et carts type dans les sous-groupes sont respectivement (y
0
(s1

Page: 43

= 1.589, y1 = 1.733)

et

= 0.071, s0 = 0.061).
job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

44

4 Variations autour de la corrlation


s2 =

 Nous en dduisons
 Puis

tc =

1.7331.589

0.0005

190.0712 +140.0612 1
( 20
20+152

= 6.4749.

1
15 )

= 0.0005

Nous retrouvons exactement la valeur de

tr

 La distribution et les degrs de libert tant les mmes, la p-value du test et la conclusion associe
sont identiques.

4.2 Corrlation mutuelle


4.2.1 Formulation et tests
La corrlation mutuelle, que l'on dsigne aussi par

biserial correlation
quantitative

corrlation bisriale 4 , est connue sous l'appellation

en anglais . Elle mesure le lien entre une variable dichotomique

et une variable

Y . La principale direnciation avec la corrlation bisriale ponctuelle est qu'ici, la

variable

doit tre issue d'un dcoupage en 2 intervalles d'une variable continue gaussienne (voir [2],

page 36 ; par exemple : poids bas ou lev, tension artrielle suprieure un seuil ou pas, etc.). Attention,
dans ce cas le codage de

n'est plus anodin. La valeur

correspond naturellement la fraction leve

(suprieure au seuil de dcoupage) de la variable sous-jacente.

Remarque 5 (Laquelle privilgier : corrlation bisriale ponctuelle ou corrlation mutuelle ?).

La corrla-

tion mutuelle est plus restrictive, si la condition n'est pas respecte, l'infrence statistique est sujette
caution. En revanche, si la condition est remplie, la corrlation mutuelle est plus puissante c.--d. elle
dtectera mieux l'existence d'une relation entre

et

Y.

Le coecient de corrlation mutuelle s'crit

rb =
o


s2n1 =

n1 /n

1
n1

i (yi

y)2

y1 y0
n1 n0
2
sn1
n n1 /n

(4.4)

est l'estimation de la variance ;

est l'ordonne de la fonction de densit de la loi normale centre rduite la coordonne gale

au quantile d'ordre

n1 /n

(ouf !).

Remarque 6 (Calcul de la quantit n1 /n ).

Manifestement, mal compris, le calcul de

est le principal

frein l'utilisation de cet indicateur, qui est trs peu prsent dans les logiciels. Essayons de dtailler la
dmarche sur un exemple que nous retrouverons dans la section suivante.
 Soit

n1 /n = 23/28 = 0.8214.

 Nous calculons le quantile d'ordre

0.8214

de la loi normale centre rduite

u0.8214 = 0.9208.

4. Nous viterons cette dnomination pour ne pas la confondre avec la corrlation bisriale ponctuelle (ah ces
linguistes je vous jure, hein..).
5. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
Page: 44

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.2 Corrlation mutuelle

 Nous appliquons alors la fonction de densit de la loi normale pour obtenir

45

c.--d.

0.92082
1
= fN (0.9208) = e 2 = 0.2611
2

Remarque 7 (Violation de l'hypothse de normalit sous-jacente).


tion continue sous-jacente de

s'loigne fortement de la loi normale, bimodale ou trs aplatie,

prendre des valeurs suprieures


sous-jacente de

Dans certains cas, lorsque la distribu-

rb

peut

1. Ce sont quand mme des situations extrmes. Lorsque la distribution

est unimodale et raisonnablement symtrique, la procdure est robuste.

Test de signicativit.

Pour tester la signicativit de la corrlation ou calculer les intervalles

de conance, nous pouvons utiliser l'arsenal dvelopp dans les sections 2.4 et 2.5, en substituant la
corrlation mutuelle au coecient de Pearson.

4.2.2 Exemple
Nous cherchons calculer la corrlation entre la cylindre dichotomise (X

> 1200, 0
de

= 1

lorsque cylindre

sinon) et la puissance (Y ). Dans les tudes relles, nous ne disposons que des valeurs binaires

X , nous n'avons pas les valeurs originelles qui ont servi construire X

mme si nous savons par ailleurs

que la variable sous-jacente est continue.


Dtaillons les calculs (Figure 4.2) :
 Nous disposons des eectifs
 A partir du rapport

n = 28, n1 = 23

n1 /n = 0.8214,

et

n0 = 5

nous obtenons le quantile d'ordre

0.8214,

soit

u0.8214 = 0.9208.

Nous calculons alors l'ordonne de la fonction de densit de la loi normale centre rduite cette
coordonne

fN (0.9208) = 0.2611

 Paralllement cela, nous calculons l'estimation (non biaise) de l'cart type


les moyennes conditionnelles

m1 = 87.43

et

sn1 = 32.2569,

puis

m0 = 33.00

 Nous disposons maintenant de tous les lments pour former la corrlation mutuelle, nous obtenons

rb = 0.9481
 Le

pour le test de signicativit est calcul l'aide de la formule usuelle

t=

rb

1
r2
b
n2

= 15.2016

 La corrlation est trs hautement signicatif, la p-value est trs petite. Les donnes ne sont pas
compatibles avec l'hypothse de nullit du coecient.

Remarque 8 (Choix de la borne de dcoupage de la variable continue).


de dcoupage (nous avons choisi la valeur

1200

Attention, le choix de la borne

pour cylindre dans notre exemple) est primordiale. S'il

est malheureux, nous pouvons totalement masquer les informations importantes ou, pire, produire des
valeurs qui posent problme. Un coecient de corrlation suprieur

1 notamment ne manquerait pas de

jeter le discrdit sur les techniques que l'on manipule. Il faut donc avoir de bonnes raisons pour eectuer
le dcoupage. Dans la plupart des cas, ce sont les contraintes du domaine ou les exigences de l'tude
qui le xent arbitrairement. Dans notre exemple, on pourrait avancer qu'au del de la cylindre

1200,

la

scalit est particulirement dsavantageuse.

Page: 45

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

46

4 Variations autour de la corrlation

Fig. 4.2.

Corrlation mutuelle : cylindre vs. puissance

4.2.3 Commentaires sur la puissance de rb par rapport rpb


Par rapport la corrlation bisriale ponctuelle, la corrlation mutuelle tient compte explicitement
du fait que la variable sous-jacente

est continue et gaussienne. Ce surcrot d'information utilis dans

les calculs la rend particulirement puissante lorsque l'assertion est vraie. Dans la pratique, on se rend
compte qu'il y a une formule de passage entre les

rb = rpb

Page: 46

job: Analyse_de_Correlation

indicateurs ([2], page 37)

n1 n0 (n 1)
2n1 /n n3

macro: svmono.cls

(4.5)

date/time: 8-Mar-2015/7:21

4.3 Le coecient

47

Nous avons eectu plusieurs vrications pour notre exemple prcdent (Figure 4.2). Dtaillons les
rsultats :
 En calculant le coecient de Pearson sur les donnes originelles (la variable
nous obtenons

r = 0.9475.

Rappelons que la corrlation mutuelle est

non dichotomise),

rb = 0.9481.

Il est quand

mme remarquable que cette dernire puisse reconstituer avec une telle prcision les rsultats en se
basant sur la variable dichotomise et une hypothse de normalit de la variable sous-jacente.
 La corrlation bisriale ponctuelle, base uniquement sur la variable dichotomise, qu'importe qu'elle
soit intrinsquement qualitative ou non, sous-estime fortement l'intensit du lien. En eet, on obtient

rpb = 0.6582. Mme si elle reste signicative, elle est loin de traduire la liaison relle qui existe entre
les variables cylindre et puissance, vidente lorsque l'on construit le graphique nuage de points
associ (Figure 2.5).
 En appliquant la formule de passage ci-dessus (quation 4.5), nous retrouvons exactement la valeur
de la corrlation mutuelle [la case

rb (vrication)].

Concernant le passage entre la corrlation mutuelle et la corrlation bisriale ponctuelle, on montre


que

n1 n0 (n 1)
1.25
2n1 /n n3

La corrlation mutuelle est toujours suprieure la corrlation bisriale ponctuelle (r


b

> rpb ).

Elle a

tendance mieux mettre en vidence les carts l'hypothse nulle. Cela n'est pas sans dangers, comme
nous le signalions plus haut, dans certaines situations

4.3 Le coecient

rb

peut prendre des valeurs suprieures

1.

4.3.1 Formulation et tests


Le coecient

est utilis pour mesurer le degr de liaison entre

variables binaires codes

0/1.

Les variables peuvent tre dichotomiques par nature (sexe = H/F) ou dichotomises (dcoupage en

intervalles d'une variable continue). Dans ce dernier cas, il est moins puissant, on prfrera se tourner
vers la corrlation tetrachorique (section 4.3.3).

Calcul bas sur le coecient de Pearson.


coecient

Une premire manire trs simple de calculer le

est de calculer le coecient de Pearson sur les variables codes 0/1. Aucune correction n'est

ncessaire, nous obtenons directement la valeur adquate.

Calcul bas sur le tableau de contingence. Comme les variables sont censes tre dichotomiques
qualitatives c.--d. les modalits ne sont pas ordonnes. Nous pouvons laborer un tableau de contingence

Page: 47

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

48

4 Variations autour de la corrlation

croisant les modalits de

et

Y.

Et calculer l'indicateur

dessus. Nous nous rapprochons en cela des

6
mesures d'association entre variables qualitatives
Partons du tableau de contingence gnrique

Y,

les modalits de

en colonne celles de

22

X.

Y vs. X
1
0
Tableau 4.1.

Le coecient

pour tablir les formules (Tableau 4.1). En ligne

1
a
c

0
b
d

Tableau gnrique 2 2

s'crit :

ad bc
=
(a + b)(c + d)(a + c)(b + d)
Le codage

ou

dtermine le signe de

(4.6)

il n'a pas d'incidence sur la valeur absolue du coecient.

Cela permet de dtecter les attraction ou les rpulsions entre les modalits.

Test de signicativit. Pour tester la signicativit de la corrlation ou calculer les intervalles de


conance, nous pouvons utiliser l'arsenal dvelopp dans les sections 2.4 et 2.5, en substituant le coecient

au coecient de Pearson.

4.3.2 Exemple
Reprenons notre exemple de la puissance et de la cylindre (Figure 2.5). Les deux variables ont t
maintenant dichotomises, nous avons choisi le seuil
Ce faisant nous perdons de l'information car

1800 pour la variable cylindre, 75 pour "puissance".

ne tient pas compte de la nature continue des variables sous-

jacentes. Nous essaierons de voir justement dans quelle mesure la perte d'information est prjudiciable.
Dtaillons notre feuille de calcul (Figure 4.3) :
 Dans les colonnes C et D, nous avons les variables originales. En E et F, les variables dichotomises.
 Dans la partie droite, sous le tableau de donnes, nous avons classiquement calcul le coecient
de Pearson sur donnes dichotomiques.Nous obtenons

t = 13.0.

r = 0.9309.

Le test de signicativit propose

L'hypothse nulle d'absence de liaison n'est pas compatible avec les donnes.

 Voyons maintenant la partie gauche. Nous avons form le tableau de contingence, puis partir de
la formule 4.6, nous avons obtenu

= 0.9309. La valeur concide avec le coecient prcdent. C'est

heureux.
Rappelons que la corrlation sur les variables continues originelles est
page en

rcyl,puiss = 0.9475. Aprs dcou-

intervalles des variables, nous retrouvons quand mme l'intensit de la liaison avec

6. Rakotomalala, R.,

r = 0.9309.

Etude des dpendances - Variables qualitatives, http://eric.univ-lyon2.fr/~ricco/

cours/cours/Dependance_Variables_Qualitatives.pdf. Voir la section 4.1 concernant le coecient et sa

relation avec le coecient de corrlation.


Page: 48

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.3 Le coecient

Fig. 4.3.

49

Corrlation : cylindre vs. puissance dichotomises

Dans ce cas il y a peu de pertes d'informations. Ce n'est pas tonnant, les seuils ont t judicieusement
choisis, ils se rapprochent, peu prs, du barycentre du nuage de points (Figure 2.5). Si nous avions
choisi des seuils qui ne sont pas en correspondance, par exemple
puissance, nous aurions obtenu

r = 0.3523,

900

pour la cylindre et

100

pour la

laissant croire que le lien est faible. Ce qui est totalement

erron bien sr.

Remarque 9 (Dcouper en intervalles peut mme tre protable).

Encore une fois, la prparation des

donnes, en l'occurrence le choix des bornes lorsque l'on dcoupe les donnes, est donc trs important
pour ce type d'indicateur. Il faut faire trs attention. Mais a contrario, un choix judicieux des bornes
peut tre protable l'analyse. Si la relation est fortement non linaire, le coecient de Pearson sur
les variables originelles est fauss. Le dcoupage en intervalles peut aider mieux mettre en vidence
l'existence de la liaison.

Page: 49

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

50

4 Variations autour de la corrlation

4.3.3 Corrlation tetrachorique


Lorsque les deux variables ont t dichotomises partir d'un couple de variables distribues selon

Tetrachoric

une loi normale bivarie, on privilgiera le coecient tetrachorique qui est plus puissant (

coecient

7
en anglais ).

Ce coecient s'appuie sur l'hypothse de normalit sous jacente pour corriger le coecient
4.6).

Grosso modo,

(quation

le numrateur reste le mme, le dnominateur doit tenir compte en revanche de la

distribution normale en intgrant de nouveau l'ordonne de la loi normale centre et rduite pour les
quantiles des proportions

a+b
a+c
8
n et n . Le calcul est loin d'tre trivial cependant , on peut avoir des

problmes lorsque l'on s'loigne trop de l'hypothse de normalit. Ce coecient est trs peu utilis dans
la pratique.

4.4

de Spearman

Fondamentalement, le coecient de Spearman est aussi un cas particulier du coecient de Pearson,


calcul partir des transformations des variables originelles. Mais il prsente l'avantage d'tre

non para-

mtrique. L'infrence statistique ne repose plus sur la normalit bivarie du couple de variables (X, Y ).
Nous pouvons bien entendu mettre en oeuvre tous les tests mis en avant dans la section 2.5, y compris
ceux relatifs la comparaison de coecients.

4.4.1 Principe
L'ide est de substituer aux valeurs observes leurs rangs. Nous crons donc deux nouvelles colonnes
dans notre tableau :

Ri = Rang(xi ),

correspond au rang

9 de l'observation

xi

dans la colonne des

X;

et

Si = Rang(Yi ).
Le

de Spearman est ni plus ni moins que le coecient de Pearson calcul sur les rangs.

n
i S)

(Ri R)(S

= i=1
2
2
i (Ri R)
i (Si S)
Compte tenu de certaines proprits des rangs (par ex.

=
S = R

(4.7)

n+1
2 ; voir [3], pages 105 108), nous

pouvons dduire une expression simplie

n
12 i=1 Ri Si
3(n + 1)

=
n(n2 1)
n1

(4.8)

7. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
8. Voir http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm concernant les fondements et

les interprtations de la mesure ; voir http://lib.stat.cmu.edu/apstat/116 sur son mode de calcul dans les
logiciels de statistique
9. La plus petite valeur prend le rang 1, la plus grande le rang n
Page: 50

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.4 de Spearman
Enn, si nous dnissons

Di

telle que

Di = Ri Si

51

est l'cart entre les rangs, nous obtenons une

autre expression quivalente

n
6 i=1 Di2
= 1
n(n2 1)

(4.9)

introduire une correction lorsqu'il y

Attention, pour ces quations simplies, il est ncessaire d'

a des ex-aequo dans les donnes, surtout s'ils sont assez nombreux. Nous reviendrons en dtail sur
les corrections introduire plus loin (section 4.4.5).

Le

de Spearman est une variante du coecient de Pearson, il en reprend les proprits essentielles,

savoir :

1 +1 ;

il prend la valeur

lorsque les variables sont indpendantes.

4.4.2 Un exemple

Fig. 4.4.

Calcul du de Spearman sur une relation "taille - poids"

Nous reprenons notre exemple du lien entre la taille et le poids. Nous avons modi les donnes de
manire viter les ex-aequo :
 Nous avons tout d'abord form le nuage de points. Il semble y avoir une liaison entre les
 Le coecient de corrlation de Pearson est de

r = 0.58452.

 Dans la colonne D et E, nous calculons respectivement les rangs

Page: 51

job: Analyse_de_Correlation

2 variables.

macro: svmono.cls

Ri

et

Si
date/time: 8-Mar-2015/7:21

52

4 Variations autour de la corrlation


 Nous calculons alors le

avec la formule 4.7 c.--d. en appliquant directement la formule de Pearson

sur les rangs. Nous obtenons

= 0.61786

 Dans la colonne F, nous formons le produit


partir de la formule 4.8, nous produisons

nous obtenons la somme

= 0.61786.

 Enn, en colonne G, nous calculons l'cart

214.

Ri Si ,

Di

Ri Si = 1133.

La mme valeur que prcdemment.

et nous formons la colonne

En appliquant la formule 4.9, la troisime estimation

= 0.61786

Di2 .

La somme

Di2 =

est totalement cohrente

avec les prcdentes.

4.4.3 Distribution et tests


Nous pouvons utiliser la transformation de Fisher pour calculer les intervalles de conance et raliser
les tests de comparaison.
Concernant le test de signicativit, nous nous appuyons sur le
de

20

de Student lorsque

est de l'ordre

30
t=

12
n2

Ou mme utiliser une approximation normale, plus simple, lorsque

U=

Remarque 10 (Approximation asymptotique).

1
n1

n > 35

n1

Les valeurs de

ci-dessus correspondent avant tout un

ordre d'ide. Les ouvrages divergent ce sujet, Dodge et Rousson rapportent que l'approximation normale
sut ds que

n > 10

(voir [3], page 107) ; Siegel et Castellan, eux, rapportent qu'on peut s'appuyer sur

l'approximation normale lorsque

est autour de

que lorsque les eectifs sont vraiment faibles

20

25

(voir [11], page 243). Ce qui est sr, c'est

(4 n 10),

nous avons intrt utiliser des tables

spciques pour les tests de signicativit (voir la table 24 dans [1] ; la table Q dans [11] ; ou

http:

//www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm).

Exemple numrique.

Nous avons mis en oeuvre les deux approximations dans notre exemple ci-

dessus (Figure 4.4). Nous avons


avec p-value =

0.02079

t = 2.83320 avec une p-value de 0.01410 pour le premier test ; U = 2.31181

pour le second. Les rsultats ne sont gures dirents au nal, ils aboutissent

la mme conclusion, le rejet de l'hypothse de nullit du coecient au risque

5%.

4.4.4 D'autres proprits rjouissantes


Dans la pratique, on se rend compte que le

de Spearman cumule les bonnes qualits. Il devrait tre

privilgi ds que l'on eectue des traitement automatiss. Il vite bien des cueils qui faussent souvent
les valeurs produites par le coecient de Pearson.

Page: 52

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.4 de Spearman

53

Test non paramtrique. Il est non paramtrique, il n'est donc pas ncessaire de faire des hypothses
sur les distributions sous-jacentes de

et

Y.

Mais lorsque le couple

(X, Y )

est distribu selon une loi

normale bivarie, il est quasiment aussi puissant que le coecient de Pearson. Les deux indicateurs
proposent des valeurs similaires, il est ds lors possible d'interprter le carr du coecient de Spearman
en termes de variance explique.

Traitement des donnes ordinales.


le

Toujours consquence du fait qu'il soit non paramtrique,

de Spearman peut traiter les variables intrinsquement ordinales : un indice de satisfaction, une

apprciation ou une note attribue, etc. L'infrence statistique (tests, intervalles de conance) n'est pas
modie.

Liaison monotone non linaire. Trs intressant dans la pratique, le de Spearman peut caractriser d'une liaison non-linaire monotone, la dirence du coecient de Pearson qui ne retranscrit que
les relations linaires. Cela nous vite d'avoir eectuer le choix douloureux de la fonction de transformation lors de la tentative de linarisation de l'association. La transformation par les rangs est susamment
gnrique pour que l'on puisse rendre compte de l'existence d'une liaison monotone.
De manire gnrale, une forte disparit entre
la relation entre

et

et r devrait

nous alerter quant la non linarit de

Y.

Fig. 4.5.

Avantage du de Spearman sur une relation non linaire monotone

Reprenons l'exemple illustratif de la section 2.6 (Problmes et cas pathologiques). Rappelons nous,
malgr une liaison visuellement vidente, le coecient de Pearson nous annonait une corrlation

0.7804.

r =

Nous avons remplac les valeurs initiales par les rangs, puis nous avons calcul le coecient de

Spearman, la liaison parfaite est maintenant bien dtecte (Figure 4.5). Ceci s'explique en partie par le fait
que

le passage aux rangs symtrise les distributions. En eet, dans notre exemple, la distribution

initiale de la variable en ordonne est trs asymtrique, faussant le coecient de Pearson.

Le

de Spearman a quand mme des limites. Lorsque la liaison est non monotone, il n'est pas oprant.

Il faut se tourner vers une transformation de variable spcique inspire par le graphique nuage de points
ou utiliser un indicateur adapt tel que le rapport de corrlation (section 4.6).

Page: 53

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

54

4 Variations autour de la corrlation

Robustesse face aux points atypiques.


Autre caractristique trs intressante du coecient de Spearman, sa robustesse face aux points
aberrants, mme lorsque l'eectif est faible.

Avantage du de Spearman concernant les points atypiques

Fig. 4.6.

Reprenons l'exemple prsent plus haut (section 2.6, gure 2.7). Nous avions not que le coecient
de Pearson pouvait tre fortement aect par l'existence d'un point extrme. Nous avons transform
les donnes en rangs, ce faisant nous avons liss les carts entre les valeurs. Nous calculons
semble des observations, nous obtenons
signicativement dirent de

0,

avec

= 0.39286,

t = 0.95526

sur l'en-

et nous notons surtout que le coecient n'est pas

et une p-value

= 0.38332.

4.4.5 Traitement des ex aequo


Lorsqu'il y a beaucoup d'ex-aequo dans les donnes, nous aectons les rangs moyens aux observations
portant des valeurs identiques. Il faut alors ajuster le coecient de Spearman lorsque nous voulons utiliser
l'quation 4.9 (voir [11], pages 239 241). La correction est d'autant plus sensible que le nombre de valeurs
identiques est lev pour

et

Y.

Dans ce qui suit, nous explicitons le processus pour la variable


mmes pour la variable

X.

Les calculs sont exactement les

Y.

Rangs moyens. Lors de la transformation des donnes en rangs, nous devons tenir compte maintenant des ex-aequo. Pour un chantillon de taille
Remarquons que si

G = n,

n,

admettons qu'il n'y ait que

valeurs direntes.

cela veut dire qu'il n'y pas d'ex aequo dans nos donnes.

Au dpart nous aectons les rangs aux observations selon la procdure habituelle. Dans un deuxime
temps, nous eectuons un nouveau passage sur les donnes, nous attribuons aux individus portant des
valeurs identiques la moyenne des rangs associs.
Prenons un petit exemple pour dtailler cela (Figure 4.7). Nous avons
la valeur de

X.

12

observations tris selon

Nous attribuons le rang normalement (Rangs bruts) en utilisant la fonction RANG(...)

d'EXCEL. Nous notons que plusieurs observations ont des valeurs identiques (A,B), (D,E,F) et (J,K)

10 .

Nous eectuons un second passage sur les donnes, nous calculons et attribuons la moyenne de leur rangs

10. La procdure est totalement gnrique bien sr, nous pouvons avoir 10 valeurs identiques
Page: 54

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.4 de Spearman

Fig. 4.7.

55

Calcul des rangs moyens

aux individus portant les mmes valeurs. Ici, A et B ont la mme valeur, ils portent respectivement les
rangs

et

2,

4+5+6
calcul
3

nous leur aectons au nal le rang moyen

5. Et pour J et K, nous calculons 10+11


2

Facteur de correction.

1+2
2

= 1.5.

Pour D, E et F nous eectuons le

= 10.5.

Pour calculer le facteur de correction

Tx ,

nous recensons les

distinctes parmi les rangs moyens, pour chaque valeur nous comptons son nombre d'apparition
produisons alors la quantit
de mme pour

Ty ,

Tx

valeurs

tg .

Nous

qui sera introduite dans la formule du coecient de Spearman (il en sera

facteur de correction pour

Y)

Tx =

(t3g tg )

(4.10)

g=1
Reprenons notre exemple ci-dessus (Figure 4.7). Nous avons
du rang moyen, nous associons le nombre d'occurrence

Tx = 36

tg .

n = 12

et

G = 8.

Pour chaque valeur

Nous appliquons la formule 4.10 pour obtenir

(Figure 4.8).

Fig. 4.8.

Calcul du facteur de correction pour le de Spearman

Coecient de Spearman corrig. Enn, il nous faut introduire le facteur de correction dans le
calcul du

de Spearman (Equation 4.9) (voir [11], page 239, quation 9.7)

n
(n3 n) 6 i=1 d2i (Tx + Ty )/2
=
(n3 n)2 (Tx + Ty )(n3 n) + Tx Ty

Page: 55

job: Analyse_de_Correlation

macro: svmono.cls

(4.11)

date/time: 8-Mar-2015/7:21

56

4 Variations autour de la corrlation


Remarquons que s'il n'y a pas d'ex-aequo en

et en

Y,

nous aurons

Tx = Ty = 0,

la formule 4.11

sera totalement quivalente (aprs quelques simplications) la formule 4.9.


Compltons notre exemple avec les valeurs de
aequo sur cette seconde variable, de facto
calculons les carts

Di = R i
=

Fig. 4.9.

Y.

Ty = 0

Pour rendre l'expos plus clair, il n'y a pas d'ex

(Figure 4.8). Nous construisons les rangs

Si ,

nous

Si . Reste produire Di2 que nous introduisons dans l'quation 4.11 :


(123 12) 6 129 (36 + 0)/2

(123 12)2 (36 + 0)(123 12) + 36 0

= 0.5442

Tableau de calcul du de Spearman lorsqu'il y a des ex-aequo

Remarque 11 (Traitement des ex-aequo pour le coecient de Pearson sur les rangs).
signalions plus haut, il est possible d'obtenir le

de Spearman en calculant le

Comme nous le

de Pearson sur les rangs.

Avec cette stratgie, lorsqu'il y a des ex aequo dans les donnes, nous utilisons toujours le principe des
rangs moyens. En revanche il n'est pas ncessaire de corriger le coecient obtenu

11 . Dans notre exemple

ci-dessus (Figure 4.9), si nous appliquons la formule de la corrlation empirique (Equation 2.8) sur les
colonnes des rangs moyens

4.5

et

S,

nous obtenons directement la bonne valeur de

= 0.5442.

de Kendall

Le

de Kendall n'est pas proprement parler une variante du coecient de Pearson. On n'applique

pas la formule sur des donnes recodes. Il repose sur un principe trs dirent, il s'interprte galement
de manire dirente. Nous le prsentons dans ce support car il est trs largement dius, et certains
auteurs s'accordent dire qu'il est meilleur que le

de Spearman

12 . Nous ne rentrerons pas dans cette

polmique. En revanche, nous ne pouvons pas passer ct de cette mesure, d'autant plus qu'elle est
aussi non paramtrique.

11. http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient
12. Voir par exemple http://www.rsscse.org.uk/ts/bts/noether/text.html ; voir aussi [6], page 332
Page: 56

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.5 de Kendall

57

4.5.1 Principe et interprtation

Le

de Kendall est dni pour mesurer l'association entre variables ordinales, typiquement des clas-

sement (ou rangs) aects par des juges. Son champ d'application couvre donc parfaitement celui du

de Spearman.
Le coecient de Kendall repose sur la notion de paires discordantes et concordantes
1. On dit que les paires observations

ou (xi < xj

alors

yi < yj ).

et

sont concordantes si et seulement si (xi

Nous pouvons simplier l'criture avec

2. On dit que les paires sont discordantes lorsque (xi


d'autres termes

alors

> xj

alors

yi > y j )

(xi xj ) (yi yj ) > 0

yi < yj )

ou (xi < xj

alors

yi > yj ),

en

(xi xj ) (yi yj ) < 0

Pour un chantillon de taille


Le

> xj

13 :

n, soit P

(resp.

Q) le nombre de paires concordantes (resp. discordantes).

de Kendall est dni de la manire suivante

P Q
1)

(4.12)

1
2 n(n

Le dnominateur reprsente le nombre total de paires possibles c.--d.

1
n(n 1) =
2

( )
n
2

Remarque 12 (Donnes continues, donnes ordinales). Notons qu'il est possible de calculer directement
sur des donnes continues (X et

Y ) sans qu'il soit ncessaire de les transformer en rangs. Le

de Kendall

s'applique naturellement aussi lorsqu'une des variables est continue, l'autre ordinale.

Interprtation. Le
(ou

de Kendall s'interprte comme le degr de correspondance entre

notations). Si toutes les paires sont concordantes c.-d. le classement selon

quement avec le classement selon

Y , = 1;

si toutes les paires sont discordantes,

deux classements sont totalement indpendants,

classements

concorde systmati-

= 1 ;

enn, si les

= 0.

Surtout, et c'est sa principale direnciation avec le


probabilit. Il est le fruit de la dirence entre

de Spearman, le

de Kendall se lit comme une

probabilits : celle d'avoir des paires concordantes et

celle d'avoir des paires discordantes. Ainsi, lorsque

= 0,

une paire d'observations a autant de chances

d'tre concordante que d'tre discordante.


Le

de Kendall thorique, calcul sur la population, est dni par (voir [9], 138)

= 2 P [(xi xj ) (yi yj ) > 0] 1

(4.13)

Calcul pratique. La manire la plus simple de calculer est de trier les donnes selon X , puis de
comptabiliser la quantit suivante

13. http://en.wikipedia.org/wiki/Concordant_pairs
Page: 57

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

58

4 Variations autour de la corrlation

S=

n1

ij

i=1 j=i+1
o

+1 , si y < y
i
j
ij =
1 , si yi > yj

(4.14)

et

i =

ij

j=i+1

est l'cart entre le nombre de paires concordantes et discordantes relativement l'observation

i.

S est donc l'cart entre le nombre total de paires concordantes, et le nombre total de paires discordantes
c.--d.

S = P Q.

Nous pouvons ds lors r-crire le coecient de Kendall

S
1
2 n(n

1)

2S
n(n 1)

(4.15)

Un exemple. Dtaillons les calculs sur exemple. Nous limitons les eectifs n = 6 car les calculs
deviennent rapidement inextricables. Nous mettons en relation la taille et le poids des

plus petits

individus du chier (Figure 4.4). Les donnes sont tries selon la taille, nous allons calculer les quantits

ij , i

et

(Figure 4.10).

Fig. 4.10.

Tableau de calcul du de Kendall

Dcrivons le processus de formation de

 Nous trions les individus selon leur taille (X ). De fait, puisque nous ne grons pas les ex aequo
ce stade,

j > i xj > xi .

 Pour l'individu

no 1

avec (X

= 1.496)

et surtout (y1

= 67.585),

sont concordants (resp.discordants) pour leur attribuer la valeur


colonne qui vient juste aprs "poids (kg)" avec l'en-tte "n

1".

nous regardons les individus qui

1j = +1

1,j ) 1.

C'est la

On observe :

y2 = 58.068 < y1 12 = 1

 l'individu

n 2

est discordant, en eet

 l'individu

n 3

est discordant, ici aussi

y3 = 55.000 < y1 13 = 1

 l'individu

est concordant, en eet

y4 = 71.668 > y1 14 = +1

n 4

(resp.

 etc.

Page: 58

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.5 de Kendall
 Pour aboutir la somme

59

1 = (1) + (1) + (+1) + (1) + (1) = 3

 Nous faisons de mme pour l'individu

no 2

 etc.
 Nous pouvons ainsi former la somme

S=

2 = (1) + (+1) + (1) + (+1) = 0

c.--d.

n1
i=1

i = (3) + 0 + (+3) + (2) + (+1) = 1

Le coecient est obtenu l'aide de l'quation 4.15

2 (1)
= 0.0667
6 (6 1)

4.5.2 Test de signicativit


Ds que

n>8

(voir [1], page 115), et plus srement lorsque

nous appuyer sur la normalit asymptotique de

n > 10

([11], page 252), nous pouvons

sous l'hypothse d'indpendance de

et

Y.

Le test de signicativit repose alors sur la statistique

U=

2(2n+5)
9n(n1)

suit une loi normale centre et rduite sous

= 3

H0 .

n(n 1)
2(2n + 5)

(4.16)

La rgion critique du test pour un risque

s'crit

|U | > u1 2

Un exemple. L'approximation est bien videmment mauvaise (n = 6) pour notre exemple ci-dessus
(Figure 4.10). Nous allons quand mme l'utiliser pour illustrer simplement la dmarche. Rappelons que

= 0.0667.

Nous obtenons

avec

U = 3 (0.0667)
En comparant

|U |

avec le seuil critique du test

6(6 1)
= 0.1879
2(2 6 + 5)
u0.975 = 1.96,

compatibles avec l'hypothse d'absence de lien entre

et

nous concluons que les donnes sont

Y.

4.5.3 Relation avec le de Spearman

de Kendall et

de Spearman sont tous les deux des coecients de corrlation de rangs. Ils reposent

sur les mmes hypothses et exploitent les mmes informations, il est logique qu'ils aient une puissance
similaire (la capacit dtecter juste titre l'hypothse
prtation des valeurs proposes par les statistiques :
explique, l'instar du coecient de Pearson,

H1 ).

La dirence se joue surtout sur l'inter-

s'interprte comme une proportion de variance

s'interprte comme une probabilit

14 .

Il y a cependant une relation entre les valeurs estimes, on montre que (voir [11], page 251) que

1 3
2
+1

14. http://www.unesco.org/webworld/idams/advguide/Chapt4_2.htm
Page: 59

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

60

4 Variations autour de la corrlation


Lorsque

est assez grand, et les coecients pas trop proches de

(en valeur absolue), on constate

galement la relation suivante (voir [1], page 114)

Enn, lorsque le (X, Y ) suit une loi normale bivarie, nous avons la relation (voir [9], page 138)

2
arcsin

4.5.4 Traitement des ex-aequo


Lorsque les donnes comportent des ex aequo, la formule 4.15 doit tre corrige.

Calcul de

ij .

Pour le calcul des cart entre paires concordantes et discordantes

ramnager la quantit

ij

en introduisant un nouveau cas :

ij = 0

si

(xi = xj )

ou (yi

S,

= yj ).

Facteur de correction. Dtaillons la procdure de calcul du facteur de correction Ex


dmarche est identique pour

Ey

de

 Pour un chantillon de taille

Gx = n,

Y)
n,

nous devons

pour

( la

nous recensons les valeurs distinctes de

X,

elle est gale

Gx .

Si

il n'y a pas d'ex aequo.

 Pour chaque valeur

xg

de

 Le facteur de correction

X,

Ex

nous comptabilisons le nombre d'occurrences

tg .

s'crit alors

Ex =

Gx

tg (tg 1)

(4.17)

g=1

Remarque 13 (Facteur de correction).


pour le

Attention, le facteur de correction

de Spearman (Tx ). Ici aussi, nous remarquons que

Ex = 0

Ex

est dirent de celui utilis

si les donnes ne comportent pas

d'ex-aequo.

Coecient de Kendall corrig. Il faut maintenant introduire les facteurs de corrections pour les
donnes comportant des ex-aequo

2S

n(n 1) Ey

n(n 1) Ex

(4.18)

Exemple. On demande 2 enseignants de noter de manire indpendante des dissertations de n = 8


tudiants. Le premier est expriment (X ), le second est novice dans la profession (Y ). On chercher
savoir si les notes attribues sont indpendantes, auquel cas il y aurait matire s'inquiter concernant
le degr de subjectivit que peut comporter la notation des copies.
De nouveau nous construisons le tableau de calcul sous EXCEL (Figure 4.11) :


n=8

observations.

 Nous trions les donnes selon les valeurs de

Page: 60

job: Analyse_de_Correlation

X.

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.5 de Kendall

Fig. 4.11.

 Il y a

Gx = 5

1; 14 : 1).

Tableau de calcul du de Kendall en prsence d'ex aequo

valeurs distinctes de

X,

nous comptons les occurrences

A l'aide de la formule 4.17, nous produisons

 Nous procdons de la mme manire pour

Y.

 Il faut maintenant produire la valeur de

S.

(x1

= 6.5; y1 = 8.5).

Il a

(6.5 : 1; 9 : 2; 12 : 3; 13 :

Ex = 8 .

Gy = 6

valeurs distinctes, nous obtenons

Nous prenons comme rfrence l'individu

Ey = 4.

no 1

avec

Regardons les paires concordantes et discordantes :

n 2

est ex-aequo, en eet

est discordant car

n 3

61

y2 = y1 12 = 0

y2 = 6.5 < y1 13 = 1

 Etc.
 Pour l'individu

no 1,

nous obtenons ainsi

1 = 4

 Prenons maintenant comme rfrence l'individu




n 3
de

est ex-aequo car

n 4

x2 = 9 = x1 23 = 0 ;

no 2

avec (x2

= 9; y2 = 8.5)

il n'est mme pas ncessaire de considrer la valeur

pour cette paire.

est concordant car

x4 = 12 > x2

et

y4 = 11 > y2 24 = +1

 Etc.
 Pour l'individu

no 2,

nous obtenons

 Etc. Pour aboutir au nal

2 = 5

S = 19

Nous utilisons la formule corrige (Equation 4.18)

2 19

=
= 0.76061
8(8 1) 8 8(8 1) 4
Pour tester la signicativit du coecient, nous utilisons l'approximation normale

U = 3 0.76061
La p-value est

0.00842.

Au risque

5%,

8(8 1)
= 2.63483
2(2 8 + 5

on peut conclure l'existence d'un lien positif entre un cor-

recteur expriment et un correcteur novice. Mieux mme, puisque nous pouvons interprter le

Page: 61

job: Analyse_de_Correlation

macro: svmono.cls

de

date/time: 8-Mar-2015/7:21

62

4 Variations autour de la corrlation

Kendall comme une probabilit, nous dirions que

correcteurs rangent de la mme manire

76.06%

correspond au surcrot de chances que les deux

copies prises au hasard (ouf !).

4.6 Rapport de corrlation


Lorsque la relation s'carte de la linarit, nous constatons que le coecient de corrlation n'est plus
adapt, particulirement lorsque la relation est non monotone. Dans cette section, nous prsentons un
indicateur, le rapport de corrlation

15 , dont l'interprtation et l'ecacit ne dpend pas de la forme de la

relation tudie. En particulier, il permet de rendre compte de la liaison mme si elle est non monotone.

4.6.1 Principe et interprtation


Le rapport de corrlation

16 est une

mesure asymtrique,

conditionnelle. Nous notons E[Y /X = x] l'esprance de la variable Y


un rsum de

lorsque

prend la valeur

esprance

elle repose sur la notion d'


lorsque

X = x,

elle nous fournit

x. Dans la rgression linaire simple par exemple, nous faisons

l'hypothse que cette esprance est une fonction linaire de

c.--d.

E[Y /X = x] = a X + b.

Dans le cas du rapport de corrlation, nous estimons directement cette quantit partir des observations. Cela suppose, et c'est la principale limite de cette mesure, que l'on dispose de plusieurs observations
de

pour chaque valeur

Le

de

X.

rapport de corrlation thorique Y2 /X

explique par

et la variabilit totale de

est dnie comme le rapport entre la variabilit de

Y.

2
y/x
=

E{(Y /X E[Y ])2 }


E{(Y E[Y ])2 }

(4.19)

2
2
Domaine de dnition. Le rapport de corrlation 17 y/x
est dni sur l'intervalle 0 y/x 1.
 Lorsqu'il est gal
La moyenne de

0,

cela veut dire que la connaissance de

est la mme quelle que soit la valeur de

 A contrario, lorsqu'il est gal


valeur de

1,

c.--d. chaque valeur

la connaissance de

de

ne donne aucune information sur

Y.

X.
permet de dterminer avec certitude la

correspond une seule valeur de

Y.

Liaison entre une variable qualitative et une variable quantitative.

Le rapport de corr-

lation a une porte plus large que la simple alternative pour mesurer une liaison non linaire entre 2
variables quantitatives. Nous constatons dans la dnition ci-dessus (formule 4.19) qu' aucun moment
nous faisons rfrence au caractre ordonn de

X . De fait,

caractriser l'association entre une variable qualitative

le rapport de corrlation peut tre utilis pour


et une variable quantitative

([9], page 143).

On se rapproche en cela du schma de l'analyse de variance (ANOVA).

15. en anglais, coecient of nonlinear relationship, ou eta coecient, ou encore eta correlation ratio
16. Voir http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/multivariable/quanti/rapport.htm
17. Voir http://nte-serveur.univ-lyon1.fr/nte/immediato/math2002/Mass11/cours/chapitr3d.htm
Page: 62

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.6 Rapport de corrlation


Si

prend

valeurs distinctes, calcul sur un chantillon, le

63

rapport de corrlation empirique

est dnie de la manire suivante :

2
y/x
avec

nk

K
yk y)2
k=1 nk (
=
n
)2
i=1 (yi y

le nombre d'observations telles que

X = xk , yk

(4.20)

la moyenne de

lorsque

X = xk .

Nous pouvons aussi crire le rapport de corrlation en faisant intervenir la variance de


par les

non explique

c.--d. la variance rsiduelle.

K
2
y/x
=1

nk
nk i=1
(yi
k=1
n
(y

y)2
i=1 i

La formule n'utilise jamais de manire explicite les valeurs


caractre ordonn de

c.--d.

xk+1 > xk .

xk .

yk )2

(4.21)

De mme, elle ne tient pas compte du

On fait donc l'impasse sur une information qui est pourtant

importante. C'est le prix payer pour ne pas avoir faire d'hypothses sur la forme de la relation.
On voit bien la limite de l'indicateur dans cette nouvelle formulation. Si nous ne disposons que d'une

K = n, nk = 1, k

et

yi = yk . Le rapport de corrlation

sans qu'il n'y ait aucune relation entre

et

seule observation pour chaque valeur de


sera mcaniquement gal

c.--d.

Y.

Nanmoins cette restriction

n'est pas aussi contraignante qu'on pourrait le penser :


1. Dans les sciences exprimentales o les donnes sont le fruit d'une exprimentation raisonne, la
rptition des observations pour une valeur de

est tout fait naturelle. Par exemple, pour valuer

la rduction du nombre de microbes conscutive l'administration d'un mdicament, on rpartit les


cobayes en groupes, dans un groupe on donne une dose identique. Nous disposons de plusieurs valeurs
(rduction des microbes) pour chaque valeur de

(dose du mdicament).

2. Nous avons la possibilit de dcouper les valeurs de

en classes de manire obtenir un certain

de

nombre d'observations dans chaque groupe. Dans ce cas, le choix des bornes des intervalles est dterminant. Si elles sont mal dnies, des informations primordiales peuvent tre masques. A l'extrme,
si on ne prend qu'un seul intervalle qui va du minimum au maximum, on ne pourra rien en tirer.

Relations entre coecient de corrlation et rapport de corrlation.

Ces deux indicateurs

sont censs mesurer le lien entre deux variables, la dirence que le premier fait l'hypothse de la
linarit de la relation. On peut noter alors quelques relations importantes entre
 De manire gnrale,

2
2
y/x
rxy
.

On le comprend aisment,

2
rxy

et

2
y/x

introduit une contrainte supplmen-

2
2
taire, l'hypothse de linarit, pour mesurer la liaison. On peut d'ailleurs utiliser l'cart (y/x rxy )
pour valuer le caractre linaire de la relation.


r 2 = 1 2 = 1,

une liaison linaire parfaite signie une liaison parfaite.

= 0 r = 0,

absence totale de liaison implique absence de liaison linaire.

 La valeur

xk

n'entre pas en ligne de compte dans le calcul du rapport de corrlation. Si on la

remplace articiellement par la moyenne conditionnelle de

c.--d.

xk = yk ,

alors

2
2
y/x
= rxy

(voir

[9], page 144).

Page: 63

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

64

4 Variations autour de la corrlation

4.6.2 Infrence statistique


Pour tester la signicativit du rapport de corrlation, il faut se rfrer au schma d'analyse de variance

facteur

18 . En eet, le test d'hypothses 19

2
H0 : y/x
=0
2
H1 : y/x
>0
Est quivalent

20

H0 : 1 = = K
H1 : une au moins diere des autres
Sous l'hypothse nulle, et sous condition que les distributions conditionnelles soient gaussiennes et de

homoscdasticit ) 21 , la statistique :

variance identique (hypothse d'

F =
Suit une loi de Fisher
Pour un risque

2
K1
1
2
nK

(K 1, n K)

nK
2

K 1
1 2

(4.22)

degrs de libert.

la rgion critique du test s'crit :

R.C. : F > F1 (K 1, n K)
o

F1 (K 1, n K)

est le quantile d'ordre (1

de la loi de Fisher (K

1, n K)

degrs de

libert.

4.6.3 Un exemple
Nous essayons de vrier, au risque de

10%,

l'inuence de la consommation de cigarettes (en nombre

de paquets par jour) sur le risque d'apparition de la leucmie chez


asymtrique, dans l'autre sens,
A partir de ces

n = 43

43

gros fumeurs. L'analyse est bien

priori, elle n'aurait pas trop d'intrt 22 .

observations, nous menons dans un premier temps une analyse de corrlation

classique en calculant le coecient de Pearson (Figure 4.12, colonnes A et B de la feuille de calcul). Nous
obtenons :
 Le coecient de corrlation empirique est

r = 0.01876,

 Pour tester la signicativit, nous formons le

18.
19.
20.
21.
22.

son carr

de Student,

r2 = 0.00035

t = 0.12016

http://spiral.univ-lyon1.fr/mathsv/cours/pdf/stat/Chapitre9.pdf

Le rapport de corrlation est toujours positif ou nul, le test est forcment unilatral.
k = E[Y /X = xk ], la moyenne conditionnelle thorique
l'ANOVA est quand mme bien robuste par rapport ces hypothses
Les donnes sont ctives, que le lecteur mdecin ne s'aole pas.

Page: 64

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

4.6 Rapport de corrlation


 La p-value du test nous fournit p-value =
 Au risque de

10%,

65

0.90493

il semble patent qu'il n'y a aucun lien entre les deux variables. On peut fumer

en paix.

Fig. 4.12.

Rapport de corrlation - Risque de leucmie vs. Consommation de cigarettes

S'arrter ce stade serait une grave erreur, un petit graphique mettant en relation les deux variables
claire la relation sous un autre jour. Calculons maintenant le rapport de corrlation (Figure 4.12, colonnes
D F de la feuille de calcul) :
 Dans le graphique, on se rend compte que pour chaque valeur de

X , les nuages de points correspon-

dant sont assez dcals. Impression conrme par les moyennes conditionnelles en rouge que nous

Page: 65

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

66

4 Variations autour de la corrlation


avons relies. S'il y avait eu absence de relation, les moyennes seraient au mme niveau, nous aurions
obtenu un droite horizontale. Il semble que ce ne soit pas le cas ici, vrions cela numriquement.
 Pour calculer le rapport de corrlation, nous devons tout d'abord former les moyennes conditionnelles, nous avons ralis cela l'aide de l'outil "tableaux croiss dynamiques" d'EXCEL, nous
avons la fois les eectifs et les moyennes par valeur de

n1 = 6

et

X.

Par exemple, pour

X = 1,

nous avons

y1 = 6.45

 L'eectif global est bien

n = 43

et la moyenne

y = 6.87.

 Nous calculons le numrateur de la formule 4.20, nous obtenons

B = 2.63695

 De la mme manire, nous formons le dnominateur, nous obtenons


 Le rapport de corrlation estim est gal

2 =

B
T

T = 13.70647

= 0.19239. A comparer avec r2 = 0.00035 obtenu

prcdemment. Si liaison il y a, elle n'est absolument pas linaire en tous les cas.
 Voyons justement ce qu'il en est de la signicativit. Nous formons la statistique F (quation 4.22),
elle est gale
 Pour un risque

F = 2.26307.
= 0.1,

nous la comparons

de corrlation est dirent de

0,

F0.9 (4, 38) = 2.09896.

Au risque

rsultat conrm par la p-value gale

= 10%,

le rapport

0.08032.

 Il y a donc bien un lien entre la consommation de cigarettes et le risque de leucmie, mais la liaison
est assez complexe. On a des srieux problmes quand on en consomme

2 paquets par jour, au del,

ah bon ? ! ). Mais il ne faut pas se faire d'illusions, mon avis,


c'est parce qu'on va mourir d'autre chose avant de contracter une leucmie.
on dirait que la situation s'amliore (

Page: 66

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Partie II

Corrlations partielles et semi-partielles

Page: 67

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 68

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5
Corrlation partielle paramtrique et non paramtrique

5.1 Principe de la corrlation partielle


Il n'est pas rare qu'une ou plusieurs autres variables viennent fausser la corrlation entre

variables,

laissant penser tort l'existence (ou l'absence) d'une liaison. On parle de facteur confondant (voir
section 2.6,

Problmes et cas pathologiques ).

La littrature statistique regorge d'exemples plus ou moins

loufoques de corrlations numriquement leves, mais qui ne rsistent pas une seconde l'interprtation :
 Corrlation entre les ventes de lunettes noires et les ventes de glaces (c'est pour ne pas voir les
calories qu'on engoure...). Il faut surtout y voir l'eet de la chaleur ou de l'ensoleillement.
 Corrlation entre le nombre d'admissions l'hpital et les ventes de glaces (a y est, les calories ont
encore frapp...). Encore une fois, la canicule y est pour quelque chose peut tre.
 Corrlation entre la longueur des cheveux et la taille des personnes (et oui, on compense comme on
peut...). On a mlang les hommes et les femmes dans les donnes. En moyenne, les hommes sont
plus grands que les femmes avec,

a contrario, des cheveux plus courts (Figure 2.6).

 Corrlation entre le prix des voitures et leur consommation (tant qu' payer, autant le faire

vitam

ad

...). Les voitures luxueuses, chres, sont aussi souvent de lourdes grosses cylindres. Toute la

lire automobile vous dit merci.


 Corrlation entre la hausse des prix et le budget alimentation des mnages (les soucis donnent faim,
c'est bien connu...). Il faudrait plutt exprimer la consommation alimentaire en volume, autrement
en tous les cas.
 Etc.
L'ide de la corrlation partielle est de mesurer la corrlation entre
l'eet d'une troisime variable
calculer

et

en annulant (en contrlant)

Z . Lorsque cette dernire est qualitative, la stratgie est simple, il s'agit de

r dans chaque groupe du point de vue numrique, et de distinguer explicitement les groupes dans

le graphique nuage de points (Figure 2.6 par exemple pour la corrlation taille et longueur de cheveux).

Page: 69

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

70

5 Corrlation partielle paramtrique et non paramtrique


L'aaire se complique lorsque la

retrancher de

et

variable de contrle Z est elle aussi numrique 1 . Il faudrait alors

la variance explique par

Z,

puis calculer la corrlation en utilisant l'information

rsiduelle. C'est exactement la dmarche de la corrlation partielle.


Le rle de
Garson ([5],

est complexe. Parfois elle exacerbe la corrlation entre

et

http://www2.chass.ncsu.edu/garson/pa765/partialr.htm)

les direntes interaction qu'il peut y avoir entre

Fig. 5.1.

X, Y

et

Y,

parfois elle la masque.

rsume dans un graphique

(Figure 5.1).

Typologie de l'inuence de Z sur la corrlation rxy

On parle de corrlation brute lorsque l'on souhaite mesurer la relation directe

rxy . On parle de corrla-

tion partielle lorsque l'on souhaite faire intervenir une ou plusieurs variables de contrle : plus prcisment,
corrlation partielle d'ordre

lorsque l'on a

variables de contrle.

1. Dans les sciences exprimentales o nous contrlons la production des donnes, nous pourrions, pour chaque
valeur de Z , rpter l'exprimentation de manire recueillir plusieurs observations (xi , yi ). On retrouve ainsi le
schma de la variable de contrle discrte. Mais dans les sciences sociales, souvent le triplet (xi , yi, zi ) est unique
dans le chier, la seule solution est de passer par la corrlation partielle.
Page: 70

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5.2 Corrlation partielle d'ordre 1 bas sur le r de Pearson

71

Corrlation (mme partielle) n'est toujours pas causalit. Prcisons encore et toujours qu'il s'agit toujours l de procdures numriques destines mesurer l'existence et
l'intensit d'une liaison. La corrlation partielle ne droge pas cette rgle. La mise en
vidence d'une ventuelle causalit ne peut et ne doit reposer que sur les connaissances du
domaine. En revanche, et c'est pour cela qu'elle peut tre trs bnque dans une analyse,
la corrlation partielle peut permettre de clarier la relation qui existe (ou qui n'existe pas)
entre

variables.

Remarque 14 (Quelques lments sur les notations).


priorit

Dans cette partie du support, nous noterons en

le coecient partiel, sauf s'il y a ambigut, auquel cas nous indiquerons les indices adquats.

Concernant la transformation de Fisher, pour viter la confusion avec la (ou les) variable(s) de contrle,
nous la noterons

f.

5.2 Corrlation partielle d'ordre 1 bas sur le r de Pearson


Dans un premier temps, tudions le coecient de corrlation partielle d'ordre

1 base sur le coecient

de Pearson. Les hypothses relatives l'infrence statistique restent de mise ici, on postule notamment
que la distribution de (X, Y ) conditionnellement

suit une loi normale bivarie (voir [9], page 133).

Fort heureusement, les proprits asymptotiques sont conserves. Il n'en reste pas moins que le coecient
partiel ne caractrise que les relations linaires.

5.2.1 Dnition - Estimation


La consommation partielle

rxy.z

peut tre dnie partir des corrlations brutes

rxy rxz ryz

rxy.z =
2
2
1 rxz
1 ryz

(5.1)

L'ide est assez limpide, on retranche de la relation directe (X, Y ) les relations respectives de
avec
que

Z.

Puis un terme de normalisation (symtrique,

vs.

et

vs.

Z)

et

est introduit de manire ce

1 rxy.z +1

Remarquons plusieurs rsultats intressants. Pour xer les ides, sans que cela ne rduise la porte
du propos, nous dirons que
 Lorsque

rxy > 0

est indpendant de

manire dans la relation entre


 Lorsque

X
X

et
et

(rxz

= ryz = 0), rxy.z = rxy


X

et

Y,

ryz < 0),

Page: 71

le produit

d'une part,

rxz .ryz < 0,

ne pse en aucune

on peut aboutir au rsultat

il n'y a rien dans la relation (X, Y ) qui ne soit pas dj explique par

est fortement li positivement avec

 Lorsque les liaisons entre

c.--d.

et

c.--d.

d'autre part, sont de signe opposs (ex.

on constate que

job: Analyse_de_Correlation

rxy.z 0

rxz > 0

et

rxy.z > rxy

macro: svmono.cls

date/time: 8-Mar-2015/7:21

72

5 Corrlation partielle paramtrique et non paramtrique

estimation

L'

de la corrlation partielle passe simplement par l'introduction des estimations des

corrlations brutes dans la formule 5.1 c.--d.

rxy rxz ryz

rxy.z =
2
2
1 rxz
1 ryz

(5.2)

5.2.2 Exemple des voitures


Reprenons notre exemple des voitures (Figure 2.2). Nous souhaitons clarier la liaison entre "puissance" (X ) et "consommation" (Y ) en contrlant le rle de la cylindre (Z ). En eet, une grosse cylindre
a tendance tre puissante, mais elle a tendance aussi consommer plus que de raison : au nal, que
reste-t-il de la liaison (Y, X ) une fois que l'on a retranch l'explication (en termes de variance) fournie
par

Z?

Fig. 5.2.

Calcul de la corrlation partielle d'ordre 1 - Fichier "voitures"

Dtaillons les calculs de la feuille EXCEL (Figure 5.2) :


 Nous calculons les corrlations brutes

rxy = 0.88781, rxz = 0.94755

et

dj, nous constatons que la variable de contrle est fortement lie avec

ryz = 0.89187.
X

et

D'ores et

Y.

 Appliquons la formule 5.2 sur ces corrlations, nous obtenons

Page: 72

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5.2 Corrlation partielle d'ordre 1 bas sur le r de Pearson

73

0.88781 0.94755 0.89187


rxy.z =
= 0.29553
(1 0.947552 )(1 0.891872 )
 La corrlation partielle est singulirement rduite si l'on se rfre la corrlation brute. Apparemment, "cylindre" joue beaucoup dans la liaison entre "puissance" et "consommation". Nous
essaierons de voir dans la section suivante si, nanmoins, la relation rsiduelle reste signicative.

5.2.3 Test de signicativit et intervalle de conance


Test de signicativit. Si l'hypothse de normalit est vrie, le test de signicativit quivaut
un test d'indpendance c.--d.

est indpendant de

conditionnellement

Z.

Dans le cas contraire,

avec les proprits asymptotiques, le test permet quand mme d'prouver la nullit du coecient.
L'hypothse nulle du test, qui peut tre bilatral ou unilatral, s'crit

H0 : rxy.z = 0
Sous

H0 ,

la statistique du test

t=
suit une loi de Student (n
Pour un risque

3)

(5.3)

1
r2
n3

degrs de libert.

et un test bilatral, nous rejetons l'hypothse nulle si

R.C. : |t| > t1/2 (n 3)


o

t1/2 (n 3)

est le quantile d'ordre

1 /2

de la loi de Student (n

3)

degrs de libert.

Revenons notre exemple numrique (Figure 5.2), Nous calculons :


 les degrs de libert
 la statistique

n 3 = 28 3 = 25 ;

t = 1.54673 ;

 dont la valeur absolue est compare avec le seuil critique


 Au risque

= 5%,

t0.975 (25) = 2.38461

nous concluons que la corrlation entre "consommation" et "puissance" condi-

tionnellement "cylindre" n'est pas signicativement dirente de

0.

En d'autres termes, cylin-

dre gale, la consommation ne varie pas avec la puissance.

Intervalle de conance. La distribution du test est uniquement valide dans le voisinage rxy.z = 0.
Pour laborer l'intervalle de conance au niveau (1

),

nous devons passer, comme pour la corrlation

brute, par la transformation de Fisher.


Elle est dnie de la mme manire,

f=

Page: 73

job: Analyse_de_Correlation

1 1 + rxy.z
ln
2 1 rxy.z

macro: svmono.cls

date/time: 8-Mar-2015/7:21

74

5 Corrlation partielle paramtrique et non paramtrique


L'estimateur

f est calcule l'aide de

l'estimation de la corrlation partielle, il est asymptotiquement

sans biais, distribu selon une loi normale, et de variance

f2 =

1
1
=
n13
n4

(5.4)

Dans notre exemple (Figure 5.2), nous souhaitons construire l'intervalle de conance
 Nous calculons la transformation de Fisher

 L'cart type associ est gale


 Le quantile d'ordre

975%

est

f =

f=

1
283

1
2

1+0.29553
10.29553

ln

95%

= 0.30461

= 0.20412

u0.975 = 1.95996

 La borne basse (resp. haute) pour

est

bbf = 0.30461 1.95996 0.20412 = 0.09546

(resp.

bhf = 0.30461 + 1.95996 0.20412 = 0.70469)


 Il ne reste plus qu' appliquer la transformation inverse pour obtenir la borne basse (resp. haute)
du coecient

bbr =

e2(0.09546) 1
e2(0.09546) +1

= 0.09517

(resp.

 Nous constatons que l'intervalle englobe la valeur


signicativit de

bhr = 0.60734).

0,

c'est une autre manire de dtecter la non-

r.

5.3 Corrlation partielle d'ordre p

(p > 1)

bas sur le r de Pearson

5.3.1 Dnition
La corrlation partielle d'ordre

est une gnralisation de la corrlation partielle. L'objectif est d'in-

troduire plusieurs variables de contrle. Dans notre exemple des voitures (Figure 2.2), nous savons pertinemment que le "poids" est un aspect important que la consommation. Nous souhaitons galement
annuler son ventuelle action dans la relation "consommation" - "puissance".
Comment estimer la corrlation partielle

rxy.z1 z2 ...zp ?

Calcul rcursif
On montre qu'il est possible de calculer les corrlations partielles d'ordre
partielles d'ordre

p.

p+1 partir des corrlations

On utilise pour cela la formule de passage suivante, qui n'est pas sans rappeler

d'ailleurs le passage des corrlations brutes vers la corrlation partielle d'ordre

rxy.z z ...z rxzp+1 .z1 z2 ...zp ryzp+1 .z1 z2 ...zp

rxy.z1 ...zp zp+1 = 1 2 p


2
2
1 rxz
1 ryz
p+1 .z1 z2 ...zp
p+1 .z1 z2 ...zp
Pour la corrlation partielle d'ordre

(5.5)

que nous mettrons en oeuvre sur un exemple ci-dessous, la

formulation adquate est

2. voir

http://en.wikipedia.org/wiki/Partial_correlation ;

http://www.stat.psu.edu/online/

development/stat505/07_partcor/06_partcor_partial.html
Page: 74

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5.3 Corrlation partielle d'ordre p (p > 1) bas sur le r de Pearson


rxy.z1 rxz2 .z1 ryz2 .z1

rxy.z1 z2 =
2
2
1 rxz
1 ryz
2 .z1
2 .z1

75
(5.6)

Si l'criture est simple, le calcul est assez complexe. En eet, pour obtenir la corrlation partielle
d'ordre

p,

nous devons dans un premier temps calculer les corrlations brutes de toutes les variables

partir des donnes c.--d.

(p+1)
2

corrlations. Puis mettre jour de proche en proche cette matrice de

corrlation en introduisant la premire variable de contrle

z1 ,

puis la seconde

z2 ,

etc. jusqu' ce qu'on

obtienne la profondeur souhaite.

Exemple : Mesurer la relation "puissance (X ) - consommation (Y )" en contrlant "cylindre" (Z1 ) et "poids" (Z2 ) - Approche no 1. Corsons notre aaire de voitures en introduisant 2
variables de contrle. Nous voulons produire le rsultat partir de l'quation 5.6. La squence des calculs
est la suivante (Figure 5.3) :

Fig. 5.3.

Page: 75

Corrlation partielle d'ordre 2 - Approche rcursive - Fichier "voitures"

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

76

5 Corrlation partielle paramtrique et non paramtrique


 Tout d'abord nous calculons les corrlations brutes croises :

0.9263,

rxy = 0.8878, rxz1 = 0.8819, rxz2 =

etc. C'est l'objectif de la matrice "Corrlations brutes croises" dans la partie basse de la

feuille EXCEL.
 Ensuite, nous devons calculer toutes les corrlations croises d'ordre
de variable de contrle. Nous obtenons

1 o Z1

rxy.z1 = 0.2955, rxz2 .z1 = 0.6878

et

(cylindre) joue le rle

ryz2 .z1 = 0.1663

(cf. la

matrice "Corrlations partielles / Z1")


 Enn, dernire tape, partir de la matrice prcdente nous appliquons l'quation 5.6 pour introduire la seconde variable de contrle

rxy.z1 z2 =

Z2

(poids). Nous obtenons

0.2955 0.6878 0.1663

= 0.25309
1 0.68782 1 0.16632

Il n'y a plus qu'un seul chire dans la matrice "Corrlations partielles /Z1,Z2", nous sommes arrivs
au bout du processus rcursif.

Tant que le nombre de variables reste faible, ce processus est intressant, surtout pdagogiquement.
Lorsqu'il devient lev, nous utilisons une autre approche, plus ecace, plus directe, pour obtenir la
valeur de la corrlation partielle d'ordre

p.

Calcul par les rsidus de la rgression


Cette approche s'appuie sur un autre point de vue pour aboutir au mme rsultat. Rappelons que la
corrlation partielle consiste mesurer le lien entre l'information rsiduelle de

et

qui ne soit pas dj

explique par les variables de contrle. En prenant au pied de la lettre cette description, on s'attache
calculer le rsidu
partielle d'ordre

ex
p

(resp.

ey )

de la rgression de

(resp.

Y)

sur (Z1 , Z2 , . . . , Zp ). Estimer la corrlation

revient tout simplement calculer la corrlation brute entre les rsidus

rxy.z1 ...zp = rex ey

(5.7)

Exemple : Mesurer la relation "puissance (X ) - consommation (Y )" en contrlant "cylindre" (Z1 ) et "poids" (Z2 ) - Approche no 2
La feuille de calcul est organise de manire dirente maintenant (Figure 5.4).

= 0.00443Z2 +
X
(colonne G dans
0.00130Z1 + 1.14755. Nous en dduisons la nouvelle colonne de rsidus ex = X X

 Tout d'abord, nous devons produire les quations de rgression, nous obtenons

la feuille de calcul)
 De la mme manire, nous dduisons le rsidu

0.04434Z2 15.58838

ey = Y Y

aprs la rgression

Y = 0.01093Z2 +

(colonne H dans la feuille EXCEL)

 Il ne nous reste plus qu' calculer la corrlation entre les rsidus pour obtenir la corrlation partielle
d'ordre

2,

relativement

Z1

et

Z2 , r = 0.25309.

 Exactement la mme valeur qu'avec l'approche rcursive.


Avec les logiciels d'conomtrie usuels, nulle doute que cette seconde approche est quand mme trs
facile mettre en oeuvre, les risques de mauvaises manipulations sont rduits.

Page: 76

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5.3 Corrlation partielle d'ordre p (p > 1) bas sur le r de Pearson

Fig. 5.4.

77

Corrlation partielle d'ordre 2 - Approche rsidus de rgressions - Fichier "voitures"

5.3.2 Test de signicativit et intervalle de conance


Pour tester la signicativit avec le

de Student, et calculer les intervalles de conance travers la

transformation de Fisher, il nous faut gnraliser

p variables de contrle les indicateurs dvelopps dans


3

la section prcdente. La principale modication va porter sur l'valuation des degrs de libert .
Ainsi, la statistique du test de signicativit s'crit maintenant

t=
Elle suit une loi de Student (n

p 2)

(5.8)

1
r2
np2

degrs de libert.

Et la variance de la transformation de Fisher calcule sur la corrlation partielle d'ordre

f2 =

1
np3

devient

(5.9)

3. Voir http://www.stat.psu.edu/online/development/stat505/07_partcor/06_partcor_partial.html
Page: 77

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

78

5 Corrlation partielle paramtrique et non paramtrique

5.3.3 Exemple
2

Finissons notre exemple de corrlation partielle d'ordre

sur le chier voitures (Figure 5.3). Nous

pouvons dtailler maintenant le contenu des H et I de la feuille EXCEL.


Concernant le test de signicativit :
 La corrlation partielle est
 Nous calculons

r = 0.25309

l'aide de l'quation 5.8,

 Le seuil critique au risque

5%

t=

0.25309

10.253092
2822

pour un test bilatral est

= 1.28161

t0.975 (28 2 2) = 2.39095.

Les donnes

sont compatibles avec l'absence de lien entre "puissance" et "consommation", une fois retranche
l'information apporte par "cylindre" et "poids".

Concernant l'intervalle de conance au niveau

95%

 Nous appliquons tout d'abord la transformation de Fisher :

 L'cart type estim est


 Le quantile d'ordre

f =

975%

est

1
2823

f=

1
2

1+0.25309
ln 10.25309
= 0.25871

= 0.20851

u0.975 = 1.95996

 La borne basse (resp. haute) pour

est

bbf = 0.25871 1.95996 0.20851 = 0.14997

(resp.

bhf = 0.25871 + 1.95996 0.20851 = 0.66739)


 Il ne reste plus qu' appliquer la transformation inverse pour obtenir la borne basse (resp. haute)
du coecient

bbr =

e2(0.14997) 1
e2(0.14997) +1

= 0.14885

(resp.

bhr = 0.58326).

 Le rsultat est cohrent avec le test d'hypothses, l'intervalle de conance englobe la valeur

0.

5.4 Corrlation partielle sur les rangs - de Spearman partiel


Lorsque la relation est non linaire, le coecient de Pearson dtecte traduit mal l'intensit de la liaison.
C'est ce qui avait motiv la prsentation du coecient de Spearman ci-dessus, qui est un coecient de
Pearson calcul sur les rangs. Son avantage est d'tre non paramtrique, il permet aussi de mieux rendre
compte de la liaison tant qu'elle est monotone. Est-ce que cette approche reste d'actualit concernant la
corrlation partielle ?
La rponse est oui. Nous pouvons nous appuyer sur les

dispositifs dcrits pour le coecient de

corrlation de Pearson.

5.4.1

partiels via les rsidus de la rgression

Pour calculer le coecient de Spearman partiel d'ordre


il sut d'adopter la dmarche suivante

sur un chantillon de donnes (


xy.z1 ...zp ),

4 :

1. Transformer toutes les variables en rangs. Adopter les rangs moyens en cas d'ex-aequo.

4. Voir la documentation en ligne SAS - http://support.sas.com/documentation/cdl/en/procstat/59629/


HTML/default/procstat_corr_sect017.htm
Page: 78

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5.4 Corrlation partielle sur les rangs - de Spearman partiel


2. Calculer le rsidu

(resp.

y )

de la rgression des rangs de

(resp. rangs de

Y)

79

avec les rangs des

variables de contrle.
3. Le

partiel est tout simplement le coecient de corrlation de Pearson appliqu sur ces

rsidus

c.--d.

xy.z1 ...zp = rx y
4. Le dispositif infrentiel reste inchang, on doit tenir compte de

5.4.2

dans le calcul des degrs de libert.

partiels via les formules de rcurrence

De la mme manire que pour le coecient de Pearson, nous pouvons utiliser les formules de rcurrence
(quations 5.1, 5.6 et 5.5) pour calculer les
est plus simple tant que

de Spearman partiels de proche en proche. Cette technique

est faible (de l'ordre de

ou

maximum).

5.4.3 Exemple : corrlation entre 2 types de cancer en contrlant l'eet de la cigarette


H ben non, ce n'est pas un exemple sur les voitures !

On cherche dterminer sur cet exemple s'il

existe une part non explique par la consommation de cigarettes dans la relation entre l'occurrence du
cancer du poumon et celui du cancer de la vessie. Les individus sont des tats des USA, CIG (Z ) est
le nombre de cigarettes par tte fumes, BLAD (X ) est le nombre de personnes mortes du cancer de
la vessie par 100.000 habitants, et LUNG est le nombre de personnes mortes du cancer de la vessie par

100.000 habitants . La corrlation brute entre BLAD et LUNG est de

rxy = 0.6251, assez forte. Essayons

de relativiser cela en contrlant le rle de la cigarette.


Dcrivons l'organisation de la feuille de calcul (Figure 5.5).
 Les variables sont transformes en rangs, nous crons les variables

Z.

R, S

et

partir de

X, Y

et

Attention, en cas d'ex-aequo, nous utilisons les rangs moyens.

 Nous disposons de

n = 42

 La corrlation brute entre

observations.

et

est

xy = 0.6251.

 Les corrlations brutes avec la variable de contrle sont

xz = 0.6213

et

yz = 0.7264.

 Nous appliquons la formule 5.2 pour obtenir

xy.z =

0.6251 0.6213 0.7264

= 0.32280
1 0.62132 1 0.72642

 Le t de Student associ est

t=
 Avec la loi de Student (n
 Au risque

5%,

1 2 = 39)

0.32280
10.322802
4212

degrs de libert, nous obtenons une p-value de

0.0395

on rejette l'hypothse nulle. Il semble qu'il y ait autre chose non explique par la

cigarette dans la liaison entre les

2 types de cancer (ceci tant 1% la liaison n'est pas signicative,

la liaison partielle est assez tenue).

5. http://lib.stat.cmu.edu/DASL/Stories/cigcancer.html - Nous avons supprim du chier les 2 tats


signals atypiques.
Page: 79

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

80

5 Corrlation partielle paramtrique et non paramtrique

Fig. 5.5.

de Spearman partiel d'ordre 1 - Approche rcursive

A titre de comparaison, voici les commandes et sorties SAS (Figure 5.6). Les rsultats concordent.
C'est prfrable tant donn qu'on a suivi la lettre le descriptif de la documentation en ligne.

Remarque 15 (Corrlation partielle base sur le de Kendall).


Kendall partir des

Il est possible de calculer le

partiel de

bruts en utilisant la formule de passage analogue celle du coecient de Pearson

(quation 5.1) (voir [11], page 254 262 ; ou son rsum en franais sur le site

http://www.cons-dev.

org/elearning/stat/stat7/st7.html). On peut trs bien la mettre en oeuvre lorsque les donnes sont
intrinsquement des classements (des rangs aects). Malheureusement, les avis divergent quant au calcul
de la distribution de la statistique, le test de signicativit est dicile, ce qui est un frein considrable
son utilisation.

Page: 80

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

5.4 Corrlation partielle sur les rangs - de Spearman partiel

Fig. 5.6.

Page: 81

81

de Spearman partiel d'ordre 1 - Commandes et sorties SAS

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 82

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

6
Corrlation semi-partielle

6.1 Principe de la corrlation semi-partielle


A la dirence de la corrlation partielle, la corrlation semi-partielle

1 est rsolument asymtrique,

elle se rapproche de la rgression multiple. On essaie de quantier le pouvoir explicatif additionnel d'une
variable.
Positionnons nous dans un premier temps dans le cadre
dpendante que l'on cherche expliquer,

variables

Y , X,

et

est la variable

est la variable explicative que l'on cherche valuer,

est

2
la variable de contrle. Le carr de la corrlation semi-partielle, note ry(x.z) , quantie la proportion de
variance de

Z.

explique par

X,

sachant que l'on a retranch de cette dernire l'information apporte par

En d'autres termes, quelle est la part de

qu'explique l'information additionnelle de

par rapport

Z.
Notons bien la dirence avec la corrlation partielle. Avec ce dernier, nous retranchons l'information

apporte par

sur la fois

et

X , et nous mesurons la liaison sur les rsidus. Dans le cas de la corrlation

semi-partielle, nous cherchons quantier la liaison de

avec la partie rsiduelle de

par rapport

Z.

On discerne bien le caractre asymtrique de l'approche.


Dans notre exemple des vhicules (Figure 2.2), nous posons la question suivante : si on enlve de la
puissance (X ) l'information porte par la cylindre (Z ), est-ce qu'il reste quelque chose pour expliquer
la consommation (Y ) ? En d'autres termes, on cherche valuer l'apport additionnel de puissance (X ),
par rapport la cylindre (Z ), dans l'explication de la consommation (Y ).

6.2 Calcul et infrence statistique


La corrlation semi-partielle de

avec

conditionnellement

ry(x.z) =

1.

ryx ryz rxz

2
1 rxz

est dnie de la manire suivante

(6.1)

semi-partial correlation ou part correlation en anglais

Page: 83

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

84

6 Corrlation semi-partielle
Notons d'ores et dj que

ry(x.z) = ryx

peut tre utilise pour expliquer

Y.

Si

si

et

et

sont parfaitement corrls c.--d.

sont orthogonaux

rxz = 0.

Tout l'information de

rxz = 1,

est indnie, mais on comprend aisment qu'il ne reste plus rien dans le rsidu de

l'quation 6.1

pour expliquer

Y.

En faisant le parallle avec la formule de la corrlation partielle (quation 5.1), on constate de manire
gnrale que

ryx.z ry(x.z)

Estimation.

Sur un chantillon de taille

n,

pour estimer la corrlation semi-partielle, il sut de

remplacer les corrlation thoriques de la formule 6.1 par les corrlations empiriques.

Test de signicativit.

H0 : ry(x.z) = 0

Pour tester la signicativit de la corrlation i.e.

(test

unilatral ou bilatral), nous utilisons le t de Student qui est a la mme expression que celle de la
corrlation partielle, avec la mme distribution et les mmes degrs de libert (n

t=

3),

savoir

(6.2)

1
r2
n3

Exemple : utiliser l'information rsiduelle de la puissance (relativement la cylindre)


pour expliquer la consommation. Reprenons notre fameux chier des voitures, ralisons les calculs
(Figure 6.1) :

Fig. 6.1.

 Nous avons

Coecient semi-partiel - Exemple des voitures

n = 28

 La corrlation brute entre

et

 Les autres corrlations brutes sont

Page: 84

est

ryx = 0.88781,

rxz = 0.94755

job: Analyse_de_Correlation

et

la liaison semble forte.

ryz = 0.89187

macro: svmono.cls

date/time: 8-Mar-2015/7:21

6.3 Corrlation semi-partielle d'ordre p

85

 Nous formons l'quation 6.1

0.88781 0.89187 0.94755

= 0.13367
(1 0.947552

ry(x.z) =

 le t de Student pour le test de signicativit est

t=
 Au risque

5%,

le seuil critique est

0.13367
10.133672
283

= 0.67439

t0.975 (25) = 2.38461.

Nous acceptons l'hypothse de nullit du

coecient. Manifestement, une fois retranche de "puissance" l'information porte par "cylindre",
il ne reste plus rien pour expliquer la "consommation".

6.3 Corrlation semi-partielle d'ordre p


Il est possible de gnraliser la notion de corrlation semi-partielle
de calculer la liaison entre

et

X,

variables de contrle. Il s'agit

une fois retranche de cette dernire l'inuence de

Z1 . . . Zp

variables.

Pour raliser le calcul pratique du coecient, nous utilisons la rgression, a nous permet de comprendre
autrement, de manire plus gnrique, le mcanisme d'valuation de la liaison.
Concernant l'infrence statistique, le

test de signicativit est trs similaire la corrlation partielle,

notamment en ce qui concerne le calcul des degrs de libert. Pour tester la signicativit, nous utiliserons
la statistique

qui, sous l'hypothse de nullit du coecient, suit une loi de Student (n p 2) degrs

de libert

t=

(6.3)

1
r2
np2

6.3.1 Utilisation des rsidus de la rgression


Une bonne manire de construire la corrlation partielle est de prendre au pied la lettre la dnition
en utilisant les rsidus de la rgression. Voici la squence des traitements :
 Dans un premier temps, nous calculons la rgression linaire multiple

X = a0 + a1 Z1 + . . . ap Zp +
 A partir des coecients estims

a
j ,

nous dduisons les valeurs prdites

 Nous construisons alors les rsidus de la rgression qui reprsente la fraction de


que porte

X)

(l'information

qui n'est pas dj explique par les variables de contrle.

ei = xi x
i
 La corrlation semi partielle estime est obtenue l'aide de la corrlation empirique entre
rsidu

et le

e
ry(x.z1 zp ) = rye

Page: 85

job: Analyse_de_Correlation

macro: svmono.cls

(6.4)

date/time: 8-Mar-2015/7:21

86

6 Corrlation semi-partielle

6.3.2 Comparaison de rgressions


Une approche alternative pour calculer la corrlation semi-partielle est de comparer direntes rgressions expliquant

Y.

En eet, on cherche quantier le pouvoir explicatif additionnel de

par rapport

aux variables de contrle. Le carr du coecient s'interprte lui-mme comme une proportion de variance
explique supplmentaire. A partir de ce point de vue, on peut proposer une autre manire d'estimer le
coecient de corrlation semi-partielle. Voici la squence de calculs :
 On eectue une premire rgression de

sur les variables de contrle

Z1 , . . . , Zp ,

nous obtenons

2
le coecient de dtermination Ry.z z , il correspond la proportion de variance explique par la
1
p
rgression.
 On raliser une seconde rgression intgrant la variable supplmentaire
un nouveau coecient de dtermination
 Le surcrot d'information qu'apporte
contrle, est la dirence entre les

2
Ru.xz
1 zp

parmi les explicatives,

est dgag.

Y,

dans l'explication de

par rapport aux variables de

. C'est aussi le carr du coecient de corrlation semi-partielle

2
2
2
ry(x.z
) = Ry.xz
Ry.z
1 zp
1 zp
1 zp

(6.5)

 La racine carre de cette quantit est le rsultat souhait.

6.3.3 Exemple d'application


La dmarche est gnrique pour (p

1).

Nanmoins, pour illustrer notre propos, nous reprenons

notre exemple de la section consacre la corrlation semi-partielle d'ordre

(section 6.2). L'intrt est

de pouvoir comparer les coecients obtenus selon les dirents approches. Les calculs sont regroups
dans une nouvelle feuille (gure 6.2).

Dtaillons tout d'abord l'approche base sur la comparaison de rgressions :


 La rgression de

sur la variable de contrle

fournit

2
= 0.79543.
Ry.z

Nous avons utilis la

fonction DROITEREG() d'EXCEL.


 La rgression de

sur

et

fournit

2
Ry.xz
= 0.81329

 Le gain d'explication conscutif l'introduction de

dans la rgression est donc

0.7953 = 0.01787
 Et sa racine carre est la corrlation semi-partielle

ry(x.z) =

0.01787 = 0.13367.

= 0.81329
Nous obtenons

exactement la mme valeur qu'avec la mthode directe dcrite dans la section 6.2.

Dtaillons maintenant l'approche base sur les rsidus de la rgression :


 Nous ralisons la rgression de

sur la variable de contrle

Z.

calculer la colonne des rsidus qui correspond la fraction de

Nous utilisons les coecients pour

non explique par

ei = xi (0.04901 zi 10.94646)
 Nous calculons la corrlation de Pearson entre le rsidu
corrlation semi-partielle

ry(x.z) = rye = 0.13367.

et la variable

Y,

elle correspond la

De nouveau la valeur obtenue est cohrente avec

celles proposes par les approches alternatives.

Page: 86

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

6.3 Corrlation semi-partielle d'ordre p

Fig. 6.2.

Page: 87

87

Coecient semi-partiel - Approche rgression - Exemple des voitures

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 88

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

A
Gestion des versions

Ce document volue au l du temps. Voici les principales versions et leur date de mise en ligne. Des
corrections trs mineures sont parfois eectues. Il faut se rfrer la date de compilation situe au bas
de chaque page pour vous reprer.

 Version

1.0

en Mai 2008. Premire version du document. De nombreuses sources ont t utilises.

Les tests de comparaisons des corrlations et les variations autour des corrlations se sont beaucoup
nourris de l'excellent ouvrage de Chen et Popovitch ([2]).
 Version

1.1

en Mars 2015. Le document s'est enrichi de la lecture de l'ouvrage de Revelle ([7],

notamment le chapitre 4 "Correlation and Covariance"). Les sections consacres aux tests portant
sur les matrices de corrlations ont t introduites : test de nullit des corrlations croises et test
de comparaison de

matrices des corrlations. Les calculs sur les exemples ont t confronts avec

les sorties des procdures - lorsqu'elles existent - disponibles dans le package 'psych' ([8]) pour R,
un des trs rares outils proposer les dirents tests de comparaison des corrlations.

Page: 89

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 90

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

B
Fichier de donnes

Tout au long de ce support, nous illustrons notre propos l'aide d'exemples numriques. Les donnes
et les calculs associs sont disponibles dans un classeur EXCEL accessible en ligne. L'URL du chier est

http://eric.univ-lyon2.fr/~ricco/cours/cours/dataset_analyse_correlation.xls.
A chaque feuille du classeur correspond un thme du support. Pour faire la correspondance, le plus
simple est de se rfrer l'onglet de la feuille (Figure B.1).

Fig. B.1.

Page: 91

Classeur EXCEL - Analyse de corrlation

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 92

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

C
L'analyse de corrlation avec Tanagra

Les techniques prsentes dans ce support sont implments dans le logiciel gratuit et
Tanagra 

open source

http://eric.univ-lyon2.fr/~ricco/tanagra/.

Leur mise en oeuvre et la lecture des rsultats sont dcrites dans plusieurs didacticiels, en voici
quelques uns :
1. Corrlation semi-partielle

http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-semi-partielle.html
2. Corrlation partielle

http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-partielle.html
3. Corrlations croises

http://tutoriels-data-mining.blogspot.com/2008/04/coefficient-de-corrlation-linaire.
html
4. De manire gnrale, on pourra accder aux didacticiels qui abordent le coecient de corrlation
linaire et ses variantes en eectuant une recherche par mots cls sur le site de tutoriels

http://tutoriels-data-mining.blogspot.com/

Page: 93

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 94

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

D
L'analyse de corrlation avec R - Package 'psych'

Le package psych prsente plusieurs procdures ddies l'analyse de corrlation. Dans cette section,
nous en numrons quelques unes en les associant aux thmes abords dans cet ouvrage. Le premier
avantage pour nous est d'identier la commande adquate pour chaque traitement. Pour ma part, j'y ai
vu aussi l'opportunit de valider les calculs eectus sur tableurs publis dans la prcdente version de
ce document (ouf ! touts les rsultats concordent). Enn, les procdures relatives aux tests sur matrices
des corrlations m'ont permis de dvelopper deux nouvelles sections dans la version

1.1.

> #######################
> #chargement des donnes
> #######################
> autos <- read.table(file="autos conso.txt", sep="\t",dec=".",header=T,row.names=1)
> print(summary(autos))
Cylindree
Min.

: 658

Puissance
Min.

: 29.00

Poids
Min.

Conso

: 650.0

Min.

: 5.700

1st Qu.:1375

1st Qu.: 54.75

1st Qu.: 996.2

1st Qu.: 7.025

Median :1984

Median : 79.50

Median :1140.0

Median : 9.100

Mean

Mean

Mean

Mean

:1809

: 77.71

:1197.0

: 9.075

3rd Qu.:2232

3rd Qu.: 98.00

3rd Qu.:1425.0

3rd Qu.:10.925

Max.

Max.

Max.

Max.

:2972

:150.00

:1800.0

:12.800

> #########################################
> #corrlation entre cylindre et puissance
> #########################################
> cor(autos$Cylindree,autos$Puissance)
[1] 0.9475491
> #########################################################
> #test de significativit et intervalle de confiance 95%
> #########################################################
Page: 95

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

96

D L'analyse de corrlation avec R - Package 'psych'

> cor.test(autos$Cylindree,autos$Puissance,conf.level=0.95)
Pearson's product-moment correlation
data: autos$Cylindree and autos$Puissance
t = 15.1171, df = 26, p-value = 2.132e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8886000 0.9757056
sample estimates:
cor
0.9475491
> ##############################
> #chargement du package 'psych'
> ##############################
> library(psych)
> ####################################################
> #comparaison (conso,puissance) vs. (conso,cylindre)
> #mme chantillon
> ####################################################
> r.yx <- cor(autos$Conso,autos$Cylindree)
> r.yz <- cor(autos$Conso,autos$Puissance)
> r.xz <- cor(autos$Cylindree,autos$Puissance)
> paired.r(r.yx,r.yz,r.xz,n=nrow(autos))
Call: paired.r(xy = r.yx, xz = r.yz, yz = r.xz, n = nrow(autos))
[1] "test of difference between two correlated correlations"
t = 0.14 With probability = 0.89>
> #####################################################
> #Bartlett - Test de nullit des corrlations croises
> #####################################################
> print(cortest.bartlett(autos))
R was not square, finding R from data
$chisq
[1] 147.9813
$p.value
Page: 96

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

D L'analyse de corrlation avec R - Package 'psych'

97

[1] 2.066975e-29
$df
[1] 6
> ####################################################
> #Steiger - Test de nullit des corrlations croises
> ####################################################
> print(cortest.normal(autos))
R1 was not square, finding R from data
Tests of correlation matrices
Call:cortest.normal(R1 = autos)
Chi Square value 329.42 with df = 6

with probability < 4e-68

> ######################################################
> #index pour scinder en deux blocs distincts les donnes
> ######################################################
> asia <- c(1,2,6,7,16,19,21,22,25,27)
> ###################################################
> #Steiger - Comparaison de 2 matrices de corrlation
> ####################################################
> print(cortest.normal(R1=cor(autos[asia,]),R2=cor(autos[-asia,]),n1=10,n2=18,fisher=T))
Tests of correlation matrices
Call:cortest.normal(R1 = cor(autos[asia, ]), R2 = cor(autos[-asia,
]), n1 = 10, n2 = 18, fisher = T)
Chi Square value 1.52 with df = 6

with probability < 0.96

> ####################################################
> #Jennrich - Comparaison de 2 matrices de corrlation
> ####################################################
> print(cortest.jennrich(cor(autos[asia,]),cor(autos[-asia,]),n1=10,n2=18))
$chi2
[1] 4.520237
$prob
[1] 0.6066412

Page: 97

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Page: 98

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

Littrature

Ouvrages
1. Avazian, S., Etude
2.

statistique des dpendances, Mir, Moscou, 1978.


Chen, P., Popovich, P., Correlation : Parametric and Nonparametric Measures, Sage University Papers Series
on Quantitative Applications in the Social Sciences, no. 07-139, 2002.

3. Dodge, Y, Rousson, V., Analyse


4.
5.

de rgression applique, Dunod, 2004.


Johnston, J., DiNardo, J., Mthodes Economtriques, Economica, 4 dition, 1999.
Garson, D., Statnotes : Topics in Multivariate Analysis, http://www2.chass.ncsu.edu/garson/pa765/
statnote.htm.

6. Howell, D., Mthodes


7.

statistiques en sciences humaines, De Boeck Universit, 1998.


Revelle, W., An introduction to psychometric theory with applications in R, http://personality-project.
org/r/book/, consult en Mars 2015.

8. Revelle, W.,

Package 'psych' - Procedures for Psychological, Psychometric and Personality,

http://

personality-project.org/r/psych/psych-manual.pdf, January 20, 2015.

9. Saporta, G., Probabilits,


10.

Analyse de Donnes et Statistique, Dunod, 2006.


SAS Institute Inc., SAS 9.1 Documentation, http://support.sas.com/documentation/onlinedoc/91pdf/

index.html

11. Siegel, S., Castellan Jr., J.,


Edition, 1988.

Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill Inc., Second

12. Veysseyre, R., Aide-mmoire

Page: 99

- Statistique et probabilits pour l'ingnieur, Dunod, 2006.

job: Analyse_de_Correlation

macro: svmono.cls

date/time: 8-Mar-2015/7:21

S-ar putea să vă placă și