Documente Academic
Documente Profesional
Documente Cultură
Analyse de corrlation
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 2
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Avant-propos
Ce support dcrit les mthodes statistiques destines quantier et tester la liaison entre
variables
naire Multiple )
Rgression Li-
//dis.univ-lyon2.fr/).
Il se veut avant tout oprationnel. Nous nous concentrons sur les principales
formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle
avec les rsultats fournis par les logiciels de statistique libres et/ou commerciaux. Le bien-fond des tests,
la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux
d'approfondir les bases thoriques consulter les ouvrages numrs dans la bibliographie.
Un document ne vient jamais du nant. Pour laborer mes supports, je m'appuie sur direntes
rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus
prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents
sont le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart
de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail (de toute manire je
multiple les vrications avant d'y faire rfrence) ; une disponibilit plus ou moins alatoire, au gr des
migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier (dsol s'il
y a des liens qui ne fonctionnent plus) ; les informations sont disparates, avec une absence d'organisation,
la dirence des ouvrages qui suivent une ligne pdagogique trs structurante.
Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles
pour les enseignements. Il y a la gratuit bien sr. C'est un aspect important. Mais il y a aussi l'accs
des fonctionnalits qui sont moins videntes avec les supports classiques. Par exemple, dans la grande
majorit des cas, les donnes qui illustrent les documents sont accessibles sur le site web de diusion.
C'est un atout fort. Pour notre cas, le lecteur pourra (j'espre) reproduire aisment les calculs prsents
l'aide du chier EXCEL qui accompagne ce document.
Concernant ce support, rendons Csar ce qui lui appartient. Parmi les direntes rfrences utilises,
j'ai beaucoup t inuenc par
non moins excellente srie "Quantitative Applications in the Social Sciences" de Sage University Paper ;
Page: 3
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Avant-propos
celui de Avazian [1], qui fait partie des rfrences, introuvables aujourd'hui, que je bichonne dans ma
bibliothque.
Ce support est totalement gratuit. Vous pouvez en reprendre des parties dans vos propres productions
ou dans vos enseignements, tant qu'elles sont elles-mmes diuses titre non commercial. Une citation
de la source originale serait apprcie.
Bien entendu, selon la formule consacre, ce document n'engage que son auteur. Toutes suggestions
ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.
Page: 4
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
............................................
1.1
1.2
Analyse graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coecient de corrlation
.........................................................
2.1
Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2
10
2.3
11
2.4
Test de signicativit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2.5
17
2.6
19
.............................................
25
25
3.1
Comparaison de
3.2
Comparaison de
K (K 2)
3.3
Comparaison de
3.4
Comparaison de
27
29
30
3.5
32
3.6
Comparaison de
35
3.7
38
41
4.1
41
4.2
Corrlation mutuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.3
Le coecient
.................................................................
47
4.4
de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
4.5
de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
Page: 5
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Rapport de corrlation
.........................................................
62
..........................
69
5.1
69
5.2
5.3
p (p > 1)
5.4
bas sur le
de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
de Pearson . . . . . . . . . . . . . . . . . . . . . . .
74
de Spearman partiel . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
Corrlation semi-partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
6.1
83
6.2
83
6.3
bas sur le
71
...............................................
85
89
B Fichier de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
............................................
93
95
Littrature
99
Page: 6
...........................................................................
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Partie I
Analyse de Corrlation
Page: 1
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 2
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
1
tudier la liaison entre deux variables quantitatives
et
et
Y.
et
ci-dessus. Le graphique "nuage de points" est l'outil privilgi . Nous plaons en abscisse la variable
en ordonne la variable
Y,
X,
chaque observation est positionne dans le repre ainsi constitu. L'intrt est
multiple : nous pouvons situer les proximits entre les individus ; tudier la forme globale des points, voir
notamment s'il existe une forme de liaison ou de rgularit ; dtecter visuellement les points qui s'cartent
des autres, les observations atypiques ; vrier s'il n'y a pas de regroupement suspects, laissant entendre
qu'il y a en ralit une troisime variable qui inuence le positionnement des individus...
Dans la gure 1.1, nous illustrons quelques types de liaisons qui peuvent exister entre
variables
continues :
Y,
et
entrane une
X.
1. http://www.ebsi.umontreal.ca/jetrouve/illustre/nuage.htm
Page: 3
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 1.1.
et
X.
Liaison non-linaire non-monotone. Il y a une relation fonctionnelle (de type sinusodale ici) entre
X
et
X.
et
Y.
(ou
Y)
Y,
X.
et inversement. L'autre
variable.
Page: 4
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
1.3 Notations
1.3 Notations
Nous utiliserons les conventions suivantes dans ce support :
Une
pop .
n = card().
{(xi , yi ), i = 1, . . . , n}.
La moyenne empirique calcule sur l'chantillon est
L'cart type empirique est
Page: 5
sx =
n
1
n
job: Analyse_de_Correlation
i=1 (xi
x
=
1
n
n
i=1
(xi , yi )
c.--d.
xi
x
)2
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 6
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
2
Coecient de corrlation de Bravais-Pearson
2.1 Covariance
L'objectif de la covariance est de quantier la liaison entre deux variables
en vidence le
sens
de la liaison et son
et
Y , de manire mettre
intensit.
2.1.1 Dnition
La covariance est gale l'esprance du produit des variables centres.
(2.1)
On peut aussi l'crire comme l'esprance du produit des variables, moins le produit des esprances.
(2.2)
Signication. La covariance mesure la tendance des deux variables tre simultanment au dessus
ou en dessous de leurs esprances respectives. Elle modlise une liaison monotone.
Quelques remarques :
1. La rfrence est donc l'esprance mathmatique, on veut savoir si : lorsque
esprance,
sens
de la liaison
COV (X, Y ) = 0
Page: 7
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
2 Coecient de corrlation
COV (X, X) = E{[X E(X)][X E(X)]}
= E{[X E(X)]2 }
= V (X)
>0
2.1.2 Proprits
Voici les principales proprits de la covariance (Note : essayez d'eectuer les dmonstrations partir
de la dnition et des proprits de l'esprance mathmatique).
1.
2.
E[X + Y ] =
E[X] + E[Y ])
3.
4.
5.
6.
et
sont indpen-
Il permet de se
rendre compte du sens de la liaison. Plus sa valeur est leve (en valeur absolue), plus la liaison est
forte. Mais nous ne savons pas quelle est la limite. Nous ne pouvons pas non plus comparer la covariance
d'une variable
et
Z.
2.1.4 Estimation
Sur un chantillon de taille
n,
n
Sxy =
i=1 (xi
x
)(yi y)
n
Page: 8
job: Analyse_de_Correlation
macro: svmono.cls
(2.3)
E[Sxy ] =
n1
n COV
(X, Y ).
date/time: 8-Mar-2015/7:21
2.1 Covariance
L'estimateur sans biais de la covariance
x
)(yi y)
=
n1
i=1 (xi
(X, Y ) =
COV
n
i=1
xi yi n
xy
n1
(2.4)
Dtails des calculs sur un exemple. Pour prciser les ides, dtaillons les calculs dans le tableur
EXCEL. Nous cherchons calculer la covariance entre la cylindre et la puissance de
28 vhicules (Figure
2.1) :
Fig. 2.1.
(xi yi ),
4451219.
Nous pouvons alors former la covariance empirique (formule 2.3), elle est gale
L'estimateur sans biais (formule 2.4) tant lui gal
s'amenuise mesure que l'eectif
19062.2063.
18381.4133.
augmente.
Comparaison de covariances.
lorsque les variables sont exprimes dans des units direntes. Nous souhaitons travailler sur un chier
de
28
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
10
2 Coecient de corrlation
Fig. 2.2.
La covariance empirique de la variable "consommation" avec les autres variables nous donne respectivement : cylindre =
1197.6 ;
puissance =
61.7 ;
poids =
616.3.
Bravais-Pearson
(ou de
COV (X, Y )
rxy =
V (X) V (Y )
COV (X, Y )
=
x y
(2.5)
(2.6)
Remarque 1 (Prcisions sur la notation). Dans ce qui suit, s'il n'y a pas d'ambiguts, nous omettrons les
indices
et
Y.
2.2.2 Proprits
1. Il est de mme signe que la covariance, avec les mmes interprtations.
Page: 10
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
et
11
maintenant.
3. Lorsque le couple de variables
avons l'quivalence
(X, Y )
r = 0 X
et
et
Y.
Il peut tre gal zro alors qu'il existe une liaison fonctionnelle entre les variables. C'est le cas lorsque
la liaison est non monotone.
5. La corrlation d'une variable avec elle mme est
rxx = 1.
1 r +1
(2.7)
Lorsque :
r = +1,
la liaison entre
fournit la valeur de
r = 1,
et
nous
(et inversement).
(quation 2.8) :
) 0 r +1
x
y
V(
Page: 11
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
12
2 Coecient de corrlation
Fig. 2.3.
)(yi y)
i=1 (xi x
n
2
)
i=1 (xi x
i=1 (yi
r = n
On parle de
y)2
(2.8)
r =
xi yi n
xy
yi2 n
y2
x2i n
x2
(2.9)
Nous pouvons calculer le coecient de corrlation sans disposer du dtail des observations, les quantits pr-calcules
Page: 12
x
, y,
xi yi ,
x2i
et
job: Analyse_de_Correlation
yi2
susent.
macro: svmono.cls
date/time: 8-Mar-2015/7:21
13
2.3.2 Interprtation
Le coecient de corrlation sert avant tout caractriser une relation linaire positive ou ngative.
Il s'agit d'une mesure symtrique. Plus il est proche de
r=0
(X, Y )
La valeur de
r n'a
r2 ,
coecient de dtermination, s'interprte comme la proportion de variance de Y (resp. X ) linairement explique par X (resp. Y ). On peut faire le rapprochement avec les rsultats produits avec la
3
rgression linaire .
Ainsi,
avec
r = 0.9,
r = 0.81,
81%
de la variance de
1.
page 90).
Il existe par ailleurs d'autres interprtations du coecient de corrlation de Pearson. Parmi les plus
intressants gure l'interprtation gomtrique qui assimile
de
observations
et
4.
cr
(resp.
cr
y)
les valeurs de
(resp.
Y)
cr
xi =
xi x
sx
1 cr cr
xi yi
n i=1
n
r =
(2.10)
En particulier, lorsque les donnes sont centres et rduites, covariance et corrlation empiriques sont
quivalents.
E[
r] = r
r(1 r2 )
2n
3. Voir http://fr.wikipedia.org/wiki/Rgression_linaire_multiple
4. Voir http://en.wikipedia.org/wiki/Correlation_coefficient
Page: 13
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
14
2 Coecient de corrlation
Pour cette raison, certains logiciels proposent un coecient de corrlation ajust
raj =
n1
(1 r2 )
n2
(2.11)
Bien entendu, l'ajustement est d'autant plus sensible que l'eectif est faible. Lorsque
raj
est lev,
r et
se confondent.
notre chier "voitures". Nous dtaillons les calculs dans la feuille EXCEL (Figure 2.4) :
Fig. 2.4.
102138444
et
(xi yi ), x2i
et
yi2 .
4451219,
197200.
5. Voir le parallle avec le coecient de dtermination ajust en rgression linaire multiple http://fr.
wikipedia.org/wiki/Rgression_linaire_multiple
Page: 14
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
514679.571
15
et le dnominateur =
543169.291.
Reste former le rapport, la corrlation entre la cylindre et la puissance est
r = 0.9475.
Nuage de points. Il y a une forte liaison linaire entre "cylindre" et "puissance", ce que conrme
le graphique nuage de points (Figure 2.5). On notera aussi, et le coecient de corrlation ne sait pas
traduire ces informations, que
Fig. 2.5.
La "Lancia K 3.0 LS" est une grosse cylindre, trs puissante. Elle s'carte du nuage certes, mais
elle est dans la ligne de la liaison entre les deux variables.
La "Hyundai Sonata 3000" est aussi une grosse cylindre, mais elle est relativement anmique. Le
point est un peu l'cart des autres, tout comme la Lancia, mais elle ne respecte pas, apparemment,
l'apparente liaison (visuelle et numrique) entre cylindre et puissance. Si on retire cette observation,
la corrlation est renforce, elle passe
0.9635.
0.892,
puissance =
0.888
et poids =
0.926.
La variable "consommation" est singulirement corrle avec l'ensemble des variables. Le lien avec
Page: 15
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
16
2 Coecient de corrlation
0?
Le test s'crit :
H0 : r = 0
H1 : r = 0
Remarque 2 (Autres hypothses alternatives). On peut vouloir dnir une hypothse alternative dirente
(H1
:r<0
ou
H1 : r > 0).
H0
Test exact. Le test tudi dans cette section est paramtrique. On suppose a priori
(X, Y )
6
suit une loi normale bivarie . Dans ce cas : la distribution sous
H0
que le couple
nous prsenterons plus bas est exacte ; le test de signicativit quivaut un test d'indpendance.
Test asymptotique. Cette restriction est moins contraignante lorsque n est susamment grand 7 . A
partir de
25
observations, l'approximation est bonne, mme si nous nous cartons (un peu) de la distri-
bution normale conjointe ([12], page 308). La distribution est asymptotiquement valable sous l'hypothse
r = 0.
(n 2)
(2.12)
1
r2
n2
degrs de libert.
Rgion critique. La rgion critique (rejet de l'hypothse nulle) du test au risque s'crit :
R.C. : |t| > t1 2 (n 2)
o
t1 2 (n 2)
2 de la loi de Student
(n 2)
Probabilit critique (p-value). Plutt que de comparer la statistique calcule avec la seuil thorique
p-value ) que l'on doit
fournie par la loi de Student, les logiciels proposent souvent la probabilit critique (
comparer au risque
que l'on s'est x. Si la p-value est plus petite, alors nous rejetons l'hypothse nulle.
6. Si (X, Y ) suit une loi normale bivarie, alors X et Y suivent individuellement une loi normale. En revanche,
ce n'est pas parce que X et Y sont individuellement gaussiens que le couple (X, Y ) l'est forcment. Enn, si X
ou Y n'est pas gaussien, le couple (X, Y ) ne l'est pas non plus.
7. Voir http://faculty.vassar.edu/lowry/ch4pt1.html et http://www2.chass.ncsu.edu/garson/PA765/
correl.htm#assume
Page: 16
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
17
= 0.05.
n = 28,
Nous avions
et
r = 0.9475.
t=
0.9475
10.94752
282
= 15.1171
= 0.05
est
Nous concluons donc au rejet de l'hypothse nulle c.--d. les rsultats que nous obtenons partir
des donnes ne sont pas compatibles avec une absence de corrlation. On s'en serait dout avec une
valeur aussi leve. A la dirence que maintenant, nous pouvons associer un risque la prise de
dcision.
r tend
n +, t
H0 : r = 0,
N (0;
n > 100,
la loi de
peut tre
distribution.
0,
il
faudrait connatre la distribution de la statistique de manire gnrique c.--d. quelle que soit la vraie
valeur de
dans la population.
r = 0,
15).
Pour remdier cela, il est conseill de passer par une transformation dite de Fisher.
z =
1 1 + r
ln
2 1 r
8. Il existe une approximation ([1], page 108) plus prcise de l'esprance E[z ]
lger biais, mais il devient trs vite ngligeable ds que n augmente.
Page: 17
job: Analyse_de_Correlation
(2.13)
macro: svmono.cls
1
2
ln
1+r
1r
r
2(n1)
. Il y a un
date/time: 8-Mar-2015/7:21
18
2 Coecient de corrlation
1 1+r
ln
2 1r
1
V [
z]
n3
E[
z]
(ds
n > 10
en pratique).
Nous pouvons nous appuyer sur cette statistique pour raliser le test de signicativit ci-dessus. Mais,
plus intressant encore, la transformation nous ore d'autres possibilits.
partir de
z en
r.
utilisant la relation
r =
e2z 1
e2z + 1
(2.14)
partir de
r (Equation
(1 )
2.13)
avec
z1,2 = z u
1
2
1
n3
(2.15)
(Equation 2.14)
Exemple numrique. Nous souhaitons calculer l'intervalle de conance de la corrlation entre cylindre et puissance pour un niveau de conance de
95%.
Rappelons que
L'cart type de
z est
gal
1
283
z =
1
2
est
u0.975 = 1.96
1+0.9475
ln 10.9475
= 1.8072
= 0.2
0.975
r = 0.9475.
selon le mme
z2 = 2.1992
e21.4152 1
= 0.8886
e21.4152 + 1
e22.1992 1
r2 = 22.1992
= 0.9757
e
+1
r1 =
95%
[0.8886 ; 0.9757]
Page: 18
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
19
r0 .
La loi
z0 =
1
2
1+r0
ln 1r
,
0
H0 : z = z0
La statistique du test
est
z z0
U=
= (
z z0 ) n 3
(2.16)
1
n3
Exemple : Corrlation cylindre - puissance. Nous souhaitons eectuer le test unilatral suivant
au risque
5%
H0 : r = 0.9
H1 : r > 0.9
Les tapes du calcul sont les suivantes
Nous calculons la valeur de rfrence transforme
Rappelons que
r = 0.9475
z = 1.8072
et
U = (
z z0 )
z0 =
Au risque
1+0.9
ln 10.9
= 1.4722
n 3 = (1.8072 1.4722)
1
2
28 3 = 1.6750
u0.95 = 1.6449
= 5%,
l'hypothse nulle n'est pas compatible avec nos donnes, nous acceptons
H1
1897
1985,
0.91
entre le revenu
national amricain et le nombre de tches solaires (les zones sombres du soleil, ce sont des zones moins
chaudes). Personne ne peut dcemment soutenir qu'il y a une relation quelconque entre ces
Page: 19
job: Analyse_de_Correlation
macro: svmono.cls
grandeurs.
date/time: 8-Mar-2015/7:21
20
2 Coecient de corrlation
en moyenne,
les hommes sont plus grands que les femmes, et inversement, les femmes ont
une chevelure plus longue que les hommes. Le sexe de la personne joue alors le rle de facteur confondant.
L'apparente liaison est un artefact li l'existence d'un facteur non matris.
Dans le cas o le facteur confondant est qualitatif, on dtecte facilement le problme en construisant
un nuage de points en distinguant les sous-groupes. tudions plus en dtail notre exemple "taille vs.
longueur de cheveux" chez les hommes et chez les femmes. Lorsque nous construisons le nuage de points,
nous constatons que le nuage des hommes se distingue du nuage des femmes (Figure 2.6). Globalement,
une liaison compltement factice apparat. La corrlation est
chez les femmes, il passe
Fig. 2.6.
r = 0.602
r1 = 0.074
r2 = 0.141
Nuage de points "taille vs. longueur des cheveux" - Hommes et femmes confondus
Lorsque le facteur est quantitatif, c'est un peu plus compliqu (exemple : vente de lunettes de soleil et
de crmes glaces, il n'y a pas de lien direct, c'est l'ensoleillement ou la temprature qui les font varier de
Page: 20
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
21
manire concomitante). Nous tudierons plus en dtail le calcul de la corrlation en contrlant les eets
d'une ou plusieurs tierces variables dans la partie consacre la corrlation partielle.
cativement des autres, on parle de points "aberrants" ou "atypiques", dans le sens o ils n'appartiennent
(vraisemblablement) pas la population parente.
Les raisons de l'apparition de ce type d'observations sont multiples : erreur lors du recueil des donnes
(exemple : une personne de
rellement dirent (exemple : un sportif tellement dop qu'il porte les records du monde des sommets
jamais atteints) ; etc.
Le positionnement de ces points par rapport au nuage global laisse croire (ou masque) l'existence
d'une liaison manifeste entre les variables. Il existe certes des techniques statistiques destines identier
automatiquement les donnes atypiques, mais force est de constater que des graphiques simples telles que
les nuages de points permettent souvent de dtecter rapidement les anomalies.
Fig. 2.7.
Dans un premier exemple (Figure 2.7), on note le positionnement totalement atypique de l'individu
numro
7. Si on l'utilise dans les calculs, le coecient empirique est 0.9976, trs proche de liaison linaire
0.0185.
Le point numro
Parfois, le point aberrant est particulirement sournois. Il est conforme au domaine de dnition de
et
Y . Mais sur la conjonction (X, Y ), il s'carte du nuage principal (Figure 2.8). Dans cet exemple, le point
et
9
dtection univarie des points atypiques sont totalement inoprantes ici. Il faut se tourner vers d'autres
procdures. Certaines sont lies la mthode statistique mise en oeuvre pour analyser les donnes
10 .
9. Voir http://tutoriels-data-mining.blogspot.com/2008/05/dtection-univarie-des-points-aberrants.
html
10. Pour la rgression multiple, il existe toute une panoplie d'indicateurs assez ecaces - Voir http://
tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html
Page: 21
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
22
2 Coecient de corrlation
Fig. 2.8.
r peut
nous induire en erreur sur l'existence et l'intensit de la relation entre les variables.
Liaison monotone. Lorsque la liaison est non linaire mais monotone, le coecient de corrlation
est certes peu adapt mais n'est pas compltement hors de propos : il donne des indications quant
l'existence de la liaison, mais il traduit mal son intensit.
Fig. 2.9.
Dans la gure 2.9, nous constatons visuellement l'existence d'une liaison fonctionnelle quasi parfaite
entre
et
Y,
c'est patent lorsqu'on relie les points. Pourtant le coecient de corrlation nous annonce
r = 0.7804, indiquant clairement qu'il y a une liaison certes, mais ne rendant pas compte de son intensit.
Nous verrons plus loin avec les indicateurs bass sur les rangs comment palier ce problme sans avoir
faire des manipulations compliques.
Liaison non monotone. Lorsque la liaison est non monotone, c'est la catastrophe : le coecient de
corrlation ne rend compte ni de l'intensit de la liaison, ni mme de son existence.
Dans la gure 2.10 (A), on constate immdiatement la forme parabolique de la relation. Pourtant le
coecient de corrlation nous indique
bien une liaison entre
Page: 22
et
Y,
rxy = 0.0118.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 2.10.
23
Linarisation par transformation de variables. Une solution vidente, surtout si l'on considre
l'exemple prcdent, est de proposer une transformation de variables de manire mettre en exergue
une relation linaire. Dans la gure 2.10 (B), si nous proposons une nouvelle variable
rlation mesure en est grandement modie
rzy = 0.990.
Z = X 2,
la cor-
particulirement forte.
Malheureusement, cette dmarche est dicile reproduire : la fonction de transformation adquate
n'est pas toujours vidente produire ; dans le traitement de gros chiers o nous avons manipuler
plusieurs dizaines de variables, le nombre de congurations expertiser est dissuasif.
Page: 23
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 24
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
3
Tests de comparaison de corrlations
Dans cette section sont runis quelques tests de comparaison de corrlations que l'on retrouve peu
souvent dans la littrature francophone et qui, pourtant, rpondent des problmatiques trs concrtes.
r1
(resp.
r2 )
s'crit :
H0 : r1 = r2
H1 : r1 = r2
Nous disposons de
chantillons de taille
n1
et
n2 .
D = z1 z2
Sous
H0 ,
r (et
par consquent
(3.1)
z)
E[D] = 0
V [D] =
Au risque
1
1
+
n1 3 n2 3
R.C. : U =
Page: 25
job: Analyse_de_Correlation
|
z1 z2 |
1
n1 3
1
n2 3
u1 2
macro: svmono.cls
date/time: 8-Mar-2015/7:21
26
Exemple numrique : comparer la corrlation taille - poids chez les hommes et chez
les femmes. Nous disposons d'un chantillon de n1 = 15 femmes, et n2 = 20 hommes (Figure 3.1).
Nous souhaitons tester l'galit du coecient de corrlation entre le poids et la taille dans les deux
sous-populations au risque de
Fig. 3.1.
5%.
U=
D = z1 z2 = 0.1045,
|0.1045|
0.1422
0.3652
0.3770
z1 = 0.6417
et
r1 = 0.5661
et
r2 = 0.4909
z2 = 0.5372
puis sa variance
V (D) =
1
153
1
203
= 0.1422
= 0.2771
0.975
u0.975 = 1.96
5%, les donnes sont compatibles avec l'hypothse nulle c.--d. le coecient
de corrlation entre le poids et taille n'est pas signicativement dirent chez les hommes et les
femmes.
Page: 26
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
3.2 Comparaison de K
(K 2)
27
sous-
22). Il s'agit bien souvent de comparer le mme coecient de corrlation sur plusieurs sous-populations.
Lorsque
K = 2,
nous vrierons cela sur le mme exemple que prcdemment (section 3.1).
H0 : r1 = r2 = = rK
L'hypothse alternative est "un des coecients au moins s'carte des autres".
La statistique du test s'crit :
(nk
k=1
o
nk
Fisher de
Sous
3)
zk2
K
[ k=1 (nk 3)
zk ]2
K
k=1 (nk 3)
rk
c.--d.
zk =
1
2
(3.2)
rk ; zk
est la transformation de
1+
rk
ln 1
rk .
21 (K 1)
Exemple numrique 1 : comparaison de la corrlation poids vs. consommation des vhicules de direntes origines. Nous souhaitons vrier, au risque de 5%, que la corrlation entre
le poids et la consommation des vhicules est la mme pour des vhicules en provenance de l'Europe
(France, Allemagne, etc.), du Japon, et des USA. Le chier est disponible sur le site DASL (Data and
Story Library) . Du chier original, nous avons supprim l'observation atypique (la fameuse Buick Estate
Wagon). Nous disposons pour chaque catgorie de vhicule de
n1 = 9 , n2 = 7
et
n3 = 21
observations.
Tous les calculs ont t mens dans une feuille EXCEL (Figure 3.2), en voici les dtails :
Pour chaque origine des vhicules, nous disposons des deux colonnes de donnes (Poids et Consommation).
Nous obtenons les coecients de corrlation empiriques
en
A=
113.6718.
La statistique du test est
Le quantile d'ordre
2 = C
A
B
= 0.1459.
1 = 95% de la loi du 2
Nos donnes sont compatibles avec l'hypothse nulle : les corrlations sont les mmes quelle que
soit l'origine des vhicules.
1. http://lib.stat.cmu.edu/DASL/Stories/FuelEfficientBuickWagon.html
Page: 27
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
28
Fig. 3.2.
De la mme manire, nous aurions pu calculer la probabilit critique du test (la p-value), elle est
gale
0.9297,
5%.
B = (15 3) + (20 3) = 29
2 = C
A
B
= 0.0768,
5%,
0.0768 = 0.2771.
On retrouve exac-
tement la valeur de la statistique du test bas sur la loi normale. Ce n'est gure tonnant, en eet
Page: 28
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
29
et
avec la variable
Y.
H0 : ryx = ryz
On peut vouloir construire un test unilatral (ryx
Dans ce cadre, le test
> ryz
ou
ou bilatral (ryx
= ryz ).
t de Williams est conseill ds lors que n est assez grand (n 20). La statistique
t = (
ryx ryz )
o
(n 1)(1 + rxz )
+ r2 (1 rxz )3
(3.3)
2 n1
n3 |R|
2
2
2
r = (
ryx + ryz )/2 ; |R| = 1 ryx
ryz
rxz
+ 2
ryx ryz rxz
(3 3)
(n 3)
degrs de libert.
Remarque 4 (X et Z sont orthogonaux). Nous remarquons que le degr du lien entre les variables X
inue sur les rsultats. Si
des corrlations
ryx
et
et
rxz = 0),
et
ryz .
5%,
la corrlation de la consommation (Y) avec la cylindre (la taille du moteur, X) est comparable
sa corrlation avec la puissance (Z). Nous sommes sur un test bilatral, on veut vrier si l'cart observ
est statistiquement signicatif.
Conformment la formule 3.3, nous construisons la feuille EXCEL (Figure 3.3) :
Notre eectif est
n = 28.
ryx = 0.8919
et
ryz = 0.8878.
l'cart observ est signicatif c.--d. transposable dans la population (H1 ) ou uniquement du aux
uctuations d'chantillonnage (H0 ).
Nous calculons la corrlation
rxz = 0.9475.
Page: 29
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
30
Fig. 3.3.
A = (
ryx ryz ) = 0.0041
2
2
2
|R| = 1 ryx
ryz
rxz
+ 2
ryx ryz rxz = 0.0191
r = (
ryx + ryz )/2 = 0.8898
C = (1 rxz )3 = 0.0001
t=A
B
2 27
25 0.0191+0.88980.0001
= 0.1448
5%, nos donnes sont compatibles avec l'hypothse nulle, la consommation est identique-
0.8861
H0 : rxy = rzw
H1 : rxy = rzw
Le test peut tre unilatral (c.--d.
ou
De prime abord, ce test parat assez trange. Est-ce que comparer des corrlations calcules sur des
concepts dirents a rellement un sens ? Prenons l'exemple des voitures, opposer la corrlation entre
Page: 30
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
31
la puissance et la consommation, d'une part, et la corrlation entre le poids et le prix, d'autre part, ne
parat pas trs pertinent.
On comprend mieux le sens de ce test la lumire de l'exemple propos par une des rares rfrences
qui le dcrit (voir [2], page 24). Pour un ensemble d'lecteurs, on calcule la corrlation entre les donations
et les intentions de votes, une anne donne, puis
d'un lien avant et aprs l'occurrence d'un vnement, qui peut tre simplement un certain dlai, mais qui
peut tre aussi une action particulire. Mais la notion d'appariement est plus large. Il y a eectivement
la situation "avant - aprs". Mais nous pouvons la dnir surtout comme des mesures eectues sur une
unit statistique : dans un mnage, mesurer et comparer une caractristique chez l'homme et la femme ;
X = 1, Y = 2, Z = 3
et
W = 4.
n 20.
r12
pour
rxy ,
ou
r34
pour
rzw ,
etc.
U = (
z12 z34 )
n3
2 2
s
(3.4)
avec
1+
r
ln 1
r,
z =
1
2
s =
r =
(1
r 2 )2 ;
r12 +
r34
;
2
= 0.5{[(
r13 r23 r)(
r24 r23 r)] + [(
r14 r13 r)(
r23 r13 r)] + [(
r13 r14 r)(
r24 r14 r)] + [(
r14
la transformation de Fisher ;
r24 r)(
r23 r24 r)]}
Une autre formulation est possible. Elle s'appuie sur l'ide que nous pouvons simplier l'expression
sous l'hypothse nulle d'galit des corrlations (voir [7], page 97).
Exemple : les donations au parti. Reprenons directement l'exemple dcrit dans l'ouvrage de Chen
et Popovich ([2], page 25). Il s'agit de tester, pour
n = 203
r12 = 0.3
et
r34 = 0.4.
|U | = 1.48
U = 1.48.
r = 0.35, = 0.3125
Au risque
5%,
et
s = 0.4059.
u0.975 = 1.96.
annes plus tard, le lien entre les intentions de vote et les donations n'a pas
volu signicativement.
2. Voir http://www.tufts.edu/~gdallal/paired.htm
Page: 31
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
32
compatible avec les donnes, essayer d'obtenir un rsum de l'information via une ACP serait vain .
Pour mesurer le lien entre les variables, le dterminant de la matrice des corrlations
Sous l'hypothse d'orthogonalit des variables,
|R| = 1
|R|
est calcul.
cipale sont nuls. Le principe du test consiste valuer dans quelle mesure l'on s'carte de cette situation
de rfrence
|R| = 1.
)
(
2p+5
ln(|R|)
= n1
6
2
Sous
H0 ,
(3.5)
p(p1)
degrs de libert.
2
n
p (nombre d'observations / nombre de variables) est infrieur
5.
Exemple : Traitement du chier "Consommation des automobiles" (Figure 2.2). Nous souhaitons tester la nullit des corrlations croises entre les
p=4
|R|
1,
principale. Nous constatons que les variables sont trs fortement lies entre elles (les valeurs sont
proches de
en valeur absolue).
|R| = 0.0025826,
proche de
0.
tutoriels-data-mining.blogspot.fr/2012/05/acp-sous-r-indice-kmo-et-test-de.html
Page: 32
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 3.4.
33
43
2
=6
2.067 1029 .
L'hypothse de sphricit - orthogonalit deux deux des variables - est trs largement incompatible
avec les donnes. On s'en doutait un peu rien qu'en regardant la matrice des corrlations ceci tant.
p = 2 dans
la statistique, nous tombons sur une expression qui est dirente du test de Student (section 2.4) ou du
test bas sur la statistique de Fisher (section 2.5). En eet, si
r est
variables :
)
(
2p+5
ln(|R|)
2 = n 1
6
(
)
22+5
= n1
ln(|R|)
6
1
= (2 n 5) ln(1 r2 )
2
Reprenons notre exemple de la section 2.4.2, nous avions
n = 28
et
r = 0.9475
entre la cylindre et
la puissance (Fichier "Consommation des automobiles", gure 2.2). En appliquant la formule simplie
ci-dessus, nous obtenons :
1
2 = (2 n 5) ln(1 r2 )
2
1
= (2 28 5) ln(1 0.94752 )
2
= 58.1733
Page: 33
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
34
H0 ,
2.4 10
14
p(p1)
2
2(21)
2
= 1
1
n3 . On
2
sait de plus qu'elle est distribue selon la loi normale. Son carr suit par consquent une loi du (1).
z.
La variance de
2s = (n 3)
zjk
2
zjk
(3.6)
k>j
Xj
et
Xk .
Sous
p(p1)
degrs de libert.
2
La procdure est indubitablement plus simple. Il nous vite de calculer le dterminant de la matrice
des corrlations, exercice toujours prilleux sur les ordinateurs.
Fig. 3.5.
Exemple : Reprenons notre exemple numrique du chier "Consommation des automobiles". Nous
calculons la matrice des corrlations transformes par la formule de Fisher (section 2.5). Puis nous formons
la statistique de test
2s
(Figure 3.5) :
2s = (n 3)
2
zjk
k>j
4.031068 .
On notera nanmoins que la valeur de la statistique de test est particulirement leve. Plus encore que
pour le test de Bartlett, nous devons tre trs prudent avec cet outil qui conclut quasi-systmatiquement
Page: 34
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
35
cortest.normal).
cortest.normal
section. La mthode est attribue Steiger (1980). Elle s'appuie sur le carr de l'cart entre les transformations de Fisher des corrlations calcules sur les
Soit
zm,jk
sous-populations.
dans la sous-population
rm,jk
Xj
et
Xk
(3.7)
k>j
n1
Sous
et
H0 ,
n2
les corrlations sont globalement identiques dans les deux sous-populations, la statistique
p(p1)
degrs de libert.
2
Exemple numrique : Nous souhaitons comparer les structures de corrlations entre les vhicules
asiatiques et europennes dans le chier "Consommation des automobiles" (Figure 2.2). Nous devons tout
d'abord scinder en 2 parties les donnes puis calculer les matrices des corrlations croises
les
R1
et
R2
dans
Nous distinguons
n1 = 10
automobiles asiatiques et
n2 = 18
lations semblent trs similaires globalement. Voyons si les calculs conrment cela :
Les matrices
Z1
et
Z2
exemple, pour le croisement entre la cylindre et la puissance chez les vhicules asiatiques, nous
avons (Figure 3.7) :
1 1 + 0.9422
ln
= 1.7571
2 1 0.9422
carr entre les z c.--d. pour
z1,12 =
La matrice
D2
correspond l'cart au
d212 = (
z1,12 z2,12 )2 = (1.7571 2.3846)2 = 0.3938
Nous sommons la partie triangulaire suprieure de la matrice :
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
36
Fig. 3.6.
Matrices des corrlations dans les sous-populations - Fichier "Consommation des automobiles"
c=
n1 n2
n1 +n2
= 6.4286
0.9584.
Au risque
5%,
p(p1)
2
43
2
= 6
degrs de libert.
cortest.jennrich 4 ).
La statistique de test s'crit :
4. On peut trs facilement obtenir le code source d'une fonction en introduisant son nom dans la ligne de
commande R. Une autre piste est de charger le code source du package sur le serveur CRAN et de le dzipper http://cran.r-project.org/web/packages/psych/index.html
Page: 36
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
37
Comparaison de 2 matrices des corrlations - Test de Steiger - Fichier "Consommation des automobiles"
Fig. 3.7.
2 =
1
tr(Z Z T ) diag(Z)T S 1 diag(Z)
2
(3.8)
O :
S = R2
c=
diag(Z)
H0 ,
c R1 (R1 R2 )
n1 R1 +n2 R2
;
n1 +n2
n1 n2
n1 +n2 ;
Z=
R=
(p 1).
p(p1)
degrs de libert.
2
Nous retranscrivons tous les calculs dans une feuille Excel pour le chier "Consommation des automobiles" (Figure 3.8). Sans rentrer dans les dtails, nous obtenons la sortie
de
0.6066
pour un
nulle au risque
Page: 37
2 = 4.5202
degrs de libert. Ici galement, les donnes sont compatibles avec l'hypothse
5%.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
38
Fig. 3.8.
Remarque : L'ide qu'il faut retenir de cette section est que nous disposons de deux tests qui reposent
sur la dirence entre les matrices des corrlations, soit sous leur forme native (R1
R2 )
(Jennrich), soit
via la transformation de Fisher (Z1 Z2 ) (Steiger). Ce qui, somme toute, est tout fait logique s'agissant
de la comparaison de corrlations.
Page: 38
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
39
trs souple : les tests restent valables pour les mesures de corrlation drives du coecient de Pearson,
mesures que nous dcrirons dans le chapitre 4 de ce support.
Page: 39
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 40
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4
Variations autour de la corrlation
Dans certaines situations, relatives au type des variables, ou conscutives une transformation des
variables, le coecient de corrlation est simpli. Son interprtation peut tre modie et/ou enrichie.
Dans cette partie, nous numrons quelques unes de ces variantes, les formules et les tests associes.
Puis nous montrons leur utilisation et leur interprtation sur un jeu de donnes.
Quelques rfrences pour cette partie, donnant un positionnement clair des direntes techniques,
sont les sites de Garson -
http://www.andrews.edu/~calkins/math/
edrm611/edrm13.htm
en anglais ) est
utilis pour mesurer la liaison entre une variable dichotomique (X pour xer les ides) et une variable
continue. La variable binaire peut l'tre naturellement (ex. sexe = H ou F) ou suite un dcoupage en
intervalles (ex. revenu, dcoup en
intervalles). Bien que dans ce second cas, son utilisation ne soit pas
2
trs recommande , on prfrera des indicateurs plus puissants (voir chapitre 4.2).
L'objectif est de mesurer l'association entre
cod
0/1,
et
X.
tant
se rend compte rapidement qu'il s'agit en ralit de la statistique de la comparaison de moyenne entre
chantillons indpendants. On cherche savoir si dans les sous-groupes dnis par
X, Y
est dirent en
moyenne.
La corrlation bisriale ponctuelle est dnie comme suit pour chantillon de taille
du premier groupe, et
n0
n, avec n1
individus
= n1 + n0 )
1. Voir http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1 pour la traduction des termes statistiques
2. Voir http://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient
Page: 41
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
42
rpb =
avec
y1
2
c.--d. sn1
et
y0
y1 y0
sn1
1
n1
i=1 (yi
y)
sn1
n1 n0
n(n 1)
(4.1)
tr
tr =
(n1 + n0 2)
degrs de libert
rpb
(4.2)
2
1rpb
n1 +n0 2
nous pouvons vrier si les moyennes sont signicativement direntes dans les sous-groupes. La statistique
tc
(n1 + n0 2)
degrs de libert
tc =
s
y1 y0
s
(4.3)
s2 =
A priori,
cette formulation est totalement quivalente celle base sur le coecient de corrlation.
4.1.4 Exemple
Nous voulons vrier la liaison entre le genre des personnes et leur taille. En d'autres termes nous
cherchons savoir si les hommes, en moyenne, sont plus grands que les femmes. Nous utilisons les donnes
dj traites dans la section 2.6.2, nous ne conservons que la taille (Figure 4.1). Nous allons travailler
en deux temps, tout d'abord en calculant le coecient de corrlation sur les donnes codes, puis en
mettant en oeuvre le calcul spcique sous forme de comparaison de moyennes. Les rsultats doivent tre
cohrents.
Dans les colonnes B et C du tableur, nous avons les donnes, puis les rsultats des calculs bass sur
le coecient de Pearson. Voici les dtails des calculs :
Les hommes sont cods
1, les femmes 0. En soi a n'a pas d'importance, mais il faudra s'en rappeler
3. http://en.wikipedia.org/wiki/Student's_t-test
Page: 42
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 4.1.
43
cela veut dire qu'en moyenne les hommes sont plus grands que les femmes.
Le graphique nuage de points conrme cette ide, le nuage des hommes est visuellement plus lev
que celui des femmes, la dispersion tant peu prs la mme dans les deux groupes.
Pour raliser le test de signicativit, nous calculons
n 2 = 33
degrs de libert.
tr = 6.4749.
5%,
2.4 107 ,
trs petite.
l'hypothse nulle, il n'y aucun lien entre le genre et la taille, n'est pas compatible
rpb
n0 = 15 femmes, et n1 = 20
hommes.
Les moyennes et carts type dans les sous-groupes sont respectivement (y
0
(s1
Page: 43
= 1.589, y1 = 1.733)
et
= 0.071, s0 = 0.061).
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
44
Nous en dduisons
Puis
tc =
1.7331.589
0.0005
190.0712 +140.0612 1
( 20
20+152
= 6.4749.
1
15 )
= 0.0005
tr
La distribution et les degrs de libert tant les mmes, la p-value du test et la conclusion associe
sont identiques.
biserial correlation
quantitative
et une variable
variable
doit tre issue d'un dcoupage en 2 intervalles d'une variable continue gaussienne (voir [2],
page 36 ; par exemple : poids bas ou lev, tension artrielle suprieure un seuil ou pas, etc.). Attention,
dans ce cas le codage de
La corrla-
tion mutuelle est plus restrictive, si la condition n'est pas respecte, l'infrence statistique est sujette
caution. En revanche, si la condition est remplie, la corrlation mutuelle est plus puissante c.--d. elle
dtectera mieux l'existence d'une relation entre
et
Y.
rb =
o
s2n1 =
n1 /n
1
n1
i (yi
y)2
y1 y0
n1 n0
2
sn1
n n1 /n
(4.4)
est l'ordonne de la fonction de densit de la loi normale centre rduite la coordonne gale
au quantile d'ordre
n1 /n
(ouf !).
est le principal
frein l'utilisation de cet indicateur, qui est trs peu prsent dans les logiciels. Essayons de dtailler la
dmarche sur un exemple que nous retrouverons dans la section suivante.
Soit
n1 /n = 23/28 = 0.8214.
0.8214
u0.8214 = 0.9208.
4. Nous viterons cette dnomination pour ne pas la confondre avec la corrlation bisriale ponctuelle (ah ces
linguistes je vous jure, hein..).
5. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
Page: 44
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
45
c.--d.
0.92082
1
= fN (0.9208) = e 2 = 0.2611
2
rb
peut
Test de signicativit.
de conance, nous pouvons utiliser l'arsenal dvelopp dans les sections 2.4 et 2.5, en substituant la
corrlation mutuelle au coecient de Pearson.
4.2.2 Exemple
Nous cherchons calculer la corrlation entre la cylindre dichotomise (X
> 1200, 0
de
= 1
lorsque cylindre
sinon) et la puissance (Y ). Dans les tudes relles, nous ne disposons que des valeurs binaires
X , nous n'avons pas les valeurs originelles qui ont servi construire X
n = 28, n1 = 23
n1 /n = 0.8214,
et
n0 = 5
0.8214,
soit
u0.8214 = 0.9208.
Nous calculons alors l'ordonne de la fonction de densit de la loi normale centre rduite cette
coordonne
fN (0.9208) = 0.2611
m1 = 87.43
et
sn1 = 32.2569,
puis
m0 = 33.00
Nous disposons maintenant de tous les lments pour former la corrlation mutuelle, nous obtenons
rb = 0.9481
Le
t=
rb
1
r2
b
n2
= 15.2016
La corrlation est trs hautement signicatif, la p-value est trs petite. Les donnes ne sont pas
compatibles avec l'hypothse de nullit du coecient.
1200
est malheureux, nous pouvons totalement masquer les informations importantes ou, pire, produire des
valeurs qui posent problme. Un coecient de corrlation suprieur
jeter le discrdit sur les techniques que l'on manipule. Il faut donc avoir de bonnes raisons pour eectuer
le dcoupage. Dans la plupart des cas, ce sont les contraintes du domaine ou les exigences de l'tude
qui le xent arbitrairement. Dans notre exemple, on pourrait avancer qu'au del de la cylindre
1200,
la
Page: 45
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
46
Fig. 4.2.
les calculs la rend particulirement puissante lorsque l'assertion est vraie. Dans la pratique, on se rend
compte qu'il y a une formule de passage entre les
rb = rpb
Page: 46
job: Analyse_de_Correlation
n1 n0 (n 1)
2n1 /n n3
macro: svmono.cls
(4.5)
date/time: 8-Mar-2015/7:21
4.3 Le coecient
47
Nous avons eectu plusieurs vrications pour notre exemple prcdent (Figure 4.2). Dtaillons les
rsultats :
En calculant le coecient de Pearson sur les donnes originelles (la variable
nous obtenons
r = 0.9475.
non dichotomise),
rb = 0.9481.
Il est quand
mme remarquable que cette dernire puisse reconstituer avec une telle prcision les rsultats en se
basant sur la variable dichotomise et une hypothse de normalit de la variable sous-jacente.
La corrlation bisriale ponctuelle, base uniquement sur la variable dichotomise, qu'importe qu'elle
soit intrinsquement qualitative ou non, sous-estime fortement l'intensit du lien. En eet, on obtient
rpb = 0.6582. Mme si elle reste signicative, elle est loin de traduire la liaison relle qui existe entre
les variables cylindre et puissance, vidente lorsque l'on construit le graphique nuage de points
associ (Figure 2.5).
En appliquant la formule de passage ci-dessus (quation 4.5), nous retrouvons exactement la valeur
de la corrlation mutuelle [la case
rb (vrication)].
n1 n0 (n 1)
1.25
2n1 /n n3
> rpb ).
Elle a
tendance mieux mettre en vidence les carts l'hypothse nulle. Cela n'est pas sans dangers, comme
nous le signalions plus haut, dans certaines situations
4.3 Le coecient
rb
1.
0/1.
Les variables peuvent tre dichotomiques par nature (sexe = H/F) ou dichotomises (dcoupage en
intervalles d'une variable continue). Dans ce dernier cas, il est moins puissant, on prfrera se tourner
vers la corrlation tetrachorique (section 4.3.3).
est de calculer le coecient de Pearson sur les variables codes 0/1. Aucune correction n'est
Calcul bas sur le tableau de contingence. Comme les variables sont censes tre dichotomiques
qualitatives c.--d. les modalits ne sont pas ordonnes. Nous pouvons laborer un tableau de contingence
Page: 47
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
48
et
Y.
Et calculer l'indicateur
6
mesures d'association entre variables qualitatives
Partons du tableau de contingence gnrique
Y,
les modalits de
en colonne celles de
22
X.
Y vs. X
1
0
Tableau 4.1.
Le coecient
1
a
c
0
b
d
Tableau gnrique 2 2
s'crit :
ad bc
=
(a + b)(c + d)(a + c)(b + d)
Le codage
ou
dtermine le signe de
(4.6)
Cela permet de dtecter les attraction ou les rpulsions entre les modalits.
au coecient de Pearson.
4.3.2 Exemple
Reprenons notre exemple de la puissance et de la cylindre (Figure 2.5). Les deux variables ont t
maintenant dichotomises, nous avons choisi le seuil
Ce faisant nous perdons de l'information car
jacentes. Nous essaierons de voir justement dans quelle mesure la perte d'information est prjudiciable.
Dtaillons notre feuille de calcul (Figure 4.3) :
Dans les colonnes C et D, nous avons les variables originales. En E et F, les variables dichotomises.
Dans la partie droite, sous le tableau de donnes, nous avons classiquement calcul le coecient
de Pearson sur donnes dichotomiques.Nous obtenons
t = 13.0.
r = 0.9309.
L'hypothse nulle d'absence de liaison n'est pas compatible avec les donnes.
Voyons maintenant la partie gauche. Nous avons form le tableau de contingence, puis partir de
la formule 4.6, nous avons obtenu
heureux.
Rappelons que la corrlation sur les variables continues originelles est
page en
intervalles des variables, nous retrouvons quand mme l'intensit de la liaison avec
6. Rakotomalala, R.,
r = 0.9309.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.3 Le coecient
Fig. 4.3.
49
Dans ce cas il y a peu de pertes d'informations. Ce n'est pas tonnant, les seuils ont t judicieusement
choisis, ils se rapprochent, peu prs, du barycentre du nuage de points (Figure 2.5). Si nous avions
choisi des seuils qui ne sont pas en correspondance, par exemple
puissance, nous aurions obtenu
r = 0.3523,
900
pour la cylindre et
100
pour la
donnes, en l'occurrence le choix des bornes lorsque l'on dcoupe les donnes, est donc trs important
pour ce type d'indicateur. Il faut faire trs attention. Mais a contrario, un choix judicieux des bornes
peut tre protable l'analyse. Si la relation est fortement non linaire, le coecient de Pearson sur
les variables originelles est fauss. Le dcoupage en intervalles peut aider mieux mettre en vidence
l'existence de la liaison.
Page: 49
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
50
Tetrachoric
une loi normale bivarie, on privilgiera le coecient tetrachorique qui est plus puissant (
coecient
7
en anglais ).
Ce coecient s'appuie sur l'hypothse de normalit sous jacente pour corriger le coecient
4.6).
Grosso modo,
(quation
distribution normale en intgrant de nouveau l'ordonne de la loi normale centre et rduite pour les
quantiles des proportions
a+b
a+c
8
n et n . Le calcul est loin d'tre trivial cependant , on peut avoir des
problmes lorsque l'on s'loigne trop de l'hypothse de normalit. Ce coecient est trs peu utilis dans
la pratique.
4.4
de Spearman
non para-
mtrique. L'infrence statistique ne repose plus sur la normalit bivarie du couple de variables (X, Y ).
Nous pouvons bien entendu mettre en oeuvre tous les tests mis en avant dans la section 2.5, y compris
ceux relatifs la comparaison de coecients.
4.4.1 Principe
L'ide est de substituer aux valeurs observes leurs rangs. Nous crons donc deux nouvelles colonnes
dans notre tableau :
Ri = Rang(xi ),
correspond au rang
9 de l'observation
xi
X;
et
Si = Rang(Yi ).
Le
de Spearman est ni plus ni moins que le coecient de Pearson calcul sur les rangs.
n
i S)
(Ri R)(S
= i=1
2
2
i (Ri R)
i (Si S)
Compte tenu de certaines proprits des rangs (par ex.
=
S = R
(4.7)
n+1
2 ; voir [3], pages 105 108), nous
n
12 i=1 Ri Si
3(n + 1)
=
n(n2 1)
n1
(4.8)
7. http://ec.europa.eu/comm/eurostat/research/index.htm?http://www.europa.eu.int/en/comm/
eurostat/research/isi/index_fr.htm&1
8. Voir http://ourworld.compuserve.com/homepages/jsuebersax/tetra.htm concernant les fondements et
les interprtations de la mesure ; voir http://lib.stat.cmu.edu/apstat/116 sur son mode de calcul dans les
logiciels de statistique
9. La plus petite valeur prend le rang 1, la plus grande le rang n
Page: 50
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.4 de Spearman
Enn, si nous dnissons
Di
telle que
Di = Ri Si
51
n
6 i=1 Di2
= 1
n(n2 1)
(4.9)
a des ex-aequo dans les donnes, surtout s'ils sont assez nombreux. Nous reviendrons en dtail sur
les corrections introduire plus loin (section 4.4.5).
Le
de Spearman est une variante du coecient de Pearson, il en reprend les proprits essentielles,
savoir :
1 +1 ;
il prend la valeur
4.4.2 Un exemple
Fig. 4.4.
Nous reprenons notre exemple du lien entre la taille et le poids. Nous avons modi les donnes de
manire viter les ex-aequo :
Nous avons tout d'abord form le nuage de points. Il semble y avoir une liaison entre les
Le coecient de corrlation de Pearson est de
r = 0.58452.
Page: 51
job: Analyse_de_Correlation
2 variables.
macro: svmono.cls
Ri
et
Si
date/time: 8-Mar-2015/7:21
52
= 0.61786
= 0.61786.
214.
Ri Si ,
Di
Ri Si = 1133.
= 0.61786
Di2 .
La somme
Di2 =
20
de Student lorsque
est de l'ordre
30
t=
12
n2
U=
1
n1
n > 35
n1
Les valeurs de
ordre d'ide. Les ouvrages divergent ce sujet, Dodge et Rousson rapportent que l'approximation normale
sut ds que
n > 10
(voir [3], page 107) ; Siegel et Castellan, eux, rapportent qu'on peut s'appuyer sur
est autour de
20
25
(4 n 10),
spciques pour les tests de signicativit (voir la table 24 dans [1] ; la table Q dans [11] ; ou
http:
//www.sussex.ac.uk/Users/grahamh/RM1web/Rhotable.htm).
Exemple numrique.
Nous avons mis en oeuvre les deux approximations dans notre exemple ci-
0.02079
pour le second. Les rsultats ne sont gures dirents au nal, ils aboutissent
5%.
privilgi ds que l'on eectue des traitement automatiss. Il vite bien des cueils qui faussent souvent
les valeurs produites par le coecient de Pearson.
Page: 52
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.4 de Spearman
53
Test non paramtrique. Il est non paramtrique, il n'est donc pas ncessaire de faire des hypothses
sur les distributions sous-jacentes de
et
Y.
(X, Y )
normale bivarie, il est quasiment aussi puissant que le coecient de Pearson. Les deux indicateurs
proposent des valeurs similaires, il est ds lors possible d'interprter le carr du coecient de Spearman
en termes de variance explique.
de Spearman peut traiter les variables intrinsquement ordinales : un indice de satisfaction, une
apprciation ou une note attribue, etc. L'infrence statistique (tests, intervalles de conance) n'est pas
modie.
Liaison monotone non linaire. Trs intressant dans la pratique, le de Spearman peut caractriser d'une liaison non-linaire monotone, la dirence du coecient de Pearson qui ne retranscrit que
les relations linaires. Cela nous vite d'avoir eectuer le choix douloureux de la fonction de transformation lors de la tentative de linarisation de l'association. La transformation par les rangs est susamment
gnrique pour que l'on puisse rendre compte de l'existence d'une liaison monotone.
De manire gnrale, une forte disparit entre
la relation entre
et
et r devrait
Y.
Fig. 4.5.
Reprenons l'exemple illustratif de la section 2.6 (Problmes et cas pathologiques). Rappelons nous,
malgr une liaison visuellement vidente, le coecient de Pearson nous annonait une corrlation
0.7804.
r =
Nous avons remplac les valeurs initiales par les rangs, puis nous avons calcul le coecient de
Spearman, la liaison parfaite est maintenant bien dtecte (Figure 4.5). Ceci s'explique en partie par le fait
que
le passage aux rangs symtrise les distributions. En eet, dans notre exemple, la distribution
Le
de Spearman a quand mme des limites. Lorsque la liaison est non monotone, il n'est pas oprant.
Il faut se tourner vers une transformation de variable spcique inspire par le graphique nuage de points
ou utiliser un indicateur adapt tel que le rapport de corrlation (section 4.6).
Page: 53
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
54
Fig. 4.6.
Reprenons l'exemple prsent plus haut (section 2.6, gure 2.7). Nous avions not que le coecient
de Pearson pouvait tre fortement aect par l'existence d'un point extrme. Nous avons transform
les donnes en rangs, ce faisant nous avons liss les carts entre les valeurs. Nous calculons
semble des observations, nous obtenons
signicativement dirent de
0,
avec
= 0.39286,
t = 0.95526
sur l'en-
et une p-value
= 0.38332.
et
Y.
X.
Y.
Rangs moyens. Lors de la transformation des donnes en rangs, nous devons tenir compte maintenant des ex-aequo. Pour un chantillon de taille
Remarquons que si
G = n,
n,
valeurs direntes.
cela veut dire qu'il n'y pas d'ex aequo dans nos donnes.
Au dpart nous aectons les rangs aux observations selon la procdure habituelle. Dans un deuxime
temps, nous eectuons un nouveau passage sur les donnes, nous attribuons aux individus portant des
valeurs identiques la moyenne des rangs associs.
Prenons un petit exemple pour dtailler cela (Figure 4.7). Nous avons
la valeur de
X.
12
d'EXCEL. Nous notons que plusieurs observations ont des valeurs identiques (A,B), (D,E,F) et (J,K)
10 .
Nous eectuons un second passage sur les donnes, nous calculons et attribuons la moyenne de leur rangs
10. La procdure est totalement gnrique bien sr, nous pouvons avoir 10 valeurs identiques
Page: 54
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.4 de Spearman
Fig. 4.7.
55
aux individus portant les mmes valeurs. Ici, A et B ont la mme valeur, ils portent respectivement les
rangs
et
2,
4+5+6
calcul
3
Facteur de correction.
1+2
2
= 1.5.
= 10.5.
Tx ,
distinctes parmi les rangs moyens, pour chaque valeur nous comptons son nombre d'apparition
produisons alors la quantit
de mme pour
Ty ,
Tx
valeurs
tg .
Nous
Y)
Tx =
(t3g tg )
(4.10)
g=1
Reprenons notre exemple ci-dessus (Figure 4.7). Nous avons
du rang moyen, nous associons le nombre d'occurrence
Tx = 36
tg .
n = 12
et
G = 8.
(Figure 4.8).
Fig. 4.8.
Coecient de Spearman corrig. Enn, il nous faut introduire le facteur de correction dans le
calcul du
n
(n3 n) 6 i=1 d2i (Tx + Ty )/2
=
(n3 n)2 (Tx + Ty )(n3 n) + Tx Ty
Page: 55
job: Analyse_de_Correlation
macro: svmono.cls
(4.11)
date/time: 8-Mar-2015/7:21
56
et en
Y,
nous aurons
Tx = Ty = 0,
la formule 4.11
Di = R i
=
Fig. 4.9.
Y.
Ty = 0
Si ,
nous
= 0.5442
Remarque 11 (Traitement des ex-aequo pour le coecient de Pearson sur les rangs).
signalions plus haut, il est possible d'obtenir le
de Spearman en calculant le
Comme nous le
Avec cette stratgie, lorsqu'il y a des ex aequo dans les donnes, nous utilisons toujours le principe des
rangs moyens. En revanche il n'est pas ncessaire de corriger le coecient obtenu
ci-dessus (Figure 4.9), si nous appliquons la formule de la corrlation empirique (Equation 2.8) sur les
colonnes des rangs moyens
4.5
et
S,
= 0.5442.
de Kendall
Le
de Kendall n'est pas proprement parler une variante du coecient de Pearson. On n'applique
pas la formule sur des donnes recodes. Il repose sur un principe trs dirent, il s'interprte galement
de manire dirente. Nous le prsentons dans ce support car il est trs largement dius, et certains
auteurs s'accordent dire qu'il est meilleur que le
de Spearman
polmique. En revanche, nous ne pouvons pas passer ct de cette mesure, d'autant plus qu'elle est
aussi non paramtrique.
11. http://en.wikipedia.org/wiki/Spearman's_rank_correlation_coefficient
12. Voir par exemple http://www.rsscse.org.uk/ts/bts/noether/text.html ; voir aussi [6], page 332
Page: 56
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.5 de Kendall
57
Le
de Kendall est dni pour mesurer l'association entre variables ordinales, typiquement des clas-
sement (ou rangs) aects par des juges. Son champ d'application couvre donc parfaitement celui du
de Spearman.
Le coecient de Kendall repose sur la notion de paires discordantes et concordantes
1. On dit que les paires observations
ou (xi < xj
alors
yi < yj ).
et
alors
> xj
alors
yi > y j )
yi < yj )
ou (xi < xj
alors
yi > yj ),
en
> xj
13 :
n, soit P
(resp.
P Q
1)
(4.12)
1
2 n(n
1
n(n 1) =
2
( )
n
2
Remarque 12 (Donnes continues, donnes ordinales). Notons qu'il est possible de calculer directement
sur des donnes continues (X et
de Kendall
s'applique naturellement aussi lorsqu'une des variables est continue, l'autre ordinale.
Interprtation. Le
(ou
Y , = 1;
classements
concorde systmati-
= 1 ;
enn, si les
= 0.
de Spearman, le
= 0,
de Kendall thorique, calcul sur la population, est dni par (voir [9], 138)
(4.13)
Calcul pratique. La manire la plus simple de calculer est de trier les donnes selon X , puis de
comptabiliser la quantit suivante
13. http://en.wikipedia.org/wiki/Concordant_pairs
Page: 57
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
58
S=
n1
ij
i=1 j=i+1
o
+1 , si y < y
i
j
ij =
1 , si yi > yj
(4.14)
et
i =
ij
j=i+1
i.
S est donc l'cart entre le nombre total de paires concordantes, et le nombre total de paires discordantes
c.--d.
S = P Q.
S
1
2 n(n
1)
2S
n(n 1)
(4.15)
Un exemple. Dtaillons les calculs sur exemple. Nous limitons les eectifs n = 6 car les calculs
deviennent rapidement inextricables. Nous mettons en relation la taille et le poids des
plus petits
individus du chier (Figure 4.4). Les donnes sont tries selon la taille, nous allons calculer les quantits
ij , i
et
(Figure 4.10).
Fig. 4.10.
Nous trions les individus selon leur taille (X ). De fait, puisque nous ne grons pas les ex aequo
ce stade,
j > i xj > xi .
Pour l'individu
no 1
avec (X
= 1.496)
et surtout (y1
= 67.585),
1".
1j = +1
1,j ) 1.
C'est la
On observe :
y2 = 58.068 < y1 12 = 1
l'individu
n 2
l'individu
n 3
y3 = 55.000 < y1 13 = 1
l'individu
y4 = 71.668 > y1 14 = +1
n 4
(resp.
etc.
Page: 58
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.5 de Kendall
Pour aboutir la somme
59
no 2
etc.
Nous pouvons ainsi former la somme
S=
c.--d.
n1
i=1
2 (1)
= 0.0667
6 (6 1)
n>8
n > 10
et
Y.
U=
2(2n+5)
9n(n1)
= 3
H0 .
n(n 1)
2(2n + 5)
(4.16)
s'crit
|U | > u1 2
Un exemple. L'approximation est bien videmment mauvaise (n = 6) pour notre exemple ci-dessus
(Figure 4.10). Nous allons quand mme l'utiliser pour illustrer simplement la dmarche. Rappelons que
= 0.0667.
Nous obtenons
avec
U = 3 (0.0667)
En comparant
|U |
6(6 1)
= 0.1879
2(2 6 + 5)
u0.975 = 1.96,
et
Y.
de Kendall et
de Spearman sont tous les deux des coecients de corrlation de rangs. Ils reposent
sur les mmes hypothses et exploitent les mmes informations, il est logique qu'ils aient une puissance
similaire (la capacit dtecter juste titre l'hypothse
prtation des valeurs proposes par les statistiques :
explique, l'instar du coecient de Pearson,
H1 ).
14 .
Il y a cependant une relation entre les valeurs estimes, on montre que (voir [11], page 251) que
1 3
2
+1
14. http://www.unesco.org/webworld/idams/advguide/Chapt4_2.htm
Page: 59
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
60
Enn, lorsque le (X, Y ) suit une loi normale bivarie, nous avons la relation (voir [9], page 138)
2
arcsin
Calcul de
ij .
ramnager la quantit
ij
ij = 0
si
(xi = xj )
ou (yi
S,
= yj ).
Ey
de
Gx = n,
Y)
n,
nous devons
pour
( la
X,
Gx .
Si
xg
de
Le facteur de correction
X,
Ex
tg .
s'crit alors
Ex =
Gx
tg (tg 1)
(4.17)
g=1
Ex = 0
Ex
d'ex-aequo.
Coecient de Kendall corrig. Il faut maintenant introduire les facteurs de corrections pour les
donnes comportant des ex-aequo
2S
n(n 1) Ey
n(n 1) Ex
(4.18)
n=8
observations.
Page: 60
job: Analyse_de_Correlation
X.
macro: svmono.cls
date/time: 8-Mar-2015/7:21
4.5 de Kendall
Fig. 4.11.
Il y a
Gx = 5
1; 14 : 1).
valeurs distinctes de
X,
Y.
S.
(x1
= 6.5; y1 = 8.5).
Il a
(6.5 : 1; 9 : 2; 12 : 3; 13 :
Ex = 8 .
Gy = 6
Ey = 4.
no 1
avec
n 2
n 3
61
y2 = y1 12 = 0
y2 = 6.5 < y1 13 = 1
Etc.
Pour l'individu
no 1,
1 = 4
n 3
de
n 4
x2 = 9 = x1 23 = 0 ;
no 2
avec (x2
= 9; y2 = 8.5)
x4 = 12 > x2
et
y4 = 11 > y2 24 = +1
Etc.
Pour l'individu
no 2,
nous obtenons
2 = 5
S = 19
2 19
=
= 0.76061
8(8 1) 8 8(8 1) 4
Pour tester la signicativit du coecient, nous utilisons l'approximation normale
U = 3 0.76061
La p-value est
0.00842.
Au risque
5%,
8(8 1)
= 2.63483
2(2 8 + 5
recteur expriment et un correcteur novice. Mieux mme, puisque nous pouvons interprter le
Page: 61
job: Analyse_de_Correlation
macro: svmono.cls
de
date/time: 8-Mar-2015/7:21
62
76.06%
relation tudie. En particulier, il permet de rendre compte de la liaison mme si elle est non monotone.
16 est une
mesure asymtrique,
lorsque
prend la valeur
esprance
X = x,
c.--d.
E[Y /X = x] = a X + b.
Dans le cas du rapport de corrlation, nous estimons directement cette quantit partir des observations. Cela suppose, et c'est la principale limite de cette mesure, que l'on dispose de plusieurs observations
de
Le
de
X.
explique par
et la variabilit totale de
Y.
2
y/x
=
(4.19)
2
2
Domaine de dnition. Le rapport de corrlation 17 y/x
est dni sur l'intervalle 0 y/x 1.
Lorsqu'il est gal
La moyenne de
0,
1,
la connaissance de
de
Y.
X.
permet de dterminer avec certitude la
Y.
Le rapport de corr-
lation a une porte plus large que la simple alternative pour mesurer une liaison non linaire entre 2
variables quantitatives. Nous constatons dans la dnition ci-dessus (formule 4.19) qu' aucun moment
nous faisons rfrence au caractre ordonn de
X . De fait,
15. en anglais, coecient of nonlinear relationship, ou eta coecient, ou encore eta correlation ratio
16. Voir http://biblioxtrn.uqar.qc.ca/stat/Fichesstat/multivariable/quanti/rapport.htm
17. Voir http://nte-serveur.univ-lyon1.fr/nte/immediato/math2002/Mass11/cours/chapitr3d.htm
Page: 62
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
prend
63
2
y/x
avec
nk
K
yk y)2
k=1 nk (
=
n
)2
i=1 (yi y
X = xk , yk
(4.20)
la moyenne de
lorsque
X = xk .
non explique
K
2
y/x
=1
nk
nk i=1
(yi
k=1
n
(y
y)2
i=1 i
c.--d.
xk+1 > xk .
xk .
yk )2
(4.21)
importante. C'est le prix payer pour ne pas avoir faire d'hypothses sur la forme de la relation.
On voit bien la limite de l'indicateur dans cette nouvelle formulation. Si nous ne disposons que d'une
K = n, nk = 1, k
et
yi = yk . Le rapport de corrlation
et
c.--d.
Y.
(dose du mdicament).
de
nombre d'observations dans chaque groupe. Dans ce cas, le choix des bornes des intervalles est dterminant. Si elles sont mal dnies, des informations primordiales peuvent tre masques. A l'extrme,
si on ne prend qu'un seul intervalle qui va du minimum au maximum, on ne pourra rien en tirer.
sont censs mesurer le lien entre deux variables, la dirence que le premier fait l'hypothse de la
linarit de la relation. On peut noter alors quelques relations importantes entre
De manire gnrale,
2
2
y/x
rxy
.
On le comprend aisment,
2
rxy
et
2
y/x
2
2
taire, l'hypothse de linarit, pour mesurer la liaison. On peut d'ailleurs utiliser l'cart (y/x rxy )
pour valuer le caractre linaire de la relation.
r 2 = 1 2 = 1,
= 0 r = 0,
La valeur
xk
c.--d.
xk = yk ,
alors
2
2
y/x
= rxy
(voir
Page: 63
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
64
facteur
2
H0 : y/x
=0
2
H1 : y/x
>0
Est quivalent
20
H0 : 1 = = K
H1 : une au moins diere des autres
Sous l'hypothse nulle, et sous condition que les distributions conditionnelles soient gaussiennes et de
homoscdasticit ) 21 , la statistique :
F =
Suit une loi de Fisher
Pour un risque
2
K1
1
2
nK
(K 1, n K)
nK
2
K 1
1 2
(4.22)
degrs de libert.
R.C. : F > F1 (K 1, n K)
o
F1 (K 1, n K)
de la loi de Fisher (K
1, n K)
degrs de
libert.
4.6.3 Un exemple
Nous essayons de vrier, au risque de
10%,
n = 43
43
classique en calculant le coecient de Pearson (Figure 4.12, colonnes A et B de la feuille de calcul). Nous
obtenons :
Le coecient de corrlation empirique est
r = 0.01876,
18.
19.
20.
21.
22.
son carr
de Student,
r2 = 0.00035
t = 0.12016
http://spiral.univ-lyon1.fr/mathsv/cours/pdf/stat/Chapitre9.pdf
Le rapport de corrlation est toujours positif ou nul, le test est forcment unilatral.
k = E[Y /X = xk ], la moyenne conditionnelle thorique
l'ANOVA est quand mme bien robuste par rapport ces hypothses
Les donnes sont ctives, que le lecteur mdecin ne s'aole pas.
Page: 64
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
10%,
65
0.90493
il semble patent qu'il n'y a aucun lien entre les deux variables. On peut fumer
en paix.
Fig. 4.12.
S'arrter ce stade serait une grave erreur, un petit graphique mettant en relation les deux variables
claire la relation sous un autre jour. Calculons maintenant le rapport de corrlation (Figure 4.12, colonnes
D F de la feuille de calcul) :
Dans le graphique, on se rend compte que pour chaque valeur de
dant sont assez dcals. Impression conrme par les moyennes conditionnelles en rouge que nous
Page: 65
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
66
n1 = 6
et
X.
X = 1,
nous avons
y1 = 6.45
n = 43
et la moyenne
y = 6.87.
B = 2.63695
2 =
B
T
T = 13.70647
prcdemment. Si liaison il y a, elle n'est absolument pas linaire en tous les cas.
Voyons justement ce qu'il en est de la signicativit. Nous formons la statistique F (quation 4.22),
elle est gale
Pour un risque
F = 2.26307.
= 0.1,
nous la comparons
0,
Au risque
= 10%,
le rapport
0.08032.
Il y a donc bien un lien entre la consommation de cigarettes et le risque de leucmie, mais la liaison
est assez complexe. On a des srieux problmes quand on en consomme
Page: 66
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Partie II
Page: 67
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 68
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
5
Corrlation partielle paramtrique et non paramtrique
variables,
laissant penser tort l'existence (ou l'absence) d'une liaison. On parle de facteur confondant (voir
section 2.6,
loufoques de corrlations numriquement leves, mais qui ne rsistent pas une seconde l'interprtation :
Corrlation entre les ventes de lunettes noires et les ventes de glaces (c'est pour ne pas voir les
calories qu'on engoure...). Il faut surtout y voir l'eet de la chaleur ou de l'ensoleillement.
Corrlation entre le nombre d'admissions l'hpital et les ventes de glaces (a y est, les calories ont
encore frapp...). Encore une fois, la canicule y est pour quelque chose peut tre.
Corrlation entre la longueur des cheveux et la taille des personnes (et oui, on compense comme on
peut...). On a mlang les hommes et les femmes dans les donnes. En moyenne, les hommes sont
plus grands que les femmes avec,
Corrlation entre le prix des voitures et leur consommation (tant qu' payer, autant le faire
vitam
ad
...). Les voitures luxueuses, chres, sont aussi souvent de lourdes grosses cylindres. Toute la
et
r dans chaque groupe du point de vue numrique, et de distinguer explicitement les groupes dans
le graphique nuage de points (Figure 2.6 par exemple pour la corrlation taille et longueur de cheveux).
Page: 69
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
70
retrancher de
et
Z,
et
http://www2.chass.ncsu.edu/garson/pa765/partialr.htm)
Fig. 5.1.
X, Y
et
Y,
(Figure 5.1).
tion partielle lorsque l'on souhaite faire intervenir une ou plusieurs variables de contrle : plus prcisment,
corrlation partielle d'ordre
lorsque l'on a
variables de contrle.
1. Dans les sciences exprimentales o nous contrlons la production des donnes, nous pourrions, pour chaque
valeur de Z , rpter l'exprimentation de manire recueillir plusieurs observations (xi , yi ). On retrouve ainsi le
schma de la variable de contrle discrte. Mais dans les sciences sociales, souvent le triplet (xi , yi, zi ) est unique
dans le chier, la seule solution est de passer par la corrlation partielle.
Page: 70
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
71
Corrlation (mme partielle) n'est toujours pas causalit. Prcisons encore et toujours qu'il s'agit toujours l de procdures numriques destines mesurer l'existence et
l'intensit d'une liaison. La corrlation partielle ne droge pas cette rgle. La mise en
vidence d'une ventuelle causalit ne peut et ne doit reposer que sur les connaissances du
domaine. En revanche, et c'est pour cela qu'elle peut tre trs bnque dans une analyse,
la corrlation partielle peut permettre de clarier la relation qui existe (ou qui n'existe pas)
entre
variables.
le coecient partiel, sauf s'il y a ambigut, auquel cas nous indiquerons les indices adquats.
Concernant la transformation de Fisher, pour viter la confusion avec la (ou les) variable(s) de contrle,
nous la noterons
f.
de Pearson. Les hypothses relatives l'infrence statistique restent de mise ici, on postule notamment
que la distribution de (X, Y ) conditionnellement
Fort heureusement, les proprits asymptotiques sont conserves. Il n'en reste pas moins que le coecient
partiel ne caractrise que les relations linaires.
rxy.z
rxy.z =
2
2
1 rxz
1 ryz
(5.1)
L'ide est assez limpide, on retranche de la relation directe (X, Y ) les relations respectives de
avec
que
Z.
vs.
et
vs.
Z)
et
1 rxy.z +1
Remarquons plusieurs rsultats intressants. Pour xer les ides, sans que cela ne rduise la porte
du propos, nous dirons que
Lorsque
rxy > 0
est indpendant de
X
X
et
et
(rxz
et
Y,
Page: 71
le produit
d'une part,
ne pse en aucune
il n'y a rien dans la relation (X, Y ) qui ne soit pas dj explique par
c.--d.
et
c.--d.
on constate que
job: Analyse_de_Correlation
rxy.z 0
rxz > 0
et
macro: svmono.cls
date/time: 8-Mar-2015/7:21
72
estimation
L'
rxy.z =
2
2
1 rxz
1 ryz
(5.2)
Z?
Fig. 5.2.
et
dj, nous constatons que la variable de contrle est fortement lie avec
ryz = 0.89187.
X
et
D'ores et
Y.
Page: 72
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
73
est indpendant de
conditionnellement
Z.
avec les proprits asymptotiques, le test permet quand mme d'prouver la nullit du coecient.
L'hypothse nulle du test, qui peut tre bilatral ou unilatral, s'crit
H0 : rxy.z = 0
Sous
H0 ,
la statistique du test
t=
suit une loi de Student (n
Pour un risque
3)
(5.3)
1
r2
n3
degrs de libert.
t1/2 (n 3)
1 /2
de la loi de Student (n
3)
degrs de libert.
n 3 = 28 3 = 25 ;
t = 1.54673 ;
= 5%,
0.
Intervalle de conance. La distribution du test est uniquement valide dans le voisinage rxy.z = 0.
Pour laborer l'intervalle de conance au niveau (1
),
f=
Page: 73
job: Analyse_de_Correlation
1 1 + rxy.z
ln
2 1 rxy.z
macro: svmono.cls
date/time: 8-Mar-2015/7:21
74
f2 =
1
1
=
n13
n4
(5.4)
Dans notre exemple (Figure 5.2), nous souhaitons construire l'intervalle de conance
Nous calculons la transformation de Fisher
975%
est
f =
f=
1
283
1
2
1+0.29553
10.29553
ln
95%
= 0.30461
= 0.20412
u0.975 = 1.95996
est
(resp.
bbr =
e2(0.09546) 1
e2(0.09546) +1
= 0.09517
(resp.
bhr = 0.60734).
0,
r.
(p > 1)
5.3.1 Dnition
La corrlation partielle d'ordre
troduire plusieurs variables de contrle. Dans notre exemple des voitures (Figure 2.2), nous savons pertinemment que le "poids" est un aspect important que la consommation. Nous souhaitons galement
annuler son ventuelle action dans la relation "consommation" - "puissance".
Comment estimer la corrlation partielle
rxy.z1 z2 ...zp ?
Calcul rcursif
On montre qu'il est possible de calculer les corrlations partielles d'ordre
partielles d'ordre
p.
On utilise pour cela la formule de passage suivante, qui n'est pas sans rappeler
(5.5)
2. voir
http://en.wikipedia.org/wiki/Partial_correlation ;
http://www.stat.psu.edu/online/
development/stat505/07_partcor/06_partcor_partial.html
Page: 74
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
rxy.z1 z2 =
2
2
1 rxz
1 ryz
2 .z1
2 .z1
75
(5.6)
Si l'criture est simple, le calcul est assez complexe. En eet, pour obtenir la corrlation partielle
d'ordre
p,
nous devons dans un premier temps calculer les corrlations brutes de toutes les variables
(p+1)
2
z1 ,
puis la seconde
z2 ,
Exemple : Mesurer la relation "puissance (X ) - consommation (Y )" en contrlant "cylindre" (Z1 ) et "poids" (Z2 ) - Approche no 1. Corsons notre aaire de voitures en introduisant 2
variables de contrle. Nous voulons produire le rsultat partir de l'quation 5.6. La squence des calculs
est la suivante (Figure 5.3) :
Fig. 5.3.
Page: 75
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
76
0.9263,
etc. C'est l'objectif de la matrice "Corrlations brutes croises" dans la partie basse de la
feuille EXCEL.
Ensuite, nous devons calculer toutes les corrlations croises d'ordre
de variable de contrle. Nous obtenons
1 o Z1
et
(cf. la
rxy.z1 z2 =
Z2
= 0.25309
1 0.68782 1 0.16632
Il n'y a plus qu'un seul chire dans la matrice "Corrlations partielles /Z1,Z2", nous sommes arrivs
au bout du processus rcursif.
Tant que le nombre de variables reste faible, ce processus est intressant, surtout pdagogiquement.
Lorsqu'il devient lev, nous utilisons une autre approche, plus ecace, plus directe, pour obtenir la
valeur de la corrlation partielle d'ordre
p.
et
explique par les variables de contrle. En prenant au pied de la lettre cette description, on s'attache
calculer le rsidu
partielle d'ordre
ex
p
(resp.
ey )
de la rgression de
(resp.
Y)
(5.7)
Exemple : Mesurer la relation "puissance (X ) - consommation (Y )" en contrlant "cylindre" (Z1 ) et "poids" (Z2 ) - Approche no 2
La feuille de calcul est organise de manire dirente maintenant (Figure 5.4).
= 0.00443Z2 +
X
(colonne G dans
0.00130Z1 + 1.14755. Nous en dduisons la nouvelle colonne de rsidus ex = X X
Tout d'abord, nous devons produire les quations de rgression, nous obtenons
la feuille de calcul)
De la mme manire, nous dduisons le rsidu
0.04434Z2 15.58838
ey = Y Y
aprs la rgression
Y = 0.01093Z2 +
Il ne nous reste plus qu' calculer la corrlation entre les rsidus pour obtenir la corrlation partielle
d'ordre
2,
relativement
Z1
et
Z2 , r = 0.25309.
Page: 76
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 5.4.
77
la section prcdente. La principale modication va porter sur l'valuation des degrs de libert .
Ainsi, la statistique du test de signicativit s'crit maintenant
t=
Elle suit une loi de Student (n
p 2)
(5.8)
1
r2
np2
degrs de libert.
f2 =
1
np3
devient
(5.9)
3. Voir http://www.stat.psu.edu/online/development/stat505/07_partcor/06_partcor_partial.html
Page: 77
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
78
5.3.3 Exemple
2
r = 0.25309
5%
t=
0.25309
10.253092
2822
= 1.28161
Les donnes
sont compatibles avec l'absence de lien entre "puissance" et "consommation", une fois retranche
l'information apporte par "cylindre" et "poids".
95%
f =
975%
est
1
2823
f=
1
2
1+0.25309
ln 10.25309
= 0.25871
= 0.20851
u0.975 = 1.95996
est
(resp.
bbr =
e2(0.14997) 1
e2(0.14997) +1
= 0.14885
(resp.
bhr = 0.58326).
Le rsultat est cohrent avec le test d'hypothses, l'intervalle de conance englobe la valeur
0.
corrlation de Pearson.
5.4.1
4 :
1. Transformer toutes les variables en rangs. Adopter les rangs moyens en cas d'ex-aequo.
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
(resp.
y )
(resp. rangs de
Y)
79
variables de contrle.
3. Le
partiel est tout simplement le coecient de corrlation de Pearson appliqu sur ces
rsidus
c.--d.
xy.z1 ...zp = rx y
4. Le dispositif infrentiel reste inchang, on doit tenir compte de
5.4.2
De la mme manire que pour le coecient de Pearson, nous pouvons utiliser les formules de rcurrence
(quations 5.1, 5.6 et 5.5) pour calculer les
est plus simple tant que
ou
maximum).
existe une part non explique par la consommation de cigarettes dans la relation entre l'occurrence du
cancer du poumon et celui du cancer de la vessie. Les individus sont des tats des USA, CIG (Z ) est
le nombre de cigarettes par tte fumes, BLAD (X ) est le nombre de personnes mortes du cancer de
la vessie par 100.000 habitants, et LUNG est le nombre de personnes mortes du cancer de la vessie par
Z.
R, S
et
partir de
X, Y
et
Nous disposons de
n = 42
observations.
et
est
xy = 0.6251.
xz = 0.6213
et
yz = 0.7264.
xy.z =
= 0.32280
1 0.62132 1 0.72642
t=
Avec la loi de Student (n
Au risque
5%,
1 2 = 39)
0.32280
10.322802
4212
0.0395
on rejette l'hypothse nulle. Il semble qu'il y ait autre chose non explique par la
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
80
Fig. 5.5.
A titre de comparaison, voici les commandes et sorties SAS (Figure 5.6). Les rsultats concordent.
C'est prfrable tant donn qu'on a suivi la lettre le descriptif de la documentation en ligne.
partiel de
(quation 5.1) (voir [11], page 254 262 ; ou son rsum en franais sur le site
http://www.cons-dev.
org/elearning/stat/stat7/st7.html). On peut trs bien la mettre en oeuvre lorsque les donnes sont
intrinsquement des classements (des rangs aects). Malheureusement, les avis divergent quant au calcul
de la distribution de la statistique, le test de signicativit est dicile, ce qui est un frein considrable
son utilisation.
Page: 80
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 5.6.
Page: 81
81
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 82
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
6
Corrlation semi-partielle
elle se rapproche de la rgression multiple. On essaie de quantier le pouvoir explicatif additionnel d'une
variable.
Positionnons nous dans un premier temps dans le cadre
dpendante que l'on cherche expliquer,
variables
Y , X,
et
est la variable
est
2
la variable de contrle. Le carr de la corrlation semi-partielle, note ry(x.z) , quantie la proportion de
variance de
Z.
explique par
X,
par rapport
Z.
Notons bien la dirence avec la corrlation partielle. Avec ce dernier, nous retranchons l'information
apporte par
sur la fois
et
par rapport
Z.
avec
conditionnellement
ry(x.z) =
1.
2
1 rxz
(6.1)
Page: 83
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
84
6 Corrlation semi-partielle
Notons d'ores et dj que
ry(x.z) = ryx
Y.
Si
si
et
et
sont orthogonaux
rxz = 0.
Tout l'information de
rxz = 1,
est indnie, mais on comprend aisment qu'il ne reste plus rien dans le rsidu de
l'quation 6.1
pour expliquer
Y.
En faisant le parallle avec la formule de la corrlation partielle (quation 5.1), on constate de manire
gnrale que
ryx.z ry(x.z)
Estimation.
n,
remplacer les corrlation thoriques de la formule 6.1 par les corrlations empiriques.
Test de signicativit.
H0 : ry(x.z) = 0
(test
unilatral ou bilatral), nous utilisons le t de Student qui est a la mme expression que celle de la
corrlation partielle, avec la mme distribution et les mmes degrs de libert (n
t=
3),
savoir
(6.2)
1
r2
n3
Fig. 6.1.
Nous avons
n = 28
et
Page: 84
est
ryx = 0.88781,
rxz = 0.94755
job: Analyse_de_Correlation
et
ryz = 0.89187
macro: svmono.cls
date/time: 8-Mar-2015/7:21
85
= 0.13367
(1 0.947552
ry(x.z) =
t=
Au risque
5%,
0.13367
10.133672
283
= 0.67439
coecient. Manifestement, une fois retranche de "puissance" l'information porte par "cylindre",
il ne reste plus rien pour expliquer la "consommation".
et
X,
Z1 . . . Zp
variables.
Pour raliser le calcul pratique du coecient, nous utilisons la rgression, a nous permet de comprendre
autrement, de manire plus gnrique, le mcanisme d'valuation de la liaison.
Concernant l'infrence statistique, le
notamment en ce qui concerne le calcul des degrs de libert. Pour tester la signicativit, nous utiliserons
la statistique
qui, sous l'hypothse de nullit du coecient, suit une loi de Student (n p 2) degrs
de libert
t=
(6.3)
1
r2
np2
X = a0 + a1 Z1 + . . . ap Zp +
A partir des coecients estims
a
j ,
X)
(l'information
ei = xi x
i
La corrlation semi partielle estime est obtenue l'aide de la corrlation empirique entre
rsidu
et le
e
ry(x.z1 zp ) = rye
Page: 85
job: Analyse_de_Correlation
macro: svmono.cls
(6.4)
date/time: 8-Mar-2015/7:21
86
6 Corrlation semi-partielle
Y.
par rapport
aux variables de contrle. Le carr du coecient s'interprte lui-mme comme une proportion de variance
explique supplmentaire. A partir de ce point de vue, on peut proposer une autre manire d'estimer le
coecient de corrlation semi-partielle. Voici la squence de calculs :
On eectue une premire rgression de
Z1 , . . . , Zp ,
nous obtenons
2
le coecient de dtermination Ry.z z , il correspond la proportion de variance explique par la
1
p
rgression.
On raliser une seconde rgression intgrant la variable supplmentaire
un nouveau coecient de dtermination
Le surcrot d'information qu'apporte
contrle, est la dirence entre les
2
Ru.xz
1 zp
est dgag.
Y,
dans l'explication de
2
2
2
ry(x.z
) = Ry.xz
Ry.z
1 zp
1 zp
1 zp
(6.5)
1).
de pouvoir comparer les coecients obtenus selon les dirents approches. Les calculs sont regroups
dans une nouvelle feuille (gure 6.2).
fournit
2
= 0.79543.
Ry.z
sur
et
fournit
2
Ry.xz
= 0.81329
0.7953 = 0.01787
Et sa racine carre est la corrlation semi-partielle
ry(x.z) =
0.01787 = 0.13367.
= 0.81329
Nous obtenons
exactement la mme valeur qu'avec la mthode directe dcrite dans la section 6.2.
Z.
ei = xi (0.04901 zi 10.94646)
Nous calculons la corrlation de Pearson entre le rsidu
corrlation semi-partielle
et la variable
Y,
elle correspond la
Page: 86
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Fig. 6.2.
Page: 87
87
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 88
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
A
Gestion des versions
Ce document volue au l du temps. Voici les principales versions et leur date de mise en ligne. Des
corrections trs mineures sont parfois eectues. Il faut se rfrer la date de compilation situe au bas
de chaque page pour vous reprer.
Version
1.0
Les tests de comparaisons des corrlations et les variations autour des corrlations se sont beaucoup
nourris de l'excellent ouvrage de Chen et Popovitch ([2]).
Version
1.1
notamment le chapitre 4 "Correlation and Covariance"). Les sections consacres aux tests portant
sur les matrices de corrlations ont t introduites : test de nullit des corrlations croises et test
de comparaison de
matrices des corrlations. Les calculs sur les exemples ont t confronts avec
les sorties des procdures - lorsqu'elles existent - disponibles dans le package 'psych' ([8]) pour R,
un des trs rares outils proposer les dirents tests de comparaison des corrlations.
Page: 89
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 90
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
B
Fichier de donnes
Tout au long de ce support, nous illustrons notre propos l'aide d'exemples numriques. Les donnes
et les calculs associs sont disponibles dans un classeur EXCEL accessible en ligne. L'URL du chier est
http://eric.univ-lyon2.fr/~ricco/cours/cours/dataset_analyse_correlation.xls.
A chaque feuille du classeur correspond un thme du support. Pour faire la correspondance, le plus
simple est de se rfrer l'onglet de la feuille (Figure B.1).
Fig. B.1.
Page: 91
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 92
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
C
L'analyse de corrlation avec Tanagra
Les techniques prsentes dans ce support sont implments dans le logiciel gratuit et
Tanagra
open source
http://eric.univ-lyon2.fr/~ricco/tanagra/.
Leur mise en oeuvre et la lecture des rsultats sont dcrites dans plusieurs didacticiels, en voici
quelques uns :
1. Corrlation semi-partielle
http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-semi-partielle.html
2. Corrlation partielle
http://tutoriels-data-mining.blogspot.com/2008/06/corrlation-partielle.html
3. Corrlations croises
http://tutoriels-data-mining.blogspot.com/2008/04/coefficient-de-corrlation-linaire.
html
4. De manire gnrale, on pourra accder aux didacticiels qui abordent le coecient de corrlation
linaire et ses variantes en eectuant une recherche par mots cls sur le site de tutoriels
http://tutoriels-data-mining.blogspot.com/
Page: 93
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 94
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
D
L'analyse de corrlation avec R - Package 'psych'
Le package psych prsente plusieurs procdures ddies l'analyse de corrlation. Dans cette section,
nous en numrons quelques unes en les associant aux thmes abords dans cet ouvrage. Le premier
avantage pour nous est d'identier la commande adquate pour chaque traitement. Pour ma part, j'y ai
vu aussi l'opportunit de valider les calculs eectus sur tableurs publis dans la prcdente version de
ce document (ouf ! touts les rsultats concordent). Enn, les procdures relatives aux tests sur matrices
des corrlations m'ont permis de dvelopper deux nouvelles sections dans la version
1.1.
> #######################
> #chargement des donnes
> #######################
> autos <- read.table(file="autos conso.txt", sep="\t",dec=".",header=T,row.names=1)
> print(summary(autos))
Cylindree
Min.
: 658
Puissance
Min.
: 29.00
Poids
Min.
Conso
: 650.0
Min.
: 5.700
1st Qu.:1375
Median :1984
Median : 79.50
Median :1140.0
Median : 9.100
Mean
Mean
Mean
Mean
:1809
: 77.71
:1197.0
: 9.075
3rd Qu.:2232
3rd Qu.:1425.0
3rd Qu.:10.925
Max.
Max.
Max.
Max.
:2972
:150.00
:1800.0
:12.800
> #########################################
> #corrlation entre cylindre et puissance
> #########################################
> cor(autos$Cylindree,autos$Puissance)
[1] 0.9475491
> #########################################################
> #test de significativit et intervalle de confiance 95%
> #########################################################
Page: 95
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
96
> cor.test(autos$Cylindree,autos$Puissance,conf.level=0.95)
Pearson's product-moment correlation
data: autos$Cylindree and autos$Puissance
t = 15.1171, df = 26, p-value = 2.132e-14
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8886000 0.9757056
sample estimates:
cor
0.9475491
> ##############################
> #chargement du package 'psych'
> ##############################
> library(psych)
> ####################################################
> #comparaison (conso,puissance) vs. (conso,cylindre)
> #mme chantillon
> ####################################################
> r.yx <- cor(autos$Conso,autos$Cylindree)
> r.yz <- cor(autos$Conso,autos$Puissance)
> r.xz <- cor(autos$Cylindree,autos$Puissance)
> paired.r(r.yx,r.yz,r.xz,n=nrow(autos))
Call: paired.r(xy = r.yx, xz = r.yz, yz = r.xz, n = nrow(autos))
[1] "test of difference between two correlated correlations"
t = 0.14 With probability = 0.89>
> #####################################################
> #Bartlett - Test de nullit des corrlations croises
> #####################################################
> print(cortest.bartlett(autos))
R was not square, finding R from data
$chisq
[1] 147.9813
$p.value
Page: 96
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
97
[1] 2.066975e-29
$df
[1] 6
> ####################################################
> #Steiger - Test de nullit des corrlations croises
> ####################################################
> print(cortest.normal(autos))
R1 was not square, finding R from data
Tests of correlation matrices
Call:cortest.normal(R1 = autos)
Chi Square value 329.42 with df = 6
> ######################################################
> #index pour scinder en deux blocs distincts les donnes
> ######################################################
> asia <- c(1,2,6,7,16,19,21,22,25,27)
> ###################################################
> #Steiger - Comparaison de 2 matrices de corrlation
> ####################################################
> print(cortest.normal(R1=cor(autos[asia,]),R2=cor(autos[-asia,]),n1=10,n2=18,fisher=T))
Tests of correlation matrices
Call:cortest.normal(R1 = cor(autos[asia, ]), R2 = cor(autos[-asia,
]), n1 = 10, n2 = 18, fisher = T)
Chi Square value 1.52 with df = 6
> ####################################################
> #Jennrich - Comparaison de 2 matrices de corrlation
> ####################################################
> print(cortest.jennrich(cor(autos[asia,]),cor(autos[-asia,]),n1=10,n2=18))
$chi2
[1] 4.520237
$prob
[1] 0.6066412
Page: 97
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Page: 98
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21
Littrature
Ouvrages
1. Avazian, S., Etude
2.
8. Revelle, W.,
http://
index.html
Page: 99
job: Analyse_de_Correlation
macro: svmono.cls
date/time: 8-Mar-2015/7:21