Sunteți pe pagina 1din 68

Modélisation L2 Mathématiques

Statistique descriptive bivariée

Couple de variables

Marie-Luce Taupin
marie-luce.taupin@genopole.cnrs.fr

2015-2016

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 1 / 68
Objectifs

Statistique univariée : analyse descriptive séparée de chaque variable


d’un tableau individus × variables.

Statistique bivariée : analyse descriptive des variables deux à deux :

I étude d’un couple de variables statistiques

I étude de la liaison entre deux variables quantitatives, qualitatives,


quantitative/qualitative

I étape indispensable de toute analyse de jeux de données :


croisement systématique des variables 2 à 2.

Statistique descriptive multivariée : Analyse des données.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 2 / 68
Données brutes et données groupées

Étude de deux variables X et Y sur une méme population de taille n :

xk et yk : valeurs prises par X et Y pour un méme individu k,


1 ≤ k ≤ n.

Données brutes (xk , yk )k=1,··· ,n : les n couples d’observations

(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 3 / 68
Exemple

Extrait des données brutes :

Individu Sexe X Salaire horaire Y


1 F 13.25
2 F 12.50
3 H 14.00
4 F 13.00
5 H 7.00
6 F 29.80
...
599 H 14.50

Le salaire horaire dépend-il du sexe des individus ?

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 4 / 68
Exemple
Extrait des données brutes :

Employé Catégorie de personnel Age Région


1 A 58 NE
2 B 42 W
3 A 35 S
4 B 26 NE
5 B 22 W
6 C 32 NW
7 A 42 NE
... ... ... ...
597 C 41 S
598 C 33 NW
599 C 29 S

La répartition des éges est-elle différente selon la catégorie de


personnel (et dans quelle mesure) ?
La catégorie des employés est-elle liée à la région (et de quelle
maniére) ?

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 5 / 68
Extrait des données

> head(Donnees)

AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES NB_PERS NB_ENF REV_FOYER
1 58 F NE C 13.25 non 5 43 2 0 11
2 40 M W M 12.50 non 7 38 2 0 7
3 29 M S C 14.00 non 5 42 2 0 15
4 59 M NE D 10.60 oui 3 39 4 1 7
5 51 M W M 13.00 non 3 35 8 1 15
6 19 M NW C 7.00 non 3 39 6 0 16

> tail(Donnees)

AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES NB_PERS NB_ENF REV_FOYER
594 63 M NE M 10.5 non 4 40 2 0 13
595 51 F S M 29.8 non 2 42 2 0 14
596 29 F NE C 27.0 oui 1 43 2 0 15
597 57 F NW D 21.0 non 4 40 1 0 14
598 29 F W M 13.0 oui 5 39 6 4 11
599 47 M S C 14.5 non 4 39 1 0 12

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 6 / 68
Description des données

> dim(Donnees)
[1] 599 11

> attach(Donnees)

> names(Donnees)

[1] "AGE" "SEXE" "REGION" "STAT_MARI" "SAL_HOR" "SYNDICAT" "CATEGORIE" "NIV_ETUDES"


"NB_PERS" "NB_ENF" "REV_FOYER"

> str(Donnees)

’data.frame’: 599 obs. of 11 variables:


$ AGE : int 58 40 29 59 51 19 64 23 47 66 ...
$ SEXE : Factor w/ 2 levels "F","M": 1 2 2 2 2 2 1 1 2 1 ...
$ REGION : Factor w/ 4 levels "NE","NW","S",..: 1 4 3 1 4 2 3 1 2 3 ...
$ STAT_MARI : Factor w/ 5 levels "C","D","M","S",..: 1 3 1 2 3 1 3 1 3 2 ...
$ SAL_HOR : num 13.2 12.5 14 10.6 13 ...
$ SYNDICAT : Factor w/ 2 levels "non","oui": 1 1 1 2 1 1 1 1 2 1 ...
$ CATEGORIE : int 5 7 5 3 3 3 9 1 8 5 ...
$ NIV_ETUDES: int 43 38 42 39 35 39 40 43 40 40 ...
$ NB_PERS : int 2 2 2 4 8 6 3 2 3 1 ...
$ NB_ENF : int 0 0 0 1 1 0 0 0 0 0 ...
$ REV_FOYER : int 11 7 15 7 15 16 13 11 12 8 ...

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 7 / 68
Description des données

## Modification du type des variables

Donnees$CATEGORIE=as.factor(Donnees$CATEGORIE)
Donnees$NIV_ETUDES=as.factor(Donnees$NIV_ETUDES)
Donnees$REV_FOYER=as.factor(Donnees$REV_FOYER)

> str(Donnees)

’data.frame’: 599 obs. of 11 variables:


$ AGE : int 58 40 29 59 51 19 64 23 47 66 ...
$ SEXE : Factor w/ 2 levels "F","M": 1 2 2 2 2 2 1 1 2 1 ...
$ REGION : Factor w/ 4 levels "NE","NW","S",..: 1 4 3 1 4 2 3 1 2 3 ...
$ STAT_MARI : Factor w/ 4 levels "C","D","M","V": 1 3 1 2 3 1 3 1 3 2 ...
$ SAL_HOR : num 13.2 12.5 14 10.6 13 ...
$ SYNDICAT : Factor w/ 2 levels "non","oui": 1 1 1 2 1 1 1 1 2 1 ...
$ CATEGORIE : Factor w/ 10 levels "1","2","3","4",..: 5 7 5 3 3 3 9 1 8 5 ...
$ NIV_ETUDES: Factor w/ 15 levels "32","33","34",..: 12 7 11 8 4 8 9 12 9 9 ...
$ NB_PERS : int 2 2 2 4 8 6 3 2 3 1 ...
$ NB_ENF : int 0 0 0 1 1 0 0 0 0 0 ...
$ REV_FOYER : Factor w/ 16 levels "1","2","3","4",..: 11 7 15 7 15 16 13 11 12 8 ...

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 8 / 68
Résumé des données

> summary(Donnees)

AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES


Min. :16.00 F:297 NE:129 C:193 Min. : 2.0 non:496 2 :133 39 :187
1st Qu.:29.00 M:302 NW:122 D: 75 1st Qu.:10.5 oui:103 3 :125 40 :148
Median :42.00 S :200 M:325 Median :15.0 5 : 94 43 :114
Mean :41.85 W :148 V: 6 Mean :17.9 4 : 48 42 : 45
3rd Qu.:53.50 3rd Qu.:22.0 1 : 46 44 : 29
Max. :80.00 Max. :99.0 9 : 39 41 : 22
(Other):114 (Other): 54

NB_PERS NB_ENF REV_FOYER


Min. : 1.00 Min. :0.0000 14 : 89
1st Qu.: 2.00 1st Qu.:0.0000 15 : 77
Median : 3.00 Median :0.0000 13 : 71
Mean : 3.11 Mean :0.5326 12 : 70
3rd Qu.: 4.00 3rd Qu.:1.0000 11 : 61
Max. :13.00 Max. :6.0000 16 : 48
(Other):183

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 9 / 68
X et/ou Y qualitatives ou quantitatives discrétes

x1 , x2 , . . . , xi , . . . , xp : les p modalités de X (p observations distinctes


de X )

y1 , y2 , . . . , yj , . . . , yq : les q modalités de Y (q observations distinctes


de Y )

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 10 / 68
X et/ou Y quantitatives continues

Valeurs de X regroupées en p classes

[e0X , e1X [, . . . , [ei−1


X
, eiX [, . . . , [ep−1
X
, epX [

de centres x1 , · · · , xi , · · · , xp

Valeurs de Y en q classes

[e0Y , e1Y [, . . . , [ej−1


Y Y
, ejY [, . . . , [eq−1 , eqY [

de centres y1 , . . . , yj . . . , yq

X , e X [ et son centre x
Confusion parfois entre la classe [ei−1 i i

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 11 / 68
Données groupées

nij : nombre d’individus pour lesquels à la fois X prend la valeur xi et


Y la valeur yj

nij = #{k = 1, . . . , n xk = xi et yk = yj }

X , e X [ de centre x
Si X est continue, xk = xi signifie xk ∈ [ei−1 i i

Données groupées : (xi , yj , nij )i=1,...,p, j=1,...,q

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 12 / 68
Tableaux statistiques et distribution d’une série bivariée
Distribution jointe - Tableau de contingence
Distribution jointe en effectifs de X et de Y :

{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}

Pour i = 1, . . . , p et j = 1, . . . , q
I nij : nombre d’individus possédant la modalité xi de X et la modalité
yj de Y .
Xq
I ni• = nij : nombre d’individus possédant la modalité xi (∈ classe de
j=1
centre xi ) de X
Xp
I n•j = nij : nombre d’individus possédant la modalité yj de Y
i=1
X q
p X p
X q
X
I n= nij = ni• = n•j ; nombre total d’individus de la
i=1 j=1 i=1 j=1
population.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 13 / 68
Tableau de contingence en effectifs (p lignes, q colonnes)

Y y1 y2 ... yj ... yq Total


X
x1 n11 n12 ... n1j ... n1q n1•
x2 n21 n22 ... n2j ... n2q n2•
.. .. .. .. .. ..
. . . . . .
xi ni1 ni2 ... nij ... niq ni•
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ... npj ... npq np•
Total n•1 n•2 ... n•j ... n•q n

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 14 / 68
Tableau de contingence : SEXE x REGION
> TabContEf<-table(SEXE,REGION)

> print(TabContEf) # affiche le nom des variables

REGION
SEXE NE NW S W
F 61 62 97 77
M 68 60 103 71

> addmargins(TabContEf)

REGION
SEXE NE NW S W Sum
F 61 62 97 77 297
M 68 60 103 71 302
Sum 129 122 200 148 599

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 15 / 68
X : SEXE et Y : REGION

X de type ......................... à p = .......... modalités.

Y de type ....................... 0 q = ......... modalités.

Mesures conjointes de X et Y sur n = .... individus.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 16 / 68
Distribution jointe en fréquences
Pour i = 1, . . . , p et j = 1, . . . , q

nij
I fij = : proportion d’individus possédant la modalité xi de la variable
n
X et la modalité yj de la variable Y .
X q
I fi• = fij : fréquence de la modalité xi de X
j=1
p
X
I f•j = fij : fréquence de la modalité yj de Y
i=1
p X
X q p
X q
X
I 1= fij = fi• = f•j
i=1 j=1 i=1 j=1

Distribution jointe en fréquences de X et de Y :

{(xi , yj , fij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 17 / 68
Tableau de contingence en fréquences (p lignes, q
colonnes)

Y y1 y2 ... yj ... yq Total


X
x1 f11 f12 ... f1j ... f1q f1•
x2 f21 f22 ... f2j ... f2q f2•
.. .. .. .. .. ..
. . . . . .
xi fi1 fi2 ... fij ... fiq fi•
.. .. .. .. .. ..
. . . . . .
xp fp1 fp2 ... fpj ... fpq fp•
Total f•1 f•2 ... f•j ... f•q 1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 18 / 68
Tableau de contingence : SEXE x REGION
> TabContFr<-prop.table(TabContEf)

> print(TabContFr)

REGION
SEXE NE NW S W
F 0.1018364 0.1035058 0.1619366 0.1285476
M 0.1135225 0.1001669 0.1719533 0.1185309

> print(round(TabContFr,2))
REGION
SEXE NE NW S W
F 0.10 0.10 0.16 0.13
M 0.11 0.10 0.17 0.12

> addmargins(round(TabContFr,2))
REGION
SEXE NE NW S W Sum
F 0.10 0.10 0.16 0.13 0.49
M 0.11 0.10 0.17 0.12 0.50
Sum 0.21 0.20 0.33 0.25 0.99
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive bivariée 2015-2016 19 / 68
Tableau de contingence en % : SEXE x REGION
> TabContPr<-100*prop.table(TabContEf)

> print(TabContPr)
REGION
SEXE NE NW S W
F 10.18364 10.35058 16.19366 12.85476
M 11.35225 10.01669 17.19533 11.85309

> print(round(TabContPr,2))
REGION
SEXE NE NW S W
F 10.18 10.35 16.19 12.85
M 11.35 10.02 17.20 11.85

> addmargins(round(TabContPr,2))
REGION
SEXE NE NW S W Sum
F 10.18 10.35 16.19 12.85 49.57
M 11.35 10.02 17.20 11.85 50.42
Sum 21.53 20.37 33.39 24.70 99.99

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 20 / 68
Tableau de contingence : Autre représentation
> library(gplots)
> balloonplot(t(TabContEf),dotsize=10,main="")

REGION NE NW S W

SEXE

F 61 62 97 77 297

M 68 60 103 71 302

129 122 200 148 599

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 21 / 68
Représentations graphiques
> N1=nlevels(SEXE) # nombre de modalites (niveaux) du facteur Sexe
> N2=nlevels(REGION) # nombre de modalites (niveaux) du facteur REGION
> couleurs=rainbow(N1)
> barplot(TabContFr, col=couleurs,2)
> legend("topleft", legend=c("F", "H"), col=couleurs,pch=15)

femme
homme
1.0
0.8
fréquences
0.6
0.4
0.2
0.0

NE NW S W
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive
Region bivariée 2015-2016 22 / 68
Représentations graphiques
> barplot(TabContFr,beside=TRUE, col=couleurs, 2)
> legend("topleft", legend=c("F", "H"), col=couleurs,pch=15)

0.5

femme
homme
0.4
0.3
fréquences
0.2
0.1
0.0

NE NW S W

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 23 / 68
Représentations graphiques
A ne pas faire (sauf si les modalités sont équilibrées) !
> couleurs=rainbow(N2)
> mosaicplot(TabContEf,col=couleurs,main="")

F M
NE
NW
REGION
S
W

SEXE

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 24 / 68
Tableau de contingence : SEXE x SALAIRE
=⇒ Tableau de contingence Qualitatif x Quantitatif.

> Nclasse=4 # Nombre de classes


> SALAIRE<-cut(SAL_HOR,breaks=Nclasse)
> TabContEf<-table(SEXE,SALAIRE)

> print(TabContEf)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 262 31 3 1
M 244 49 7 2

> addmargins(TabContEf)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
F 262 31 3 1 297
M 244 49 7 2 302
Sum 506 80 10 3 599

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 25 / 68
Tableau de contingence : SEXE x SALAIRE
> TabContFr<-prop.table(TabContEf)

> print(TabContFr)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 0.437395659 0.051752922 0.005008347 0.001669449
M 0.407345576 0.081803005 0.011686144 0.003338898

> print(round(TabContFr,2))
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 0.44 0.05 0.01 0.00
M 0.41 0.08 0.01 0.00

> addmargins(round(TabContFr,2))
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
F 0.44 0.05 0.01 0.00 0.50
M 0.41 0.08 0.01 0.00 0.50
Sum 0.85 0.13 0.02 0.00 1.00

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 26 / 68
Tableau de contingence : Autre représentation
> balloonplot(t(TabContEf),dotsize=10,main="")

SALAIRE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]

SEXE

F 262 31 3 1 297

M 244 49 7 2 302

506 80 10 3 599

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 27 / 68
Représentations graphiques
A ne pas faire (sauf si les modalités sont équilibrées) !
> couleurs=rainbow(N2)
> mosaicplot(TabContEf,col=couleurs,main="")

F M
(1.9,26.2]
SALAIRE
(26.2,50.5]
(50.5,74.8]
(74.8,99.1]

SEXE

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 28 / 68
Représentations graphiques
> boxplot(SAL_HOR ~ SEXE,xlab="Sexe",ylab="SALAIRE")
> abline(h=mean(SAL_HOR,na.rm=T),lty=2,col="red",lwd=2)

100
80
60
SALAIRE
40
20
0

F M
Sexe

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 29 / 68
Tableau de contingence : AGE x SALAIRE
=⇒ Tableau de contingence Quantitatif x Quantitatif.

ége (ans) [16 ;32[ [32 ;48[ [48 ;64[ [64 ;80] Total
Salaire horaire
[2 ;26[ 180 156 144 26 506
[26 ;50[ 11 28 40 1 80
[50 ;76[ 0 5 4 1 10
[76 ;100] 1 0 1 1 3
Total 192 189 189 29 599

X ................... à p = ... classes.

Y ................. à q = ... classes.

Mesures conjointes de X et Y sur n = ...... individus.

4 ...................................
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive bivariée 2015-2016 30 / 68
Tableau de contingence : AGE x SALAIRE
> NclasseS=4 # Nombre de classes : Salaire
> SALAIRE<-cut(SAL_HOR,breaks=NclasseS)
> NclasseA=4 # Nombre de classes : Age
> Age<-cut(AGE,breaks=NclasseA)
> TabContEf<-table(Age,SALAIRE) # Tableau de contingence : Effectif
> print(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
(15.9,32] 180 11 0 1
(32,48] 156 28 5 0
(48,64] 144 40 4 1
(64,80.1] 26 1 1 1

> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive bivariée 2015-2016 31 / 68
Tableau de contingence : AGE x SALAIRE

> TabContFr<-prop.table(TabContEf) # Tableau de contingence : Frequence

> print(round(TabContFr,2))
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
(15.9,32] 0.30 0.02 0.00 0.00
(32,48] 0.26 0.05 0.01 0.00
(48,64] 0.24 0.07 0.01 0.00
(64,80.1] 0.04 0.00 0.00 0.00

> addmargins(round(TabContFr,2))
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 0.30 0.02 0.00 0.00 0.32
(32,48] 0.26 0.05 0.01 0.00 0.32
(48,64] 0.24 0.07 0.01 0.00 0.32
(64,80.1] 0.04 0.00 0.00 0.00 0.04
Sum 0.84 0.14 0.02 0.00 1.00

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 32 / 68
Représentation graphique plus appropriée
> plot(AGE,SAL_HOR,pch=20,xlab="Age",ylab="Salaire horaire",main="")

100
80
60
Salaire horaire
40
20
0

20 30 40 50 60 70 80
Age

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 33 / 68
Probléme des points superposés
> # Solution 1 : Bruitage des points
> plot(jitter(AGE),jitter(SAL_HOR),pch=20,xlab="Age",
ylab="Salaire horaire",main="")
100
80
60
Salaire horaire
40
20
0

20 30 40 50 60 70 80
Age

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 34 / 68
Probléme des points superposés
> # Solution 2 : symboles adapt\’es
> sunflowerplot(x=AGE,y=SAL_HOR,,xlab="Age",ylab="Salaire horaire",
main="")
100
80
60
Salaire horaire
40
20
0

20 30 40 50 60 70 80
Age

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 35 / 68
Distributions marginales

Distribution marginale de X en effectifs et en fréquences

{(xi , ni• ) ; 1 ≤ i ≤ p} {(xi , fi• ) ; 1 ≤ i ≤ p}

⇒ Derniére colonne du tableau de contingence en effectifs ou


fréquences

Distribution marginale de Y en effectifs et en fréquences

{(yj , n•j ) ; 1 ≤ j ≤ q} {(yj , f•j ) ; 1 ≤ j ≤ q}

⇒ Derniére ligne du tableau de contingence en effectifs ou fréquences

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 36 / 68
Tableaux des effectifs/fréquences de X et de Y

X effectif fréquence Y effectif fréquence


x1 n1• f1• y1 n•1 f•1
x2 n2• f2• y2 n•2 f•2
.. .. .. .. .. ..
. . . . . .
xi ni• fi• yj n•j f•j
.. .. .. .. .. ..
. . . . . .
xp np• fp• yq n•q f•q
p Xq
X
Total n= ni• 1 Total n= n•j 1
i=1 j=1

Dist. marginale de X Dist. marginale de Y


en eff. et en fréq. en eff. et en fréq.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 37 / 68
Distributions marginales : SEXE et REGION
Y WE NW S W Total
Sexe X
Femme 61 62 97 77 297
Homme 68 60 103 71 302
Total 129 122 200 148 599

> margin.table(TabContEf,1)

SEXE
F M
297 302

> margin.table(TabContEf,2)

REGION
NE NW S W
129 122 200 148

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 38 / 68
Distributions marginales : SEXE et REGION
Y WE NW S W Total
Sexe X
Femme 0.1018 0.1035 0.1619 0.1285 0.495
Homme 0.1135 0.1002 0.1720 0.1185 0.504
Total 0.215 0.203 0.333 0.247 1

> margin.table(TabContFr,1)

SEXE
F M
0.4958264 0.5041736

> margin.table(TabContFr,2)

REGION
NE NW S W
0.215 0.203 0.333 0.247

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 39 / 68
Distributions conditionnelles

Distributions conditionnelles de X sachant Y (colonne fixée) et de Y


sachant X (ligne fixée)

En effectifs, pour tout i = 1, . . . , p et j = 1, . . . , q

I nij : nombre d’individus tq X = xi et Y = yj

I ni/j : nombre d’individus tq X = xi parmi ceux pour lequels Y = yj

ni/j = nij avec j fixé

I nj/i : nombre d’individus tq Y = yj parmi ceux pour lesquels X = xi

nj/i = nij , i fixé

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 40 / 68
En fréquences, pour tout i = 1, . . . , p et j = 1, . . . q,

I fij : proportion d’individus tq X = xi et Y = yj

I fi/j : proportion d’individus pour lesquels X = xi parmi ceux pour


lesquels Y = yj .
nij
fi/j =
n•j

I fj/i : proportion d’individus pour lesquels Y = yj parmi ceux pour


lesquels X = xi
nij
fj/i =
ni•

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 41 / 68
Distributions conditionnelles en effectifs et fréquences

Distribution conditionnelle en effectifs de X sachant Y = yj

{(xi , ni/j ) ; 1 ≤ i ≤ p, j fixé}

(j ème colonne du tableau de contingence en effectifs)

Distribution conditionnelle en effectifs de Y sachant X = xi

{(yj , nj/i ) ; 1 ≤ j ≤ q, i fixé}

(i ème ligne du tableau de contingence en effectifs).

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 42 / 68
Distribution conditionnelle en fréquences de X sachant Y = yj :

{(xi , fi/j ) ; 1 ≤ i ≤ p, j fixé}

Distribution conditionnelle en fréquences de Y sachant X = xi :

{(yj , fj/i ) ; 1 ≤ j ≤ q, i fixé}

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 43 / 68
X /Y = yj effectif fréquence.
n1j
x1 n1/j = n1j f1/j =
n•j
n2j
x2 n2/j = n2j f2/j =
n•j
.. .. ..
. . .
nij
xi ni/j = nij fi/j =
n•j
.. .. ..
. . .
npj
xp np/j = npj fp/j =
n•j
p
X
Total n•j = nij 1
i=1

Dist. cond. eff. et fréq. de X sachant Y = yj

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 44 / 68
Y /X = xi effectif fréquence
ni1
y1 n1/i = ni1 f1/i =
ni•
ni2
y2 n2/i = ni2 f2/i =
ni•
.. .. ..
. . .
nij
yj nj/i = nij fj/i =
ni•
.. .. ..
. . .
niq
yq nq/i = niq fq/i =
ni•
q
X
Total ni• = nij 1
j=1

Dist. cond .eff. et fréq. de Y sachant X = xi

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 45 / 68
Il y a q distributions conditionnelles de X sachant Y = yj (autant que
les q modalités ou classes de Y )

Il y a p distributions conditionnelles de Y sachant X = xi (autant que


les p modalités ou classes de X )

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 46 / 68
Tableau des q distributions conditionnelles de X sachant Y

Distribution conditionnelle de X sachant Y = yj dans la colonne j

Y y1 y2 ... yj ... yq
X
x1 f1/1 f1/2 ... f1/j ... f1/q
x2 f2/1 f2/2 ... f2/j ... f2/q
.. .. .. .. ..
. . . . .
xi fi/1 fi/2 ... fi/j ... fi/q
.. .. .. .. ..
. . . . .
xp fp/1 fp/2 ... fp/j . . . fp/q
Total 1 1 ... 1 ... 1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 47 / 68
Tableau des p distributions conditionnelles de Y sachant X

Distribution conditionnelle de Y sachant X = xi dans la ligne i

Y y1 y2 ... yj ... yq Total


X
x1 f1/1 f2/1 ... fj/1 ... fq/1 1
x2 f1/2 f2/2 ... fj/2 ... fq/2 1
.. .. .. .. ..
. . . . .
xi f1/i f2/i ... fj/i ... fq/i 1
.. .. .. .. ..
. . . . .
xp f1/p f2/p ... fj/p ... fq/p 1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 48 / 68
Exemple : Distributions conditionnelles en effectifs de Y
sachant X
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 262 31 3 1 297
Homme 244 49 7 2 302
Total 506 80 10 3 599

Dist. cond. en effectifs du salaire horaire chez (sachant que) les


hommes

Parmi les .... hommes, il y a ..... personnes qui gagnent entre 2 et 26


dollars.

Sur les .... personnes observées, ... sont des hommes et gagnent entre
2 et 26 dollars.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 49 / 68
Exemple : Distributions conditionnelles en effectifs de X
sachant Y
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 262 31 3 1 297
Homme 244 49 7 2 302
Total 506 80 10 3 599

Dist. cond. en effectifs du sexe sachant que le salaire horaire


est compris entre 2 et 26 dollars.

Parmi les ... personnes qui gagnent entre 2 et 26 dollars, il y a ...


hommes.

Sur les ... personnes observés, ... sont des hommes et gagnent entre 2
et 26 dollars.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 50 / 68
Tableau des q = 4 distributions conditionnelles en
fréquences du sexe X sachant le salaire horaire Y
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 52% 39% 30% 33% 50%
Homme 48% 61% 70% 67% 50%
Total 100% 100% 100% 100% 100%

Dist. cond. en fréquences du sexe sachant que le salaire horaire est


compris entre 2 et 26 dollars.

Parmi les ... personnes qui gagnent entre 2 et 26 dollars, il y en a ...%


hommes.

Sur les .... personnes observées, ....% sont des hommes et gagnent
entre 2 et 26 dollars

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 51 / 68
Tableau des p = 3 distributions conditionnelles en
fréquences du salaire horaire Y selon le sexe X
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
Sexe X
Femme 88% 10% 1% 1% 100%
Homme 81% 16% 2% 1% 100%
dist. marg. de Y 85% 13% 2% 0% 100%

Dist. cond. en fréquences de l’ége sachant la catégorie de personnel.

Parmi les ... hommes, il y a ...% des personnes qui gagnent entre 2 et
26 dollars.

Sur les ... personnes observés, ...% sont des hommes et gagnent entre
2 et 26 dollars

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 52 / 68
Moyennes, variances marginales et conditionnelles

UNIQUEMENT pour variables quantitatives.

Données brutes : calculs similaires à ceux effectués en statistique


univariée aprés extraction des individus d’intérét.

Données groupées : à partir des tableaux de contingence.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 53 / 68
Moyennes et variances marginales
Distribution marginale de X en effectifs/fréquences

{(xi , ni• ) ; 1 ≤ i ≤ p} {(xi , fi• ) ; 1 ≤ i ≤ p}

Distribution marginale de Y en effectifs/fréquences

{(yj , n•j ) ; 1 ≤ j ≤ q} {(yj , f•j ) ; 1 ≤ j ≤ q}

Moyennes marginales x et y
p p
1X X
x = ni• xi = fi• xi
n
i=1 i=1
q q
1 X X
y = n•j yj = f•j yj
n
j=1 j=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 54 / 68
Moyennes marginales : AGE et SALAIRE
> print(TabContEf)
> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
> margin.table(TabContEf,1)
Age
(15.9,32] (32,48] (48,64] (64,80.1]
192 189 189 29
> margin.table(TabContEf,2)
SALAIRE
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
506 80 10 3

## A comparer avec :

> mean(AGE)
[1] 41.84975
> mean(SAL_HOR)
[1] 17.89835
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive bivariée 2015-2016 55 / 68
Variances marginales σx2 et σy2
p p
1X X
V (x) = σx2 = ni• (xi − x)2 = fi• (xi − x)2
n
i=1 i=1
q q
1 X X
V (y ) = σy2 = n•j (yj − y)2 = f•j (yj − y)2
n
j=1 j=1

Soit aussi
p p
1X X
σx2 = ni• xi2 − (x)2 = fi• xi2 − (x)2
n
i=1 i=1
q q
1 X X
σy2 = n•j yj2 − (y )2 = f•j yj2 − (y )2
n
j=1 j=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 56 / 68
Variances marginales : AGE et SALAIRE
> print(TabContEf)
> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
> margin.table(TabContEf,1)
Age
(15.9,32] (32,48] (48,64] (64,80.1]
192 189 189 29
> margin.table(TabContEf,2)
SALAIRE
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
506 80 10 3

## A comparer avec :

> var(AGE)
[1] 199.275
> var(SAL_HOR)
[1] 127.2247
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive bivariée 2015-2016 57 / 68
Moyennes et variances conditionnelles
Pour j = 1, . . . , q
Dist. cond. de X en effectifs/fréquences sachant que Y = yj
{(xi , ni/j ) ; 1 ≤ i ≤ p} {(xi , fi/j ) ; 1 ≤ i ≤ p}
avec
nij
ni/j = nij et fi/j =
n•j

Moyenne conditionnelle de X sachant que Y = yj : x/j


p p p
1 X 1 X X
x/j = x/Y=yj = ni/j xi = nij xi = fi/j xi ;
n•j n•j
i=1 i=1 i=1

2
Variance conditionnelle de X sachant que Y = yj : σx/j
p p
2 1 X 2 X 2
σx/j = V(x/Y=yj ) = ni/j xi − x/j = fi/j xi − x/j .
n•j
i=1 i=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 58 / 68
Pour i = 1, . . . , p
Dist. cond. de Y en effectifs/fréquences sachant que X = xi

{(yj , nj/i ) ; 1 ≤ j ≤ q} {(yj , fj/i ) ; 1 ≤ j ≤ q}

avec
nij
nj/i = nij et fj/i =
ni•

Moyenne conditionnelle de Y sachant que X = xi : y/i


q q q
1 X 1 X X
y/i = y/X=xi = nj/i yj = nij yj = fj/i yj ;
ni• ni•
j=1 j=1 j=1

2
Variance conditionnelle de Y sachant que X = xi : σy/i
q q
2 1 X  2 X  2
σy/i = V(y/X=xi ) = nj/i yj − y/i = fj/i yj − y/i .
ni•
j=1 j=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 59 / 68
Autre écriture de la variance conditionnelle

p
2 1 X 2
σx/j = ni/j xi − x /j
n•j
i=1
p p
1 X 2 X 2
= nij xi2 − x /j = fi/j xi2 − x /j
n•j
i=1 i=1
q
1 X  2
σy2/i = nj/i yj − y /i
ni•
j=1
q q
1 X  2 X  2
= nij yj2 − y /i = fj/i yj2 − y /i
ni•
j=1 j=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 60 / 68
Moyennes et variances conditionnelles du salaire par ége
> round(tapply(SAL_HOR, Age, mean),2)
(15.9,32] (32,48] (48,64] (64,80.1]
14.14 18.62 20.83 18.97
> round(tapply(SAL_HOR, Age, var),2)
(15.9,32] (32,48] (48,64] (64,80.1]
80.15 127.34 140.10 215.17

> tapply(SAL_HOR,Age,summary)
$‘(15.9,32]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.25 9.00 12.00 14.14 16.34 90.00

$‘(32,48]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 10.75 15.00 18.62 22.11 74.00

$‘(48,64]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.00 13.00 19.00 20.83 25.72 99.00

$‘(64,80.1]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
7.65 12.00 16.00 18.97 18.00 75.00

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 61 / 68
Moyennes et variances conditionnelles de l’ége par tranche
de salaire
> round(tapply(AGE, SALAIRE, mean),2)
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
40.80 47.06 50.30 52.00
> round(tapply(AGE, SALAIRE, var),2)
(1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
205.08 123.86 131.12 441.00
> tapply(AGE,SALAIRE,summary)
$‘(1.9,26.2]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
16.0 28.0 40.0 40.8 52.0 80.0

$‘(26.2,50.5]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
25.00 38.75 49.00 47.06 56.25 70.00

$‘(50.5,74.8]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.00 40.25 48.50 50.30 58.75 70.00

$‘(74.8,99.1]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
28.0 44.5 61.0 52.0 64.0 67.0
Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)
Statistique descriptive bivariée 2015-2016 62 / 68
Lien entre moyennes marginales et conditionnelles

=⇒ On peut retrouver la moyenne marginale (générale) en calculant la


moyenne pondérée des moyennes conditionnelles.

q q
1X X
x = n•j x/j = f•j x/j
n
j=1 j=1
p p
1 X X
y = ni• y/i = fi• y/i
n
i=1 i=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 63 / 68
Décomposition de la variance

=⇒ On peut pas retrouver la variance marginale à partir des variances


conditionnelles.

Variance marginale = variance des moyennes conditionnelles + moyenne


des variances conditionnelles.

q q
1X 2 1 X
σ2x = n•j x/j − x + 2
n•j σx/j
n n
j=1 j=1
p p
1X  2 1 X
σy2 = ni• y/i − y + 2
ni• σy/i
n n
i=1 i=1

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 64 / 68
Remarque

On peut calculer les moyennes et les variances conditionnelles d’une


variable quantitative sachant les modalités d’une variable qualitative.

Mais la réciproque est fausse ! Evident !

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 65 / 68
Exemple :
Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total
SEXE X
Femme 88% 10% 1% 1% 100%
Homme 81% 16% 2% 1% 100%
dist. marg. de Y 85% 13% 2% 0% 100%

Le salaire horaire moyen de l’ensemble des personnes observés est de


17, 9 dollars ⇒ y = 17, 9
Le salaire horaire moyen des femmes A est de 16, 6 dollars
⇒ y /A = 16, 6
Le salaire horaire moyen des hommes B est de 19, 17 dollars
⇒ y /B = 19, 17
17, 9 = y = pi=1 fi• y /i = 0, 4959 ∗ 16, 6 + 0, 5041 ∗ 19, 17
P
=⇒ voir Slide 52.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 66 / 68
Exemple :

Salaire Y [2 ;26[ [26,50[ [50,76[ [76,100[ Total


SEXE X
Femme 88% 10% 1% 1% 100%
Homme 81% 16% 2% 1% 100%
dist. marg. de Y 85% 13% 2% 0% 100%

La variance marginale du salaire horaire est σy2 = 127, 22.

La variance du salaire horaire des femmes est σy2/F = 105, 84.

La variance du salaire horaire des hommes est σy2/M = 145, 39.

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 67 / 68
Moyennes et variances conditionnelles du salaire horaire
par sexe

> round(tapply(SAL_HOR, SEXE, mean),2)


F M
16.60 19.17

> round(tapply(SAL_HOR, SEXE, var),2)


F M
105.84 145.39

> tapply(SAL_HOR,SEXE,summary)
$F
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.25 10.00 14.00 16.60 20.00 90.00

$M
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 11.00 15.70 19.17 23.04 99.00

Couple de variables (Marie-Luce Taupin marie-luce.taupin@genopole.cnrs.fr)


Statistique descriptive bivariée 2015-2016 68 / 68

S-ar putea să vă placă și