Khi 2

Tout ce que vous navez jamais voulu savoir sur le
2
sans
jamais avoir eu envie de le demander
Julien Barnier
Centre Max Weber
CNRS UMR 5283
julien.barnier@ens-lyon.fr
25 fvrier 2013
Table des matires
1 Introduction 3
1.1 propos de ce document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Mode demploi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Le test du quoi ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Et sinon, a sert quoi ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Lhypothse dindpendance 5
2.1 Petits rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Lindpendance des lignes et des colonnes . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 En rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Calculer lindpendance 8
3.1 Le biais dchantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Contraintes sur les marges du tableau . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Calculs des eectifs thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 En rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Calcul du
2
dun tableau 13
4.1 Observons les carts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Variations lchelle dune cellule . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3
2
partiels et
2
du tableau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.4 Les degrs de libert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.5 Le calcul nal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.6 En rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5 Interprtation 22
5.1 Rsum des pisodes prcdents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2 Valeur du p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.3 Le test du
2
est symtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.4 Le test du
2
dpend du dcoupage en modalits . . . . . . . . . . . . . . . . . . . 24
5.5 Le test du
2
dpend des eectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6 Le test du
2
ne mesure pas lintensit de la dpendance . . . . . . . . . . . . . . . 26
5.7 Les rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6 Limites 30
6.1 Fausse limite : quand les eectifs thoriques sont trop faibles . . . . . . . . . . . . 30
6.2 Vraie limite : les variables caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
7 Ranements 33
7.1 Le V de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7.2 La correction de continuit de Yates . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.3 Le test exact de Fisher pour les tableaux 2 2 . . . . . . . . . . . . . . . . . . . . 35
8 Aide-mmoire 36
2
Partie 1
Introduction
1.1 propos de ce document
Ce document a pour ambition dessayer de prsenter les principes du test statistique dit test
du
2
, autant que possible de manire pas trop rbarbative.
On insistera trs peu sur le mode de calcul eectif (tous les logiciels de statistiques actuels sen
chargent bien mieux que nous) et beaucoup plus sur les concepts sur lesquels le test repose.
La version de rfrence de ce document ainsi que le code source L
A
T
E
X sont disponibles
ladresse :
http://alea.fr.eu.org/pages/khi2
Tous les chiers relatifs ce document sont diuss sous licence Creative commons.
Contributions : nos remerciements Denis Duplan pour sa remarque sur lutilisation des
carrs des carts, et Julien Biaudet pour avoir pris le temps de nous signaler plusieurs coquilles.
1.2 Mode demploi
limage de son titre, ce document est long. Trs long. Trop long.
La lecture intgrale de ce document pourrait avoir des consquences en termes dquilibre
psychique et dexacerbation de sentiments agressifs lgard de son prochain que nous ne saurions
valuer de manire parfaitement rigoureuse. Le principe de prcaution nous dicte donc de prvoir
des modes de lecture alternatifs.
Voici donc un plan rapide de ce qui suit an que ceux qui le souhaitent naient pas supporter
la lecture de lensemble :
la partie 2 prsente lhypothse dindpendance, qui est au cur du test du
2
. La partie 3
prsente la manire dont cette hypothse dindpendance se traduit par le calcul dun tableau
deectifs thoriques ;
la partie 4 prsente les direntes tapes de calcul du
2
dun tableau et les rsultats quon
peut en tirer ;
la partie 5 se penche sur linterprtation qui peut tre faite des rsultats du
2
, et notamment
sur les facteurs qui inuencent la valeur du test ;
la partie 6 aborde les limites lies au test et quil faut prendre en compte dans linterprtation;
la partie 7 indique des subtilits ou des complments au test. Elle peut tre joyeusement
ignore en cas de premire lecture.
3
4 Introduction
Enn, la partie 8 se veut un rcapitulatif des dirents points importants retenir. Chacun
dentre eux est accompagn du numro de la page correspondant si on souhaite un peu plus de
dtail. Cette partie peut tre utilise comme porte dentre pour le reste du document si on ne
souhaite pas une lecture linaire intgrale.
1.3 Le test du quoi ?
Premire interrogation : comment a se prononce ?
Le nest pas un X mais bien une lettre grecque dont le petit nom est khi, lequel se prononce
qui . Et le
2
, qui pourrait se prononcer au carr , se prononce plutt tout simplement deux .
Moralit, si vous souhaitez briller dans un congrs international de statistiques, dites test du
qui-deux plutt que test du x-au-carr
1
.
1.4 Et sinon, a sert quoi ?
En une phrase, le test du
2
permet de dterminer la probabilit que les lignes et les colonnes
dun tableau crois sont indpendantes
2
.
Dit autrement, il permet dvaluer si la rpartition des eectifs dans une table de contingence
est signicativement dirente de celle de la table calcule sous lhypothse dindpendance des
deux variables croises.
Comme tout cela est absolument incomprhensible, nous allons commencer par dnir les con-
cepts de base, et en premier lieu le terme dindpendance.
1. Quoi que lexpression qui-carr semble galement tout fait acceptable, dautant que la version anglaise
est chi squared .
2. Note pour les puristes : nous nabordons dans ce document que le test du
2
de contingence, cest--dire celui
qui teste lindpendance des lignes et des colonnes dun tableau crois. On ne parlera pas des autres applications de
la statistique du
2
, notamment pour tester ladquation une loi ou une rpartition donne.
Partie 2
Lhypothse dindpendance
2.1 Petits rappels
Une variable qualitative est une variable qui mesure une donne pouvant tre dcoupe en un
nombre restreint de modalits, par exemple :
le genre de lenqut : homme, femme ;
la couleur de son arrosoir : vert, rouge, bleu, noir. . . ;
son ge en classes de cinq ans : 21-25 ans, 26-30 ans, 31-35 ans. . . ;
le dernier livre quil a lu : Tractatus logico-philosophicus, Oui-oui et la voiture jaune. . .
Une table de contingence, ou tableau crois, est un tableau qui indique les eectifs du croisement
entre deux variables qualitatives.
Un petit exemple, croisant lge et le dernier livre lu par la personne interroge :
0 10 ans 11 70 ans 71 ans et plus
Tractatus Logico-philosophicus 1 15 2
Oui-oui et la voiture jaune 854 2 621
Sur ce genre de tableau, on peut regarder quelle est la rpartition ges des lecteurs de chaque
ouvrage. Pour cela on calcule les pourcentages en ligne, cest dire quon divise les eectifs de
chaque case par leectif total de la ligne du tableau laquelle elle appartient. Ce qui nous donne
ici :
0 10 ans 11 70 ans 71 ans et plus Total
Tractatus Logico-philosophicus 5,6 % 83,3 % 11,1 % 100 %
Oui-oui et la voiture jaune 57,8 % 0,1 % 42,0 % 100 %
La lecture de ce tableau donnerait 5,6 % de ceux dont le dernier livre lu est le Tractatus
Logico-philosophicus ont entre 0 et 10 ans .
On peut aussi regarder la rpartition de la lecture des livres en fonction de lge. Dans ce cas on
calcule les pourcentages colonnes, cest dire quon divise les eectifs de chaque case par leectif
total de la ligne du tableau laquelle elle appartient. Ce qui nous donne ici :
5
6 Lhypothse dindpendance
0 10 ans 11 70 ans 71 ans et plus
Tractatus Logico-philosophicus 0,1 % 88,2 % 0,3 %
Oui-oui et la voiture jaune 99,9 % 11,8 % 99,7 %
Total 100 % 100 % 100 %
Ce qui pourrait se lire : 11,8 % des 11 70 ans ont lu comme dernier livre Oui-oui et la
voiture jaune .
Plutt que de pourcentages lignes et de pourcentages colonnes , on parle galement parfois
de prols lignes et prols colonnes .
2.2 Lindpendance des lignes et des colonnes
Lobjectif du test du
2
est de dterminer si les lignes et les colonnes dun tableau crois (cest
dire les deux variables tudies) ne sont pas indpendantes. Par indpendantes, on veut dire
que le fait dappartenir une modalit de la premire variable na pas dinuence sur la modalit
dappartenance de la deuxime variable.
Prenons tout de suite un petit exemple avec les deux tableaux suivants, qui croisent le genre et
le plat prfr :
Homme Femme
Choucroute garnie 10 10
Brocolis vapeur 10 10
Homme Femme
Dans le tableau de gauche, les eectifs se rpartissent de manire totalement uniforme : le fait
dtre un homme ou une femme ne semble avoir aucune inuence sur le plat prfr. On ne peut
donc pas parler dun lien entre les deux variables : elles sont indpendantes.
Dans le tableau de droite, inversement, on constate que le fait dtre un homme ou une femme
conditionne totalement le fait de prfrer la choucroute ou les brocolis. On a donc un lien extrme-
ment fort entre les deux variables : elles ne sont absolument pas indpendantes.
Ces deux tableaux prsentent cependant une version quelque peu radicale de lindpendance
1
.
Pour obtenir quelque chose dun peu moins caricatural, on peut repartir de la dnition donne plus
haut en la reformulant : dire que les lignes et les colonnes dun tableau sont indpendantes, cest
dire que la modalit dappartenance en colonne na pas dinuence sur la modalit dappartenance
en ligne.
Ceci signie donc que la rpartition des eectifs du tableau entre les direntes lignes est la
mme quelle que soit la colonne. Dit autrement, cela signie que les pourcentages colonnes du
tableau sont identiques pour toutes les colonnes.
On comprendra sans doute mieux en regardant le tableau suivant :
Homme Femme
Choucroute garnie 20 % 20 %
Brocolis vapeur 80 % 80 %
Total 100 % 100 %
Avec une telle rpartition il est assez naturel den dduire que la prfrence culinaire est in-
dpendante du sexe.
1. Si nous osions, nous parlerions mme de vision tendance indpendantiste.
2.3. En rsum 7
Comme les lignes et colonnes dun tableau sont parfaitement interchangeables, le raisonnement
vaut aussi dans lautre sens, cest dire que lindpendance entre les lignes et les colonnes dun
tableau crois signie que les pourcentages lignes de ce tableau sont les mmes pour toutes les
lignes.
2.3 En rsum
Il ny a quune seule chose retenir : dire que les variables dun tableau crois sont indpendantes
revient dire les trois choses suivantes.
1. le fait dappartenir lune des modalits de la premire variable na aucune inuence sur la
modalit dappartenance de la seconde ;
2. les pourcentages lignes du tableau crois sont les mmes pour toutes les lignes ;
3. les pourcentages colonnes du tableau crois sont les mmes pour toutes les colonnes.
Partie 3
Calculer lindpendance
3.1 Le biais dchantillonnage
Les exemples prcdents utiliss pour illustrer ce quest lhypothse dindpendance restent
thoriques. En eet, nous ne rencontrerons jamais lors du traitement dune vraie enqute des
tableaux o les pourcentages lignes et colonnes sont tous exactement les mmes et o les deux
variables croises sont parfaitement indpendantes :
dune part car un lien entre deux variables ne se traduit jamais en sciences sociales par du
tout ou rien . On pourra toujours trouver une personne sans diplme grande lectrice de
Proust ou un spcialiste en droit constitutionnel collectionneur de nains de jardins ;
dautre part car les rsultats obtenus sont en partie lis aux personnes interroges. On nomme
ce type de variations biais dchantillonnage.
Pour mieux comprendre ce quest ce biais, reprenons notre exemple gastronomique prcdent.
Imaginons que nous avons une population de 1000 personnes, 500 hommes et 500 femmes. On sait
par ailleurs dune part que le sexe na aucune inuence sur le fait de prfrer les brocolis ou la
choucroute, et dautre part quil y a autant de personnes qui apprcient les deux plats. Si nous
interrogeons tout le monde, nous obtenons donc le tableau suivant :
Homme Femme
Choucroute 250 250
Brocolis 250 250
Seulement voil, interroger tout le monde prend du temps et cote des sous. On choisit donc
en gnral de ninterroger quune partie des gens, disons 100 personnes. Si on choisit ces 100
personnes de manire totalement alatoire, on peut sattendre trouver le tableau suivant :
Homme Femme
Choucroute 25 25
Brocolis 25 25
Mais en pratique, il sut que Charles-Emmanuel, qui tait malade parce quil avait mang
trop de brocolis, ne puisse pas rpondre au questionnaire et quil soit remplac au pied lev par
Jean-Kevin qui est un fan de choucroute pour que vous obteniez le rsultat suivant :
Homme Femme
Choucroute 26 25
Brocolis 24 25
8
3.2. Contraintes sur les marges du tableau 9
Et en pratique, vous risquez surtout dobtenir quelque chose qui va ressembler lun des
tableaux suivants :
Homme Femme
Homme Femme
La question qui se pose, ds lors, est de savoir partir de quand on peut dire que les variations
observes sont dues au hasard, et partir de quand on peut estimer quelles sont dues un lien
entre les deux variables. Cest tout lobjet du test du
2
.
Mais avant den arriver l nous devons regarder dun peu plus prs ce que signie lindpendance
entre deux variables qualitatives dans un tableau crois.
3.2 Contraintes sur les marges du tableau
Imaginons maintenant un nouvel exemple. partir dune population de 120 personnes, nous
souhaitons tudier le lien entre la couleur des cheveux (bruns, blonds, roux) et la couleur des nils
(marrons ou bleus)
1
. La question pose est de savoir quoi ressemblerait notre tableau dans le cas
o couleur des cheveux et couleur des nils seraient totalement indpendants
2
.
Intuitivement, et cest ce que nous avons fait jusque ici, on pense au tableau thorique suivant :
Bruns Blonds Roux
Marrons 20 20 20
Bleus 20 20 20
Table 3.1 Tableau des eectifs thoriques (faux)
Mme eectif dans toutes les cases, et eectif total de 120 correspondant notre population.
Comment pourrait-on trouver une plus belle marque dindpendance ?
Certes. Mais cette rpartition thorique sappuie sur une hypothse trs forte : elle suppose dune
part quil y a autant de bruns, de blonds et de roux dans notre population, et dautre part quil y
a autant de personnes aux yeux marrons que de personnes aux yeux bleus. Or cette hypothse est
trs probablement fausse. Imaginons que notre tude se passe en Sude. On observerait alors dans
notre population de 120 personnes les rpartitions de couleurs des cheveux et des nils suivantes :
Bruns Blonds Roux Total
12 90 18 120
Marrons Bleus Total
30 90 120
Table 3.2 Rpartition des couleurs des cheveux et des nils dans la population
Rajoutons maintenant notre tableau 3.1 les totaux en ligne et en colonnes :
1. Les donnes qui suivent sont totalement imaginaires et fantaisistes, mais vous laurez sans doute dj devin. . .
2. Dans ce qui suit, on nommera ce tableau sous hypothse dindpendance tableau thorique, mais il faudrait en
fait lire tableau de rpartition thorique sous lhypothse dindpendance des lignes et des colonnes.
10 Calculer lindpendance
Marrons 20 20 20 60
Bleus 20 20 20 60
Total 40 40 40 120
Table 3.3 Tableau des eectifs thoriques (toujours faux)
On voit tout de suite que quelque chose ne colle pas : si on a bien 120 personnes en tout, on a
60 personnes aux yeux marrons et 60 aux yeux bleus, alors que notre population en compte respec-
tivement 30 et 90. Mme chose pour la couleur des cheveux. Cette rpartition avec 20 personnes
dans chaque case est donc tout simplement impossible.
Petit point de vocabulaire : on appelle les totaux en lignes et en colonnes du tableau 3.3 les
marges du tableau crois. Et on nomme les rpartitions des couleurs des cheveux et des nils
indiques tableau 3.2 les tris plat de ces variables.
En un mot, on vient de rajouter une contrainte forte sur notre tableau thorique de rpartition
sous lhypothse dindpendance : les marges de ce tableau doivent correspondre aux tris plat des
variables correspondantes dans notre population. Dans ce qui suit, on nommera cette contrainte
contrainte sur les marges du tableau de rpartition thorique.
3.3 Calculs des eectifs thoriques
Bon, cest bien gentil tout a, de nous rajouter des contraintes supplmentaires, mais concrte-
ment, il va ressembler quoi notre tableau thorique ?
Pour comprendre, nous allons dabord transformer la rpartition des direntes couleurs de
cheveux et de nils du tableau 3.2 en pourcentages, ce qui donne le rsultat suivant :
10 % 75 % 15 % 100 %
Marrons Bleus Total
25 % 75 % 100 %
Table 3.4 Rpartition des couleurs des cheveux et des nils dans la population, en pourcentages
Avertissement les trois paragraphes qui suivent peuvent tre un peu pnibles comprendre. Si
la lecture des prcdentes sections vous a dj plong dans un tat de lthargie avanc, il est temps
daller prendre un caf ou un jus de carottes. Sinon, nhsitez pas relire plusieurs fois les passages
incomprhensibles.
On se pose la question suivante : sachant que dans une population nous avons 10 % de bruns
et 25 % de personnes aux yeux marrons, sous lhypothse dindpendance des couleurs de cheveux
et de nils, quelle proportion dindividus devrait avoir les cheveux bruns et les yeux marrons ?
Pour rpondre cette question, on peut penser au fait que lhypothse dindpendance signie
que la proportion de personnes aux yeux marrons est la mme quelle que soit la couleur des cheveux.
Elle est donc de 25 % pour les personnes ayant les cheveux bruns. Cela signie quun quart des
10 % de personnes aux cheveux bruns ont les yeux marrons, ou encore que 2,5 %
3
de la population
totale a la fois les cheveux bruns et les yeux marrons.
3. 2,5 tant un quart de 10.
3.4. En rsum 11
Pourcentages thoriques De manire gnrale, la rgle est la suivante : le pourcentage thorique,
sous lhypothse dindpendance, des individus ayant la couleur de cheveux x et la couleur des
nils y est gal au produit entre le pourcentage dindividus ayant la couleur de cheveux x et le
pourcentage dindividus ayant la couleur des nils y.
Pour reprendre un exemple, sachant quon a 75 % de blonds et 25 % de personnes aux yeux bleus,
la proportion de personnes blondes aux yeux bleus dans notre population totale sous lhypothse
dindpendance vaut :
75
100

25
100
=
18, 75
100
, soit 18, 75%
Avec cette rgle on peut dsormais calculer le tableau des pourcentages thoriques sous lhy-
pothse dindpendance :
Marrons 2,5 % 18,75 % 3,75 % 25 %
Bleus 7,5 % 56,25 % 11,25 % 75 %
Total 10 % 75 % 15 % 100 %
Table 3.5 Tableau des pourcentages thoriques (exacts)
Et maintenant que nous avons nos pourcentages thoriques, il est trs facile de passer aux
eectifs : il sut de multiplier, dans chaque case, le pourcentage thorique par leectif total du
tableau. Ainsi, pour les bruns aux yeux marrons, on obtient un eectif thorique de 2, 5% 120,
cest dire 3 personnes. On fait de mme pour toutes les cases du tableau et on obtient :
Marrons 3 22,5 4,5 30
Bleus 9 67,5 13,5 90
Total 12 90 18 120
Table 3.6 Tableau des eectifs thoriques (exacts)
Petite surprise : le tableau contient des nombres virgule ! En eet, comme il sagit deectifs
thoriques, il ne sagit pas forcment de nombres entiers.
Par contre, on remarquera que les marges de notre tableau correspondent bien aux tris plat
de nos variables indiques tableau 3.2, ce qui est plutt rassurant puisque cest quand mme pour
a que nous avons souert depuis quelques pages.
3.4 En rsum
Pour faire notre test du
2
, nous avons besoin de dterminer quoi ressemblerait notre tableau
si les deux variables croises taient totalement indpendantes. Le calcul de ce tableau seectue
en deux temps :
1. on calcule le tableau des pourcentages thoriques, en multipliant pour chaque case la propor-
tion observe dans la population des deux modalits correspondantes ;
2. puis, le tableau des eectifs thoriques se calcule en multipliant le tableau des pourcentages
thoriques par leectif total.
12 Calculer lindpendance
En pratique, il est important de comprendre le principe, et notamment lexistence de la con-
trainte sur les marges. Le mode de calcul importe peu puisquil sera toujours ralis par un logiciel
ddi.
Partie 4
Calcul du
2
dun tableau
4.1 Observons les carts
Prenons maintenant un autre exemple, toujours plus passionnant. Lors dune enqute grande
chelle ralise en partenariat avec lINSEE, lINED et lINSERM, on a demand 200 personnes
leur profession et on a crois cette information avec une variable indiquant sils possdent ou non
une brouette. Le rsultat est le suivant :
Sociologue Banquier Archologue Total
Avec brouette 37 36 12 85
Sans brouette 65 43 7 115
Total 102 79 19 200
Table 4.1 Eectifs observs
Nous savons dsormais calculer le tableau des pourcentages thoriques sous lhypothse
dindpendance entre les deux variables :
Avec brouette 21,7 16,8 4,0 42,5
Sans brouette 29,3 22,7 5,5 57,5
Total 51,0 39,5 9,5 100
Table 4.2 Pourcentages thoriques (en pourcentages, arrondis)
Et nous savons aussi en dduire rapidement les eectifs thoriques correspondant :
Avec brouette 43,4 33,6 8,0 85
Sans brouette 58,7 45,4 10,9 115
Total 102 79 19 200
Table 4.3 Eectifs thoriques (arrondis)
13
14 Calcul du
2
dun tableau
Intuitivement, il semble assez logique maintenant de comparer les eectifs observs avec les
eectifs thoriques. On peut donc calculer les carts entre les deux pour chaque case du tableau en
soustrayant le tableau 4.3 du tableau 4.1 :
Avec brouette -6,4 2,4 3,9 0
Sans brouette 6,4 -2,4 -3,9 0
Total 0 0 0 0
Table 4.4 carts entre eectifs observs et eectifs thoriques (arrondis)
La premire chose que lon remarque est que la somme des carts vaut 0 pour chaque ligne et
chaque colonne du tableau. Pourquoi ? Tout simplement parce que nous lavons bien cherch !
En eet, la contrainte sur les marges que nous avons dnie dans la section prcdente pour le
calcul des eectifs thoriques disait que les sommes en lignes et en colonnes des eectifs observs
devaient tre les mmes que celles des eectifs thoriques. Ceci implique donc que la somme des
carts doit tre gale 0 pour chaque ligne, chaque colonne, et donc pour la totalit du tableau.
Pour bien comprendre, prenons la deuxime colonne de notre tableau. Dans la premire case,
nous avons ajout 2,4 aux eectifs observs pour passer aux thoriques. Comme nous voulons avoir
le mme total au bout du compte, on a gure le choix sur ce quon peut faire dans la deuxime
case : Si on a rajout 2,4 dans la premire, on est oblig denlever la mme chose dans la deuxime.
Et la somme du tout vaut forcment 0.
4.2 Variations lchelle dune cellule
Avertissement : cette section a tendance sloigner du
2
proprement dit, elle est de plus
dune lecture plutt ardue. Son intrt tant davantage pdagogique que pratique, elle peut tre
allgrement ignore en cas de premire lecture ou de dbut de mal de crne. On passera alors
directement la section suivante, page 17.
Bien, nous avons dsormais notre tableau dcart. Il est trs joli. Mais, au fond, il ne nous dit
pas grand-chose. Essayons de comprendre ce que signie la premire ligne : ce quelle nous dit,
cest que nous avons 6,4 sociologues brouette de moins que ce quoi on aurait d sattendre avec
lhypothse dindpendance. Par contre, nous avons 2,4 banquiers et 3,9 archologues brouette
de plus. Cest intressant, mais concrtement, cest beaucoup ou cest pas beaucoup?
Essayons de reformuler la question. 6,4 sociologues brouette en moins, est-ce que cest d
la variation due au biais dchantillonnage ou au fait quil y a un lien entre les deux variables ?
Reformulons encore : si on recommenait notre enqute plusieurs fois, est-ce quon obtiendrait
souvent un cart de 6,4 ? Ou est-ce que lcart varierait beaucoup dune enqute lautre ?
Lidal pour cela serait de pouvoir disposer dune population correspondant notre question-
nement et dinterroger un chantillon alatoire tir plusieurs reprises dans cette population pour
voir quels rsultats on obtient. Cest trs dicile faire en pratique, mais cest trs facile simuler
avec un ordinateur.
Pour cela, nous nous plaons sous lhypothse dindpendance. On imagine que nous disposons
dune population trs vaste parmi laquelle nous savons que la proportion de sociologues brouettes
est exactement de 21,7 %, cest--dire la frquence thorique que nous avons calcule sous hypothse
dindpendance.
On choisit 200 personnes au hasard dans cette population et on note le nombre de sociologues
4.2. Variations lchelle dune cellule 15
brouette parmi ces 200 personnes. Ensuite on recommence : on choisit nouveau 200 personnes
et on note sur la mme feuille le nombre de sociologues avec brouette. Et on recommence. Et on
recommence.
On obtient une liste de chires qui pourrait ressembler a :
50 48 44 49 46 51 53 44 42 44 36 34 42 41 58 45 37 35 38 39
Quavons nous fait exactement ? En notant le nombre de sociologues brouettes parmi les
200 personnes, nous navons rien fait dautre que de noter leectif de la case du tableau crois
correspondant aux sociologues possdant une brouette. Et en utilisant une frquence de 21,7 % de
sociologues brouettes, nous nous sommes mis dans les conditions exactes dexprience exiges
par lhypothse dindpendance entre les variables. Nous avons donc simul par ordinateur, et
plusieurs reprises, une ralisation de notre enqute sous lhypothse dindpendance.
Maintenant on va oublier les tableaux (pas pour longtemps rassurez-vous) et on va faire des
dessins.
Imaginons que nous reproduisons lexprience 100 fois. On se retrouve avec une srie de 100
nombres ressemblant celle indique prcdemment. On va maintenant compter le nombre de fois
o on retrouve chaque nombre, cest dire le nombre de fois o on a trouv 42 sociologues
brouettes, le nombre de fois o on a trouv 43 sociologues brouettes, etc. On obtient un tableau
qui ressemble a :
Nombre de sociologues brouette . . . 41 42 43 . . .
Nombre doccurrences . . . 10 9 12 . . .
Enn, on transforme ce tableau en graphique pour avoir une ide de la rpartition de lensemble
des nombres trouvs. Ce qui donnerait quelque chose comme la gure suivante :
0
2
4
6
8
Rsultats pour 100 expriences
Nombre de sociologues brouette trouvs
N
o
m
b
r
e

d
'
o
c
c
u
r
r
e
n
c
e
s
32 34 36 38 40 42 44 46 48 50 52 54 56 59
16 Calcul du
2
dun tableau
0
2
0
4
0
6
0
8
0
N
o
m
b
r
e

d
'o
c
c
u
r
r
e
n
c
e
s
25 29 32 35 38 41 44 47 50 53 56 59 63
0
1
0
0
2
0
0
3
0
0
4
0
0
5
0
0
6
0
0
7
0
0
N
o
m
b
r
e

d
'o
c
c
u
r
r
e
n
c
e
s
23 26 29 32 35 38 41 44 47 50 53 56 59 62 68 71
0
1
0
0
0
2
0
0
0
3
0
0
0
4
0
0
0
5
0
0
0
6
0
0
0
7
0
0
0
N
o
m
b
r
e

d
'o
c
c
u
r
r
e
n
c
e
s
22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 68 72
0
1
0
0
0
0
2
0
0
0
0
3
0
0
0
0
4
0
0
0
0
5
0
0
0
0
6
0
0
0
0
7
0
0
0
0
N
o
m
b
r
e

d
'o
c
c
u
r
r
e
n
c
e
s
16 20 24 28 32 36 40 44 48 52 56 60 64 68 73
Figure 4.1 Simulation du tirage de sociologues brouette
Ce que nous dit la gure, cest quon a trouv au minimum 32 et au maximum 59 sociologues
brouettes parmi nos 100 simulations denqutes, et que le nombre de sociologues brouette le plus
frquemment observ est de 40.
Lavantage dune simulation par ordinateur cest quon peut en faire facilement autant quon
veut. On vient den faire 100, on va maintenant en faire 1 000, 10 000, 100 000 et 1 000 000. Les
rsultats sont indiqus gure 4.1.
Que constate-t-on? dabord la forme de la rpartition semble se stabiliser avec le nombre de
tirages, pour atteindre une forme qui rappelera sans doute quelque chose ceux qui ont subi
quelques cours de statistiques durant leurs tudes. En gros, plus on fait dexpriences et plus on
observe que les rsultats ressemblent la fonction de densit dune loi normale (ou courbe de Gauss).
Le maximum semble tre atteint pour la valeur 43. Or, on remarquera que les eectifs thoriques
que nous avons calculs slvent justement 43,4. Cest normal, car les eectifs thoriques sont
ceux quon a la plus grande probabilit de trouver sous lhypothse dindpendance.
Soit, voil une bien jolie courbe. Mais cela ne rpond toujours pas notre question de savoir si
4.3.
2
partiels et
2
du tableau 17
lcart que nous avons observ est important ou non.
Pour cela nous pouvons regarder o se trouve leectif observ dans notre vraie enqute,
cest--dire 37, dans le dernier graphique de la gure 4.1. Pour viter la survenue dune presbytie
trop prcoce, nous avons pris la peine de surligner la barre du graphique incrimine en rouge.
Le nombre de fois o on a trouv 37 slve en fait 38 806. Si on ramne notre million
dexpriences cela signie quon a 3,9 chances sur 100 de trouver un tel rsultat sous lhypothse
dindpendance des deux variables. En pratique, la probabilit associe la seule valeur 37 nous
intresse en fait assez peu : ce qui nous intresse cest de savoir si 37 est une valeur signicative-
ment petite ou pas. Donc ce quon cherche, ce nest pas la probabilit dobtenir exactement 37,
mais plutt celle dobtenir 37 ou moins.
Ici, on obtient une valeur infrieure ou gale 37 dans 155 360 cas sur un million, soit une
probabilit de 15,5 chances sur 100. a nest pas norme, mais pas non plus ngligeable.
Reformulons ce que nous venons de dire : si obtient 37 en valeur observe, il y a 15,5 chances
sur 100 que cette valeur soit due au hasard, cest--dire au biais dchantillonnage.
Reformulons encore : si on observe un eectif de 37 et quon arme quil y a un lien entre le
fait dtre sociologue et le fait davoir une brouette, on a 15,5 chances sur 100 de se tromper. Est-ce
que cest beaucoup ou pas ? La statistique na pas de rponse cette question. Par convention,
elle xe cependant un seuil de signicativit qui est en gnral 5 chances derreur sur 100
(cest le fameux signicatif au seuil de 5 % ). Ce nest quune convention, mais dfaut dtre
mathmatique elle a pour elle le fait que presque tout le monde lutilise.
Quavons nous fait ici ? Nous avons montr quon peut, par simulation, arriver calculer la prob-
abilit dobtenir un eectif observ au plus gal une certaine valeur sous lhypothse dindpen-
dance. La statistique ne nous permet pas de dire si une valeur observe est signicativement plus
petite ou signicativement plus grande en soi, mais elle permet destimer une probabilit dobserver
cette valeur dans le cas o les deux variables sont indpendantes.
4.3
2
partiels et
2
du tableau
Nous venons donc de voir comment, par simulation, on pouvait essayer de dterminer si les
variations observes lchelle dune cellule ont peu ou beaucoup de chances dtre dues au hasard,
ou plus prcisment au biais dchantillonnage. Il nous reste voir la mme chose, mais cette fois
au niveau du tableau tout entier.
Intuitivement
1
, pour passer de la case du tableau au tableau tout entier, on aurait envie de
faire la somme de tous les carts observs dans chaque case pour obtenir une sorte dcart global
lindpendance lchelle du tableau. Et bien cest une excellente ide que vous avez l, et je
vous en flicite, mais comme dhabitude il y a encore une ou deux subtilits dont il va falloir tenir
compte.
Tout dabord, si on essaie immdiatement de faire la somme des carts du tableau 4.4 page 14,
on obtient tout aussi immdiatement. . . 0 ! Si cela ne vous semble pas logique, cest que vous navez
pas lu assez attentivement le paragraphe causant des contraintes sur les marges, page 14. Cest
donc loccasion de vous resservir un caf ou un jus de tomates et de reprendre la lecture de ce
passionnant passage.
Faire la somme, cest donc une bonne ide, mais il faut tenir compte du fait que certains carts
sont positifs et dautres ngatifs et que tout a nit par sannuler. On pourrait sen sortir en faisant
la somme de la valeur absolue de chaque cart (cest--dire en transformant les carts ngatifs en
cart positif), mais les statisticiens, souvent dhumeur un peu chafouine, prfrent utiliser le carr
1. En fait ce nest pas intuitif du tout, mais lexpression intuitivement permet lauteur dviter de fournir de
nouvelles explications laborieuses tout en donnant limpression que pour lui tout a cest quand mme vachement
simple et naturel.
18 Calcul du
2
dun tableau
des carts, ce qui revient peu prs au mme dans la mesure o le carr dun nombre est toujours
positif
2
.
Il reste une deuxime subtilit prendre en compte, que nous comprendrons mieux en regardant
directement le tableau 4.4. Si nous regardons la case des sociologues sans brouette, nous constatons
un cart de 6,4. Si on regarde celle des archologues avec brouette, on obtient un cart de 3,9.
Spontanment on pourrait vouloir comparer les deux valeurs en armant que lcart est plus
grand chez les sociologues sans brouette que chez les archologues avec brouette. Mais il faut tenir
compte dune chose : les eectifs thoriques ne sont pas du tout les mmes dans les deux cases,
puisque nous avions 58,7 sociologues sans brouette attendus contre 8 archologues avec brouette.
Or, un cart de 6 sur une valeur de rfrence de 58 semble tout de suite moins importante quun
cart de presque 4 sur une valeur de rfrence qui vaut 8. . .
En additionnant les carts de toutes les cases sans tenir compte des eectifs de rfrence auxquels
ces carts se rapportent, on risque donc de mlanger des choux, des carottes, des pommes de terre
et des betteraves. Tout a peut faire une trs bonne soupe (surtout si on enlve les betteraves),
mais du point de vue mathmatique le mlange est assez indigeste.
Pour viter de boire le potage, on va donc eectuer une opration assez courante en statistiques,
et quon nomme standardisation, ce qui signie quon va tout rapporter une mme chelle, ce
qui va permettre de pouvoir travailler sur des choses comparables entre elles. En pratique, on va
diviser la valeur des carts par celle des eectifs thoriques correspondant.
Rcapitulons Nous avons notre tableau deectifs observs, notre tableau deectifs thoriques.
Nous pouvons partir de l calculer les carts entre les deux, mais pour raisonner lchelle du
tableau entier nous devons rendre les carts comparables en tenant compte dune part de leur signe
(en les levant au carr) et dautre part du fait quils ne se rapportent pas aux mmes eectifs de
dpart (en les divisant par les eectifs thoriques). On va donc calculer un nouveau tableau dont
les cases contiennent la valeur suivante :
(Eectif observ Eectif thorique)
2
Eectif thorique
Cette valeur est appele le
2
partiel de la case du tableau. Dans notre exemple, on obtient le
tableau suivant :
Sociologue Banquier Archologue
Avec brouette 0,93 0,18 1,91
Sans brouette 0,68 0,12 1,41
Table 4.5
2
partiels (arrondis)
Allluia ! Nous avons enn de beaux carts bien positifs et bien standardiss, que nous allons
pouvoir additionner tous ensemble dans la joie et lallgresse. Ce faisant, nous obtenons la fort jolie
valeur de 5,2402, qui nest rien dautre que la valeur du
2
pour notre tableau crois.
Passe leuphorie bien comprhensible due la beaut de ce rsultat arrach grand renfort
dempilements successifs de subtilits statistiques et de verres de jus dartichaut vides dans lvier
de la cuisine, nous devons nanmoins nous rendre lvidence : 5,2402, cest magnique, mais nous
sommes encore et toujours confronts la mme question : cest beaucoup ou cest pas beaucoup?
Avant de rpondre, nous allons devoir tenir compte dune dernire subtilit statistique. Ne vous
inquitez pas si ce genre de phrase commence gnrer chez vous une certaine lassitude. Mais
2. Le choix de passer les carts au carr sexplique aussi sans doute par le fait quil permet de distendre les carts
entre les valeurs et de faciliter certains calculs.
4.4. Les degrs de libert 19
regardez l-bas au fond, ne voyez vous pas une faible lueur apparatre dans lobscurit ? Le bout
du tunnel nest pas loin, et vous devriez latteindre encore plus facilement en reprenant un grand
verre de nectar davocat.
4.4 Les degrs de libert
La dernire chose dont nous devons tenir compte pour obtenir le rsultat dnitif de notre test
porte le doux nom de degr de libert. Lappellation ne manque pas de charme, mais la notion
quelle recouvre nest pas forcment la plus intuitive qui soit
3
.
En fait, la notion de degrs de liberts dans le cas du test du
2
dindpendance dun tableau
crois signie que la valeur calcule du
2
pour ce tableau doit tre rapporte au nombre de colonnes
et de lignes du tableau en question.
Pour tenter de comprendre, reprenons une clbre enqute mene auprs de 100 professeurs
agrgs, 50 en lettre modernes et 50 en lettres classiques, auxquels on a demand leur style musical
prfr. On fait lhypothse que les deux variables sont indpendantes. On aurait alors obtenu, par
exemple, le tableau suivant :
Lettres classiques Lettres modernes Total
Hip-hop 20 20 40
Mtal 30 30 60
Total 50 50 100
Imaginons maintenant que lenqute ait distingu des sous-genres musicaux lintrieur des
catgories Hip-hop et Mtal :
Lettres classiques Lettres modernes Total
Urban Street Gangsta Rap 5 5 10
Funky Groovy Soul 15 15 30
Industrial Death Metal 10 10 20
Gothic Hard Rock 20 20 40
Total 50 50 100
Maintenant, imaginons quun premier agrg de lettres classiques nait pas entendu la sonnerie
du tlphone au moment o notre enquteur lappelait car il coutait le dernier Dr. X and the
freakin street boyz plein volume pendant quil travaillait sur une nouvelle traduction de lAncien
testament. Et que du coup cest un autre agrg de lettres classiques qui a t enqut, car celui-ci
avait coup le son de Sexy groovy funky girlz pour pouvoir couter les commentaires du match
Lorient - Valenciennes.
Dans le cas de notre deuxime enqute, ceci a une consquence claire : leectif de la case Lettres
classiques - Urban Street Gangsta Rap perd un enqut, au prot de la case Lettres classiques -
Funky Groovy Soul. Mais dans le cas de notre premire enqute, cet vnement na aucune inuence :
dans les deux cas on reste dans la case Lettres classiques - Hip-hop.
Moralit ? Plus il y a de cases dans le tableau, plus les donnes sont susceptibles de varier
alatoirement et donc plus elles sont sensibles au biais dchantillonnage.
Version mathmatique Dun point de vue mathmatique, cette notion de plus grande sensibilit
au biais dchantillonnage est fortement lie aux contraintes sur les marges.
3. Lauteur larme dautant plus facilement quelle est loin de ltre pour lui-mme et que a fait un moment
quil se demande comment il va bien pouvoir essayer dexpliquer ce machin.
20 Calcul du
2
dun tableau
Pour essayer de comprendre, regardons le premier tableau : de par les contraintes sur les marges,
je sais quels doivent tre mes totaux en lignes et en colonnes. Maintenant xons leectif de la
premire case du tableau (20 dans lexemple donn). Comme je sais que le total de la premire
ligne vaut 40, jen dduis immdiatement la valeur de la deuxime case de la premire ligne. Et
comme je connais aussi les totaux en colonne, je peux aussi en dduire les valeurs des cases de la
deuxime ligne. En fait, ds que je connais la valeur dune des cases, je connais celles de lensemble
du tableau. On peut donc considrer que toute la variabilit possible du tableau est contenue dans
une seule case.
Regardons maintenant le deuxime tableau. Si je xe la premire case, je peux calculer leectif
de la deuxime case de la premire ligne, mais pas plus. En fait, pour pouvoir reconstruire lensemble
du tableau, jai besoin de connatre les eectifs de trois cases.
De manire plus gnrale, le nombre de cases dun tableau pouvant varier librement dans
un tableau avec contraintes sur les marges est toujours gal :
(Nombre de lignes 1) (Nombre de colonnes 1)
Et cest prcisment avec cette formule quon calcule le nombre de degrs de libert dun
tableau
4
.
4.5 Le calcul nal
Bien, nous avons dsormais dun ct la valeur du
2
pour notre tableau, et de lautre son
nombre de degrs de liberts.
Rappelez-vous ce que nous avions fait dans la section 4.2 page 14 : nous avions russi calculer,
pour une cellule de tableau, la probabilit dobtenir un eectif donn sous lhypothse dindpen-
dance. Ce calcul avait t obtenu en faisant toute une srie de simulations informatiques. On
pourrait procder de la mme manire lchelle de lensemble du tableau, mais on se heurte vite
deux obstacles :
1. Cest plus compliqu.
2. Les ordinateurs nexistaient pas quand le test du
2
a t invent.
La statistique va donc nous permettre de dterminer directement le mme rsultat qu lchelle
de la cellule, mais sans avoir eectuer de simulations
5
et en utilisant des raisonnements math-
matiques. Elle va ainsi nous permettre de dterminer immdiatement quelle est la probabilit
dobtenir le
2
observ sur notre tableau compte tenu du nombre de degrs de liberts et sous
lhypothse dindpendance
6
.
Pour tre un peu plus concret, reprenons notre exemple des sociologues brouettes. partir
du tableau 4.5 page 18, nous avions dduit que la valeur de notre
2
tait de 5,2402. Du fait que
le tableau en question a 2 lignes et 3 colonnes, nous en dduisons que son nombre de degrs de
liberts vaut (2 1) (3 1) = 2. Et ce que notre logiciel favori va nous indiquer
7
, cest que la
probabilit dobserver un tel rsultat compte tenu de lhypothse dindpendance slve 0,0728.
Cest le fameux p.
4. Les logiciels qui appliquent le test du
2
indiquent en gnral le nombre de degrs de libert du tableau. En
gnral la notation utilise est ddl pour les logiciels francophones, et df pour les anglophones.
5. Les ordinateurs et les algorithmes actuels rendent cependant possibles lutilisation de simulation, ce qui est
peut tre trs utile dans certains cas. On en reparlera dans le cas o les eectifs thoriques sont considrs comme
trop faibles, voir section 6.1 page 30.
6. Plus prcisment, ce que nous dit la statistique cest que la valeur du
2
calcul pour un tableau donn sous
lhypothse dindpendance des lignes et des colonnes tend vers une loi du
2
au nombre de degrs de liberts
correspondant celui du tableau.
7. Auparavant les statisticiens, qui devaient connatre des week-end longs et pluvieux plus frquemment que la
moyenne, samusaient rechercher ces informations dans des tables. . .
4.6. En rsum 21
Comment interprter ce p ? Plusieurs formulations sont possibles, toutes signient la mme
chose :
la probabilit dobserver une valeur du
2
de 5,2402 avec deux degrs de libert slve
0,0728 ;
la probabilit dobtenir le tableau crois observ sous lhypothse dindpendance des deux
variables est denviron sept chances sur cent ;
si jarme partir du tableau crois observ que la profession exerce a une inuence sur le
fait davoir ou non une brouette, jai 7 % de chances davoir tort.
Sept chances sur cent de me tromper, cest beaucoup ou pas ? L la statistique na plus de
rgle mathmatique fournir. En gnral, le seuil partir duquel on considre le rsultat comme
rellement signicatif, cest dire le niveau acceptable de la probabilit de se tromper, est x
par convention et habitude 5 %. Dans le tableau que nous observons depuis maintenant un bon
moment, nous sommes donc la limite : si on se contente dappliquer mcaniquement le traditionnel
seuil de 5 %, alors on ne pourra pas rejeter lhypothse dindpendance entre la profession et le fait
de possder une brouette. Mais on peut saccorder davantage de souplesse et prendre en compte
des rsultats jusqu 10 % ou mme un peu plus. . .
4.6 En rsum
La section qui prcde a t longue et fastidieuse. Les dtails du calcul ne sont l que pour
comprendre la dmarche et faciliter linterprtation, les calculs eux-mmes tant mis en uvre par
un logiciel appropri.
1. Le
2
dun tableau reprsente lcart entre la rpartition observe dans ce tableau et celle
quon observerait si les lignes et les colonnes de ce tableau taient indpendantes, cest--dire,
si le fait dappartenir une modalit dune des deux variables croises navait aucun inuence
sur la modalit dappartenance de la deuxime variable.
2. Le nombre de degrs de liberts dpend du nombre de lignes et de colonnes dun tableau.
3. Avec les deux valeurs prcdentes, on peut estimer la probabilit p dobtenir le tableau observ
dans le cas o lignes et colonnes sont indpendantes. p reprsente le nombre de chances que
jai de me tromper si jarme que les deux variables croises ne sont pas indpendantes.
4. Le seuil de signicativit pour le p est par convention x 5 %, ou 0,05, ou 5 chances sur
cent. Si le p est infrieur ce seuil, cest--dire si on a moins de 5 chances sur 100 de se
tromper, alors on rejette lhypothse dindpendance et on considre quun lien existe entre
les deux variables.
Nous allons maintenant enn pouvoir sortir de cette partie thorique aussi distrayante que
lobservation dun escargot par temps sec pour aborder des exemples plus concrets dutilisation du
test et dinterprtation des rsultats.
Partie 5
Interprtation
5.1 Rsum des pisodes prcdents
Pour ceux qui nauraient pas voulu lire les sections prcdentes, ceux qui auraient craqu en
cours de route, ou ceux qui auraient ressenti le besoin de se reposer un moment avant dattaquer
la suite en faisant deux ou trois semaines de stage de mditation dans un monastre bouddhiste,
voici un rcapitulatif des ides bien assimiler pour comprendre ce qui suit.
Le test du
2
vise tester lhypothse dindpendance des lignes et des colonnes dun tableau
crois. Cette hypothse signie que :
1. Le fait dappartenir lune des modalits de la premire variable na aucune inuence sur la
modalit dappartenance de la seconde.
2. Les pourcentages lignes du tableau crois sont les mmes pour toutes les lignes.
3. Les pourcentages colonnes du tableau crois sont les mmes pour toutes les colonnes.
Le test du
2
se base sur la valeur du
2
du tableau, qui est une mesure de lcart entre le tableau
observ et le tableau quon aurait obtenu si les variables taient parfaitement indpendantes, et
sur le nombre de degrs de libert du tableau, qui dpend du nombre de lignes et de colonnes.
partir de ces deux donnes, le test donne une valeur p qui est, le nombre de chances de se
tromper si on dit que les deux variables ne sont pas indpendantes.
5.2 Valeur du p
Le tableau suivant est, pour une fois, tir de donnes relles, en loccurrence celles de lenqute
Histoire de vie ralise en 2003 par lINSEE
1
. Il croise le fait davoir t lev par sa mre seule
jusqu 18 ans par la catgorie socio-professionnelle du pre en 6 postes.
Agriculteur Indpendant Cadre Intermdiaire Employ Ouvrier
lev par sa mre seule 22 50 60 57 50 161
Autre 990 801 572 800 690 2861
Table 5.1 Croisement de la CS du pre avec le fait davoir t lev seul par sa mre
Le
2
vaut 44,63, le nombre de degrs de liberts est 5, p vaut 0,00000001726.
1. Dans ces exemples on sest content des donnes brutes et on na pas utilis la pondration donne par lINSEE.
22
5.3. Le test du
2
est symtrique 23
On peut donc rejeter lhypothse dindpendance sans crainte, puisquon na quune chance sur
plus de 57 000 000 de se tromper
2
. La catgorie sociale dappartenance du pre a une inuence sur
le fait davoir t ou non lev par sa mre seule.
Le tableau qui suit croise le fait de pratiquer ou non le football et le sentiment dappartenir ou
non une classe sociale :
Pratique le football Ne pratique pas le football
Sentiment dappartenance 93 3921
Pas de sentiment dappartenance 92 4165
Ne sait pas 1 131
Le
2
vaut 1,5448, le nombre de degrs de liberts est 2, p vaut 0,4619.
Lhypothse dindpendance entre les deux variables ne peut donc a priori pas tre rejete, on
ne peut pas tablir de lien entre les deux variables.
5.3 Le test du
2
est symtrique
Comme on a dj eu loccasion de le souligner
3
, les lignes et les colonnes dun tableau crois sont
interchangeables. Vous pouvez donc changer vos deux variables, le rsultat du test sera toujours
exactement le mme.
Ceci signie notamment que le tableau na pas en lui-mme de sens de lecture : cest notre
connaissance de lobjet tudi qui nous fait dire le sexe a une inuence sur le fait de prfrer
la choucroute ou les brocolis et non pas le fait de prfrer la choucroute ou les brocolis a une
inuence sur le sexe .
Ce que le
2
nous dit, cest les deux variables sont dpendantes . Ce quil ne nous dit pas,
cest la variable Y est dpendante de la variable X . Le fait de considrer une variable comme
ayant une inuence sur une autre relve de linterprtation et de lanalyse. Cela se traduit en
gnral par le choix dutiliser les pourcentages lignes ou les pourcentages colonnes dans la lecture
du tableau.
Si on reprend lexemple du tableau 5.1, linterprtation va naturellement dans le sens dune
inuence de la catgorie sociale du pre sur le fait davoir t lev seul par sa mre, et non
linverse. Ceci se traduit par lutilisation de pourcentages colonnes pour lanalyse du tableau :
Agriculteur Indpendant Cadre Intermdiaire Employ Ouvrier Ensemble
lev par sa mre seule 2,2 % 5,9 % 9,5 % 6,7 % 6,8 % 5,3 % 5,6 %
Autre 97,8 % 94,1 % 90,5 % 93,3 % 93,2 % 94,7 % 94,4 %
Total 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 %
Cest grce aux pourcentages colonnes quon peut approfondir lanalyse du tableau au-del de
la seule existence ou non dune dpendance entre les variables. Ils nous permettent en eet, par
exemple, de constater que seuls 2,2 % des enquts dont le pre est agriculteur ont t lev seuls
par leur mre, contre 9,5 % de ceux dont le pre est cadre, la moyenne pour lensemble des enquts
tant de 5,6 %
4
.
2.
1
0,00000001726
= 57 937 428, soit quatre fois moins de chances que de gagner au Loto.
3. Mais vous aurez remarqu que ce document ne recule pas devant une certaine dose de rptitions, mais si
celle-ci frise parfois le radotage.
4. Cette analyse sera grandement facilite et statistiquement valide par lutilisation des rsidus, voir section 5.7
page 26.
24 Interprtation
5.4 Le test du
2
dpend du dcoupage en modalits
Dans ce qui prcde on a pu dire indiremment que le test du
2
portait sur lindpendance
des lignes et des colonnes dun tableau crois, ou bien sur les deux variables dun tableau crois.
En fait, la premire formulation est plus rigoureuse, car la deuxime tend masquer le fait que la
manire dont chacune des deux variables est dcoupe en modalits joue un rle considrable dans
la valeur nale du test.
Il semble parfois contre-intuitif dimaginer que la manire dont on code, dcoupe ou regroupe
une variable en classes ou en modalits puisse inuencer sa dpendance ou son indpendance vis-
-vis dautres variables. Si on tient compte de la manire dont le
2
est calcul, cette inuence
sexplique cependant assez bien :
si on regroupe des modalits existantes ou si on en cre de nouvelles, les dimensions du
tableau changent, et donc le degr de libert qui lui est associ galement. Ceci inuence
donc la valeur nale du p ;
mais surtout, selon la manire dont on regroupe ou clate ces modalits, on peut masquer
des carts lindpendance ou au contraire en faire apparatre de nouveaux.
Prenons un exemple nouveau tir de lenqute Histoire de vie en croisant lge (dcoup en
classes) et la variable indiquant si les types dmission prfrs la tlvision sont les sries et
les feuilletons. Commenons par un dcoupage en ges assez n (ici on donne les pourcentages
colonnes) :
25 et moins 26-35 36-45 46-55 56-65 66 et plus Ensemble
Oui 20,4 % 9,8 % 7,5 % 7,5 % 8,1 % 12,5 % 10,2 %
Non 79,6 % 90,2 % 92,5 % 92,5 % 91,9 % 87,5 % 89,8 %
Total 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 % 100,0 %
Le
2
est extrmement signicatif (p quasiment gal zro). On constate que les sries et les
feuilletons sont prfrs la fois par les plus jeunes et par les plus gs
5
.
Imaginons maintenant que la question qui nous intressait au dpart tait de direncier les
moins de 55 ans des plus de 55 ans. Nous aurions alors obtenu le tableau suivant :
55 et moins 56 et plus Ensemble
Oui 10,0 % 10,5 % 10,2 %
Non 90,0 % 89,5 % 89,8 %
Total 100,0 % 100,0 % 100,0 %
Avec un
2
plus du tout signicatif, puisque le p vaut dsormais 0,49 ! En regroupant les classes
dge, on a regroup des catgories o la prfrence pour les sries tait sur-reprsente et dautres
o elle ne ltait pas du tout. Au nal, on a construit deux populations homognes en regroupant
des populations htrognes mais opposes.
De manire gnrale, il est donc prfrable de partir avec des dcoupages en classes les plus
dtaills possibles, pour pouvoir ventuellement ensuite pouvoir regrouper entre elles des modalits
ayant des prols semblables (identis par leurs pourcentages lignes ou colonnes). Dans notre
exemple, on aurait pu regrouper les tranches dge de 36 65 ans pour mieux faire ressortir
lopposition entre les ges intermdiaires et les ges extrmes .
5. Phnomnes bien connus en sociologie des mdias et identis respectivement sous les noms deet Prison
break et deet Derrick.
5.5. Le test du
2
dpend des eectifs 25
5.5 Le test du
2
dpend des eectifs
Dans une tude videmment trs srieuse ralise par le ministre de la Sant, on a voulu tudier
le lien entre le degr de calvitie et le fait davoir ou non attrap un rhume dans les six derniers
mois. On a interrog un premier chantillon en obtenant les rsultats suivants :
A eu un rhume Na pas eu de rhume
Totalement chauve 7 5
Partiellement chauve 4 8
Porte une perruque 9 12
Si on fait les pourcentages lignes, on obtient le tableau suivant :
A eu un rhume Na pas eu de rhume Total
Totalement chauve 58,3 % 41,7 % 100 %
Partiellement chauve 33,3 % 66,7 % 100 %
Porte une perruque 42,9 % 57,1 % 100 %
Ensemble 44,4 % 55,6 % 100 %
Le
2
de notre tableau nest pas du tout signicatif, avec un p de 0,459. Fort du, le ministre a
dcid de renouveler lenqute mais en accordant une rallonge budgtaire qui a permis dinterroger
dix fois plus de personnes, avec les rsultats suivants :
A eu un rhume Na pas eu de rhume
Totalement chauve 70 50
Partiellement chauve 40 80
Porte une perruque 90 120
Si on calcule les pourcentages lignes de ce nouveau tableau, on obtient exactement les mmes
que prcdemment, car les eectifs de chaque case ont tous t multiplis par 10.
Par contre, le
2
de ce nouveau tableau est lui devenu trs signicatif, avec un p infrieur
0,001.
Que sest-il pass ? On vient tout simplement dobserver le fait que plus les eectifs de notre
tableau augmentent, plus les carts lindpendance observs ont de chances dtre signicatifs. Si
jinterroge dix personnes et que jobtiens six fois oui et quatre fois non, je ne peux rien dire. Mais
si jen interroge 10 000 et que jobtiens 6 000 oui et 4 000 non, l je peux en conclure quelque chose.
Le
2
est donc extrmement sensible aux eectifs : plus ceux-ci sont levs, plus le risque de se
tromper en rejetant lhypothse dindpendance est faible, et donc plus la valeur du p est petite.
Un
2
non signicatif peut donc signier soit quon ne peut rejeter lhypothse dindpendance
entre les lignes et les colonnes du tableau (dans le cas o les pourcentages lignes ou colonnes sont
trs proches les uns des autres), soit quil ny a pas indpendance mais que les eectifs dont je
dispose ne me permettent pas den tre sr statistiquement (dans le cas o les pourcentages lignes
ou colonnes sont sensiblement dirents).
26 Interprtation
5.6 Le test du
2
ne mesure pas lintensit de la dpendance
En fait, ceci dcoule directement de la section prcdente et de la sensibilit du
2
aux eectifs.
Prenons les deux tableaux suivants :
Rouge Vert
Rond 10 20
Carr 20 10
Rouge Vert
Rond 100 200
Carr 200 100
Si on veut parler de la force de la dpendance entre les deux variables, on ne peut pas direncier
ces deux tableaux : la rpartition des eectifs entre les cases est la mme, les pourcentages lignes et
colonnes sont identiques. Pourtant si dans le premier cas on a bien un
2
signicatif dune valeur
de 5,4 avec un p de 0,02, dans le second le test devient extrmement signicatif avec un
2
de 65,34
et un p quasiment gal zro.
Le raisonnement ici est exactement le mme que dans la section prcdente : pour une mme
rpartition dans mon tableau, jai dautant plus de chances dtre signicativement loign de
lindpendance que mes eectifs sont importants.
Ce quon peut en conclure ici cest que les valeurs du
2
et du p ne doivent pas tre utilises
comme indicateurs de la force du lien de dpendance entre les variables du tableau crois. On ne
peut donc pas comparer les rsultats du test du
2
pour deux tableaux dirents en en concluant
que la dpendance entre les variables serait plus forte pour lun que pour lautre
6
.
5.7 Les rsidus
Les rsidus sont une aide linterprtation extrmement utile pour lanalyse dun tableau crois.
Pour le dire rapidement, le
2
indique si les carts lindpendance sont signicatifs lchelle du
tableau, les rsidus, eux, donnent cette indication lchelle de chaque cellule. Leur rsultat est en
fait trs proche de ce que nous avons eectu dans la section Variations lchelle dune cellule,
page 14.
Dans cette section, nous avions tent de voir comment on peut, par simulation, estimer si,
lchelle dune case, un cart entre un eectif observ et un eectif attendu tait statistiquement
signicatif ou non. Les rsidus permettent dobtenir cette information pour toutes les cases et donc
de dterminer dans quels sens vont les carts et o ceux-ci sont signicatifs.
Dun point de vue mathmatique, il existe deux types de rsidus : les rsidus de Pearson et
les rsidus de Pearson standardiss (ou ajusts). La dirence entre les deux a relativement peu
dimportance, car leur interprtation est semblable. Dun point de vue calcul et titre tout fait
indicatif, la formule pour les rsidus de Pearson est la suivante :
Eectifs observs Eectifs thoriques
Eectifs thoriques
La formule des rsidus est un tantinet plus complexe
7
, mais linterprtation est la mme dans
les deux cas.
Au nal il ny a que deux choses retenir :
6. Pour tre tout fait rigoureux, on pourrait le faire mais seulement quand les deux tableaux ont les mmes
dimensions et les mmes eectifs totaux. Mais dans tous les cas on prfre utiliser des indices calculs exprs pour,
comme le V de Cramer, que nous verrons section 7.1 page 33.
7. Pour plus dinformations, on pourra se reporter (Agresti, 2002, p. 81).
5.7. Les rsidus 27
si un rsidu est positif, cest que les eectifs dans la case sont suprieurs ceux attendus sous
lhypothse dindpendance. Sil est ngatif, cest que les eectifs observs sont infrieurs aux
eectifs thoriques ;
les rsidus correspondant des carts statistiquement signicatifs sont grosso modo ceux dont
la valeur est suprieure 2 ou infrieure -2
8
.
Tout cela peut sembler compliqu, mais un exemple permettra de mieux comprendre de quoi il
sagit. Exemple rel cette fois, tir toujours de lenqute Histoire de vie, et pour lequel nous allons
croiser la catgorie sociale et le sentiment dappartenir une classe sociale :
Appartient Nappartient pas Ne sait pas
Agriculteur 125 194 9
Indpendant 190 300 6
Cadre 588 433 9
Intermdiaire 842 694 10
Employ 1105 1227 38
Ouvrier 888 1024 45
Le
2
est extrmement signicatif, avec un p proche de zro.
On peut regarder les pourcentages lignes :
Agriculteur 38,1 % 59,1 % 2,7 %
Indpendant 38,3 % 60,5 % 1,2 %
Cadre 57,1 % 42,0 % 0,9 %
Intermdiaire 54,5 % 44,9 % 0,6 %
Employ 46,6 % 51,8 % 1,6 %
Ouvrier 45,4 % 52,3 % 2,3 %
Ensemble 48,4 % 50,1 % 1,5 %
Plus le nombre de cases est lev, plus il devient dicile de lire le tableau. Regardons ce que
valent les rsidus (ici les rsidus de Pearson) :
Agriculteur -2,7 2,3 1,8
Indpendant -3,2 3,3 -0,6
Cadre 4,0 -3,7 -1,7
Intermdiaire 3,4 -2,9 -2,8
Employ -1,2 1,1 0,4
Ouvrier -1,9 1,4 2,8
Les rsidus permettent dorienter le regard vers les cases o les carts sont statistiquement
signicatifs. A priori, en regardant ce dernier tableau on peut se rendre compte que le sentiment
dappartenance une classe sociale est moins frquent que la moyenne chez les agriculteurs et les
indpendants, tandis quil lest plus chez les cadres et les professions intermdiaires. Par ailleurs,
ceux-ci sont moins nombreux que la moyenne ne pas savoir sils appartiennent ou non une classe
sociale, tandis que les ouvriers sont un peu plus nombreux que la moyenne tre dans ce cas.
8. Ceci tant d au fait que les rsidus tendent suivre une loi normale centre rduite.
28 Interprtation
Il y a cependant une chose importante noter lorsquon utilise les rsidus, cest que ceux-ci
mesurent la signicativit de lcart par rapport aux eectifs thoriques attendus de la case. Ils
sont donc lis ces derniers : un cart de 10 quand les eectifs thoriques taient de 20 (cest--dire
un eectif observ de 30) sera sans doute signicatif, tandis que le mme cart de 10 quand les
eectifs thoriques sont de 2 000 ne le sera pas.
Ainsi, de la mme manire que pour le
2
, avoir un rsidu trs suprieur 2 ne signie pas
que lcart entre eectifs observs et eectifs thoriques est trs lev. Ceci signie juste quil est
trs signicativement dirent de zro. Dans notre exemple, si on regarde la case des ouvriers ne
sachant pas sils appartiennent ou non une classe sociale, on a un rsidu suprieur 2 avec un
cart de seulement 0,8 points par rapport au prol moyen (2,3 % contre 1,5 %). Encore une
fois, cest en se rapportant aux pourcentages lignes ou colonnes quon peut voir si lcart au prol
moyen est lev ou pas.
Rsumons :
les rsidus indiquent dans quelle case on a des sur-reprsentations (si leur valeur est suprieure
2) ou des sous-reprsentations (si elle est infrieure -2) statistiquement signicatives ;
ils orientent le regard vers les cases pour lesquelles on peut dire quelque chose, et montrent
linverse celles pour lesquelles lcart au prol moyen nest pas signicatif ;
en dernier lieu ce sont toujours les pourcentages lignes ou colonnes qui permettent de mesurer
lamplitude de cet cart.
Les rsidus sont donc trs utiles pour lanalyse dun tableau dont le
2
permet de rejeter
lhypothse dindpendance. Ils le seront dautant plus que le tableau comporte un grand nombre
de cases. Ils permettent de plus de valider statistiquement les carts observs lchelle de la case
9
.
Reprsentation graphique Lutilisation des rsidus a un autre avantage, cest de permettre la
reprsentation graphique de tableaux croiss incluant les liens entre les direntes modalits, cest
dire les cases dans lesquelles les eectifs observs sont signicativement suprieurs ou infrieurs
aux eectifs thoriques.
Prenons par exemple la gure 5.1 page ci-contre. Elle reprsente le tableau croisant, pour
lenqute Histoire de vie, la catgorie professionnelle de lenqut et la frquence de ses visites
sa famille proche ou loigne. Ce graphique contient une reprsentation visuelle de chaque case
construite de la faon suivante :
la largeur de chaque case est proportionnelle au pourcentage ligne correspondant. On a
dailleurs indiqu dans chaque case la valeur de ce pourcentage ;
la surface de la case est proportionnelle aux eectifs observs ;
la couleur de la case dpend de la valeur du rsidu de Pearson associ : bleu si le rsidu est
signicativement positif, rouge sil est signicativement ngatif, gris sil nest pas signicatif.
La lecture de ce type de graphique nest peut-tre pas vidente de prime abord, mais une fois
habitu elle permet de synthtiser de manire visuelle la quasi-totalit des informations ncessaires
pour lanalyse.
Pour reprendre lexemple de la gure 5.1, on peut ainsi voir immdiatement que les employs et
les ouvriers ont plus frquemment des visites familiales hebdomadaires, tandis que les cadres et les
professions intermdiaires en ont moins souvent. On remarquera galement que le pourcentage est
trs lev chez les agriculteurs (49,4 %), mais que lcart nest pas signicatif, sans doute du fait
deectifs trop faibles. On peut galement remarquer que les cadres ont plus souvent des frquences
de visite intermdiaires (plusieurs fois par mois ou par an) tandis que les ouvriers ont plus souvent
des frquences de visite extrmes (soit hebdomadaires, soit exceptionnelles ou inexistantes).
Ce type de graphique en mosaque permet donc de faciliter lanalyse, l encore plus particulire-
ment dans le cas de tableaux croiss avec un nombre de cases lev.
9. Il est dommage que certaines logiciels comme Modalisa ne proposent pas le calcul des rsidus pour les tableaux
croiss, mme si dans ce cas lutilisation du PEM (pourcentage de lcart maximum) sen rapproche (Cibois, 1993).
5.7. Les rsidus 29
7.57
4.00
2.00
0.00
2.00
4.00
6.34
Pearson
residuals:
pvalue =
< 2.22e16
Rencontres avec la famille
C
S

d
e

l
'
e
n
q
u
Ouvriers
Employs
Interm.
Cadres
Indpendants
Agriculteurs
A
u

m
o
i
n
s

u
n
e

f
o
i
s
p
a
r

s
e
m
a
i
n
e
U
n
e

t
r
o
i
s

f
o
i
s
p
a
r

m
o
i
s
P
l
u
s
i
e
u
r
s

f
o
i
s
d
a
n
s

l
'
a
n
n
e
E
x
c
e
p
t
i
o
n
n
e
l
l
e
m
e
n
t
J
a
m
a
i
s
49.4 25 18.9 5.5 1.2
44.2 19.2 20.8 10.9 5
28.3 33.3 29.4 6.6 2.3
39.1 25.8 25.8 6.3 3.1
49 21.7 18.4 6.8 4.1
49.2 20.3 15.8 10 4.7
Figure 5.1 Graphique en mosaque du croisement entre la CS de lenqut et la frquence des
visites dans la famille
Partie 6
Limites
6.1 Fausse limite : quand les eectifs thoriques sont trop faibles
Commenons par un exemple. Soit le tableau crois suivant, qui sintresse au fait de gagner
ou non au Loto selon quon possde un tre quatre feuilles, un fer cheval ou aucun des deux :
Perdant Gagnant
Tre 220 7
Fer 200 1
Aucun 200 1
Le
2
est signicatif, avec un p 0,03. Cependant tout bon logiciel de statistique qui se respecte
devrait vous gratier dun joli message davertissement vous annonant amicalement que le rsultat
obtenu pourrait bien ntre pas plus valable que celui dun thme astral ralis par un docteur en
sociologie.
Pourquoi donc ? Car en calculant votre
2
, vous avez enfreint le commandement suivant : dans
tout tableau crois, jamais plus de 20 % deectifs thoriques infrieurs 5 tu nauras.
Quest-ce que cest encore que a ? Pour comprendre lorigine de ce principe, il faut se rappeler
que le rsultat du test du
2
(le p) est une approximation, qui en toute rigueur ne deviendrait
parfaitement exacte que quand les eectifs de mon tableau seraient extrmement levs.
Plus prcisment, on peut se rappeler que dans le calcul des
2
partiels associs chaque case,
on a standardis lcart entre eectifs observs et eectifs thoriques de manire ce quun
cart de 15 dans une case o on attendait 6 ne soit pas considr de la mme manire quun cart
de 15 dans une case o on en attendait 6 000.
Une consquence de cette standardisation est quun poids important est accord aux petites
cases, mme si en eectifs les carts correspondants sont relativement faibles. Reprenons notre
tableau et calculons respectivement les eectifs thoriques, les carts entre eectifs observs et
eectifs thoriques, et les rsidus :
Perdant Gagnant
Tre 223,7 3,2
Fer 198,1 2,9
Aucun 198,1 2,9
Eectifs thoriques
Perdant Gagnant
Tre -3,8 3,8
Fer 1,9 -1,9
Aucun 1,9 -1,9
carts
Perdant Gagnant
Tre -0,3 2,1
Fer 0,1 -1,1
Aucun 0,1 -1,1
Rsidus
30
6.2. Vraie limite : les variables caches 31
Que constate-t-on? Malgr la signicativit du
2
, les carts entre eectifs observs et eectifs
thoriques sont plutt faibles. Les rsidus nous indiquent que la seule case o cet cart est signicatif
est la case gagnant avec un tre , mais celle-ci a un eectif observ de 7 au lieu dun eectif
thorique attendu de 3,2, ce qui ne constitue pas forcment une variation trs sensible.
On voit donc comment des variations sur des cases faible eectif peuvent gnrer un
2
glob-
alement signicatif partir dcarts pourtant assez minimes en termes deectifs. Cest pourquoi
une rgle assez courante (mais qui relve de la convention et non de la dmonstration mathma-
tique) veut que pour viter ce genre de perturbations , on ne doit pas avoir, dans un tableau
crois, plus de 20 % des cases avec un eectif thorique infrieur 5. Dans le tableau qui nous
intresse, ce sont 3 cases sur 6 qui sont dans ce cas, soit 50 %, donc la condition de validit nest
pas remplie.
Bien, et quest-ce quon fait alors ? On abandonne notre tude, empli de frustration et damer-
tume, et quelque peu angoiss lide dexpliquer tout a notre directeur de thse qui tait dj
en train de cocher ses numros, un tre quatre feuilles dans chaque main? Et bien non!
Comme nous lavons voqu prcdemment, le fait dutiliser une approximation mathmatique
pour valuer le p du test du
2
nest plus une obligation compte tenu de lvolution des algorithmes
et de la puissance de calcul des ordinateurs. Plutt que de calculer le p par cette approximation,
on peut en eet procder une simulation, de la mme manire que nous lavons fait lchelle
dune case du tableau dans la section 4.2
1
.
Pour aller trs vite, ce calcul du p par simulation seectue en tirant au sort un grand nombre de
tableaux (plusieurs milliers) dont les lignes et les colonnes sont indpendantes et ayant les mmes
dimensions et les mmes marges que notre tableau dintrt. Pour chaque tableau, on calcule la
valeur de son
2
. Une fois quon a tous ces
2
, on regarde quelle proportion dentre eux sont
suprieurs celui de notre tableau : ce pourcentage nest rien dautre que la valeur du p
2
.
Le dtail du calcul importe peu. Ce quil faut retenir cest quon a l une mthode qui nous
permet de calculer un p pour nimporte quel tableau crois, quels que soient les eectifs thoriques
3
.
Si on applique tout ceci notre exemple, on obtient un p par simulation denviron 0,025. Notre
test demeure donc toujours signicatif et nous allons pouvoir poursuivre notre enqute.
Il reste que les rsidus nous ont indiqu que lcart lindpendance dans notre tableau se
jouait essentiellement sur une seule case, et avec des eectifs trs faibles. Parfois cela rend le
tableau inintressant du point de vue de lanalyse. Dans notre cas, montrer que la possession dun
tre quatre feuilles augmente signicativement la probabilit de gagner au loto peut tre un
sujet dintrt central dans notre tude et pour notre directeur de thse.
6.2 Vraie limite : les variables caches
Partons dun nouvel exemple rel tir une fois de plus de lenqute Histoire de vie en croisant
le fait de tenir ou davoir tenu un journal intime, et celui davoir pratiqu le tricot, la broderie ou
la couture au cours des douze derniers mois.
Tient ou a tenu un journal Na jamais tenu de journal
A pratiqu broderie, tricot ou couture 348 1065
Na pas pratiqu 1166 5824
1. Des logiciels comme Modalisa ne le proposent pas. R, lui, le permet laide de loption simulate.p.value de
la fonction chisq.test (R Development Core Team, 2008).
2. Ceux, combien nombreux, que ces questions passionnent pourront se rfrer (Chessel, 2005) pour plus de
dtails.
3. lexception des tableaux ayant un eectif thorique nul, mais ceci narrive que si lune des marges du tableau
est nulle, cest donc fort peu probable.
32 Limites
Le
2
de ce tableau est trs signicatif, avec un p quasiment gal zro. Le fait de pratiquer la
broderie aurait donc une inuence sur le fait de tenir un journal intime (ou inversement).
Ce rsultat est tout fait passionnant, mais ny aurait-il pas un petit biais ? On peut par
exemple remarquer que les deux pratiques sont en gnral perues comme plutt fminines . Le
sexe naurait-il donc pas un eet dans tout a ?
Pour le savoir, la mthode la plus ecace est de recommencer notre test en sparant les hommes
et les femmes. On eectue deux test du
2
sur les deux tableaux suivants :
Journal Pas de journal
Couture 2 26
Pas de couture 286 3473
Hommes
Journal Pas de journal
Couture 346 1039
Pas de couture 880 2351
Femmes
Si on regarde les
2
, on constate quaucun des deux nest signicatif : le p vaut 0,79 pour les
hommes, et 0,12 pour les femmes. Que peut on en conclure ? Qua priori la rpartition observe
dans notre premier tableau ntait pas due un eet dune variable sur lautre, mais au fait que
les deux sont troitement lies au sexe.
On a dcouvert l ce quon appelle lexistence dune variable cache. On observe une dpendance
entre les variables A et B, mais en fait cette dpendance provient uniquement du fait que toutes
deux dpendent dune troisime variable C. Le plus souvent, C sera une des grandes variables
socio-dmographiques classiques, comme le sexe ou lge. Ainsi, les particularits observes pour
la catgorie socio-professionnelle des employs sont assez souvent lies au fait quil sagit dune
catgorie o les femmes sont largement sur-reprsentes.
La mthode pour vrier lexistence dune variable cache est toujours la mme : on applique
nouveau les tests sur des sous-populations peu prs homognes par rapport la variable suspecte.
Dans le cas du sexe, on sparera les hommes et les femmes. Dans le cas de lge, on appliquera le
test sur des tranches dge plus ou moins nes, etc.
Partie 7
Ranements
Nous dtaillons ici des amliorations du test du
2
dont vous entendrez peut-tre parler ou qui
pourront vous tre utiles.
7.1 Le V de Cramer
Dans la section 5.6 page 26, nous avons montr en quoi le
2
ntait pas une mesure du degr
de dpendance entre les lignes et les colonnes dun tableau. On a notamment soulign que du fait
de sa sensibilit la fois leectif total et aux nombres de lignes et de colonnes, les rsultats du
test du
2
et la valeur du p ne peuvent en gnral pas tre compars dun tableau lautre.
Cest justement pour remdier ce problme que Monsieur Harald Cramr
1
a mis au point
une statistique joliment prnomme V et qui se calcule de la manire suivante :
V =

2
Eectif total min(nombre de lignes 1, nombre de colonnes 1)
Cette formule complique sapplique de la manire suivante : tant donn un tableau, on calcule
la valeur de son
2
, on la divise par leectif total lui-mme multipli par la plus petite dimension
du tableau laquelle on aura enlev un. Puis on fait la racine carre de tout a.
Prenons un exemple de calcul sur le tableau suivant (il sagit dune copie honte du tableau 4.1
page 13) :
Sociologue Banquier Archologue
Avec brouette 37 36 12
Sans brouette 65 43 7
Le
2
de ce tableau, nous lavons dj calcul, vaut 5,24. Leectif total vaut 200. La plus petite
dimension du tableau est le nombre de lignes, qui vaut 2. On obtient donc le calcul suivant :
V =
5, 24
200 (2 1)
= 0, 162
1. Penser prononcer Crameur et non Cram .
33
34 Ranements
Les proprits du V retenir sont les suivantes :
la valeur du V est toujours comprise entre 0 et 1 ;
plus le V est lev, plus la dpendance entre les deux variables est forte. Plus le V est faible,
plus les variables se rapprochent de lindpendance. Les cas extrmes sont V = 0, dans le cas
o les deux variables sont parfaitement indpendantes, et V = 1, dans le cas o les variables
sont identiques ;
le V ne dpendant ni des eectifs ni des dimensions du tableau, il peut tre compar dun
tableau lautre.
Prenons comme dhabitude quelques exemples :
Homme Femme
Choucroute 20 20
Brocolis 20 20
V = 0
Homme Femme
Choucroute 10 30
Brocolis 30 10
V = 0, 5
Homme Femme
Choucroute 0 40
Brocolis 40 0
V = 1
On voit bien avec ces trois tableaux que le V varie bien en fonction du niveau de dpendance
dans le tableau, de 0 (indpendance totale) 1 (dpendance totale). Cest ce qui lui vaut le nom
de ccient de contingence (la contingence tant linverse de lindpendance) : plus la valeur du
V est leve, plus la contingence dans le tableau est forte.
Par ailleurs, on peut montrer que la valeur du V est insensible leectif total du tableau :
Homme Femme
Choucroute 20 10
Brocolis 15 35
Lasagnes 38 21
V = 0, 34
Homme Femme
Choucroute 200 100
Brocolis 150 350
Lasagnes 380 210
V = 0, 34
Homme Femme
Choucroute 2 000 1 000
Brocolis 1 500 3 500
Lasagnes 3 800 2 100
V = 0, 34
7.2 La correction de continuit de Yates
La correction de continuit de Yates vient du fait que les lois statistiques utilises dans le test
du
2
sont par nature continues (elles peuvent prendre nimporte quelle valeur, y compris avec
plein de chires derrire la virgule) tandis que les eectifs des cases de notre tableau ne peuvent
tre que des nombres entiers. Ceci peut entraner une survaluation de la valeur du
2
dans certains
cas.
La correction de Yates consiste enlever 0,5 la valeur absolue des carts entre les eectifs
observs et les eectifs thoriques avant de les mettre au carr dans le calcul des
2
partiels, ce qui
donne la formule suivante :
2
partiel =
(|Eectif observ Eectif thorique| 0.5)
2
Eectif thorique
Les conditions dapplication de cette correction ne font pas forcment lobjet dun consensus.
Parfois on la limite aux tableaux ayant 2 lignes et 2 colonnes, parfois non. En gnral elle est
recommande lorsque les eectifs sont insusants, mais l aussi les critres pour le insusant
sont varis.
Bref, le mieux est de laisser faire le logiciel qui, sil est bien lev, devrait lappliquer dans des
conditions peu prs dnies. Dans tous les cas cette correction na deet sensible que lorsque les
eectifs sont faibles
2
.
2. Modalisa, dans sa version 4, applique systmatiquement cette correction aux cases dont les eectifs thoriques
sont infrieurs 5. R, lui, lapplique si le tableau est de dimension 22.
7.3. Le test exact de Fisher pour les tableaux 2 2 35
7.3 Le test exact de Fisher pour les tableaux 2 2
Le test exact de Fisher est une alternative au test du
2
, mais qui vise tester la mme
hypothse et sinterprte exactement de la mme manire. La principale dirence est quil sagit
dun test exact, et non dune approximation tire dune loi statistique.
La bonne nouvelle est donc que ce test peut sappliquer quels que soient les eectifs thoriques
du tableau. La mauvaise nouvelle est quil est assez gourmand en temps de calcul. Cest la raison
pour laquelle on le limite en gnral aux tableaux de dimension 22. On peut cependant lappliquer
des tableaux de plus grande dimension.
Partie 8
Aide-mmoire
Cette partie rcapitule les points importants retenir de tout ce qui prcde. On indique chaque
fois, entre crochets, le numro de la page correspondant au passage o ce point a t trait.
Le test du
2
sapplique un tableau croisant deux variables qualitatives [5]. Il vise tester
lindpendance des lignes et des colonnes de ce tableau.
Dire que les lignes et les colonnes dun tableau crois sont indpendantes revient dire lune
des phrases suivantes [6] :
le fait dappartenir la modalit dune des deux variables na aucune inuence sur la modalit
dappartenance de lautre variable ;
les prols lignes du tableau crois sont tous identiques ;
les prols colonnes du tableau crois sont tous identiques.
Le test du
2
vise dterminer si lon peut raisonnablement rejeter lhypothse dindpendance
des lignes et des colonnes de notre tableau.
Pour cela, on commence par calculer les eectifs quon observerait si les lignes et les colonnes
taient parfaitement indpendantes, en tenant notamment compte des contraintes sur les marges du
tableau [9]. On obtient ainsi le tableau des eectifs thoriques sous lhypothse dindpendance [10].
On calcule ensuite les carts entre eectifs observs et eectifs thoriques et on les standard-
ise pour quils soient tous positifs et comparables : on obtient ainsi le
2
partiel pour chaque
case du tableau [17]. La somme de ces
2
partiels donne la valeur du
2
pour notre tableau.
partir de cette valeur et du nombre de degrs de liberts de notre tableau [19], la statistique nous
permet de dduire un p qui nest autre que la probabilit dobtenir le tableau crois observ si nos
variables taient indpendantes [20].
Le tableau 8.1 page suivante donne quelques exemples de valeurs de p que lon peut obtenir et
de linterprtation qui peut en tre faite [22].
Linterprtation du test du
2
se fait en comparant les prols lignes ou les prols colonnes
leur prol moyen pour dterminer limportance des carts [23]. Lutilisation des rsidus [26] permet
de dterminer, lchelle de chaque case, quels sont les carts qui sont statistiquement signicatifs.
Ils sont trs utiles pour lanalyse notamment quand le nombre de cases est important, et peuvent
mme conduire une reprsentation graphique du tableau crois [29].
Certains points importants sont prendre en compte quand on interprte le rsultat du
2
:
le dcoupage des variables en modalits inue considrablement sur le rsultat et peut faire
apparatre ou masquer des carts lindpendance [24] ;
la valeur du
2
et donc du p est sensible leectif total du tableau : un p infrieur 5 % peut
signier que les eectifs ne sont pas susamment important pour que le lien de dpendance
soit statistiquement avr [25] ;
le rsultat du test nest pas un indicateur de la force du lien entre les deux variables [26] :
36
37
p Interprtation
0,7 On ne peut pas rejeter lhypothse dindpendance.
0,15 En toute rigueur, on ne devrait pas rejeter lhypothse dindpen-
dance. Mais il est possible que des eectifs plus importants nous
le permettrait.
0,05 Les variables ne sont pas indpendantes au seuil classique de 5 %
0,0001 Lhypothse dindpendance doit tre rejete, il y a un lien entre
les deux variables
0 Lhypothse dindpendance est tellement peu probable que le
logiciel narrive mme pas acher tous les zros derrire la vir-
gule.
Table 8.1 Exemples de valeur de p et de son interprtation
comme la valeur du
2
et du p dpendent des eectifs et des dimensions du tableau, on ne
peut comparer ces valeurs dun tableau lautre. Pour ce genre de chose on utilise plutt un
ccient de contingence comme le V de Cramer [33] ;
le lien de dpendance entre les deux variables peut en fait tre d une variable cache
laquelle les deux variables tudies sont lies [31].
Enn, il faut tenir compte du fait que le test peut perdre en abilit dans le cas o des cases
du tableau ont des eectifs thoriques faibles [30]. On peut cependant y remdier soit en calculant
le p par simulation, soit laide du test exact de Fisher [35].
Bibliographie
Alan Agresti : Categorical Data Analysis. Wiley Series in Probability and Statistics. Wiley-
Interscience, Hoboken, 2002.
Daniel Chessel : Comment comparer des frquences trs faibles ?, avril 2005. URL http://pbil.
univ-lyon1.fr/R/querep/qrc.pdf.
Philippe Cibois : Le pem, pourcentage de lcart maximum : un indice de liaison entre modalits
dun tableau de contingence. Bulletin de mthodologie sociologique, (40):4363, septembre 1993.
URL http://pagesperso-orange.fr/cibois/bms93.pdf.
R Development Core Team : R : A Language and Environment for Statistical Computing. R
Foundation for Statistical Computing, Vienna, Austria, 2008. URL http://www.R-project.org.
ISBN 3-900051-07-0.
38

Khi 2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Khi 2

Încărcat de

Drepturi de autor:

Formate disponibile

Tout ce que vous navez jamais voulu savoir sur le

S-ar putea să vă placă și