Documente Academic
Documente Profesional
Documente Cultură
Philippe Cibois
Professeur de sociologie l'universit
de Versailles - St-Quentin en Yvelines
Introduction
Vous tudiez la sociologie (en formation initiale dans un
dpartement de sociologie, d'AES ou de Sciences politiques ; en
formation continue ou par intrt personnel) et vous tes confronts
dans vos lectures (ou dans vos cours) l'utilisation de techniques
statistiques appliques des donnes d'enqute. Ce livre voudrait vous
aider comprendre en quoi consistent, dans l'esprit de cette collection,
certaines de ces statistiques appliques la sociologie (pour reprendre
l'intitul du programme du Deug de sociologie). Je voudrais dans ce
texte introductif vous expliquer en quoi consiste la spcificit de cette
prsentation, ce que l'on trouvera dans ce livre, comment l'utiliser et ce
qu'on n'y trouvera pas.
Une prsentation tourne vers l'utilisateur
Les tudiants en sociologie n'aiment pas en gnral les
mathmatiques pour une raison simple, c'est que, comme le montre la
sociologie de l'ducation, ils ont t contraints de s'orienter pendant
leur secondaire soit vers les lettres, soit vers les sciences conomiques
et sociales, soit dans d'autres directions du fait de leur faible russite
en mathmatiques. Pour arriver faire ce tri social, l'enseignement des
mathmatiques est dans le secondaire d'un niveau d'abstraction fort,
voulu et efficace : il arrive persuader beaucoup de gens qu'ils sont
nuls en math, que ce n'est pas leur truc ou autres justifications aprs
coup qui tentent de rendre compte de ce qui est ressenti souvent
comme une humiliation ou un chec.
Il s'agit l d'une spcificit franaise d'ailleurs relativement rcente
et que je ne souhaite pas ternelle : dans beaucoup de pays,
Sources
La technique de lecture des tableaux croiss en utilisant les
pourcentages en ligne n'est pas ma connaissance attribue un
auteur particulier : elle fait partie du savoir commun d'une discipline.
J'ai propos la technique de lecture rapide dans L'analyse des donnes
en sociologie, paru en 1984 aux Presses Universitaires de France ; la
reprsentation des carts l'indpendance a t prsente d'une
manire formalise dans "Mthodes post-factorielles pour le
dpouillement denqute", Bulletin de Mthodologie sociologique,
n1, octobre 1983 et les indices de liaison d'une attraction dans "Le
PEM, pourcentage de l'cart maximum : un indice de liaison entre
modalits d'un tableau de contingence", Bulletin de mthodologie
sociologique, n40, septembre 1993.
Quant au Khi-deux, il est centenaire puisqu'il a t propos par Karl
Pearson en 1900. Dans le titre de la publication d'origine1, il propose
de trouver une manire de faire "raisonnable" pour tester si une liaison
observe est due ou non au hasard. Il n'est pas sr que depuis cette
date, la littrature qui traite du Khi-deux soit reste "raisonnable",
surtout dans les manuels qui l'enseignent. On essayera ici, dans la
ligne du crateur et de certains de ses successeurs de proposer une
pratique raisonnable de cet indicateur2.
"On the Criterion that a given System of Deviations from the Probable in the
case of a Correlated System of Variables is such that it can be reasonably
supposed to have arisen from Random Sampling", The London, Edinburgh and
Dublin Philosophical magazine and Journal of Science, 1900, vol. 50, p.157-175.
Rdit d'une manire plus accessible dans Kearl Pearson early Statistical
Papers, Cambridge University Press, 1956.
2
Chapitre 1
Attraction et indpendance
1 Lattraction
Lenqute 1989 sur les pratiques culturelles des franais3 nous
apprend que les 4997 enquts se rpartissent de la manire suivante si
lon considre le sexe et le fait daller la chasse4 :
Hommes allant la chasse
172
Femmes
23
Hommes nallant pas la chasse
2232
Femmes
2570
-----------------Total
4997
De cette distribution deffectifs nous pouvons dabord tirer le
pourcentage de ceux qui vont la chasse : 172 hommes + 23 femmes
soit 195 individus sur un total de 4997, soit donc une proportion de
195/4997 = 0,039 et un pourcentage de 3,9%. Il sagit donc dune
pratique assez rare.
Notons qu'une proportion est toujours comprise entre 0 et 1, un
pourcentage entre 0 et 100 : on calcule en proportion parce que cest
du temps". Ces modifications portent surtout sur des simplifications d'accent
(absence d'accent circonflexe sur le "i" et sur le "u" sauf cas d'ambigit et
rgularisations : "vnement" comme "avnement").
3
Nouvelle enqute sur les pratiques culturelles des franais en 1989, Paris,
1990, La Documentation franaise, dsigne dans la suite PRAT89.
4
10
La chasse est une pratique rare (environ 4%) mais trs peu
frquente chez les femmes (moins de 1%) et proche de 7%6 chez les
hommes. Le pourcentage moyen de 3,9% nous sert de repre et la
comparaison se fait entre ce pourcentage et ceux de chacune des deux
catgories de sexe : il est plus fort que la moyenne pour les homme,
plus faible pour les femmes. On compare toujours
perpendiculairement au pourcentage en ligne.
Ce rsultat nest pas surprenant : chacun sait que la chasse est une
activit socialement marque comme masculine. Ce quil est
intressant de voir ici cest que nous pouvons, par la comparaison des
pourcentages, formaliser ce marquage social. Cest ce que nous
appellerons dsormais lattraction. Lattraction entre deux ralits
sociales est rvle par la diffrence au pourcentage moyen. Ici il y a
attraction entre le fait daller la chasse et dtre de sexe masculin.
En cherchant dans la mme enqute des activits marques cette
fois comme fminines, on retrouve le mme phnomne d'attraction
avec le fait de faire soi-mme des vtements.
11
Hommes
Femmes
Total
12
%
%
%
Hommes
33
2371
2404
6,5
52,8
48,1
Femmes
472
2121
2593
93,5
47,2
51,9
-----------------------------------------------------------Total
505
4492
4997
100
100
100
En termes dattractions ou doppositions les rsultats sont les
mmes mais les rfrences de comparaisons sont diffrentes : la
moyenne est ici la rpartition des sexes, un peu en faveur des femmes,
ce qui est normal du fait de la surmortalit masculine pour une
enqute qui prend en compte toute la population partir de 18 ans.
Lattraction femmes - vtements est reprable car 93,5%
(proportion des femmes dans ceux qui font leurs vtements) est plus
fort que 51,9% (proportion moyenne des femmes). Tous les signes des
carts au pourcentage moyen sont les mmes bien que tous les
pourcentages soient diffrents.
Linconvnient de cette deuxime prsentation du tableau est
quelle masque le fait que la fabrication de vtements est un
phnomne plutt rare, quelque soit le sexe, ce qui tait bien mis en
relief dans la premire prsentation puisque ctait la base de la
comparaison. Par contre, ce qui sert de rfrence dans cette deuxime
prsentation, cest la comparaison des sexes qui nest pas le
phnomne que lon souhaite tudier car cest dj quelque chose de
connu. On trouve l la justification de la pratique habituelle des
sociologues de mettre par convention en ligne la variable
pralablement connue (variable dite aussi explicative ) et de mettre
en colonne la variable nouvelle, celle dont on veut rendre compte
13
2 Lindpendance
Toujours de la mme enqute on peut tirer le tableau crois entre le
sexe et le fait de s'occuper d'un jardin : on donne les effectifs et les
pourcentages en ligne.
S'occupe d'un jardin
Oui
Non
Total
Hommes
965
1439
2404
%
40,1
59,9
100
Femmes
1052
1541
2593
%
40,6
59,4
100
-----------------------------------------------------------Total
2017
2980
4997
%
40,4
59,6
100
14
pour ne pas avoir une drive darrondis dans les calculs, on prend ici pour les
oprations davantage de dcimales
9
15
16
3 Lcart lindpendance
Puisque l'effectif thorique est un invariant ne dpendant pas de
l'orientation ligne/colonne, il est possible de calculer pour chaque case
(des donnes relles et non imaginaires) l'effectif correspondant
l'indpendance (produit des marges par le total), puis par diffrence
avec l'observ12, l'cart l'indpendance. On retrouvera pour la
11
17
Homme : observ
thorique
cart
Total
2404
Femme : observ
1052
1541
2593
thorique
1046,6
1546,4
cart
+5,4
-5,4
-------------------------------------------------Total
2017
2980
4997
Les quatre carts l'indpendance sont identiques en valeur absolu :
ce phnomne est li au format du tableau, le fait qu'il soit 2 lignes
et 2 colonnes. Quand l'une de ces dimensions devient suprieure 2,
le phnomne d'galit en valeur absolue disparait pour cette
dimension.
Prenons dans la mme enqute un tableau o les diffrences soient
plus marques : il suffit pour cela de ne pas prendre la pratique du
jardinage en gnral, mais le type de jardinage qui dans l'enqute tait
distingu en deux catgories : jardin potager et jardin d'agrment. Soit
le mme croisement pour la pratique du seul jardin d'agrment (fleurs,
pelouse) :
13
14
18
19
Le tableau initial (jardinage sans autre indication) n'est pas la somme des
deux tableaux spcifiques (potager et agrment), mais leur mlange qui ne peut
tre qu'observ et non calcul car 851 personnes pratiquent les deux types de
jardinages.
20
16
17
21
22
5. protestant
6. juif
7. autre religion (noter)
(0. Non rponse)
18
Total
448
309
recoder signifie agrger dans un mme code ce qui tait auparavant dans des
modalits diffrentes : ces opration sont faites d'une manire logicielle (ici par
lintermdiaire du programme OUTILS du logiciel TRIDEUX)
23
Droite
Total
61
85
33
19
198
------------------------------------------------------------------146
293
296
220
955
24
25
26
27
28
toutes lignes confondues 16,8 - 23,0 = - 6,2 : le rsultat est ngatif car
c'est un dficit par rapport la moyenne (le pourcentage moyen).
Enfin pour la droite, la largeur est de 20,7mm et la hauteur gale 9,6
- 23,0 = -13,4
Vrifions : la base du premier rectangle est ce que nous appellerons
l'importance globale, ou le poids de la gauche. En pourcentage c'est
46,9% du total, en proportion c'est plus prcisment 448 personnes de
gauche sur 955 : 448 / 955 = 0,4691.
PoidsGauche = 0,4691 et de mme
PoidsCentre = 0,3236
PoidsDroite = 0,2073
la somme des poids est l'unit ( l'arrondi prs ventuellement).
La hauteur du premier rectangle, c'est la diffrence entre le
pourcentage de la ligne 33,3 et le pourcentage toutes lignes
confondues, 23,0. En proportion, appelons Proportion de la gauche
pour les sans religion (en abrg PropGaucheSR) le rapport
149 / 448 = 0,3326
PropGaucheSR = 0,3326 et de mme
PropCentreSR = 0,1683
PpropDroiteSR = 0,0960
la proportion des sans religion toute lignes confondues est :
PropSR
= 0,2304
La hauteur du premier rectangle est gale PropGaucheSR PropSR = 0,1022 c'est l'cart au pourcentage moyen que nous
nommons EcartGaucheSR.
La surface est le produit de la largeur par la hauteur, produit de
PoidsGauche par EcartGaucheSR soit 0,4691 0,1022 = 0,04794.
Cette proportion d'un effectif total de 955 (appel Total) correspond
un effectif de
29
30
31
Gauche
Centre
Droite
Tradition
+6,9
-0,9
-14,3
Sans religion
+10,3
-6,2
-13,4
19
32
Interprtation
Le but dune reprsentation graphique est de permettre une lecture
simultane de tous les lments pertinents du tableau (attractions
notes par une surface au-dessus et souligns en noir car cest ce qui
est le plus intressant ; absence dcarts ou indpendance note par
une simple ligne horizontale ; oppositions notes par une surface en
dessous).
On voit aisment :
- que catholiques pratiquants et non-pratiquants sont plutt en
attraction avec la droite ;
33
20
cf. sur laspect politique : Ren Rmond, La droite en France, Paris, Aubier,
1963 ; Jean-Franois Sirinelli (dir.) Histoire des droites en France, Paris,
Gallimard, 1992, 3 volumes (repris partiellement en poche sous le titre : Les
droites franaises, folio histoire n63) ; sur la question scolaire, Alain Prost,
Lenseignement en France 1800-1967, Paris, Armand Colin, 1968 ; sur les
rapports spcifiques entre classe sociale et religion cf. Guy Michelat et Michel
Simon, Classe religion et comportement politique, Paris, Presses de la FNSP et
ed. sociales, 1977 et la nouvelle apprciation de : Jean-Marie Donegani, La libert
de choisir, Paris, Presses de la FNSP, 1993.
34
35
Guy Michelat, Julien Potel, Jacques Sutter, Jacques Matre, Les Franais
sont-ils encore catholiques ?, Paris, Cerf, 1991, rend compte dune enqute
ralise par ces chercheurs en 1986 dsigne dans la suite par le sigle REL86
22
36
24
cette existence dun christianisme culturel est bien mise en valeur par
Yves Lambert dans La religion : paysage en pleine volution in Hlne
Riffault (dir.), Les valeurs des franais, Paris, PUF, 1994.
37
38
25
27
39
Total
Catgorie socioprofessionnelle
du fils en 1993
Agric ArCo CSup Inter Empl Ouvr
Total
258
81
108
153
84
365
1049 (17.4)
24.6
7.7 10.3 14.6
8.0 34.8
100
14
246
180
168
56
167
831 (13.8)
1.7 29.6 21.7 20.2
6.7 20.1
100
3
54
266
104
42
34
503 (8.4)
0.6 10.7 52.9 20.7
8.3
6.8
100
5
56
225
190
61
97
634 (10.5)
0.8
8.8 35.5 30.0
9.6 15.3
100
1
49
148
215
74
180
667 (11.1)
0.1
7.3 22.2 32.2 11.1 27.0
100
19
204
228
568
251 1068
2338 (38.8)
0.8
8.7
9.8 24.3 10.7 45.7
100
-----------------------------------------------------------------300
690 1155 1398
568 1911
6022 (100)
5.0 11.5 19.2
23.2
9.4 31.7
100
40
41
pres, elle n'en reprsente plus que 5% pour les fils. Beaucoup d'actifs
ont donc d, entre les deux gnrations, quitter l'agriculture. La
proportion des ouvriers galement diminu passant de 39 32%.
Artisans-commerants et employs tant rests peu prs stables, les
augmentations se situent au niveau des CSP restantes : professions
intermdiaires (CSP qui passe de 11 23%) et cadres et professions
intellectuelles suprieures (8 19%).
Ces volutions, lies au dveloppement d'un salariat ouvrier (au
dtriment de l'agriculture), puis sa rduction au profit d'emplois plus
qualifis, nous permettent maintenant d'interprter le contenu du
tableau en examinant les diffrents profils qui correspondent aux CSP
des fils.
Un profil est trs plat : celui des employs. Ceci signifie qu'il y a
peu d'carts l'indpendance : la CSP employ reprsente 9% du total
et c'est ce pourcentage que l'on retrouve quelques points prs dans
les pourcentages en ligne de cette colonne du tableau (le plus bas
correspond un dficit d'Artisans-commerants de 2,7%, le plus haut
une attraction avec l'origine sociale du pre identique, employ,
+1,7%). Ceci manifeste que cette catgorie est alimente d'une
manire quivalente par toutes les autres catgories bien qu'il y ait
attraction faible avec l'origine ouvrire ou l'origine employ et
rpulsion faible avec les autres CSP. Par contre, si on considre, non
plus le profil employ (fils) mais l'empilement vertical des diffrents
rectangles employs (pres) dans les autres profils, on repre deux
attractions (en plus de celle employ pre et fils), c'est dire des
approvisionnements prfrentiels dans les profils Cadres et
Intermdiaires. Dans cette dernire catgorie, le rectangle employ est
mme de niveau suprieur au niveau intermdiaire (pre et fils en
ligne et en colonne), ce qui est le seul cas analogue dans tout le
42
28
Cf. Claude Thlot, Tel Pre, tels fils ? Origine familiale et position sociale,
Paris, Dunod, 1982. On trouvera une bibliographie d'ensemble dans Dominique
Merlli, Les enqutes de mobilit sociale, Paris, Presses Universitaires de France,
1994
43
de pres de cette gnration qui taient dans une position basse leurs
yeux, ont pens, souvent avec raison, que leur fils pouvait avoir une
position sociale plus leve que la leur (et que leur fille pourrait peuttre arriver au mme rsultat par le biais d'un mariage avec quelqu'un
en monte sociale), la cl de l'ascension sociale se faisant par l'cole.
Ces cas de mobilit sociale se trouvent dans les cases hors diagonales
en cart positif, importantes dans les profils cadres et professions
intermdiaires.
On soulignera un aspect technique en conclusion de cette analyse :
en reprsentant les colonnes du tableau comme des profils, on fait le
choix de porter l'attention davantage sur les colonnes que sur les
lignes. En inversant lignes et colonnes, les nouveaux profils
reprsenteraient les mmes surfaces en cart l'indpendance (puisque
les carts l'indpendance sont des invariants) mais de faon
diffrente, ni les largeurs ni les hauteurs ne seraient les mmes bien
que leur produit corresponde aux mmes surfaces.
Cependant, on a vu que l'on peut "prendre le point de vue des
lignes" simplement en envisageant les empilements de rectangles de
mme largeur appartenant diffrents profils. Cela revient envisager
toutes les cases en cart positif (ou ngatif) d'une ligne du tableau
d'origine. Par exemple on a vu qu'en examinant l'empilement Pres
agriculteurs on a repr que les agriculteurs avaient eu des enfants
plutt agriculteurs ou ouvriers. On peut vrifier sur le graphique (et le
montrer formellement) que pour un empilement donn, la somme des
surfaces au-dessus de la moyenne est gal la somme des surfaces endessous ; de mme pour un profil donn, la somme des surfaces en
cart positif est gal la somme des surfaces en cart ngatif. Tout
cela vient du fait que dans un tableau quelconque, la somme
44
29
30
45
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
AES
Droit sciences politiques
Langues
Professionnel
Technologique
Scientifique
Littraire
Sciences techn.ing.
Mdecine
Economique
Pharmacie
IUT
Total
NBAC1
46
100
6581 2,6
0,0
0,0
0,0
228 13864
650
1417
1025
1,4
0,5
31,8
1,5
3,3
2,4
2153
49
38
8610
260
28
513
55674 21,7
100
56501 22,0
3,5
0,3
3,6
4,4
2,1
4,2
17,1
14,3
448
1083
1506
450
298
124
730
20,7
8,9
6,8
16,5
22,9
6,8
4,5
1,9
0,0
11,1
8152
3058
1721
5359
4516
1126
1855
594
18,7
7,0
4,0
12,3
10,4
2,6
4,3
Eco
& soc
11550
4854
1722 12016
6452
7429
13588
Total
38046
14,8
3377
28,7
1,5
583
24,0
311
1,8
1359
8,7
3302
15,2
3,6
Pro
20,7
1377
94797 36,9
3397
Tech
1699
27175
4141
1981
3,1
21,6
11,6
13,3
3,9
0,1
0,1
15,5
0,5
0,1
0,9
16989 14013
8552
597
225
828
25
38
1459
130
57
15,1
1,1
0,4
1,5
0,0
0,1
2,6
0,2
0,1
0,0
12607
9275
2773
4,9
3,6
1,1
30,1
10,6
24,8
7,5
11,8
5,2
15,9
5,7
6,2
100
43565 16,9
100
100
100
47
48
faut faire attention au fait que ces faibles carts, s'ils peuvent tre dus
une faible importance numrique peuvent tre dus aussi au fait
qu'une discipline recrute assez indiffremment dans tous les types de
bac. A cette fin on peut comparer les STAPS (Sciences et techniques
des activits physiques et sportives) et sciences co. qui ont des
effectifs du mme ordre (4 5%) mais o on voit un profil plat pour
les STAPS et des diffrenciations marques pour les sciences co.
Contrairement aux sciences co. qui recrutent de manire privilgie
dans la srie conomique et sociale du bac, les STAPS recrutent dans
tous les types de bac : ceci vient du fait que cette section, dont le
dveloppement est rcent, attire des sportifs qui peuvent venir de
toutes les formations, indpendamment des hirarchies de niveau entre
sections. En haut du graphique on repre les similitudes fortes entre
Langues et Lettres
2) le graphique permet de reprer des spcificits : par exemple on
dit souvent que les IUT ne rpondent pas leur vocation premire qui
est d'accueillir les sries technologiques du bac. On voit sur le
graphique la spcificit des IUT qui, bien plus que la moyenne,
accueillent ces types de bac, tout en accueillant aussi lgrement plus
que la moyenne les bac scientifiques, attraction qui leur vaut leur
rputation slective et litiste.
En plus des spcificits dj notes des bacs scientifiques pour les
sciences de la matire et de la vie, et celles des lettres pour les Lettres
et Langues, on repre plutt des cas particuliers :
- que si sciences co. est comparable AES (Filire administrative,
conomique et sociale), on note l'attraction entre sciences co. et
section ES commune aux deux, mais par contre la spcificit d'AES
qui recrute aussi dans les bacs technologiques. On peut comparer
galement avec la situation du Droit, fort recruteur en ES mais aussi
en Lettres. Enfin, la filire sciences humaines et sociale cumule les
attractions avec tous les types de bac sauf les sciences : c'est souvent
49
6 Force de lattraction
Le pourcentage de lcart maximum
Sur le graphique Religion et politique prcdent (RELPOL6), on
voit que les attractions entre gauche et tradition catholique ou
sans religion correspondent des effectifs dindividus en cart
lindpendance assez proches. Peut-on aller plus loin et estimer la
force de lattraction en lui donnant une valeur numrique ?
Pour rpondre cette question, il faut se donner des bornes et
replacer numriquement lobservation entre le cas d'une attraction
nulle qui aura la valeur zro et une liaison maximum qui aura par
convention la valeur 100.
Prenons le cas de lattraction gauche , sans religion : isolons
cette case du tableau en la donnant simplement avec ses marges et le
total :
50
Gauche
......
Total
Sans religion
149
......
Total
448
------------------------------------------220
955
51
Gauche
Centre
Droite
Pratiquant
Non prat
3,8%
26,6%
9,2%
17,7%
Tradition
19,8%
Sans religion
39,2%
On voit sur ce tableau des PEM que les plus fortes liaisons
correspondent aux extrmes ; que les sans religion sont plus lis la
gauche que les catholiques de tradition ; que les pratiquants sont plus
lis la droite que les non pratiquants ; quand au centre, il correspond
52
7 Application du PEM
Le PEM est un indicateur simple calculer, facile interprter
puisque c'est un pourcentage, mais son utilit se rvle surtout quand
il est utilis d'une manire systmatique dans un logiciel de
dpouillement d'enqute : il permet en effet d'explorer
automatiquement un grand nombre de tris croiss et de slectionner,
31
53
54
55
56
57
19,5%
Souhaite tre enterr religieusement
18,5%
Sexe fminin
8,4%
25-34 ans
7,8
35-44 ans
Question Croyance, modalit croyant sceptique
41,0%
Ne croit pas en la rsurrection du Christ
38,7%
On peut tre catholique et accepter les relation sexuelles
avant mariage
23,7%
Se situe politiquement gauche
23,2%
Non-rponse la question sur l'enterrement religieux
15,0%
Sexe masculin
11,7%
ne souhaite pas tre enterr religieusement
10,3%
Non-rponse la question sur la croyance en la
rsurrection du Christ
9,3%
25-34 ans
7,4%
24 ans et moins
Question Croyance, modalit incroyant
80,2%
Ne croit pas en la rsurrection du Christ
61,0%
Ne souhaite pas tre enterr religieusement
37,1%
Se situe politiquement gauche
28,8%
Sexe masculin
12,8%
25-34 ans
7,8%
Non-rponse la question sur l'enterrement religieux
6,7%
24 ans et moins
L'incroyance augmente avec un ge jeune, une orientation politique
gauche. On constate qu'on retrouve avec la modalit la plus extrme
du ct de l'incroyance, des niveaux levs de PEM sur le refus d'une
croyance centrale comme la Rsurrection o le refus d'tre enterr
religieusement. La force des convictions trouve son parallle avec la
force du PEM qui est toujours beaucoup plus fort quand il s'agit de lier
des croyances et des opinions que quand on lie des opinions et des
caractristiques sociales.
58
59
est certes un rite religieux, et est refus ou accept comme tel, mais sa
signification dpasse l'affiliation une croyance religieuse32.
La technique des profils de PEM est la manire rapide d'explorer de
nombreux tableaux croiss : en faisant ainsi on trouve beaucoup
d'attractions dont on ne juge pas qu'elles apportent des informations
nouvelles, mais on peut ainsi rapidement reprer des choses
intressantes.
Cette technique, mise au point pour tudier des liaisons entre
modalits peut maintenant tre tendue pour tudier des modalits
entre questions dans leur ensemble.
8 Le PEM gnralis
On gnralise la dmarche du PEM en se demandant, non plus pour
une case mais pour un tableau tout entier, ce que serait la liaison
maximale et quelle serait dans ce cas la valeur de lensemble des
carts positifs lindpendance. Inversement on a facilement la
situation correspondant labsence de liaison puisque cest
lindpendance. Il restera placer lobservation, synthtise par la
valeur de la somme des carts positifs lindpendance, entre
labsence de liaison et la liaison maximum. Le PEM gnralis sera le
rapport entre la somme des carts positifs observs et la mme somme
dans le cas de la liaison maximum.
Reprenons le tableau croisant opinion politique et affiliation
religieuse :
32
60
Non prat
0
-
Total
448
309
Droite
198
Total
146
293
296
220
955
61
Gauche
Centre
Droite
Total
62
Pratiquant
Gauche
Centre
Droite
Total
68,5
47,2
30,3
146
Non prat
137,4
94,8
60,7
293
Tradition
138,9
95,8
61,4
296
Sans religion
103,2
71,2
45,6
220
Total
448
309
198
955
Tradition
31,1
-2,8
-28,4
Sans religion
45,8
-19,2
-26,6
Tradition
89,1
-27,8
-61,4
Sans religion
116,8
-71,2
-45,6
33
63
34
Cf. Philippe Cibois, "Le choix de l'option latin au collge", Education &
Formations, n48-1996, p.39-51
35
64
63%
Age (se trouve en avance, l'ge normal, en retard)
63%
Niveau en mathmatiques (bon, moyen, trs passable,
insuffisant)
58%
Les parents aident-ils habituellement leur enfant dans son
travail scolaire ? (oui, parce qu'il rencontre des difficults ; oui, bien
qu'il n'ait pas de difficults ; non, parce qu'il n'a pas besoin d'aide ;
non, par manque de temps ; non pour une autre raison)
Cette procdure des profils de PEM gnralis permet de reprer les
questions qui sont en rapport, elle ne permet pas de savoir dans quel
sens se fait la liaison. Prenons par exemple les deux plus forts PEM et
allons voir les tableaux croiss dont ils sont issus :
1) PEM de 88% entre le fait d'avoir choisi ou non l'option latin et le
fait d'avoir ou non suivi des cours de rattrapage pendant les vacances :
Option latin
non
oui
Total
Rattrapage pendant oui
29
1
30
les vacances
non
1497
338
1835
--------------------------------------Total
1526
339
1865
Sur cet exemple on voit que la liaison se fait presque parfaitement
entre le fait de faire du latin et le fait de ne pas avoir suivi de
rattrapage pendant les vacances. La liaison se fait entre le latin et la
non-pratique : ceux qui choisissent l'option latin n'ont pas besoin
d'aide car ce sont de bons lves.
Dans l'exemple suivant, on croise le latin avec l'appartenance des
parents une association de parents.
Option latin
non
oui
Total
Parents membre
oui
159
113
272
d'une association
non
1367
226
1593
de parents d'lves
-------------------------------------
65
Total
1526
339
1865
66
24 %
24 %
23 %
23 %
21 %
21 %
20 %
19 %
19%
18 %
17 %
17 %
16 %
15 %
15 %
14 %
14 %
13 %
13 %
13 %
13 %
13 %
13%
12 %
10 %
10 %
10 %
67
10 Rsum et conclusion
Dans des donnes recueillies lors d'une enqute on a des modalits
de rponses des questions (appeles quelquefois aussi variables). A
l'intersection d'une ligne et d'une colonne le nombre d'individus est dit
l'effectif observ.
Une attraction est une association, plus que la moyenne entre deux
modalits de rponse deux questions. Une rpulsion (ou dficit) est
une association moins que la moyenne. Attractions et rpulsions sont
repres par un cart la moyenne. L'cart la moyenne est la
diffrence entre le pourcentage d'une ligne et le pourcentage toutes
lignes confondues. Attractions, rpulsions, carts la moyenne sont le
reflet d'carts l'indpendance. Un effectif correspondant
l'indpendance, dit effectif thorique, correspond une situation
d'absence de lien, il est obtenu par produit des marges divis par le
total. L'cart l'indpendance est la diffrence entre l'effectif observ
et l'effectif thorique : il peut tre visualis sous forme graphique.
Le pourcentage de l'cart maximum (PEM) mesure, sous forme de
pourcentage, la part que reprsente l'effectif en cart l'indpendance
avec l'effectif correspondant si la liaison tait son maximum. Le
68
PEM peut tre soit local ( l'chelon d'une case d'un tableau) soit
global au niveau de l'ensemble du tableau.
Avec ces outils on a les instruments pour explorer des donnes
d'enqute o l'on a de nombreuses questions : dans une premire tape
on utilise le PEM global pour associer chaque question les autres
questions de l'enqute qui lui sont spcialement lies. Ensuite, pour
des modalits particulires, on peut utiliser des profils de PEM locaux
de modalits. On peut galement visualiser des tableaux intressants.
Cependant, quand les effectifs sont faibles il est raisonnable de se
demander si les liaisons observes ne seraient pas dues au hasard :
c'est ce que nous allons tudier plus particulirement.
69
Chapitre 2
Hasard et signification
1 Les effets du hasard
Savez-vous ce qui sest pass dintressant New-York en 1966 ?
Probablement non, mais si je vous parle d'une panne de courant, il est
probable que cela vous voquera le fait que neuf mois aprs cette
panne, il y a eu une augmentation des naissances. Depuis dailleurs, le
fait sest semble-t-il rpt car chaque panne de courant analogue, on
prdit le mme effet, voire mme on lannonce comme ralis.
Or il nen est rien : il sagit dune pure rumeur base comme toutes
les rumeurs sur une attente et sur un fait dclencheur. Lattente est le
dsir de rupture des interdits que pourrait procurer lobscurit, comme
navement un sociologue osa le dclarer au New York Times36 : "La
lumire sest teinte, et les gens ont t abandonns des interactions
mutuelles". Quant llment dclencheur ce fut celui-ci, toujours
daprs le New York Times : "Une augmentation brutale du nombre
des naissances est signale par plusieurs grands hpitaux new-yorkais,
neuf mois aprs la grande panne dlectricit de 1965. A lhpital du
Mont-Sina, la moyenne journalire est de 11 naissances, il y en eut 28
le 8 aout. Cest le record de cet hpital ; le maximum enregistr
antrieurement ntait que de 18. A lhpital Bellevue, 29 bbs sont
ns le 9 aout contre seulement 11 une semaine auparavant, la moyenne
ntant que de 20. Lhpital Columbia-Presbyterian dont la moyenne
est de 11 naissances en a eu 15 le 8 aout. St-Vincent pour une
36
les lments de base de ce dossier sont issus de : Grard Calot, "Les effets de
la grande panne de courant New York (1965)", Economie et Statistique, 1970,
n18.
70
71
patientes attendent dans des lits de fortune installs dans les couloirs.
Pourquoi ? Serait-ce la pleine lune, source bien connue (bien que
mythique37) daugmentation des naissances ? Non, celle-ci naura lieu
que dans 4 jours, le 12 aout. Alors un interne a un trait de gnie : cest
la faute de la panne dil y a neuf mois. Pour sen assurer, il fait par
tlphone le tour de ses collgues et ne retient videmment que les
carts positifs la moyenne, chiffres qui ne sont pas dailleurs
mirifiques mais qui suffisent faire la matire dun coup de tlphone
aux journaux qui sautent sur loccasion.
Il a donc suffit dun seul cas sortant rellement de lordinaire pour
que se cre une lgende devenue depuis une rumeur puisquelle se
rpte de panne en panne et fait lobjet dune croyance bien tablie.
Ceci manifeste clairement que face un vnement qui sort beaucoup
de lordinaire, lon ne croie pas au hasard : on ne peut pas admettre
quun vnement exceptionnel arrive sans raison, simplement du fait
que, par hasard, la clinique du Mont-Sina ait reu une fois et demie
de patientes de plus que la moyenne. Le statisticien peut se lamenter
de ce fait38 mais le sociologue doit plutt en prendre acte : le trs
exceptionnel doit (socialement) sexpliquer autrement que par le
hasard. Si je lance 10 pices de monnaie sur la table et quelles
retombent toutes sur face, vous me demanderez mon truc alors quil
nest pas impossible que cela arrive par hasard (avec une probabilit
denviron une chance sur mille). Quand la probabilit de ce qui arrive
rellement devient trop faible, le hasard devient inacceptable et on
37
Cf. pour le cas franais : Frdric Saudron, Les naissances de la pleine lune,
Paris, LHarmattan, 1998
38
cest ce que fait Grard Calot dans larticle cit : "lpisode nous parait digne
dintrt parce quil montre combien est sujet caution le tmoignage que tout
individu pris isolment peut apporter sur la base dune information
ncessairement partielle (...) lattention de chacun est naturellement attire par
lexceptionnel, voire le sensationnel, et se dtourne du banal".(p.47)
72
cherche une autre explication : cest bien sur cette pratique que
sappuie lutilisation des tests statistiques que nous allons tudier mais
pour laquelle nous allons nous donner dabord un instrument de
mesure, lcart pondr.
2 Lcart pondr
Imaginons une population de 1000 tudiants classs selon leur srie
du bac et selon leur destination lanne suivante : universit, classes
prparatoires aux grandes coles et autres orientations (IUT et autres
formations finalits professionnelles).
Srie
Universit Classes prep. Prof.
Total
Littraire 130
20
50
200
Eco.et soc. 200
20
80
300
Scientifique 100
50
50
200
Tech.et pro. 70
10
220
300
---------------------------------------------------------Total
500
100
400
1000
Dans ce tableau, isolons deux cases : "littraires allant
luniversit" et "scientifiques allant dans une classe prparatoire", et
calculons pour chaque cas lcart lindpendance :
Littraires
Universit
Observ
130
Thorique 500 x 200 / 1000 = 100
Ecart
130 - 100 = 30
Scientifiques
Classes prparatoires
50
100 x 200 / 1000 = 20
50 - 20 = 30
Lcart pour les deux cases est bien le mme, gal trente
individus, mais ce mme cart lindpendance a-t-il la mme
signification dans les deux cas ? On peut considrer quil nen est pas
ainsi car pour les littraires allant luniversit, leffectif thorique
calcul partir des marges prend en compte limportance de
73
ScientiqueClasses prparatoires
74
Rapport cart/thorique
0,3
Ecart pondr
30 x 0,3 = 9
1,5
30 x 1,5 = 45
les lettres grecques sont souvent utilises par les mathmaticiens pour
dsigner une valeur inconnue, dont on n'a qu'un "reflet", l'observation, en
rfrence au mythe de Platon, o les hommes sont dans une caverne et o ce qu'ils
voient ne sont que les reflets de la ralit idale.
75
2 redoublements
40
Total
76
redoublement
ou +
Masculin
1081,5
319,5
1401
Fminin
326,5
96,5
423
--------------------------------------------------------------Total
1408
416
1824
lcart pour chacune des cases est en valeur absolue de 1,526. On est
trs proche de lindpendance : dailleurs le PEM du tableau nest que
de 0,5%41 : calculons le khi-deux de chaque case en pondrant lcart
de 1,526 par le rapport cart / effectif thorique de chaque case soit :
1,526 x 1,526 / 1081,5 = 0,002 pour la premire case :
0 ou 1
2 redoublements Total
redoublement
ou +
Masculin
0,002
0,007
0,009
Fminin
0,007
0,024
0,031
--------------------------------------------------------------Total
0,009
0,031
0,041
Comme les carts sont minimes par rapport aux effectifs thoriques,
la pondration des carts a jou dans le sens de la diminution : les
contributions de chaque case au khi-deux sont trs faibles et le khideux total est de 0,041 soit largement moins quun individu. Quelque
soit lindicateur considr : lcart lindpendance proche de un
individu, le PEM infrieur 1%, le khi-deux infrieur 1 individu ;
tout nous signale que nous sommes trs proche de lindpendance et
notre conclusion sera, sans que nous ayons ici besoin daller plus loin,
quil y a indpendance entre le sexe et la russite passe dans le
secondaire. Dans notre population dtudiants en IUT, la russite dans
le secondaire a t la mme pour les garons et les filles.
41
77
78
Suprieure
Infrieure
0 ou 1
redoublement
-45,6
45,6
2 redoublements
ou +
45,6
-45,6
2 redoublements
ou +
Total
79
Suprieure
2,8
9,5
12,3
Infrieure
3,1
10,6
13,7
--------------------------------------------------------------Total
5,9
20,1
26,0
Le khi-deux total est de 26 : si lon compare carts bruts et carts
pondrs, on voit que pour toutes les cases la pondration sest faite
dans le sens de la rduction (puisque tous les carts taient infrieurs
au thorique), mais que, mme cette pondration faite, on se trouve
encore avec une somme pondre de 26 individus en cart
lindpendance. Cet cart est-il suffisant pour chercher interprter le
tableau, cest dire admettre quil y ait du sens au croisement, cest
dire refuser de dire que nous sommes, comme dans le cas prcdent,
dans la situation d'indpendance ? La rponse sera guide par
lexistence de tables statistiques du khi-deux qui a priori, vont nous
indiquer dans le cas prsent dun tableau 2 2 sil est lgitime ou non
de penser trouver du sens au tableau, de trouver les carts
suffisamment forts pour quils soient significatifs.
La table du khi-deux part de lhypothse que nous sommes dans
une population du type de notre premier exemple o il ny pas dcart
lindpendance : o il y a indpendance entre ce qui est en ligne et
ce qui est en colonne. Cependant, du fait des fluctuations
dchantillonnage, on peut avoir la malchance de tirer un chantillon
qui ne soit pas reprsentatif de cette population o lhypothse
dindpendance est vraie. Si lon tire un assez grand nombre
dchantillons de la population, 100 par exemple, il arrivera
malheureusement que pour un petit nombre dentre eux, bien que nous
soyons en situation dindpendance, on constatera cependant des
carts lindpendance.
Ce que nous dit la table du khi-deux cest que la somme des carts
pondrs atteindra au moins 0,5 dans la moiti des chantillons, ce qui
80
81
82
83
84
Colonne 2
Colonne 3
Marge
Ligne 1
XXXXXXX XXXXXXX
XXXXXXX
Ligne 2
XXXXXXX XXXXXXX
XXXXXXX
Ligne 3
XXXXXXX XXXXXXX
XXXXXXX
Ligne 4
XXXXXXX XXXXXXX
XXXXXXX
Ligne 5
Marge
XXXXXXX
XXXXXXX XXXXXXX XXXXXXX
XXXXXXX
Plus le degr de libert est grand est plus sont grandes les
fluctuations du khi-deux dues lchantillonnage : les tables du khideux tiennent compte de cet aspect en augmentant les valeurs du khideux aux seuils standards en fonction du degr de libert :
Degr de libert
42
Table du khi-deux42
Seuils
10%
5%
1%
85
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2,7
4,6
6,3
7,8
9,2
10,6
12,0
13,4
14,7
16,0
17,3
18,5
19,8
21,1
22,3
23,5
24,8
26,0
27,2
28,4
3,8
6,0
7,8
9,5
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
6,6
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
Total
86
15-17
18-24
25-34
35-49
50-64
65 et +
Total
Age
15-17
18-24
25-34
35-49
50-64
65 et +
Total
14
261
275
50
675
725
125
942
1067
190
1016
1206
219
754
973
195
556
751
--------------------------------------------------------------793
4204
4997
Maigret : mission prfre
oui
non
Total
5,1
94,9
100
6,9
93,1
100
11,7
88,3
100
15,8
84,2
100
22,5
77,5
100
26,0
74,0
100
--------------------------------------------------------------15,9
84,1
100
87
Total
88
Masculin
15,6
84,4
100
Fminin
16,2
83,8
100
--------------------------------------------------------------Total
15,9
84,1
100
La diffrence de pourcentage en faveur du sexe fminin est
extrmement faible (moins de 1%) : on est donc trs prs de
lindpendance. Le khi-deux du tableau est de 0,3 : en reprenant le
schma KD1 du khi-deux 1 degrs de libert, nous constatons que
nous sommes en zone dacceptation de lindpendance. Les carts sont
trop faibles pour que nous remettions en cause cette hypothse : il y a
indpendance entre le sexe et le choix de cette mission.
6 Variations
Prenons un exemple de lenqute FUM92:
Fumeurs
Non fumeurs
Total
Mre fume
18
13
31
Mre ne fume pas 39
57
96
-----------------------------------------------------------Total
57
70
127
Enqute pdagogique ralise en 1992 (tudiants de licence).
On peut y reprer une attraction entre "mre fume" et "fumeurs"
(PEM = 23,9) ; le khi-deux de ce tableau est de 2,9 soit, pour 1 degr
de libert, un tableau significatif au seuil de 10%. Linformation est
suffisante pour rejeter lhypothse dindpendance. Le fait que la mre
fume fait que l'tudiant est plus souvent fumeur.
Appliquons cependant la technique dj utilise du dplacement
lmentaire : si un individu de la case en attraction (deffectif 18)
changeait de catgorie et que ce changement se rpercute dans toutes
89
Non fumeurs
+1
-1
PEM
Khi-deux
14 17
43 53
0,5%
0,001
15 16
42 54
6,4%
90
16 15
41 55
12,2%
0,751
17 14
40 56
18,1%
1,644
---------------23,9%
---------------29,8%
35,6%
6,391
---------------41,5%
6,6 : seuil de 1%
8,663
18 13
39 57
19 12
38 58
20 11
37 59
21 10
36 60
---------26 5
31 65
---------31 0
26 70
91
PEM
Khi-deux
159 151
411 549
11,6%
6,808
160 150
410 550
12,2%
7,511
tableau de rfrence (effectifs multiplis par 10)
161 149
409 551
12,8%
8,248
43
92
Pre
+Mre
Masculin
309
Fminin
344
Non-rponse
0
Pre
8
12
0
Mre
93
-----------------------------------------------------------------Total
653
20
262
560
26
1530
Pre
Pre Mre Ni Pre Orph Non-rp.Total
+Mre
ni Mre
Masculin
42,6
1,1
17,6 36,5
0,7
1,5
100
Fminin
42,8
1,5
16,7 36,7
0,5
1,7
100
Non-rponse
0
0
0
0
0
100
100
--------------------------------------------------------------------Total
42,7
1,3
17,1 36,6
0,6
1,7
100
On constate que les deux premires lignes de pourcentage sont
pratiquement identiques entre elles et avec le total : il n'y a
pratiquement pas d'carts au pourcentage moyen, donc d'carts
l'indpendance, donc il ne devrait pas y avoir d'carts pondrs et les
contributions au khi-deux devraient tre insignifiantes. Nous
examinons ce point en regardant le tableau des contributions au khideux de chaque case.
Sexe
P+M
Masculin
0,0
Fminin
0,0
Non-rponse 0,4
P
0,2
0,2
0,0
MNi P.ni M.
0,1
0,0
0,1
0,0
0,2
0,4
Orph NR.
0,1
0,1
0,1
0,0
0,0 56,9
94
44
On retrouve ainsi la prcaution la plus indique dans les manuels qui est de
se mfier des tableaux o les thoriques sont infrieurs 1.
45
95
Sexe
Masculin
Fminin
Total
Pre
Pre Mre Ni Pre Orph Non-rp.Total
+Mre
ni Mre
309
8
128
265
5
12
727
344
12
134
295
4
14
803
--------------------------------------------------------------------653
20
262
560
9
26
1530
96
FUM
non
+
46
97
Si l'on examine les carts en lecture rapide, on voit que trois CSP
fument plus que les autres, les Artisans-commerants, les cadres et
professions intellectuelles suprieures et les professions
intermdiaires. Les autres, en particulier employs et ouvriers qui
reprsentent 60% du total, fument moins que la moyenne. Comme le
tableau n'est pas significatif et que l'on voit une logique d'opposition
qui a du sens, on tente un regroupement en deux catgories de CSP :
une CSP sup. (ArtCom, Csup, Inter) et une CSP inf. (empl, ouvr et le
reste). On a alors le rsultat suivant :
Croisement question CSP et question FUM
Le Khi-deux du tableau est de
4.1 ** PEM=15%
COL: FUM FUM
FUM FUM
FUM
Modal.oui non
TOT
oui non
TOT
oui
CSPsup
47
43
90
52.2 47.8 100 40.0 CSPsup +
CSPinf
52
83 135
38.5 61.5 100 60.0 CSPinf TOT
99 126 225
44.0 56.0 100 100
FUM
non
+
98
FUM
non
+
99
Le Khi-deux du tableau
COL: FUM FUM
Modal.oui non
TOT
MASC
18
8
26
FEMI
34
75 109
TOT
52
83 135
est de
12.8 *** PEM=50%
FUM FUM
FUM
oui non
TOT
oui
69.2 30.8 100 19.3
MASC +
31.2 68.8 100 80.7
FEMI 38.5 61.5 100 100
FUM
non
+
100
des
101
Bibliographie
BERTIN, Jacques, 1977, La graphique et le traitement graphique de
l'information, Paris, Flammarion, 1977. Ce livre est consulter
par toute personne voulant rflchir sur des reprsentations
graphiques.
NOVI, Michel, 1988, Pourcentages et tableaux statistiques, Paris,
Presses Universitaires de France, coll. "Que sais-je ?", n3337.
Le but de ce livre est de faire le point sur des connaissances et
des pratiques souvent juges trop lmentaires pour tre
enseignes.
ROUANET Henry, LEROUX Brigitte, BERT Marie-Claude, 1987,
Statistique en sciences humaines : procdures naturelles,
Paris, Dunod, et :
ROUANET Henry, BERNARD Jean-Marc, LEROUX Brigitte, 1990,
Analyse inductive des donnes, Paris, Dunod. Ces deux livres
constituent des rfrences qui, bien que d'accs difficile par
rapport au niveau du prsent livre, devront tre utiliss en
particulier par les enseignants et les chercheurs qui
souhaiteraient approfondir ces questions.
SINGLY, Franois de, 1992, L'enqute et ses mthodes ; le
questionnaire, Paris, Nathan, coll. 128. Savoir lire et produire
des chiffres est considr comme une des comptences
possder pour les tudiants en sciences sociales. Ce livre veut
tre un soutien cet apprentissage de l'enqute par
questionnaire.
102
Enqutes utilises
FUM92 Enqute "pdagogique" sur 127 tudiants de licence de
sociologie en 1992
FUM97 Enqute "pdagogique" sur 225 tudiants d'un deug de
sociologie en 1997
PRAT89 Nouvelle enqute sur les pratiques culturelles des franais en
1989, Paris, 1990, La Documentation franaise. Enqute
ralise par le Ministre de la culture et portant sur 4997
individus.
LATIN94 Enqute faite en 1994 dans le cadre de lenseignement de
mthodologie du Deug de Paris V en collaboration avec
Franois de Singly. Elle est centre sur le choix du latin. 1058
rpondants.
PANEL89 Cohorte d'lves suivis par les services statistiques du
Ministre de l'ducation nationale depuis leur entre en 6e en
1989. Ici, sous-population de 1865 individus.
REL86 Guy Michelat, Julien Potel, Jacques Sutter, Jacques Matre, Les
Franais sont-ils encore catholiques ?, Paris, Cerf, 1991
Enqute portant sur 1530 rpondants dont a t tir ce livre.
Logiciel
TRIDEUX qui a t utilis pour les analyses de ce livre est un logiciel
libre ralis par l'auteur. Il est cd gratuitement et sa
reproduction est libre. Informations auprs de l'auteur
l'adresse : cibois@francenet.fr