Documente Academic
Documente Profesional
Documente Cultură
Semestre 1
Le raisonnement inférentiel
Echantillon
Jennifer Bidet 1
Généraliser à partir de données
quantifiées : la statistique
inférentielle
RAPPEL :
But d’une enquête quantitative : trouver les
déterminants des variations d’une pratique ou
d’une représentation/une préférence
C’est-à-dire : identifier l’existence de liens
entre des variables indépendantes et des
variables dépendantes
2
Généraliser à partir de données
quantifiées : la statistique
inférentielle
Variables dépendantes
Ou variables expliquées
Ensemble de variables centrales qui permettent
d’approcher le sujet d’enquête
Exemple : On cherche à travailler sur le rapport à la
musique
Ø Variables dépendantes : pratiques d’écoute (CD,
concerts, …) ; pratiques instrumentales ; lecture de
3
magazines musicaux ; …
Généraliser à partir de données
quantifiées : la statistique
inférentielle
Variables indépendantes
Ou variables explicatives
Ensemble de variables qu’on va utiliser pour
comprendre les variations de pratiques ou de
représentations autour du sujet choisi
Exemple : On cherche à voir comment le rapport à la
musique varie selon…le sexe, l’âge, le niveau
d’études, la profession des parents, la filière d’étude,
4
…
Généraliser à partir de données
quantifiées : la statistique
inférentielle
On va donc produire des tableaux croisant une
variable indépendante et une variable
dépendante pour voir si la première exerce une
influence sur la seconde.
La question qui se pose ensuite à nous : si on observe
un lien entre ces deux variables à l’échelle d’un
échantillon de la population visée, comment en
conclure que ce lien existe aussi à l’échelle de la
population visée en général??? 5
Généraliser à partir de données
quantifiées : la statistique
inférentielle
Inférence statistique = raisonnement qui
permet de tirer des conclusions fiables sur une
population à partir de l’observation d’un
échantillon de cette population
6
Généraliser à partir de données
quantifiées : la statistique
inférentielle
I. L’échantillonnage
II. L’intervalle de confiance
III. Le test du khi-2
7
I. L’échantillonnage
1. Enquête exhaustive ou enquête par
échantillon?
Enquête exhaustive
8
Enquête exhaustive
Avantages :
Ø Pas besoin de règle de généralisation : pas d’intervalle de confiance
ou de test statistique pour voir si les résultats sont généralisables
Ø Quand l’échantillon est grand, possibilité de travailler sur des sous
populations (ex : si on a interrogé tou.tes les étudiant.es d’U. de
Paris, on peut ensuite faire des traitements uniquement sur les
étudiants de sciences sociales)
Inconvénients :
Ø Souvent impossible : coûteux en argent, en temps, en enquêteurs
Ø Précision illusoire : ce que l’on gagne en interrogeant tout le monde,
on le perd par la multiplication des biais dans la passation du
questionnaire (plusieurs enquêteurs > plusieurs manières de faire
passer l’enquête)
Ø Augmente les risques de non réponse (car relances plus coûteuses) :
si on interroge tout le monde mais qu’il y a 70% de non réponses,
notre enquête ne peut être considérée comme exhaustive
Enquête exhaustive
Un exemple :
Olivier Godechot, Les traders, 2001
Ø Étude sur les traders d’une grande banque française
Ø Observations et entretiens
Ø Questionnaire auprès de tous les membres de la salle des
marchés de cette banque (n = 196)
Au final, taux de réponse = 48%
94 personnes ont répondu
Le chercheur a du analyser les non réponses (ceux qui
occupent les postes les moins prestigieux ont moins répondu
par exemple) avant de pouvoir interpréter ses résultats.
10
Echantillon
= passer le questionnaire auprès d’une partie seulement de la
population mère
Ex : sondage auprès de 2000 personnes pour connaître les
intentions de vote des Français
Ex 2 : questionnaire auprès de 1000 étudiants de U. Paris tirés au
sort d’après leur numéro d’étudiants pour connaître les pratiques
culturelles des étudiants d’U. Paris
Inconvénients :
Ø Suivre les règles de constitution d’un échantillon : éviter les
biais d’échantillonnage
Ø Appliquer les règles de la statistique inférentielle pour la
lecture des résultats
Ø Si l’échantillon est limité, il est difficile de travailler sur
certaines sous-populations
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Ø Un échantillon représentatif est un échantillon obtenu par
tirage au sort dans une base de sondage
15
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Dans la population mère (étudiants U. Paris), il y a 62 000
étudiants, dont 25000 en Santé, 25000 en Sociétés Humanités
et 12 000 en Sciences.
Dans un échantillon aléatoire stratifié dans lequel on veut
autant d’étudiants de chaque faculté, on prendra 334 étudiants
de chaque Faculté.
On tirera 334 numéros d’étudiants de Santé (sur 25000), 334
numéros d’étudiants de SH (sur 25000) et 334 étudiants de
Sciences (sur 12000).
Pour un échantillon de 1002 étudiants.
16
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
L’échantillon stratifié permet de sur-représenter des
catégories plus petites dans la population générale, afin de
permettre une étude plus approfondie.
17
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
On veut comparer les pratiques et contraintes parentales des
parents vivant en couple et des parents vivant seuls.
Dans la base de sondage, on a 2 800 000 parents vivant en
couple, et 800 000 parents isolés. Soit 77,78% de parents en
couple et 22,22% de parents isolés.
19
Population mère
effectifs %
effectifs % effectifs %
20
Dans les deux cas, il s’agit d’un échantillon aléatoire! Donc
les deux correspondent aux exigences de représentativité.
21
Si on utilise l’échantillon stratifié sans coefficient de
pondération, on conclura que l’U. Paris a 50% d’étudiants
masculins (moyenne non pondérée des trois taux). Or
c’est faux : certes la fac Sciences a 75% d’hommes mais
elle a beaucoup moins d’étudiants par exemple que la fac
SH.
75%(0,19)+50%(0,40)+25%(0,40) = 44%
22
En revanche, pour les tris croisés, il n’y a pas forcément
besoin de pondérer les résultats d’un échantillon stratifié!
23
I. L’échantillonnage
3. Les échantillons « empiriques »
Ø l’échantillon aléatoire peut être difficile à pratiquer : il
nécessite une base de sondage
Pas toujours possibles : par exemple, pas de liste exhaustive
des SDF!!
Ø l’échantillon aléatoire est aussi coûteux
Par exemple, pour notre échantillon d’étudiants : il faut
pouvoir avoir la liste de tous les étudiants, et une fois tirés au
sort, les retrouver et les contacter. Pas forcément possible!
24
I. L’échantillonnage
3. Les échantillons « empiriques »
Ø l’alternative : un échantillon « empirique »
Càd constitué de manière pratique, sur le terrain, en essayant
d’équilibrer certaines variables centrales
26
II. L’intervalle de confiance
Pour résumer la partie précédente : les enquêtes
par échantillon permettent de réduire le coût
d’une enquête par questionnaire, tout en gardant
une fiabilité quand les règles de l’échantillonnage
sont respectées.
Mais qui dit « échantillon » dit marge d’erreur!
Un échantillon est une approximation, une image
légèrement déformée de la réalité!
27
Le choix des filières d’étude selon le sexe
En %
Filières d’étude Psycho Socio Droit Médecine Philo Divers Total
supérieures
Sexe
30