Sunteți pe pagina 1din 65

CHAPITRE 5

Statistiques descriptives Partie 1

1. Introduction
Les méthodes quantitatives sont omniprésentes dans la vie quotidienne.
Il existe tellement de firmes de sondage et chacune d’entre elles possède sa
propre méthodologie de recherche.

Voici quelques adresses internet intéressantes où vous trouverez beaucoup


d’informations sur les sondages :
• http ://www.som.ca/Services/ProduitsServices/sondages.htm, le site
de sondage Som, la firme qui fait les sondages pour La Presse/Le Soleil,
• http ://www.statcan.ca/menu-fr.htm, le site de Statistiques Canada
où l’on trouve de l’information sur toutes sortes de sujets, tels que
l’IPC, le taux de chômage etc. ,
• http ://www.stat.gouv.qc.ca/, le site de l’Institut de la Statistique du
Québec où vous trouverez beaucoup d’informations sur la province.
Afin de réaliser certaines études, il est important de respecter une procédure,
que l’on appelle en Méthodes Quantitatives la méthode scientifique. Tout
au long de la session, nous étudierons chacune des étapes constituant cette
démarche.

2. La méthode scientifique
Les premières choses à faire lorsqu’on veut faire un sondage ou une étude
sont de définir l’objet de l’étude, la problématique et les objectifs recherchés.
Il faut également s’assurer de la faisabilité du projet : échéancier, ressources
matérielles, financières et humaines. Nous ne nous attarderons pas sur ces
aspects. Voici les étapes de la méthode scientifique :

69
70 5. Statistiques descriptives Partie 1
Table 1. Les étapes de la méthode scientifique.

Étape 1 : La • Opérationnalisez la démarche en faisant une analyse


définition des conceptuelle.
hypothèses statis- • Énoncez les hypothèses statistiques que vous êtes
tiques. intéressés à vérifier.

Étape 2 : La défi- • Identifiez la population cible et, si nécessaire, dressez


nition de la popu- une liste complète de la population statistique.
lation.

• Déterminez si vous optez pour le recensement ou


Étape 3 : L’éla- pour le sondage.
boration d’un • Dans le cas du sondage, précisez la taille de l’échan-
plan de collecte tillon, la technique d’échantillonnage et, s’il y a lieu
de données. de le faire maintenant, sélectionnez les unités statis-
tiques.

• Les questions doivent être claires, pertinentes,


neutres, complètes et non menaçantes. Certaines
Étape 4 : La auront pour but de vérifier la représentativité de
conception du l’échantillon.
questionnaire. • Le questionnaire sera le plus court possible, aéré et
fonctionnel.

Étape 5 : La col- • Précisez la façon de recueillir les données et de di-


lecte de données. minuer les non-réponses.

• Préparez les données (nettoyer, mettre en ordre, re-


Étape 6 et grouper en tableaux et en graphiques).
7 : Dépouille- • Calculez certaines mesures (de tendance centrale, de
ment, description, dispersion et de position).
analyse et in- • Analysez, inférez (estimation ou tests d’hypothèses)
terprétation des et interprétez les résultats.
données. • Confirmez ou infirmez les hypothèses et, parfois,
formulez-en de nouvelles.

Étape 8 : La ré- • Présentez la démarche, les résultats et les conclu-


daction du rap- sions de votre étude.
port.
5.3. Quelques définitions 71

3. Quelques définitions
Le type d’étude que l’on choisit dépend de plusieurs facteurs. Avant de
tenter de bien comprendre ces facteurs, définissons quelques termes.
Définition 1. Quelques définitions en méthodes quantitatives :
Population cible: c’est l’ensemble de tous les individus, objets ou faits que
l’on désire étudier.
Unité statistique: c’est un élément de la population cible.
Population statistique: c’est l’ensemble de toutes les unités accessibles au
moment de l’étude.
Taille d’une population: c’est le nombre d’unités statistiques dans la po- Intuitivement...
Pour le cours,
pulation, notée par N . population
cible=population
statistique=
Exemple 5.1. Si l’objet d’étude est le nombre d’heures de travail rému- population.
néré des élèves de niveau collégial en 2008, alors la population est l’ensemble
des élèves de niveau collégial en 2008.
Exemple 5.2. Un gestionnaire veut étudier le revenu mensuel de son en-
treprise, alors la population est constituée de tous les mois depuis l’ouverture
de l’entreprise.
Exemple 5.3. Un biologiste désire étudier le nombre de poulets atteints
d’une maladie dans les fermes du Québec. Quelle est la population étudiée ?
SOLUTION
allo le monde

Définition 2. Un recensement est une étude statistique faite sur toutes


les unités statistiques de la population.
Le recensement présente des avantages, mais également certains désavan-
tages.
Avantages
• Les résultats obtenus ne sont pas une estimation, mais correspondent
à la réalité.
• Le recensement permet de traiter des sous-ensembles de la popula-
tion sans difficulté. Par exemple, si l’on étudie les québécois, on peut
facilement étudier les québécois fumeurs.
Désavantages
• Le coût en ressources financières, matérielles et humaines est très élevé.
• Les résultats ne sont pas immédiats. Ça prend du temps faire un re-
censement !
L’alternative au recensement est le sondage.
Définition 3. Le sondage est une étude qui est faite sur un sous-
ensemble de la population. Ce sous-ensemble est appelé échantillon. La
taille de l’échantillon est notée par n.
72 5. Statistiques descriptives Partie 1

4. Les variables
Dans le cadre du cours de Méthodes Quantitatives pour Sciences Hu-
maines, nous allons parler surtout de sondage dont le principal outil est le
questionnaire. Cette section porte sur la façon de construire ce question-
naire, d’aborder les différents sujets à traiter et de commencer l’analyse de
ces sujets.
Intuitivement...
Le sexe, la couleur Définition 4 (Variable). Une variable est une caractéristique étudiée
préférée, le nombre de
téléviseurs par foyer
dans une population donnée.
ou encore l’âge sont
des variables. Exemple 5.4. À la session Hiver 2009, 2 professeurs à la retraite ont
effectué une enquête (sondage) sur 311 étudiants. On leur posait alors des
questions sur leurs habitudes liées à la consommation de drogue, leur travail
rémunéré, leurs études, leur milieu familial, leurs amis et leur intimité. Dé-
terminez la population, l’unité statistique, la taille de l’échantillon ainsi que
le nom de 2 variables à l’étude dans cette enquête.
SOLUTION
allo le monde

Il existe 2 types de variables :


Définition 5. allo le monde
Intuitivement...
Le sexe, le programme
Les variables qualitatives: sont des variables dont les résultats possibles
d’études ou l’état civil sont des qualités. Ces résultats sont appelés modalités.
sont des exemples de
variables qualitatives. Les variables quantitatives: sont des variables dont les résultats possibles
sont des valeurs numériques. Ces résultats sont appelés valeurs.
Intuitivement...
L’âge, le poids et la Nous pouvons séparer les variables qualitatives en deux catégories.
taille sont des
exemples de variables
quantitatives.
Définition 6. allo le monde
Intuitivement...
Les variables qualitatives nominales: sont des variables qualitatives dont
Le degré de les modalités ne possèdent aucun ordre naturel.
satisfaction par
rapport à votre Les variables qualitatives ordinales: sont des variables qualitatives dont
fournisseur cellulaire.
Les différentes les modalités peuvent être ordonnées.
modalités seraient :
très satisfait, Nous pouvons également séparer les variables quantitatives en deux ca-
satisfait, insatisfait,
très insatisfait. Les
tégories.
variables qualitatives
ordinales sont très Définition 7. Les variables quantitatives discrètes: sont des va-
souvent des degrés de
satisfaction,
riables quantitatives dont les valeurs possibles peuvent être énumé-
d’approbation, etc... rées sans risque d’en oublier.
5.4. Les variables 73

Les variables quantitatives continues: sont des variables quantitatives


dont les valeurs possibles ne peuvent être énumérées sans risque
d’en oublier.
Le diagramme 5.1 résume bien le tout.

Type de variable

Qualitative Quantitative

Nominale Ordinale Discrète Continue


• Sexe : f ou g • Âge
• Degré de satisfaction • Température
• Langues parlées • Nombre d’enfants
• Notes alphabétiques • Poids
• Saveur de crème gla- • Nombre de buts
(A+, A,..) • Grandeur
cée préférée comptés

Figure 5.1. Diagramme des différents types de variables.

Exemple 5.5. On décide d’étudier les habitants de Saint-Jean-sur-Richelieu


afin d’établir le portrait de la région. On questionne 1000 johannais et johan-
naises sur leur langue maternelle, leur état civil, leur degré de satisfaction
par rapport à leur ville, le nombre de personnes dans leur ménage, leur re-
venu ainsi que le prix de leur habitation.

a) Quelle est la population étudiée ?

b) Quelle est l’unité statistique ?

c) Est-ce un recensement ou un sondage

d) Quel est l’échantillon et sa taille ?

e) Quelles sont les variables étudiées ?


74 5. Statistiques descriptives Partie 1

f) Quelles sont les modalités ou les valeurs possibles de chacune des


variables ?

g) Identifier le type de chacune des variables ?

4.1. Les échelles de mesure. L’étude des variables doit se faire avec
des outils de mesure. Il n’est pas possible de mesurer le degré de satisfaction
de la même façon qu’on peut mesurer la taille d’un individu. Voilà pour-
Intuitivement...
quoi, on utilise différentes échelles de mesures. Il existe 4 types d’échelles de
Le mot clé pour les mesure.
retenir est NOIR.
Définition 8. allo le monde
(1) L’échelle de mesure est dite Nominale si les résultats sont des mo-
Intuitivement... dalités ne possédant pas d’ordre naturel.
Un zéro arbitraire est
un zéro qui ne (2) L’échelle de mesure est dite Ordinale si les résultats possèdent un
correspond pas à une
absence. La
ordre naturel.
température en est un
exemple. Le zéro est
(3) L’échelle de mesure est dite d’Intervalles si les résultats sont des
fixé au point de valeurs ayant un zéro arbitraire.
congélation de l’eau,
alors qu’on aurait bien (4) L’échelle de mesure est dite de Rapports si les résultats sont des
pu décider de fixer le
zéro de la température valeurs ayant un zéro absolu.
au point de
congélation du Cheez
Whiz.
Exemple 5.6 (Échelle d’intervalles). Lorsque la température augmente
de 10 degrés Celsius à 20 degrés Celsius, on ne peut pas dire qu’il fait 2 fois
Intuitivement... plus chaud, parce que 10 degrés Celsius correspond à 50 degrés Farenheit et
Un zéro absolu est un
zéro qui correspond à 20 degrés Celsius correspond à 68 degrés Farenheit, ce qui ne correspond pas
une absence. Le
nombre d’heures
au double de la température. Alors on peut seulement dire qu’il fait 10 degrés
d’étude pour un de plus.
examen est mesuré à
l’aide d’une échelle de Exemple 5.7 (Échelle de rapports). Par contre, dans le cas d’une va-
rapports parce que 0
heure d’étude riable mesurée à l’aide d’une échelle de rapports, on peut affirmer qu’un élève
correspond à une
absence d’étude. qui a 2 emplois a deux fois plus d’emplois qu’un élève qui n’a qu’un seul em-
ploi.
5.4. Les variables 75
Type de variable

Qualitative Quantitative

Discrète Continue
Nominale Ordinale • Échelle ordinale • Échelle ordinale
• Échelle nominale • Échelle ordinale • Échelle d’intervalles • Échelle d’intervalles
• Échelle de rapports • Échelle de rapports

Figure 5.2. Diagramme des différentes échelles de mesure.

Exemple 5.8. Pour chacune des situations suggérées, identifier les élé-
ments suivants :
(1) La population
(2) L’unité statistique
(3) L’échantillon
(4) La variable
(5) Le type de variable
(6) L’échelle de mesure
a) Dans le but de déterminer le degré de satisfaction des étudiants
sur la qualité des services offerts par la Coop, on interroge les étu-
diants qui suivent un cours de méthodes quantitatives. (modalités :
peu...très satisfait)

b) On interroge tous les professeurs du cégep pour savoir le nombre


de repas qu’ils ont pris à la cafétéria au cours de la semaine der-
nière.(valeurs : 0, 1, 2,...)
76 5. Statistiques descriptives Partie 1

c) Afin de connaître l’âge auquel les jeunes adultes de la région ob-


tiennent leur permis de conduire, on a interrogé tous les étudiants
qui ont utilisé les espaces de stationnement du cégep lundi dernier.
(question ouverte, aucune valeur)

d) On interroge tous les membres d’un club social pour savoir s’ils sont
intéressés à souscrire à une assurance médicaments. (modalités :
oui, non)

e) Pour connaître le degré de satisfaction de sa clientèle, un grand ma-


gasin a interrogé toutes les personnes qui ont fait un achat samedi
dernier. (modalités : peu...très satisfait)

f) Le cégep Saint-Jean-sur-Richelieu mène une étude auprès de ses


élèves pour connaître le plus haut niveau de scolarité de leur mère.
On décide d’interroger tous les élèves qui ont un cours complémen-
taire d’espagnol. (modalités : primaire, secondaire, ...)
5.5. Le questionnaire 77

g) Un professeur interroge tous ses élèves afin de connaître le nombre


de bières qu’ils ont consommées la semaine dernière. (valeurs : 0,
1 à 3, 4 à 6, 7 à 10, plus de 10)

h) Un élève qui projette poursuivre ses études universitaires en péda-


gogie interroge des professeurs du cégep afin de connaître les aspects
qu’ils jugent positifs et négatifs de la profession d’enseignant. (ques-
tion ouverte, aucune modalité)

5. Le questionnaire
Il y plusieurs façons de récolter des données, telles que des grilles d’ob-
servations, des expériences, des appareils d’enregistrements et même des re-
cherches bibliographiques mais la plus utilisée est sans aucun doute le ques-
tionnaire. Dans cette section, nous verrons d’abord les 5 qualités à retenir
afin de construire un questionnaire fiable et ensuite les différents types de
question pouvant en faire partie.

5.1. Les règles de formulation des questions. Pour construire un


questionnaire donnant des résultats fiables, les questions doivent posséder
cinq qualités
Claire: Les questions doivent être précises, ne contenir aucun terme vague
tel que des acronymes (FTQ, REER), être les plus courtes possibles
et traiter d’un seul sujet. Si elles possèdent des choix de réponses,
ceux-ci doivent être mutuellement exclusifs.
Trouvez l’erreur : Combien de cigarettes fumez-vous ?
Complète: Elles doivent contenir toute l’information. Si elles possèdent des
choix de réponses, ceux-ci doivent être exhaustifs.
Trouvez l’erreur :Parmi les choix suivants, quelle est votre couleur
préférée ?
78 5. Statistiques descriptives Partie 1

Neutre: Les questions ne doivent pas suggérer de réponse.


Trouvez l’erreur : Selon des spécialistes en nutrition, il est crucial
de bien déjeuner. Déjeunez-vous ?
Non-menacante: Les questions qui portent sur des sujets personnels, privés
ou délicats doivent être réservées pour la fin du questionnaire.
Trouvez l’erreur : Avez-vous une maîtresse ?
Pertinente: Les questions doivent porter sur le sujet de l’étude.
Trouvez l’erreur : Pour une étude portant sur les jeux vidéos, on
pose une question sur les animaux domestiques.
5.2. Les types de questions. Les questionnaires traditionnels contiennent
surtout des questions à choix de réponses mais il existe plusieurs types de
questions. D’abord il existe deux catégories, les questions ouvertes et les
questions fermées.
(1) Les questions ouvertes permettent au répondant de développer sur
le sujet. C’est le type de question idéale pour récolter des opinions.
Que pensez-vous de la hausse des frais de scolarité ?
(2) Les questions fermées restreignent les répondants à quelques choix
seulement
(a) Une question à réponse brève est une question où l’on répond
sur une petite ligne.
(b) Une question dichotomique est une question ayant 2 choix de
réponses seulement comme des vrai ou faux, des oui ou non.
(c) Une question à choix multiples est une question où l’on propose
plusieurs réponses mais le répondant ne peut qu’en choisir une.
(d) Une question « cafétéria » est une question où l’on propose
plusieurs réponses mais le répondant peut en choisir plusieurs.
(e) Une question de nature hiérarchique est une question où l’on
doit classer les réponses par ordre d’importance.

6. Les techniques d’échantillonnage


Dans cette section, nous étudierons les différentes techniques à utiliser
afin de sélectionner les unités statistiques d’un échantillon. Celles-ci auront
des avantages et des inconvénients, notamment au niveau de l’analyse des ré-
sultats. Certaines techniques nous permettront de faire de l’inférence, tandis
que d’autres nous limiterons considérablement.
6.1. Les techniques d’échantillonnage aléatoire. Les techniques
d’échantillonnage aléatoire reposent sur le hasard. Les unités statistiques
sont désignées par le hasard et ont toutes la même probabilité d’être choi-
sies. Ces techniques ont aussi l’avantage de permettre de calculer la marge
d’erreur d’échantillonnage. Il sera donc possible de généraliser les résultats
à l’ensemble de la population tout en mesurant l’erreur maximale commise.
5.6. Les techniques d’échantillonnage 79

Définition 9 (Base de sondage). Une base de sondage est une liste des
individus à partir de laquelle on prélève un échantillon. Cette liste détermine Intuitivement...
L’annuaire
la population. téléphonique est un
bon exemple de base
de sondage.
Il existe 4 techniques d’échantillonnage aléatoire.
(1) L’échantillonnage aléatoire simple consiste à choisir des indi-
vidus au hasard parmi la base de sondage.
Procédure :
(a) Numéroter les unités statistiques de 1 à N .
(b) Tirer au hasard n unités statistiques de la population qui for-
meront l’échantillon.
(2) L’échantillonnage aléatoire systématique est une technique où
les unités statistiques sont choisies à intervalle régulier dans la base
de sondage.
Procédure :
(a) Numéroter les unités statistiques de 1 à N.
(b) Calculer l’intervalle de sélection (le pas de sondage). On le cal-
cule avec la formule N/n.
(c) Tirer au hasard une unité statistique de la population qui fera
partie de l’échantillon.
(d) Tirer les autres unités en appliquant le pas de sondage.
(3) L’échantillonnage aléatoire stratifié suppose que la population
peut être divisée en sous-ensembles distincts en fonction de caracté-
ristiques telles que le sexe, l’âge, l’ethnie, etc... Ces différents sous-
ensembles sont appelés des strates.
Cette méthode consiste à prélever un échantillon ayant une compo-
sition plus comparable à celle de la population à l’égard des carac-
téristiques choisies.

IMPORTANT
On détermine les strates selon des caractéristiques que l’on suppose
ayant une influence sur la variable étudiée. Par exemple : le taux de
décrochage est influencé par le sexe, donc on stratifie selon le sexe.

Procédure :
(a) Diviser la population en strates.
(b) Pour chaque strate, choisir de façon aléatoire simple un nombre
d’unités statistiques pour constituer l’échantillon de telle sorte
que le pourcentage d’unités dans chacune des strates de l’échan-
tillon soit le plus près possible du pourcentage d’unités dans
chacune des strates de la population.
80 5. Statistiques descriptives Partie 1

Intuitivement...
(4) L’échantillonnage aléatoire par grappes consiste à choisir des
Un groupe d’élèves sous-ensembles plutôt que de choisir des unités statistiques isolées.
faisant partie de la
même classe, des
habitants du même
Définition 10 (grappe). Une grappe est un sous-ensemble non
immeuble, des homogène de la population défini, en général, selon la proximité.
habitants du même
quartier ou même des
équipes sportives sont Procédure :
des exemples de
grappes. (a) Diviser la population en grappes.
(b) Choisir de façon aléatoire simple un certain nombre de grappes.
(c) L’échantillon sera alors composé de toutes les unités statis-
tiques appartenant aux grappes choisies.
Voici un tableau comparant chacune des méthodes avec leurs avantages et
leurs inconvénients.
Table 2. Les techniques d’échantillonnage aléatoires.

Technique Avantages Inconvénients


(1) Échantillon générale- (1) Nécessite une base de
Échantillonnage
ment représentatif sondage complète
simple
(2) Simple à réaliser (2) Peut être long et ardu

(1) Nécessite une base de


(1) Bonne répartition de
sondage complète
Échantillonnage l’échantillon
systématique (2) Attention à la périodi-
(2) Rapidité
cité

(1) Grande précision


(2) Modèle réduit de la po-
pulation (1) Coûteux
Échantillonnage (3) Comparaison des sous- (2) Connaissance de la po-
stratifié populations par rap- pulation requise
port aux variables étu-
diées

(1) Rapidité (1) Peut ne pas être repré-


Échantillonnage (2) Évite les longs déplace- sentatif si les grappes
par grappes ments sont homogènes
5.6. Les techniques d’échantillonnage 81

Exemple 5.9. Identifiez la méthode d’échantillonnage aléatoire qui a été


utilisée.
a) À l’automne 2008, Santé Québec a mené une enquête auprès de la po-
pulation québécoise. On a choisi au hasard des quartiers de certaines
municipalités et on a interrogé tous les individus habitant dans ces quar-
tiers.
b) Lors d’un recensement au Canada, on utilise deux types de questionnaire :
un questionnaire court et un long. À partir de la liste complète de tous
les foyers, on choisit au hasard un foyer, puis à tous les cinq foyers
visités, on remet un questionnaire long ; les autres foyers reçoivent un
questionnaire court.
c) Une ligue de soccer désire recueillir l’opinion des joueuses de diverses
équipes au sein d’une même catégorie quant à l’entretien des terrains où
se disputent les matchs. Pour ce faire, elle choisit au hasard, dans cha-
cune des équipes, deux joueuses à qui elle fait parvenir un court sondage
par la poste.
d) Pour déterminer le taux de chômage au Québec, on sélectionne au hasard
un échantillon de personnes âgées de 15 ans et plus afin de connaître leur
situation à propos de l’emploi.
6.2. Les techniques d’échantillonnage non aléatoire. Contraire-
ment aux techniques d’échantillonnage aléatoire, il est impossible de calculer
la marge d’erreur d’échantillonnage. Cependant, ces méthodes sont beaucoup
moins coûteuses, plus rapides et plus simples. Il est par contre peu recom-
mandé de généraliser les résultats provenant de ces méthodes à l’ensemble
de la population, puisque toutes les unités statistiques n’ont pas la même
chance d’être choisies, ce qui peut rendre l’échantillon moins représentatif.
(1) L’échantillonnage accidentel est une technique simple et peu
coûteuse. On choisit une unité statistique qui se trouve à un endroit
donné à un moment donné. Par exemple, un élève se place à l’entrée
de la cafétéria et demande de remplir un questionnaire à toutes les
personnes passant par là à ce moment précis.
(2) L’échantillonnage par volontaire est une des méthodes les plus
utilisées actuellement sur le marché. Les compagnies pharmaceu-
tiques sont les pionnières en la matière. Les unités statistiques dé-
cident de faire partie de l’étude de leur propre gré.
(3) L’échantillonnage par quotas est la technique selon laquelle les
chercheurs veulent respecter les proportions de la population, mais
ils vont choisir leurs sujets de façon accidentelle.
Par exemple, un chercheur se place à l’entrée de la cafétéria et a
comme mandat de questionner 15 filles et 15 garçons afin de res-
pecter la proportion de chacun des sexes dans le cégep.
Procédure :
(a) Diviser la population en catégories homogènes.
82 5. Statistiques descriptives Partie 1

(b) Pour chaque catégorie, choisir de façon accidentelle un nombre


d’unités statistiques pour constituer l’échantillon de telle sorte
que le pourcentage d’unités dans chacune des catégories de
l’échantillon soit le plus près possible du pourcentage d’unités
dans chacune des catégories de la population.
(4) L’échantillonnage au jugé est une technique basée uniquement
sur les connaissances du chercheur sur la population. En effet, le
chercheur choisit les unités statistiques qu’il juge possédant les ca-
ractéristiques typiques de la population à l’étude.
Exemple 5.10. Identifiez la méthode d’échantillonnage non aléatoire qui
a été utilisée.
a) On sait que Saint-Jean-sur-Richelieu est un comté baromètre, c’est-à-dire
qu’on y élit généralement le parti gagnant. On choisit donc un échantillon
dans ce comté afin de deviner lequel des partis politiques formera le pro-
chain gouvernement.
b) Pour les besoins d’une émission de télévision, on interroge des passants
sur la rue Sainte-Catherine à Montréal un certain vendredi entre 12h00
et 13h00.
c) Des sociologues s’intéressent à l’opinion des élèves du collège sur la peine
de mort. Ils connaissent la distribution des élèves selon le sexe et la
langue maternelle. Ils reconstituent un échantillon qui respecte cette dis-
tribution et envoient dans le collège un enquêteur libre de choisir les
élèves à la condition de respecter la distribution.
d) Une firme veut tester, chez les humains, un nouveau médicament pro-
metteur pour le traitement d’une certaine maladie. On fait passer des
annonces à la radio ciblant une catégorie de personnes et offrant une
somme d’argent en guise de dédommagement.
Exemple 5.11. Déterminez la méthode d’échantillonnage utilisée.
a) La SAAQ veut établir le profil des conducteurs québécois. À partir de la
liste de tous les conducteurs, on choisit au hasard un dossier parmi les
500 premiers, puis les autres à intervalle de 500.
b) Pour connaître l’opinion des amateurs de hockey, les animateurs de l’émis-
sion radiophonique « Les amateurs de sport » demandent aux auditeurs
de téléphoner pour faire part de leur opinion.
c) L’AGE veut connaître le pourcentage des élèves qui bénéficient d’un prêt
du Ministère de l’Éducation pour la présente session. On demande à un
étudiant en statistique de mener l’enquête suivante :
(a) Construire l’échantillon en circulant dans les corridors du cégep et
interroger certains étudiants rencontrés.
(b) Construire l’échantillon en choisissant au hasard des étudiants à
partir de la liste de tous les étudiants du cégep.
5.7. Présentation des données 83

(c) Construire l’échantillon en choisissant au hasard dans chacun des


programmes un nombre d’élèves proportionnel à l’importance de ce
programme dans le cégep.
d) Pour connaître l’opinion des élèves qui ont un cours le lundi matin à
8h00, on choisit au hasard huit groupes dans la liste de groupes ayant un
cours à ce moment-là et on questionne tous les élèves de ce groupe.
e) Dans le cadre d’une recherche sur les allergies, une équipe de chercheurs
fait paraître l’annonce suivante dans les journaux : «On recherche des
hommes et des femmes âgés de 18 à 55 ans souffrant d’une allergie. Les
répondants doivent être en bonne condition physique.»
f) Les responsables de la Coop veulent connaître le degré de satisfaction des
membres. On décide d’interroger 40 élèves du secteur technique, 50 du
secteur pré-universitaire et 10 membres du personnel(afin de respecter les
proportions de la population). On demande à la personne préposée à la
caisse de prélever cet échantillon.
g) Un professeur veut connaître l’opinion de ses étudiants sur un sujet
donné. Il questionne quelques étudiants qu’il estime représentatifs de tous
ses élèves.
Exemple 5.12. Afin de connaître les motifs qui font qu’un client quitte
sa banque, la direction d’une banque a demandé que l’on effectue un son-
dage auprès de 300 anciens clients. Pour ce faire, la banque a dressé une
liste complète, de tous ses anciens clients, puis elle les a numérotés. Par
la suite, de façon aléatoire, elle a choisi de contacter tout d’abord l’ancien
client #1045, puis elle a rejoint tous les autres clients en appliquant un pas
de sondage de 15. Une des questions posées était celle-ci : « Parmi les motifs
suivants, lequel vous a le plus incité à quitter notre banque : taux, service,
déménagement,etc. ?»
a) Quelle est la population étudiée ?
b) Quelle est la taille de la population étudiée ?
c) Quelle est l’unité statistique ?
d) Quel est l’échantillon ?
e) Quelle est la taille de l’échantillon ?
f) Quelle est la variable à l’étude ?
g) Quel type de variable est-ce ?
h) Quelle est l’échelle de mesure utilisée ?
i) Quelle méthode d’échantillonnage est utilisée ?

7. Présentation des données


La présentation des données est très importante lors de l’étape d’analyse
des résultats. Elle permet de faire ressortir, de manière visuelle, certaines
tendances des données. Bien entendu, il faudra effectuer d’autres tests pour
quantifier le tout, mais la présentation des données nous aidera grandement.
84 5. Statistiques descriptives Partie 1

7.1. Tableaux de fréquences. Après avoir complété une étude, nous


devons traiter nos résultats. Il est donc important de les rassembler dans un
tableau de fréquences. C’est ce tableau que l’on présente habituellement dans
les rapports de recherche. Il est donc important de suivre la présentation
à la lettre. Voici un exemple de tableau de fréquences pour une variable
qualitative nominale.

Table 3. Répartition de 125 répondants, selon le sexe

Sexe Nombre de répondants


Masculin 65
Féminin 60
Total 125

Ce type de tableau est un tableau de fréquences absolues (ou tableau des


effectifs). Il présente le nombre de données obtenues pour chaque résultat de
la variable.
Il existe également des tableaux de fréquences relatives dont la deuxième
colonne correspond au pourcentage des données obtenues pour chaque résul-
tat de la variable.
Table 4. Répartition (en %) de 125 répondants, selon le sexe

Sexe Pourcentage des répondants (%)


Masculin 52
Féminin 48
Total 100

Lorsque les résultats sont tirés d’un rapport, d’un journal ou autres, on
doit spécifier cette source. En voici un exemple :

Table 5. Répartition (en %) des jeunes Québécois âgés entre


15 et 29 ans, selon le degré de satisfaction à l’égard de leur
emploi, Québec, 2000

Degré de satisfaction Pourcentage des jeunes Québécois (%)


Très satisfait 50.9
Assez satisfait 34.3
Peu satisfait 10.9
Pas du tout satisfait 3.9
Total 100.0
Source : M.-C. Lortie,«Les jeunes aiment leur emploi», La Presse, 20 février 2000, p.A8.

Les éléments essentiels dans la présentation d’un tableau de fréquences sont


les suivants :
5.7. Présentation des données 85

Titre: Il doit contenir le nom de la variable. On ajoute également diverses


informations utiles comme la date de l’étude et le lieu.
Identifier les colonnes: Il faut indiquer clairement le nom de la variable
et identifier le type de fréquences données et s’il y a lieu, l’unité de
mesure entre parenthèses.
Le total: Effectuer le total des fréquences afin de vérifier si toutes les don-
nées sont présentes.
La source: Citer la source des résultats s’ ils ne viennent pas de vous.
Le prochain exemple nous montrera comment construire un tableau de fré-
quences pour une variable quantitative continue.
Exemple 5.13. Nous avons recueilli le nombre d’heures d’ensoleillement
en octobre à Montréal pour un échantillon de 49 années. Ces données sont
présentées ci-dessous.
163 169 183 224 140 163 172
104 121 141 139 135 126 163
127 141 136 95 128 95 133
92 119 103 150 149 110 148
153 156 151 109 143 123 75
189 126 173 171 128 153 142
148 112 112 150 121 162 120
Construisez un tableau de fréquences.
SOLUTION

Table 6. Répartition de 49 mois d’octobre selon nombre


d’heures d’ensoleillement

Nombre d’heures Nombre de Pourcentage


d’ensoleillement mois d’octobre
[75; 100[ 4 8,2
[100; 125[ 11 22,4
[125; 150[ 17 34,7
[150; 175[ 14 28,6
[175; 200[ 2 4,1
[200; 225[ 1 2,0
Total 49 100

7.2. Présentation graphique des variables qualitatives. Regar-


dons maintenant les différentes façons de montrer les variables qualitatives
sous forme graphique.
86 5. Statistiques descriptives Partie 1

7.2.1. Diagramme circulaire.


Répartition en % des jeunes Québécois selon le degré de
satisfaction à l’égard de leur emploi

(50.9%)

pas

très
(3.9%)
assez
peu
(10.9%)

(34.3%)
Source : M.-C. Lortie,«Les jeunes aiment leur emploi», La Presse, 20 février 2000, p.A8.

L’important ici est de savoir comment calculer l’angle que fait chaque secteur.
Pour ce faire, il faut se rappeler qu’il y a 360◦ dans un cercle. Il faut donc faire
un rapport. Commençons par l’angle du secteur de la valeur "Très satisfait",
que l’on appelle x. On a que
50.9 x
= .
100 360◦
Cette équation signifie que dans un cercle (représenté par le 360◦ ) il y a
100%. On veut savoir à combien de degrés (x) correspondent 50.9%. On
utilise donc le produit croisé pour obtenir que
360◦ × 50.9
x= = 183.24◦ .
100
Calculons maintenant l’angle pour "Assez satisfait". On utilise le même prin-
cipe.
360◦ × 34.3
x= = 123.48◦ .
100
On répète le même processus pour "Peu satisfait" et "Pas du tout satisfait".
7.2.2. Diagramme à bandes horizontales et à bandes verticales. Puis-
qu’une image vaut mille mots, voici le diagramme à bandes horizontales
des résultats tirés de la table 5.
Répartition en % des jeunes Québécois selon le degré de
satisfaction à l’égard de leur emploi
5.7. Présentation des données 87

Degré de
satisfaction
Pas du tout satisfait

Peu satisfait

Assez satisfait

Très satisfait

10 20 30 40 50 60 % des
jeunes
Québécois
Source : M.-C. Lortie,«Les jeunes aiment leur emploi», La Presse, 20 février 2000, p.A8.

Il y a aussi le diagramme à bandes verticales.


Répartition en % des jeunes Québécois selon le degré de
satisfaction à l’égard de leur emploi
% des
jeunes
Québécois 60

50

40

30

20

10

Degré de
A

Pe

Pa
Tr

ss
ès

satisfaction
ez

du
sa
sa

sa

tis
tis

to
tis

fa
fa

ut
fa

it
it

sa
it

tis
fa
it

Source : M.-C. Lortie,«Les jeunes aiment leur emploi», La Presse, 20 février 2000, p.A8.

IMPORTANT
Il est à noter que dans chacun des cas, il y a un titre et les axes sont
identifiés et gradués.
88 5. Statistiques descriptives Partie 1

Exemple 5.14. Complétez le tableau suivant et faites un diagramme à


bandes horizontales et un diagramme circulaire.
Répartition de 1009 québécois selon leur degré de satisfaction
face à Michael Ignatieff
Pourcentage
Niveau de sa- Nombre de qué- Pourcentage de
cumulé de
tisfaction bécois québécois
québécois
Pas du tout satis-
484
fait
Peu satisfait 172
Assez satisfait 232
Très satisfait 121
Total 1009
SOLUTION
allo le monde
5.7. Présentation des données 89

7.3. Présentation des variables quantitatives discrètes. Afin de


représenter les variables quantitatives discrètes, il n’y a qu’un seul type de
graphique et on l’appelle le diagramme à bâtons. Ce dernier est une repré-
sentation graphique ressemblant au diagramme à bandes verticales dans sa
construction.
Répartition de 856 ménages québécois en fonction du nombre de
personnes dans le ménage
Nombre de per-
Nombre de mé- Pourcentage de
sonnes par mé-
nages ménages
nage
1 249 29,09
2 267 31,19
3 151 17,64
4 134 15,65
5 36 4,21
6 13 1,52
7 4 0,47
8 2 0,23
Total 856 100
Voyez maintenant le diagramme à bâtons qui est associé à ce tableau.

Répartition de 856 ménages en fonction du nombre de personnes


dans le ménage

270
240
210
Nombre de 180
ménages 150

120
90
60
30
Intuitivement...
Attention les bandes
1 2 3 4 5 6 7 8Nombre de ne sont pas collées !
personnes
par ménage
90 5. Statistiques descriptives Partie 1

7.4. Présentation des variables quantitatives continues. Il existe


trois façons de présenter graphiquement une variable quantitative continue :
l’histogramme, le polygone de fréquences (relatives) et le polygone de fré-
quences (relatives) cumulées (ogive). Pour expliquer ces trois graphiques,
utilisons les données suivantes :
Répartition du nombre de naissances (en milliers) selon l’âge de
la mère au moment de la naissance
Âge Nombre de naissances Pourcentage Pourcentage cumulé
[15,20[ 2,46 2,81 2,81
[20,25[ 12,84 14,66 17,47
[25,30[ 30,69 35,03 52,5
[30,35[ 28,17 32,15 84,65
[35,40[ 11,32 12,92 97,57
[40,45[ 2,02 2,31 99,88
[45,50[ 0,11 0,12 100
Total 87,61 100
http ://www.stat.gouv.qc.ca/donstat/societe/demographie/naisn_ deces/naissance/414.htm, consulté
le 28 juin 2009

7.4.1. L’histogramme. L’histogramme est un diagramme à bandes verti-


cales dont les bandes sont collées. Voici les étapes à suivre pour tracer un
histogramme :
(1) Titrer le graphique.
(2) Identifier les axes. L’axe horizontal est généralement gradué selon
les classes du tableau de fréquences tandis que l’axe vertical peut
être gradué selon le pourcentage ou selon les fréquences absolues.
(3) Pour la première classe, tracer une bande rectangulaire de la hauteur
désirée. Pour la classe suivante, tracer aussi une bande rectangulaire
que vous prendrez soin de coller sur la précédente.
Répartition du nombre de naissance (en milliers) selon l’âge de la
mère au moment de la naissance
Nombre de mères

30
25
20
15
10
5

5 10 15 20 25 30 35 40 45 50
Âge de la mère
5.7. Présentation des données 91

7.4.2. Le polygone de fréquence (relatives). Le polygone de fréquence a


comme principe de base que les données dans une classe sont réparties uni-
formément. Ceci implique que la progression des données dans une classe est
linéaire et donc que l’on peut représenter la fréquence dans une classe par
un segment de droite. En rejoignant tous les segments, on forme le polygone
de fréquence. Voici les étapes pour tracer un polygone de fréquences :
(1) Tracer l’histogramme
(2) Identifier le point milieu de chaque classe.
(3) Relier chacun de ces points milieux par un segment de droite.
(4) Compléter le polygone en rejoignant l’axe des x à chacune des ex-
trémités en ajoutant une classe supplémentaire au début et à la
fin.
Répartition du nombre de naissance (en milliers) selon l’âge de la
mère au moment de la naissance
Nombre de mères

b
30 b

25
20
15 b
b

10
5 b b
b b b

5 10 15 20 25 30 35 40 45 50 Intuitivement...
Âge de la mère Habituellement,
l’ogive en est une de
7.4.3. La courbe de fréquences (relatives) cumulées. La courbe de fré- fréquences relatives.

quences (relatives) cumulées ou ogive est basée sur la somme des fréquences
des classes inférieures. Il sera donc possible, par exemple, de savoir combien
(ou quel pourcentage) de mères avaient moins de 35 ans au moment de la
naissance. Voici les étapes pour tracer une ogive :
(1) Titrer le graphique
(2) Identifier les axes. L’axe horizontal est gradué selon les classes et
l’axe vertical est gradué pour les fréquences relatives cumulées, soit
de 0 % à 100%.
(3) Pour chaque classe, positionner les points sur le graphique dont les
coordonnées sont (borne supérieure de la classe ; fréquence relative
cumulée de la classe)
(4) Ajouter le point supplémentaire suivant : (borne inférieure de la
première classe, 0) afin que la courbe débute à 0%.
(5) Relier chacun des points par un segment de droite.
92 5. Statistiques descriptives Partie 1

Répartition cumulée du nombre de naissance (en milliers) selon


l’âge de la mère au moment de la naissance
%
100 b b
Fréquences relatives cumulées (%)
b

90 b

80
70
60
b
50
40
30
20 b

10
b
b

5 10 15 20 25 30 35 40 45 50 Âge
Âge de la mère
Exemple 5.15. Complétez le tableau suivant et tracez l’histogramme, le
polygone de fréquence et l’ogive.
Répartition de 178 personnes de la petite PME «Forage inc.»
selon leur revenu annuel
Revenu
annuel Point Nombre de Pourcentage
Pourcentage
(en mil- milieu personnes cumulé
liers)
[20,25[ 1
[25,30[ 8
[30,35[ 28
[35,40[ 36
[40,45[ 42
[45,50[ 37
[50,55[ 20
[55,60[ 4
[60,65[ 2
Total 178
SOLUTION
allo le monde

allo le monde
5.7. Présentation des données 93

7.4.4. Classes inégales.


Exemple 5.16. Nous avons recueilli le revenu d’un ménage (milliers de
$) pour un échantillon de 75 ménages. Ces données sont présentées dans le
tableau ci-dessous.
11 13 13 14 14 17 18 18 19 20 21 22 23 23 24
24 24 25 25 27 28 28 29 30 30 31 35 35 37 37
37 38 40 41 42 43 44 46 46 50 50 50 53 53 54
55 56 56 56 57 57 57 58 60 61 62 62 63 65 66
66 68 68 70 72 75 76 80 80 85 88 88 95 110 115 155
Présentez ces données dans un tableau et tracez l’histogramme.
SOLUTION

Table 7. Répartition de 75 ménages selon leur revenu.

Revenu Milieu de Nombre de Pourcentage Pourcentage


(milliers $) la classe ménages cumulé
[10; 30[ 20 22 29,33 29,33
[30; 50[ 40 16 21,33 50,66
[50; 70[ 60 24 32,0 82,66
[70; 90[ 80 9 12,0 94,66
[90; 110[ 100 1 1,33 95,99
[110; 130[ 120 2 2,67 98,66
[130; 150[ 140 0 0,0 98,66
[150; 170[ 160 1 1,33 99,99
Total 75 99,99

L’histogramme sera donc :


Répartition de 75 ménages selon leurs revenus.
30
% de ménages

25
20
15
10
5
0
2060 4080 100 120 140 160
Revenu (milliers de $)
On remarque que les dernières classes n’ont pas le même ordre de grandeur
d’effectifs que les précédentes. Donc, il peut être utile de changer l’amplitude
des dernières classes. Nous aurons donc des classes de largeurs inégales. Nous
allons donc construire des classes d’amplitude 10 et une dernière classe plus
grande que les autres, d’amplitude 80.
94 5. Statistiques descriptives Partie 1

Répartition de 75 ménages selon leurs revenus.


Revenu Milieu de Nombre de Pourcentage Pourcentage
(milliers $) la classe ménages cumulé
[10; 20[ 15 9 12,0 12,0
[20; 30[ 25 13 17,33 29,33
[30; 40[ 35 9 12,0 41,33
[40; 50[ 45 7 9,33 50,66
[50; 60[ 55 14 18,66 69,32
[60; 70[ 65 10 13,33 82,65
[70; 80[ 75 4 5,33 87,98
[80; 160[ 120 9 12,0 99,98
Total 75 99,98

À ce moment l’histogramme serait :

Répartition de 75 ménages selon leurs revenus.

20
% de ménages

15

10

0
20 40 60 80 100 120 140 160

Revenu (milliers de $)

L’histogramme précédent est un trompe l’oeil, car on pourrait croire qu’il


y a beaucoup plus de fréquences dans la dernière classe, ce qui n’est pas
le cas. Il faut respecter la densité de chacune des classes, c’est-à-dire que
l’aire des rectangles doit être proportionnelle. Cela rendra l’histogramme plus
compréhensible.
Puisque la dernière classe est 8 fois plus large que les autres, il faut diviser la
hauteur par 8. Ainsi, sa hauteur sera 12÷8 = 1.5. Finalement, l’histogramme
sera
5.8. Exercices récapitulatifs du chapitre 5 95

Répartition de 75 ménages selon leurs revenus.

20
% de ménages

15

10

0
20 40 60 80 100 120 140 160

Revenu (milliers de $)

8. Exercices récapitulatifs du chapitre 5


Exercice 1. Quels sont les principaux avantages à choisir un sondage
plutôt qu’un recensement ?
Exercice 2. Pour chacun des cas suivants, identifiez le nom de la va-
riable et son type.
a) Une entreprise désire étudier le nombre d’absences (en jours) de chacun
de ses employés afin d’établir le nombre de jours de maladie nécessaires
dans la nouvelle convention collective.
b) Le Vatican fait une étude sur la religion de trente pays afin de connaître
la diversité des croyances.
c) La température maximale de chacune des journées de l’été.
d) Le cégep désire étudier le nombre de cours de la session H09 de chacun
des élèves du programme sciences humaines.
e) La Presse a fait un sondage auprès de 1000 québécois afin de connaître
leur degré d’approbation vis-à-vis la présence canadienne en Afghanistan.
Exercice 3. Pour chacun des tableaux suivants, donnez l’unité statis-
tique, la variable, le type, l’échelle de mesure ainsi que les différentes moda-
lités ou valeurs.
a) allo le monde
96 5. Statistiques descriptives Partie 1
Table 8. Distribution de 515 québécois selon le joueur des
canadiens qui les a le plus déçu dans la saison 2008-2009

Nom du joueur Nombre de québécois


Carey Price 159
Saku Koivu 77
Plekanec 77
Andrei Kostitsyn 66
Alex Kovalev 60
Sergei Kostitsyn 38
Aucun 38
Total 515
Journal de Montréal, Édition du mardi 28 avril 2009, p.95
5.8. Exercices récapitulatifs du chapitre 5 97

b) allo le monde

Table 9. Répartition de 300 étudiants selon leur revenu annuel.

Revenu annuel (en miliers


Nombre d’étudiants
de $)
[0,5[ 66
[5,10[ 60
[10,15[ 72
[15,20[ 50
[20,25[ 13
25 et plus 39
Total 300

c) allo le monde

Table 10. Répartition de 300 étudiants selon le nombre de


cours par session.

Nombre de cours Nombre d’étudiants


1 4
2 13
3 30
4 88
5 117
6 36
7 12
Total 300

Exercice 4. Quelles sont les 5 qualités nécessaires à la formulation


d’une bonne question ? Expliquez chacune des qualités.
Exercice 5. Voici un tableau présentant certaines caractéristiques concer-
nant certains joueurs des Alouettes. Pour chacune des variables présentées,
déterminez la variable, le type de la variable ainsi que l’échelle de mesure
utilisée.
98 5. Statistiques descriptives Partie 1

Fiche des joueurs des Alouettes


Joueurs Position Taille Poids Age Ville
Étienne demi- Montréal,
5’8” 180 lbs 25
Boulay défensif QC
Ben Ca- Demi-
5’8” 184lbs 36 Orem, UT
hoon inséré
Los An-
Anthony Quart-
6’0” 200 36 geles,
Calvillo arrière
CA
Bryan Vancouver,
Centre 6’2” 299 lbs 34
Chiu BC
Damon Morgan
Botteur 6’0” 200 lbs 29
Duval City, LA
http ://www.rds.ca/football/cfl/stats/cfl_prof_equipe.php ?tid=5612&display=roster, consulté le 25
juin 2009

Exercice 6. Afin de connaître l’opinion des québécois et québécoises


sur la souveraineté du Québec, le Parti Québécois a fait distribuer au hasard
et par la poste un questionnaire à 300 personnes âgées de 18 ans et plus.
Déterminez d’abord :
a) La population visée ;
b) l’unité statistique ;
c) l’échantillon ;
d) Voici quelques questions que contenait le questionnaire. Pour chacune
des questions, déterminez la variable, son type et son échelle de mesure.
De plus, dites si la question est bien construite, sinon donnez le critère
de qualité qui n’est pas respecté.
(a) Dans quel groupe d’âge êtes-vous ?
( ) 18-30 ans
( ) 30-45 ans
( ) 45-60 ans
( ) 60 ans et plus
(b) De quel sexe êtes-vous ?
( ) Homme
( ) Femme
(c) Croyez-vous que la souveraineté soit réalisable ?
(d) Combien de frères avez-vous ?
()0
()1
()2
()3
( ) plus de 3
5.8. Exercices récapitulatifs du chapitre 5 99

(e) Quel est votre revenu ?


(f ) Les journaux critiquent beaucoup Pauline Marois. Quel est votre de-
gré de satisfaction vis-à-vis de la chef du Parti Québécois ?
( ) Très satisfait
( ) Satisfait
( ) Insatisfait
( ) Très insatisfait
Exercice 7. Quel est le principal avantage à utiliser une technique
d’échantillonnage aléatoire plutôt que non aléatoire ?
Exercice 8. Qu’est-ce qu’une base de sondage ? Donnez-en un exemple.
Exercice 9. Quelle est la différence entre une strate et une grappe ?
Exercice 10. Pour les énoncés suivants, dites si la méthode utilisée est
aléatoire ou non et identifiez la technique d’échantillonnage.
a) Afin d’étudier le sens de l’organisation, un chercheur sélectionne au ha-
sard des hommes et des femmes tout en respectant la proportion des
différents sexes dans le groupe.
b) On interroge des personnes qu’on choisit spontanément dans la file d’at-
tente d’un spectacle d’humour et on leur demande si elles accepteraient
de donner l’équivalent du prix de leur billet pour supporter la recherche
sur le cancer du sein.
c) Afin de vérifier la satisfaction des élèves inscrits au programme de sports-
études, un collège contacte dix athlètes membres du programme, dont le
bulletin témoigne d’un rendement scolaire au-dessus de la moyenne, pour
recueillir leur opinion sur le contenu du programme.
d) Une compagnie effectuant une étude de marché concernant l’arrivée d’un
nouveau restaurant marocain dans le centre-ville choisit 20 pages de l’an-
nuaire et téléphone à toutes les personnes de ces pages afin de connaître
leur opinion à ce sujet.
e) On choisit au hasard dans la liste complète des élèves du cégep 200 élèves
afin qu’ils répondent à un questionnaire sur la qualité de la nourriture de
la cafétéria.
f) Lors d’un téléthon, on demande à toutes les personnes qui appellent pour
faire un don si elles sont intéressées à se présenter au poste la semaine
suivante afin de répondre à un questionnaire sur la façon dont le téléthon
a été publicisé.
g) Une grande entreprise sélectionne 200 employés pour un sondage, en
veillant à ce que l’échantillon respecte la proportion des employés à savoir
s’ils oeuvrent dans l’usine ou dans le bureau.
h) Un chef cuisinier veut vérifier le degré de satisfaction de tous ses clients
réguliers. Alors, il fait une liste de tous ses clients. Il appelle le troisième
de la liste, puis un à tous les 5 clients.
100 5. Statistiques descriptives Partie 1

Exercice 11. Des individus travaillant pour une compagnie souhaitent


se syndicaliser. Ils désirent effectuer un sondage auprès des employés afin de
savoir s’ils sont intéressés. Ils souhaitent cependant respecter les proportions
des différents types d’employés. Voici la distribution des employés :
Distribution de 300 employés selon leur type d’emploi
Type d’employés Nombre d’employés
Temps plein 98
Temps partiel 82
Employés de marchandise 62
Employés de bureau 58
Total 300

a) Quelle technique d’échantillonnage leur suggérez-vous ?


b) Si on désire prendre un échantillon de 50 personnes, combien d’employés
à temps partiel ce groupe de personnes devrait-il questionner ?
Exercice 12. Dans un sondage effectué par Léger Marketing sur l’opi-
nion des québécois paru dans le journal de Montréal le 28 avril 2009, voici ce
qu’on pouvait lire à la fin de l’étude : « Ce sondage éclair Léger Marketing
a été réalisé dans Internet le 23 avril auprès de 547 québécois. Les données
finales ont été pondérées selon le sexe, l’âge, la langue maternelle et la ré-
gion, de façon à être représentatives de la population du Québec, selon les
dernières données de Statistique Canada.» Selon vous, quelle méthode a été
utilisée ? 1
Exercice 13. Un enquêteur veut étudier les 50 dossiers sur lesquels il
a travaillé en 2008 afin de vérifier le temps de résolution de ses enquêtes.
a) Quelle est la population étudiée ?
b) Quelle est la taille de la population ?
c) Combien de cas de viol a-t-il résolu en 2008 ? de meurtres ?
d) Parmi les 50 cas, quelle est la proportion de vol parmi les cas résolus de
cet enquêteur ?
e) Quelle est la base de sondage dans ce cas-ci ?
f) S’il n’a pas le temps d’étudier tous ses dossiers, quelle méthode d’échan-
tillonnage lui suggères-tu ?
g) Supposons qu’il n’a le temps d’étudier que 40 % de ses dossiers, quelle
est la taille de l’échantillon ?
h) Donnez le type des variables présentes dans le tableau ainsi que leur
échelle de mesure.

1. Journal de Montréal, Édition du mardi 28 avril 2009, p.95


5.8. Exercices récapitulatifs du chapitre 5 101

Les 50 dossiers de l’enquêteur


Temps de réso- Durée de réso-
Type de dossier Type de dossier
lution (en sem) lution(en sem)
Vol 24 Meurtre 1
Viol 5 Vol 3
Vol 15 Meurtre 8
Vol 1 Vol 2
Meurtre 42 Viol 4
Délit de fuite 3 Vol 12
Vol 21 Vol 9
Viol 11 Vol d’identité 6
Disparition 3 Vol 17
Vol 2 Vol 3
Viol 14 Délit de fuite 2
Vol 5 Viol 22
Fugue 3 Vol 32
Vol 4 Vol 2
Disparition 72 Vol 10
Vol 2 Vol 2
Meurtre 1 Viol 4
Délit de fuite 3 Vol 1
Vol 22 Vol 9
Viol 11 Vol d’identité 3
Vol 5 Viol 22
Fugue 3 Vol 32
Vol 4 Vol 4
Disparition 2 Vol 1
Vol 13 Vol 6

Exercice 14. On a interrogé 30 joueurs de football sur leur degré de


satisfaction face à leur entraîneur-chef. Les choix possibles étaient très sa-
tisfait, satisfait, insatisfait et très insatisfait. Voici les données obtenues :
102 5. Statistiques descriptives Partie 1

Degré de satisfaction de 30 joueurs de football face à leur


entraîneur.
très satisfait satisfait satisfait
satisfait insatisfait très satisfait
insatisfait satisfait très satisfait
satisfait satisfait très insatisfait
satisfait très satisfait insatisfait
insatisfait satisfait insatisfait
satisfait satisfait satisfait
très insatisfait très satisfait satisfait
satisfait satisfait satisfait
satisfait très satisfait insatisfait
a) Que représente une unité statistique ?
b) Quelle est la variable à l’étude ?
c) De quelle nature est la variable ?
d) Quelle échelle de mesure utilisera-t-on ?
e) Quelles sont les différentes modalités ?
f) Présentez ces données dans un tableau de fréquences absolues et relatives.
g) Donnez une représentation graphique appropriée des données.
Exercice 15. Un Centre de la Petite Enfance a compté pour chacun
de ses enfants, combien de fois ils ont été absents de la garderie ce mois-ci.
Voici les résultats :
Distribution de 70 enfants selon leur nombre d’absences de la
garderie ce mois-ci
01052304651320
30454320010121
20034500101020
13454020011301
00002146121004
a) Quelle est la variable à l’étude ? Donnez son type.
b) Quelle échelle de mesure a-t-on employé ?
c) Présentez ces données sous la forme d’un tableau de fréquences.
d) Représentez ces données sous une forme graphique appropriée.
5.8. Exercices récapitulatifs du chapitre 5 103

Exercice 16. Examinez la série statistique suivante donnant la super-


ficie occupée par un échantillon de municipalités régionales de comté (MRC)
de la montérégie en 2008.
Répartition des 15 MRC de la montérégie selon leur superficie
MRC Superficie (km2 ) MRC Superficie (km2 )
Vaudreuil- Beauharnois-
854 489
Soulanges Salaberry
Le Haut-Saint- Les Jardins-de-
1 168 802
Laurent Napierville
Roussillon 422 Le Haut-Richelieu 936
La Haute Ya-
Brome-Missisquoi 1 537 750
maska
Rouville 482 Acton 579
La Vallée-du-
587 Longueuil 282
Richelieu
Lajemmerais 347 Les Maskoutains 1 303
Pierre-De Saurel 594
www.stat.gouv.qc.ca/regions/profils/region_ 16/region_ 16_ 00.htm, consulté en ligne le 30 juin
2009

a) Quelle est l’unité statistique ?


b) Quelle est le type de la variable « superficie» ?
c) Quelle échelle de mesure a-t-on employée pour mesurer cette variable ?
d) Présentez cette série sous forme de tableau de fréquence en utilisant 200
km2 comme limite inférieure de la première classe et 200km2 comme
amplitude des classes. Respectez les normes de présentation.
e) Tracez l’histogramme à partir du tableau dressé en e.
f) Tracez l’ogive.
g) À partir de l’ogive, dites quelle est le pourcentage des MRC qui ont une
superficie inférieure à 1 000 km2 .
h) À l’aide de vos graphiques, estimez le pourcentage des MRC qui ont une
superficie entre 800 km2 et 1400 km2 .
Exercice 17. Une municipalité a publié les résultats suivants concer-
nant les comptes de taxes de ses citoyens :

Répartition en pourcentage des comptes de taxes selon le montant


Montant de taxes Pourcentage des citoyens
[500,750[ 5
[750,1 000[ 25
[1 000,1 250[ 30
[1 250,1 500[ 20
[1 500,1 750[ 15
[1 750,2 000[ 5
Total 100
104 5. Statistiques descriptives Partie 1

a) Tracez un histogramme et une ogive.


b) Estimez le pourcentage de personnes qui paient un compte de taxes de
moins 1 400$ ?
c) Quel est le montant maximal payé par plus de 60% des citoyens de cette
municipalité ?
CHAPITRE 6

Statistiques descriptives Partie 2

1. Les mesures de tendance centrale


Les mesures de tendance centrale servent à caractériser une variable à
l’aide d’une valeur ou d’une modalité typique. Il existe trois mesures de
tendance centrale : le mode, la médiane et la moyenne.
1.1. Le mode.
Définition 1 (Le mode). Le mode d’une variable correspond à la valeur
ou à la modalité la plus fréquente. On note le mode par M o.
Exemple 6.1. Soit le tableau suivant :
Répartition des votes aux élections municipales selon le candidat.
Candidat Pourcentage des votes (% )
Joël Allard 13
Carla Bruni 45
Jules Verne 24
Richard Zetnik 18
Total 100
Ici, le mode est donné par Carla Bruni (M o : Carla Bruni), car c’est la
modalité qui possède la plus grande fréquence.
Lorsque les données sont regroupées en classes, on parle plutôt de la classe
modale. Celle-ci correspond à la classe possédant la plus grande fréquence. Il
faut cependant s’assurer que toutes les classes sont de la même largeur, sinon
la classe modale n’est pas définie. Dans le cas où il y a une classe ouverte, il
n’y a habituellement aucun problème, car il s’agit de cas marginaux.

105
106 6. Statistiques descriptives Partie 2

Exemple 6.2. Soit le tableau suivant :


Répartitions des monarques d’Angleterre (roi ou reine) selon la
durée de leur règne, 827-1952.
Durée du règne Nombre de monarques
[0, 10[ 22
[10, 20[ 16
[20, 30[ 11
[30, 40[ 7
[40, 50[ 1
[50, 60[ 3
[60, ∞[ 1
Total 61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.
Intuitivement...
Dans certains livres,
on dit que le mode est
Ici, la classe modale est [0, 10[.
le milieu de la classe
modale, Mo = 5 dans
le dernier exemple. Définition 2. Une variable est dite bimodale si la fréquence la plus
élevée correspond à deux modalités ou valeurs de la variable.
1.2. La médiane.
Définition 3. La médiane est la valeur de la variable telle que le nombre
de donnés qui lui sont inférieures ou égales est égal au nombre de données
qui lui sont supérieures ou égales. On la note M d.

IMPORTANT
La médiane existe seulement pour les variables quantitatives.
Pour calculer la médiane, nous devons placer les valeurs en ordre croissant.
Pour trouver la médiane, il faut d’abord trouver la position de cette dernière.
n+1
Cette position est donnée par .
2
Exemple 6.3. Soit les 7 données suivantes :
1, 2, 4, 6, 7, 13, 18
Trouvez la médiane.
SOLUTION
7+1
Calculons la position : = 4. Ainsi, la médiane se trouve à la 4e position,
2
d’où M d = 6.
Exemple 6.4. Soit les 8 données suivantes :
1, 2, 4, 6, 7, 9, 13, 18
Trouvez la médiane.
SOLUTION
6.1. Les mesures de tendance centrale 107
8+1
Calculons la position : = 4.5. Puisqu’une position ne peut être frac-
2
tionnaire, la médiane sera la moyenne des valeurs aux positions 4 et 5. D’où,
6+7
Md = = 6.5
2
Exemple 6.5. Trouvez la médiane des données suivantes :
Répartition des répondants selon le niveau d’aptitude à la lecture.
Niveau Nombre de répondants Cumulatif des répondants
1 17 17
2 23 40
3 55 95
4 155 250
Total 250
SOLUTION
allo le monde

Voici la technique pour déterminer la médiane lorsque les données sont


regroupées en classes.
Exemple 6.6. Trouvez la médiane des données suivantes :
Répartition des monarques d’Angleterre (roi ou reine) selon la
durée de leur règne, 827-1952.
Durée du règne Nombre de monarques Fréquences cumulées
[0, 10[ 22 22
[10, 20[ 16 38
[20, 30[ 11 49
[30, 40[ 7 56
[40, 50[ 1 57
[50, 60[ 3 60
[60, ∞[ 1 61
Total 61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.

SOLUTION
La première étape est de calculer les fréquences cumulées afin de déterminer
la classe médiane, c’est-à-dire la classe qui contient la médiane. Puisque
celle-ci se trouve à la position n+1 2 = 31, alors la classe médiane [10, 20[.
Pour trouver la valeur de la médiane, rappelons-nous l’allure de l’ogive sur
l’intervalle [10, 20[. Il s’agissait d’un segment de droite.
108 6. Statistiques descriptives Partie 2

38 b

31

22 b

10 M d 20

Puisque les trois points se situent sur la même droite, nous pouvons calculer
la pente de cette dernière de deux manières différentes ce qui nous permettra
de trouver M d.

38 − 22 31 − 22
=
20 − 10 M d − 10
9
1.6 =
M d − 10
9
M d − 10 =
1.6
M d = 15.625 ans

Exemple 6.7. Soit les données suivantes :

Répartition des mois d’octobre selon le nombre d’heures


d’ensoleillement
Nombre d’heures Milieu de Nombre de Pourcentage Pourcentage
d’ensoleillement la classe mois d’octobre cumulé
[75; 100[ 87,5 4 8,2 8,2
[100; 125[ 112,5 11 22,4 30,6
[125; 150[ 137,5 17 34,7 65,3
[150; 175[ 162,5 14 28,6 93,9
[175; 200[ 187,5 2 4,1 98,0
[200; 225[ 212,5 1 2,0 100,0
Total 49 100,0

Déterminez la médiane du nombre d’heures d’ensoleillement.

SOLUTION

allo le monde
6.1. Les mesures de tendance centrale 109

1.3. La moyenne. La moyenne est la mesure de tendance centrale la


plus connue. On la note x̄ si les données proviennent d’un échantillon ou µ
si elles proviennent d’une population.

Définition 4 (Moyenne).

x̄ =
1 n X xk =
x1 + x2 + x3 + ... + xn
n k=1 n

µ=
1 Xx N
=
x1 + x2 + x3 + ... + xN
k
N k=1
N

où les xk sont les résultats obtenus.

Exemple 6.8. Trouver la moyenne de la série des 25 données suivantes :

2, 4, 3, 4, 2, 4, 3, 5, 5, 4, 3, 5, 5, 4, 5, 4, 3, 2, 3, 4, 5, 3, 5, 4, 3.

SOLUTION

x1 + x2 + x3 + ... + xn
x̄ =
n
x1 + x2 + x3 + ... + x25
=
25
1
= (2 + 4 + 3 + 4 + 2 + 4 + 3 + 5 + 5 + 4 + 3
25
+ 5 + 5 + 4 + 5 + 4 + 3 + 2 + 3 + 4 + 5 + 3 + 5 + 4 + 3)
95
=
25
=3.76

Lorsque les données sont groupées par valeurs, on calcule la moyenne à


l’aide de la formule suivante :

x̄ =
1 Xv f
k
=
v1 f1 + v2 f2 + ... + vk fk
,
i i
n i=1
n


• vi est la i-ème valeur
• fi est la fréquence de la i-ème valeur
• k est le nombre de valeurs possibles

Exemple 6.9. Trouvez la moyenne des résultats présentés dans le tableau


suivant :
110 6. Statistiques descriptives Partie 2

Note obtenue à un mini-test Fréquences


2 3
3 7
4 8
5 7
Total 25

SOLUTION

v1 f1 + v2 f2 + ... + vk fk
x̄ =
n
2×3+3×7+4×8+5×7
=
25
= 3.76

Lorsque les données sont regroupées en classes, on ne connaît pas la valeur


de la variable pour chaque fréquence. On prend alors le milieu de la classe.
La moyenne est obtenue avec la formule suivante :

x̄ =
1 Xm f
k
=
m1 f1 + m2 f2 + ... + mk fk
,
i i
n i=1
n


• mi est le milieu de la i-ème classe
• fi est la fréquence de la i-ème classe
• k est le nombre de classes

Exemple 6.10. Trouvez le temps moyen de règne des monarques de l’An-


gleterre.
Répartitions des monarques d’Angleterre (roi ou reine) selon la
durée de leur règne, 827-1952.
Durée du règne Nombre de monarques
[0, 10[ 22
[10, 20[ 16
[20, 30[ 11
[30, 40[ 7
[40, 50[ 1
[50, 60[ 3
[60, 70[ 1
Total 61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.

SOLUTION
6.1. Les mesures de tendance centrale 111

On cherche µ, car c’est une population.

m1 f1 + m2 f2 + ... + m7 f7
µ=
N
5 × 22 + 15 × 16 + 25 × 11 + 35 × 7 + 45 × 1 + 55 × 3 + 65 × 1
=
61
1145
=
61
= 18.8 ans

IMPORTANT
Il faut écrire les unités après les mesures de tendance centrale.

Exemple 6.11. Pour chacun des tableaux suivants, trouvez, si possible,


le mode, la médiane et la moyenne.
a) allo le monde

Répartition des 3 200 335 Québécois de la population active


selon le mode de transport utilisé pour aller au travail
Nombre de Québé- Pourcentage de Qué-
Mode de transport
cois bécois
Automobile 2 502 900 78.21
Transport en commun 411 175 12.85
À pied 221 725 6.93
Bicyclette 39 935 1.25
Moto 3 010 0.09
Taxi 6 050 0.19
Autres moyens 15 540 0.48
Statistiques Canada

allo le monde

b) allo le monde

Répartition de 300 étudiants selon leur degré de satisfaction


envers le nouveau service de sautés de la cafétéria
112 6. Statistiques descriptives Partie 2

Niveau de satisfaction Nombre de Québécois Pourcentage


Pas du tout satisfait 33 11
Peu satisfait 48 16
Assez satisfait 152 50.67
Très satisfait 67 22.33
Total 300 100

allo le monde

c) allo le monde

Répartition de 856 ménages québécois en fonction du nombre


de personnes dans le ménage
Nombre de personnes Nombre de ménages Pourcentage de ménage
1 249 29,09
2 267 31,19
3 151 17,64
4 134 15,65
5 36 4,21
6 13 1,52
7 4 0,47
8 2 0,23
Total 856 100

allo le monde

d) allo le monde

Répartition du nombre de naissances (en milliers) selon l’âge


de la mère au moment de la naissance
6.1. Les mesures de tendance centrale 113

Âge Nombre de naissances Pourcentage Pourcentage cumulé


[15,20[ 2,46 2,81 2,81
[20,25[ 12,84 14,66 17,47
[25,30[ 30,69 35,03 52,5
[30,35[ 28,17 32,15 84,65
[35,40[ 11,32 12,92 97,57
[40,45[ 2,02 2,31 99,88
[45,50[ 0,11 0,12 100
Total 87,61 100
http ://www.stat.gouv.qc.ca/donstat/societe/demographie/naisn_ deces/naissance/414.htm,
consulté le 28 juin 2009

allo le monde

1.4. Caractéristiques.

Type de variables. Caractéristique


• Rapide à trouver.
• Peut ne pas être unique.
• Ne tient pas compte des données margi-
Mode Toutes nales.
• Bonne représentation si la fréquence du
mode est nettement supérieure.

• Moyennement rapide à calculer, car il


faut ordonner les données.
• Unique
• Ne tient pas compte des données margi-
Médiane Quantitatives nales.
• Utiliser lorsque les données sont asymé-
triques
• Bon complément à la moyenne.

• Long à calculer.
• Unique
• Influencé par les données marginales.
Moyenne Quantitatives • Utiliser lorsque les données sont symé-
triques
• Point central de l’inférence statistique.
114 6. Statistiques descriptives Partie 2

1.5. Calcul de la moyenne avec la calculatrice. Puisque le calcul


de la moyenne peut être long, il est possible de se simplifier la tâche grâce
au mode STATISTIQUE de la majorité des calculatrices. Nous regarderons
ici, comment utiliser ce mode sur la calculatrice de marque SHARP. Voici la
procédure à suivre :
1) Mettre la calculatrice en mode statistique. MODE -> 1 -> 0 (SD)
2) Entrée des résultats : 2 façons
Données non regroupées: Valeur de la donnée -> M+
Données regroupées: Valeur de la donnée -> STO -> fréquence -> M+
3) Vérification : le nombres de données. ALPHA -> 0 (n)
4) Moyenne : ALPHA -> 4 (x̄)
5) Vider la mémoire : 2ndF -> ALPHA -> 0 -> 0

2. Les mesures de dispersion


Les mesures de dispersion quantifient l’étalement, la variabilité et l’ho-
mogénéité des données. Toutefois, les mesures de dispersion ne se calculent
que pour les variables quantitatives.
2.1. L’étendue.
Définition 5. L’étendue, symbolisée par E, est l’écart entre la valeur
maximale Vmax et la valeur minimale Vmin des résultats
E = Vmax − Vmin
Exemple 6.12. Trouvez l’étendue.
Répartition des répondants, selon le niveau d’aptitude à la lecture.
Niveau Nombre de répondants Cumulatif des répondants
1 17 17
2 23 40
3 55 95
4 155 250
Total 250
SOLUTION

E = Vmax − Vmin
=4−1
= 3 niveaux
Pour calculer l’étendue d’une variable quantitative continue dont les ré-
sultats sont regroupés en classe, il suffit de soustraire la borne inférieure de
la classe inférieure à la borne supérieure de la classe supérieure.
Exemple 6.13. Trouvez l’étendue.
6.2. Les mesures de dispersion 115

Répartition des monarques d’Angleterre (roi ou reine) selon la


durée de leur règne, 827-1952.
Durée du règne Nombre de monarques Fréquences cumulées
[0, 10[ 22 22
[10, 20[ 16 38
[20, 30[ 11 49
[30, 40[ 7 56
[40, 50[ 1 57
[50, 60[ 3 60
Total 60
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.

SOLUTION

E = Limsup − Liminf
= 60 − 0
= 60 ans

2.2. L’écart-type et la variance. La variance et l’écart-type (que


nous avons vu pour les variables aléatoires) tiennent compte de l’ensemble
des résultats contrairement à l’étendue. Par contre, il y aura une subtilité
importante dans le calcul selon que les résultats proviennent d’un échantillon
ou d’une population.

Définition 6 (La variance). La variance des résultats, notée σ 2 pour


une population et s2 pour un échantillon, est donnée par

P (x − µ)
N
i
2 P (x − x̄)
n
i
2
2 i=1 2 i=1
σ = s = .
N n−1

IMPORTANT
Contrairement au calcul de la moyenne, il y a une différence majeure
dans le calcul de la variance pour une population et pour un
échantillon. Dans le premier, on divise par N et dans le second, c’est
par n − 1. Ceci provient de la théorie des estimateurs et ne sera pas
abordée dans ce cours.

Il sera rare que nous travaillerons avec la variance d’une série de données.
Par contre, nous utiliserons énormément l’écart-type qui, comme on le sait,
est la racine carrée de la variance.

Définition 7 (Écart-type). L’écart-type σ, pour une population, est la


racine carrée de la moyenne des écarts entre les valeurs et la moyenne. Elle
116 6. Statistiques descriptives Partie 2

correspond également à la racine carré de la variance. Dans le cas d’un échan-


Í ÍP
tillon, il y a la même correction que pour le calcul de la variance. Ainsi,
P (x − µ)
N
i
2
n
(xi − µ)2
i=1 i=1
σ= s=
N n−1
Ce que nous donne l’écart-type est la dispersion des données autour de la
moyenne. Plus l’écart-type est faible, plus les données sont dispersées près de
la moyenne. Inversement, plus l’écart-type est élevée, plus les données sont
dispersées loin de la moyenne.
Il existe d’autres formules en fonction du type de regroupement des don-
nées.
Population ÍP N
Échantillon
ÍP n
(xi − µ)2 (xi − µ)2
i=1 i=1
Aucun regroupement
ÍP
σ= s=
k
N ÍP k
n−1

(xi − µ)2 fi (xi − µ)2 fi


i=1 i=1
Regroupées par valeurs σ=
ÍP
k
N
s=
ÍP k
n−1
(mi − µ)2 fi (mi − µ)2 fi
i=1 i=1
Regroupées en classes σ= s=
N n−1
Exemple 6.14. Trouvez l’écart-type sachant que x̄ = 3.39.
Répartition des répondants, selon le niveau d’aptitude à la lecture.
Niveau Nombre de répondants Fréquences cumulées des répondants
1 17 17
2 23 40
3 55 95
4 155 250
Total 250
SOLUTION
ÍP k
(xi − x̄)2 fi
i=1
s=
Ê n−1
(1 − 3, 39)2 × 17 + (2 − 3, 39)2 × 23 + (3 − 3, 39)2 × 55 + (4 − 3, 39)2 × 155
=
249
= 0, 91
6.3. Le coefficient de variation 117

Exemple 6.15. Trouvez l’écart-type.


Répartition des monarques d’Angleterre (roi ou reine) selon la
durée de leur règne, 827-1952.
Durée du règne Nombre de monarques Fréquences cumulées
[0, 10[ 22 22
[10, 20[ 16 38
[20, 30[ 11 49
[30, 40[ 7 56
[40, 50[ 1 57
[50, 60[ 3 60
Total 60
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.

SOLUTION

Í
Supposons que nous savons que la moyenne est 18.
P (m − µ) f
k
i
2
i
i=1
σ=
Ê N
(5 − 18)2 × 22 + (15 − 18)2 × 16 + ... + (55 − 18)2 × 3
=
60
= 13, 70 ans
2.3. Calcul de l’écart-type avec la calculatrice. Il faut d’abord
avoir entré les données.
1) Population : ALPHA -> 6 (σ)
2) Échantillon : ALPHA -> 5 (s)

3. Le coefficient de variation
Le coefficient de variation permet de comparer la variabilité de deux sé-
ries qui ont des moyennes très différentes ou même qui ne sont pas exprimées
dans les mêmes unités puisque le coefficient de variation exprime l’écart-type
en pourcentage de la moyenne.
Définition 8 (Le coefficient de variation). Le coefficient de variation
(CV ) est donné par
σ s
CV = × 100% CV = × 100%
µ x̄
Le coefficient de variation donne l’homogénéité de la série. Si le coefficient
de variation est inférieur à 15%, on considère que les données sont homogènes
(c’est-à-dire qu’elles sont similaires) et inversement, si le coefficient de varia-
tion est supérieur à 15%, on dit que les données sont hétérogènes.
Exemple 6.16. Pour chacun des tableaux suivants, trouvez l’étendue,
l’écart-type et le coefficient de variation et interprétez le résultat.
118 6. Statistiques descriptives Partie 2

a) allo le monde

Répartition de 856 ménages québécois en fonction du nombre


de personnes dans le ménage
Nombre de per- Nombre de mé- Pourcentage de
sonnes nages ménage
1 249 29,09
2 267 31,19
3 151 17,64
4 134 15,65
5 36 4,21
6 13 1,52
7 4 0,47
8 2 0,23
Total 856 100

allo le monde

b) allo le monde

Répartition du nombre de naissances (en milliers) selon l’âge


de la mère au moment de la naissance
Âge Nombre de naissances Pourcentage Pourcentage cumulé
[15,20[ 2,46 2,81 2,81
[20,25[ 12,84 14,66 17,47
[25,30[ 30,69 35,03 52,5
[30,35[ 28,17 32,15 84,65
[35,40[ 11,32 12,92 97,57
[40,45[ 2,02 2,31 99,88
[45,50[ 0,11 0,12 100
Total 87,61 100
http ://www.stat.gouv.qc.ca/donstat/societe/demographie/naisn_ deces/naissance/414.htm,
consulté le 28 juin 2009

allo le monde
6.4. Les mesures de position 119

3.1. Caractéristiques.

• Rapide à calculer.
• Mêmes unités que la variable.
Étendue E • Ne tient compte que des données extrêmes.
• Influencé par les données marginales.

• Long à calculer.
• Mêmes unités que la variable, mais au carré.
Variance (σ 2 , s2 )
• Tient compte de toutes les données.

• Long à calculer.
• Mêmes unités que la variable.
Écart-type (σ, s) • Tient compte de toutes les données.
• Le plus utilisé.

• Long à calculer
• Aucune unité
Coefficient de va-
• Tient compte de toutes les données.
riation (CV )
• Caractérise l’homogénéité des données

4. Les mesures de position


Les mesures de position permettent de situer une donnée par rapport
aux autres. Nous en étudierons deux types : les quantiles et les rangs.
4.1. Les quantiles. Les quantiles sont des valeurs qui divisent une série
de données ordonnées en plusieurs groupes égaux.
Définition 9 (Les quartiles). Les quartiles, notés par Q1 , Q2 et Q3 ,
divisent une série de données ordonnées en quatre groupes égaux comprenant
chacun 25% des données de la série. On dit que
(1) 25% des données sont inférieures ou égales à Q1
(2) 50% des données sont inférieures ou égales à Q2
(3) 75% des données sont inférieures ou égales à Q3
Définition 10 (Les déciles). Les déciles, notés par D1 , D2 , ..., D8 et D9 ,
divisent une série de données ordonnées en dix groupes égaux comprenant
chacun 10% des données de la série. On dit que
(1) 10% des données sont inférieures ou égales à D1
(2) 20% des données sont inférieures ou égales à D2
(3) ...
(4) 90% des données sont inférieures ou égales à D9
120 6. Statistiques descriptives Partie 2

Définition 11 (Les quintiles). Les quintiles, notés par V1 , V2 , V3 et V4 ,


divisent une série de données ordonnées en 5 groupes égaux comprenant cha-
cun 20% des données de la série. On dit que
(1) 20% des données sont inférieures à ou égales V1
(2) 40% des données sont inférieures à ou égales V2
(3) 60% des données sont inférieures à ou égales V3
(4) 80% des données sont inférieures à ou égales V4

Définition 12 (Les centiles). Les centiles, notés par C1 , C2 , ...C98 et C99 ,


divisent une série de données ordonnées en 100 groupes égaux comprenant
chacun 1% des données de la série.
On dit que
(1) 1% des données sont inférieures ou égales à C1
(2) 2% des données sont inférieures ou égales à C2
(3) ...
(4) 99% des données sont inférieures ou égales à C99

Il existe deux façons d’obtenir les quantiles. La première façon est d’uti-
liser l’ogive, mais attention vous n’obtenez qu’une estimation de la réponse.
La deuxième façon donne une réponse exacte.

Exemple 6.17. Trouvons Q1 à l’aide des deux méthodes.


Répartitions des monarques d’Angleterre (roi ou reine) selon la
durée de leur règne, 827-1952.
Durée du règne Nombre de monarques Fréquences relatives cumulées
[0, 10[ 22 36,06
[10, 20[ 16 62,30
[20, 30[ 11 80,33
[30, 40[ 7 91,80
[40, 50[ 1 93,44
[50, 60[ 3 98,36
[60, 70[ 1 100
Total 61
Source : R. Porkess, Dictionary of Statistics, Londres, Collins, 1988, p.70.

Pour utiliser la première méthode, il faut tracer l’ogive associée à la variable


durée du règne. Par la suite, on peut retrouver l’information sur le graphique.
Ici, on cherche Q1 telle que 25% des données sont inférieures ou égales à cette
valeur. Pour déterminer cette valeur, on doit tracer un segment de droite
horizontal partant du point (0, 25) jusqu’à la courbe. À partir de ce point, on
descend une droite verticale jusqu’à l’axe des x. Nous pouvons donc estimer
Q1 ≈ 7ans .
6.4. Les mesures de position 121

Répartitions des fréquences cumulées des monarques d’Angleterre


(roi ou reine) selon la durée de leur règne, 827-1952.
% cumulé
100 b
b

b
b
90
80 b

70
b
60
50
40 b

30
20
10 durée du règne (années)
0 b

Q1 10 20 30 40 50 60 70
La deuxième façon nous permet de déterminer la valeur exacte. On cherche
la première classe pour laquelle le pourcentage cumulé dépasse 25%, c’est
alors dans cette classe que se situe Q1 . Ainsi, Q1 se trouve entre 0 et 10.
On sait que la valeur 0 est associée à 0% et que la valeur 10 est associée à
36, 06%. On cherche la valeur associée à 25%. Puisque ces trois points sont
sur une même droite, on a alors
10 − 0 Q1 − 0
= .
36, 06 − 0 25 − 0
En isolant Q1 , on obtient Q1 = 6, 93ans.
Exemple 6.18. Trouvez D6 pour l’exemple précédent.
SOLUTION
D6 correspond à la valeur de la variable telle que 60% des données lui sont
inférieures ou égales. D6 appartient donc à la classe [10, 20[. Nous avons
donc un triplet de points (10, 36.06), (D6 , 60) et (20, 62.30). Puisque ces trois
points sont sur une même droite, on a alors
20 − 10 D6 − 10
= .
62.30 − 36, 06 60 − 36.06
En isolant D6 , on obtient D6 = 19.12ans.
Il en va de même pour toutes les autres mesures de position, puisque
chaque mesure de position correspond à un pourcentage précis, il sera pos-
sible de calculer de cette façon chacun des quantiles demandés.
Exemple 6.19. Voici un tableau représentant des données provenant de
statistiques canada sur le nombre de femmes au chômage :
Répartition de 902 femmes au chômage à la recherche d’emploi
selon l’âge
122 6. Statistiques descriptives Partie 2

Âge Nombre de femmes Pourcentage Pourcentage cumulée


[15,25[ 339
[25,35[ 273
[35,45[ 147
[45,55[ 121
[55,65[ 22
Total 902
a) Complétez le tableau.
b) À partir de ce tableau, calculez Q1 , C65 , C15 et D3 . Interprétez le résultat.
c) Calculez Q2 . Peut-on donner un autre nom à cette mesure ?
SOLUTION
allo le monde
6.4. Les mesures de position 123

4.2. Les rangs. Nous verrons trois types différents de rang : le rang
brut, le rang cinquième et le rang centile.
4.2.1. Le rang brut. Le rang brut sert à situer les données les unes par
rapport aux autres. Il suffit de classer les données en ordre.
Exemple 6.20. Les notes d’un examen sont les suivantes : 99, 98, 98,
98, 97, etc...
Est-ce que la personne qui a le troisième 98 est quatrième de sa classe ? ?
Bien sûr que non, elle est aussi deuxième. Par contre, la personne ayant la
note 97 se retrouve au cinquième rang puisqu’il y a 4 personnes ayant eu une
meilleure note qu’elle.
Il y a une formule très simple pour calculer le rang brut d’une donnée :
Si les données sont placées en ordre croissant :
Rb (x) = 1 + nombre de données de valeur inférieure à x
Si les données sont placées en ordre décroissant :
Rb (x) = 1 + nombre de données de valeur supérieure à x
4.2.2. Le rang cinquième et le rang centile dans le cas de variables grou-
pées par valeurs. Pour calculer le rang centile, on utilise la formule vue au
chapitre 4 :
nb de données inférieures à x + 21 nb de données égales à x
R100 (x) = × 100.
nb total de données
Pour ce qui est du rang cinquième, on peut le déterminer à partir du rang
centile de la façon suivante :
• Si R100 (x) est dans l’intervalle [80, 100[, alors R5 (x) = 1.
• Si R100 (x) est dans l’intervalle [60, 80[, alors R5 (x) = 2.
• etc...
4.2.3. Le rang cinquième et le rang centile dans le cas de données groupées
en classes. Dans le cas des variables groupées en classes, le rang cinquième
et le rang centile se calculent à l’aide d’un raisonnement similaire à celui
utilisé pour calculer les quantiles. Le prochain exemple illustre la méthode.
Exemple 6.21. Le conseil étudiant a fait un étude sur le salaire moyen
des élèves pendant leurs études collégiales.
Répartition de 500 élèves selon le revenu d’emploi (en milliers)
Revenu d’emploi Nombre d’élèves Pourcentage Pourcentage cumulé
[0, 5[ 156
[5, 10[ 184
[10, 15[ 82
[15, 20[ 42
[20, 25[ 36
Total 500
a) Complétez le tableau.
124 6. Statistiques descriptives Partie 2

b) Donnez le rang centile et le rang cinquième d’un élève qui gagne 17000
$ par année.
c) Quelle est la signification de la réponse précédente ?
d) Quelle est la valeur du 53e centile ?
e) Un élève affirme qu’il est dans le quatrième rang cinquième. Que peut-on
affirmer à propos de son revenu d’emploi ?

SOLUTION
allo le monde
6.5. Exercices récapitulatifs du chapitre 6 125

5. Exercices récapitulatifs du chapitre 6


Exercice 1. Vrai ou Faux ?
a) Le mode est unique.
b) Le mode subit l’influence des valeurs extrêmes.
c) La médiane correspond nécessairement à une valeur de la série.
d) La médiane d’une série comportant 25 observations est la 13ième donnée.
e) Si on change la plus haute donnée de la série par une donnée 5 fois plus
grande, la médiane sera affectée.
f) Pour calculer la moyenne, il faut classer les données en ordre croissant.
g) La moyenne subit l’influence des valeurs extrêmes.
Exercice 2. Pour chacun des cas suivants, trouvez le mode, la médiane
et la moyenne si possible. Interprétez chacune de vos réponses. Lorsque les
données sont présentées sous forme graphique, construisez le tableau de fré-
quence.
a) allo le monde

Table 1. Répartition de la population mondiale selon le


continent, en 2007

Continent Nombre de personnes en millions


Asie 4 030
Afrique 965
Europe 731
Amérique latine et Caraïbes 572
Amérique du Nord 339
Océanie 34
Total 6 671
http ://fr.wikipedia.org/wiki/Population_ mondiale, consulté le 5 juillet 2009

b) allo le monde

Répartition de 500 personnes selon leur degré d’approbation


envers l’installation d’un nouveau pont reliant Montréal à la
Rive-Sud.

Très en accord, 347

Très en désaccord, 16
En désaccord, 29
En accord, 108
126 6. Statistiques descriptives Partie 2

c) allo le monde

Répartition des canadiens selon leur groupe sanguin en 2006

%
39
40 36

30

20

7 7.5
10 6
1.5 2.5 0.5
O+ O− A+ A− B+ B− AB+AB− Groupe

d) allo le monde

Répartition de 60 étudiants selon le nombre de café


consommés aujourd’hui
Nombre de cafés Nombre d’étudiants Pourcentage
0 14
1 23
2 18
3 4
4 1

e) allo le monde
6.5. Exercices récapitulatifs du chapitre 6 127

Répartition de 250 élèves selon le


nombre de fautes de français à l’Épreuve uniforme de français.

Nombre d’élèves
125
100
75
50
25

8 16 24 32 40Nombre de fautes
f) allo le monde

Table 2. Répartition de 110 personnes selon le montant dé-


pensé au restaurant Le Cumulus du quartier Dix30

Montant dépensé Nombre de personnes Pourcentage


[0,30[ 24
[30,60[ 47
[60,90[ 25
[90,120[ 10
[120,150[ 4

Exercice 3. Le médecin veut étudier le temps qu’il a mis à établir un


diagnostic de cancer pour ses patients. Il décide alors de fouiller dans ses
dossiers et note le temps pris entre la première rencontre avec le patient et
le jour où il lui a annoncé officiellement le diagnostic. Il trouve 40 dossiers
pour les 2 dernières années. Voici la liste des temps notés par ce médecin
pour ces 40 dossiers :
Durée de diagnostic pour 40 dossiers (en jour)
23 42 58 12 8 33 8 72
17 11 46 19 21 24 26 31
53 25 31 22 42 24 30 21
23 24 41 27 28 38 21 4
35 17 25 30 23 42 26 25
a) Quelle est la population étudiée ?
b) Quel est l’unité statistique ?
128 6. Statistiques descriptives Partie 2

c) Quelle est la variable à l’étude ? Donnez son type.


d) Ce médecin a-t-il fait un recensement ? Sinon expliquez sa technique
d’échantillonnage.
e) Faites un tableau de fréquences.
f) Faites une ogive représentant ce tableau.
g) À l’aide de l’ogive dites quelle pourcentage des patients reçoivent un diag-
nostic en moins de 30 jours.
h) À l’aide du tableau, trouvez la moyenne, le mode et la moyenne. Inter-
prétez chacune de vos réponses.

Exercice 4. Pourquoi utilise-t-on les mesures de dispersions ?

Exercice 5. Vrai ou Faux ?

a) L’étendue tient compte de toutes les valeurs d’une série.


b) L’écart-type est donné par la racine carrée de la variance.
c) La variance peut être nulle.
d) Si deux séries statistiques ont des moyennes similaires, celle qui pré-
sentent la plus grande variance est alors la plus étalée.

Exercice 6. Un groupe d’amis fête le nouvel an. L’âge moyen est de


36,5 ans et la variance est 12,3. Le même groupe d’amis se revoient à la
même date l’an suivant pour fêter encore le nouvel an. Donnez la moyenne
et la variance de cette dernière fête.

Exercice 7. Pour chacun des cas suivants, calculez l’étendue, la va-


riance et l’écart-type.
a) allo le monde

Répartition de 60 étudiants ou étudiantes selon le nombre de


café consommés aujourd’hui
Nombre de cafés Nombre d’étudiants Pourcentage
0 14
1 23
2 18
3 4
4 1
Total

b) allo le monde
6.5. Exercices récapitulatifs du chapitre 6 129

Distribution de 110 personnes selon le montant dépensé au


restaurant Le Cumulus du quartier Dix30
Montant dépensé Nombre de personnes Pourcentage
[0,30[ 24
[30,60[ 47
[60,90[ 25
[90,120[ 10
[120,150[ 4
Total
c) allo le monde
Distribution de 250 étudiants selon le nombre de fautes de
français à l’épreuve uniforme de français.
Nombre de fautes commises Nombre d’étudiants Pourcentage
[0,8[ 26 10.4
[8,16[ 119 47.6
[16,24[ 54 21.6
[24,32[ 32 12.8
[32,40[ 19 7.6
Total 250 100

Exercice 8. Un travailleur qui réside sur la rive-sud de Montréal et qui


travaille à Montréal peut utiliser n’importe lequel des ponts de l’est. Il les a
tous utilisés tout au long d’une année et a calculé la moyenne et l’écart-type
du temps pris pour traverser chacun des ponts. Voici les données : Pont-
Tunnel Hippolyte-Lafontaine ( 46 ; 8.5), Pont Jacques-Cartier (40 ; 8), Pont
Victoria (45 ; 10), Pont Champlain (35 ; 12). Lequel des trajets est le plus
homogène quant au temps de parcours ?
Exercice 9. Un policier a noté toutes les vitesses enregistrées à l’aide de
son radar lors de sa ronde de surveillance sur la route 104 dans la zone où la
vitesse maximale permise est 90 km/h. Voici toutes les vitesses enregistrées :

Table 3. Les 34 vitesses enregistrées

95,6 103,1 106,3 110,2 113,5 119,5


98,7 104,5 106,5 110,3 114,3 122,3
100,2 105,0 106,8 110,5 114,8 124,0
101,7 105,1 107,1 111,2 114,9 129,0
102,5 105,3 110,1 111,6 115,3
102,7 106,1 110,2 112,4 118,3

a) Quelle est la variable à l’étude ?


b) De quelle nature est-elle ?
130 6. Statistiques descriptives Partie 2

c) Quelle échelle de mesure a été employé ?


d) Regroupez ces observations dans un tableau de fréquences. Prenez 95km/h
comme limite inférieure et 5km/h comme amplitude. Respectez les normes
de présentation.
e) Calculez le mode, la médiane et la moyenne.
f) Calculez l’étendue et l’écart-type.
g) Un autre policier a aussi fait le même exercice. Il a obtenu une moyenne
de 105,6 et un écart-type de 8,4. Laquelle des deux séries d’observations
est la plus homogène ?
Exercice 10. Vrai ou Faux ?
a) 30% des données sont supérieures à D3 .
b) Si un individu se situe au premier rang cinquième, cela signifie qu’il fait
partie des 20% meilleurs.
c) 7% des données sont inférieures à D7 .
Exercice 11. À l’aide de l’ogive suivante, répondez aux questions.

Répartition du nombre de naissance (en milliers) selon l’âge de


la mère au moment de la naissance

100 b
b b

90
b

80

70

60
b

50

40

30

20 b

10
b
b

5 10 15 20 25 30 35 40 45 50 Âge
a) Parmi les femmes qui ont donné naissance à un enfant, quel pourcentage
des mères étaient âgées de moins de 30 ans ?
6.5. Exercices récapitulatifs du chapitre 6 131

b) Estimez C80 et dites ce que ce nombre signifie.

c) Trouvez l’étendue.

Exercice 12. allo le monde

a) Calculez Q3 .

Répartition de 60 étudiants ou étudiantes selon le nombre de


café consommés aujourd’hui
Nombre de cafés Nombre d’étudiants Pourcentage
0 14
1 23
2 18
3 4
4 1
Total

b) Calculez D4 et V4 .

Distribution de 110 personnes selon le montant dépensé au


restaurant Le Cumulus du quartier Dix30
Montant dépensé Nombre de personnes Pourcentage
[0,30[ 24
[30,60[ 47
[60,90[ 25
[90,120[ 10
[120,150[ 4
Total

c) Calculez C22 .

Distribution de 250 étudiants selon le nombre de fautes de


français à l’épreuve uniforme de français.
Nombre de fautes commises Nombre d’étudiants Pourcentage
[0,8[ 26 10.4
[8,16[ 119 47.6
[16,24[ 54 21.6
[24,32[ 32 12.8
[32,40[ 19 7.6
Total 250 100

Exercice 13. À l’aide du tableau suivant, répondez aux questions sui-


vantes :
132 6. Statistiques descriptives Partie 2

Répartition d’un échantillon de 90 employés d’une usine selon le


salaire brut hebdomadaire
Salaire Nombre d’employés Pourcentage % cumulé
[300,350[ 18
[350,400[ 26
[400, 450[ 26
[450,500[ 20
Total 90
a) Complétez le tableau.
b) Calculez la médiane et interprétez le résultat.
c) Calculez la moyenne et interprétez le résultat.
d) Calculez l’étendue.
e) Calculez l’écart-type.
f) Calculez le coefficient de variation et interprétez le résultat.
g) Calculez le premier quartile et le troisième quartile et interprétez chacun
des résultats.
h) Calculez le 85e centile.
i) Calculez le rang centile de la donnée 420$.
j) Tracez l’ogive et vérifiez vos réponses aux 3 précédentes questions.
Réponses

165

S-ar putea să vă placă și