Sunteți pe pagina 1din 11

UNIVERSITE DE YAOUNDE II-SOA

COURS DE STATISTIQUES APPLIQUÉES AUX


SCIENCES SOCIALES

Prof. Mondjeli Mwa Ndjokou

Année académique 2019-2020

Alphabet grec
Nom en Majuscules Minuscules Nom en Majuscules Minuscules
lettres lettres
Alpha  [ Nu & g
Bêta  \ Xi ' h
Gamma  ] Omicron ( i
Delta  ^ Pi ) j
Epsilon  _ Rho * k
Zêta  ` Sigma + l
Êta a Tau , m
Thêta ! b Upsilon - n
Iota " c Phi . o
Kappa # d Khi / p
Lambda $ e Psi 0 q
Mu % f Oméga 1 r
Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

INTRODUCTION GÉNÉRALE
La statistique peut être définie comme une méthode mathématique d’analyse quantitative
des ensembles comportant de nombreux éléments. Ses principaux supports sont l’analyse
numérique et l’analyse graphique. C’est un outil de connaissance qui permet d’interpréter les
phénomènes, d’en dessiner les contours, de mesurer les dimensions et de mettre en valeur les
aspects les plus importants. C’est une méthode quantitative, c'est-à-dire qu’elle utilise le
nombre comme moyen d’expression. Au langage des lettres, elle oppose celui des chiffres, ce
qui lui confère un caractère évident d’objectivité, mieux de neutralité. Il n’a y pas de place pour
les jugements de valeur quant aux phénomènes observés. En ce sens, elle permet de disjoindre
l’observation de l’appréciation. En bref, pour être efficace, la statistique doit simplifier,
résumer, synthétiser ou mieux encore décomposer. Au demeurant, ce qu’elle gagne en
efficacité, elle le perd en fidélité.

On distingue trois étapes dans l’enseignement de la statistique :

 la statistique descriptive, dont le but est de décrire le phénomène observé, de dégager


l’essentiel et de réaliser des synthèses à l’aide d’un langage numérique. Ici, on utilise
les mathématiques élémentaires qui suffisent le plus souvent pour interpréter les
données disponibles et éclairer la prise de décision ;
 le calcul des probabilités, qui est basé essentiellement sur les mécanismes aléatoires ;
 la statistique mathématique, qui se rapporte à l’étude de l’induction statistique.

Sans être exhaustif, la statistique est utilisée dans de nombreux domaines : en démographie
(recensement), en économie (revenu, consommation, PIB, etc.), en sociologie, en agronomie
(production agricole), dans l’industrie (contrôle de la fabrication), en politique (enquête
d’opinion, sondage pré-électoral), en médecine (test d’efficacité des médicaments), etc.

L’objectif du présent cours est de donner à l’apprenant les outils d’analyse de base lui
permettant de décrire une population statistique. Au terme de ce cours, l’étudiant sera capable
de dégager les paramètres de tendance centrale et d’en donner une interprétation rigoureuse,
d’analyser la dispersion et la concentration d’une population, d’étudier le sens et le degré
d’interdépendance entre les phénomènes (ajustement, corrélation), de cerner l’importance du
temps dans l’évolution des phénomènes, … Bref, ce cours prépare le futur décideur à détecter
des problèmes et à implémenter un début de solution dans son environnement socio-
économique.

Le cours se décline en six chapitres :

Chapitre 1 : Les séries statistiques à un caractère

Chapitre 2 : Description numérique d’une série statistique à un caractère

Chapitre 3 : Les distributions statistiques à deux caractères

Chapitre 4 : Description numérique des distributions statistiques à deux caractères

Université de Yaoundé II-Soa 2 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

CHAPITRE 1 : LES SÉRIES STATISTIQUES À UN


CARACTÈRE
L’objectif des outils de statistique descriptive élémentaire est de fournir des résumés
synthétiques de séries de valeurs, adaptés à leur type (qualitatives ou quantitatives), et observées
sur une population ou un échantillon. Dans le cas d’une seule variable, les notions les plus
classiques sont celles de médiane, quantile, moyenne, fréquence, fréquence cumulée, variance,
écart-type. A ces notions sont associées des représentations graphiques : diagramme en bâton,
diagramme en secteurs, diagramme cumulatif, histogramme, courbe cumulative, boîte à
moustache, etc.

1. APPRÉHENSIONS STATISTIQUES
1.1. Les diverses étapes d’une étude statistique
Il s’agit ici de passer en revue les diverses étapes d’une étude statistique.

1.1.1. La collecte des données de base


Ici, on procède d’abord par :

 la définition des renseignements à obtenir, en indiquant précisément l’ensemble à


étudier. Ex : l’âge de l’ensemble des étudiants de L1 ;
 l’obtention des renseignements : ici deux procédures existent : le recensement et le
sondage. Le recensement consiste à donner un questionnaire à tous les éléments de la
population en question. Le sondage quant à lui est un échantillon suffisamment
représentatif prélevé de la population. Il est à noter que ses résultats sont au final
extrapolés sur toute la population ;
 le classement des données ou renseignements, qui se fait sous forme de tableau ou de
représentations graphiques.

1.1.2. L’analyse des données


L’analyse des données consiste à :

 simplifier de nombreuses données numériques en les remplaçant par quelques


paramètres (moyenne arithmétique, mode, médiane, …) ;
 décomposer des phénomènes complexes en leurs entités simples. Par exemple, on devra
mette en exergue les tendances à long terme (trends), les variations saisonnière,
cycliques et tout ce qui est relatif aux aléas ;
 étudier les liens entre la variation de deux phénomènes. Il s’agit de ce qui est relatif aux
corrélations.

1.2. Population et unités statistiques

Le souci premier du statisticien est de définir sans ambiguïté l’ensemble de référence sur lequel
vont porter les observations.

Université de Yaoundé II-Soa 3 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

1.2.1. La population

La population c’est l’ensemble de référence ou l’ensemble des unités statistiques observées.


Chaque élément de cet ensemble est appelé individu ou unité statistique. On l’appelle encore le
référentiel ou l’univers statistique.

1.2.2. Le caractère

Dès que le nombre d’individus devient trop important, le statisticien retient les aspects les plus
significatifs. Le caractère peut donc être défini comme un critère de classification des unités
statistiques. Le caractère range par conséquent les individus qu’il considère comme équivalents
dans une même classe ou sous une même rubrique. Ex : le personnel de l’UYII peut être classé
par âge, par sexe, par qualification.

1.2.3. La modalité

Chaque classe ou rubrique du caractère s’appelle une modalité.

Exemple :

Caractères Sexe Situation matrimoniale


Modalités Masculin Féminin Célibataire Marié Divorcé

Propriétés

P1 : les modalités sont incompatibles ou exclusives, c'est-à-dire qu’un individu ne peut


appartenir à deux modalités à la fois.

P2 : les modalités sont sans ambiguïté, c'est-à-dire qu’elles incluent toutes les situations.

P3 : les modalités d’un caractère sont hiérarchisées suivant la finesse de l’information


disponible.

Deux individus sont dans la même classe si et seulement si ils ont la même modalité. Les classes
d’équivalence forment alors une partition de la population c'est-à-dire une subdivision de la
population E en sous-ensembles E1, E2, E3,…EP qui vérifient :

 les Ei sont tous non vides : ∀i = 1, 2... p, Ei ≠ ∅ ;


 les Ei sont deux à deux disjoints : si i ≠ j , Ei ∩ E j = ∅ ;
p
 la réunion des Ei est égale à la population E : E i = E.
i =1

Autrement dit, chaque individu de la population est dans un unique sous ensemble Ei et un seul.

1.3. Les différents types de caractères

On distingue deux types de caractères : les caractères qualitatifs et les caractères quantitatifs.

Université de Yaoundé II-Soa 4 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

1.3.1. Les caractères qualitatifs

Un caractère est dit qualitatif dès lors que son observation ne peut faire l’objet d’une mesure.
C’est dire que ses différentes modalités ne peuvent en aucun cas être quantifiées. Ex : le sexe,
la nationalité, la catégorie socioprofessionnelle, la situation matrimoniale, …

1.3.2. Les caractères quantitatifs

Un caractère est dit quantitatif lorsque son observation fait l’objet d’une mesure, c'est-à-dire
que ses modalités sont repérables et quantifiables. Les caractères quantitatifs peuvent être
discrets ou continus :

 la variable statistique discrète (discontinue) : dans ce cas, les valeurs possibles sont
des nombres isolés qui appartiennent à l’ensemble des entiers (ensemble IN). Ex :
le nombre d’enfants par ménage, l’âge d’un individu, … ;
 la variable statistique continue : ici, les valeurs sont en nombre infini ou
appartiennent à l’ensemble des réels (IR). Ex : l’âge exact d’un individu, la
température d’un corps, le poids, … Dans ce cas, il convient dans le but de simplifier
l’analyse, de découper la série en plusieurs classes d’amplitudes égales ou non.

2. TABLEAUX ET GRAPHIQUES STATISTIQUES


2.1. Le rôle des tableaux statistiques

Les tableaux statistiques représentent une première synthèse de l’information qui permet de
circonscrire la distribution, de donner l’allure et la perception brute certes que l’on a du
phénomène observé. Ils ont donc pour rôle de classer les informations issues de la collecte des
données.

2.1.1. Le cas des séries qualitatives

2.1.1.1. Les modalités

Dans ce cas, les modalités sont simplement constatées par un mot traduisant un état ou une
rubrique. Généralement, les modalités sont précédées d’un numéro de code (la nomenclature).

2.1.1.2. Les fréquences

Les fréquences absolues sont les effectifs notés ni. Elles représentent le nombre de fois où la
modalité i aura été observée.

Les fréquences relatives, notées fi représentent le quotient des effectifs ni par l’effectif total N.
fi=ni/N.

Propriétés :
k

∑n i =N
P1 : i =1

Université de Yaoundé II-Soa 5 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

ni ∑n i N
∑f =∑N =i
N
=
N
=1
P2 :

Ex : Le tableau ci-dessous donne la répartition en 2016 des étudiants de L1 classés selon leurs
régions d’origine.

Régions ni fi
Centre 5
Littoral 10 TAF : après avoir déterminé l’effectif total (N), calculer les fréquences
Adamaoua 8 relatives fi. Déterminer la région modale et interpréter.
Sud-ouest 16
Nord-ouest 10
Nord 15
Total

2.1.2. Le cas des séries quantitatives

2.1.2.1. Cas des séries quantitatives discrètes

Les différentes modalités sont faciles à appréhender. La suite des valeurs possibles retenue est
généralement ordonnée par tri croissant.

Ex : Dans un cours de tronc commun de Statistique, on compte le nombre de formats utilisé par
les étudiants (à traiter dans l’amphi) :

xi 0 1 2 3 4 Total
ni 10 12 14 15 5

Le calcul des FCC permet de répondre à la question « combien d’étudiants ont utilisés xi
formats au plus » ou plus exactement « quel est le % d’étudiants ayant utilisés aux plus xi
formats ? »1 .

Le calcul des FCD permet de répondre à la question « combien d’étudiants ont utilisés xi
format au moins » ou plus exactement « quel est le % d’étudiants ayant utilisés au moins xi
formats?

2.1.2.2. Cas des séries quantitatives continues

Une variable est dite continue dès lors qu’elle est susceptible de prendre toute valeur réelle dans
un intervalle.

Soit un intervalle [ai ; bi[ : ai est la bornes inférieure et bi la borne supérieure :

ai + bi
 le centre de cet intervalle est ci = ;
2
 la distance est notée hi = (bi − ai ) / 2


1Pour déterminer exactement le nombre, on va du bas vers le haut et on retranche à l’effectif total le cumul des effectifs qui s’arrêtent juste
avant l’effectif de la modalité concernée.
Université de Yaoundé II-Soa 6 Année académique 2019-2020

Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

 l’étendue ou l’amplitude ei=bi-ai.

Ex : la répartition d’un parc automobile selon le kilométrage est la suivante :

Km.103 [0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 16[ [16 ; 20[ [20 ; 24[ Total


Nbre de véhicules (ni) 15 25 40 11 9 8
TAF à la maison : combien de véhicules ont parcourus moins de 12 000 km ? Plus de 8 000
km ? Quel type de véhicules selon le kilométrage observe-t-on le plus ?

2.2. Les représentations graphiques

Elles donnent une image visuelle du phénomène et complètent ainsi les informations évoquées
par le tableau numérique. Elles ont l’avantage de permettre la comparaison entre 2 phénomènes
à travers la mise en évidence de leurs traits essentiels.

2.2.1. Le cas d’un caractère qualitatif

Le principe consiste à utiliser les fréquences absolues ou les fréquences relatives pour faire des
représentations graphiques. Elles peuvent prendre la forme de secteurs circulaires ou semi-
circulaires, de tuyaux d’orgue, de diagrammes en bande.

2.2.1.1. Secteurs circulaires et semi-circulaires

Tous les secteurs sont tracés sur un même cercle, l’angle au centre étant proportionnel à
l’effectif ou à la fréquence. Ainsi si Si est la surface d’un secteur i, on a : Si=360°(ni/N)=360°fi.
Ex : la filière MBF compte 45 étudiants repartis selon leur régions d’origine : Littoral 8 ; Centre
9 ; Ouest 20 ; Nord 5 et Nord-Ouest 5.

Ainsi SY=(nY/N)*360°, SD=(nD/N)*360°, ainsi de suite.

NB : Les résultats sont exprimés en degré. En ce qui concerne les secteurs semi-circulaires, le
facteur de pondération est 180°.

2.2.1.2. Les tuyaux d’orgue

Chaque tuyau se caractérise par une base constante et une hauteur proportionnelle à l’effectif
ou à la fréquence.

Ex : les effectifs des étudiants en fonction de filières sont les suivants :

Filières 2015 2016


Économie 10 15
Droit 15 20
Science politique 12 8

2.2.1.3. Les diagrammes en bande

Il s’agit de représenter sur une même bande qui peut être verticale ou horizontale les effectifs
ou les fréquences des différentes modalités en respectant le principe de proportionnalité.

2.2.2. Le cas de la variable quantitative


Université de Yaoundé II-Soa 7 Année académique 2019-2020

Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

2.2.2.1. La variable discrète

Ex : soit la répartition des pièces mécaniques selon le nombre de pièces défectueuses.

xi 0 1 2 3 4 5 6 Total
ni 10 12 14 15 5 3 9

Deux types de diagrammes peuvent être dessinés.

• Les digrammes en bâton

Ils sont obtenus de la manière suivante : sur l’axe des abscisses, on marque chacune des valeurs
de la variable. Sur l’axe des ordonnées, on porte les fréquences ou les effectifs correspondants.
Chaque bâton sera proportionnel à la fréquence correspondante.

• La fonction de répartition

Il s’agit de représenter graphiquement les fréquences cumulées.

⎧0, pour x ∈ [0; −∞[



⎪n
Ainsi pour F ( xi ) = ⎨ i , pour x < xi
⎪N
⎪⎩1 pour xi ≥ xsup

Ainsi de F(-∞) = 0 et F(+∞) = 1.

La fonction de répartition (cumulative) indique la proportion des éléments de la population dont


la valeur du caractère est < xi.

2.2.2.2. La variable statistique continue

La représentation graphique peut prendre la forme d’un histogramme ou une fonction de


répartition.

 L’histogramme : l’axe des abscisses représente les différentes classes successives et l’axe
des ordonnées les fréquences correspondantes aux classes.

• Cas des classes à amplitudes égales : chaque classe est représentée par un rectangle
dont la largeur sur l’axe horizontal est l’amplitude, et sur l’axe des ordonnées, la
longueur c’est la fréquence. La surface de ce rectangle est égale à l’amplitude multipliée
par la fréquence, la surface totale étant proportionnelle à l’effectif total.

Ex : la répartition des salaires des 1000 ouvriers de l’UYII est représentée dans le tableau
suivant :

Niveau de salaire.103 ni Fi
[10 ; 20[ 100 0.1

Université de Yaoundé II-Soa 8 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

[20 ; 30[ 300 0.3


[30 ; 40[ 400 0.4
[40 ; 50[ 200 0.2
Total 1000 1
TAF : tracer l’histogramme des fréquences.

• Cas des classes à amplitudes inégales : afin de dessiner un histogramme correct, il


importe de procéder au préalable au calcul des densités de fréquences. C’est le rapport
entre la fréquence et l’amplitude : di=fi/ei.

Ex : la série statistique ci-dessous représente les exploitations agricoles d’une région en fonction
de leurs superficies :

Superficies (ha) ni fi di .102 FCC FFD TAF : Tracer histogramme dans ce cas.
[0 ; 1[ 27 Interpréter les di des classes [0 ; 1[et [3 ; 5[.
[1 ; 2[ 35 Quel est le % des exploitations qui ont
[2 ; 3[ 29 moins de 10 ha ? Que vous inspire la forme
[3 ; 5[ 54 de ce diagramme différentiel (oblique à
gauche) ?
[5 ; 10[ 105
[10 ; 20[ 70 Observations : les classes [0 ; 1[ et [3 ; 5[
[20 ; 40[ 40 ont la particularité d’avoir la même densité
Total de fréquence, à savoir 7,5. Cette situation
signifie qu’il y a autant de chance de rencontrer des exploitations dont la superficie se situe
entre 0 et 1 que celles dont la superficie se situe entre 3 et 5 ha. En outre, cet histogramme est
oblique à gauche ou étalé vers la droite, impliquant le fait que la majorité des exploitations sont
de petites taille, la densité modale étant la classe [1 ; 2[.

 La fonction de répartition dans le cas continu c’est la fonction des fréquences cumulées ou
fonction cumulative F, définie par :
x
∀ x ∈ IR, F ( x) = ∫ f (t )dt .
0

C’est une fonction intégrale de la fonction en escalier f, qui est une fonction affine par
morceaux :
2VNY — 2
; Y – L Y JY VN2 ™ Y ™ Y…
3VNY š Y…
Ainsi, l’ordonnée f(x) de l’histogramme au point x est la dérivée de la fonction F(x). On
l’appelle la densité de la variable statistique. Sa représentation graphique est appelée
diagramme intégral. Il s’agit d’une ligne polygonale composée de segments dont les extrémités
ont pour abscisse les bornes des classes et pour ordonnées les fréquences cumulées
correspondantes à ces bornes. Son tracer consiste à représenter en abscisses les modalités et en
ordonnées les fréquences cumulées croissantes et les fréquences cumulées décroissantes.

De façon générale, F a les propriétés suivantes :

1. si xi −1 < x ≤ xi alors F ( x) = F ( xi ) = Fi ;


Université de Yaoundé II-Soa 9 Année académique 2019-2020

Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

2. F est constant dans l’intervalle [ xi −1; xi [ ;


3. la courbe de F est en escalier ;
4. F est continue à gauche ;
5. F est croissante au sens large : si x < x' alors F ( x) ≤ F ( x' ) ;
6. Lim F ( x) = 1 et Lim F ( x) = 0 .
x →+∞ x→−∞

NB : le point de rencontre des deux courbes projeté sur l’axe des ordonnées correspond à la
fréquence cumulée 0.5; projeté sur l’axe des abscisses, elle indique la valeur médiane de la
distribution.

3. LES OPÉRATEURS « SOMME » ET « PRODUIT »


3.1. L’opérateur « somme » ( œ

Soit une variable statistique X qui prend des valeurs X1, X2,…, Xk. La somme de ces valeurs
k
X1+X2+…+Xk = ∑ X i .
i =1

i =k k
Remarque : lorsqu’il n’y a pas d’ambiguïté, il est indifférent d’écrire : ∑ X i ou
i =1
∑X
i =1
i
ou
k

∑X
1
i
ou ∑X
i
i
ou ∑X i
.

Propriétés
k
P1 : ∑ a = ka
i =1

k k k k
P2 : ∑ ( X i + Yi + Z i ) = ∑ X i + ∑ Yi + ∑ Z i (linéarité)
i =1 i =1 i =1 i =1

k b k
P3 : S’il existe un b tel 3 — H — O, on peut écrire : ∑X =∑X i i + ∑X i
i =1 i =1 i =b +1

P4: ∑ aX i = a∑ X i

P5: ∑ (aX i + b) = a∑ X i + kb (linéarité).

NB : ∑x ≠ ∑ x ; ∑x y
i i i i
≠ yi ( on ne simplifie par l’opérateur) ; ∑x y ≠ ⎡⎣∑ xi ⎤⎦ ⎡⎣∑ yi ⎤⎦ .
i i
∑y iy ∑x i i

3.2. L’opérateur « produit » ( œ

Soit une variable statistique X qui prend des valeurs X1, X2,…, Xk. Le produit X1X2X3…Xk =
k

∏X
i =1
i
.

Université de Yaoundé II-Soa 10 Année académique 2019-2020



Cours de Statistiques appliquées aux sciences sociales Prof. MONDJELI

i=k k k
RQ : lorsque aucune confusion n’est à craindre, on peut écrire : ∏ X i ou ∏ X i ou ∏X i
ou
i =1 i =1 1

∏X
i
i
ou ∏X i
.

Propriétés.
k
P1 : ∏a = a ;
k
P2 : ∏ aX = a ∏ X i i ;
k b k
P3 : S’il existe un b tel que 1<b<k, on peut écrire : ∏ X i = ∏ X i .∏ X i ;
i =1 1=1 i =b +1

P4 : ∏( X Y ) = ∏ X ∏Y
i i i i ;

P5 : ∏ = ∏ ⎜ ⎟ .
x ⎛x ⎞
i i

∏y ⎝y ⎠
i i

∏ ( x + y ) ≠ ∏ x + ∏ y (non linéarité) ; ∏ y
i =k x i xi
NB : i i i i ≠ (on ne simplifie pas).
i =1 ∏ i yi
À faire à la maison : Expliquer et exposer les notions de double sommation et de double
produit. Il faut par la suite faire un rapprochement avec les notions d’intégrale lorsque la série
est continue.

Université de Yaoundé II-Soa 11 Année académique 2019-2020




S-ar putea să vă placă și